DE102015103022A1 - Verfahren und Vorrichtung zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen Maschinensichtsystems - Google Patents

Verfahren und Vorrichtung zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen Maschinensichtsystems Download PDF

Info

Publication number
DE102015103022A1
DE102015103022A1 DE102015103022.5A DE102015103022A DE102015103022A1 DE 102015103022 A1 DE102015103022 A1 DE 102015103022A1 DE 102015103022 A DE102015103022 A DE 102015103022A DE 102015103022 A1 DE102015103022 A1 DE 102015103022A1
Authority
DE
Germany
Prior art keywords
histogram
image file
bitmap image
features
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102015103022.5A
Other languages
English (en)
Inventor
Zhichao Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102015103022A1 publication Critical patent/DE102015103022A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0077Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Abstract

Ein Verfahren zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen (3D-)Sichtsystems enthält das Erfassen einer Bitmap-Bilddatei des Sehfeldes und das Ausführen einer ersten Merkmalsextraktion, um Erscheinungsmerkmale, die ein Farbhistogramm und ein Randrichtungshistogramm enthalten, zu erzeugen. Basierend auf den Erscheinungsmerkmalen, die das Farbhistogramm und das Randrichtungshistogramm enthalten, wird ein verringerter Suchraum identifiziert. Eine zweite Merkmalsextraktion der Bitmap-Bilddatei wird ausgeführt, um geometrische Merkmale, die ein Standpunktmerkmalshistogramm und ein Ensemble von Formfunktionen enthalten, zu identifizieren. Die Erscheinungsmerkmale und die geometrischen Merkmale werden mit den Inhalten des verringerten Suchraums verschmolzen. Die verschmolzenen Erscheinungsmerkmale, geometrischen Merkmale und Inhalte des verringerten Suchraums werden mit mehreren vorgegebenen Teilansichten mehrerer bekannter Objekte verglichen, um eines der bekannten Objekte zu erkennen.

Description

  • TECHNISCHES GEBIET
  • Die Offenbarung bezieht sich auf ein Maschinensichtsystem und auf Verfahren zum Erkennen eines Objekts von Interesse.
  • HINTERGRUND
  • Computer-Vision ist die wissenschaftliche Disziplin, um zu bewirken, dass Maschinen ”sehen” können, so dass sie Informationen aus einem Bild extrahieren und basierend auf den extrahierten Informationen eine Aufgabe ausführen oder ein Problem lösen können. Die Bilddaten können viele Formen annehmen, wie z. B. Standbilder, Video, Ansichten von mehreren Kameras oder mehrdimensionale Daten von einer medizinischen Abtastvorrichtung.
  • Bekannte Roboterwahrnehmungssysteme erreichen eine gewünschte Leistung und eine Zuverlässigkeit durch das Entwickeln spezifischer Beleuchtungsbedingungen, das Strukturieren der Betrachtungsbedingungen und das Ausnutzen der Prozesskonfiguration. Sie sind unter einem engen Bereich von Bedingungen flexibel, die nur in einer Teilmenge der Bedingungen der realen Welt funktionieren, wobei sie bei geringfügigen Änderungen der umgebenden Umwelt ausfallen können. Außerdem ist die Verarbeitungsgeschwindigkeit bekannter Systeme und in Beziehung stehender Techniken für eine effiziente Echtzeitverarbeitung nicht ausreichend. Schlüsselfertige kommerzielle Maschinensichtsysteme können langsam sein, wenn eine umfassendere Flexibilität eingeführt wird, und werden veranlasst, stabil zu arbeiten, indem der Bereich streng strukturiert wird. Die Verarbeitung des Suchens mit großem Sehfeld (FOV) nach Objekten in unerwarteten Orientierungen, die 5–10% des FOV einnehmen, könnte mehrere Sekunden oder mehr erfordern. Dies wird weiter verschlimmert, wenn nach Vorder-/Rück-/Seitenansichten gesucht wird, um den Ort und die Haltung eines Objekts genau zu finden. Außerdem können die Kosten, die dem Strukturieren der Umgebung für bekannte Automatisierungslösungen für Robotermaterialübertragungs- und -handhabungsanwendungen zugeordnet sind, das Drei- bis Zehnfache der Kosten betragen, die der Robotervorrichtung zugeordnet sind. Der Bereich der Produkte, die effizient gehandhabt werden können, kann in bekannten Automatisierungssystemen begrenzt sein und ist oft auf nur eine Handvoll von Ausführungen eingeschränkt. Außerdem sind derartige Systeme für eine andere Klasse von Produkten beschwerlich umzurüsten und langsam neu zu konfigurieren. Folglich sind vorhandene Automatisierungslösungen aufgrund der Probleme, die mit der Investition, den Betriebskosten, der Flexibilität und der Rekonfigurierbarkeit in Beziehung stehen, nicht leicht in Montageoperationen anwendbar, die mit einer breiten Vielfalt von Teilen umgehen.
  • ZUSAMMENFASSUNG
  • Ein Verfahren zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen (3D-)Sichtsystems enthält das Erfassen einer Bitmap-Bilddatei des Sehfeldes unter Verwendung eines Maschinensichtsystems und das Ausführen einer ersten Merkmalsextraktion der Bitmap-Bilddatei, um Erscheinungsmerkmale zu erzeugen, die ein Farbhistogramm und ein Randrichtungshistogramm enthalten. Ein verringerter Suchraum wird basierend auf den Erscheinungsmerkmalen, die das Farbhistogramm und das Randrichtungshistogramm enthalten, identifiziert. Eine zweite Merkmalsextraktion der Bitmap-Bilddatei wird ausgeführt, um geometrische Merkmale zu identifizieren, die ein Standpunktmerkmalshistogramm und ein diesem zugeordnetes Ensemble von Formfunktionen enthalten. Die Erscheinungsmerkmale und die geometrischen Merkmale werden mit den Inhalten des verringerten Suchraums verschmolzen. Die verschmolzenen Erscheinungsmerkmale, geometrischen Merkmale und Inhalte des verringerten Suchraums werden mit mehreren vorgegebenen Teilansichten mehrerer bekannter Objekte verglichen, um eines der bekannten Objekte zu erkennen.
  • Die obigen Merkmale und Vorteile und weitere Merkmale und Vorteile der vorliegenden Lehren werden aus der folgenden ausführlichen Beschreibung einiger der besten Arten und anderer Ausführungsformen zum Ausführen der vorliegenden Lehren leicht ersichtlich, wie sie in den beigefügten Ansprüchen definiert sind, wenn sie im Zusammenhang mit den beigefügten Zeichnungen betrachtet werden.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Nun werden eine oder mehrere Ausführungsformen beispielhaft unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, wobei:
  • 1 ein Maschinensichtsystem zum Erfassen, Verarbeiten und Speichern eines Bildes eines Sehfeldes (FOV), das einen Bilddetektor (eine Kamera) enthält, der (die) signaltechnisch mit einem Codierer verbunden ist, der signaltechnisch mit einem Controller verbunden ist, gemäß der Offenbarung schematisch veranschaulicht;
  • 2 einen schematischen Blockschaltplan eines Objekterkennungsprozesses, um die Maschinenerkennung eines oder mehrerer bekannter Objekte in einem FOV einer Kamera durch das Kombinieren lokaler 2D-Merkmale und globaler 3D-Merkmale auszuführen, gemäß der Offenbarung zeigt;
  • 3 die Vektoren für ein einzelnes Punktpaar Pt und Ps und einen zugeordneten Punktvektor, der Nachbarpunkte repräsentiert, in einer aus der Eingangspunktwolke extrahierten segmentierten Bilddatendatei gemäß der Offenbarung graphisch veranschaulicht;
  • 4 ein Beispiel eines Standpunktkomponentenhistogramms, das die Winkel zwischen der Standpunktrichtung und jeder Normalen sammelt, gemäß der Offenbarung graphisch veranschaulicht; und
  • 5 ein Beispiel eines Ensembles von Formfunktionen (ESF), das auf eine Punktwolke, die ein 3D-Objekt enthält, angewendet ist, gemäß der Offenbarung graphisch veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Unter Bezugnahme auf die Zeichnungen, in der die Darstellungen nur für den Zweck des Veranschaulichens bestimmter beispielhafter Ausführungsformen und nicht für den Zweck des Einschränkens derselben dienen, veranschaulicht 1 schematisch ein beispielhaftes Maschinensichtsystem 100 zum Erfassen, Verarbeiten und Speichern eines Bildes eines Sehfeldes (FOV) 35, das einen Bilddetektor (eine Kamera) 10, der (die) signaltechnisch mit einem Codierer 20 verbunden ist, der signaltechnisch mit einem Controller 50 verbunden ist, enthält. Die Kamera 10 ist vorzugsweise eine Stereovorrichtung ist, die ein dreidimensionales (3D-)Bild 15 des FOV erfassen kann. Die Kamera 10 kann sich in irgendeiner Position und irgendeiner Orientierung bezüglich eines bekannten Objekts 40 in dem FOV 35 befinden, wobei das bekannte Objekt 40 in einer Ebene 45 orientiert ist. Das bekannte Objekt 40 ist eine strukturelle Entität, die vorgegebene Merkmale aufweist, beispielhaft einschließlich der räumlichen Ausdehnungen, der Materialien und der Oberflächenverarbeitungen, die unter anderem das Reflexionsvermögen angeben. Gleiche Bezeichnungen und gleiche Bezugszeichen beziehen sich überall in den Beschreibungen und den Zeichnungen auf gleiche Elemente.
  • In einer Ausführungsform befindet sich das durch die Kamera 10 erfasste 3D-Bild 15 in der Form eines 24-Bit-Stereobildes, das RGB-Werte (Rot-Grün-Blau-Werte) und Tiefenwerte enthält, die das FOV 35 repräsentieren. Andere Ausführungsformen des 3D-Bildes 15 können ohne Einschränkung ein 3D-Bild, das eine Schwarzweiß- oder eine Graustufendarstellung des 3D-FOV und andere Bilddarstellungen darstellt, enthalten. Die Kamera 10 enthält einen Bilderfassungssensor, der signaltechnisch mit dem Codierer 20 verbunden ist, der eine digitale Signalverarbeitung (DSP) an dem 3D-Bild 15 ausführt. Der Bilderfassungssensor erfasst das 3D-Bild 15 als mehrere Bildpunkte in dem FOV 35 mit einer vorgegebenen Auflösung, wobei der Codierer 20 die Bildpunkte in dem FOV 35 codiert, um eine Bitmap-Bilddatei 25 des FOV 35 zu erzeugen, z. B. eine 8-Bit-Bitmap der Bildpunkte, die den FOV 35 in einer vorgegebenen Auflösung repräsentieren. Die Bitmap-Bilddatei 25 wird zu dem Controller 50 übertragen. Die Bitmap-Bilddatei 25 ist eine codierte Datendatei, die in einer Ausführungsform in einem nichtflüchtigen digitalen Datenspeichermedium gespeichert ist. Die Bitmap-Bilddatei 25 enthält eine digitale Darstellung eines 3D-Bildes, das ein oder mehrere bekannte Objekte 40 enthalten kann, und repräsentiert ein Originalbild des FOV 35, das mit der Originalauflösung der Kamera 10 erfasst worden ist. Die mehreren bekannten Objekte 40 können alle von der gleichen Bauform sein oder können unähnliche Bauformen sein. Das durch die Kamera 10 erfasste 3D-Bild 15 des bekannten Objekts 40 enthält ausreichend Informationen, um die Position des bekannten Objekts 40 in Bezug auf die Kamera 10 auszuwerten und außerdem die Auswertung der Daten in der Bitmap-Bilddatei 25, um ein Farbton-Sättigungs-Wert- oder Helligkeits-Modell (HSV-Modell) und ein Farbhistogramm (CH) des FOV 35 zu erzeugen, zu erlauben. Die Form jedes bekannten Objekts 40 hängt von den relativen Betrachtungswinkeln und dem Abstand zwischen der Kamera 10 und dem bekannten Objekt 40 ab, nachdem den Einflüssen, die der Beleuchtung und dem Reflexionsvermögen zugeordnet sind, Rechnung getragen worden ist und die Kamera 10 geeicht worden ist.
  • Controller, Steuermodul, Modul, Steuerung, Steuereinheit, Prozessor und ähnliche Bezeichnungen bedeuten irgendeines oder verschiedene Kombinationen aus einem oder mehreren von einer oder mehreren anwendungsspezifischen integrierten Schaltungen (ASIC), einer oder mehreren elektronischen Schaltungen, einer oder mehrerer Zentraleinheiten (vorzugsweise eines oder mehrerer Mikroprozessoren) und dem zugeordneten Speicher und der zugeordneten Speichervorrichtung (Festwert-, programmierbarer Festwert-, Schreib-Lese-, Festplatten-Speicher usw.), die ein oder mehrere Software- oder Firmware-Programme oder eine oder mehrere Software- oder Firmware-Routinen ausführen, einer oder mehrerer kombinatorische Logikschaltungen, einer oder mehrerer Eingabe-/Ausgabeschaltungen und -vorrichtungen, einer geeigneten Signalaufbereitungs- und Pufferschaltungsanordnung und anderer Komponenten, um die beschriebene Funktionalität, einschließlich der Datenspeicherung und der Datenanalyse, bereitzustellen. Software, Firmware, Programme, Anweisungen, Routinen, Code, Algorithmen und ähnliche Bezeichnungen bedeuten irgendwelche controller-ausführbare Befehlssätze, einschließlich Eichungen und Nachschlagtabellen.
  • 2 zeigt einen maschinenausgeführten sichtbasierten Objekterkennungsprozess 200 in der Form eines Blockschaltplans, um ein oder mehrere bekannte Objekte durch das Kombinieren lokaler 2D-Merkmale und globaler 3D-Merkmale in einer Bitmap-Bilddatei eines FOV zu erkennen. Die Bitmap-Bilddatei des FOV befindet sich in der Form einer Eingangspunktwolke 217, die unter Verwendung einer Ausführungsform des Maschinensichtsystems 100, das bezüglich 1 beschrieben worden ist, erfasst werden kann. Die Schritte des Objekterkennungsprozesses 200 werden vorzugsweise sequentiell mit erhöhter Komplexität ausgeführt, um Merkmale zu extrahieren, zu vergleichen und zu verfeinern, um ein Objekt unter Verwendung des Maschinensichtsystems 100 zu erkennen, das durch ein Robotersystem für das Materialmanagement, das Ergreifen und andere Operationen verwendet werden kann. Der Objekterkennungsprozess 200 verwendet die Objektsegmentierung und die Objekterkennung unter Verwendung identifizierbarer multimodaler Merkmale, die durch das Maschinensichtsystem 100 erfasst werden.
  • Der Ausführung des Objekterkennungsprozesses 200 geht die Ausführung eines Objekterkennungs-Trainingsprozess 250 voraus, der ein Prozess zum Sammeln mehrerer Teilansichten jedes von mehreren bekannten Objekten ist, der das Identifizieren globaler 3D-Merkmale und lokaler 2D-Merkmale enthält, die in einer Teilansichts-Datenbank 255 gespeichert sind und von einer Teilansichts-Datenbank 255 abrufbar sind. Vorzugsweise wird der Objekterkennungs-Trainingsprozess 250 offline ausgeführt, wobei die Ergebnisse in einer abrufbaren Form analysiert, verifiziert und erfasst werden.
  • Der Objekterkennungsprozess 200 beginnt von einer Verarbeitung auf unterer Ebene unter Verwendung erscheinungsbasierter Markierungen und geht zu einer Objektdarstellung auf hoher Ebene durch die Verschmelzung sowohl der 2D- als auch der 3D-Merkmale weiter, um die Maschinenerkennung eines oder mehrerer bekannter Objekte auszuführen.
  • Um den Betrieb des Objekterkennungsprozesses 200 beispielhaft zu beschreiben, wird eine beliebige Anordnung bekannter Objekte 211, 212, 213, 214 und 215 auf einer ebenen Fläche 216 als eine Bitmap-Bilddatei in der Form einer Eingangspunktwolke 217 unter Verwendung einer Ausführungsform des Maschinensichtsystems 100 (210) erfasst. Die bekannten Objekte 211, 212, 213, 214 und 215 enthalten einen Schalter 211, ein Radio 212, eine Feldflasche 213, eine Sprühflasche 214 und einen Griff 215, die für Veranschaulichungszwecke beliebig ausgewählt sind.
  • Die Eingangspunktwolke 217 wird der Segmentierung unterworfen, um die Daten, die die ebene Fläche 216 repräsentieren, aus der Eingangspunktwolke 217 (220) zu entfernen, was zu einer segmentierten Bilddatendatei 225 führt. Dies enthält das Identifizieren von Teilen der Eingangspunktwolke 217, die die ebene Fläche 216 repräsentieren, und das Entfernen dieser oder das anderweitige Nichtfunktionsfähig-Machen dieser, um sie folglich keiner weiteren Analyse zu unterwerfen.
  • Die segmentierte Bilddatendatei wird der 2D-Merkmalsextraktion (230) und der 3D-Merkmalsextraktion (240) unterworfen. Die 2D-Merkmalsextraktion (230) enthält das Identifizieren einzelner Elemente in der segmentierten Bilddatendatei 225 basierend auf den 2D-Erscheinungsmerkmalen. Die Extraktion der 2D-Erscheinungsmerkmale wird durch das Entwickeln eines Farbhistogramms (CH) 235 und eines Rand richtungshistogramms (EDH) 237 aus der segmentierten Bilddatendatei 225 ausgeführt. Das CH 235 basiert vorzugsweise auf einem Farbton-Sättigungs-Wert- oder Helligkeits-(HSV-)Modell des Farbraums, das einen Farbraum hinsichtlich der Komponenten Farbton, Sättigung und Wert definiert. Der Farbton gibt den Farbtyp im sichtbaren Spektrum an, wie z. B. rot, orange, gelb usw. Der Wert des Farbtons bewegt sich zwischen 0 und 179, mit Rot bei 0, Grün bei 60, Blau bei 120 usw. Die Sättigung gibt die Reinheit der Farbe an, wobei ein abnehmender Wert für die Sättigung einer Farbe ein zunehmendes Vorhandensein eines ”Grauanteils” oder ein zunehmendes Verblassen der Farbe angibt. Die Sättigung der Farbe bewegt sich zwischen 0 und 255, wobei 0 Schwarz-Grau-Weiß repräsentiert und 255 die reine Farbe des Spektrums repräsentiert. Der Wert oder die Helligkeit gibt die Intensität der Farbe an und bewegt sich zwischen 0 und 100%. Das HSV-Modell stellt eine nichtlineare Transformation des RGB-Farbraums bereit.
  • Das CH 235 repräsentiert eine Verteilung der Farben in der segmentierten Bilddatendatei 225 und enthält eine numerische Zählung der Bildpunkte, die Farben in jeder einer Liste der Farbbereiche über das Farbspektrum aufweisen. In einer Ausführungsform werden nur die Farbton- und Sättigungswerte verwendet, um die Beleuchtungswirkungen zu minimieren. Der Farbton variiert von 0 bis 179, während die Sättigung von 0 (Schwarz-Grau-Weiß) bis 255 (die reine Farbe des Spektrums) variiert. In einer Ausführungsform ist der Farbton in 15 Niveaus quantisiert, während die Sättigung in 16 Niveaus quantisiert ist. Das CH 235 stellt eine statistische Approximation einer zugrunde liegenden kontinuierlichen Verteilung der Farbwerte bereit.
  • Das EDH 237 ist ein Mehrklassenhistogramm, das die lokale Randverteilung erfasst, um die Häufigkeit und die Direktionalität der Helligkeitsänderungen eines in der segmentierten Bilddatendatei 225 erfassten Objekts darzustellen. Die segmentierte Bilddatendatei 225, die das 2D-Objekt repräsentiert, wird in 4 × 4 nicht überlappende rechteckige Bereiche aufgeteilt. In jedem Bereich berechnet das EDH 237 vier gerichtete Ränder (horizontal, vertikal, zwei Diagonalen) und einen nicht-gerichteten Rand.
  • Das CH 235 und das EDH 237 werden für jede von mehreren Teilansichten der bekannten Objekte, die in der Teilansichts-Datenbank 255 (260) gespeichert sind, mit den 2D-Erscheinungsmerkmalen verglichen, um den Suchraum in der segmentierten Bilddatendatei 225, die einem oder mehreren bekannten Objekten zugeordnet ist, einzugrenzen und zu verringern. Jene Teilansichten in der Teilansichts-Datenbank 255, die eine Gesamtähnlichkeit in der Erscheinung bezüglich der segmentierten Bilddatendatei 225 aufweisen, werden basierend auf einer verschmolzenen Entscheidung ausgewählt, die durch 2D-Farb- und Randrichtungs-Klassifizierer, die dem CH 235 bzw. dem EDH 237 zugeordnet sind, gegeben ist. Folglich wird ein verringerter Suchraum 265 der segmentierten Bilddatendatei 225 identifiziert.
  • Die segmentierte Bilddatendatei 225 wird der 3D-Merkmalsextraktion (240) unterworfen, die das Auswerten der geometrischen 3D-Merkmale, die ein Standpunktmerkmalshistogramm (VFH) 245 und ein Ensemble von Formfunktionen (ESF) 247 enthalten, für die Datenpunkte der segmentierten Bilddatendatei 255 enthält. Das VFH 245 enthält ein Punktmerkmalshistogramm (PFH) und ein Standpunktkomponentenhistogramm.
  • 3 veranschaulicht graphisch die Vektoren für ein einzelnes Punktpaar Pt 320 und Ps 310, das irgendwelche zwei benachbarte oder nebeneinanderliegende Punkte in der aus der Eingangspunktwolke 217 extrahierten segmentierten Datendatei 255 repräsentiert, und einen zugeordneten Punktvektor 305. In einer Ausführungsform wird eine k-dimensionale oder eine k-d baumbasierte Suche nächster Nachbarn verwendet, um die Merkmale zu vergleichen. Ein k-d Baum ist eine den Raum aufteilende Datenstruktur zum Organisieren der Punkte in einem k-dimensionalen Raum zum Ausführen einer Suche, die einen mehrdimensionalen Suchschlüssel umfasst, z. B. Bereichssuchen und Suchen nächster Nachbarn. Die Prozesse der k-d baumbasierten Suche nächster Nachbarn sind bekannt. Das einzelne Punktpaar Pt 320 und Ps 310 stellt ein Beispiel der Elemente bereit, die ein Punktmerkmalshistogramm (PFH) des VFH 245 bevölkern. Der Punktvektor 305 ist eine Linie zwischen den Punkten Pt 320 und Ps 310. Diese Charakterisierung unter Verwendung des PFH des VFH 245 wird ausgeführt, um eine geometrische Beschreibung der Punkte, die in der segmentierten Bilddatendatei 225 enthalten sind, in einer Weise bereitzustellen, die eine Maschinenerkennung erlaubt. Der Punkt Ps 310 ist im Kontext erster 3D-Achsen charakterisiert, die us 312, vs 314 und ws 316 enthalten, wobei der Vektor ns 313 eine Normale für den Punkt ps 310 repräsentiert. Der Punkt Pt 320 ist im Kontext zweiter 3D-Achsen charakterisiert, die ut 322, vt 324 und wt 326 enthalten, wobei der Vektor nt 323 durch einen ersten Winkel θ 325 in einer ersten Ebene, die durch die Achsen u 322 und ω 326 definiert ist, und einen zweiten Winkel α 321 in einer zweiten Ebene, die durch die Achsen u 322 und v 324 definiert ist, charakterisiert ist.
  • Die ersten 3D-Achsen, die us 312, vs 314 und ws 316 enthalten, entsprechen den zweiten 3D-Achsen, die ut 322, vt 324 bzw. wt 326 enthalten, die entlang dem Punktvektor 305 verschoben sind. Der Vektor ns 313 repräsentiert eine Normale für den Punkt ps 310, die zu der ut-Achse 322 parallel ist, und definiert einen dritten Winkel φ 315, der sich zwischen dem Vektor ns 313 und dem Punktvektor 305 befindet. Der Vektor nt 323 repräsentiert eine Oberflächennormale für den Punkt pt 320 und ist durch einen ersten Winkel θ 325 in einer ersten Ebene, die durch die Achsen u 322 und ω 326 definiert ist, und einen zweiten Winkel α 321 in einer zweiten Ebene, die durch die Achsen u 322 und v 324 definiert ist, charakterisiert.
  • Das PFH codiert die Statistik der Form einer Punktwolke, z. B. der Eingangspunktwolke 217, die bezüglich 2 beschrieben worden ist, durch das Akkumulieren der geometrischen Beziehungen zwischen allen Punktpaaren der aus der Eingangspunktwolke 217 extrahierten segmentierten Bilddatendatei 225. Bei einem gegebenen Paar von Punkten in der Umgebung und ihrer Normalen, wie z. B. bezüglich 3 beschrieben ist, akkumuliert das PFH ein vierdimensionales Histogramm, das einen Kosinus des zweiten Winkels α 321, den Kosinus des dritten Winkels φ 315, den ersten Winkel θ 325 und den Abstand zwischen den Punkten Pt 320 und Ps 310, der auf die Umgebung normiert ist, enthält. Die PFH-Parameter enthalten die betrachteten Dimensionen, um das Histogramm zu berechnen, und die Anzahl der Klassen für jede der Dimensionen.
  • Die Winkel, die den ersten Winkel θ 325, den zweiten Winkel α 321 und den dritten Winkel φ 315 enthalten, repräsentieren paarweise den Schwenk-, den Neigungs- und den Gierwinkel, wobei die vorhergehenden Winkel für jedes Paar von Normalen für einen identifizierten Oberflächenfleck in einer segmentierten Bilddatendatei 225 bestimmt worden sind. Dieses Merkmal macht von den Farbinformationen keinen Gebrauch.
  • 4 veranschaulicht graphisch ein Beispiel einer Standpunktkomponente, die durch das Sammeln eines Histogramms der relativen Winkel α 421 zwischen dem Standpunkt 412, einer durch die Linie 410 angegebenen zentralen Standpunktrichtung und jeder von mehreren Oberflächennormalen ni 405 für eine Eingangspunktwolke 417 berechnet wird, wobei die Eingangspunktwolke 417 der Eingangspunktwolke 217 entspricht, die bezüglich 2 beschrieben worden ist. Die Oberflächennormale ni 405 ist für einen einzigen Punkt der Eingangspunktwolke 417. Jeder Punkt der Eingangspunktwolke 417 weist eine (nicht gezeigte) Oberflächennormale auf. Die Linie 414 stellt eine Standpunktrichtung bereit, wobei die Linie 410 eine zentrale Standpunktrichtung ist, die zu der Standpunktrichtung mit einem Ursprungspunkt, der einem zentralen Punkt 420 der Eingangspunktwolke 417 entspricht, parallel ist. Die relativen Winkel α 421 werden verwendet, um die Standpunktkomponente zu konstruieren, die die Statistik der relativen Winkel α 421 zwischen der Oberflächennormalen ni 405 und der zentralen Standpunktrichtung 410 enthält. Die Standpunktkomponente wird durch das Sammeln eines Histogramms der Winkel berechnet, die die Standpunktrichtung 414 mit jeder Oberflächennormalen ni 405 bildet, das den Winkel zwischen der zentralen Standpunktrichtung, die zu jeder Oberflächennormalen ni 405 verschoben ist, enthält. Die zweite Komponente misst die relativen Schwenk-, Neigungs- und Gierwinkel, die bezüglich 3 beschrieben worden sind, die zwischen der Standpunktrichtung 410 an dem zentralen Punkt 420 und jeder der Normalen 405 auf der Oberfläche gemessen werden.
  • 5 veranschaulicht graphisch ein Beispiel eines Ensembles der Formfunktionen (ESF), das auf eine Eingangspunktwolke angewendet ist, die ein 3D-Objekt 501 enthält, das außerdem gezeigt ist. Eine segmentierte Bilddatendatei 225, die das 3D-Objekt 501 enthält, das von einer Eingangspunktwolke extrahiert worden ist, ist bezüglich 2 beschrieben worden. Das 3D-Objekt 501 ist als eine nicht einschränkende Veranschaulichung eines 3D-Objekts gezeigt. Das ESF enthält die Histogramme der Formfunktionen bezüglich des 3D-Objekts 501, das das Ensemble D2 502 und das zugeordnete Histogramm 503, das Ensemble A3 504 und das zugeordnete Histogramm 505, das Ensemble D3 506 und das zugeordnete Histogramm 507 und das Ensemble Verhältnis 508 und des zugeordnete Histogramm 509 enthält. Jedes der Histogramme 503, 505, 507 und 509 enthält die Häufigkeit des Auftretens auf der vertikalen Achse in Bezug auf jede Linie. Das Ensemble D2 502 und das zugeordnete Histogramm 503 werden basierend auf den Abständen zwischen zufällig abgetasteten Punkten, die aus der Eingangspunktwolke, die das 3D-Objekt 501 repräsentiert, ausgewählt werden, entwickelt. Das Ensemble A3 504 und das zugeordnete Histogramm 505 werden basierend auf den eingeschlossenen Winkeln zwischen zwei zufälligen Linien, die aus der Eingangspunktwolke, die das 3D-Objekt 501 repräsentiert, ausgewählt werden, entwickelt. Das Ensemble D3 506 und das zugeordnete Histogramm 507 werden basierend auf den Bereichen, die durch drei zufällig ausgewählte Punkte aufgespannt werden, die aus der Eingangspunktwolke, die das 3D-Objekt 501 repräsentiert, ausgewählt werden, entwickelt. Das Ensemble Verhältnis 508 und das zugeordnete Histogramm 509 werden basierend auf den Verhältnissen der zufälligen Linien, die außerhalb der Oberfläche und in der Oberfläche des 3D-Objekts 501 liegen, die aus der Eingangspunktwolke, die das 3D-Objekt 501 repräsentiert, ausgewählt werden, entwickelt.
  • Unter Bezugnahme auf 2 werden das Standpunktmerkmalshistogramm (VFH) 245 und ein Ensemble der Formfunktionen (ESF) 247 und das Farbhistogramm (CH) 235 und ein Rand richtungshistogramm (EDH) 237 mit den Inhalten des verringerten Suchraums 265 der segmentierten Bilddatendatei 225 verglichen, um das Verschmelzen der Merkmale von dem VFH 245, dem ESF 247, dem CH 235, dem EDH 237 und der Inhalte des verringerten Suchraums 265 (270) auszuführen. Die Verschmelzung der obenerwähnten Merkmale ist basierend auf einem menschlichen Erkennungsweg motiviert, bei dem die menschliche Erkennung von der Verarbeitung auf unterer Ebene unter Verwendung erscheinungsbasierter Markierungen bis zu der Darstellung eines Objekts auf hoher Ebene durch die Verschmelzung mehrerer geometrischer Markierungen beginnt. Die Farbe und die Form transportieren die Informationen schnell, was eine visuelle Suche für das menschliche Wahrnehmungssystem in der physikalischen Welt nach dem Eingrenzen des Suchraums von der Teilansichts-Datenbank 255 durch die 2D-Erscheinungsmerkmale fördert. Jene Teilansichten in der Teilansichts-Datenbank 255, die eine Gesamtähnlichkeit in der Erscheinung bezüglich eines Eingangsobjekts aufweisen, werden basierend auf der verschmolzenen Entscheidung ausgewählt, die durch die 2D-Farb- und Randrichtungs-Klassifizierer gegeben ist.
  • Die Verschmelzung der Merkmale, die einer 2D-Verschmelzung zugeordnet ist, enthält das Vergleichen der 2D-Merkmale eines Objekts mit den Merkmalen der Teilansichten bekannter Objekte, die in der Teilansichts-Datenbank 255 gespeichert sind. Dies enthält das Vergleichen des CH 235 und des EDH 237 mit den Inhalten der Teilansichts-Datenbank 255. Eine gewichtete Summe wird verwendet, um die beiden Übereinstimmungsbewertungen zu kombinieren: S2d = ωSch + (1 – ω)Sedh [1] wobei Sch und Sedh die euklidischen Abstände zwischen den Test- und Trainingsmerkmalen in der Farb- bzw. der Randrichtung sind und in dem CH 235 und dem EDH 237 quantifiziert sind. Die Übereinstimmungsbewertungen werden unter Verwendung einer Maximumnormierung normiert. Der Term ω ist das Gewicht für eines der beiden Merkmale, der in einer Ausführungsform 0,6 ist.
  • In dem verringerten Suchraum wird ein adaptiver Erhöhungs-Lernalgorithmus (Adaboost-Lernalgorithmus), der die geometrischen 3D- und die 2D-Erscheinungsmerkmale kombiniert, ausgeführt, um die effektivsten Merkmale für die endgültige Entscheidung auszuwählen, die jeden Teil der segmentierten Bilddatendatei 225 mit einem der bekannten Objekte (280) korreliert. Die adaptive Erhöhung (Adaboost) ist eine Herangehensweise an das Maschinenlernen, die eine im hohen Grade genaue Vorhersageregel durch das Kombinieren vieler relativ schwacher und ungenauer Regeln oder Klassifizierer erzeugt. Solange wie jeder schwache Klassifizierer mit wenigstens 50% Erfolg arbeitet und die Fehler der verschiedenen Klassifizierer unabhängig sind, kann dann der Algorithmus durch das optimale Auswählen der Gewichte für die schwachen Klassifizierer die Fehlerrate verbessern. In diesem Fall werden vier schwache Klassifizierer verwendet, z. B. die beiden 2D-Merkmale, die das CH 235 und das EDH 237 enthalten, und die beiden 3D-Merkmale, die das VFH 245 und das ESF 247 enthalten.
  • Die Ausführung dieses Teils des Adaboost-Prozesses enthält beispielhaft das Setzen von hn als den n-ten schwachen Klassifizierer und das Annehmen, dass y = hn(x) die Ausgabe des Klassifizierers für die Eingabe x ist. In diesem Fall ist x das Eingangsobjekt und ist y ein binäres Etikett, das angibt, ob ein Objekt durch den schwachen Klassifizierer erkannt wird. Der starke Klassifizierer ist durch eine gewichtete Summe der schwachen Klassifizierer gegeben: Ψ(x) = sign(Σ N / n=1αnhn(x)) [2] wobei αn das durch AdaBoost gefundene skalare Gewicht, das die Wichtigkeit des schwachen Klassifizierers hn angibt, ist, wobei N = 4 ist. Die Gewichte werden in einer iterativen Weise gemäß
    Figure DE102015103022A1_0002
    bestimmt, wobei der Fehler εn wie folgt bestimmt wird.
  • Figure DE102015103022A1_0003
  • In dieser Gleichung ist die Ausgabe yi ∊ {–1, +1) die Grundwahrheit für die Trainingsmenge und ist Dn(i) das Gewicht, das dem i-ten Trainingsbeispiel in der Runde n zugeordnet ist.
  • Folglich werden die Objektsegmentierung und die Objekterkennung unter Verwendung multimodaler Merkmale von beliebigen Standpunkten für Roboteranwendungen durch das Kombinieren sowohl lokaler 2D- als auch globaler 3D-Merkmale in eine multimodale Optimierung optimiert, um hohe Objekterkennungsraten und sehr niedrige falsche Alarme zu erreichen. Dies erlaubt das effiziente Verschmelzen geometrischer und visueller Merkmale in einer vereinheitlichten Weise, z. B. unter Verwendung von Adaboost, und das Klassifizieren sowohl texturierter als auch nicht texturierter Objekte von beliebigen Standpunkten unter Verwendung der Teilansichtsmodellierung. Die Teilansichtsanpassung ermöglicht eine grobe Schätzung der Haltung für eine schnelle Präzisionshaltungsausrichtung. Eine derartige Funktionalität erhöht die Autonomie des Roboters für die Objektmanipulation und die Mensch-Roboter-Zusammenarbeit für die Fertigung.
  • Abermals unter Bezugnahme auf 2 führen die Ergebnisse des effizienten Verschmelzens der geometrischen und der visuellen Merkmale in einer vereinheitlichten Weise, z. B. unter Verwendung von Adaboost, und das Klassifizieren sowohl texturierter als auch nicht texturierter Objekte von beliebigen Standpunkten unter Verwendung der Teilansichtsmodellierung zu dem Objekterkennungsprozess 200, der die Maschinenerkennung der bekannten Objekte 211, 212, 213, 214 und 215, wie z. B. des Schalters 211, des Radios 212, der Feldflasche 213, der Sprühflasche 214 bzw. des Griffs 215 (290), ausführt.
  • Eine sichtbasierte Herangehensweise, wie sie hier beschrieben ist, erkennt automatisch ein bekanntes Objekt in dem FOV. Diese Fähigkeit ermöglicht es einer Vorrichtung, z. B. einem Roboterarm, Objekte zum Ergreifen und/oder die Manipulation durch das Extrahieren der Merkmale über ein Objekt im Kontext seiner Umgebung mit einer flexiblen Anpassung für einen ausgedehnten Bereich von Objekten und Bedingungen, Orientierungen, Beleuchtung, Blickpunkten, Okklusionen, Hintergrund und räumlicher Kenntnis zu lokalisieren. Die hier beschriebene Herangehensweise setzt sowohl die Erscheinung als auch die Geometrie wirksam ein, um ein Objekt sowohl zu lokalisieren als auch zu erkennen, wobei sie die Bereichsinformationen von einem Tiefensensor in dem Haltungsoptimierungsalgorithmus verwenden kann, um die Genauigkeit zu erhöhen. Die Verwendung der multisensorischen Wahrnehmung beschleunigt die Klassifikation und das Suchen durch das Aufnehmen multisensorischer Wahrnehmungsaufmerksamkeitsmechanismen und durch das Entwickeln von Klassifizierer-Taxonomien für das schnelle Parsen durch eine umfassende Vielfalt von Objekten.
  • Ein Verfahren zur Objekterkennung, wie es hier beschrieben ist, fördert den Einsatz von Automatisierungssystemen durch das Bereitstellen hoher Niveaus der Flexibilität und der Rekonfigurierbarkeit. Die hier beschriebenen Konzepte ermöglichen die Flexibilität und die Konvertierbarkeit unter Verwendung einer minimalen Infrastruktur mit einem bestimmten Grad der Automatisierung der ersten Generation der humanoiden Roboter bei Montageoperationen, wie z. B. beim Aufnehmen aus Behältern oder der Materialhandhabung. Es ermöglicht außerdem eine robuste und autonome Montagefähigkeit, das Finden von Teilen in weniger strukturierten Umgebungen, die visuelle Bestätigung von Aufgaben und die leichte Manipulation komplexer und flexibler Teile. Das hier beschriebene System ermöglicht einem Roboterarm, die Rolle der Menschen am Montageband zu ergänzen und die Arbeiterzeit, die bei Routine-, nicht entscheidenden, sich wiederholenden Funktionen des Montageprozesses, die sich innerhalb der kurzfristigen Fähigkeiten geschickter humanoider Roboter befinden, verwendet wird, zu verringern. Das hier beschriebene System ermöglicht einem Roboterarm, halbstarre, starre, prismatische Teile verschiedener Formen und Gestalten handzuhaben, viele Objekte schnell zu detektieren und die Fähigkeit zu besitzen, Modelle für neue Objekte in einer halbautomatischen Weise zu lernen. Diese Fähigkeit ist notwendig und entscheidend, um Roboter zu ermöglichen, die mit Menschen unter Verwendung derselben Prozessinfrastruktur zusammenarbeiten können.
  • Die ausführliche Beschreibung und die Zeichnungen oder die Figuren sind für die vorliegenden Lehren unterstützend und beschreibend, wobei aber der Umfang der vorliegenden Lehren ausschließlich durch die Ansprüche definiert ist. Während einige der besten Arten und andere Ausführungsformen zum Ausführen der vorliegenden Lehren ausführlich beschrieben worden sind, sind verschiedene alternative Bauformen und Ausführungsformen zum Praktizieren der vorliegenden Lehren, die in den beigefügten Ansprüchen definiert sind, vorhanden.

Claims (10)

  1. Verfahren zum Erkennen eines bekannten Objekts in einem Sehfeld eines Maschinensichtsystem, umfassend: Erfassen einer Bitmap-Bilddatei des Sehfeldes unter Verwendung des Maschinensichtsystems; Ausführen einer ersten Merkmalsextraktion der Bitmap-Bilddatei, um Erscheinungsmerkmale, die ein Farbhistogramm und ein Randrichtungshistogramm enthalten, zu erzeugen; Identifizieren eines verringerten Suchraums basierend auf den Erscheinungsmerkmalen, die das Farbhistogramm und das Randrichtungshistogramm enthalten; Ausführen einer zweiten Merkmalsextraktion der Bitmap-Bilddatei, um geometrische Merkmale, die ein Standpunktmerkmalshistogramm und ein diesem zugeordnetes Ensemble von Formfunktionen enthalten, zu identifizieren; Verschmelzen der Erscheinungsmerkmale und der geometrischen Merkmale mit den Inhalten des verringerten Suchraums; Vergleichen der verschmolzenen Erscheinungsmerkmale, geometrischen Merkmale und Inhalte des verringerten Suchraums mit mehreren vorgegebenen Teilansichten mehrerer bekannter Objekte; und Erkennen durch den Controller eines der bekannten Objekte basierend auf dem Vergleichen.
  2. Verfahren nach Anspruch 1, wobei das Vergleichen der verschmolzenen Erscheinungsmerkmale, geometrischen Merkmale und Inhalte des verringerten Suchraums mit den mehreren vorgegebenen Teilansichten mehrerer bekannter Objekte das Ausführen eines adaptiven Erhöhungs-Lernalgorithmus umfasst, um das Vergleichen auszuführen.
  3. Verfahren nach Anspruch 1, wobei das Ausführen einer ersten Merkmalsextraktion der Bitmap-Bilddatei, um die Erscheinungsmerkmale, die ein Farbhistogramm enthalten, zu erzeugen, das Erzeugen eines Histogramms umfasst, das für den Farbwert und die Farbsättigung der Bitmap-Bilddatei quantisiert ist.
  4. Verfahren nach Anspruch 1, wobei das Ausführen einer ersten Merkmalsextraktion der Bitmap-Bilddatei, um die Erscheinungsmerkmale, die ein Randrichtungshistogramm enthalten, zu erzeugen, das Erzeugen eines Histogramms umfasst, das die Häufigkeit und Direktionalität der Helligkeitsänderungen eines in der Bitmap-Bilddatei erfassten Objekts repräsentiert.
  5. Verfahren nach Anspruch 1, wobei das Ausführen einer zweiten Merkmalsextraktion der Bitmap-Bilddatei, um die geometrischen Merkmale, die ein Standpunktmerkmalshistogramm enthalten, zu identifizieren, das Codieren der Statistik einer Form einer Eingangspunktwolke, die der Bitmap-Bilddatei zugeordnet ist, durch das Akkumulieren der geometrischen Beziehungen zwischen allen ihren Punktpaaren umfasst.
  6. Maschinenausgeführter sichtbasierter Objekterkennungsprozess, der umfasst: Erfassen mehrerer vorgegebener Teilansichten für jedes von mehreren bekannten Objekten; Erfassen über ein Maschinensichtsystem einer Bitmap-Bilddatei, die ein 3D-Bild des Sehfeldes, das wenigstens eines der bekannten Objekte enthält, enthält, unter Verwendung des Maschinensichtsystems; Ausführen durch einen Controller einer zweidimensionalen (2D-)Merkmalsextraktion der Bitmap-Bilddatei, um 2D-Erscheinungsmerkmale, die ein Farbhistogramm und ein Randrichtungshistogramm enthalten, zu erzeugen; Identifizieren eines verringerten Suchraums basierend auf den 2D-Erscheinungsmerkmalen, die das Farbhistogramm und das Randrichtungshistogramm enthalten; Ausführen einer 3D-Merkmalsextraktion der Bitmap-Bilddatei, um geometrische Merkmale, die ein Standpunktmerkmalshistogramm und ein diesem zugeordnetes Ensemble von Formfunktionen enthalten, zu identifizieren; Verschmelzen der Erscheinungsmerkmale und der geometrischen Merkmale mit den Inhalten des verringerten Suchraums; Vergleichen der verschmolzenen Erscheinungsmerkmale, geometrischen Merkmale und Inhalte des verringerten Suchraums mit den mehreren vorgegebenen Teilansichten der mehreren bekannten Objekte; und Erkennen durch den Controller eines der bekannten Objekte basierend auf dem Vergleichen.
  7. Prozess nach Anspruch 6, wobei das Vergleichen der verschmolzenen Erscheinungsmerkmale, geometrischen Merkmale und Inhalte des verringerten Suchraums mit den mehreren vorgegebenen Teilansichten mehrerer bekannter Objekte das Ausführen eines adaptiven Erhöhungs-Lernalgorithmus umfasst, um das Vergleichen auszuführen.
  8. Prozess nach Anspruch 6, wobei das Ausführen einer 2D-Merkmalsextraktion der Bitmap-Bilddatei, um die Erscheinungsmerkmale, die ein Farbhistogramm enthalten, zu erzeugen, das Erzeugen eines Histogramms umfasst, das für den Farbwert und die Farbsättigung der Bitmap-Bilddatei quantisiert ist.
  9. Prozess nach Anspruch 6, wobei das Ausführen einer 2D-Merkmalsextraktion der Bitmap-Bilddatei, um die Erscheinungsmerkmale, die ein Randrichtungshistogramm enthalten, zu erzeugen, das Erzeugen eines Histogramms umfasst, das die Häufigkeit und Direktionalität der Helligkeitsänderungen eines in der Bitmap-Bilddatei erfassten Objekts repräsentiert.
  10. Prozess nach Anspruch 6, wobei das Ausführen einer 3D-Merkmalsextraktion der Bitmap-Bilddatei, um die geometrischen Merkmale, die ein Standpunktmerkmalshistogramm enthalten, zu identifizieren, das Codieren der Statistik einer Form einer Eingangspunktwolke, die der Bitmap-Bilddatei zugeordnet ist, durch das Akkumulieren der geometrischen Beziehungen zwischen allen ihren Punktpaaren umfasst.
DE102015103022.5A 2015-02-04 2015-03-03 Verfahren und Vorrichtung zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen Maschinensichtsystems Ceased DE102015103022A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/614,014 2015-02-04
US14/614,014 US9483707B2 (en) 2015-02-04 2015-02-04 Method and device for recognizing a known object in a field of view of a three-dimensional machine vision system

Publications (1)

Publication Number Publication Date
DE102015103022A1 true DE102015103022A1 (de) 2016-08-04

Family

ID=56410004

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015103022.5A Ceased DE102015103022A1 (de) 2015-02-04 2015-03-03 Verfahren und Vorrichtung zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen Maschinensichtsystems

Country Status (3)

Country Link
US (1) US9483707B2 (de)
CN (1) CN106156778B (de)
DE (1) DE102015103022A1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017210316A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017210317A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102018215538A1 (de) * 2018-09-12 2020-03-12 Trumpf Werkzeugmaschinen Gmbh + Co. Kg Verfahren und Vorrichtung zur Identifkation eines Gegenstands
WO2024002622A1 (de) * 2022-06-28 2024-01-04 TRUMPF Werkzeugmaschinen SE + Co. KG Verfahren und system zur unterstützung bei der unterscheidung von blech-werkstücken
CN117726885A (zh) * 2024-02-18 2024-03-19 南京航空航天大学 一种基于三维几何自注意力机制的车身缝隙分类方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977481B2 (en) * 2016-06-24 2021-04-13 Skusub LLC System and method for object matching using 3D imaging
US11334836B2 (en) 2017-01-04 2022-05-17 MSM Holdings Pte Ltd System and method for analyzing media for talent discovery
US10496949B2 (en) 2017-01-04 2019-12-03 Christopher Zoumalan Compositions and methods for treating cutaneous conditions
CN106934372B (zh) * 2017-03-13 2020-05-26 哈尔滨工业大学 基于传统vfh描述子加入颜色信息的点云分类方法
IT201700108941A1 (it) * 2017-09-28 2019-03-28 Microtekna Srl Metodo e apparecchiatura per tarare una valvola di una caldaia a gas
EP3376503A1 (de) * 2017-03-14 2018-09-19 Microtekna S.r.l. Verfahren und vorrichtung zur kalibrierung eines ventils eines gasboilers
WO2018199958A1 (en) 2017-04-27 2018-11-01 Hewlett-Packard Development Company, L.P. Object recognition
US10388005B2 (en) 2017-08-11 2019-08-20 United Technologies Corporation Sensor system for data enhancement
US10387803B2 (en) 2017-08-11 2019-08-20 United Technologies Corporation Sensor system for transcoding data
US10679367B2 (en) 2018-08-13 2020-06-09 Hand Held Products, Inc. Methods, systems, and apparatuses for computing dimensions of an object using angular estimates
CN110097598B (zh) * 2019-04-11 2021-09-07 暨南大学 一种基于pvfh特征的三维物体位姿估计方法
CN110807810A (zh) * 2019-10-30 2020-02-18 武汉理工大学 基于三维点云的拆卸产品结构机器人视觉识别方法
CN111310845A (zh) * 2020-02-26 2020-06-19 广东电网有限责任公司电力科学研究院 一种变电站设备识别方法、装置和设备
US11816857B2 (en) 2020-05-11 2023-11-14 Cognex Corporation Methods and apparatus for generating point cloud histograms
CN113282088A (zh) * 2021-05-21 2021-08-20 潍柴动力股份有限公司 工程车的无人驾驶方法、装置、设备、存储介质及工程车

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4928313A (en) * 1985-10-25 1990-05-22 Synthetic Vision Systems, Inc. Method and system for automatically visually inspecting an article
US5436981A (en) * 1992-06-24 1995-07-25 Canon Kabushiki Kaisha Image processing method, and apparatus therefor
US20020044689A1 (en) * 1992-10-02 2002-04-18 Alex Roustaei Apparatus and method for global and local feature extraction from digital images
JP3113827B2 (ja) * 1996-11-28 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 矩形オブジェクトの認識方法及び認識装置
US6111974A (en) * 1998-02-11 2000-08-29 Analogic Corporation Apparatus and method for detecting sheet objects in computed tomography data
WO2001033504A1 (en) * 1999-10-29 2001-05-10 Cognex Corporation Method and apparatus for locating objects using universal alignment targets
US7039229B2 (en) * 2000-08-14 2006-05-02 National Instruments Corporation Locating regions in a target image using color match, luminance pattern match and hill-climbing techniques
US7227893B1 (en) * 2002-08-22 2007-06-05 Xlabs Holdings, Llc Application-specific object-based segmentation and recognition system
JP3938005B2 (ja) * 2002-10-23 2007-06-27 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および画像処理方法
JP2008258994A (ja) * 2007-04-06 2008-10-23 Ricoh Co Ltd 画像処理装置
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US8290253B1 (en) * 2009-10-30 2012-10-16 Adobe Systems Incorporated Method and apparatus for applying Gaussian Mixture Models to local image patches using an adaptive color lookup table
RU2445677C1 (ru) * 2010-09-13 2012-03-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ черновой печати посредством преобразования растровых изображений в эскизы (варианты)
CN102073864B (zh) * 2010-12-01 2015-04-22 北京邮电大学 四层结构的体育视频中足球项目检测系统及实现
US8737729B2 (en) * 2011-09-30 2014-05-27 Ebay Inc. Re-ranking item recommendations based on image feature data
JP6050223B2 (ja) * 2011-11-02 2016-12-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像認識装置、画像認識方法、及び集積回路
CN103996046B (zh) * 2014-06-11 2017-07-21 北京邮电大学 基于多视觉特征融合的人员识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017210316A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
DE102017210317A1 (de) 2017-06-20 2018-12-20 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Erfassen einer Nutzereingabe anhand einer Geste
WO2018234251A1 (de) 2017-06-20 2018-12-27 Volkswagen Aktiengesellschaft Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste
WO2018234250A1 (de) 2017-06-20 2018-12-27 Volkswagen Aktiengesellschaft Verfahren und vorrichtung zum erfassen einer nutzereingabe anhand einer geste
US11430267B2 (en) 2017-06-20 2022-08-30 Volkswagen Aktiengesellschaft Method and device for detecting a user input on the basis of a gesture
US11644901B2 (en) 2017-06-20 2023-05-09 Volkswagen Aktiengesellschaft Method and device for detecting a user input on the basis of a gesture
DE102018215538A1 (de) * 2018-09-12 2020-03-12 Trumpf Werkzeugmaschinen Gmbh + Co. Kg Verfahren und Vorrichtung zur Identifkation eines Gegenstands
US11972600B2 (en) 2018-09-12 2024-04-30 TRUMPF Werkzeugmaschinen SE + Co. KG Method and apparatus for identifying an article
WO2024002622A1 (de) * 2022-06-28 2024-01-04 TRUMPF Werkzeugmaschinen SE + Co. KG Verfahren und system zur unterstützung bei der unterscheidung von blech-werkstücken
CN117726885A (zh) * 2024-02-18 2024-03-19 南京航空航天大学 一种基于三维几何自注意力机制的车身缝隙分类方法
CN117726885B (zh) * 2024-02-18 2024-04-26 南京航空航天大学 一种基于三维几何自注意力机制的车身缝隙分类方法

Also Published As

Publication number Publication date
CN106156778B (zh) 2019-10-15
CN106156778A (zh) 2016-11-23
US9483707B2 (en) 2016-11-01
US20160224858A1 (en) 2016-08-04

Similar Documents

Publication Publication Date Title
DE102015103022A1 (de) Verfahren und Vorrichtung zum Erkennen eines bekannten Objekts in einem Sehfeld eines dreidimensionalen Maschinensichtsystems
DE102015113434A1 (de) Verfahren zur Objektlokalisierung und Posenschätzung für ein interessierendes Objekt
JP4603512B2 (ja) 異常領域検出装置および異常領域検出方法
DE112012005350B4 (de) Verfahren zum Schätzen der Stellung eines Objekts
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
US8503777B2 (en) Geometric feature based image description and fast image retrieval
Shahab et al. How salient is scene text?
US11568629B2 (en) System and method for finding and classifying patterns in an image with a vision system
CN101383005B (zh) 一种利用辅助规则纹理的乘客目标图像和背景分离方法
JP4728444B2 (ja) 異常領域検出装置および異常領域検出方法
DE102019104310A1 (de) System und Verfahren zur simultanen Betrachtung von Kanten und normalen bei Bildmerkmalen durch ein Sichtsystem
CN106126585A (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
Muñoz et al. Fast 6D pose from a single RGB image using Cascaded Forests Templates
Beksi et al. Object classification using dictionary learning and rgb-d covariance descriptors
DE102015122116A1 (de) System und Verfahren zur Ermittlung von Clutter in einem aufgenommenen Bild
DE102015207903A1 (de) Vorrichtung und Verfahren zum Erfassen eines Verkehrszeichens vom Balkentyp in einem Verkehrszeichen-Erkennungssystem
Song et al. Object tracking with 3D LIDAR via multi-task sparse learning
DE112020004872T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
Barodi et al. An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement
DE102016100134B4 (de) Verfahren und Vorrichtung zum Untersuchen eines Objekts unter Verwendung von maschinellem Sehen
Lu et al. Long range traversable region detection based on superpixels clustering for mobile robots
EP3543901A2 (de) Vorrichtung und verfahren zur robusten ermittlung der position, ausrichtung, identität und ausgewählter zustandsinformationen von objekten
CN114972335A (zh) 一种用于工业检测的图像分类方法、装置及计算机设备
Palmer et al. Scale proportionate histograms of oriented gradients for object detection in co-registered visual and range data
KR101009575B1 (ko) 영상 처리를 통한 롤 또는 쉬트 형태로 연속 생산되는 물품의 결함영상 분류방법

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R006 Appeal filed
R008 Case pending at federal patent court
R003 Refusal decision now final
R011 All appeals rejected, refused or otherwise settled