DE112019006288T5 - Informationsverarbeitungsvorrichtung, programm undinformationsverarbeitungsverfahren - Google Patents

Informationsverarbeitungsvorrichtung, programm undinformationsverarbeitungsverfahren Download PDF

Info

Publication number
DE112019006288T5
DE112019006288T5 DE112019006288.3T DE112019006288T DE112019006288T5 DE 112019006288 T5 DE112019006288 T5 DE 112019006288T5 DE 112019006288 T DE112019006288 T DE 112019006288T DE 112019006288 T5 DE112019006288 T5 DE 112019006288T5
Authority
DE
Germany
Prior art keywords
images
recognition target
image
foreground
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE112019006288.3T
Other languages
English (en)
Inventor
Ken Miyamoto
Takeru Shiraga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112019006288T5 publication Critical patent/DE112019006288T5/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

Bereitgestellt wird eine Informationsverarbeitungsvorrichtung, die umfasst:eine dreidimensionale Informations-Erfassungseinheit (110), die dazu konfiguriert ist, dreidimensionale Informationen zu erfassen, die eine Vielzahl von Bildern enthalten; eine Vordergrundbilderzeugungseinheit (120), die dazu konfiguriert ist, ein Erkennungsziel aus den dreidimensionalen Informationen auszuwählen und ein Bild eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern auszuschneiden, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; eine Hintergrundbild-DB (130), die dazu konfiguriert ist, eine Vielzahl von Hintergrundbildern zu speichern; und eine Bildsynthetisierungseinheit (140), die dazu konfiguriert ist, jedes der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern zu synthetisieren, um eine Vielzahl von synthetisierten Bildern zu erzeugen.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft eine Informationsverarbeitungsvorrichtung, ein Programm und ein Informationsverarbeitungsverfahren.
  • STAND DER TECHNIK
  • Auf dem Gebiet der Bildverarbeitung wurde eine Technik zum Lernen einer großen Anzahl von Bildern vorgeschlagen, um ein Objekt zu erkennen. Bilder von Menschen oder Autos können durch die Verwendung von Open Source in großer Menge vorbereitet werden. Allerdings ist es schwierig, eine große Anzahl von Bildern eines bestimmten Objektes zu sammeln, wie beispielsweise eines bestimmten Autos, Gerätes oder Produktes.
  • In Nichtpatentdokument 1 ist zum Beispiel ein Verfahren zum Vorbereiten einer großen Anzahl von Bildern eines bestimmten Objekts vorgeschlagen, indem Vordergrundbilder, die aus einem dreidimensionalen Modell des Objekts gerendert werden, an einer Vielzahl von Positionen und unter einer Vielzahl von Winkeln erzeugt werden, und indem dann anschließend die Vordergrundbilder in eine Vielzahl von im Voraus vorbereiteten Hintergrundbildern eingefügt werden.
  • BEZUGNAHME AUF DEN STAND DER TECHNIK
  • BEZUGNAHME AUF NICHTPATENTLITERATUR
  • Nichtpatentdokument 1: Manik Goyal, Param Rajpura, Hristo Bojinov und Ravi Hegde, „Dataset Augmentation with Synthetic Images Improves Semantic Segmentation“, arXiv: 1709.00849v3, Dienstag, 26. Juni 2018
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE AUFGABE
  • Die konventionelle Technik ist effektiv, wenn die Form und Textur des dreidimensionalen Modells hochauflösend sind.
  • Es gibt zwei Verfahren zur Erstellung eines dreidimensionalen Modells, wie folgt.
  • Das erste Verfahren besteht darin, ein dreidimensionales Modell manuell zu erstellen. Das Problem dabei ist jedoch, dass dieses Verfahren sehr zeitaufwendig ist.
  • Das zweite Verfahren besteht darin, eine spezielle Umgebung, wie beispielsweise einen Drehtisch vorzubereiten, um ein dreidimensionales Modell zu erstellen. Allerdings besteht dabei das Problem, dass mit diesem Verfahren nur dann ein dreidimensionales Modell erstellt werden kann, wenn das Objekt ein Gewicht und eine Größe aufweist, die eine spezielle Umgebung, wie beispielsweise ein Drehtisch, zulässt.
  • Da es, wie oben beschrieben, nicht möglich ist, ein hochauflösendes dreidimensionales Modell eines spezifischen Objekts zu erstellen, mangelt es der konventionellen Technik an Anwendbarkeit.
  • Entsprechend besteht ein Ziel von einem oder mehreren Aspekten der vorliegenden Erfindung darin, die einfache Erstellung einer großen Anzahl von Bildern eines bestimmten Objektes zu ermöglichen.
  • MITTEL ZUR LÖSUNG DER AUFGABE
  • Eine Informationsverarbeitungsvorrichtung gemäß einem Aspekt der vorliegenden Erfindung beinhaltet: eine dreidimensionale Informations-Erfassungseinheit, die dazu konfiguriert ist, dreidimensionale Informationen zu erfassen, die eine Vielzahl von Bildern enthalten; eine Erkennungszielauswahleinheit, die dazu konfiguriert ist, ein Erkennungsziel aus den dreidimensionalen Informationen auszuwählen; eine Erkennungszielausschneideeinheit, die dazu konfiguriert ist, ein Bild eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern auszuschneiden, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; eine Hintergrundbildspeichereinheit, die dazu konfiguriert ist, eine Vielzahl von Hintergrundbildern zu speichern; und eine Bildsynthetisierungseinheit, die dazu konfiguriert ist, jedes der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern zu synthetisieren, um eine Vielzahl von synthetisierten Bildern zu erzeugen.
  • Ein Programm gemäß einem Aspekt der vorliegenden Erfindung veranlasst einen Computer dazu, als Folgendes zu fungieren: eine Erkennungszielauswahleinheit, die dazu konfiguriert ist, ein Erkennungsziel aus den dreidimensionalen Informationen auszuwählen, die eine Vielzahl von Bildern einschließen; eine Erkennungszielausschneideeinheit, die dazu konfiguriert ist, ein Bild eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern auszuschneiden, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; eine Hintergrundbildspeichereinheit, die dazu konfiguriert ist, eine Vielzahl von Hintergrundbildern zu speichern; und eine Bildsynthetisierungseinheit, die dazu konfiguriert ist, jedes der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern zu synthetisieren, um eine Vielzahl von synthetisierten Bildern zu erzeugen.
  • Ein Informationsverarbeitungsverfahren gemäß einem Aspekt der vorliegenden Erfindung beinhaltet: Erfassen von dreidimensionalen Informationen, die eine Vielzahl von Bildern enthalten; Auswählen eines Erkennungsziels aus den dreidimensionalen Informationen; Ausschneiden eines Bildes eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; Synthetisieren von jedem der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern, um eine Vielzahl von synthetisierten Bildern zu erzeugen.
  • WIRKUNGEN DER ERFINDUNG
  • Gemäß einem oder mehreren Aspekten der vorliegenden Erfindung kann eine große Anzahl an Bildern eines bestimmten Objekts einfach erzeugt werden.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das schematisch eine Konfiguration einer Informationsverarbeitungsvorrichtung gemäß einem Ausführungsbeispiel darstellt.
    • 2 ist ein schematisches Diagramm zur Darstellung eines Koordinatensystems in drei Dimensionen.
    • 3 ist ein Blockdiagramm, das schematisch eine Konfiguration einer Vordergrundbilderzeugungseinheit darstellt.
    • 4 ist ein erstes schematisches Diagramm zur Darstellung der Auswahl eines Erkennungsziels.
    • 5 ist ein zweites schematisches Diagramm zur Darstellung der Auswahl eines Erkennungsziels.
    • 6 ist ein drittes schematisches Diagramm zur Darstellung der Auswahl eines Erkennungsziels.
    • 7 ist ein viertes schematisches Diagramm zur Darstellung der Auswahl eines Erkennungsziels.
    • 8 ist ein Blockdiagramm, das ein Beispiel einer Hardwarekonfiguration einer Informationsverarbeitungsvorrichtung darstellt.
    • 9 ist ein Flussdiagramm, das einen Betriebsablauf der Informationsverarbeitungsvorrichtung darstellt.
    • 10 ist ein Flussdiagramm, das einen Betriebsablauf zum Erzeugen eines Vordergrundbildes darstellt.
  • MODUS ZUR AUSFÜHRUNG DER ERFINDUNG
  • 1 ist ein Blockdiagramm, das schematisch eine Konfiguration einer Informationsverarbeitungsvorrichtung 100 gemäß einem Ausführungsbeispiel darstellt.
  • Die Informationsverarbeitungsvorrichtung 100 beinhaltet eine dreidimensionale Informations-Erfassungseinheit 110, eine Vordergrundbilderzeugungseinheit 120, eine Hintergrundbilddatenbank (nachfolgend als Hintergrundbild-DB bezeichnet) 130 als eine Hintergrundbildspeichereinheit, eine Bildsynthetisierungseinheit 140 und eine Lernbilddatenbank (nachfolgend als Lernbild-DB bezeichnet) 150 als eine Lernbildspeichereinheit.
  • Die dreidimensionale Informations-Erfassungseinheit 110 erfasst dreidimensionale Informationen einschließlich einer Vielzahl von Bildern und Positionsinformationen, welche die dreidimensionalen Positionen einer Vielzahl von Punkten anzeigen, die in jedem der Vielzahl von Bildern enthalten sind. So erfasst die dreidimensionale Informations-Erfassungseinheit 110 die dreidimensionalen Informationen zum Beispiel unter Verwendung von simultaner Lokalisierung und Kartierung (Simultaneou Localization And Mapping, SLAM) oder dergleichen.
  • In dem vorliegenden Ausführungsbeispiel beinhalten die dreidimensionalen Informationen beispielsweise eine Vielzahl von Bildern, die von einer Vielzahl von Aufnahmepositionen oder unter einer Vielzahl von Winkeln aufgenommen wurden, wie zum Beispiel einer Vielzahl von Standpunkten oder Winkeln, und dreidimensionale Punktgruppeninformationen, bei welchen es sich um Positionsinformationen handelt, welche die dreidimensionalen Positionen (d.h. die dreidimensionalen Koordinaten) einer Vielzahl von Punkten angeben, die in jedem der Vielzahl von Bildern enthalten sind. Ferner können die dreidimensionalen Informationen die Vielzahl von Bildern sowie Sensorinformationen enthalten, welche die Positionen und Winkel angeben, von/unter welchen die Vielzahl von Bildern aufgenommen werden. Es sei angemerkt, dass die dreidimensionalen Positionen einer Vielzahl von Punkten, die durch die Positionsinformationen angezeigt werden, auch als eine dreidimensionale Punktgruppe bezeichnet werden.
  • Hier wird nun ein Beispiel beschrieben, in dem die dreidimensionale Informations-Erfassungseinheit 110 durch eine Rot-Grün-Blau-Tiefenkamera (RGB-D) implementiert ist.
  • Wenn die Position eines Punktes I (I = 1, 2, ..., Lf) bei der Aufnahme eines Bildes f (f = 1, 2, ..., F) von einem bestimmten Standpunkt aus qfl ist, ergibt sich die Position qfl aus der folgenden Gleichung (1).
    [Gleichung 1] q f l = f f l K 1 q l i
    Figure DE112019006288T5_0001

    F ist die Anzahl der Bilder, die während der SLAM-Bearbeitung aufgenommen werden, und ist eine ganze Zahl von größer oder gleich 1.
    Lf ist die Anzahl von Pixeln, für die eine Distanz in jedem Bild erhalten wird, und ist eine ganze Zahl von größer oder gleich 1.
    K ist ein interner Parameter der RGB-D-Kamera und ist ein Parameter zur Anzeige eines Fokuspunktes, einer Linsenmitte oder dergleichen.
    q'l ist die Koordinate des Pixels des Bildes, für welches die Distanz erhalten wird. Wie in der folgenden Gleichung (2) gezeigt, wird q'l zum Beispiel durch die Koordinaten der Anzahl der Pixel ul in horizontaler Richtung und der Anzahl der Pixel vl in vertikaler Richtung ausgedrückt, wobei sich der Ursprung in der linken oberen Ecke des Bildes befindet.
    [Gleichung 2] q i l = ( u l v l 1 )
    Figure DE112019006288T5_0002
  • Dabei ist dfl die Distanz von der Aufnahmeposition zu dem Objekt, entsprechend dem Punkt I des Bildes f. Die Distanz dfl wird aus dem Tiefenkanal der RGB-D-Kamera erhalten.
  • Der Punkt qfl wird durch ein Koordinatensystem dargestellt, wie in 2 gezeigt, in dem die Kameraposition der Ursprung ist, die optische Achsenrichtung die z-Achse ist, die seitliche Richtung die x-Achse ist und die Längsrichtung die y-Achse ist.
  • Der Punkt pfl wird hier durch ein Koordinatensystem angezeigt, bei dem sich der Ursprung auf der Aufnahmeposition bezüglich der Kamera befindet. Um eine großflächige Punktgruppe zu erstellen, indem die bei der Aufnahme der einzelnen Bilder erhaltenen Punktgruppen integriert werden, ist es notwendig, die Punktgruppen in einem einheitlichen Koordinatensystem auszudrücken. Im Allgemeinen wird das Koordinatensystem des zum ersten Mal aufgenommenen Bildes (f = 1) verwendet, um die Punktgruppen darzustellen, die bei der Aufnahme eines weiteren Bildes erhalten werden.
  • Der Ablauf eines typischen Verfahrens zur Umwandlung eines Koordinatensystems in das Koordinatensystem des zum ersten Mal aufgenommenen Bildes ist wie folgt.
  • Zunächst werden die lokalen Merkmale aus dem ersten Bild und einem weiteren Bild extrahiert.
  • Anschließend werden die aus den zwei Bildern extrahierten lokalen Merkmale abgeglichen.
  • Dann wird die Beziehung zwischen den zwei Bildern (z. B. der Betrag der Parallelverschiebung und der Betrag der Drehung) mit Hilfe des abgeglichenen lokalen Merkmalspaars ermittelt.
  • Bei dem oben beschriebenen Verfahren handelt es sich um ein typisches Verfahren. Davon abgesehen gibt es zum Beispiel ein Verfahren zum Erhalten der Positionsbeziehung bezüglich des ersten Bildes durch Integrieren der Beziehungen der temporär nebeneinander liegenden Bilder.
  • Wenn die Beziehung zwischen dem ersten Bild und dem anderen Bild f, die durch ein solches Verfahren erhalten wird, als Ti→f dargestellt ist, wird jeder Punkt in dem Koordinatensystem des zum ersten Mal aufgenommenen Bildes durch die folgende Gleichung (3) ausgedrückt.
    [Gleichung 3] r f l = T 1 f 1 q f l
    Figure DE112019006288T5_0003
  • Bei der schließlich erhaltenen dreidimensionalen Punktgruppe handelt es sich um einen Satz von Punkten rfl.
  • Anschließend erzeugt die dreidimensionale Informations-Erfassungseinheit 110 dreidimensionale Informationen einschließlich dreidimensionaler Punktgruppeninformationen, welche die wie oben beschrieben ermittelte dreidimensionale Punktgruppe anzeigen, Sensorinformationen, welche die Position und den Winkel des Bildsensors der RGB-D-Kamera angeben, und der Bilder, die von der RGB-D-Kamera aufgenommen werden. Die dreidimensionale Informations-Erfassungseinheit 110 liefert die erzeugten dreidimensionalen Informationen an die Vordergrundbilderzeugungseinheit 120.
  • Es sei angemerkt, dass die Position und der Winkel des Bildsensors die Position und der Winkel sind, die bei der Aufnahme der einzelnen Bilder verwendet werden. Die Aufnahmeposition des Bildes ist hier als pn gekennzeichnet und der Winkel ist als rn gekennzeichnet. Die Indices der Bilder sind als n = 1, 2,..., N gekennzeichnet und die Anzahl der aufgenommenen Bilder ist N (N ist eine ganze Zahl größer oder gleich 2). Der Ausdruck des Winkels rn kann jede Form annehmen, einschließlich Euler-Winkel, Quaternion oder Euler-Rodrigues-Formel, solange ein dreidimensionaler Drehwinkel bestimmt werden kann.
  • Die Vordergrundbilderzeugungseinheit 120 erzeugt eine Vielzahl von Vordergrundbildern, welche Erkennungsziele aus den dreidimensionalen Informationen zeigen, die von der dreidimensionalen Informations-Erfassungseinheit 110 erfasst werden, und erzeugt Vordergrundbildinformationen, welche die Vielzahl von Vordergrundbildern angeben.
  • 3 ist ein Blockdiagramm, das schematisch eine Konfiguration einer Vordergrundbilderzeugungseinheit 120 darstellt.
  • Die Vordergrundbilderzeugungseinheit 120 enthält eine Erkennungszielauswahleinheit 121 und eine Erkennungszielausschneideeinheit 122.
  • Die Erkennungszielauswahleinheit 121 wählt das Erkennungsziel aus den dreidimensionalen Informationen aus, die von der dreidimensionalen Informations-Erfassungseinheit 110 erfasst werden.
  • Die dreidimensionale Punktgruppe, die von den dreidimensionalen Punktgruppeninformationen angezeigt wird, welche in den dreidimensionalen Informationen oder dem Bild enthalten sind, das in den dreidimensionalen Informationen enthalten ist, kann ein anderes Objekt als das Erkennungsziel enthalten. Wenn zum Beispiel ein Erkennungsziel auf einem Boden platziert und aufgenommen wird, wird auch gleichzeitig eine dreidimensionale Punktgruppe des Bodens aufgenommen. Um andere Informationen als das Erkennungsziel auszuschließen, wählt die Erkennungszielauswahleinheit 121 das Erkennungsziel aus der dreidimensionalen Punktgruppe oder dem Bild aus. Es gibt zwei Auswahlmuster, wie folgt.
  • Bei dem ersten Muster handelt es sich um die manuelle Auswahl.
  • Die Erkennungszielauswahleinheit 121 zeigt eine dreidimensionale Punktgruppe oder ein Bild auf einer nicht dargestellten Anzeigeeinheit auf der Basis der dreidimensionalen Informationen an und empfängt die Auswahl des Bereichs des Erkennungsziels von einem Benutzer über eine nicht dargestellte Eingabeeinheit.
  • Als ein Beispiel wird ein Fall beschrieben, in dem das in den dreidimensionalen Punktgruppeninformationen enthaltene Bild ein Bild 170 ist, wie in 4 dargestellt. Das Bild 170 enthält ein Erkennungsziel 171.
  • In einem solchen Fall, wie in 5 dargestellt, kennzeichnet der Benutzer vier Punkte SA,1, SA,2, SA,3 und SA,4 in dem Bild 170, um das Erkennungsziel 171 auszuwählen. In diesem Fall, wie in 5 dargestellt, spielt es keine Rolle, ob das gesamte Erkennungsziel 171 auf einmal ausgewählt wird. 5 zeigt ein Beispiel, in dem nur eine Oberfläche A, die das Erkennungsziel 171 bildet, ausgewählt wird. Nach der Auswahl der Oberfläche A, wählt der Benutzer jeweils die Oberfläche B und die Oberfläche C aus, wobei dadurch schließlich das gesamte Erkennungsziel 171 ausgewählt wird.
  • Wenn dabei die Punkte SA,1, SA,2, SA,3 und SA,4 als die Oberfläche A gekennzeichnet werden, bestimmt die Erkennungszielauswahleinheit 121 die dreidimensionalen Koordinaten, bei welchen es sich um Positionen in drei Dimensionen handelt, entsprechend diesen Punkten SA,1, SA,2, SA,3 und SA,4 durch die obigen Gleichungen (1) und (3). Es wird davon ausgegangen, dass die hier bestimmten dreidimensionalen Koordinaten in einem Koordinatensystem auf Basis des Aufnahmebeginns dargestellt werden. Folglich werden die dreidimensionalen Koordinaten S'A,1, S'A,2, S'A,3 und S'A,4 erhalten.
  • Entsprechend wird die Auswahl auch für die Oberfläche B und die Oberfläche C durchgeführt. Wenn es schwierig ist, die Oberfläche B oder die Oberfläche C in dem Bild 170 auszuwählen, wie in 4 dargestellt, kann die Erkennungszielauswahleinheit 121 die Auswahl beispielsweise durch Anzeigen eines Bildes 172, wie in 6 dargestellt, das von einem anderen Standpunkt aufgenommen wird, auf einer nicht dargestellten Anzeigeeinheit akzeptieren.
  • Durch Auswählen der Oberfläche B und der Oberfläche C werden die dreidimensionalen Koordinaten S'8,1, S'B,2, S'B,3 und S'B,4 der Oberfläche B und die dreidimensionalen Koordinaten S'C,1, S'C,2, S'C,3 und S'C,4 der Oberfläche C bestimmt.
  • Wenn die Auswahl aus der dreidimensionalen Punktgruppe akzeptiert wird, kennzeichnet der Benutzer direkt die dreidimensionalen Koordinaten S'A,1, S'A,2, S'A,3 und S'A,4 der Oberfläche A, die dreidimensionalen Koordinaten S'B,1, S'B,2, S'B,3 und S'B,4 der Oberfläche B und die dreidimensionalen Koordinaten S'C,1, S'C,2, S'C,3 und S'C,4 der Oberfläche C aus der dreidimensionalen Punktgruppe, die auf der nicht dargestellten Anzeigeeinheit angezeigt wird.
  • Die Erkennungszielauswahleinheit 121 erzeugt Erkennungszielbereichsinformationen, welche die dreidimensionalen Koordinaten S'A,1, S'A,2, S'A,3 und S'A,4 der Oberfläche A, die dreidimensionalen Koordinaten S'B,1, S'B,2, S'B,3 und S'B,4 der Oberfläche B, und die dreidimensionalen Koordinaten S'C,1, S'C,2, S'C,3 und S'C,4 der Oberfläche C anzeigen, die wie oben beschrieben spezifiziert wurden, und liefert die Erkennungszielbereichsinformationen an die Erkennungszielausschneideeinheit 122. Bei den Erkennungszielbereichsinformationen handelt es sich um Informationen, die den Bereich des ausgewählten Erkennungsziels angeben.
  • Das zweite Muster zur Auswahl des Erkennungsziels ist die halbautomatische Auswahl.
  • Die Erkennungszielauswahleinheit 121 kann den Bereich des Erkennungsziels bestimmen, indem sie ein Verfahren zur Bereichsaufteilung wie GrabCut verwendet, bei dem es sich um einen bekannten Algorithmus handelt, um die Grenze zwischen dem Erkennungsziel und den anderen zu bestimmen. Durch die Verwendung der Technik der Bereichsaufteilung, wie in einem Bild 173 aus 8 gezeigt, kann eine Punktgruppe mit den Punkten S1 bis SM (M ist eine ganze Zahl größer oder gleich 2) erhalten werden, die die Grenze zwischen dem Erkennungsziel und den anderen anzeigt. Dann setzt die Erkennungszielauswahleinheit 121 die Punktgruppe mit den Punkten S'1 bis S'M, die durch Umwandlung der Punktgruppe mit diesen Punkten S1 bis SM in dreidimensionale Koordinaten erhalten wurde, als den Bereich des Erkennungsziels 171. Die Umwandlung in die dreidimensionalen Koordinaten wird durch die Gleichungen (1) und (3) durchgeführt, wie oben beschrieben.
  • Die Erkennungszielauswahleinheit 121 erzeugt Erkennungszielbereichsinformationen, die den Erkennungszielbereich angeben, durch die dreidimensionalen Positionen der Punktgruppe mit den Punkten S'1 bis S'M, die wie oben beschrieben spezifiziert werden, und liefert die Erkennungszielbereichsinformationen an die Erkennungszielausschneideeinheit 122.
  • Bei diesem Ansatz spezifiziert die Erkennungszielauswahleinheit 121 den Erkennungszielbereich aus mindestens einem Bild, das in den dreidimensionalen Informationen enthalten ist; das Erkennungsziel kann jedoch auch unter Verwendung der Positionsinformationen spezifiziert werden, die in den dreidimensionalen Informationen enthalten sind. In diesem Fall erzeugt die Erkennungszielauswahleinheit 121 Ebeneninformationen, die eine Vielzahl von Ebenen angeben, aus den Positionsinformationen, die in den dreidimensionalen Informationen enthalten sind. Diese Ebeneninformationen geben eine Ebene an, die der Oberfläche des Objekts entspricht. Anschließend kann die Erkennungszielauswahleinheit 121 die erzeugte Ebene auf der Anzeigeeinheit anzeigen und die Auswahl des Erkennungsziels akzeptieren oder die Grenze aus der erzeugten Ebene bestimmen.
  • Ein typisches Verfahren zum Ermitteln einer Ebene ist RANSAC (Random Sample Consensus). Das Verfahren zum Ermitteln einer Ebene unter Verwendung von RANSAC ist wie folgt.
  • Zunächst wird eine Ebene durch Auswahl von mehreren Punkten aus der dreidimensionalen Punktgruppe erstellt.
  • Als nächstes wird, wenn die Anzahl der Punkte auf der Ebene eine vorgegebene Anzahl oder mehr ist, die erstellte Ebene verwendet, und wenn die Anzahl der Punkte auf der Ebene niedriger als die vorgegebene Anzahl ist, die erstellte Ebene zurückgewiesen.
  • Anschließend wird die obige Verarbeitung wiederholt, um eine Vielzahl von Ebenen zu ermitteln.
  • Die Erkennungszielausschneideeinheit 122 schneidet ein Bild eines Erkennungszielbereichs, der dem von der Erkennungszielauswahleinheit 121 ausgewählten Erkennungsziel entspricht, aus jedem der Vielzahl von Bildern aus, die in den dreidimensionalen Informationen enthalten sind, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen.
  • Zum Beispiel projiziert die Erkennungszielausschneideeinheit 122 den durch die Erkennungszielbereichsinformationen angegebenen Erkennungszielbereich auf das Bild, das in den dreidimensionalen Informationen enthalten ist, und schneidet das Bild des projizierten Bereichs aus, wodurch das Erkennungszielbild, das das Bild des Bereichs ist, der dem ausgewählten Erkennungsziel entspricht, aus der Vielzahl der in den dreidimensionalen Informationen enthaltenen Bilder ausgeschnitten wird.
  • Die folgende Gleichung (4) zeigt ein Verfahren zum Projizieren eines Punktes S', der in einer Erkennungszielbereichsinformation enthalten ist, auf ein Bild n.
    [Gleichung 4] s n = K n P [ r n | p n ] s '
    Figure DE112019006288T5_0004
  • Dabei ist [rn 1 pn] eine Matrix, die auf der Basis der Aufnahmeposition oder des Winkels des Bildes n erstellt wird. P ist eine Matrix für die Umwandlung von einem homogenen Koordinatensystem in ein gewöhnliches Koordinatensystem, das nicht das homogene Koordinatensystem ist, und ist eine Matrix, die in der folgenden Gleichung (5) dargestellt ist.
    [Gleichung 5] P= ( 1 0 0 0 0 1 0 0 0 0 1 0 )
    Figure DE112019006288T5_0005
  • Des Weiteren stellt Kn einen internen Parameter dar, der dem Bild n der Kamera entspricht und sn stellt eine Position dar, wenn der Punkt S' auf das Bild n projiziert wird.
  • Die Erkennungszielausschneideeinheit 122 bestimmt den Bereich des Erkennungsziels in den einzelnen Bildern mithilfe des oben beschriebenen Verfahrens und schneidet den Bereich anschließend aus. Wenn zum Beispiel, wie in 5 dargestellt, die Oberfläche A, die Oberfläche B und die Oberfläche C ausgewählt werden, wird die Gesamtheit dieser Flächen als der Bereich des Erkennungsziels ausgeschnitten. Ebenso wird, wie in 6 dargestellt, ein entsprechender Bereich aus dem Bild 172 ausgeschnitten, das von einem anderen Standpunkt aus aufgenommen wurde. Es sei angemerkt, dass in 6 der Bereich, der dem Erkennungsziel entspricht, durch Berechnen des Bereichs entsprechend dem Bereich ausgeschnitten wird, der in 5 ausgewählt wird.
  • Wie oben beschrieben kann die Erkennungszielausschneideeinheit 122 eine große Anzahl von Vordergrundbildern mit geringer Verarbeitungslast erzeugen, indem sie ein Bild in einem ausgewählten Bereich aus allen in den dreidimensionalen Informationen enthaltenen Bildern ausschneidet und das ausgeschnittene Bild als das Vordergrundbild verwendet. Anschließend liefert die Erkennungszielausschneideeinheit 122 Vordergrundbilddaten, bei welchen es sich um Bilddaten handelt, die ein Vordergrundbild angeben, an die Bildsynthetisierungseinheit 140.
  • Die Hintergrundbild-DB 130 speichert Hintergrundbilddaten, bei welchen es sich um Bilddaten eines Hintergrundbildes handelt.
  • Die Bildsynthetisierungseinheit 140 synthetisiert das Vordergrundbild, das durch die von der Vordergrundbilderzeugungseinheit 120 gelieferten Vordergrundbilddaten angegeben wird, mit dem Hintergrundbild, das von den in der Hintergrundbild-DB 130 gespeicherten Hintergrundbilddaten angegeben wird, setzt dadurch das synthetisierte Bild als ein Lernbild und erzeugt Lernbilddaten, die das Lernbild angeben. Mit anderen Worten erzeugt die Bildsynthetisierungseinheit 140 eine Vielzahl von synthetisierten Bildern durch Synthetisieren von jedem der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern.
  • Genauer gesagt lagert die Bildsynthetisierungseinheit 140 das Vordergrundbild über das Hintergrundbild. Sowohl das Hintergrundbild als auch das Vordergrundbild können ein Farbbild sein, das aus den drei Kanälen rot, blau und grün besteht, oder ein Graustufenbild mit nur einem Kanal. Das Hintergrundbild und das Vordergrundbild können auch ein Bild sein, das eine Distanz enthält, die durch den Tiefenkanal angegeben wird.
  • Die Bildsynthetisierungseinheit 140 kann ein Vordergrundbild auch an verschiedenen Positionen des Hintergrundbildes überlagern, um die Daten noch stärker zu erweitern.
  • Die Lernbild-DB 150 speichert die von der Bildsynthetisierungseinheit 140 erzeugten Lernbilddaten.
  • 8 ist ein Blockdiagramm, das ein Beispiel einer Hardwarekonfiguration der Informationsverarbeitungsvorrichtung 100 darstellt.
  • Die Informationsverarbeitungsvorrichtung 100 enthält einen Rechner 1, eine Ausgabevorrichtung 2, eine Eingabevorrichtung 3 und einen Sensor 4.
  • Bei dem Rechner 1 handelt es sich um einen Computer, der beispielsweise durch einen Speicher und einen Prozessor wie eine Zentraleinheit (Central Processing Unit, CPU) implementiert sein kann, um ein in dem Speicher gespeichertes Programm auszuführen. Ein solches Programm kann über ein Netzwerk bereitgestellt werden oder kann in einem Aufzeichnungsmedium aufgezeichnet sein. Das heißt, ein solches Programm kann beispielsweise als ein Programmprodukt bereitgestellt sein.
  • Ferner kann ein Teil des Rechners 1 z. B. durch eine Verarbeitungsschaltung wie eine Einzelschaltung, eine zusammengesetzte Schaltung, einen programmierten Prozessor, einen parallel programmierten Prozessor, eine anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC) oder eine feldprogrammierbare Gate-Anordnung (Field Programmable Gate Array, FPGA) implementiert sein.
  • Dabei können die Vordergrundbilderzeugungseinheit 120, die Hintergrundbild-DB 130, die Bildsynthetisierungseinheit 140 und die Lernbild-DB 150, wie in 1 dargestellt, durch den Rechner 1 implementiert sein.
  • Die Ausgabevorrichtung 2 ist eine Vorrichtung, die als Ausgabeeinheit zum Anzeigen von verschiedenen Bildschirmbildern fungiert, wie beispielsweise ein Display.
  • Die Eingabevorrichtung 3 ist eine Vorrichtung, die als Eingabeeinheit dient, wie zum Beispiel eine Maus, eine Tastatur und ein Berührungsfeld.
  • Der Sensor 4 ist eine Vorrichtung, die als dreidimensionale Informations-Erfassungseinheit 110 zum Erfassen von dreidimensionalen Informationen dient.
  • In dem ersten Ausführungsbeispiel ist der Sensor 4 als eine RGB-D-Kamera implementiert. Der Sensor 4 kann durch eine Kombination aus einer Trägheitsmesseinheit (Inertial Measurement Unit, IMU) oder einem Sensor, der mithilfe von Infrarotstrahlen, Lichterkennung und Entfernungsmessung (Light Detection and Ranging, LiDAR) oder Ultraschallwellen eine Distanz ermitteln kann, und einer Kamera, die ein zweidimensionales Bild aufnehmen kann, implementiert werden.
  • 9 ist ein Flussdiagramm, das einen Betriebsablauf der Informationsverarbeitungsvorrichtung 100 zeigt.
  • Die Informationsverarbeitungsvorrichtung 100 wiederholt die folgende Verarbeitung für die Anzahl an Hintergrundbildern, die durch die in der Hintergrundbild-DB 130 gespeicherten Hintergrundbilddaten angezeigt werden (S10).
  • Die dreidimensionale Informations-Erfassungseinheit 110 erfasst dreidimensionale Informationen (S11).
  • Die Vordergrundbilderzeugungseinheit 120 erzeugt eine Vielzahl von Vordergrundbildern auf der Basis der dreidimensionalen Informationen, die von der dreidimensionalen Informations-Erfassungseinheit 110 erfasst werden (S12).
  • Die Bildsynthetisierungseinheit 140 wiederholt die folgende Verarbeitung für die Anzahl an Vordergrundbildern, die von der Vordergrundbilderzeugungseinheit 120 erzeugt werden (S13).
  • Die Bildsynthetisierungseinheit 140 synthetisiert das Hintergrundbild, das durch die in der Hintergrundbild-DB 130 gespeicherten Hintergrundbilddaten angezeigt wird, mit dem Vordergrundbild, das durch die von der Vordergrundbilderzeugungseinheit 120 erzeugten Vordergrundbilddaten angezeigt wird, und erzeugt dadurch ein Lernbild (S14). Die Lernbilddaten, die das auf solche Art erzeugte Lernbild anzeigen, werden in der Lernbild-DB 150 gespeichert.
  • 10 ist ein Flussdiagramm, das einen Betriebsablauf zum Erzeugen eines Vordergrundbildes in Schritt 12 aus 9 zeigt.
  • Zunächst wiederholt die Erkennungszielauswahleinheit 121 die folgende Verarbeitung, bis alle Erkennungszielbereiche aus den dreidimensionalen Informationen erfasst werden, die durch die dreidimensionale Informations-Erfassungseinheit 110 erfasst werden (S20).
  • Die Erkennungszielauswahleinheit 121 spezifiziert einen Erkennungszielbereich aus einer dreidimensionalen Punktgruppe oder einem Bild, das in den dreidimensionalen Informationen enthalten ist (S21).
  • Anschließend wiederholt die Erkennungszielausschneideeinheit 122 die folgende Verarbeitung für die Anzahl von Bildern, die in den dreidimensionalen Informationen enthalten sind (S22).
  • Die Erkennungszielausschneideeinheit 122 projiziert den von der Erkennungszielauswahleinheit 121 spezifizierten Erkennungszielbereich auf das Bild (S23).
  • Anschließend schneidet die Erkennungszielausschneideeinheit 122 den projizierten Bereich aus dem Bild aus und setzt dadurch das ausgeschnittene Bild als ein Vordergrundbild (S24).
  • Wie oben beschrieben kann gemäß diesem Ausführungsbeispiel eine große Menge an Lerndaten erzeugt werden, indem die in einer gewöhnlichen Umgebung erhaltenen dreidimensionalen Informationen verwendet werden. Daher muss keine spezielle Umgebung vorbereitet werden, wie in der herkömmlichen Technologie. Ferner kann durch Spezifizieren des Erkennungszielbereichs in einem Bild derselbe Bereich auch aus anderen Bildern ausgeschnitten werden, so dass mit geringem Aufwand eine große Anzahl an Bildern erstellt werden kann. Es ist nicht erforderlich, manuell ein hochauflösendes dreidimensionales Modell zu erstellen oder einen zu erkennenden Bereich für alle Bilder auszuwählen, wie im Stand der Technik.
  • Bezugszeichenliste
  • 100
    Informationsverarbeitungsvorrichtung,
    110
    dreidimensionale Informations-Erfassungseinheit,
    120
    Vordergrundbilderzeugungseinheit,
    130
    Hintergrundbild-DB,
    140
    Bildsynthetisierungseinheit,
    150
    Lernbild-DB,
    121
    Erkennungszielauswahleinheit,
    122
    Erkennungszielausschneideeinheit

Claims (7)

  1. Informationsverarbeitungsvorrichtung, umfassend: eine dreidimensionale Informations-Erfassungseinheit, die dazu konfiguriert ist, dreidimensionale Informationen einschließlich einer Vielzahl von Bildern zu erfassen; eine Erkennungszielauswahleinheit, die dazu konfiguriert ist, ein Erkennungsziel aus den dreidimensionalen Informationen auszuwählen; eine Erkennungszielausschneideeinheit, die dazu konfiguriert ist, ein Bild eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern auszuschneiden, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; eine Hintergrundbildspeichereinheit, die dazu konfiguriert ist, eine Vielzahl von Hintergrundbildern zu speichern; und eine Bildsynthetisierungseinheit, die dazu konfiguriert ist, jedes der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern zu synthetisieren, um eine Vielzahl von synthetisierten Bildern zu erzeugen.
  2. Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Erkennungszielauswahleinheit dazu konfiguriert ist, aus mindestens einem Bild, das in der Vielzahl von Bildern enthalten ist, Erkennungszielbereichsinformationen zu erzeugen, die den Erkennungszielbereich mit dreidimensionalen Positionen einer Vielzahl von Punkten anzeigen, die in dem mindestens einen Bild enthalten sind, und wobei die Erkennungszielausschneideeinheit dazu konfiguriert ist, den Erkennungszielbereich auf jedes der Vielzahl von Bildern zu projizieren, um den Erkennungszielbereich in jedem der Vielzahl von Bildern zu spezifizieren.
  3. Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die dreidimensionalen Informationen Positionsinformationen enthalten, welche dreidimensionale Positionen von jedem der Vielzahl von Punkten anzeigen, die in jedem der Vielzahl von Bildern enthalten sind, wobei die Erkennungszielauswahleinheit dazu konfiguriert ist, dreidimensionale Positionen einer Vielzahl von Punkten, die in mindestens einem Bild enthalten sind, welches in der Vielzahl von Bildern enthalten ist, aus den Positionsinformationen auszuwählen und Erkennungszielbereichsinformationen zu erzeugen, die den Erkennungszielbereich mit den ausgewählten Positionen anzeigen, und wobei die Erkennungszielausschneideeinheit dazu konfiguriert ist, den Erkennungszielbereich auf jedes der Vielzahl von Bildern zu projizieren, um den Erkennungszielbereich in jedem der Vielzahl von Bildern zu spezifizieren.
  4. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 3, wobei die Vielzahl von Bildern Bilder sind, die durch Aufnehmen des Erkennungsziels aus verschiedenen Aufnahmepositionen oder unter verschiedenen Winkeln erhalten werden.
  5. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Bildsynthetisierungseinheit dazu konfiguriert ist, ein Vordergrundbild, das in der Vielzahl von Vordergrundbildern enthalten ist, mit einem Hintergrundbild, das in der Vielzahl von Hintergrundbildern enthalten ist, an verschiedenen Positionen in dem einen Hintergrundbild zu synthetisieren, um eine Vielzahl von synthetisierten Bildern aus der Kombination des einen Hintergrundbildes und des einen Vordergrundbildes zu erzeugen.
  6. Programm zum Veranlassen eines Computers dazu, als Folgendes zu fungieren: eine Erkennungszielauswahleinheit, die dazu konfiguriert ist, ein Erkennungsziel aus dreidimensionalen Informationen auszuwählen, die eine Vielzahl von Bildern enthalten; eine Erkennungszielausschneideeinheit, die dazu konfiguriert ist, ein Bild eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern auszuschneiden, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; eine Hintergrundbildspeichereinheit, die dazu konfiguriert ist, eine Vielzahl von Hintergrundbildern zu speichern; und eine Bildsynthetisierungseinheit zum Synthetisieren von jedem der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern, um eine Vielzahl von synthetisierten Bildern zu erzeugen.
  7. Informationsverarbeitungsverfahren, umfassend: Erfassen von dreidimensionalen Informationen, die eine Vielzahl von Bildern enthalten; Auswählen eines Erkennungsziels aus den dreidimensionalen Informationen; Ausschneiden eines Bildes eines Erkennungszielbereichs entsprechend dem ausgewählten Erkennungsziel aus jedem der Vielzahl von Bildern, um eine Vielzahl von Vordergrundbildern aus der Vielzahl von Bildern zu erzeugen; Synthetisieren von jedem der Vielzahl von Vordergrundbildern mit jedem der Vielzahl von Hintergrundbildern, um eine Vielzahl von synthetisierten Bildern zu erzeugen.
DE112019006288.3T 2019-01-22 2019-01-22 Informationsverarbeitungsvorrichtung, programm undinformationsverarbeitungsverfahren Ceased DE112019006288T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/001753 WO2020152763A1 (ja) 2019-01-22 2019-01-22 情報処理装置、プログラム及び情報処理方法

Publications (1)

Publication Number Publication Date
DE112019006288T5 true DE112019006288T5 (de) 2021-09-16

Family

ID=71735521

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019006288.3T Ceased DE112019006288T5 (de) 2019-01-22 2019-01-22 Informationsverarbeitungsvorrichtung, programm undinformationsverarbeitungsverfahren

Country Status (7)

Country Link
US (1) US11967081B2 (de)
JP (1) JP6843319B2 (de)
KR (1) KR102355578B1 (de)
CN (1) CN113287151A (de)
DE (1) DE112019006288T5 (de)
TW (1) TWI768231B (de)
WO (1) WO2020152763A1 (de)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム
CN105593901B (zh) 2013-06-28 2020-06-12 日本电气株式会社 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序
TWI517096B (zh) * 2015-01-12 2016-01-11 國立交通大學 用於立體影像合成之逆向深度映射方法
JP2017182129A (ja) 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置。
JP2017228874A (ja) * 2016-06-21 2017-12-28 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
KR101886754B1 (ko) * 2017-05-04 2018-09-10 국방과학연구소 머신 러닝을 위한 학습 이미지 생성 장치 및 방법
TWI638334B (zh) * 2017-11-15 2018-10-11 瑞昱半導體股份有限公司 前景影像提取的影像處理方法與電子裝置
CN109146830A (zh) 2018-07-17 2019-01-04 北京旷视科技有限公司 用于生成训练数据的方法、装置、系统和存储介质

Also Published As

Publication number Publication date
CN113287151A (zh) 2021-08-20
KR20210092842A (ko) 2021-07-26
TWI768231B (zh) 2022-06-21
JPWO2020152763A1 (ja) 2021-03-18
JP6843319B2 (ja) 2021-03-17
US20210342572A1 (en) 2021-11-04
US11967081B2 (en) 2024-04-23
WO2020152763A1 (ja) 2020-07-30
KR102355578B1 (ko) 2022-01-25
TW202029132A (zh) 2020-08-01

Similar Documents

Publication Publication Date Title
DE60310226T2 (de) Verfahren zur linearen raumabtastung und vorrichtung zur erzeugung eines numerischen 3d modells
DE602006000627T2 (de) Dreidimensionales Messverfahren und dreidimensionale Messvorrichtung
EP1173749B1 (de) Bildbearbeitung zur vorbereitung einer texturanalyse
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE102017009276A1 (de) Erzeugen eines dreidimensionalen modells aus einem gescannten gegenstand
DE112019000687T5 (de) Fotorealistische dreidimensionale texturierung unter verwendung kanonischer ansichten und eines zweistufigen ansatzes
DE60020038T2 (de) Verfahren zum Verarbeiten eines numerischen Bildes
DE112007002904T5 (de) Vorrichtung und Verfahren zum Erzeugen photorealistischer Bild-Thumbnails
EP0425595A1 (de) Verfahren und anordnung zur automatischen optischen klassifikation von pflanzen.
EP2144036A2 (de) Verfahren und Vorrichtung zur 3D-Digitalisierung eines Objekts
DE102009051826A1 (de) Verfahren zum Vergleichen der Ähnlichkeit von 3D-bildlichen Objekten
DE3219032A1 (de) Stereophotogrammetrisches aufnahme- und auswerteverfahren sowie auswertevorrichtung
DE102009023756B4 (de) Verfahren zum Herkunftsnachweis und zur Urheberschaft von Bildern
DE112013004103T5 (de) Verfahren und Vorrichtung zum Erzeugen einer Disparitätskarte
DE112010002677T5 (de) Verfahren und vorrichtung zum bestimmen einer formübereinstimmung in drei dimensionen
DE3921257A1 (de) Verfahren und vorrichtung zur digitalen analyse von auf stratigraphische daten bezogenen abbildungen
DE3312050A1 (de) Verfahren zum herstellen einer photographischen maske
DE102013215301A1 (de) System, Verfahren und Computerprogrammprodukt zum Extrudieren eines Modells durch eine zweidimensionale Szene
DE102015208087A1 (de) Verfahren zum Generieren eines reflektionsreduzierten Kontrastbildes und diesbezügliche Vorrichtungen
DE112017003426T5 (de) Verfahren und System zum Rekonstruieren einer dreidimensionalen Darstellung
DE102016100134B4 (de) Verfahren und Vorrichtung zum Untersuchen eines Objekts unter Verwendung von maschinellem Sehen
DE202013012450U1 (de) System für die Identifizierung von Tiefendaten, die mit einem Objekt verbunden sind
DE69814482T2 (de) Verfahren und Vorrichtung zur Darstellung von Oberflächen aus volumetrischen Daten
DE102012103373A1 (de) Verfahren zur Erstellung eines 3D-Modells urbaner Umgebungen
DE19742931C2 (de) Verfahren und Vorrichtung zur Bildsynthese

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final