DE102016200660A1 - Verfahren zur Erstellung einer Tiefenkarte mittels einer Kamera - Google Patents

Verfahren zur Erstellung einer Tiefenkarte mittels einer Kamera Download PDF

Info

Publication number
DE102016200660A1
DE102016200660A1 DE102016200660.6A DE102016200660A DE102016200660A1 DE 102016200660 A1 DE102016200660 A1 DE 102016200660A1 DE 102016200660 A DE102016200660 A DE 102016200660A DE 102016200660 A1 DE102016200660 A1 DE 102016200660A1
Authority
DE
Germany
Prior art keywords
camera
depth
subregions
area
depth information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102016200660.6A
Other languages
English (en)
Inventor
Merlin Goettlinger
Jan Karl Warzelhan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to EP16200831.2A priority Critical patent/EP3185213B1/de
Priority to US15/384,556 priority patent/US10237535B2/en
Priority to CN201611273146.9A priority patent/CN107093193B/zh
Publication of DE102016200660A1 publication Critical patent/DE102016200660A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/02Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness
    • G01B11/026Measuring arrangements characterised by the use of optical techniques for measuring length, width or thickness by measuring distance between sensor and object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/571Depth or shape recovery from multiple images from focus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10148Varying focus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Erstellung einer Tiefenkarte wenigstens eines ausgewählten Bereichs (210) eines Erfassungsbereichs (200) einer Kamera (100), wobei mittels der Kamera (100) mehrere, voneinander verschiedene Teilbereiche (220, 221, 222) des wenigstens einen ausgewählten Bereichs (210) angesteuert werden, wobei für jeden der Teilbereiche (220, 221, 222) mittels Variation einer Fokuseinstellung der Kamera (100) eine Tiefeninformation aus dem jeweiligen Teilbereich (220, 221, 222) ermittelt wird, und wobei unter Berücksichtigung der Tiefeninformationen der Teilbereiche (220, 221, 222) die Tiefenkarte (400) erstellt wird, sowie eine solche Kamera (100).

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Erstellung einer Tiefenkarte wenigstens eines ausgewählten Bereichs eines Erfassungsbereichs einer Kamera sowie Kamera, eine Recheneinheit und ein Computerprogramm zu dessen Durchführung.
  • Stand der Technik
  • Überwachungskameras werden zum Erkennen verdächtiger Gegenstände oder Personen, Zählen von Personen oder eine automatische Überwachung eines bestimmten Bereichs im Erfassungsbereich der Kamera verwendet. Insbesondere werden hierbei sterile Zonen wie bspw. Zäune, Außenflächen von Gebäuden und dergleichen überwacht. Der Einsatzbereich solcher Überwachungskameras weitet sich zunehmend jedoch auch auf öffentlich zugängliche Bereiche, wie bspw. Supermärkte, Bahnhöfe, Flughäfen und dergleichen aus.
  • Um eine robuste Verfolgung von Objekten (auch als Tracking bezeichnet) in solchen Szenen zu gewährleisten, können die Überwachungskameras kalibriert werden. Hierbei kommt typischerweise eine Kalibrierung in Betracht, die eine Beziehung von 2D-Bildpunkten zu 3D-Weltpunkten berechnet, deren Position sich auf der dazugehörigen Grundebene befindet. Mit diesen Informationen können reale Geschwindigkeiten und Objektgrößen abgeschätzt werden, um bspw. eine stabilere Objektverfolgung im Kamerabild berechnen zu können.
  • Weitergehende Tiefeninformation, wie bspw. von in der Szene befindlichen Gegenständen (z.B. Hindernisse, Rampen, Treppen, Schränke, abgestellte Gegenstände und dergleichen), kann in der Regel nicht ohne Weiteres mit einem sog.
  • Ein-Kamera-System, d.h. einer fest installierten, monokularen Kamera, wie sie typisch für den Bereich der Videoüberwachung ist, extrahiert werden. Diese Informationen sind aber zusätzlich nützlich, um eine weitere Verbesserung und somit robustere Systeme mit Videoinhaltsanalyse (auch mit VCA als Abkürzung für Video Content Analysis bezeichnet) entwickeln zu können.
  • Neben statischen Kameras können in der Videoüberwachung auch sog. PTZ-Kameras mit PTZ als Abkürzung für Pan, Tilt und Zoom, d.h. Schwenken, Kippen und Zoomen, eingesetzt werden. Solche Kameras sind zwar stationär an einem Ort angebracht, deren Kamerasystem (optisches System mit Bildsensor) ist aber beweglich. Dies ermöglicht eine Beobachtung verschiedener Bereiche einer Überwachungsszene und somit eine flexiblere Videoüberwachungsmöglichkeit der zu überwachenden Szene.
  • Aus der DE 10 2013 223 995 A1 ist bspw. eine Überwachungskamera bekannt, mit der eine Tiefenkarte, d.h. eine Karte mit Tiefeninformationen (d.h. Abstand eines Bildpunktes von einem Referenzpunkt, insbesondere von der Kamera), eines Erfassungsbereichs der Kamera ermittelt werden kann. Hierbei wird die Kamera im Raum bewegt, um den Erfassungsbereich aus verschiedenen Blickwinkeln erfassen zu können, woraus dann die Tiefenkarte ermittelt wird.
  • Offenbarung der Erfindung
  • Erfindungsgemäß werden ein Verfahren zur Erstellung einer Tiefenkarte für eine Kamera sowie eine Kamera, eine Recheneinheit und ein Computerprogramm zu dessen Durchführung mit den Merkmalen der unabhängigen Patentansprüche vorgeschlagen. Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche sowie der nachfolgenden Beschreibung.
  • Ein erfindungsgemäßes Verfahren dient zur Erstellung einer Tiefenkarte wenigstens eines ausgewählten Bereichs eines Erfassungsbereichs einer Kamera. Bei dem Erfassungsbereich kann es sich hierbei um den maximal von der Kamera, ggf. auch durch Schwenken der Kamera oder Ähnlichem, erfassbaren bzw. einsehbaren Bereich bzw. die zu überwachende Szene handeln. Bei dem wenigstens einen ausgewählten Bereich kann es sich zwar auch um den vollständigen Erfassungsbereich handeln, jedoch ist es oft zweckmäßig, nur gewisse Bereiche aus dem gesamten Erfassungsbereich auszuwählen, für die eine Überwachung gewünscht ist. So kann es bspw. zweckmäßig sein, nur einen solchen Bereich auszuwählen, indem sich tatsächlich Personen bewegen können. Bei dem vorgeschlagenen Verfahren werden nun mittels der Kamera mehrere, voneinander verschiedene Teilbereiche des wenigstens einen ausgewählten Bereichs angesteuert. Unter dem Ansteuern eines Teilbereichs soll hierbei ein Einschränken des aktuellen, im Blick der Kamera befindlichen Bereichs der Kamera auf einen bestimmten zu erfassenden Teilbereich verstanden werden. Die Ansteuerung bestimmter Teilbereiche kann bspw. unter Verwendung von Öffnungswinkel und aktuellem Blickwinkel der Kamera, die für eine verwendete Kamera in der Regel im Rahmen deren Steuerung bekannt sind, erfolgen. Die Teilbereiche werden im Rahmen der Bildverarbeitung oftmals auch als sog. Kacheln bezeichnet. Für jeden der Teilbereiche wird nun mittels Variation einer Fokuseinstellung der Kamera eine Tiefeninformation aus dem jeweiligen Teilbereich ermittelt, wobei dann unter Berücksichtigung der Tiefeninformationen der Teilbereiche die Tiefenkarte erstellt wird.
  • Mit dem vorgeschlagenen Verfahren ist es nun möglich, eine sehr genaue Tiefenkarte, d.h. eine Karte mit Tiefeninformationen des Erfassungsbereichs der Kamera oder zumindest wenigstens eines ausgewählten Bereichs davon, zu erstellen. Das vorgeschlagene Verfahren macht sich dabei zunutze, dass eine Ermittlung einer Tiefeninformation mittels Variation der Fokuseinstellungen der Kamera für kleine Ausschnitte eines Erfassungsbereichs deutlich besser funktioniert als für den gesamten Erfassungsbereich, da in einem kleinen Ausschnitt im Vergleich zu dem gesamten Erfassungsbereich in aller Regel nicht Objekte mit verschiedenen Entfernungen zu sehen sind. Bei den Objektiven solcher Kameras, wie sie für Überwachungszwecke verwendet werden, werden in der Regel sehr viele Bereiche des Erfassungsbereichs bzw. der Szene scharf gestellt, da in der Videoüberwachung ein möglichst großer Bereich einer Szene erkannt werden soll. Während hier dann keine Tiefeninformationen durch Variation der Fokuseinstellungen aus dem Erfassungsbereich gewonnen werden können, ist dies mit dem vorgeschlagenen Verfahren möglich.
  • Mit dem vorgeschlagenen Verfahren ist es weiterhin möglich, 3D-Informationen einer zu überwachenden Szene verstärkt in neuen Anwendungen der automatischen Videoüberwachung zu nutzen, bspw. um robustere VCA-Systeme entwickeln zu können. Die Extraktion bzw. Bereitstellung dieser Tiefeninformationen über andere Verfahren wäre sehr aufwändig und kostspielig, insbesondere dann, wenn bspw. mittels einer Kamera die Szene abgelaufen werden müsste, um auf diese Weise 3D-Informationen zu extrahieren (sog. "Structure from Motion"), oder eine Verwendung von 3D-Sensoren (z. B. Kinect, Time-Of-Flight-Kameras, Stereokameras).
  • Das vorgeschlagene Verfahren kann bspw. im Hintergrund während eines normalen Betriebs der Kamera laufen, oder auch wenn die Kamera bspw. gerade nicht anderweitig verwendet wird.
  • Das vorgeschlagene Verfahren kann auch nur punktuell in der Szene eingesetzt werden, um mögliche Störgrößen für die Objektverfolgung zu validieren. Tracks, d.h. Objektverfolgungen, können oftmals an bestimmten Stellen der Szene immer wieder abbrechen oder verschwinden. Mit dem vorgeschlagenen Verfahren können diese Bereiche gezielt vermessen werden, um bspw. Verdeckungskanten, d.h. Kanten von Objekten, hinter welchen eine Person verdeckt sein kann, zu bestätigen.
  • Mittels der Extraktion solcher Tiefeninformationen können zusätzliche Funktionen im Bereich der Sicherheitstechnik bereitgestellt werden, bspw. kann die Frage beantwortet werden, ob sich Gegenstände vor Notausgängen oder auf Wegen zu Notausgängen befinden. Außerdem kann die Frage beantwortet werden, ob eine freie Sicht der Kamera auf die Szene durch nahe Hindernisse blockiert ist.
  • Das vorgeschlagene Verfahren ist zudem auf bereits installierten Kameras anwendbar. Es kann bspw. als zusätzlicher Service angeboten werden und somit einen Mehrwert für bestehende Kamera-Installationen bieten.
  • Vorzugsweise werden die anzusteuernden Teilbereiche unter Berücksichtigung von Bildgradienten in einem dem wenigstens einen ausgewählten Bereich entsprechenden Bild ausgewählt. Unter solchen Bildgradienten können bspw. Gradienten von Helligkeitswerten benachbarter Pixel verstanden werden. Da solche Gradienten gerade für Kanten von Objekten, welcher wiederum auch Tiefensprünge darstellen, besonders groß sind, lässt sich durch Berücksichtigung von Bildgradienten besonders gut nach Objekten unterscheiden, so dass die Teilbereiche gezielt ausgewählt werden können, um Tiefensprünge zu detektieren.
  • Vorteilhafterweise werden die anzusteuernden Teilbereiche unter Berücksichtigung einer Objektverfolgung in dem wenigstens einen ausgewählten Bereich ausgewählt. Hierzu kann bspw. auf eine Videoinhaltsanalyse des Erfassungsbereichs bzw. des wenigstens einen ausgewählten Bereichs zurückgegriffen werden, bei welcher Objekte wie bspw. Personen verfolgt werden. Die anzusteuernden Teilbereiche können auf diese Weise auf solche Bereiche eingeschränkt werden, in denen tatsächlich Personen auftauchen können und daher eine besonders gute Tiefeninformation zur besseren Objektverfolgung nötig ist. Andere, für die Überwachung nicht relevante Bereiche können damit sehr einfach ausgeschlossen werden, wodurch die Erstellung der Tiefenkarte schneller erfolgen kann.
  • Es ist von Vorteil, wenn die anzusteuernden Teilbereiche derart ausgewählt werden, dass benachbarte Teilbereiche wenigstens teilweise überlappen, oder exakt bzw. möglichst exakt aneinandergrenzen. Auf diese Weise ist später ein Zusammenfügen der einzelnen, aus den jeweiligen Teilbereichen gewonnen Tiefenbilder einfacher möglich.
  • Vorzugsweise werden bei der Erstellung der Tiefenkarte einzelne, den Teilbereichen entsprechende Tiefenbilder zusammengesetzt, wobei Tiefeninformationen für Bereiche des wenigstens einen ausgewählten Bereichs, für die mittels der Kamera keine Tiefeninformation ermittelt wurden, wenigstens teilweise unter Berücksichtigung der Tiefeninformationen der Teilbereiche abgeschätzt werden. Zum einen müssen auf diese Weise nicht für alle im relevanten Überwachungsbereich liegenden Teilbereiche Tiefeninformationen ermittelt werden, zum anderen ist dies oftmals auch nur schwierig möglich. Insbesondere bei homogenen Flächen, wie bspw. Oberflächen von Gegenständen, können Tiefeninformationen durch Variation der Fokuseinstellungen kaum gewonnen werden. Diese fehlenden Bereiche können dann bspw. durch Interpolation zwischen Tiefen, die Kanten eines Objekts entsprechen, sehr einfach abgeschätzt werden.
  • Vorteilhafterweise wird mittels Variation der Fokuseinstellung der Kamera die Tiefeninformation aus dem jeweiligen Teilbereich ermittelt, indem Bilder für verschiedene Fokusstufen aufgenommen werden, und aus Bildgradienten der einzelnen Bilder eine dem maximalen Bildgradienten entsprechende Fokuseinstellung ermittelt wird. Unter solchen Bildgradienten können bspw. Gradienten von Helligkeitswerten benachbarter Pixel verstanden werden. Hierzu kann bspw. für verschiedene, vorbestimmte Fokuseinstellungen jeweils ein Bild des jeweiligen Teilbereichs aufgenommen werden, wodurch man eine Serie von Bildern, einen sog. Bildstapel, erhält. Da bei demjenigen Bild mit der besten Fokuseinstellung, d.h. bei demjenigen Bild, das am schärfsten abgebildet wird, der Bildgradient am größten ist, kann durch Ermittlung des maximalen Bildgradienten die der Entfernung des Objekts entsprechende Fokuseinstellung, die das Objekt scharf abbildet, gefunden werden. Aus der so ermittelten Fokuseinstellung kann dann bspw. anhand von Vergleichswerten oder einer Funktion, wodurch einer Fokuseinstellung eine Entfernung zugeordnet wird, die Entfernung des Objekts, d.h. die Tiefeninformation, ermittelt werden. Diese – an sich bekannte – Vorgehensweise wird auch als "Depth from Focus" bezeichnet. Solche Vergleichswerte oder an solche Vergleichswerte gefittete Funktionen können bspw. durch Testaufnahmen ermittelt werden.
  • Die Genauigkeit der mittels Variation der Fokuseinstellung der Kamera ermittelten Tiefeninformation kann bspw. erhöht werden, indem ein geeignetes Modell des Fokus verwendet wird, wie es bspw. aus "Asada, N., Fujiwara, H., & Matsuyama, T. (1998). Edge and depth from focus. International Journal of Computer Vision, 26 (2), 153–163." bekannt ist.
  • Es ist von Vorteil, wenn die mehreren, voneinander verschiedenen Teilbereiche mittels der Kamera durch Schwenken und/oder Kippen und/oder Zoomen der Kamera angesteuert werden. Zweckmäßigerweise wird hierzu als Kamera eine ortsfeste Kamera, insbesondere eine PTZ-Kamera, verwendet. Schwenken, Kippen und Zoomen sind Möglichkeiten, bei einer ortfesten Kamera, verschiedene Bereiche aus dem Erfassungsbereich auszuwählen. Während durch Schwenken in horizontaler Richtung verschiedene Bereiche ausgewählt werden können, können durch Kippen in vertikaler Richtung verschiedene Bereiche ausgewählt werden. Dabei ist darauf zu achten, dass sich bei Verändern des Kippwinkels der erfassbare Bereich in horizontaler Ausdehnung ändert. Insofern kann es nötig sein, bei unterschiedlichen Kippwinkeln eine unterschiedliche Anzahl an Teilbereichen anzusteuern, um die gleiche Auflösung zu erreichen. Weiterhin kann auch durch Zoomen ein anderer Bildausschnitt gewählt werden. Zweckmäßig kann es dabei sein, insbesondere bei weit entfernten Bereichen des Erfassungsbereichs, eine hohe Zoomstufe zu verwenden.
  • Vorzugsweise wird die Tiefenkarte zur Verbesserung und/oder Überprüfung einer Videoinhaltsanalyse für den wenigstens einen ausgewählten Bereich verwendet. Die Tiefenkarte bzw. die gewonnenen Tiefeninformationen können dabei einem System zur Videoinhaltsanalyse (VCA-System) zur Verfügung gestellt werden. Damit ist nun bspw. eine verbesserte bzw. robustere Objektverfolgung, eine Validierung von Fehldetektionen von Objektdetektoren, oder bspw. eine Generierung einer 3D-Umgebung der Überwachungsszene für Visualisierungszwecke möglich. Ebenso ist es denkbar, aus den berechneten Tiefen eine Kalibrierung der Szene, bspw. unter Berücksichtigung von Grundebenen und einer Höhe der Kamera über diesen Grundebenen, vorzunehmen. Mittels der Tiefenkarte können extrinsische Parameter der Kamera, also bspw. Höhe, auf der sich die Kamera befindet, und Blickwinkel auf die Grundebene, geschätzt werden.
  • Eine erfindungsgemäße Kamera, z.B. eine PTZ-Kamera, ist, insbesondere programmtechnisch, dazu eingerichtet, ein erfindungsgemäßes Verfahren durchzuführen.
  • Eine erfindungsgemäße Recheneinheit, z.B. eine Steuer- oder Auswerteeinheit für eine Kamera, ist, insbesondere programmtechnisch, dazu eingerichtet, ein erfindungsgemäßes Verfahren durchzuführen.
  • Auch die Implementierung des Verfahrens in Form eines Computerprogramms ist vorteilhaft, da dies besonders geringe Kosten verursacht, insbesondere wenn ein ausführendes Steuergerät noch für weitere Aufgaben genutzt wird und daher ohnehin vorhanden ist. Geeignete Datenträger zur Bereitstellung des Computerprogramms sind insbesondere magnetische, optische und elektrische Speicher, wie z.B. Festplatten, Flash-Speicher, EEPROMs, DVDs u.a.m. Auch ein Download eines Programms über Computernetze (Internet, Intranet usw.) ist möglich.
  • Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und der beiliegenden Zeichnung.
  • Die Erfindung ist anhand eines Ausführungsbeispiels in der Zeichnung schematisch dargestellt und wird im Folgenden unter Bezugnahme auf die Zeichnung beschrieben.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt schematisch eine Kamera, wie sie für ein erfindungsgemäßes Verfahren in einer bevorzugten Ausführungsform verwendet werden kann, mit einem zugehörigen Erfassungsbereich.
  • 2a zeigt schematisch einen Teilbereich des Erfassungsbereichs aus 1.
  • 2b zeigt schematisch ein Gradienten-Stapel-Bild für verschiedene Fokuseinstellungen einer Kamera für den Teilbereich aus 2a.
  • 3 zeigt einen Zusammenhang zwischen Fokuseinstellungen einer Kamera und Entfernungen eines Objekts von der Kamera.
  • 4 zeigt schematisch eine Tiefenkarte für den Erfassungsbereich aus 1.
  • Ausführungsform(en) der Erfindung
  • In 1 ist schematisch eine Kamera 100, wie sie für ein erfindungsgemäßes Verfahren in einer bevorzugten Ausführungsform verwendet werden kann, gezeigt. Bei der Kamera 100 handelt es sich vorliegend um eine sog. PTZ-Kamera, d.h. eine Kamera, die zwar ortsfest installiert ist, jedoch geschwenkt und gekippt werden kann und eine Zoom-Funktion aufweist.
  • Die zugehörigen Bewegungen sind in der Figur mittels der Bezugszeichen 110 für Schwenken in horizontaler Richtung (d.h. Rotation um eine vertikale Achse), 120 für Kippen in vertikaler Richtung (d.h. Rotation um eine horizontale Achse) sowie 130 für die Zoom-Funktion bezeichnet. Während beim Schwenken und beim Kippen die Kamera 110 rotiert wird, wird bei der Zoom-Funktion die Kamera selbst nicht bewegt, sondern es wird nur die Einstellung ihres Objektivs verändert. Mit allen drei beschriebenen Möglichkeiten kann jedoch der aktuell von der Kamera erfasste Bereich geändert werden.
  • Weiterhin ist ein Erfassungsbereich 200, hier beispielhaft in einem Büroraum, gezeigt. Der Erfassungsbereich 200 bezeichnet dabei den maximal von der Kamera, d.h. durch maximales Schwenken, Kippen und Zoomen, erfassbaren Bereich einer Umgebung. In dem Erfassungsbereich 200 kann somit eine Überwachung erfolgen.
  • In dem Erfassungsbereich 200 ist ein Bereich 210 ausgewählt, der verschiedene, in dem Erfassungsbereich 200 befindliche Gegenstände umfasst. Insbesondere umfasst der ausgewählte Bereich 210 damit Bereiche, in denen sich bspw. Personen aufhalten oder bewegen können. Bereiche, in denen sich Personen nicht aufhalten können, bspw. ein Deckenbereich, befinden sich vorliegend nicht in dem ausgewählten Bereich 210.
  • Vorliegend sind in dem ausgewählten Bereich 210 beispielhaft drei Teilbereiche 220, 221 und 222, gezeigt, die mittels der Kamera 100 durch geeignetes Schwenken und/oder Kippen und/oder Zoomen angesteuert werden können. In dem Teilbereich 220 befindet sich beispielhaft ein Stehtisch, in dem Teilbereich 221 ein Schreibtisch und in dem Teilbereich 222 eine Schautafel.
  • Vorzugsweise können die Teilbereiche entlang von Bildgradienten extrahiert werden, da diese mögliche Tiefensprünge darstellen und Verdeckungskanten eine wichtige Größe in der Videoinhaltsanalyse darstellen. Solche Bildgradienten befinden sich im gezeigten Beispiel bspw. im Teilbereich 221 mit den Kanten der Tischplatte. Homogene Flächen im Bild, bspw. die Fläche der Tischplatte, können auch durch eine Nachverarbeitung gefüllt werden, wodurch der gesamte Prozess der Erstellung einer Tiefenkarte beschleunigt wird.
  • Ebenso kann anhand von Tracking-Ergebnissen festgestellt werden, wo sich Objekte, also bspw. Personen, in der Szene bewegen. Im gezeigten Beispiel könnte auf diese Weise bspw. auch der gezeigte, Bereich 210 ausgewählt werden, da sich Personen bspw. vor den genannten Objekten bewegen werden.
  • Diese Information kann genutzt werden um an diesen Stellen die Tiefe von Grundebenen, d.h. Ebenen, auf denen sich Objekte bzw. Personen befinden bzw. bewegen, zu schätzen. Anschließend kann mit den gewonnenen Werten eine Grundebene geschätzt werden, welche wiederum dem Tracking als Input dienen kann.
  • Das Schwenken der Kamera bewegt die Bildpunkte eines erfassten Bildes auf Kreisbahnen, wobei der Radius von dem Kippwinkel der Kamera abhängt. Je größer ein Anteil der Kreisbahn ist, der im Bild sichtbar ist, desto mehr Aufnahmen sollten von diesem Kippwinkel gemacht werden, um den Gesamtausschnitt zu füllen, da die Kamera nur um zwei Achsen rotiert werden kann.
  • Ein vereinfachter Fall ist bspw. für einen geringen Kippwinkel möglich. In diesem Fall sind die Kreisbahnen annähernd Geraden und der Winkel des sichtbaren Ausschnitts entspricht in etwa dem horizontalen Öffnungswinkel der Kamera. Dann kann eine feste Unterteilung des Bildes in horizontale und vertikale Bereiche anhand des Zoom-Faktors und des Öffnungswinkels erfolgen.
  • In 2a ist schematisch der Teilbereich 220 des Erfassungsbereichs 200 aus 1 detaillierter dargestellt. Beispielhaft ist darin eine Tafel mit Schachbrettmuster zu sehen.
  • In 2b ist nun schematisch ein Gradienten-Stapel-Bild 250 für verschiedene Fokuseinstellungen (auf der y-Achse) der Kamera 100 entlang einer Line 230 in dem Teilbereich 220 aus 2a gezeigt. Das Gradienten-Stapel-Bild wird erzeugt aus einer Vielzahl von Bildern, die von dem Teilbereich 220 mittels der Kamera 100 bei jeweils verschiedener Fokuseinstellung der Kamera 100 aufgenommen wurden.
  • Für jedes dieser Bilder können nun die Gradienten berechnet werden, ggf. können dabei Gradienten in einer Nachbarschaft zusammengefasst werden oder es kann über mehrere Bilder akkumuliert werden, um Rauschen zu unterdrücken. Dies ist insbesondere in dunklen Bildbereichen zweckmäßig.
  • Jeder Fokuseinstellung ist ein y-Wert zugeordnet. Für jede Fokuseinstellung wird entlang der Linie 230 für jeden Bildpunkt der Helligkeitsgradient als Bildgradient bestimmt und z.B. als Farb- oder Grauwert eingezeichnet. Es sei darauf hingewiesen, dass in 2b keine Graustufen abgebildet werden können und daher rein darstellerisch für Grauwerte oberhalb einer Schwelle Schwarz und für Grauwerte unterhalb der Schwelle Weiß gezeigt ist. Die eigentlich helleren längeren Linien der "Sanduhr" sind daher auch schwarz dargestellt.
  • Wie an dem Bildstapel 250 zu erkennen ist, sind die Gradienten an der links und rechts mittels eines Pfeils gekennzeichneten Linie am größten, d.h. in diesem Bild ist der Gradient maximal. Die diesem Bild entsprechende Fokuseinstellung stellt demnach den Teilbereich 210 möglichst scharf dar und kann zur Ermittlung der Entfernung des Objekts, d.h. hier der Tafel mit dem Schachbrettmuster, von der Kamera herangezogen werden.
  • In 3 ist ein Zusammenhang zwischen der Fokuseinstellung F der Kamera und einer Entfernung E eines Objekts von der Kamera in einem Diagramm dargestellt. Die Entfernung E ist in Metern angegeben, die Fokuseinstellung F in einer beliebigen Einheit.
  • Die einzelnen Messpunkte in dem Diagramm (hier als Kreise dargestellt) können nun bspw. im Rahmen von Testaufnahmen ermittelt werden. Hierzu kann bspw. ein Objekt in verschiedenen Abständen von der Kamera bzw. deren Objektiv positioniert werden und mit der Kamera kann jeweils diejenige Fokuseinstellung gewählt werden, mit welcher das Objekt möglichst scharf abgebildet wird.
  • Diese einzelnen Messpunkte können anschließend bspw. mit einer Funktion f gefittet werden. Auf diese Weise lässt sich sehr einfach anhand eines gemäß der 2a und 2b erläuterten Verfahrens einem Objekt eine Entfernung zuordnen. Ein solches Verfahren wird auch, wie bereits erwähnt, als "Depth from Focus" bezeichnet.
  • Auf diese Weise kann also dem in dem Teilbereich 220 dargestellten Ausschnitt eine Tiefe zugeordnet werden. Auf die gleiche Weise kann auch den übrigen, gezeigten Teilbereichen 221 und 222 eine Tiefe zugeordnet werden.
  • In 4 ist nun schematisch eine Tiefenkarte 400 für den Erfassungsbereich 200 aus 1 dargestellt. Hierbei entspricht das Tiefenbild 420 dem Teilbereich 220, das Tiefenbild 421 dem Teilbereich 221 und das Tiefenbild 422 dem Teilbereich 222.
  • Im hier gezeigten Fall sind Objekte geringerer Entfernung mit dickeren Linien und Objekte mit größerer Entfernung mit dünneren Linien dargestellt. In einem Graustufenbild könnten bspw. Objekte geringerer Entfernung heller und Objekte mit größerer Entfernung dunkler dargestellt sein.
  • Wie in 4 zu sehen, ist es bspw. ausreichend, nur die Tiefen von Kanten von Objekten mittels Variation der Fokuseinstellungen zu ermitteln. Homogene Flächen, also bspw. die Platte des Stehtischs im Teilbereich 221 bzw. im Tiefenbild 421 können bspw. durch Interpolation der Tiefe der diese Fläche begrenzenden Kanten ermittelt werden.
  • Flächen senkrecht zur Kameranormalen haben die gleiche Tiefe entlang von Kreisbahnen, weshalb es zweckmäßig ist, Werte für die Tiefe entlang von Kreisbahnen zu propagieren. Auch auf diese Weise kann die Tiefe für bestimmte Flächen oder Bereiche ermittelt werden.
  • Das Zusammensetzen einzelner Teilbereiche bzw. Tiefenbilder sollte dabei sichergestellt werden, um eine Tiefenkarte der gesamten Szene bzw. des ausgewählten Bereichs der Szene extrahieren zu können. Es versteht sich, dass hierzu nicht nur die drei gezeigten Teilbereiche verwendet werden können, sondern so viele Teilbereiche, dass der gesamte ausgewählte Bereich der Szene abgedeckt ist. Wie bereits erwähnt, kann es dabei zweckmäßig sein, dass nebeneinander liegende Teilbereiche überlappen.
  • Eine Berechnung eines konkreten Ausschnitts der Tiefenkarte kann durch perspektivische Projektion aller sichtbaren Aufnahmen im Raum auf die neue Bildebene des Ausschnitts erfolgen, ähnlich wie dies bspw. bei einem Rendern einer Computergrafik erfolgt.
  • Dabei ist auch ein erneutes Messen potentiell fehlerhafter Bereiche in der Tiefenkarte denkbar. Es ist auch denkbar, dass die Szene von Zeit zu Zeit validiert wird, um zu prüfen, ob sich die 3D-Struktur verändert hat.
  • Eine bestehende Funktionalität des VCA-Systems kann nun mit dem vorgeschlagenen Verfahren verbessert werden, bspw. kann eine sog. Funktion "Idle Object Detection" plausibilisiert werden. Hierbei würde eine PTZ-Kamera die Stelle des relevanten Objekts ansteuern und versuchen, Tiefenunterschiede in diesem Bereich zu erkennen und somit zu plausibilisieren, ob es sich um ein Objekt handelt oder ob ggf. ein Schatten zu sehen ist, der bspw. einen Falschalarm ausgelöst hat.
  • Dichte Tiefenkarten können bspw. dadurch erreicht werden, dass Regionen unbekannter Tiefe, die bspw. ein Resultat eines niedrigen Signal-Rausch-Verhältnisses in dieser Region sind und für die das "Depth from Focus"-Verfahrens gescheitert ist, durch eine Nachverarbeitung gefüllt werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102013223995 A1 [0007]
  • Zitierte Nicht-Patentliteratur
    • Asada, N., Fujiwara, H., & Matsuyama, T. (1998). Edge and depth from focus. International Journal of Computer Vision, 26 (2), 153–163 [0021]

Claims (12)

  1. Verfahren zur Erstellung einer Tiefenkarte (400) wenigstens eines ausgewählten Bereichs (210) eines Erfassungsbereichs (200) einer Kamera (100), wobei mittels der Kamera (100) mehrere, voneinander verschiedene Teilbereiche (220, 221, 222) des wenigstens einen ausgewählten Bereichs (210) angesteuert werden, wobei für jeden der Teilbereiche (220, 221, 222) mittels Variation einer Fokuseinstellung (F) der Kamera (100) eine Tiefeninformation aus dem jeweiligen Teilbereich (220, 221, 222) ermittelt wird, und wobei unter Berücksichtigung der Tiefeninformationen der Teilbereiche (220, 221, 222) die Tiefenkarte (400) erstellt wird.
  2. Verfahren nach Anspruch 1, wobei die anzusteuernden Teilbereiche (220, 221, 222) unter Berücksichtigung von Bildgradienten in einem dem wenigstens einen ausgewählten Bereich (210) entsprechenden Bild ausgewählt werden.
  3. Verfahren nach Anspruch 1 oder 2, wobei die anzusteuernden Teilbereiche (220, 221, 222) unter Berücksichtigung einer Objektverfolgung in dem wenigstens einen ausgewählten Bereich (210) ausgewählt werden.
  4. Verfahren nach einem der vorstehenden Ansprüche, wobei die anzusteuernden Teilbereiche (220, 221, 222) derart ausgewählt werden, dass benachbarte Teilbereiche wenigstens teilweise überlappen.
  5. Verfahren nach einem der vorstehenden Ansprüche, wobei bei der Erstellung der Tiefenkarte (400) einzelne, den Teilbereichen (220, 221, 222) entsprechende Tiefenbilder (420, 421, 422) zusammengesetzt werden, und wobei Tiefeninformationen für Bereiche des wenigstens einen auswählten Bereichs (210), für die mittels der Kamera (100) keine Tiefeninformation ermittelt wurden, wenigstens teilweise unter Berücksichtigung der Tiefeninformationen der Teilbereiche (220, 221, 222) abgeschätzt werden.
  6. Verfahren nach einem der vorstehenden Ansprüche, wobei mittels Variation der Fokuseinstellung (F) der Kamera (100) die Tiefeninformation aus dem jeweiligen Teilbereich (220, 221, 222) ermittelt wird, indem Bilder für verschiedene Fokusstufen (F) aufgenommen werden, und aus Bildgradienten der einzelnen Bilder eine dem maximalen Bildgradienten entsprechende Fokuseinstellung ermittelt wird.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei die mehreren, voneinander verschiedenen Teilbereiche (220, 221, 222) mittels der Kamera (100) durch Schwenken (110) und/oder Kippen (120) und/oder Zoomen (130) der Kamera (100) angesteuert werden.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei als Kamera (100) eine ortsfeste Kamera, insbesondere eine PTZ-Kamera, verwendet wird.
  9. Verfahren nach einem der vorstehenden Ansprüche, wobei die Tiefenkarte (400) zur Verbesserung und/oder Überprüfung einer Videoinhaltsanalyse für den wenigstens einen ausgewählten Bereich (210) verwendet wird.
  10. Kamera (100) oder Recheneinheit, die dazu eingerichtet ist, ein Verfahren nach einem der vorstehenden Ansprüche durchzuführen.
  11. Computerprogramm, das eine Kamera (100) oder eine Recheneinheit dazu veranlasst, ein Verfahren nach einem der Ansprüche 1 bis 9 durchzuführen, wenn es auf der Kamera (100) oder der Recheneinheit ausgeführt wird.
  12. Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computerprogramm nach Anspruch 11.
DE102016200660.6A 2015-12-23 2016-01-20 Verfahren zur Erstellung einer Tiefenkarte mittels einer Kamera Withdrawn DE102016200660A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP16200831.2A EP3185213B1 (de) 2015-12-23 2016-11-28 Verfahren zur erstellung einer tiefenkarte mittels einer kamera
US15/384,556 US10237535B2 (en) 2015-12-23 2016-12-20 Method for generating a depth map using a camera
CN201611273146.9A CN107093193B (zh) 2015-12-23 2016-12-22 用于借助摄像机构建深度图的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102015226667.2 2015-12-23
DE102015226667 2015-12-23

Publications (1)

Publication Number Publication Date
DE102016200660A1 true DE102016200660A1 (de) 2017-06-29

Family

ID=59010817

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016200660.6A Withdrawn DE102016200660A1 (de) 2015-12-23 2016-01-20 Verfahren zur Erstellung einer Tiefenkarte mittels einer Kamera

Country Status (3)

Country Link
US (1) US10237535B2 (de)
CN (1) CN107093193B (de)
DE (1) DE102016200660A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI807299B (zh) * 2020-04-09 2023-07-01 荷蘭商荷蘭移動驅動器公司 圖像深度擴增方法、裝置及電子設備

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013223995A1 (de) 2013-11-25 2015-05-28 Robert Bosch Gmbh Verfahren zur Erstellung einer Tiefenkarte für eine Kamera

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005034597A1 (de) * 2005-07-25 2007-02-08 Robert Bosch Gmbh Verfahren und Anordnung zur Erzeugung einer Tiefenkarte
US8233077B2 (en) * 2007-12-27 2012-07-31 Qualcomm Incorporated Method and apparatus with depth map generation
US8577118B2 (en) * 2008-01-18 2013-11-05 Mitek Systems Systems for mobile image capture and remittance processing
DE102009003110A1 (de) * 2009-05-14 2010-11-18 Robert Bosch Gmbh Bildverarbeitungsverfahren zur Bestimmung von Tiefeninformation aus wenigstens zwei mittels eines Stereokamerasystems aufgenommenen Eingangsbildern
US9928707B2 (en) * 2011-05-16 2018-03-27 Garrett Thermal Systems Limited Surveillance system
CN102509344B (zh) * 2011-09-30 2014-06-25 北京航空航天大学 一种基于非均匀采样三维对象反射的实时绘制方法
US9639947B2 (en) * 2012-04-18 2017-05-02 Sony Corporation Method and optical system for determining a depth map of an image
EP2870768A4 (de) * 2012-07-04 2016-03-09 Intel Corp Auf einer region von interesse basierender rahmen zur 3d-video-codierung
US20150294473A1 (en) * 2012-11-12 2015-10-15 Telefonaktiebolaget L M Ericsson (Publ) Processing of Depth Images
US9456141B2 (en) * 2013-02-22 2016-09-27 Lytro, Inc. Light-field based autofocus
GB2519172B (en) * 2013-10-14 2015-09-16 Imagination Tech Ltd Configuring an audio system
US9197816B2 (en) * 2013-10-18 2015-11-24 The Lightco Inc. Zoom related methods and apparatus
CN104079827B (zh) * 2014-06-27 2017-12-22 中国科学院自动化研究所 一种光场成像自动重对焦方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013223995A1 (de) 2013-11-25 2015-05-28 Robert Bosch Gmbh Verfahren zur Erstellung einer Tiefenkarte für eine Kamera

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Asada, N., Fujiwara, H., & Matsuyama, T. (1998). Edge and depth from focus. International Journal of Computer Vision, 26 (2), 153–163

Also Published As

Publication number Publication date
US10237535B2 (en) 2019-03-19
CN107093193A (zh) 2017-08-25
CN107093193B (zh) 2022-08-02
US20170188018A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
EP2174188B1 (de) Vorrichtung zur automatischen Positionierung von gekoppelten Kameras zur plastischen Bilddarstellung
DE102012112322B4 (de) Verfahren zum optischen Abtasten und Vermessen einer Umgebung
EP3014569B1 (de) Inspektion der konturierten fläche des unterbodens eines kraftfahrzeugs
EP2880853B1 (de) Vorrichtung und verfahren zur bestimmung der eigenlage einer bildaufnehmenden kamera
DE102019111641A1 (de) Konfigurieren einer von einem 3D-Sensor überwachten Gefahrenstelle
EP3775767B1 (de) Verfahren und system zur vermessung eines objekts mittels stereoskopie
DE102009035755A1 (de) Verfahren und Vorrichtung zum Überwachen eines Raumbereichs
WO2016146105A1 (de) Verfahren und vorrichtung zur kalibration einer kamera
EP3104330B1 (de) Verfahren zum nachverfolgen zumindest eines objektes und verfahren zum ersetzen zumindest eines objektes durch ein virtuelles objekt in einem von einer kamera aufgenommenen bewegtbildsignal
EP3185213B1 (de) Verfahren zur erstellung einer tiefenkarte mittels einer kamera
DE102016200660A1 (de) Verfahren zur Erstellung einer Tiefenkarte mittels einer Kamera
DE102005061931B4 (de) Verfahren und Vorrichtung zur Kalibrierung einer optischen Einrichtung
DE102017010683A1 (de) Verfahren zur automatischen Wiederherstellung eines eingemessenen Zustands eines Projektionssystems
DE102010036852B4 (de) Stereokamera
WO2012052244A2 (de) Erfassung und darstellung texturierter drei-dimensionaler geometrien
DE102011017707A1 (de) Verfahren und Vorrichtung zur Erkennung von einem Objekt in einer Umgebung einer Kamera
EP2884746A1 (de) Überwachungskameravorrichtung mit Tiefeninformationsbestimmung
DE102015208442A1 (de) Verfahren und Vorrichtung zum Ermitteln zumindest eines Objektabbildes in einer Umgebung um einen änderunssensitiven optischen Bildsensor
DE102013223995A1 (de) Verfahren zur Erstellung einer Tiefenkarte für eine Kamera
DE102012205130A1 (de) Verfahren zum automatischen Betreiben einer Überwachungsanlage
WO2008141924A1 (de) Verfahren und vorrichtung zur oberflächenerfassung eines räumlichen objektes
EP3318838B1 (de) 3d-scanvorrichtung und verfahren zum dreidimensionalen scannen von objekten
EP1434184B1 (de) Steuerung eines Multikamera-Systems
EP3573023A1 (de) Verfahren zur bestimmung räumlicher informationen einer gasförmigen struktur
DE102015215211A1 (de) Verfahren zur Sicherheitssteuerung einer Anlage und entsprechendes Sicherheitssystem

Legal Events

Date Code Title Description
R005 Application deemed withdrawn due to failure to request examination