DE102016222267A1 - Verfahren und System zum Erfassen eines sich bewegenden Objekts mit einer einzelnen Kamera - Google Patents

Verfahren und System zum Erfassen eines sich bewegenden Objekts mit einer einzelnen Kamera Download PDF

Info

Publication number
DE102016222267A1
DE102016222267A1 DE102016222267.8A DE102016222267A DE102016222267A1 DE 102016222267 A1 DE102016222267 A1 DE 102016222267A1 DE 102016222267 A DE102016222267 A DE 102016222267A DE 102016222267 A1 DE102016222267 A1 DE 102016222267A1
Authority
DE
Germany
Prior art keywords
point
epipolar
moving object
trajectory
trifocal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102016222267.8A
Other languages
English (en)
Inventor
Sheng Chen
Alper Ayvaci
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE102016222267A1 publication Critical patent/DE102016222267A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

Es werden Systeme und Verfahren zum Erfassen von sich bewegenden Objekten offenbart. Ein computerimplementiertes Verfahren zum Erfassen von sich bewegenden Objekten umfasst das Erhalten eines von einer Kamera aufgenommenen Streaming-Videos; Extrahieren einer Eingangsbildsequenz, die eine Serie von Bildern aus dem Streaming-Video enthält; Verfolgen von Punktmerkmalen und Beibehalten eines Satzes von Punkttrajektorien für mindestens eine der Serien von Bildern; Messen einer Wahrscheinlichkeit für jede Punkttrajektorie, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehört, unter Verwendung von Beschränkungen aus der Mehrfachsichtgeometrie; und Bestimmen eines bedingten Zufallsfeldes (CRF) an einem gesamten Frame, um eine Segmentierung eines sich bewegenden Objekts zu erhalten.

Description

  • VERWANDTE ANMELDUNG
  • Diese Anmeldung beansprucht die Priorität der am 13. November 2015 eingereichten vorläufigen US-Anmeldung Nr. 62/255,289, welche „METHOD AND SYSTEM FOR MOVING OBJECT DETECTION WITH SINGLE CAMERA” betitelt ist, deren Inhalt hiermit durch Bezugnahme in seiner Gesamtheit aufgenommen wird.
  • GEBIET DER OFFENBARUNG
  • Aspekte der vorliegenden Offenbarung betreffen ein Verfahren und ein System zum Erfassen sich bewegender Objekte durch Segmentieren von sich bewegenden Objekten in einem Streaming-Video, das von einer einzelnen monokularen Kamera aufgenommen wird. Insbesondere betreffen Aspekte der vorliegenden Offenbarung ein Erhalten und Analysieren einer Eingangsbildsequenz, die eine Vielzahl von Zeitrahmen bzw. Zeitframes {I1, I2, I3...It} enthält, und ein Bestimmen und Ausgeben einer binären Maske Yt für jeden It, wobei jedes Element in Yt anzeigt, ob ein entsprechendes Pixel zu einem sich bewegenden Objekt gehört oder nicht.
  • ÜBERSICHT DER OFFENBARUNG
  • Die vorliegende Offenbarung kann Punktmerkmale online verfolgen und einen Satz von Punkttrajektorien beibehalten. Für jede Punkttrajektorie kann die Wahrscheinlichkeit gemessen werden, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehören kann, unter Verwendung von Beschränkungen aus der Mehrfachsichtgeometrie. Ferner kann basierend auf den von den Punkttrajektorien empfangenen Antworten ein bedingtes Zufallsfeld (CRF) auf einem gesamten Frame formuliert werden, um eine Bewegungsobjektsegmentierung zu erhalten.
  • Zusätzliche Vorteile und neuartige Merkmale dieser Aspekte der Offenbarung werden zum Teil in der folgenden Beschreibung dargelegt und werden zum Teil für Fachleute auf dem Gebiet bei der Untersuchung des Folgenden oder beim Lernen durch die Praxis aus der Offenbarung deutlicher.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Verschiedene beispielhafte Aspekte der Systeme und Verfahren werden im Detail unter Bezugnahme auf die folgenden Figuren beschrieben, in welchen:
  • 1 ein Beispiel veranschaulicht für das Verfolgen und Erfassen verschiedener sich bewegender Objekte, einschließlich eines sich bewegenden Vans, eines Fahrradfahrers und eines gehenden Fußgängers auf einer öffentlichen Straße gemäß verschiedenen Aspekten der vorliegenden Offenbarung;
  • 2 das Konzept der epipolaren Beschränkung und der zugehörigen mathematischen Gleichungen gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 3 einen beispielhaften optischen Fluss zwischen aufeinanderfolgenden Frames zum Erzeugen von Punkttrajektorien gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 4 ein beispielhaftes Diagramm einer epipolaren Bewegungsobjektkennzahl (Epipolar Moving Objectness Score) (EMS) für Punkttrajektorien gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 5 ein beispielhaftes Diagramm und eine Tabelle von EMSen für verschiedene Punkttrajektorien gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 6(a)–(e) beispielhafte Screenshots sind, die epipolare Beschränkungsergebnisse (epipolar constraint results) gemäß verschiedenen Aspekten der vorliegenden Offenbarung zeigen;
  • 7 ein beispielhaftes Diagramm eines entarteten Falles einer epipolaren Beschränkung gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 8 das Konzept einer trifokalen Beschränkung und zugehöriger mathematischer Gleichungen gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 9(a)–(e) beispielhafte Screenshots sind, die trifokale Beschränkungsergebnisse gemäß verschiedenen Aspekten der vorliegenden Offenbarung zeigen;
  • 10 ein beispielhaftes Ergebnis einer Bildung eines bedingten Zufallsfeldes (CRF) auf Superpixeln gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht;
  • 11(a)–(b) beispielhafte Bewegungssegmentierungsergebnisse gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulichen;
  • 12(a)–(i) beispielhafte Screenshots sind, die zusätzliche qualitative Ergebnisse gemäß verschiedenen Aspekten der vorliegenden Offenbarung zeigen;
  • 13 ein beispielhaftes Ablaufdiagramm eines Verfahrens zum Erfassen von sich bewegenden Objekten gemäß verschiedenen Aspekten der vorliegenden Offenbarung zeigt;
  • 14 ein beispielhaftes Systemdiagramm verschiedener Hardwarekomponenten und anderer Merkmale gemäß verschiedenen Aspekten der vorliegenden Offenbarung darlegt; und
  • 15 ein beispielhaftes Blockdiagramm verschiedener beispielhafter Systemkomponenten gemäß verschiedenen Aspekten der vorliegenden Offenbarung ist.
  • DETAILLIERTE BESCHREIBUNG
  • Diese und andere Merkmale und Vorteile dieser Offenbarung sind in der folgenden detaillierten Beschreibung von verschiedenen beispielhaften Aspekten beschrieben oder sind aus dieser ersichtlich. Es kann jedoch offensichtlich sein, dass solche Aspekte ohne diese spezifischen Details praktiziert werden können.
  • Bezugnehmend auf 1 erfasst die vorliegende Offenbarung, unter anderen Merkmalen, sich bewegende Objekte in einem durch eine einzelne Kamera erfassten Streaming-Video, z. B. sich bewegende Fahrzeuge, Fußgänger und im Wesentlichen jedes sich bewegende Objekt. Eine Erfassung von sich bewegenden Objekten und eine bewegungsbasierte Verfolgung bzw. Tracking sind wichtig für eine Aktivitätserkennung, eine Verkehrsüberwachung und eine Fahrzeugsicherheit. Beispielsweise sind beim Fahren sich bewegende Objekte normalerweise in Bezug auf Sicherheitsbedenken wichtig. Außerdem können Okklusionen auftreten, wenn die Ansicht eines sich bewegenden Objekts ganz oder teilweise durch andere Objekte blockiert wird. Wenn es eine Teil-Okklusion gibt, kann es schwierig sein, das sich bewegende Objekt aus Standbildern zu erfassen. Wenn jedoch die sich bewegenden Teile in einem Video erkannt werden können, könnte dies dazu beitragen, das Okklusionsproblem zu lösen. Wie in 1 gezeigt, kann für jeden Frame eines von einer Monokularkamera aufgenommenen Videos eine Binärmaske oder ein Satz von Segmenten für jedes sich bewegende Objekt (z. B. der sich bewegende Van links, der Radfahrer in der Mitte und der Fußgänger rechts) ausgegeben werden, um anzuzeigen, ob ein Pixel zu einem sich bewegenden Objekt gehört oder nicht. Hier kann sich eine binäre Maske auf ein binäres Bild mit der gleichen Größe wie das zu verarbeitende Bild beziehen, und die Maske kann 1'en für alle Pixel enthalten, die Teil des interessierenden Bereichs sind, und 0'en überall sonst. Gemäß Aspekten der vorliegenden Offenbarung kann eine binäre Maske eines gesamten Frames ausgegeben werden, wobei jedes Pixel als beweglich oder statisch gekennzeichnet sein kann. Um dieses Ziel am Frame t zu erreichen, kann das vordere und hintere optische Flussfeld bis zum Frame t berechnet werden, und es kann ein Satz von Langzeitpunkttrajektorien gebildet werden. Jede Trajektorie kann durch einen Satz von Punkten dargestellt werden. Jede Trajektorie im aktuellen Satz kann am aktuellen Frame t enden. Jeder Trajektorie kann eine Bewegungsobjektkennzahl zugewiesen werden, die auf der Geometrie basiert, die anzeigt, ob sich eine Trajektorie auf einem sich bewegenden Objekt befindet oder nicht. Die Kennzahlen auf jeder Trajektorie können verwendet werden, um das Bild in sich bewegende und statische Objektbereiche zu unterteilen.
  • Der Bewegungszustand (austauschbar hierin als sich bewegende Objektheit bzw. Bewegungsobjektheit bzw. Bewegungsobjekt (moving objectness) bezeichnet) eines Objekts kann unter Verwendung von Geometrie gemessen werden. Wenn sich im einfachsten Falle beispielsweise eine Kamera in einer strikt nach vorne gerichteten Richtung bewegt, sieht eine Person im Allgemeinen alle statischen Punkte, die sich von dem Kamerazentrum weg bewegen, und weist einen Fokus der Erweiterung in einer Mitte eines Bildes auf. Anhaltspunkte zum Erfassen sich bewegender Objekte können ein Aussehen und eine Kompaktheit umfassen, unter anderen Anhaltspunkten. Beispielsweise können im Umgang mit einer Bewegungssegmentierung Punkttrajektorien extrahiert werden und ein Clustering auf diesen Trajektorien durchgeführt werden, basierend auf Eigenschaften wie einer Geschwindigkeit. Allerdings, während dieser Ansatz Clustering durchführt, kann es ein Mangel an Verständnis darüber geben, welche Cluster realen sich bewegenden Objekten entsprechen. Alternativ kann eine Nachverarbeitung durchgeführt werden, um sich bewegende Objekte zu extrahieren, indem unter anderem die Farbe untersucht wird. Eine Subraumverfolgung kann auch basierend auf der Annahme durchgeführt werden, dass ein orthographisches Kameramodell verwendet wird, wobei alle Hintergrundpunkttrajektorien in einem niederdimensionalen Raum liegen. Darüber hinaus kann eine eigenbewegungskompensierte Hintergrundsubtraktion bei der Bewegungsobjektdetektion durchgeführt werden durch Anwenden lokaler affiner Transformationen bei einem vorherigen Frame, um die Kamerabewegung zu kompensieren, gefolgt von einer Hintergrundsubtraktion, um eine sich bewegende Maske bzw. Bewegungsmaske zu erhalten.
  • Gemäß Aspekten der vorliegenden Offenbarung können ausgewählte geometrische Beschränkungen verwendet werden, um Bewegungshinweise zu erhalten, insbesondere unter Berücksichtigung, dass ein Objekt von einem Stillstand zu einer Bewegung oder umgekehrt übergehen kann. Lass I: D ⊂ R2 × Z+ → R+; (x, t) → It(x) eine auf einen Bereich D festgelegte Bildsequenz sein, und It bezeichnet den Frame zum Zeitpunkt t. Merkmalspunkte in der Bildsequenz I können verfolgt werden, und es kann ein Satz von Trajektorien Zt = {Z t / i,τ} N / i=1 konstruiert werden, wobei für jede Trajektorie τ der Anfangsframe ist und t der finale oder aktuelle Frame ist. Die Trajektorie z t / i,τ kann durch einen Satz von Punkten {x τ / i, x τ+1 / i, ..., x t / i} dargestellt werden. Für jeden Frame kann diesen Trajektorien eine Punktzahl, ein Wert oder eine Kennzahl zugewiesen werden, um zu bestimmen, ob sie sich auf einem sich bewegenden oder einem statischen Objekt befinden. Bewegungsobjektkennzahlen (moving objectness scores) können zusätzlich verwendet werden, um den Bildbereich in Bereiche von statischen und sich bewegenden Objekten zu unterteilen. In einer Bildsequenz I können Trajektorien an statischen Objekten geometrischen Beschränkungen folgen, die durch eine Kamerabewegung induziert werden.
  • Geometrische Bewegungsbeschränkungen können unter anderem informativer als Hinweise wie Aussehen sein. Reale Bewegungshinweise können erforderlich sein, um beispielsweise den Übergang eines Fahrzeugs von einem Bewegungszustand in einen Ruhezustand zu erfassen.
  • Wenn eine Kamera statisch ist, können 3D-Punkte auf denselben Punkt in der Bildebene projiziert werden, während sich die Kamera bewegt, kann sich die Projektion der statischen 3D-Punkte aufgrund der Kamerabewegung auf der Bildebene bewegen und kann bestimmten Beschränkungen folgen. Als solches, um ein sich bewegendes Objekt zu erfassen oder, um genauer zu sein, um die Bewegung von Punkttrajektorien zu messen, können zwei Arten von Mehrfachsicht-Geometrieinformationen verwendet werden, nämlich die epipolare Beschränkung zwischen zwei Ansichten und die trifokalen Beschränkungen von drei Ansichten. Die Verschiebungen der Projektionen eines Standpunktes in einer Szene in verschiedenen Ansichten können durch die Kamerabewegung verursacht werden. Unter der Annahme, dass die meisten von den Punkten in der Szene bewegungslos sind, können relative Kamerapositionsänderungen von den Punktkorrespondenzen abgeschätzt werden. Die Punkte auf den sich bewegenden Objekten können im Allgemeinen die Ausreißer solcher Schätzungen sein, und die Bewegung eines Punktes kann somit gemessen werden, wie er zu dem Modell passt.
  • Epipolare Beschränkung
  • Wie in 2 gezeigt, beschreibt eine epipolare Beschränkung (epipolar constraint) die Beziehung zwischen den Projektionen eines bewegungslosen dreidimensionalen Punktes zwischen zwei Ansichten durch Erstellen einer Kartierung zwischen Punkten in einem linken Bild und Linien in einem rechten Bild und umgekehrt. Epipolare Beschränkungen werden durch die Essenzielle Matrix oder die Fundamentalmatrix zwischen zwei Kameras beschrieben. Unter der Annahme von m Punktkorrespondenzen von Ruhepunkten in zwei Frames wird die folgende Gleichung stratifiziert:
    Figure DE102016222267A1_0002
    wobei fij die Koeffizienten der Fundamentalmatrix bezeichnet. In der vorliegenden Offenbarung, wie in 3 gezeigt, kann ein optischer Fluss zwischen aufeinanderfolgenden Frames berechnet werden, um eine Punktkorrespondenz zu erhalten und dichte Langzeitpunkttrajektorien zu erzeugen. Bei zwei beliebigen Frames in einer Bildsequenz wird für jeden stationären Hintergrundpunkt in der Szene die folgende Gleichung stratifiziert: x τ / iF τ' / τx τ' / i = 0 (1) wobei x τ / i und x τ' / i die Projektionen des 3D-Punktes sind im Frame τ bzw. τ', und F τ' / τ die Fundamentalmatrix ist, die die relativen Haltungsveränderungen der Kamera zwischen den beiden Frame codiert. Für zwei beliebige Frames, die Korrespondenzen von Punkttrajektorien gegeben, kann F abgeschätzt werden unter Verwendung eines kleinsten Medians von Quadraten (Least Median of Squares) (LMEDS). Am Frame t, können Fundamentalmatrizen zwischen jedem Framepaar vom Frame τ bis t geschätzt werden. Geometrisch kann die Projektion eines Standpunktes in einer Ansicht auf der epipolaren Linie liegen, die sich aus der Projektion in der anderen Ansicht ergibt. Für ein sich bewegendes Objekt kann die Gleichung (1) im Allgemeinen nicht gelten, außer für einen entarteten Fall, der weiter unten ausführlicher diskutiert wird. Gemäß Aspekten der vorliegenden Offenbarung, wie in 4 gezeigt, kann eine epipolare Bewegungsobjektkennzahl für ein Paar von Punktkorrespondenzen auf der Grundlage der epipolaren Beschränkung wie folgt berechnet werden: ϕ(x τ / i, x τ' / i) = dpl(F τ' / τx τ' / i, x τ / i) + dpl(x τ' / i, x τ / iF τ' / τ) (2) wobei F τ' / τx τ' / i und x τ / iF τ' / τ die relativen epipolaren Linien in jeder Ansicht definieren und die Funktion dpl(·) die Punkt-zu-Linien-Distanz berechnet. Je größer der Abstand ist, desto eher gehört die Trajektorie zu einem sich bewegenden Objekt. Im Frame t, den gegenwärtigen Satz an Punkttrajektorien Zt gegeben, können die Fundamentalmatrizen unter Verwendung von LMEDS und des 8-Punkt-Algorithmus zwischen einem aktuellen Frame T und allen vorherigen Frames geschätzt werden, solange eine ausreichende Anzahl an Punkttrajektorien zwischen diesem Frame und It existiert. Für jede Trajektorie z t / i,τ, kann man die epipolare Bewegungsobjektkennzahl zwischen x t / i auf dem aktuellen Frame und allen vorherigen Punkten auf der Trajektorie {x τ / i, x τ+1 / i, ..., x t-1 / i} berechnen.
  • Um eine Historie einer Trajektorie zu berücksichtigen, können, wie in 5 gezeigt, zwei Maßnahmen basierend auf einer gegenwärtigen epipolaren Bewegungskennzahl (epipolar moving score) (EMS) und einer vorherigen EMS definiert werden. Die erste Maßnahme kann einen gewichteten Mittelwert über alle EMSen einer Trajektorie, nämlich einen gewichteten Mittelwert von EMS (EMSavg) verwenden, der wie folgt definiert ist:
    Figure DE102016222267A1_0003
  • Hier ist β ∊ [0, 1] ein Dämpfungsfaktor, der ein geringeres Gewicht auf eine EMS aus den vorhergehenden Frames setzt und
    Figure DE102016222267A1_0004
    ist ein Normalisierungsfaktor, so dass die ältere EMS weniger Gewicht erhält.
  • Zusätzlich zur mittleren epipolaren Bewegungsobjektkennzahl kann die Änderung des Zeitfehlers ϕ auch analysiert werden, um zu messen, wie wahrscheinlich eine Trajektorie auf einem sich bewegenden Objekt liegt. Gemäß Aspekten der vorliegenden Offenbarung kann die Annahme gemacht werden, dass ϕ(x τ / i, x τ' / i) > ϕ(x τ / i, x τ' / i) wenn τ > τ' > τ''. Diese Ungleichung kann speziell gelten, wenn das Zielobjekt sich fortlaufend von seiner ursprünglichen Position entfernt. Obwohl diese Annahme als einschränkend angesehen werden kann, ist sie häufig der Fall in Stadtfahrtszenarien, bei denen Zielobjekte, die beobachtet werden, normalerweise nicht an den Anfangsort zurückkehren. Unter dieser Voraussetzung sind sowohl [ϕ(x t / i, x t-1 / i), ϕ(x t / i, x t-2 / i), ..., ϕ(x t / i, x τ / i)] als auch ϕ(x τ+1 / i, x τ / i), ϕ(x τ+2 / i, x τ / i), ..., ϕ(x t / i, x τ / i)] wachsende Sequenzen für t > τ. Um diese Intuition zu erfassen, kann eine andere epipolare Bewegungsobjektkennzahl wie folgt definiert werden:
    Figure DE102016222267A1_0005
    wobei [·] eine Indikatorfunktion ist, die 1 ist, wenn die Eingangsungleichung gilt, und andernfalls 0 ist, v eine Toleranzvariable ist und ρ(z t / i,τ) = (t – τ)(t – τ – 1)/2 der Normalisierungsfaktor ist.
  • 6(a)–(e) veranschaulichen eine Anzahl von beispielhaften epipolaren Beschränkungsergebnissen beim Erfassen sich bewegender Objekte gemäß Aspekten der vorliegenden Offenbarung. Beispielsweise können in 6(a) das sich bewegende Fahrzeug auf der linken Seite und der Radfahrer auf der rechten Seite erfasst und identifiziert werden unter Verwendung der oben diskutierten epipolaren Beschränkung. Ferner werden in jeder der 6(b)–(e) nicht nur die sich bewegenden Objekte im Gegensatz zum Hintergrund identifiziert, sondern die Bewegung jedes sich bewegenden Objekts wird auch in Echtzeit verfolgt.
  • Trifocale Beschränkung
  • Eine epipolare Beschränkung (epipolar constraint) kann jedoch eine bestimmte Art von Bewegung nicht detektieren, d. h. wenn sich ein Objekt in die gleiche Richtung wie eine Kamera bewegt, oder allgemeiner, wenn sich das Objekt in der epipolaren Ebene bewegt. In solchen Fällen kann sich ein bestimmter Punkt entlang der Epipolarlinie bewegen und kann daher nicht durch die epipolare Beschränkung festgestellt werden. Dies wird als der entartete Fall bezeichnet, wie in 7 gezeigt. Um die Probleme in dem entarteten Fall zu überwinden, kann eine trifokale Beschränkung (trifocal constraint) zwischen drei Ansichten, wie in 8 gezeigt, verwendet werden, indem eine Beziehung der Vorsprünge eines stehenden Punktes oder einer Linie in drei Frames codiert wird, und kann durch einen Tensor T dargestellt werden. Für drei Punktkorrespondenzen sind die folgenden Beschränkungen erfüllt:
    Figure DE102016222267A1_0006
  • Hier codieren die Subskripts drei Koordinaten des Punktes und die Gleichung gilt für alle i, j = 1, 2, 3. Anders als bei dem Zwei-Sicht-Fall kann die Position des Punktes in der dritten Ansicht bestimmt werden angesichts seiner Positionen in zwei Ansichten.
  • Angesichts der Drei-Blickpunkt-Korrespondenz (x m / i, x n / i, x p / i), wobei t ≥ p > n > m ≥ τ ist auf der Trajektorie z t / i,τ, kann eine trifokale Bewegungsobjektkennzahl (trifocal moving objectness score) (TMS) wie folgt definiert werden: γ(x m / i, x n / i, x p / i) = dpp(x p / i, x ^ p / i) (5) wobei x ^ p / i die geschätzte Position ist in der dritten Ansicht unter Verwendung von xm und xn und dpp(·) den Euklidischen Abstand zwischen den Punkten berechnet. Ein trifokaler Tensor kann unter Verwendung von LMEDS geschätzt werden, aber eine solche Abschätzung des trifokalen Tensors ist anfällig für Störungen. Um dieses Problem zu lösen, können zunächst die Epipole von den Fundamentalmatrizen abgeschätzt werden und eine Beschränkung der Epipole von dem trifokalen Tensor kann nicht weit von diesen Schätzungen entfernt sein. Anders als im epipolaren Beschränkungsfall kann der trifokale Tensor zwischen dem aktuellen Frame t und t – η und t – 2η, wobei η die Framelücke ist, zum Erzeugen einer trifokalen Bewegungsobjektkennzahl für jede Trajektorie z t / i,τ abgeschätzt werden. Darüber hinaus kann eine zeitliche Unterstützung der Trajektorie verwendet werden, um den gewichteten Mittelwert zu berechnen, um die Historie zu berücksichtigen, wie folgt:
    Figure DE102016222267A1_0007
    wobei β ∊ [0, 1].
  • 9(a)–(e) veranschaulichen eine Anzahl von beispielhaften trifokalen Beschränkungsergebnissen bei der Erfassung von sich bewegenden Objekten gemäß Aspekten der vorliegenden Offenbarung. In 9(a) können beispielsweise das sich bewegende Fahrzeug auf der linken Seite und der Radfahrer auf der rechten Seite unter Verwendung der oben diskutierten trifokalen Beschränkung erfasst und identifiziert werden. Ferner werden in jeder der 9(b)–(e) nicht nur die sich bewegenden Objekte im Gegensatz zum Hintergrund identifiziert, sondern die Bewegung jedes sich bewegenden Objekts wird auch in Echtzeit verfolgt.
  • Bewegungsobjekt-Segmentierung
  • Angesichts der obigen Diskussion bezüglich Bewegungsobjekt-/Bewegungskennzahlen für Punkttrajektorien können derartige Informationen auf einen gesamten Frame übertragen werden. Dies kann erreicht werden, indem zuerst ein Frame segmentiert wird, um Superpixel zu erhalten und Superpixel mit 0/1 Labels zu kennzeichnen, wobei 1 anzeigt, dass das Superpixel zu einem sich bewegenden Objekt gehört und 0 ein statisches Objekt anzeigt. Nachfolgend kann eine paarweise CRF über die Superpixel konstruiert werden, wie in 10 gezeigt. Indem jedes Superpixel im aktuellen Frame t als si und sein entsprechendes Label als yi ∊ y bezeichnet wird, kann das CRF-Ziel wie folgt definiert werden:
    Figure DE102016222267A1_0008
    wobei ε der Satz aller benachbarten Superpixelpaare ist und Eu, Ep jeweils die unären bzw. paarweisen Merkmale bezeichnen. Für Eu können die obigen Gleichungen (1)–(6) für einen aktuellen Frame verbunden werden. Als nächstes kann die Antwort von Punkttrajektorien auf Superpixel übertragen werden, indem der Median zwischen allen Trajektorien innerhalb des Superpixels genommen wird und mit ”0” gekennzeichnet wird, wenn es keine Trajektorie innerhalb des Superpixels für jedes Merkmal gibt. Um die Kennzeichnung zeitlich konsistent zu halten, kann ein weiteres Merkmal zu dem unären Term hinzugefügt werden, der die Historie einer Punkttrajektorienkennzeichnung codiert. Im Frame t – 1 können nach der Superpixel-Kennzeichnung die Labels für Punkttrajektorien erhalten werden, indem das Label des Superpixels allen Punkttrajektorien darin zugewiesen wird. Im Frame t kann für jedes Superpixel der Prozentsatz der Vordergrundpunkttrajektorien in ihm berechnet werden, um eine problemlose Kennzeichnung zeitlich sicherzustellen. Alternativ kann eine temporäre CRF gebildet werden, in der Superpixel über Frames verknüpft werden können. Die paarweisen Merkmale Ep zwischen zwei Superpixeln können aus den Bhattacharyya-Koeffizienten zwischen den Farb- und optischen Flußhistogrammen der beiden Superpixel bestehen. In diesem Optimierungsproblem können Gewichtsvektoren wu und wp über die strukturelle Unterstützungsvektormaschine (structural Support Vector Machine) (SVM) erlernt werden, und das Optimierungsproblem kann durch Doppelzerlegung gelöst werden.
  • Die 11(a)–(b) veranschaulichen eine Anzahl von beispielhaften Bewegungsobjekt-Segmentierungsergebnissen zum Erfassen von sich bewegenden Objekten gemäß Aspekten der vorliegenden Offenbarung. Zusätzlich sind die 12(a)–(i) beispielhafte Screenshots, die qualitative Ergebnisse bei der Erfassung von sich bewegenden Objekten gemäß Aspekten der vorliegenden Offenbarung zeigen. Ein Tracking-Datensatz bzw. Verfolgungsdatensatz kann in Verbindung mit verschiedenen Eingangsbildsequenzen etabliert werden. Die vorliegende Offenbarung kann ein binäres Label für jedes Objekt hinzufügen, um zu helfen, anzuzeigen, ob es sich bewegt oder nicht.
  • 13 ist ein beispielhaftes Flussdiagramm, das ein Verfahren 1400 zum Erfassen von sich bewegenden Objekten gemäß verschiedenen Aspekten der vorliegenden Offenbarung veranschaulicht. In 13 beginnt das Verfahren im Block 1302 damit, ein von einer Kamera aufgenommenes Streaming-Video zu erhalten. Das Verfahren umfasst auch im Block 1304, eine Eingangsbildsequenz zu extrahieren, die eine Serie von Bildern aus dem Streaming-Video enthält; im Block 1306 Punktmerkmale zu verfolgen und einen Satz von Punkttrajektorien für mindestens eine der Serien von Bildern beizubehalten; im Block 1308 eine Wahrscheinlichkeit für jede Punkttrajektorie zu messen, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehört, unter Verwendung von Beschränkungen aus der Mehrfachsichtgeometrie; und im Block 1310 ein bedingtes Zufallsfeld (CRF) auf einem gesamten Frame zu bestimmen, um eine Bewegungsobjektsegmentierung zu erhalten.
  • 14 stellt ein beispielhaftes Systemdiagramm verschiedener Hardwarekomponenten und anderer Merkmale zur Verwendung gemäß einem Aspekt der vorliegenden Offenbarung dar. Die vorliegende Offenbarung kann unter Verwendung von Hardware, Software oder einer Kombination davon implementiert sein und kann in einem oder mehreren Computersystemen oder anderen Verarbeitungssystemen implementiert sein. In einem Aspekt betrifft die Offenbarung ein oder mehrere Computersysteme, die in der Lage sind, die hier beschriebene Funktionalität auszuführen. Ein Beispiel eines solchen Computersystems 1400 ist in 14 gezeigt, und die Computersysteme 1400 können implementiert sein, um das Verfahren 1300 von 13 auszuführen.
  • Das Computersystem 1400 umfasst einen oder mehrere Prozessoren, wie zum Beispiel einen Prozessor 1404. Der Prozessor 1404 ist mit einer Kommunikationsinfrastruktur 1406 (z. B. einem Kommunikationsbus, einer Cross-Over-Leiste oder einem Netzwerk) verbunden. Verschiedene Softwareaspekte werden in Bezug auf dieses beispielhafte Computersystem beschrieben. Nach dem Lesen dieser Beschreibung wird es dem Fachmann klar werden, wie die Offenbarung unter Verwendung anderer Computersysteme und/oder Architekturen implementiert werden kann.
  • Das Computersystem 1400 kann eine Anzeigeschnittstelle 1402 umfassen, die Grafiken, Text und andere Daten von der Kommunikationsinfrastruktur 1406 (oder von einem nicht dargestellten Framepuffer) zur Anzeige auf einer Anzeigeeinheit 1430 weiterleitet. Das Computersystem 1400 umfasst auch einen Hauptspeicher 1408, vorzugsweise einen Speicher mit wahlfreiem Zugriff (RAM), und kann auch einen Sekundärspeicher 1410 umfassen. Der Sekundärspeicher 1410 kann beispielsweise ein Festplattenlaufwerk 1412 und/oder ein Wechselspeicherlaufwerk 1414, das ein Diskettenlaufwerk, ein Magnetbandlaufwerk, ein optisches Plattenlaufwerk und dergleichen darstellt, umfassen. Das Wechselspeicherlaufwerk 1414 liest von und/oder schreibt auf eine Wechselspeichereinheit 1418 in einer wohlbekannten Weise. Die Wechselspeichereinheit 1418 stellt eine Diskette, ein Magnetband, eine optische Platte und dergleichen dar, die von dem Wechselspeicherlaufwerk 1414 gelesen und beschrieben wird. Wie ersichtlich ist, enthält die Wechselspeichereinheit 1418 ein computerverwendbares Speichermedium, in dem Computersoftware und/oder Daten gespeichert sind.
  • In alternativen Aspekten kann der Sekundärspeicher 1410 andere ähnliche Einrichtungen umfassen, um zu ermöglichen, dass Computerprogramme oder andere Befehle in das Computersystem 1400 geladen werden. Solche Einrichtungen können beispielsweise eine Wechselspeichereinheit 1422 und eine Schnittstelle 1420 umfassen. Beispiele dafür können eine Programmkassette und eine Kassettenschnittstelle (wie die, die in Videospieleinrichtungen gefunden wird), einen Wechselspeicherchip (wie z. B. einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM) oder einen programmierbaren Nur-Lese-Speicher (PROM)) und einen zugeordneten Sockel und andere Wechselspeichereinheiten 1422 und Schnittstellen 1420 umfassen, die es ermöglichen, dass Software und Daten von der Wechselspeichereinheit 1422 zu dem Computersystem 1400 übertragen werden.
  • Das Computersystem 1400 kann auch eine Kommunikationsschnittstelle 1424 umfassen. Die Kommunikationsschnittstelle 1424 ermöglicht die Übertragung von Software und Daten zwischen dem Computersystem 1400 und externen Geräten. Beispiele der Kommunikationsschnittstelle 1424 können ein Modem, eine Netzwerkschnittstelle (wie eine Ethernet-Karte), einen Kommunikationsanschluss, einen Personal Computer Memory Card International Association(PCMCIA)-Steckplatz und eine Karte und dergleichen umfassen. Software und Daten, die über die Kommunikationsschnittstelle 1424 übertragen werden, haben die Form von Signalen 1428, die elektronische, elektromagnetische, optische oder andere Signale sein können, die von der Kommunikationsschnittstelle 1424 empfangen werden können. Diese Signale 1428 werden der Kommunikationsschnittstelle 1424 über einen Kommunikationsweg (z. B. Kanal) 1426 bereitgestellt. Dieser Weg 1426 überträgt Signale 1428 und kann unter Verwendung eines Drahts oder Kabels, einer Faseroptik, einer Telefonleitung, einer Mobilfunkverbindung, einer Funkfrequenz(RF)-Verbindung und/oder anderen Kommunikationskanälen implementiert sein. In diesem Dokument werden die Begriffe „Computerprogrammmedium” und „computerverwendbares Medium” verwendet, um allgemein auf Medien zu verweisen, wie ein Wechselspeicherlaufwerk 1480, eine auf dem Festplattenlaufwerk 1470 installierte Festplatte und Signale 1428. Diese Computerprogrammprodukte stellen Software für das Computersystem 1400 bereit. Die Offenbarung ist auf solche Computerprogrammprodukte gerichtet.
  • Computerprogramme (die auch als Computersteuer-/regellogik bezeichnet werden) sind in dem Hauptspeicher 1408 und/oder dem Sekundärspeicher 1410 gespeichert. Computerprogramme können auch über die Kommunikationsschnittstelle 1424 empfangen werden. Solche Computerprogramme ermöglichen es, wenn sie ausgeführt werden, dass das Computersystem 1400 die Merkmale der vorliegenden Offenbarung ausführt, wie hierin diskutiert. Insbesondere ermöglichen die Computerprogramme, wenn sie ausgeführt werden, dem Prozessor 1410, die Merkmale der vorliegenden Offenbarung auszuführen. Entsprechend repräsentieren solche Computerprogramme Steuer-/Regeleinrichtungen des Computersystems 1400.
  • In einem Aspekt, in welchem die Offenbarung unter Verwendung von Software implementiert wird, kann die Software in einem Computerprogrammprodukt gespeichert und unter Verwendung eines Wechselspeicherlaufwerks 1414, einer Festplatte 1412 oder einer Kommunikationsschnittstelle 1420 in das Computersystem 1400 geladen werden. Die Steuer-/Regellogik (Software) veranlasst, wenn sie durch den Prozessor 1404 ausgeführt wird, den Prozessor 1404, die hierin beschriebenen Funktionen der Offenbarung auszuführen. In einem weiteren Aspekt ist die Offenbarung hauptsächlich in Hardware implementiert beispielsweise unter Verwendung von Hardware-Komponenten, wie anwendungsspezifischen integrierten Schaltungen (ASICs). Die Implementierung der Hardware-Zustandsmaschine, um die hierin beschriebenen Funktionen auszuführen, wird Fachleuten des relevanten Stands der Technik ersichtlich sein.
  • In noch einem weiteren Aspekt wird die Offenbarung unter Verwendung einer Kombination sowohl von Hardware als auch Software implementiert.
  • 15 ist ein Blockdiagramm verschiedener beispielhafter Systemkomponenten gemäß einem Aspekt der vorliegenden Offenbarung. 15 zeigt ein Kommunikationssystem 1500, das in Übereinstimmung mit der vorliegenden Offenbarung verwendbar ist. Das Kommunikationssystem 1500 umfasst einen oder mehrere Zugriffsberechtigte 1560, 1562 (austauschbar hierin auch als ein oder mehrere ”Benutzer” bezeichnet) und ein oder mehrere Terminals 1542, 1566. In einem Aspekt werden Daten zur Verwendung gemäß der vorliegenden Offenbarung beispielsweise von Zugriffsberechtigten 1560, 1562 über Terminals 1542, 1566 eingegeben und/oder auf diese zugegriffen, wie z. B. Personalcomputer (PCs), Minicomputer, Großrechner, Mikrocomputer, Telefongeräte oder drahtlose Geräte, wie z. B. persönliche digitale Assistenten („PDAs”) oder handgehaltene drahtlose Geräte, die mit einem Server 1543 gekoppelt sind, wie z. B. einem PC, einem Minicomputer, einem Großrechner, einem Mikrocomputer oder einem anderen Gerät mit einem Prozessor und einem Datenspeicher und/oder einer Verbindung zu einem Datenspeicher, beispielsweise über ein Netzwerk 1544, wie das Internet oder ein Intranet, und Kopplungen 1545, 1546, 1564. Die Kopplungen 1545, 1546, 1564 umfassen beispielsweise drahtgebundene, drahtlose oder faseroptische Verbindungen. In einem anderen Aspekt arbeiten das Verfahren und das System der vorliegenden Offenbarung in einer eigenständigen Umgebung, beispielsweise auf einem einzelnen Terminal.
  • Während Aspekte dieser Offenbarung in Verbindung mit den vorstehend skizzierten beispielhaften Merkmalen beschrieben worden sind, können verschiedene Alternativen, Modifikationen, Variationen, Verbesserungen und/oder substantielle Äquivalente, ob diese nun bekannt sind oder noch nicht vorhersehbar sind, für den Fachmann offensichtlich werden. Dementsprechend sollen die beispielhaften Aspekte der Offenbarung, wie oben dargelegt, erläuternd und nicht beschränkend sein. Verschiedene Änderungen können vorgenommen werden, ohne vom Geist und davon abzuweichen. Daher sollen Aspekte der Offenbarung alle bekannten oder später entwickelten Alternativen, Modifikationen, Variationen, Verbesserungen und/oder substantiellen Äquivalente umfassen.
  • Es werden Systeme und Verfahren zum Erfassen von sich bewegenden Objekten offenbart. Ein computerimplementiertes Verfahren zum Erfassen von sich bewegenden Objekten umfasst das Erhalten eines von einer Kamera aufgenommenen Streaming-Videos; Extrahieren einer Eingangsbildsequenz, die eine Serie von Bildern aus dem Streaming-Video enthält; Verfolgen von Punktmerkmalen und Beibehalten eines Satzes von Punkttrajektorien für mindestens eine der Serien von Bildern; Messen einer Wahrscheinlichkeit für jede Punkttrajektorie, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehört, unter Verwendung von Beschränkungen aus der Mehrfachsichtgeometrie; und Bestimmen eines bedingten Zufallsfeldes (CRF) an einem gesamten Frame, um eine Segmentierung eines sich bewegenden Objekts zu erhalten.

Claims (20)

  1. Ein Computer-implementiertes Verfahren zum Erfassen sich bewegender Objekte, umfassend: Erhalten eines von einer Kamera aufgenommenen Streaming-Videos; Extrahieren einer Eingangsbildsequenz, die eine Serie von Bildern aus dem Streaming-Video enthält; Verfolgen von Punktmerkmalen und Beibehalten eines Satzes von Punkttrajektorien für mindestens eine der Serien von Bildern; Messen einer Wahrscheinlichkeit für jede Punkttrajektorie, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehört, unter Verwendung von Beschränkungen aus einer Mehrfachsichtgeometrie; und Bestimmen eines bedingten Zufallsfeldes (CRF) auf einem gesamten Frame, um eine Bewegungsobjektsegmentierung zu erhalten.
  2. Das Verfahren nach Anspruch 1, wobei die Kamera eine monokulare Kamera umfasst.
  3. Das Verfahren nach Anspruch 1, wobei die Beschränkungen aus der Mehrfachsichtgeometrie eine epipolare Beschränkung unter Zweifachansicht und/oder trifokale Beschränkungen aus der Dreifachansicht umfassen.
  4. Das Verfahren nach Anspruch 3, wobei die epipolare Beschränkung zumindest teilweise basierend auf einer epipolaren Bewegungsobjektkennzahl für ein Punktkorrespondenzpaar wie folgt berechnet wird: ϕ(x τ / i, x τ' / i) = dpl(F τ' / τx τ' / i, x τ / i) + dpl(x τ' / i, x τ / iF τ' / τ), wobei F τ' / τx τ' / i und x τ / iF τ' / τ in jeder Ansicht relative epipolare Linien definieren und eine Funktion dpl(·) einen Punkt-zu-Linien-Abstand berechnet.
  5. Das Verfahren nach Anspruch 4, wobei das Punktkorrespondenzpaar auf der Grundlage eines optischen Flusses zwischen aufeinanderfolgenden Frames bestimmt wird.
  6. Das Verfahren nach Anspruch 4, ferner umfassend ein Bestimmen eines gewichteten Mittelwerts aller epipolaren Bewegungsobjektkennzahlen einer Trajektorie wie folgt:
    Figure DE102016222267A1_0009
    wobei β ein Dämpfungsfaktor ist.
  7. Das Verfahren nach Anspruch 4, ferner umfassend ein Bestimmen einer weiteren epipolaren Bewegungsobjektkennzahl wie folgt:
    Figure DE102016222267A1_0010
    wobei [·] eine Indikatorfunktion ist, v eine Toleranzvariable ist und ρ(z t / i,τ) = (t – τ)(t – τ – 1)/2 der Normalisierungsfaktor ist.
  8. Das Verfahren nach Anspruch 3, wobei die trifokalen Beschränkungen aus der Dreifachsicht wenigstens teilweise auf der Grundlage einer trifokalen Bewegungsobjektkennzahl bestimmt werden, die wie folgt definiert ist: γ(x m / i, x n / i, x p / i) = dpp(x p / i, x ^ p / i), wobei x ^t'' die geschätzte Position in der dritten Ansicht unter Verwendung von xt und xt' ist und dpp(·) den euklidischen Abstand berechnet.
  9. Verfahren nach Anspruch 8, ferner umfassend ein Bestimmen eines gewichteten Mittelwertes aller trifokalen Bewegungsobjektkennzahlen, um eine Historie für jede Trajektorie zu berücksichtigen, wie folgt:
    Figure DE102016222267A1_0011
    wobei β ein Dämpfungsfaktor ist.
  10. Das Verfahren nach Anspruch 1, ferner umfassend, für jeden Frame T: Berechnen eines optischen Flusses und einer Punkttrajektorie; Schätzen von Fundamentalmatrizen und eines trifokalen Tensors; Berechnen einer epipolaren Bewegungsobjektkennzahl und einer trifokalen Bewegungsobjektkennzahl für jede Trajektorie; und Bilden der CRF auf Superpixeln, um Bewegungslabels zu bestimmen.
  11. Ein System zum Erfassen sich bewegender Objekte, wobei das System umfasst: Mittel zum Erhalten eines durch eine Kamera aufgenommenen Streaming-Videos; Mittel zum Extrahieren einer Eingangsbildsequenz, die eine Serie von Bildern aus dem Streaming-Video enthält; Mittel zum Verfolgen von Punktmerkmalen und Mittel zum Beibehalten eines Satzes von Punkttrajektorien für mindestens eine der Serien von Bildern; Mittel zum Messen einer Wahrscheinlichkeit für jede Punkttrajektorie, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehört, unter Verwendung von Beschränkungen aus einer Mehrfachsichtgeometrie; und Mittel zum Bestimmen eines bedingten Zufallsfeldes (CRF) auf einem gesamten Frame, um eine dichte Bewegungsobjektsegmentierung zu erhalten.
  12. Das System nach Anspruch 11, wobei die Beschränkungen aus der Mehrfachsichtgeometrie eine epipolare Beschränkung unter Zweifachansicht und/oder trifokale Beschränkungen aus der Dreifachansicht umfassen.
  13. Das System nach Anspruch 12, wobei die epipolare Beschränkung zumindest teilweise basierend auf einer epipolaren Bewegungsobjektkennzahl für ein Punktkorrespondenzpaar wie folgt berechnet wird: ϕ(x τ / i, x τ' / i) = dpl(F τ' / τx τ' / i, x τ / i) + dpl(x τ' / i, x τ / iF τ' / τ), wobei F τ' / τx τ'i und x τ / iF τ' / τ in jeder Ansicht relative epipolare Linien definieren und eine Funktion dpl(·) einen Punkt-zu-Linien-Abstand berechnet.
  14. Das System nach Anspruch 13, ferner umfassend Mittel zum Bestimmen eines gewichteten Mittelwertes aller epipolaren Bewegungsobjektkennzahlen einer Trajektorie wie folgt:
    Figure DE102016222267A1_0012
    wobei β ein Dämpfungsfaktor ist.
  15. Das System nach Anspruch 13, ferner umfassend Mittel zum Bestimmen einer anderen epipolaren Bewegungsobjektkennzahl wie folgt:
    Figure DE102016222267A1_0013
    wobei [·] eine Indikatorfunktion ist, v eine Toleranzvariable ist und ρ(z t / i,τ) = (t – τ)(t – τ – 1)/2 der Normalisierungsfaktor ist.
  16. Das System nach Anspruch 12, wobei die trifokalen Beschränkungen aus der Dreifachsicht wenigstens teilweise auf der Grundlage einer trifokalen Bewegungsobjektkennzahl wie folgt bestimmt werden: γ(x m / i, x n / i, x p / i) = dpp(x p / i, x ^ p / i), wobei x ^t'' die geschätzte Position in der dritten Ansicht unter Verwendung von xt und xt' ist und dpp(·) den euklidischen Abstand berechnet.
  17. Das System nach Anspruch 16, ferner umfassend Mittel zum Bestimmen eines gewichteten Mittelwertes aller trifokalen Bewegungsobjektkennzahlen, um eine Historie für jede Trajektorie zu berücksichtigen, wie folgt:
    Figure DE102016222267A1_0014
    wobei β ein Dämpfungsfaktor ist.
  18. Das System nach Anspruch 11, ferner umfassend, für jeden Frame T: Mittel zum Berechnen eines optischen Flusses und einer Punkttrajektorie; Mittel zum Schätzen von Fundamentalmatrizen und eines trifokalen Tensors; Mittel zum Berechnen einer epipolaren Bewegungsobjektkennzahl und einer trifokalen Bewegungsobjektkennzahl für jede Trajektorie; und Mittel zum Bilden der CRF auf Superpixeln, um Bewegungslabels zu bestimmen.
  19. Ein nicht-flüchtiges computerlesbares Speichermedium mit einer darauf gespeicherten Steuerlogik, um einen Computer dazu zu veranlassen, sich bewegende Objekte zu detektieren, wobei die Steuerlogik maschinenausführbare Codes aufweist zum: Erhalten eines von einer Kamera aufgenommenen Streaming-Videos; Extrahieren einer Eingangsbildsequenz, die eine Serie von Bildern aus dem Streaming-Video enthält; Verfolgen von Punktmerkmalen und Beibehalten eines Satzes von Punkttrajektorien für mindestens eine der Serien von Bildern; Messen einer Wahrscheinlichkeit für jede Punkttrajektorie, um zu bestimmen, ob sie zu einem sich bewegenden Objekt gehört, unter Verwendung von Beschränkungen aus der Mehrfachsichtgeometrie; und Bestimmen eines bedingten Zufallsfeldes (CRF) auf einem gesamten Frame, um eine dichte Bewegungsobjektsegmentierung zu erhalten.
  20. Das nicht-flüchtige computerlesbare Speichermedium nach Anspruch 19, für jeden Frame T, ferner umfassend Codes zum: Berechnen eines optischen Flusses und einer Punkttrajektorie; Schätzen von Fundamentalmatrizen und eines trifokalen Tensors; Berechnen einer epipolaren Bewegungsobjektkennzahl und einer trifokalen Bewegungsobjektkennzahl für jede Trajektorie; und Bilden der CRF auf Superpixeln, um Bewegungslabels zu bestimmen.
DE102016222267.8A 2015-11-13 2016-11-14 Verfahren und System zum Erfassen eines sich bewegenden Objekts mit einer einzelnen Kamera Pending DE102016222267A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562255289P 2015-11-13 2015-11-13
US62/255,289 2015-11-13
US15/349,556 2016-11-11
US15/349,556 US10019637B2 (en) 2015-11-13 2016-11-11 Method and system for moving object detection with single camera

Publications (1)

Publication Number Publication Date
DE102016222267A1 true DE102016222267A1 (de) 2017-06-14

Family

ID=58691210

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016222267.8A Pending DE102016222267A1 (de) 2015-11-13 2016-11-14 Verfahren und System zum Erfassen eines sich bewegenden Objekts mit einer einzelnen Kamera

Country Status (4)

Country Link
US (2) US10019637B2 (de)
JP (1) JP6849403B2 (de)
CN (1) CN107025658B (de)
DE (1) DE102016222267A1 (de)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242455B2 (en) * 2015-12-18 2019-03-26 Iris Automation, Inc. Systems and methods for generating a 3D world model using velocity data of a vehicle
EP3481661A4 (de) 2016-07-05 2020-03-11 Nauto, Inc. System und verfahren zur automatischen fahreridentifikation
US10209081B2 (en) 2016-08-09 2019-02-19 Nauto, Inc. System and method for precision localization and mapping
EP3513265A4 (de) 2016-09-14 2020-04-22 Nauto Global Limited Systeme und verfahren zur bestimmung von beinahekollisionen
US10733460B2 (en) 2016-09-14 2020-08-04 Nauto, Inc. Systems and methods for safe route determination
WO2018085804A1 (en) 2016-11-07 2018-05-11 Nauto Global Limited System and method for driver distraction determination
WO2018119744A1 (zh) * 2016-12-28 2018-07-05 深圳前海达闼云端智能科技有限公司 一种虚警障碍物检测方法及装置
EP3364336B1 (de) * 2017-02-20 2023-12-20 Continental Autonomous Mobility Germany GmbH Verfahren und vorrichtung zur schätzung der reichweite eines sich bewegenden objekts
WO2018229549A2 (en) 2017-06-16 2018-12-20 Nauto Global Limited System and method for digital environment reconstruction
WO2018229550A1 (en) * 2017-06-16 2018-12-20 Nauto Global Limited System and method for adverse vehicle event determination
US10430695B2 (en) 2017-06-16 2019-10-01 Nauto, Inc. System and method for contextualized vehicle operation determination
CN107507224B (zh) * 2017-08-22 2020-04-24 明见(厦门)技术有限公司 运动物体检测方法、装置、介质及计算设备
US10678257B2 (en) * 2017-09-28 2020-06-09 Nec Corporation Generating occlusion-aware bird eye view representations of complex road scenes
EP3759700B1 (de) 2018-02-27 2023-03-15 Nauto, Inc. Verfahren zur bestimmung einer fahrrichtlinie
US10460156B2 (en) * 2018-03-06 2019-10-29 Sony Corporation Automated tracking and retaining of an articulated object in a sequence of image frames
CN110826385A (zh) * 2018-06-07 2020-02-21 皇家飞利浦有限公司 康复设备及方法
WO2020006378A1 (en) * 2018-06-29 2020-01-02 Zoox, Inc. Sensor calibration
CN109615640B (zh) * 2018-11-19 2021-04-30 北京陌上花科技有限公司 相关滤波目标跟踪方法及装置
CN109727264A (zh) * 2019-01-10 2019-05-07 南京旷云科技有限公司 图像生成方法、神经网络的训练方法、装置和电子设备
WO2020150371A1 (en) * 2019-01-15 2020-07-23 Martin Wyeth System and method for low-cost gamified golfing
JP7330708B2 (ja) * 2019-01-28 2023-08-22 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN109902725A (zh) * 2019-01-31 2019-06-18 北京达佳互联信息技术有限公司 移动目标的检测方法、装置及电子设备和存储介质
CN110263236B (zh) * 2019-06-06 2022-11-08 太原理工大学 基于动态多视图学习模型的社交网络用户多标签分类方法
CN110440902B (zh) * 2019-08-29 2021-05-14 合肥工业大学 一种非接触式微小振动视觉测量方法
US11361548B2 (en) * 2019-10-23 2022-06-14 Tata Consultancy Services Limited Method and system for multi instance visual tracking based on observer motion modelling
CN111144015A (zh) * 2019-12-30 2020-05-12 吉林大学 一种自动驾驶汽车虚拟场景库构建方法
US11270137B2 (en) 2020-06-17 2022-03-08 Fotonation Limited Event detector and method of generating textural image based on event count decay factor and net polarity
US11164019B1 (en) * 2020-06-17 2021-11-02 Fotonation Limited Object detection for event cameras
US11301702B2 (en) * 2020-06-17 2022-04-12 Fotonation Limited Object detection for event cameras
CN112598706B (zh) * 2020-12-21 2024-02-02 西北工业大学 无需精确时空同步的多相机运动目标三维轨迹重建方法
US11328601B1 (en) 2021-02-22 2022-05-10 Volvo Car Corporation Prevention of low-speed sideswipe collisions with non-moving objects
CN115393585B (zh) * 2022-08-11 2023-05-12 江苏信息职业技术学院 一种基于超像素融合网络的运动目标检测方法
CN117470248B (zh) * 2023-12-27 2024-04-02 四川三江数智科技有限公司 一种移动机器人室内定位方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353678B1 (en) * 1999-07-14 2002-03-05 Sarnoff Corporation Method and apparatus for detecting independent motion in three-dimensional scenes
US7164800B2 (en) * 2003-02-19 2007-01-16 Eastman Kodak Company Method and system for constraint-consistent motion estimation
US7418113B2 (en) * 2005-04-01 2008-08-26 Porikli Fatih M Tracking objects in low frame rate videos
JP4777433B2 (ja) * 2005-10-27 2011-09-21 エヌイーシー ラボラトリーズ アメリカ インク ビデオ前景の分割方法
US8073196B2 (en) * 2006-10-16 2011-12-06 University Of Southern California Detection and tracking of moving objects from a moving platform in presence of strong parallax
US8300887B2 (en) * 2007-05-10 2012-10-30 Honda Motor Co., Ltd. Object detection apparatus, object detection method and object detection program
EP2368216B1 (de) * 2008-10-10 2012-12-26 ADC Automotive Distance Control Systems GmbH Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
JP5347799B2 (ja) * 2009-07-24 2013-11-20 コニカミノルタ株式会社 トナー濃度調整システム及び画像形成装置
US9411037B2 (en) * 2010-08-18 2016-08-09 RetailNext, Inc. Calibration of Wi-Fi localization from video localization
JP5872818B2 (ja) * 2010-08-20 2016-03-01 パナソニック株式会社 測位処理装置、測位処理方法、および画像処理装置
JP2012118923A (ja) * 2010-12-03 2012-06-21 Toyota Motor Corp 領域分割装置及び領域分割方法
US9323337B2 (en) * 2010-12-29 2016-04-26 Thomson Licensing System and method for gesture recognition
JP4784709B1 (ja) * 2011-03-10 2011-10-05 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
US9117147B2 (en) * 2011-04-29 2015-08-25 Siemens Aktiengesellschaft Marginal space learning for multi-person tracking over mega pixel imagery
US20130329987A1 (en) * 2012-06-11 2013-12-12 Genesis Group Inc. Video segmentation method
CN103679186B (zh) * 2012-09-10 2017-04-05 华为技术有限公司 检测和跟踪目标的方法和装置
CN102938153B (zh) * 2012-11-21 2015-02-18 清华大学 基于约束谱聚类和马尔科夫随机场的视频图像分割方法
CN104156932A (zh) * 2013-05-13 2014-11-19 哈尔滨点石仿真科技有限公司 一种基于光流场聚类的运动目标分割方法
CN103413322B (zh) * 2013-07-16 2015-11-18 南京师范大学 序列视频关键帧提取方法
US9129192B2 (en) * 2013-12-16 2015-09-08 Adobe Systems Incorporated Semantic object proposal generation and validation
KR101936108B1 (ko) * 2014-01-08 2019-01-09 주식회사 만도 교통 표지판 탐지 방법 및 장치
US9235904B1 (en) * 2014-06-20 2016-01-12 Nec Laboratories America, Inc. Object detection with Regionlets re-localization
CN104200492B (zh) * 2014-08-25 2017-03-29 西北工业大学 基于轨迹约束的航拍视频目标自动检测跟踪方法
CN104616320A (zh) * 2015-02-03 2015-05-13 中国人民解放军国防科学技术大学 低空航拍视频中基于梯度抑制和极线约束的车辆检测方法

Also Published As

Publication number Publication date
CN107025658B (zh) 2022-06-28
US10019637B2 (en) 2018-07-10
JP2017091549A (ja) 2017-05-25
US10176390B2 (en) 2019-01-08
US20170140231A1 (en) 2017-05-18
US20180285662A1 (en) 2018-10-04
JP6849403B2 (ja) 2021-03-24
CN107025658A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
DE102016222267A1 (de) Verfahren und System zum Erfassen eines sich bewegenden Objekts mit einer einzelnen Kamera
Manap et al. Non-distortion-specific no-reference image quality assessment: A survey
DE102014210820B4 (de) Verfahren zum Nachweis von großen und Passagierfahrzeugen von festen Kameras
DE112020005360T5 (de) Fein differenzierte optische erkennung in erweiterter realität
DE102013205810B4 (de) System und verfahren zum einschätzen von verfügbaren parkplätzen zum parken auf der strasse mit mehreren plätzen
DE112018000332T5 (de) Dichtes visuelles slam mit probabilistic-surfel-map
Gao et al. Distributed mean-field-type filters for traffic networks
DE102015115786B4 (de) An einem computer realisiertes verfahren und system zur verarbeitung einer sequenz von bildern
DE102019208216A1 (de) Detektion, 3D-Rekonstruktion und Nachverfolgung von mehreren relativ zueinander bewegten starren Objekten
CN105075264A (zh) 用精确的运动信息增强运动图片
DE102013217569A1 (de) Videoverfolgung zur videobasierten geschwindigkeitskontrolle
DE112020004920T5 (de) Verfolgen von datenstromobjekten mit verzögerter objekterkennung
DE102015115789B4 (de) An einem computer realisiertes verfahren und system zur verarbeitung eines bilds
DE102020207974B4 (de) Systeme und verfahren zum nachweis von bewegung während 3d-datenrekonstruktion
DE102004026782A1 (de) Verfahren und Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, computerlesbares Speichermedium und Computerprogramm-Element
CN105138979A (zh) 基于立体视觉的运动人体头部检测方法
DE112013003541T5 (de) Verfahren, Programm und System zur Merkmalextraktion
CN110633630B (zh) 一种行为识别方法、装置及终端设备
DE102014105567A1 (de) Verfahren zur Verfolgung von Objekten unter Verwendung hyperspektraler Bilder
CN114612999A (zh) 一种目标行为分类方法、存储介质及终端
Shao et al. An End-to-End Food Portion Estimation Framework Based on Shape Reconstruction from Monocular Image
Wang et al. Blind quality assessment for multiply distorted stereoscopic images towards IoT-based 3D capture systems
Liu et al. Video synchronization based on events alignment
CN111191524A (zh) 运动人群计数方法
Wang et al. Local and nonlocal flow-guided video inpainting

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R163 Identified publications notified
R016 Response to examination communication