AT518438A1 - Method for self-localization of vehicles - Google Patents

Method for self-localization of vehicles Download PDF

Info

Publication number
AT518438A1
AT518438A1 ATA50240/2016A AT502402016A AT518438A1 AT 518438 A1 AT518438 A1 AT 518438A1 AT 502402016 A AT502402016 A AT 502402016A AT 518438 A1 AT518438 A1 AT 518438A1
Authority
AT
Austria
Prior art keywords
disparity
images
clusters
image
depth
Prior art date
Application number
ATA50240/2016A
Other languages
German (de)
Original Assignee
Pas Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pas Gmbh filed Critical Pas Gmbh
Priority to ATA50240/2016A priority Critical patent/AT518438A1/en
Priority to PCT/AT2017/060076 priority patent/WO2017161401A1/en
Publication of AT518438A1 publication Critical patent/AT518438A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

Zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision werden nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen, wobei aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird. Erfindungsgemäß werden die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst, daraus Disparitäts- bzw. Tiefencluster extrahiert und diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden. Es ist dabei zweckmäßig, eine Bodenebene als Disparitäts- bzw. Tiefenwertbild zu berechnen, diese mathematisch etwas anzuheben und die Differenz zwischen der Bodenebene als Disparitäts- bzw. Tiefenwertbild und den Disparitäts- bzw. Tiefeninformationen zu bilden, bevor die Disparitäts- bzw. Tiefeninformationen verglichen werden. Damit wird die Bodenebene, in der keine brauchbaren Informationen vorhanden sind, ausgeblendet.For self-localization of vehicles based on stereo vision, images of at least two cameras fixed statically on the vehicle are successively recorded and read out, whereby disparity or depth information is calculated from the recorded images and the self-motion is deduced from the distance difference of the same objects in different images. In accordance with the invention, the disparity or depth information is understood as images, and disparity clusters or deep clusters are extracted and these disparity clusters or deep clusters are found again in the subsequent images. It is expedient to calculate a ground plane as a disparity or depth value image, to raise it mathematically and to form the difference between the ground plane as a disparity or depth value image and the disparity or depth information before the disparity or depth information is compared become. This will hide the ground level where no useful information is available.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision, bei dem nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen werden, bei dem aus den aufgenommenen Bildern Disparitäts-bzw. Tiefeninformationen berechnet werden und bei dem aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird.The present invention relates to a method for self-localization of vehicles based on stereo vision, in which successively recorded and read images of at least two cameras fixed to the vehicle static, in which from the recorded images disparity or. Depth information are calculated and in which is derived from the distance difference of the same objects in different images on the proper motion.

Unter Selbstlokalisierung soll in diesem Zusammenhang die Berechnung der Bewegung bzw. Position eines Fahrzeuges ohne Hilfe äußerer Signale wie GPS über einen zeitlichen Verlauf verstanden werden.Self-localization should be understood in this context to mean the calculation of the movement or position of a vehicle without the aid of external signals such as GPS over a time course.

Lokalisierung autonomer Systeme basierend auf internen Signalen ist kein neuer Gedanke. Die grundlegenden Ansätze dazu sind unter dem Begriff Odometrie bekannt. Durch Odometrie werden Bewegungen basierend auf Sensorwerten errechnet. Im einfachsten Fall werden die Radgeschwindigkeiten ausgelesen und integriert. Viele der grundlegenden Algorithmen der Robotik sind bis zum heutigen Tage noch nicht für den Einsatz in hochdynamischer Umgebung (Feldweg, Wald, ...) geeignet. Die Problematik zeigt sich durch Drift über die Zeit oder das komplette Versagen der Lokalisierung. Das Verlangen nach einem über die Zeit stabilen System ist für die Anwendung autonomer Systeme daher sehr hoch.Localization of autonomous systems based on internal signals is not a new idea. The basic approaches to this are known by the term odometry. Odometry calculates movements based on sensor values. In the simplest case, the wheel speeds are read out and integrated. Many of the basic algorithms of robotics are still not suitable for use in highly dynamic environments (dirt road, forest, ...). The problem is shown by drift over time or the complete failure of localization. The desire for a system stable over time is therefore very high for the application of autonomous systems.

Das gegenständliche Verfahren ist eine kamerabasierte Lösung, und zwar verwendet es Stereovision - eine Technologie zur Berechnung von Tiefeninformation basierend auf mindestens zwei Kamerabildern.The subject method is a camera-based approach using Stereovision - a technology for calculating depth information based on at least two camera images.

Die bisher bekannten derartigen Verfahren nehmen ein Kamerabild von mindestens zwei Kameras auf und extrahieren daraus die Bildfeatures, das sind repräsentative Merkmale wie beispielhaft SIFT-Features. Danach (z.B. eine Sekunde oder einige Sekunden später) werden wiederum Bilder aufgenommen und daraus wiederum Bildfeatures extrahiert. Schließlich wird versucht, Bildfeatures aus den ersten Bildern in den zweiten Bildern wiederzufinden, wonach der Entfernungsunterschied basierend auf den Kalibrierinformationen ermittelt werden kann.The previously known such methods record a camera image of at least two cameras and extract therefrom the image features, which are representative features such as, for example, SIFT features. Thereafter (e.g., one second or several seconds later), images are again taken and, in turn, image features extracted. Finally, an attempt is made to retrieve image features from the first images in the second images, after which the distance difference can be determined based on the calibration information.

Problematisch sind solche Systeme z.B. im Wald. Hier ändern sich die Gegebenheiten ständig durch Wind, Blattbewegung, etc. Es sind daher keine repräsentativen Bildfeatures extrahierbar.Such systems are problematic, e.g. in the forest. Here, the conditions are constantly changing due to wind, leaf movement, etc. Therefore, no representative image features can be extracted.

Es ist Aufgabe der vorliegenden Erfindung, ein System der eingangs genannten Art zu schaffen, das die erwähnten Nachteile nicht aufweist, also auch bei dynamischen Verhältnissen in nicht strukturierter Umgebung zuverlässig funktioniert.It is an object of the present invention to provide a system of the type mentioned above, which does not have the mentioned disadvantages, so it works reliably even in dynamic conditions in non-structured environment.

Diese Aufgabe wird durch ein Verfahren der eingangs genannten Art erfindungsgemäß dadurch gelöst, dass die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst werden, dass daraus Disparitäts- bzw. Tiefencluster extrahiert werden und dass diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden werden.This object is achieved by a method of the aforementioned type according to the invention that the disparity or depth information are interpreted as images that it disparity or depth clusters are extracted and that these disparity or depth clusters are found again in the subsequent images ,

Erfindungsgemäß werden also nicht (aufeinanderfolgende) Bilder miteinander verglichen, sondern es werden Disparitäts- bzw. Tiefeninformationscluster (das sind zusammenhängende Disparitätskonturen im Disparitätsbild, in denen der Disparitätswert innerhalb eines vorgegebenen Werts ist) in den Bildern ermittelt. Dies hat sich als ganz wesentlich zuverlässiger herausgestellt als der direkte Vergleich der Bilder, denn das Aussehen eines Objekts kann sich rasch ändern, seine Entfernung bleibt aber bei stationären Objekten bis auf die Eigenbewegung konstant. Die Selbstlokalisierung basiert daher ausschließlich auf den Disparitäts- und damit Tiefeninformationen von Objekten.Thus, according to the invention, not (successive) images are compared with each other, but disparity or depth information clusters (ie contiguous disparity contours in the disparity image in which the disparity value is within a predetermined value) are determined in the images. This has proven to be much more reliable than the direct comparison of the images, because the appearance of an object can change rapidly, but its distance remains constant for stationary objects except for their own motion. The self-localization is therefore based exclusively on the disparity and thus depth information of objects.

Um die Disparitätscluster von Objekten überhaupt berechnen zu können, sollte Bodeninformation aus dem Disparitätsbild entfernt werden. Eine Beschreibung der Bodenfläche ist daher nötig. Durch Subtraktion der Bodenebene entsteht ein "Hindernisbild". Positive Pixelwerte nach dieser Subtraktion bedeuten dabei Erhebungen und negative Werte Löcher. Dadurch wird die kaum brauchbare Informationen enthaltende Bodenebene sozusagen "ausgeblendet". Maskiert man das ursprüngliche Disparitätsbild mit dem Hindernisbild entsteht ein Hindernisbild mit unverzerrten Disparitätswerten.In order to be able to calculate the disparity clusters of objects at all, ground information should be removed from the disparity image. A description of the floor area is therefore necessary. By subtracting the ground level creates an "obstacle image". Positive pixel values after this subtraction mean elevations and negative values holes. As a result, the soil level containing hardly usable information is "hidden" as it were. Masking the original disparity image with the obstacle image creates an obstacle image with undistorted disparity values.

Wird die Bodenebene angehoben, kann sich die Berechnung auf deutlich herausragende Hindernisse beschränken.If the ground level is raised, the calculation may be limited to clearly outstanding obstacles.

Ein konkretes Ausführungsbeispiel der vorliegenden Erfindung wird an Hand der beiliegenden Zeichnungen näher erläutert. Es zeigt: Fig. 1 eine mögliche Anordnung von drei Kameras - zwei auf unterschiedliche Arbeitsräume ausgelegte Stereokameras; Fig. 2 diese drei Kameras mit fiktiven Objekten; und Fig. 3 die Disparität einer Bodenebene.A concrete embodiment of the present invention will be explained in more detail with reference to the accompanying drawings. 1 shows a possible arrangement of three cameras-two stereo cameras designed for different working spaces; Fig. 2 shows these three cameras with fictitious objects; and FIG. 3 shows the disparity of a ground plane.

Der Grundaufbau des Systems ist in Fig. 1 zu sehen. Der in Fig. 1 gezeigte Kamerakopf 10 besteht aus drei Kameras 11, 12 und 13. Diese bilden im Zusammenspiel der linken und mittleren Kamera 11 und 12 bzw. linken und rechten Kamera 11 und 13 zwei Stereokamerasysteme. Da die Genauigkeit der Tiefeninformation mit der Distanz abnimmt, können zwei für unterschiedliche Distanzen ausgelegte Systeme verwendet werden, um den Fehler zu minimieren (11 und 12 für nahe Objekte, 11 und 13 für entfernte Objekte).The basic structure of the system can be seen in FIG. The camera head 10 shown in FIG. 1 consists of three cameras 11, 12 and 13. These form in conjunction with the left and middle camera 11 and 12 and left and right camera 11 and 13, two stereo camera systems. Since the accuracy of depth information decreases with distance, two systems designed for different distances can be used to minimize the error (11 and 12 for near objects, 11 and 13 for distant objects).

Die Sensoren der Kameras 11, 12 und 13 haben alle gleich viele Pixel; im Folgenden bezeichnet m die Anzahl von Pixelspalten und n die Anzahl von Pixelzeilen in jedem der Sensoren. Die Sensoren haben also eine Auflösung von m · n Pixeln. Die Signale der Sensoren werden über eine Leitung 14 ausgegeben.The sensors of the cameras 11, 12 and 13 all have the same number of pixels; In the following, m denotes the number of pixel columns and n the number of pixel rows in each of the sensors. The sensors therefore have a resolution of m × n pixels. The signals of the sensors are output via a line 14.

Der Kamerakopf 10 muss kalibriert werden. Bei der Kalibrierung werden einerseits interne Kameraparameter (z.B.: Verzerrung) und externe Parameter (Transformation zwischen Kameras) bestimmt. Für die Kalibrierung gibt es Software.The camera head 10 must be calibrated. During calibration, on the one hand, internal camera parameters (eg distortion) and external parameters (transformation between cameras) are determined. There is software for the calibration.

In der realen Anwendung wird jede Kamera zeitgleich ausgelesen und die Bilder werden mit den Kalibrierinformationen rektifiziert (entzerrt und transformiert). Die gleiche optische Information ist nun in allen Kamerabildern an verschiedenen Stellen, in derselben Zeile der Bilder zu sehen. Der Positionsunterschied wird als Disparität bezeichnet. Die Tiefe vor der Kamera im dreidimensionalen Raum ist durch den Zusammenhang T = B-f/D (1) gegeben. T beschreibt dabei die Tiefe, B die Länge der Baseline (Abstand der Kameras), f die Brennweite und D die Disparität.In real use, each camera is read out at the same time and the images are rectified (equalized and transformed) with the calibration information. The same optical information can now be seen in all camera pictures in different places, in the same line of pictures. The position difference is called disparity. The depth in front of the camera in three-dimensional space is given by the relation T = B-f / D (1). T describes the depth, B the length of the baseline (distance of the cameras), f the focal length and D the disparity.

Da B und f konstant sind, ist in den T-Werten (Tiefeninformationswerten) und in den D-Werten (Disparitätswerten) dieselbe Information vorhanden, es handelt sich bis auf eine Konstante um Reziprokwerte. Würde man an jeder möglichen Stelle im Bild die Disparität bestimmen und anschließend mit Formel (1) die Tiefe errechnen, würde man ein Tiefenbild erhalten. Da die Tiefeninformation allerdings keinen Mehrwert bringt, wird man zweckmäßiger Weise diese Berechnung einsparen und ausschließlich ein Disparitätsbild verwenden.Since B and f are constant, the same information is present in the T values (depth information values) and in the D values (disparity values), except for one constant, which is reciprocal values. If one were to determine the disparity at every possible point in the picture and then use formula (1) to calculate the depth, one would obtain a depth image. However, since the depth information does not add value, it will be convenient to save this calculation and use only a disparity image.

Im Disparitätsbild sind wie bereits erwähntIn the disparity picture are as already mentioned

Objektinformationen mit Bodeninformationen vermischt. Um diese separieren zu können, muss die Bodeninformation - d.h. ein Disparitätsbild eines idealen Bodens - berechnet werden.Object information mixed with soil information. In order to be able to separate them, the ground information - i. a disparity image of an ideal soil - to be calculated.

Wenn man ein Disparitätsbild als Graustufenbild darstellt (helle Punkte bedeuten hohe Disparität, dunkle Punkte geringe Disparität), dann wird die Bodenebene mit zunehmendem Abstand dünkler (da die Disparität geringer wird), bis sie im Horizont schwarz wird (keine Disparität im Unendlichen). Wenn sich die Baseline des Kamerakopfes 10 parallel zur Bodenebene befindet, kann davon ausgegangen werden, dass der Disparitätswert einer idealen Bodenebene im Disparitätsbild von der horizontalen Pixelposition unabhängig ist und nur von der vertikalen Pixelposition abhängt. Daher muss nur eine Stichprobe der Bodenebene genommen werden. Wenn der Kamerakopf 10 direkt auf eine lange gerade Straße gerichtet ist, dann kann diese Stichprobe eine Linie genau in der Mitte des Bildes von unten nach oben sein.If a disparity image is represented as a grayscale image (bright dots indicate high disparity, dark dots low disparity), then the ground level narrows as the distance increases (as the disparity decreases) until it turns black in the horizon (no disparity at infinity). If the baseline of the camera head 10 is parallel to the ground plane, it can be assumed that the disparity value of an ideal ground plane in the disparity image is independent of the horizontal pixel position and depends only on the vertical pixel position. Therefore, only a sample of the ground level has to be taken. If the camera head 10 is aimed directly at a long straight road, then this sample may be a line exactly in the middle of the image from bottom to top.

In Fig. 3 sind die Messwerte D (Disparität) in Abhängigkeit von der Zeile Z (Zeilen des Bildes) der Stichprobe durch eine dicke Linie dargestellt, wobei in dieser Figur die Zeilen vom Horizont weg (wenn der Kamerakopf nicht geneigt ist, also von der Bildmitte weg) gezählt werden. In Zeile 0 (Horizont) ist daher die Disparität 0. Man sieht, dass die Abhängigkeit aufgrund der Annahme einer idealen Bodenfläche annähernd linear ist, sich die extrahierte Stichprobe durch Rauschen aber nicht optimal verhält. Daher muss diese verrauschte Linie linear interpoliert werden (dünne, durchgezogene Linie). Dies geschieht durch die Anpassung des Modells d=k · z + o wobei z die Zeile des Bildes darstellt, d den dazu gehörenden Disparitätswert, o einen Offset und k die Steigung der Disparität zwischen zwei Zeilen.In FIG. 3, the measured values D (disparity) as a function of the line Z (lines of the image) of the random sample are represented by a thick line, in which case the lines are away from the horizon (if the camera head is not inclined, that is to say from the Middle of the picture). In line 0 (horizon), therefore, the disparity is 0. It can be seen that the dependence is approximately linear due to the assumption of an ideal bottom surface, but the extracted sample does not behave optimally due to noise. Therefore, this noisy line must be linearly interpolated (thin, solid line). This is done by fitting the model d = k * z + 0 where z represents the line of the image, d the associated disparity value, o an offset, and k the slope of the disparity between two lines.

Da nur Objekte, die eindeutig oberhalb der Bodenebene liegen, erkannt werden sollen, muss die Bodenebene noch etwas angehoben werden (strichlierte Linie), sodass das Rauschen vollständig unterhalb dieser strichlierten Linie liegt. Da die Stichprobe nicht das komplette Bild abdeckt, muss das errechnete lineare Modell des Bodens interpolieren und eine vermutliche Bodenebene errechnen. Das Disparitätsbild der angehobenen Bodenebene soll exakt gleich viele Zeilen haben wie das tatsächliche Bildmaterial, damit die folgendenSince only objects that are clearly above the ground level should be detected, the ground level must be raised slightly further (dashed line) so that the noise is completely below this dashed line. Since the sample does not cover the entire image, the calculated linear model of the soil must interpolate and calculate a probable soil level. The disparity image of the raised ground plane should have exactly the same number of lines as the actual image material, hence the following

Berechnungen einfach durchgeführt werden können. Um ein Disparitätsbild der errechneten Bodenebene zu erhalten, wird die angehobene Bodeninformation als Vektor dj angesehen, von dem jede Komponente dem Disparitätswert entsprechend der vertikalen Pixelposition entspricht (j=l...n). (Für Pixel entsprechend Objekten oberhalb des Horizonts setzt man dj = 0.) Da wie oben erwähnt der Disparitätswert von der horizontalen Pixelposition unabhängig ist, ergibt sich das Disparitätsbild der idealen Bodenebene als Matrix D mit Djk=dj, j = l...n, k = l...m.Calculations can be done easily. In order to obtain a disparity image of the calculated ground plane, the raised ground information is considered to be the vector dj of which each component corresponds to the disparity value corresponding to the vertical pixel position (j = 1 ... n). (For pixels corresponding to objects above the horizon one sets dj = 0.) Since, as mentioned above, the disparity value is independent of the horizontal pixel position, the disparity image of the ideal ground plane is given as matrix D with Djk = dj, j = l ... n , k = l ... m.

Der Vorgang zur Berechnung der Bodeninformation ist also folgendermaßen: • Aufnehmen eines Disparitätsbildes, wenn der Kamerakopf 10 auf eine möglichst ebene Fläche (z.B. eine lange gerade Straße) gerichtet ist; dieses Bild muss viel Bodeninformation zeigen. • Über Parameter der Software wird eine Linie zur Extraktion definiert. Diese Linie im Bild soll nur Bodeninformation zeigen. (Stichprobe) • Die Disparitätswerte auf dieser Linie werden in einem Vektor mit den Bilddimensionen (Pixelpositionen) abgespeichert. Diese Information beschreibt die Disparitätswerte des Bodens. • Der beschriebene Vektor wird interpoliert. • Die Disparitätswerte werden mit einem Offset versehen (Bodenebene wird mathematisch angehoben). • Aus der neuen Bodeninformation wird ein Bodendisparitätsbild erzeugt. • Abspeichern der Information als Matrix (Disparitätswert für jedes Kamerapixel), beispielhaft als csv-Datei.Thus, the process of calculating the ground information is as follows: • taking a disparity image when the camera head 10 is aimed at a plane as flat as possible (e.g., a long straight road); this picture has to show a lot of ground information. • Parameters of the software define a line for extraction. This line in the picture is only to show ground information. (Sample) • The disparity values on this line are stored in a vector with the image dimensions (pixel positions). This information describes the disparity values of the soil. • The described vector is interpolated. • The disparity values are offset (ground level is raised mathematically). • A soil disparity image is generated from the new soil information. • Save the information as a matrix (disparity value for each camera pixel), for example as a csv file.

Die Matrix kann nun in unterschiedlichen Applikationen geladen werden. Durch Bildung der Differenz eines realen Disparitätsbilds und des berechneten Bodendisparitätsbilds entsteht ein Disparitätsbild mit ausschließlich relevanter Information (Hindernissen). Wenn man mit Disparitätswerten rechnet und man das Bodendisparitätsbild vom (realen) Disparitätsbild abzieht (und nicht umgekehrt), habenThe matrix can now be loaded in different applications. By forming the difference between a real disparity image and the calculated soil disparity image, a disparity image with exclusively relevant information (obstacles) is created. If we calculate with disparity values and subtract the soil disparity image from the (real) disparity image (and not vice versa)

Hindernisse positives Vorzeichen. In diesem Fall setzt man alle negativen Werte auf null. Analog könnte man auch Löcher im Boden auswerten.Obstacles positive sign. In this case, set all negative values to zero. Similarly one could also evaluate holes in the soil.

Zusammengefasst basiert die Hinderniserkennung somit auf einem realen Disparitätsbild und einem idealen Bodendisparitätsbild. Ein durch die Stereoengine berechnetes Disparitätsbild wird an die Hinderniserkennung gesendet. Die Hinderniserkennung errechnet nun durch Subtraktion und Maskierung des Bodendisparitätsbilds vom realen Disparitätsbildes ein Hindernisbild.In summary, obstacle detection is thus based on a real disparity picture and an ideal ground disparity picture. A disparity image calculated by the stereo engine is sent to the obstacle detection. The obstacle recognition now calculates an obstacle image by subtracting and masking the soil disparity image from the real disparity image.

Da nun das Hindernisbild vorliegt, können Disparitätscluster extrahiert und als Hindernisse definiert werden.Now that the obstacle image is present, disparity clusters can be extracted and defined as obstacles.

Die tatsächlichen Werte der Pixel im Hindernisbild Η (H ist eine n x m-Matrix) sind abhängig von der Distanz zwischen Kamerakopf und Objekt. Je näher das Objekt zur Kamera, desto höher ist der Pixelwert. Mit dieser Interpretation lässt sich das Hindernisbild als dreidimensionale Darstellung der Umgebung interpretieren.The actual values of the pixels in the obstacle image Η (H is an n x m matrix) depend on the distance between the camera head and the object. The closer the object is to the camera, the higher the pixel value. With this interpretation, the obstacle image can be interpreted as a three-dimensional representation of the environment.

Das Hindernisbild wird nun in z-Richtung (dem Abstand nach vorne) in Scheiben unterteilt. Wenn die "Scheiben" z.B. drei Disparitätswerte "dick" sind, so werden alle Pixelwerte ermittelt, bei denen Hjk 0 bis 2 sind; 3 bis 5 sind; 6 bis 8 sind; 9 bis 11 sind; usw. In Fig. 2 ist dies veranschaulicht. (Fig. 2 zeigt Disparitäten - keine Distanzen)The obstacle image is now divided into slices in the z-direction (the distance to the front). If the "slices" e.g. three disparity values are "thick", all pixel values are determined where Hjk are 0 to 2; 3 to 5 are; 6 to 8 are; 9 to 11 are; etc. In Fig. 2 this is illustrated. (Fig. 2 shows disparities - no distances)

Der Kamerakopf 10 ist auf drei Objekte 21, 22, 23 gerichtet.The camera head 10 is directed to three objects 21, 22, 23.

In Fig. 2 sind "Scheiben" 31 bis 34 eingezeichnet, die Disparitätsbereichen 36...39 bis 46...48 entsprechen. Allgemein umfasst jede Scheibe 30 einen Bereich von drei Disparitätswerten 3n bis 3n+2.In FIG. 2, "slices" 31 to 34 are shown, which correspond to disparity ranges 36 to 39 to 46 to 48. Generally, each slice 30 includes a range of three disparity values 3n through 3n + 2.

Durch Analyse ausschließlich der Disparitätswerte der Scheiben im Hindernisbild lassen sich Bilder für die einzelnen Scheiben errechnen. Durch das Aufteilen der Disparitätsinformation in Scheiben lassen sich in jeder Scheibe Konturen von Objekten erkennen. Dazu werden Algorithmen zur Extraktion von Konturen verwendet. Jede extrahierte Kontur wird im folgenden Verlauf als Disparitätscluster bezeichnet. Jeder Disparitätscluster wird nun beschrieben durch:By analyzing only the disparity values of the slices in the obstacle image, images for the individual slices can be calculated. By dividing the disparity information into slices, contours of objects can be recognized in each slice. For this purpose algorithms are used to extract contours. Each extracted contour is called a disparity cluster in the following process. Each disparity cluster is now described by:

Clusten = {Disparität i,max r Versatzi, Breitei} (2)Clusten = {disparity i, max r offseti, widthi} (2)

Dabei bedeutet "Versatz" die x-Koordinate des Hindernisses (gemessen von der Bildmitte aus) und "Breite" die reale, maximale Objektbreite im extrahierten Disparitätscluster. Weiters wird der maximale Disparitätswert abgespeichert. Dies ist ein Maß für den zum Kamerakopf nächsten Punkt.Where "offset" is the x coordinate of the obstacle (measured from the center of the image) and "width" is the real, maximum object width in the extracted disparity cluster. Furthermore, the maximum disparity value is stored. This is a measure of the camera point next point.

Da die Parameter des Kamerakopfes (Baseline, Brennweite) bekannt sind, kann die Disparität nach Formel (1) jederzeit in Meter umgerechnet werden.Since the parameters of the camera head (baseline, focal length) are known, the disparity according to formula (1) can be converted into meters at any time.

Um eine zuverlässige Lokalisierung durchführen zu können, kann dieses Verfahren um eine Merkmalsextraktion erweitert werden. Als Merkmale werden in diesem Zusammenhang diverse Informationen aus den Tiefenclustern verstanden. Der Cluster wird erweitert um diese Informationen:In order to perform a reliable localization, this method can be extended by a feature extraction. In this context, features are understood to be diverse information from the depth clusters. The cluster will be extended with this information:

Clusteri' = {Disparitäti,max, Versatzi, Breitei, Mi} (3)Clusteri '= {disparityi, max, offseti, widthi, mi} (3)

Das Merkmal Mi ist ein Vektor, und kann beliebig viel Information wiedergeben. Mi beinhaltet für den Cluster repräsentative Informationen. Diese Informationen können extrahierte sogenannte Tiefenfeatures sein oder die Matrix des Clusters selbst.The feature Mi is a vector, and can represent any amount of information. Mi contains representative information for the cluster. This information can be extracted deep features or the matrix of the cluster itself.

Die Selbstlokalisierung basiert auf der Tatsache, dass ähnliche Disparitätscluster in aufeinanderfolgenden Disparitätsbildern gefunden werden können. Durch den Abgleich der Bewegung der Cluster im Bild bzw. der Pixelwerte und der dazu gehörenden dreidimensionalen Interpretation kann die reale Bewegung des Fahrzeuges berechnet werden. Eine Voraussetzung dafür ist eine stillstehende Umgebung.Self-localization is based on the fact that similar disparity clusters can be found in consecutive disparity images. By comparing the movement of the clusters in the image or the pixel values and the associated three-dimensional interpretation, the real movement of the vehicle can be calculated. A prerequisite for this is a stationary environment.

Um die Bewegung robust berechnen zu können, sich bewegende Objekte zu ignorieren und Datenrauschen zu minimieren, kommen Bewegungsmodelle zum Einsatz. Diese Modelle können Bewegungen von Clustern Vorhersagen und damit die Bewegungsberechnung signifikant verbessern.In order to calculate the motion robustly, to ignore moving objects and to minimize data noise, motion models are used. These models can significantly predict movements of clusters and thus significantly improve the motion calculation.

Im einfachsten Fall: Wenn sich das Fahrzeug zuletzt mit z.B. 20 km/h bewegt hat, kann man davon ausgehen, dass sich das Fahrzeug in den nächsten Sekunden mit einer sehr ähnlichen Geschwindigkeit bewegen wird, und auf dieser Basis und des letzten Stereobildes berechnen, wo sich die Disparitätscluster beim nächsten Stereobild ungefähr befinden werden. Damit können die Disparitätscluster verschiedener Stereobilder einander viel leichter zugeordnet werden. Es gibt hier natürlich auch wesentlich bessere Modelle, man kann z.B. Beschleunigungen in jeder Richtung berücksichtigen.In the simplest case: If the vehicle is last equipped with e.g. 20 km / h, it can be assumed that the vehicle will move at a very similar speed in the next few seconds, and on this basis and the last stereo image calculate where the disparity clusters will approximate at the next stereo image. This allows the disparity clusters of different stereo images to be associated with each other much more easily. Of course, there are also much better models here; Allow for accelerations in each direction.

Die Selbstlokalisierung selbst basiert auf der Analyse von extrahierten Disparitätsclustern. In einem ersten Disparitätsbild werden Disparitätscluster extrahiert. Da die Kamerapixel und dadurch die Disparitätsinformation rauschen, ist eine simple Triangulation ausgeschlossen. Es würde ein Drift entstehen, welcher ohne externe Signale bzw. optische Landmarken nicht kompensierbar ist. Daher muss ein statistisches Framework verwendet werden, welches das Rauschen der Sensoren berücksichtigt und gegebenenfalls leicht erweiterbar ist. Dazu kann ein Algorithmus, genannt extended Kalmanfilter, verwendet werden.The self-localization itself is based on the analysis of extracted disparity clusters. In a first disparity image, disparity clusters are extracted. Since the camera pixels and thus the disparity information rush, a simple triangulation is excluded. It would create a drift, which is not compensated without external signals or optical landmarks. Therefore, a statistical framework must be used that takes into account the noise of the sensors and may be easily expandable. For this an algorithm, called extended Kalman filter, can be used.

Claims (3)

Patentansprüche :Claims: 1. Verfahren zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision, bei dem nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen werden, bei dem aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und bei dem aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird, dadurch gekennzeichnet, dass die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst werden, dass daraus Disparitäts- bzw. Tiefencluster extrahiert werden und dass diese Disparitäts-bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden werden.1. A method for self-localization of vehicles based on stereo vision, in which images of at least two statically mounted on the camera cameras are read and read, in which disparity or depth information is calculated from the recorded images and in which the distance difference of the same objects is closed in its own motion in various images, characterized in that the disparity and depth information are interpreted as images, that it disparity or depth clusters are extracted and that this disparity or. Depth clusters can be found again in the following pictures. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Bodenebene als Disparitäts- bzw. Tiefenwertbild berechnet wird und die Differenz zwischen der Bodenebene als Disparitäts- bzw. Tiefenwertbild und den Disparitäts-bzw. Tiefeninformationen gebildet wird, bevor die Disparitäts- bzw. Tiefeninformationen verglichen werden.2. The method according to claim 1, characterized in that a ground plane is calculated as Disparitäts- or depth value image and the difference between the ground level as Disparitäts- or depth value image and the disparity or. Depth information is formed before the disparity or depth information is compared. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Bodenebene mathematisch angehoben wird, bevor die Differenz gebildet wird, und nur Werte mit jenem Vorzeichen berücksichtigt werden, die Hindernissen entsprechen.A method according to claim 2, characterized in that the ground plane is raised mathematically before the difference is formed and only values with the sign corresponding to obstacles are considered.
ATA50240/2016A 2016-03-24 2016-03-24 Method for self-localization of vehicles AT518438A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
ATA50240/2016A AT518438A1 (en) 2016-03-24 2016-03-24 Method for self-localization of vehicles
PCT/AT2017/060076 WO2017161401A1 (en) 2016-03-24 2017-03-24 Method for the self-location of vehicles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ATA50240/2016A AT518438A1 (en) 2016-03-24 2016-03-24 Method for self-localization of vehicles

Publications (1)

Publication Number Publication Date
AT518438A1 true AT518438A1 (en) 2017-10-15

Family

ID=58544658

Family Applications (1)

Application Number Title Priority Date Filing Date
ATA50240/2016A AT518438A1 (en) 2016-03-24 2016-03-24 Method for self-localization of vehicles

Country Status (2)

Country Link
AT (1) AT518438A1 (en)
WO (1) WO2017161401A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2728546A2 (en) * 2011-11-18 2014-05-07 Ricoh Company, Ltd. Method and system for detecting object on a road

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2728546A2 (en) * 2011-11-18 2014-05-07 Ricoh Company, Ltd. Method and system for detecting object on a road

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chinese Patent Application No.: 201110369183.0; TEXT OF THE FIRST OFFICE ACTION. [online]. Übersetzung des Vorbescheides aus dem Chinesischen sowie Anhänge; im europäischen Patentregister, Eintrag "24.09.2015 Prioritätsrecherchen-ergebnisse" in der Dokumentenliste ("Alle Dokumente") zur Anmeldenummer EP12192685, 14 Seiten, 2015-02-06 [Ermittelt am 2017-02-24]. Ermittelt aus dem Internet <URL: https://register.epo.org/application?documentId= EX15WXQH8356DSU&number=EP12192685&lng=de&npl=false> *

Also Published As

Publication number Publication date
WO2017161401A1 (en) 2017-09-28

Similar Documents

Publication Publication Date Title
EP3497476B1 (en) Motor vehicle and method for a 360° detection of the surroundings
DE69635980T2 (en) METHOD AND DEVICE FOR DETECTING OBJECT MOVEMENT IN A PICTURE
DE102018108027B4 (en) Object detection device
DE10330011B4 (en) Procedure for obstacle detection and terrain classification
EP2927844A1 (en) 3d object position and pose estimation
DE102007001649A1 (en) Method, device and computer program for self-calibration of a surveillance camera
DE102011111440A1 (en) Method for representation of environment of vehicle, involves forming segments of same width from image points of equal distance in one of image planes, and modeling objects present outside free space in environment
DE112017006018T5 (en) MOBILE ROBOTIC DEVICE PROCESSING UNSTRUCTURED DATA OF INTERIOR ENVIRONMENTS TO SEGMENT ROOMS IN A FACILITY TO IMPROVE THE MOVEMENT OF THE DEVICE THROUGH THE EQUIPMENT
DE102016119626A1 (en) Automatic three-dimensional geolocation of SAR targets and simultaneous estimation of tropospheric propagation delays using two long-aperture SAR images
DE102013212495A1 (en) Method and device for inspecting a contoured surface, in particular the underbody of a motor vehicle
DE102015003666A1 (en) Method for processing acquired measured data of a sensor
DE102018123393A1 (en) Detection of parking areas
DE102015122172A1 (en) Headlamp based projection of patterns to measure spatial characteristics of a vehicle environment
DE102014208967A1 (en) Environment map for driving surfaces with any height gradient
EP2577614B1 (en) Apparatus for displaying terrain on a display apparatus of an airborne vehicle
DE102017129609A1 (en) Recognition of changes in a coverage area
DE102019128814A1 (en) Camera for detecting an object flow and method for determining the height of objects
EP3921819A1 (en) Monitoring device and method for monitoring a man-overboard event in a ship section
DE102020200728A1 (en) Reconstructing elevation information from radar data
DE102013220170A1 (en) Method for determining a kinematic state variable of an object
WO2017161401A1 (en) Method for the self-location of vehicles
EP3663800B1 (en) Method for detecting objects using a 3d camera
DE102019220616B4 (en) PROCEDURE FOR SIMULTANEOUS LOCATION AND IMAGE
DE102008055932A1 (en) Man-made sensor e.g. environment sensor, performance model-based simulation method for car, involves modifying parameters of polygons and reference points, and generating sensor data by environment including parameter-modified polygons
DE112022002520T5 (en) Procedure for automatic calibration of cameras and creation of maps