DE102007013664A1 - Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient - Google Patents
Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient Download PDFInfo
- Publication number
- DE102007013664A1 DE102007013664A1 DE102007013664A DE102007013664A DE102007013664A1 DE 102007013664 A1 DE102007013664 A1 DE 102007013664A1 DE 102007013664 A DE102007013664 A DE 102007013664A DE 102007013664 A DE102007013664 A DE 102007013664A DE 102007013664 A1 DE102007013664 A1 DE 102007013664A1
- Authority
- DE
- Germany
- Prior art keywords
- hypotheses
- sensor signal
- stream
- hypothesis
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zur multisensoriellen Objekterkennung.The The invention relates to a method for multisensor object recognition.
Die rechnerbasierte Auswertung von Sensorsignalen zur Objekterkennung und Objektverfolgung ist bereits aus dem Stand der Technik bekannt. Beispielsweise sind Fahrerassistenzsysteme für Straßenfahrzeuge erhältlich, welche vorausfahrende Fahrzeuge mittels Radar erkennen und nach verfolgen, um z.B. die Geschwindigkeit und den Abstand des eigenen Fahrzeugs zum vorausfahrenden Verkehr automatisch zu regeln. Für den Einsatz im Fahrzeugumfeld sind darüber hinaus unterschiedlichste Arten von Sensoren, wie z.B. Radar, Laser- und Kamerasensoren bereits bekannt. Diese Sensoren sind in ihren Eigenschaften sehr unterschiedlich und besitzen unterschiedliche Vor- und Nachteile. Beispielsweise unterscheiden sich derartige Sensoren in ihrem Auflösungsvermögen oder in der spektralen Empfindlichkeit. Besonders vorteilhaft wäre es daher, falls mehrere unterschiedliche Sensoren gleichzeitig in einem Fahrerassistenzsystem zum Einsatz kommen würden. Ein multisensorieller Einsatz ist derzeit jedoch kaum möglich, da sich mittels unterschiedlicher Arten von Sensoren erfasste Größen nur mit erheblichem Aufwand bei der Signalauswertung direkt vergleichen oder in geeigneter Weise kombinieren lassen.The Computer-based evaluation of sensor signals for object recognition and object tracking is already known in the art. For example, driver assistance systems for road vehicles are available, which vehicles ahead detect by means of radar and after track, e.g. the speed and distance of one's own Automatically control the vehicle to the preceding traffic. For use in the vehicle environment are above In addition, various types of sensors, such as. Radar, laser and camera sensors already known. These sensors are in theirs Properties very different and own different Advantages and disadvantages. For example, such differ Sensors in their resolution or in the spectral sensitivity. It would therefore be particularly advantageous if several different sensors simultaneously in a driver assistance system would be used. A multi-sensorial use is currently hardly possible because Sizes detected by different types of sensors only compare with considerable effort in the signal evaluation directly or combine as appropriate.
Bei den aus dem Stand der Technik bekannten Systemen werden daher die einzelnen Sensorströme zunächst aneinander angepasst, bevor diese miteinander fusioniert werden. Beispielsweise werden die Bilder zweier Kameras mit unterschiedlichem Auflösungsvermögen zunächst in aufwendiger Weise pixelgenau aufeinander abgebildet und erst dann miteinander fusioniert.at the known from the prior art systems are therefore the individual sensor currents first together adjusted before they are fused together. For example The images of two cameras with different resolution are first in consuming manner pixel-accurately mapped and only then fused together.
Der Erfindung liegt daher die Aufgabe zu Grunde ein Verfahren zur multisensoriellen Objekterkennung zu schaffen, womit Objekte auf eine einfache und zuverlässige Weise erkannt und verfolgt werden können.Of the The invention is therefore based on the object of a method for multi-sensorial To create object recognition, bringing objects to a simple and reliable Can be detected and tracked.
Die Aufgabe wird gemäß der Erfindung durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 gelöst. Vorteile Ausgestaltungen und Weiterbildungen werden in den Unteransprüchen aufgezeigt.The Task is according to the invention solved by a method having the features of claim 1. advantages Embodiments and developments are shown in the subclaims.
Gemäß der Erfindung wird ein Verfahren zur multisensoriellen Objekterkennung bereitgestellt, wobei Sensorinformationen aus wenigstens zwei unterschiedlichen Sensorsignalströmen mit unterschiedlichen Sensorsignaleigenschaften zur gemeinsamen Auswertung herangezogen werden. Die Sensorsignalströme werden dabei zur Auswertung nicht aneinander angepasst und/oder aufeinander abgebildet. Anhand der wenigstens zwei Sensorsignalströme werden zunächst Objekthypothesen generiert und auf der Grundlage dieser Objekthypothesen werden sodann Merkmale für wenigstens einen Klassifikator generiert. Die Objekthypothesen werden anschließend mittels dem wenigstens einen Klassifikator bewertet und einer oder mehreren Klassen zugeordnet. Dabei sind wenigstens zwei Klassen definiert, wobei einer der beiden Klassen Objekte zuzuordnen sind. Mit dem erfindungsgemäßen Verfahren wird somit eine einfache und zuverlässige Objekterkennung erst möglich. Eine aufwendige Anpassung unterschiedlicher Sensorsignalströme aneinander bzw. eine Abbildung aufeinander entfällt hierbei in besonders gewinnbringender Weise komplett. Im Rahmen des erfindungsgemäßen Verfahrens werden die Sensorinformationen aus den wenigstens zwei Sensorsignalströmen vielmehr direkt miteinander kombiniert bzw. miteinander fusioniert. Dadurch wird die Auswertung deutlich vereinfacht und kürzere Rechenzeiten sind möglich. Dadurch dass keine zusätzlichen Schritte für die Anpassung der einzelnen Sensorsignalströme benötigt werden, wird die Anzahl möglicher Fehlerquellen bei der Auswertung minimiert.According to the invention a method for multi-sensor object recognition is provided, wherein sensor information from at least two different Sensor signal streams with different sensor signal characteristics to the common Evaluation are used. The sensor signal currents are not adapted to each other for evaluation and / or each other displayed. Based on the at least two sensor signal currents first Object hypotheses are generated and based on these object hypotheses then become features for at least one classifier generated. The object hypotheses are subsequently evaluated by the at least one classifier and one or assigned to several classes. There are at least two classes defined, wherein one of the two classes are assigned objects. With the method according to the invention Thus, a simple and reliable object recognition only possible. A complex adaptation of different sensor signal currents to each other or an illustration of each other is omitted here in a particularly profitable Way complete. In the context of the method according to the invention, the sensor information from the at least two sensor signal streams directly with each other combined or fused together. This will make the evaluation much easier and shorter Calculation times are possible. Because there is no additional Steps for the adaptation of the individual sensor signal currents are needed, the number potential Sources of error in the evaluation minimized.
Die Objekthypothesen können entweder eindeutig einer Klasse zugeordnet werden, oder sie werden mehreren Klassen zugeordnet, wobei die jeweilige Zuordnung mit einer Wahrscheinlichkeit belegt ist.The Object hypotheses can either be uniquely assigned to one class or they will be multiple Classes associated with each assignment with a probability is occupied.
In einer gewinnbringenden Weise werden die Objekthypothesen unabhängig voneinander einzeln in jedem Sensorsignalstrom generiert, wobei die Objekthypothesen unterschiedlicher Sensorsignalströme sodann über Zuordnungsvorschriften einander zuordenbar sind. Zunächst werden dabei in jedem Sensorsignalstrom mittels Suchfenstern in einem zuvor definierten 3D-Zustandsraum, welcher durch physikalische Größen Aufgespannt wird, die Objekthypothesen generiert. Aufgrund des definierten 3D-Zustandsraums sind die in den einzelnen Sensorsignalströmen generierten Objekthypothesen später einander zuordenbar. Beispielsweise werden die Objekthypothesen aus zwei unterschiedlichen Sensorsignalströmen später bei der sich anschließenden Klassifikation paarweise klassifiziert, wobei eine Objekthypothese aus einem Suchfensterpaar gebildet wird. Falls mehr als zwei Sensorsignalströme vorhanden sind, wird dem entsprechend aus jedem Sensorsignalstrom jeweils ein Suchfenster herangezogen und daraus eine Objekthypothese gebildet, welche sodann zur gemeinsamen Auswertung an den Klassifikator übergeben wird. Bei den physikalischen Größen zum Aufspannen des 3D-Zustandsraums kann es sich beispielsweise um eine oder mehrere Komponente(n) der Objektausdehnung, einen Geschwindigkeits- und/oder Beschleunigungsparameter, um eine Zeitangabe usw. handeln. Der Zustandsraum kann dabei auch höher dimensional ausgestaltet sein.In a profitable manner, the object hypotheses are independently generated individually in each sensor signal stream, wherein the object hypotheses of different sensor signal currents can then be assigned to each other via assignment rules. First, the object hypotheses are generated in each sensor signal stream by means of search windows in a previously defined 3D state space, which is defined by physical variables. Due to the defined 3D state space, the object hypotheses generated in the individual sensor signal streams can later be assigned to one another. For example, the object hypotheses from two different sensor signal streams are paired later in the subsequent classification, where an object hypothesis is formed from a search window pair. If more than two sensor signal currents are present, a search window is accordingly used from each sensor signal stream and an object hypothesis is formed from this, which is then transferred to the classifier for joint evaluation. The physical quantities for spanning the 3D state space can be, for example, one or more component (s) of the Object extent, a speed and / or acceleration parameter, a time, etc. act. The state space can also be made higher dimensional.
In einer weiteren gewinnbringenden Weise der Erfindung werden Objekthypothesen in einem Sensorsignalstrom (Primärstrom) generiert und die Objekthypothesen des Primärstroms sodann in andere Bildströme (Sekundärströme) projiziert, wobei eine Objekthypothese des Primärstroms eine oder mehrere Objekthypothesen im Sekundärstrom erzeugt. Bei der Verwendung eines Kamerasensors werden die Objekthypothesen im Primärstrom dabei beispielsweise anhand eines Suchfensters innerhalb der mittels des Kamerasensors aufgezeichneten Bildaufnahmen generiert. Die im Primärstrom generierten Objekthypothesen werden anschließend rechnerisch in einen oder mehrere andere Sensorströme projiziert. In einer weiteren vorteilhaften Weise basiert die Projektion von Objekthypothesen des Primärstroms in einen Sekundärstrom dabei auf den verwendeten Sensormodellen und/oder der Positionen von Suchfenstern innerhalb des Primärstroms bzw. auf der Epipolargeometrie der verwendeten Sensoren. Bei der Projektion können in diesem Zusammenhang auch Mehrdeutigkeiten entstehen. Eine Objekthypothese/Suchfenster des Primärstroms generiert, z.B. aufgrund unterschiedlicher Objektabstände der einzelnen Sensoren, mehrere Objekthypothesen/Suchfenster im Sekundärstrom. Die damit generierten Objekthypothesen werden sodann vorzugsweise paarweise dem Klassifikator übergeben. Wobei jeweils Paare aus der Objekthypothese des Primärstroms und jeweils einer Objekthypothese des Sekundärstroms gebildet werden und sodann dem Klassifikator übergeben werden. Es besteht aber auch die Möglichkeit, dass neben der Objekthypothese des Primärstroms auch alle in den Sekundärströmen generierten Objekthypothesen oder Teile davon dem Klassifikator übergeben werden.In Another beneficial mode of the invention will be object hypotheses in a sensor signal current (primary current) generated and the object hypotheses of the primary stream then projected into other image streams (secondary streams), where an object hypothesis of the primary stream is one or more object hypotheses in the secondary current generated. When using a camera sensor, the object hypotheses become in the primary stream thereby for example by means of a search window within the means generated by the camera sensor recorded images. The im primary current generated object hypotheses are then computationally in or several other sensor currents projected. In a further advantageous manner, the projection is based of object hypotheses of the primary stream into a secondary stream thereby on the used sensor models and / or the positions search windows within the primary stream or on the epipolar geometry the sensors used. In the projection can in this context Ambiguities also arise. An object hypothesis / search window of the primary current generated, e.g. due to different object distances of the individual sensors, several object hypotheses / search windows in the secondary current. The object hypotheses generated with it are then preferably pairwise passed to the classifier. Where pairs from the object hypothesis of the primary stream and in each case an object hypothesis of the secondary current are formed and then handed over to the classifier become. But there is also the possibility that in addition to the object hypothesis of the primary current also all generated in the secondary currents Object hypotheses or parts thereof passed to the classifier become.
Im Zusammenhang mit der Erfindung werden Objekthypothesen in gewinnbringender Weise durch deren Objekttyp, Objektposition, Objektausdehnung, Objektorientierung, Objektbewegungsparameter wie Bewegungsrichtung und Geschwindigkeit, Objektgefahrenpotential oder einer beliebigen Kombination daraus beschrieben werden. Es kann sich darüber hinaus auch um beliebige weitere Parameter handeln, welche die Objekteigenschaften beschreiben. Beispielsweise einem Objekt zugeordnete Geschwindigkeits- und/oder Beschleunigungswerte. Dies ist insbesondere dann von Vorteil, falls das erfindungsgemäße Verfahren neben der reinen Objekterkennung zusätzlich zur Objektnachverfolgung eingesetzt wird und die Auswertung ein Tracking mit umfasst.in the In connection with the invention, object hypotheses become more profitable Way by their object type, object position, object extent, object orientation, Object movement parameters such as direction of movement and speed, Object hazard potential or any combination thereof to be discribed. It can also be any act further parameters that describe the object properties. For example, associated with an object speed and / or Acceleration. This is particularly advantageous if the inventive method in addition to pure object recognition in addition to object tracking is used and the evaluation includes a tracking with.
In einer weiteren vorteilhaften Weise der Erfindung werden Objekthypothesen in einem physikalischen Suchraum zufällig gestreut oder in einem Raster erzeugt. Beispielsweise werden Suchfenster mit einer vorgegebenen Schrittweite innerhalb des Suchraums anhand eines Rasters variiert. Es besteht aber auch die Möglichkeit, dass Suchfenster nur innerhalb von vorbestimmten Bereichen des Zustandsraums an denen Objekte mit hoher Wahrscheinlichkeit auftreten eingesetzt werde und damit Objekthypothesen generiert werden. Außerdem können die Objekthypothesen in einem physikalischen Suchraum auch durch ein physikalisches Modell entstanden sein. Der Suchraum kann durch externe Vorgaben wie Öffnungswinkel, Entfernungsbereiche, statistische Kenngrößen, die lokal im Bild gewonnen werden, und/oder Messungen anderer Sensoren adaptiv eingeschränkt werden.In Another advantageous embodiment of the invention becomes object hypotheses randomly scattered in a physical search space or in one Raster generated. For example, search windows are given a predetermined Increment within the search space varies based on a grid. But there is also the possibility that search window only within predetermined areas of the state space where objects are likely to occur and thus object hypotheses are generated. In addition, the Object hypotheses in a physical search space also by a physical model emerged. The search space can be determined by external specifications like opening angle, Distance ranges, statistical characteristics that are obtained locally in the picture , and / or measurements of other sensors are adaptively restricted.
Im Zusammenhang mit der Erfindung basieren die unterschiedlichen Sensorsignaleigenschaften in den Sensorsignalströmen im Wesentlichen auf unterschiedlichen Positionen und/oder Orientierungen und/oder Sensorgrößen der verwendeten Sensoren. Neben Positions- und/oder Orientierungsabweichungen oder einzelnen Komponenten davon verursachen hauptsächlich Abweichungen bei den verwendeten Sensorgrößen unterschiedliche Sensorsignaleigenschaften in den einzelnen Sensorsignalströmen. Beispielsweise verursachen Kamerasensoren mit einem unterschiedlichen Auflösungsvermögen unterschiede in den Größen bei den Bildaufnahmen. Auch werden häufig aufgrund unterschiedlicher Kameraoptiken unterschiedlich große Bildbereiche erfasst. Weiterhin können z.B. die physikalischen Eigenschaften der Kamerachips völlig unterschiedlich sein, sodass beispielsweise eine Kamera Umgebungsinformationen im sichtbaren Wellenlängenspektrum und eine weitere Kamera Umgebungsinformationen im Infraroten Spektrum erfasst, wobei die Bildaufnahmen ein völlig unterschiedliches Auflösungsvermögen aufweisen können.in the In connection with the invention, the different sensor signal properties are based in the sensor signal currents essentially on different positions and / or orientations and / or Sensor sizes of used sensors. In addition to position and / or orientation deviations or individual components thereof cause mainly deviations in the used sensor sizes different Sensor signal properties in the individual sensor signal currents. For example, cause Camera sensors with a different resolution differ in the sizes the pictures. Also, become common due to different camera optics different sized image areas detected. Furthermore you can e.g. the physical properties of the camera chips completely different so that, for example, a camera has environmental information in it visible wavelength spectrum and another camera environment information in the infrared spectrum recorded, the images have a completely different resolution can.
Im Rahmen der Auswertung besteht in vorteilhafter Weise die Möglichkeit, dass jede Objekthypothese einzeln für sich klassifiziert wird und die Ergebnisse der einzelnen Klassifikationen kombiniert werden, wobei wenigstens ein Klassifikator vorgesehen ist. Falls mehrere Klassifikatoren zum Einsatz kommen, kann dabei z.B. für jede unterschiedliche Art von Objekt jeweils ein Klassifikator vorgesehen sein. Falls lediglich ein Klassifikator vorgesehen ist, wird zunächst jede Objekthypothese mittels des Klassifikators klassifiziert und sodann die Ergebnisse mehrerer einzelner Klassifikationen zu einem Gesamtergebnis kombiniert. Hierzu sind dem Fachmann auf dem Gebiet der Mustererkennung und Klassifikation unterschiedliche Auswertestrategien bekannt. Bei einer weiteren vorteilhaften Weise der Erfindung ist es jedoch auch möglich, dass in dem wenigstens einen Klassifikator Merkmale von Objekthypothesen unterschiedlicher Sensorsignalströme gemeinsam bewertet und zu einem Klassifikationsergebnis zusammengefasst werden. Für die zuverlässige Erkennung eines bestimmten Objekts muss hierbei beispielsweise eine vorbestimmte Anzahl an Objekthypothesen eine Mindestwahrscheinlichkeit bei der Klassenzugehörigkeit zu dieser bestimmten Objektklasse erreichen. Auch sind dem Fachmann auf dem Gebiet der Mustererkennung und Klassifikation in diesem Zusammenhang unterschiedlichste Auswertestrategien bekannt.In the context of the evaluation, there is advantageously the possibility that each object hypothesis is individually classified for itself and the results of the individual classifications are combined, at least one classifier being provided. If several classifiers are used, a classifier can be provided for each different type of object, for example. If only one classifier is provided, each object hypothesis is first classified by means of the classifier, and then the results of several individual classifications are combined into a total result. For this purpose, the expert in the field of pattern recognition and classification different evaluation strategies are known. In a further advantageous manner of the invention, however, it is also possible that in the at least a classifier characteristics of object hypotheses of different sensor signal currents are evaluated together and combined to form a classification result. For the reliable recognition of a specific object, a predetermined number of object hypotheses, for example, must achieve a minimum probability in class membership of this particular object class. Also, the expert in the field of pattern recognition and classification in this context a wide variety of evaluation strategies are known.
Weiterhin ist es von großem Vorteil, falls das Raster, in welchem die Objekthypothesen erzeugt werden, in Abhängigkeit des Klassifikationsergebnisses adaptiv angepasst wird. Beispielsweise wird die Rasterweite in Abhängigkeit des Klassifikationsergebnisses adaptiv angepasst, wobei Objekthypothesen nur an den Rasterpunkten generiert werden bzw. Suchfenster nur an Rasterpunkten positioniert werden. Falls Objekthypothesen zunehmend keiner Objektklasse zugeordnet werden oder gar keine Objekthypothesen generiert werden, wird die Rasterweite vorzugsweise kleiner gewählt. Im Gegensatz dazu wird die Rasterweite größer gewählt falls Objekthypothesen zunehmend einer Objektklasse zugeordnet werden bzw. die Wahrscheinlichkeit für eine Objektklassenzugehörigkeit steigt. Auch ist in diesem Zusammenhang ein Einsatz einer hierarchischen Struktur für das Hypothesenraster möglich. Außerdem kann das Raster in Abhängigkeit des Klassifikationsergebnisses eines vorangegangenen Zeitschrittes adaptiv angepasst werden, eventuell unter Berücksichtigung eines dynamischen Systemmodells.Farther is it great Advantage, if the grid in which generates the object hypotheses be, depending the classification result is adapted adaptively. For example the screen ruling becomes dependent the classification result adapted adaptively, where object hypotheses only generated at the grid points or search window only on Grid points are positioned. If object hypotheses increasingly No object class can be assigned or no object hypotheses are generated, the grid width is preferably selected smaller. in the In contrast, the grid size is larger if object hypotheses are increasingly assigned to an object class or the probability of an object class affiliation increases. Also in this context is a use of a hierarchical Structure for the hypothesis grid possible. Furthermore can the grid depending on the classification result of a previous time step be adapted adaptively, possibly taking into account a dynamic System model.
In einer weiteren vorteilhaften Weise wird das Auswerteverfahren, mittels welchem die Objekthypothesen bewertet werden, in Abhängigkeit von wenigstens einer vorangegangenen Bewertung automatisch angepasst wird. Hierbei wird beispielsweise lediglich das zuletzt vorangegangene Klassifikationsergebnis oder aber mehrere vorangegangene Klassifikationsergebnisse berücksichtigt. Beispielsweise werden hierbei lediglich einzelne Parameter eines Auswerteverfahren und/oder aus mehreren Auswerteverfahren ein geeignetes Auswerteverfahren ausgewählt. Grundsätzlich sind in diesem Zusammenhang die unterschiedlichsten Auswerteverfahren möglich, welche beispielsweise auf statistischen und/oder modellbasierten Ansätzen beruhen können. Die Art der für die Auswahl zur Verfügung gestellten Auswerteverfahren hängt dabei auch von der Art der eingesetzten Sensoren ab.In In a further advantageous manner, the evaluation method, by means of which the object hypotheses are evaluated, depending on automatically adjusted by at least one previous rating becomes. Here, for example, only the last preceding Classification result or several previous classification results considered. For example, only individual parameters of a Evaluation method and / or from several evaluation a suitable Evaluation method selected. in principle are in this context the most diverse evaluation methods possible, which, for example, based on statistical and / or model-based approaches can be based. The type of for the choice available depends on the evaluation procedure This also depends on the type of sensors used.
Weiterhin besteht auch die Möglichkeit, dass in Abhängigkeit des Klassifikationsergebnisses sowohl das Raster adaptiv angepasst wird, als auch das für die Bewertung herangezogene Auswerteverfahren angepasst wird. Das Raster wird in einer gewinnbringenden Weise nur an den Positionen im Suchraum verfeinert, wo die Wahrscheinlichkeit oder Bewertung für das Vorhandensein von Objekten hoch genug ist, wobei die Bewertung aus den letzten Rasterstufen abgeleitet wird.Farther there is also the possibility that in dependence the classification result adaptively adapted both the grid will, as well as for the evaluation method used is adjusted. The Raster will be profitable only at positions Refined in the search space, where the probability or rating for the Presence of objects is high enough, with the rating off derived from the last raster steps.
Die unterschiedlichen Sensorsignalströme können zeitgleich, aber auch zeitversetzt verwendet werden. Genauso kann in vorteilhafter Weise auch ein einzelner Sensorsignalstrom gemeinsam mit wenigstens einer zeitversetzten Version desselben verwendet werden.The different sensor signal currents can be simultaneously, but also be used with a time delay. The same can be done in an advantageous way also a single sensor signal current together with at least one delayed version of the same.
Das erfindungsgemäße Verfahren kann außer zur Objekterkennung auch zur Verfolgung von erkannten Objekten verwendet werden.The inventive method can except used for object recognition also for tracking detected objects become.
Das erfindungsgemäße Verfahren kann insbesondere zur Umgebungserfassung und/oder Objektverfolgung bei einem Straßenfahrzeug verwendet werden. Beispielsweise eignet sich für den Einsatz bei einem Straßenfahrzeug eine Kombination aus einer im sichtbaren Wellenlängenspektrum empfindlichen Farbkamera und einer im infraroten Wellenlängenspektrum empfindlichen Kamera. Damit können bei Nacht einerseits Personen und andererseits die farbigen Signalleuchten von Verkehrsampeln im Umfeld des Straßenfahrzeugs auf zuverlässige Weise erfasst werden. Die von den beiden Sensoren gelieferten Informationen werden dabei mit dem erfindungsgemäßen Verfahren zur multisensoriellen Objekterkennung ausgewertet, um beispielsweise darin enthaltene Personen zu erkennen und nachzuverfolgen. Die Sensorinformationen werden dem Fahrer dabei vorzugsweise auf einer im Fahrzeugcockpit angeordneten Anzeigeeinheit in der Form von Bilddaten präsentiert, wobei Personen und Signalleuchten von Ampelanlagen in den angezeigten Bildinformationen hervorgehoben sind. Für den Einsatz bei einem Straßenfahrzeug eignen sich im Zusammenhang mit dem erfindungsgemäßen Verfahren als Sensoren neben Kameras vor allem auch Radar- und Lidarsensoren. Das Erfindungsgemäße verfahren ist darüber hinaus für den Einsatz unterschiedlichster Arten von Bildsensoren und beliebigen anderen aus dem Stand der Technik bekannten Sensoren geeignet.The inventive method can in particular for environment detection and / or object tracking in a road vehicle be used. For example, it is suitable for use in a road vehicle a combination of a sensitive in the visible wavelength spectrum Color camera and sensitive in the infrared wavelength spectrum Camera. With that you can at night on the one hand people and on the other hand the colored signal lights of traffic lights around the road vehicle in a reliable manner be recorded. The information provided by the two sensors be doing with the inventive method for multi-sensorial Object detection evaluated, for example, contained therein Recognize and track people. The sensor information The driver is preferably on a in the cockpit arranged display unit presented in the form of image data, where people and signal lights of traffic lights in the displayed Image information is highlighted. For use with a road vehicle are suitable in connection with the method according to the invention as sensors in addition to cameras, especially radar and lidar sensors. The inventive method is about it out for the use of different types of image sensors and any other known from the prior art sensors suitable.
Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von bevorzugten Ausführungsbeispielen anhand der Figuren. Dabei zeigen:Further Features and advantages of the invention will become apparent from the following Description of preferred embodiments with reference to Characters. Showing:
In
der
Der Begriff Sensorfusion bezeichnet die Nutzung mehrerer Sensoren und die Erzeugung einer gemeinsamen Repräsentation. Das Ziel ist dabei, die Genauigkeit der gewonnenen Informationen zu erhöhen. Bezeichnend ist hierbei die Vereinigung von Messdaten in einem perzeptuellen System. Die Sensorintegration dagegen bezeichnet die Nutzung verschiedener Sensoren für mehrere Teilaufgaben, wie etwa Bilderkennung zur Lokalisierung und haptische Sensorik zur nachfolgenden Manipulation mit Aktoren.The term sensor fusion refers to the use of multiple sensors and the generation of a common representation. The goal is to increase the accuracy of the information obtained. Characteristic here is the union of measured data in a perceptual system. The sensor integration By contrast, the use of different sensors for several subtasks, such as image recognition for localization and haptic sensors for subsequent manipulation with actuators.
Fusionsansätzen lassen sich anhand ihrer resultierenden Repräsentationen in Kategorien einteilen. Es werden dabei beispielsweise folgende vier Fusionsebenen unterschieden:
- • Fusion auf Signalebene: Hierbei werden direkt die Rohsignale betrachtet. Ein Beispiel ist die Lokalisierung von akustischen Quellen aufgrund von Phasenverschiebungen.
- • Fusion auf Pixelebene: Im Gegensatz zur Signalebene wird der räumliche Bezug von Pixeln zu Objekten im Raum betrachtet. Beispiele sind Extraktion von Tiefeninformation mit Stereokameras oder auch die Berechnung des optischen Flusses in Bildfolgen.
- • Fusion auf Merkmalsebene: Bei der Fusion auf Merkmalsebene werden unabhängig Merkmale beider Sensoren extrahiert. Diese werden z.B. in einem Klassifikator oder einem Lokalisierungsverfahren kombiniert.
- • Fusion auf Symbolebene: Symbolische Repräsentationen sind beispielsweise Wörter oder Sätze bei der Spracherkennung. Durch Grammatiken entstehen logische Beziehungen zwischen Wörtern. Diese wiederum können die Interpretation von akustischen und visuellen Signalen steuern.
- • Fusion at the signal level: The raw signals are viewed directly here. An example is the localization of acoustic sources due to phase shifts.
- • Pixel-level fusion: In contrast to the signal plane, the spatial reference of pixels to objects in space is considered. Examples are extraction of depth information with stereo cameras or the calculation of optical flow in image sequences.
- • Feature-level fusion: Feature-level fusion independently extracts features from both sensors. These are combined, for example, in a classifier or a localization method.
- • Symbol-level fusion: For example, symbolic representations are words or phrases used in speech recognition. Grammars create logical relationships between words. These in turn can control the interpretation of acoustic and visual signals.
Eine weitere Form der Fusion ist die Klassifikatorfusion. Hierbei werden die Ergebnisse mehrerer Klassifikatoren vereint. Dabei sind die Datenquellen oder die Sensoren nicht zwingend verschieden. Das Ziel ist es hierbei, den Klassifikationsfehler durch Redundanz zu verkleinern. Entscheidend ist, dass die Einzelklassifikatoren möglichst unkorrelierte Fehler aufweisen. Einige Methoden zur Fusion von Klassifikatoren sind beispielsweise:
- • Gewichtete Mehrheitsentscheidung: Ein einfaches Prinzip ist die Mehrheitsentscheidung, also die Wahl der Klasse die von den meisten Klassifikatoren ausgegeben wurde. Jeder Klassifikator kann entsprechend seiner Zuverlässigkeit gewichtet werden. Mittels Lerndaten können ideale Gewichte ermittelt werden.
- • Bayes-Kombination: Für jeden Klassifikator kann eine Konfusionsmatrix berechnet werden. Das ist eine Verwechslungsmatrix, die die Häufigkeit von allen Klassifikatorergebnissen für jede tatsächliche Klasse angibt. Mit ihr können bedingte Wahrscheinlichkeiten für resultierende Klassen approximiert werden. Nun werden alle Klassifikationen mit Hilfe des Bayes-Theorems auf Wahrscheinlichkeiten für Klassenzugehörigkeiten abgebildet. Als Endresultat wird sodann das Maximum gewählt.
- • Stacked Generalization: Die Idee bei diesem Ansatz ist die Verwendung der Klassifikatorergebnisse als Eingänge bzw. Merkmale eines weiteren Klassifikators. Der weitere Klassifikator kann dabei mit dem Vektor der Ergebnisse und dem Label des ersten Klassifikators trainiert werden.
- • Weighted majority decision: A simple principle is the majority decision, ie the choice of class issued by most classifiers. Each classifier can be weighted according to its reliability. Using learning data ideal weights can be determined.
- • Bayes combination: For each classifier a confusion matrix can be calculated. This is a confusion matrix indicating the frequency of all classifier results for each actual class. It can be used to approximate conditional probabilities for resulting classes. Now all classifications are mapped to probabilities for class membership using the Bayes theorem. As the final result, the maximum is then selected.
- • Stacked Generalization: The idea behind this approach is to use the classifier results as inputs or characteristics of another classifier. The further classifier can be trained with the vector of the results and the label of the first classifier.
Mögliche Fusionskonzepte bei der Detektion von Fußgängern sind die Detektorfusion und eine Fusion auf Merkmalsebene. Es existieren bereits akzeptable Lösungen für das Detektionsproblem mit nur einem Sensor, daher ist eine Kombination durch Klassifikatorfusion möglich. Bei dem hier betrachteten Fall mit zwei Klassifikatoren und einem Zweiklassenproblem führt eine Fusion durch gewichtete Mehrheitsentscheidung oder Bayes-Kombination entweder zu einer einfachen Und-Operation oder zu einer Oder-Operation der Einzeldetektoren. Die Und-Verknüpfung hat zur Folge, dass sich (bei gleicher Parametrisierung) die Zahl der Detektionen und damit die Detektionsrate nur verkleinern können. Bei einer Oder-Verknüpfung kann die Falschalarmrate nicht besser werden. Wie sinnvoll die jeweiligen Verknüpfungen sind, kann mit der Bestimmung der Konfusionsmatrizen und Analyse der Korrelationen ermittelt werden. Es kann aber eine Aussage über den entstehenden Aufwand gemacht werden: Im Falle der Oder-Verknüpfung müssen die Bilder beider Ströme abgetastet werden, der Aufwand ist mindestens die Summe des Aufwands beider Einzelstrom-Detektoren. Alternativ zur Und- bzw. Oder-Verknüpfung kann das Detektorergebnis des Kaskadenklassifikators als Rückschlusswahrscheinlichkeit interpretiert werden, indem die erreichte Stufe und die letzte Aktivierung auf eine Detektionswahrscheinlichkeit abgebildet werden. Damit lässt sich eine Entscheidungsfunktion auf nicht-binären Werten definieren. Eine andere Möglichkeit sieht vor, den einen Klassifikator zur Aufmerksamkeitssteuerung und den anderen Klassifikator zur Detektion zu nutzen. Ersterer sollte so parametrisiert sein, dass die Detektionsrate (zu Lasten der Falschalarmrate) hoch ist. Dadurch reduziert sich möglicherweise die Datenmenge des detektierenden Klassifikators, sodass diese leichter zu klassifizieren ist. Eine Fusion auf Merkmalsebene bietet sich hauptsächlich wegen der Verfügbarkeit von Boosting-Verfahren an. Die konkrete Kombination von Merkmalen aus beiden Strömen kann also mit der bereits genutzten Methode automatisiert auf Basis der Trainingsdaten geschehen. Das Resultat stellt näherungsweise eine optimale Wahl und Gewichtung der Merkmale aus beiden Strömen dar. Ein Vorteil ist hierbei der erweiterte Merkmalsraum. Sind bestimmte Teilmengen der Daten jeweils nur in einem der Einzelstrom-Merkmalsräume leicht zu trennen, dann kann durch die Kombination eine Trennung aller Daten vereinfacht werden. Beispielsweise ist im NIR-Bild die Fußgängersilhouette gut zu erkennen, dagegen ist im FIR-Bild ein beleuchtungsunabhängiger Kontrast zwischen Fußgänger und Hintergrund abgebildet. In der Praxis hat sich gezeigt, dass mit der Fusion auf Merkmalsebene die Zahl der notwendigen Merkmale drastisch gesenkt werden kann.Possible fusion concepts in the detection of pedestrians are the detector fusion and a merger on feature level. There are already acceptable solutions to the detection problem with only one sensor, so combining by classifier fusion is possible. In the case of two classifiers and a two class problem considered here, a merger by weighted majority vote or Bayesian combination results in either a simple and operation or an or operation of the single detectors. The AND operation has the consequence that (with the same parameterization) the number of detections and thus the detection rate can only be reduced. With an OR operation, the false alarm rate can not get better. How meaningful the respective links are can be determined by determining the confusion matrices and analyzing the correlations. However, it is possible to make a statement about the resulting effort: In the case of the OR operation, the images of both streams must be scanned; the effort is at least the sum of the expenditure of both single-stream detectors. As an alternative to the AND or OR combination, the detector result of the cascade classifier can be interpreted as a probability of inference by mapping the achieved level and the last activation to a detection probability. This allows a decision function to be defined on non-binary values. Another possibility is to use the one classifier for attention control and the other classifier for detection. The former should be parameterized so that the detection rate (at the expense of the false alarm rate) is high. This may reduce the amount of data of the detecting classifier, making it easier to classify. Feature-level fusion is mainly due to the availability of boosting techniques. The concrete combination of features from both streams can thus be done automatically with the already used method based on the training data. The result represents approximately an optimal choice and weighting of the features from both streams. An advantage here is the extended feature space. If certain subsets of the data can only be separated easily in one of the individual flow feature spaces, then the combination can simplify the separation of all data. For example, the pedestrian silhouette is clearly visible in the NIR image, whereas the FIR image shows an illumination-independent contrast between pedestrian and background. In practice it has been shown that with the merger at characteristic level the number of necessary Features can be drastically reduced.
Nachfolgend wird die Architektur des verwendeten Multistromklassifikators beschrieben. Für die Erweiterung des Einzelstrom-Klassifikators zum Multistrom-Klassifikator ist es erforderlich, dass viele Teile der Klassifikatorarchitektur überarbeitet werden. Eine Ausnahme ist dabei der Kernalgorithmus z.B. AdaBoost, welcher nicht notwendigerweise modifiziert werden muss. Dennoch können einige implementierungstechnische Optimierungen vorgenommen werden, welche die Dauer eines NIR-Trainingslaufes mit einer vorbestimmten Parametrisierung um ein Vielfaches senken. Es wird dabei die vollständige Tabelle der Merkmalswerte für alle Beispiele im Speicher gehalten. Ein weiterer Punkt ist die Optimierungen bei der Beispielgenerierung. Damit konnten beim praktischen Einsatz Trainingsläufe mit 16 Sequenzen in ca. 24 Stunden beendet werden. Vor dieser Optimierung dauerte ein Training mit nur drei Sequenzen zwei Wochen. Die Integration von weiteren Strömen in die Anwendung erfolgt im Zuge eines Redesigns der Implementierungen. Bei der Erweiterung des Hypothesengenerators sind dabei die meisten Modifikationen und Innovationen nötig.following the architecture of the used multistrom classifier is described. For the Extension of the single-stream classifier to the multi-stream classifier It is necessary that many parts of the classifier architecture be revised become. One exception is the kernel algorithm, e.g. AdaBoost, which does not necessarily have to be modified. Still, some can implementation-technical optimizations are made, which the duration of an NIR training run with a predetermined parameterization many times lower. It will be the complete table the characteristic values for all examples kept in memory. Another point is the Optimizations in the example generation. This could be practical Use training runs ended with 16 sequences in about 24 hours. Before this optimization Training with only three sequences took two weeks. The integration from further streams The application is implemented as part of a redesign of the implementations. In the expansion of the hypothesis generator are the most Modifications and innovations needed.
Im Folgenden werden die wesentlichen Erweiterungen hinsichtlich der Datenvorverarbeitung beschrieben. Der resultierende Detektor soll in Form eines Echtzeitsystems und mit Live-Daten der beiden Kameras zur Anwendung kommen. Für das Training werden gelabelte Daten herangezogen. Dafür steht eine umfangreiche Datenbank mit Sequenzen und Labels zur Verfügung, welche Landstraßenszenen mit am Straßenrand laufenden Fußgängern, Autos und Radfahrern beinhalten. Zwar zeichnen die Beiden verwendeten Sensoren ca. 25 Bildern pro Sekunde auf, die zeitliche Abtastung erfolgt dabei jedoch hardwarebedingt asynchron, die Zeitpunkte beider Aufnahmen sind dabei unabhängig. Wegen Schwankungen bei den Aufnahmezeitpunkten ist sogar eine deutliche Differenz der Bilderanzahl der beiden Kameras für eine Sequenz üblich. Eine Anwendung des Detektors ist nicht möglich, sobald auch nur ein Merkmal nicht zur Verfügung steht. Würde man beispielsweise bei fehlenden Merkmalen die jeweiligen Terme in der Stronglearnergleichung durch Nullen ersetzen, ist das Verhalten undefiniert. Dies macht das sequenzielle Abarbeiten der einzelnen Bilder der Multistrom-Daten unmöglich und verlangt sowohl für das Training als auch für die Anwendung eines Mulistrom-Detektors eine Synchronisierung der Sensordatenströme. In diesem Fall müssen also Bildpaare gebildet werden. Da die Aufnahmezeitpunkte der Bilder eines Paares nicht exakt gleich sind, ist jeweils ein anderer Zustand der Umgebung abgebildet. D.h. die Position des Fahrzeugs und die des Fußgängers ist jeweils eine andere. Um jeglichen Einfluss der Umgebungsdynamik zu minimieren, müssen die Bildpaare so gebildet werden, dass die Differenzen der beiden Zeitstempel minimal werden. Wegen der erwähnten unterschiedlichen Anzahl Messungen pro Zeiteinheit müssen entweder Bilder aus einem Strom mehrmals verwendet werden, oder es werden Bilder ausgelassen. Zwei Gründe sprechen für die letztere Methode: Erstens minimiert sie die durchschnittliche Zeitstempeldifferenz und zweitens würde die Mehrfachverwendung im Onlinebetrieb zu gelegentlichen Spitzen beim Rechenaufwand führen. Der nachfolgende Algorithmus beschreibt die Datensynchronisierung: The following describes the major enhancements in terms of data preprocessing. The resulting detector will be used in the form of a real-time system and with live data from the two cameras. The training uses labeled data. An extensive database of sequences and labels is available for this purpose, which includes country road scenes with pedestrians running by the roadside, cars and cyclists. Although the two sensors used record approx. 25 pictures per second, the temporal sampling is done asynchronously due to the hardware, the times of both pictures are independent. Because of variations in the recording times even a significant difference in the number of images of the two cameras for a sequence is common. An application of the detector is not possible as soon as only one feature is not available. If, for example, you replace the respective terms in the Stronglearner equation with zeros for missing features, the behavior is undefined. This makes sequential execution of the individual images of the multi-stream data impossible and requires synchronization of the sensor data streams both for training and for the application of a multi-stream detector. In this case, image pairs must be formed. Since the recording times of the images of a pair are not exactly the same, a different state of the environment is shown in each case. That is, the position of the vehicle and that of the pedestrian is a different one. In order to minimize any influence of environmental dynamics, the image pairs must be formed so that the differences of the two time stamps become minimal. Because of the mentioned different number of measurements per unit of time, either images from a stream must be used several times, or images are omitted. Two reasons are in favor of the latter: First, it minimizes the average time stamp difference, and secondly, multiple use online would lead to occasional spikes in computational overhead. The following algorithm describes the data synchronization:
Hierbei sollte εs in Abhängigkeit der Verteilung von ts(i+1)-ts(i) gewählt werden und etwa 3σ betragen. Bei kleinen εs besteht die Möglichkeit, dass manche Bildpaare nicht gefunden werden, für große εs steigt die erwartete Zeitstempeldifferenz. Die Zuordnungsvorschrift entspricht einer Greedy-Strategie und ist damit im Allgemeinen suboptimal bezüglich der Minimierung der mittleren Zeitstempeldifferenz. Sie ist dadurch aber sowohl im Training als auch im Online-Betrieb der Anwendung einsetzbar. Für den Fall V ar(ts(i + 1) – ts(i)) = 0 und εs = 0 ∀s ist sie in vorteilhafter Weise optimal.In this case, ε s should be chosen as a function of the distribution of t s (i + 1) -t s (i) and should be about 3 σ . With small ε s, there is the possibility that some image pairs are not found, for large ε s the expected time stamp difference increases. The assignment rule corresponds to a greedy strategy and is therefore generally less than optimal with respect to minimizing the mean time stamp difference. However, it can be used both in training and in online operation of the application. In the case of V ar (t s (i + 1) -t s (i)) = 0 and ε s = 0 ∀ s , it is advantageously optimal.
In
der
Das
Konzept für
das Suchfenster spielt bei der Merkmalsbildung eine zentrale Rolle,
insbesondere bei der Erweiterung des Detektors für den multisensoriellen Einsatz,
wobei mehrere Sensorsignalströme
vorhanden sind. Bei einem Einzelstrom-Detektor besteht die Lokalisation
aller Objekte in einem Bild aus der Untersuchung einer Menge an
Hypothesen. Eine Hypothese steht dabei für eine Position und Skalierung
des Objekts im Bild. Daraus ergibt sich das Suchfenster, also der
Bildausschnitt, welcher für
die Merkmalsberechnung herangezogen wird. Im Multistrom-Fall besteht
eine Hypothese aus einem Suchfenster-Paar, also aus je einem Suchfenster
in jedem Strom. Dabei ist zu beachten, dass für ein einzelnes Suchfenster
im einen Strom aufgrund des Parallaxenproblems verschiedene Kombinationen
mit Suchfenstern im anderen Strom auftreten können. Somit kann sich eine
sehr große
Anzahl an Multistrom-Hypothesen ergeben. Eine Hypothesengenerierung
für beliebige
Kameraanordnungen wird im weiteren Verlauf noch aufgezeigt. Die
Klassifikation basiert auf Merkmalen aus zwei Suchfenstern, wie
dies anhand der
In einer vorteilhaften Weise werden während des Trainingsprozesses kontinuierlich neue Trainingsbeispiele gewählt. Vor dem Training mittels jeder Klassifikatorstufe wird unter Verwendung aller bereits trainierten Stufen eine neue Beispielmenge erzeugt. Im Multistrom-Training bestehen die Trainingsbeispiele wie die Hypothesen aus einem Suchfenster in jedem Strom. Positivbeispiele ergeben sich aus Labels, welche in jedem Strom vorhanden sind. Im Zusammenhang mit automatisch generierten Negativbeispielen kommt hierbei ein Zuordnungsproblem auf: Die zufällig gewählten Suchfenster müssen konsistent bezüglich der Projektionsgeometrie des Kamerasystems sein, sodass die Trainingsbeispiele mit den Multistrom-Hypothesen der späteren Anwendung übereinstimmen. Um dies zu erreichen, wird ein spezieller Hypothesengenerator, welcher nachfolgend noch detailliert beschrieben wird, bei der Bestimmung der Negativbeispiele verwendet. Anstatt wie bisher die Position und Größe des Suchfensters von Negativbeispielen unabhängig und zufällig zu wählen, wird nun zufällig in eine Hypothesenmenge gegriffen. Dabei weist die Hypothesenmenge neben konsistenten Suchfensterpaaren eine intelligentere, auf Weltmodellen basierende Verteilung der Hypothesen im Bild auf. Auch für das Einzelstrom-Training kann dieser Hypothesengenerator eingesetzt werden. Hierbei werden die Negativbeispiele mit der gleichen Suchstrategie bestimmt, welche später bei der Anwendung des Detektors zur Hypothesengenerierung dient. Die Beispielsmenge für das Multistrom-Training besteht also aus Positiv- und Negativbeispielen, welche wiederum jeweils ein Suchfenster in beiden Strömen beinhalten. Für das Training wird beispielsweise AdaBoost eingesetzt, wobei alle Merkmale aller Beispiele berechnet werden. Bei der Merkmalsselektion ändert sich gegenüber dem Einzelstrom-Training lediglich die Zahl der Merkmale, da aufgrund ihrer Definition und der damit verbundenen Multistrom-Datenquelle abstrahiert wird.In An advantageous way will be during the training process continuously selected new training examples. Before the training by means of each classifier level is calculated using all already trained levels created a new example set. Compete in multi-stream training the training examples like the hypotheses from a search window in every stream. Positive examples result from labels, which are present in every stream. In connection with automatically generated Negative examples come here a mapping problem: The randomly selected search window have to consistent regarding the projection geometry of the camera system, so the training examples agree with the multistrom hypotheses of later application. To achieve this, a special hypothesis generator is created will be described in detail below, in the determination used the negative examples. Instead of the position as before and size of the search window independent of negative examples and by chance to choose, will now be random into a set of hypotheses. In this case, the set of hypotheses in addition to consistent search window pairs a smarter, on world models based distribution of hypotheses in the picture. Also for single stream training This hypothesis generator can be used. Here are the negative examples with the same search strategy determines which later in the application of the detector for the generation of hypotheses. The example set for the multistrom training consists of positive and negative examples, which in turn each contain a search window in both streams. For the Training is used, for example, AdaBoost, with all the features all examples are calculated. The feature selection changes across from the single-stream training only the number of features, because due their definition and the associated multistrom data source is abstracted.
Die Architektur einer Multistrom-Detektoranwendung ist der eines Einzelstrom-Detektors sehr ähnlich. Die erforderlichen Modifikationen am System sind zum einen Anpassungen für das generelle Handling von mehreren Sensorsignalströmen, wodurch an fast allen Stellen der Implementierung Änderungen erforderlich sind. Zum anderen wird der Hypothesengenerator erweitert. Für die Generierung von Multistrom-Hypothesen ist eine Korrespondenzbedingung für Suchfenster beider Ströme notwendig, welche auf Welt- und Kameramodellen basiert. Somit muss eine Multistrom-Kamerakalibration in die Hypothesengenerierung integriert werden. Die für Einzelstrom-Detektoren verwendete Brute-Force-Suche im Hypothesenraum lässt sich zwar auf Multistrom-Detektoren übertragen, sie erweist sich dann aber häufig als zu ineffizient. Der Suchraum vergrößert sich dabei deutlich und die Zahl der Hypothesen vervielfacht sich. Um dennoch echtzeitfähig zu bleiben, muss die Hypothesenmenge wieder verkleinert werden und es sind intelligentere Suchstrategien erforderlich. Der im Zusammenhang mit diesem Ausführungsbeispiel verfolgte Fusionsansatz entspricht einer Fusion auf Merkmalsebene. Mittels Ada-Boost wird dabei eine Kombination aus Merkmalen beider Ströme gewählt. Auch andere Verfahren könnten hier zur Merkmalsauswahl und Fusion herangezogen werden. Die erforderlichen Änderungen am Detektor ist eine erweiterte Merkmalsmenge, eine Synchronisierung der Daten sowie die Erzeugung einer Hypothesenmenge, welche geometrische Zusammenhänge der Kameramodelle mit berücksichtigt.The Architecture of a multi-stream detector application is that of a single-current detector very similar. The necessary modifications to the system are on the one hand adjustments for the general handling of multiple sensor signal currents, resulting in almost all Make the implementation changes required are. On the other hand, the hypothesis generator is extended. For the Generation of multi-stream hypotheses is a correspondence condition for search window both streams necessary, which is based on world and camera models. Thus, must a multi-stream camera calibration be integrated into the hypothesis generation. The for single-stream detectors used brute force search in the hypothesis space while transmitting to multi-stream detectors, but then it turns out to be common as too inefficient. The search space increases significantly and the number of hypotheses multiplies. To still have real-time capability, must the set of hypotheses are scaled down again and they are smarter Search strategies required. The in connection with this embodiment pursued fusion approach corresponds to a merger at feature level. Ada-Boost will be a combination of features of both streams selected. Other methods could used here for feature selection and merger. The required changes at the detector is an extended feature set, a synchronization the data as well as the generation of a hypothesis set, which geometrical relationships the camera models are taken into account.
Nachfolgend
wird die Herleitung einer Korrespondenzvorschrift, die Suchraumabtastung
und weitere gewinnbringende Optimierungen vorgestellt. Mit dem trainierten
Einzelstrom-Kaskadenklassifikator werden nacheinander einzelne Suchfenster
evaluiert. Der Klassifikator liefert als Ergebnis eine Aussage,
ob ein Objekt in genau dieser Position und Skalierung detektiert
wurde. In jedem Bild können
Fußgänger an
unterschiedlichen Positionen mit verschiedenen Skalierungen erscheinen.
Deshalb muss bei der Verwendung des Klassifikators als Detektor
in jedem Bild eine große
Menge an Positionen bzw. Hypothesen geprüft werden. Diese Hypothesenmenge
kann durch Unterabtastung und Suchbereichseinschränkungen
reduziert werden. Damit kann der Berechnungsaufwand ohne Beeinträchtigung
der Detektionsleistung vermindert werden. Aus dem Stand der Technik
sind hierfür
Hypothesengeneratoren für
Einzelstrom-Anwendungen bereit bekannt. Bei dem im Zusammenhang
mit diesem Ausführungsbeispiel
vorgestellten Multistrom-Detektor werden Hypothesen über ein
Suchfensterpaar, also über
ein Suchfenster in jedem Strom definiert. Die Suchfenster lassen
sich zwar in beiden Strömen
mit zwei Einzelstrom-Hypothesengeneratoren erzeugen, die Verknüpfung zur
Multistrom-Hypothesenmenge ist aber aufgrund der Parallaxe nicht
trivial. Die Zuordnung von zwei Suchfenstern aus verschiedenen Strömen zu einer
Multistrom-Hypothese
muss dabei bestimmte geometrische Bedingungen erfüllen. Um
eine Robustheit gegen Kalibrationsfehler und Dynamikeinflüsse zu erreichen,
werden des Weiteren Relaxationen dieser geometrischen Korrespondenzbedingungen
eingeführt.
Schließlich
wird eine konkrete Abtast- und Zuordnungsstrategie gewählt. Es
entstehen hierbei sehr viel mehr Hypothesen als bei Einzelstrom-Detektoren.
Um die Echtzeitfähigkeit
des Multistrom-Detektors zu gewährleisten, werden
nachfolgend weitere Optimierungsstrategien aufgezeigt, unter anderem
auch eine sehr effektive Methode zur Hypothesenreduktion über eine
dynamische lokale Steuerung der Hypothesendichte, welche gleichsam
auch im Zusammenhang mit Einzelstrom-Detektoren einsetzbar ist.
Die einfachste Suchstrategie zum Auffinden von Objekten an allen
Positionen im Bild ist das pixelweise Abtasten des gesamten Bildes
in allen möglichen
Suchfenstergrößen. Das
ergibt bei einem Bild mit 640×480
Pixeln eine Hypothesenmenge mit ca. 64 Millionen Elementen. Diese
Hypothesenmenge wird im Folgenden als vollständiger Suchraum des Einzelstrom-Detektors bezeichnet.
Mit Hilfe einer im Folgenden beschriebenen Bereichseinschränkung auf
Basis eines einfachen Weltmodells sowie einer skalierungsabhängigen Unterabtastung
des Suchraums, kann die Zahl der zu untersuchenden Hypothesen in
besonders vorteilhafter Weise auf ca. 320.000 reduziert werden.
Grundlage für
die Bereichsbeschränkung
ist zum einen die sogenannte "Ground-Plane-Assumption", die Annahme, dass
die Welt eben ist, wobei sich die zu detektierenden Objekte und
das Fahrzeug auf gleicher Ebene befinden. Zum anderen kann aufgrund
der Objektgröße im Bild
und einer Annahme bezüglich
der realen Objektgröße eine eindeutige
Position im Raum abgeleitet werden. Damit liegen alle Hypothesen
einer Skalierung im Bild auf einer waagrechten Geraden. Beide Annahmen,
also die "Ground-Plane-Assumption" sowie die bzgl.
einer festen realen Objektgröße treffen
in der Regel nicht zu. Die Einschränkungen werden deswegen relaxiert,
so dass für die
Objektposition als auch für
deren Größe im Raum
ein gewisser Toleranzbereich zugelassen wird, dieser Sachverhalt
ist in der
Die
In
der
Aus
den Einzelstrom-Hypothesen entstehen somit durch geeignete Paarbildung
Multistrom-Hypothesen. Die Epipolargeometrie ist dabei Grundlage
für die
Paarbildung, womit die geometrischen Zusammenhänge beschrieben werden. In
der
Es
sei nun Punkt P ∊ R3 ein Punkt
im Raum. P1, P2 ∊ R3 sei die Darstellung
von P in den Kamerakoordinatensystemen mit Ursprung O1 bzw.
O2. Dann gibt es eine Rotationsmatrix R ∊ R3×3 und
einen Translationsvektor T ∊ R3 für die gilt
R
und T sind dabei durch die relativen extrinsischen Parameter des
Kamerasystems eindeutig festgelegt. P1,
T und P1 – T sind koplanar, d.h.
Mit Gleichung (5.1) und der Orthonormalität der Rotationsmatrix ergibt sich: Equation (5.1) and the orthonormality of the rotation matrix give:
Das Kreuzprodukt kann nun in ein Skalarprodukt umgeschrieben werden: The cross product can now be rewritten into a scalar product:
Damit ergibt sich aus Gleichung (5.3) mit E := RS der Essentiellen Matrix. Nun ist eine Beziehung zwischen P1 und P2, hergestellt. Projiziert man sie mittels so ergibt sich: This results from equation (5.3) with E: = RS of the Essential Matrix. Now, a relation between P 1 and P 2 is established. Projected by means of this results in:
Hierbei
ist f1,2 die fokale Länge und Z1,2 die
Z-Komponente von P1,2. Damit ist die Menge
aller möglichen Bildpunkte
p2 im zweiten Bild, die mit einem Punkt
p1 des ersten Bildes korrespondieren können genau
die, für die
die Gleichung (5.6) erfüllt
ist. Mit dieser Korrespondenzbedingung für einzelne Bildpunkte können nun
konsistente Suchfensterpaare aus den Einzelstrom-Hypothesen wie
folgt gebildet werden: Das Seitenverhältnis der Suchfenster ist vorzugsweise
per Definition fest, d.h. ein Suchfenster lässt sich eindeutig durch die
Mittelpunkte der oberen und unteren Kante beschreiben. Mit der Korrespondenzbedingung
für Bildpunkte
ergeben sich so zwei Epipolarlinien im Bild der zweiten Kamera für die möglichen
Mittelpunkte der Ober- und Unterkanten aller korrespondierenden
Suchfenster, wie dies z.B. in der
Es wird nun die Optimierung des Korrespondenzraumes beschrieben, wobei sich bei der Projektion eines Suchfensters von einem Sensorstrom in den anderen Sensorstrom mehrere Korrespondenzsuchfenster mit unterschiedlicher Skalierung ergeben. Dieser Skalierungsunterschied verschwindet jedoch, falls die Kamerapositionen und -ausrichtungen bis auf einen lateralen Versatz gleich sind. Für die Skalierung ist also nur ein Versatz d zwischen den Zentren O1 und O2 in Längsrichtung des Kamerasystems relevant, wie dies in derIt will now be described the optimization of the correspondence space, wherein in the projection result in a search window from one sensor current in the other sensor current several correspondence search window with different scaling. However, this difference in scale disappears if the camera positions and orientations are the same except for a lateral offset. For the scaling, therefore, only one offset d between the centers O 1 and O 2 in the longitudinal direction of the camera system is relevant, as described in US Pat
Es ist eine feste Suchfenstergröße h1 im ersten Bild vorgegeben. Im Folgenden soll das Verhältnis untersucht werden, wobei h2 min bzw. h2 max die minimale bzw. maximale auftretende Skalierung der Korrespondenzsuchfenster im zweiten Sensorstrom zum Suchfenster h1 im ersten Sensorstrom ist. Es seien Hmin = 1m die Höhe eines nahen Fußgängers und Hmax = 2m die Höhe eines weit entfernten Fußgängers, wobei hier nur Fußgänger betrachtet werden, welche eine minimale Größe von 1m und eine maximale Größe von 2m aufweisen. Beide Fußgänger seien so weit entfernt, dass sie im Bild der ersten Kamera die Höhe h1 aufweisen.There is a fixed search window size h 1 in the first image. The following is the relationship where h 2 min or h 2 max is the minimum or maximum occurring scaling of the correspondence search window in the second sensor current to the search window h 1 in the first sensor current. Let H min = 1m the height of a nearby pedestrian and H max = 2m the height of a faraway pedestrian, only pedestrians being considered here having a minimum size of 1m and a maximum size of 2m. Both pedestrians are so far away that they have the height h1 in the picture of the first camera.
Seien
weiterhin Z1 min,
Z1 max, Z2 min und Z2 max die Objektabstände beider
Objekte zu beiden Kameras, dann folgt
Das Skalierungsverhältnis ergibt sich dann ausThe scaling ratio then results
Für große Entfernungen geht das Skalierungsverhältnis gegen 1. Für eine Anwendung des Klassifikators als Frühwarnsystem in Landstraßenszenarien, kann man sich bei der Wahl von Z1 min auf Werte größer 20m beschränken. Der Versatz der Kameras ist im Versuchsträger ca. 2m. Zusammen mit den oben vorgeschlagenen Werten für die Fußgängergrößen ergibt sich, dass gilt. Es lässt sich somit der Korrespondenzraum für ein Suchfenster im ersten Strom, also die Menge der korrespondierenden Suchfenster im zweiten Strom folgendermaßen vereinfachen: Die Skalierung aller korrespondierenden Suchfenster wird vereinheitlicht. Die verwendete Skalierung h2 für alle Korrespondenzen ist der Mittelwert der minimal und maximal auftretenden Skalierung: For long distances, the scaling ratio goes to 1. For an application of the classifier as an early warning system in country road scenarios, one can limit itself to values greater than 20m when choosing Z 1 min . The offset of the cameras is about 2m in the test carrier. Together with the above suggested values for pedestrian sizes, it follows that applies. Thus, the correspondence space for a search window in the first stream, that is to say the set of corresponding search windows in the second stream, can be simplified as follows: The scaling of all corresponding search windows is standardized. The scaling h 2 used for all correspondences is the mean of the minimum and maximum scaling:
Der
verursachte Skalierungsfehler beträgt dabei maximal 2,75%. In
der
Zur Modellierung des Korrespondenzfehlers ist in realen Anwendungen die oben beschriebene Paarbildung zur Erzeugung von Multistrom-Hypothesen häufig unzureichend. In gewinnbringender Weise werden folgende Faktoren darüber hinaus mit berücksichtigt:
- • Fehler in den extrinsischen und intrinsischen Kameraparametern, verursacht durch Messfehler während der Kamerakalibrierung.
- • Einflüsse der Umgebungsdynamik.
- • Errors in extrinsic and intrinsic camera parameters caused by measurement errors during camera calibration.
- • Influences of the environmental dynamics.
Es
besteht also ein unbekannter Fehler im Kameramodell. Dadurch entsteht
eine Unschärfe
sowohl für
die Position als auch die Skalierung der korrelierenden Suchfenster,
sie wird im Folgenden als Korrespondenzfehler bezeichnet. Der Skalierungsfehler
wird aus folgenden Gründen
vernachlässigt:
Erstens ist der Einfluss der Dynamik auf die Skalierung sehr gering,
wenn das Objekt mindestens 20m entfernt ist. Zweitens ist eine deutliche
Unempfindlichkeit der Detektorantwort zu erkennen, was die Exaktheit
der Hypothesenskalierung betrifft. Dies wird anhand von Mehrfachdetektionen
sichtbar, deren Mittelpunkte zwar kaum variieren, jedoch variieren
die Skalierungen dabei stark. Zur Kompensation des translativen
Fehlers wird eine Relaxation der Korrespondenzbedingung eingeführt. Hierfür wird ein
Toleranzbereich für
die Position der korrelierenden Suchfenster definiert. Für jede dieser
Korrespondenzen wird im Bild ein ellipsenförmiger Toleranzbereich mit den
Radien ex und ey definiert,
in dem weitere Korrespondenzen entstehen, wie dies anhand der
In
der
- • Für jedes Multistrom-Label werden die Suchfenster in beiden Strömen bestimmt.
- • Zu dem jeweiligen Suchfenster im ersten Strom werden alle möglichen Korrespondenzsuchfenster im zweiten Strom berechnet. Dabei wird eine nicht-relaxierte Korrespondenzbedingung verwendet.
- • Das Korrespondenzsuchfenster, das dem Labelsuchfenster im zweiten Strom am nächsten kommt, wird für die Fehlerbestimmung herangezogen. Die Nähe zweier Suchfenster kann hier entweder durch die Überdeckung definiert sein, insbesondere durch das Verhältnis der Schnittfläche zweier Rechtecke zu deren Vereinigungsfläche (auch Coverage genannt) oder durch den Abstand der Suchfenstermittelpunkte. Letztere Definition wurde bei diesem Ausführungsbeispiel gewählt, da so der für die Detektorantwort unkritische Skalierungsfehler vernachlässigt wird.
- • Für alle Labels
wird der Abstand in X- und Y-Richtung zwischen dem Labelsuchfenster
und dem am nächsten
gelegenen Korrespondenzsuchfenster bestimmt. Es entsteht dabei eine
Häufigkeitsverteilung
für die
X- und Y-Abstände.
Ein Histogramm über
den Abstand in X- und Y-Richtung ist in der
11 dargestellt. - • Nun werden die Radien ex und ey von der Verteilung der Abstände abgeleitet. In dieser Arbeit wurde ex = 2σ x und ey = 2σ y gewählt. Der nächste Schritt nach der Definition des Korrespondenzraumes für ein Suchfenster ist die Suchraumabtastung. Wie bei der Einzelstrom-Unterabtastung soll auch hier die Hypothesenzahl bei möglichst geringen Einbußen bei der Detektionsleistung minimiert werden.
- • For each multistrom label, the search windows in both streams are determined.
- • All possible correspondence search windows in the second stream are calculated for the respective search window in the first stream. In this case, a non-relaxed correspondence condition is used.
- • The correspondence search window that comes closest to the label search window in the second stream is used for error determination. The proximity of two search windows can be defined here either by the overlap, in particular by the ratio of the intersection of two rectangles to their union surface (also called coverage) or by the spacing of the search window center points. The latter definition was chosen in this embodiment, since this neglects the scaling error that is uncritical for the detector response.
- • For all labels, the distance in the X and Y directions is determined between the label search window and the closest correspondence search window. This results in a frequency distribution for the X and Y distances. A histogram of the distance in the X and Y directions is in the
11 shown. - • Now the radii e x and e y are derived from the distribution of the distances. In this work e x = 2 σ x and e y = 2 σ y were chosen. The next step after defining the correspondence space for a search window is the search space scan. As with single-stream subsampling, the number of hypotheses should also be minimized with as little loss as possible in the detection performance.
Das
Verfahren für
die Suchraumabtastung läuft
folgendermaßen
ab: In beiden Strömen
werden mit dem Einzelstrom-Hypothesengenerator Einzelstrom-Hypothesen,
also Suchfenster gestreut. Es müssen
dabei die entstehenden Skalierungsstufen aufeinander abgestimmt
werden, wobei im ersten Strom die Skalierungen mit dem Hypothesengenerator
bestimmt werden. Für
jede dieser Skalierungsstufen wird sodann der Korrespondenzraum
eines prototypischen Suchfensters bestimmt. Die Skalierungen des
zweiten Stromes ergeben sich aus den Skalierungen der Korrespondenzräume aller
prototypischen Suchfenster. Dadurch entsteht in beiden Strömen die
gleiche Anzahl an Skalierungsstufen. Nun werden Suchfensterpaare
gebildet, wodurch die Multistrom-Hypothesen entstehen. Es kann anschließend einer
der beiden Ströme
gewählt
werden, um für
jedes Suchfenster den jeweiligen Korrespondenzbereich im anderen
Strom zu bestimmen. Alle Suchfenster des zweiten Stromes, welche
die richtige Skalierung aufweisen, die innerhalb dieses Bereiches
liegen, werden zusammen mit dem festen Suchfenster des ersten Stromes
zur Paarbildung herangezogen, dies wird anhand der
Wählt man für die intern verwendeten Einzelstrom-Hpothesengeneratoren Positions- und Skalierungsschrittweiten von 5% der Suchfensterhöhe, so ergeben sich im NIR-Bild ca. 400.000 Einzelstrom-Hypothesen, im FIR-Bild ca. 50.000. Es ergeben sich dabei jedoch ca. 1,2 Millionen Multistrom-Hypothesen. Im praktischen Einsatz konnte eine Verarbeitungsgeschwindigkeit mit 2 Bildern pro Sekunde erzielt werden. Um die Echtzeitfähigkeit der Anwendung zu gewährleisten, werden nachfolgend weitere Optimierungen vorgestellt. Zum einen wird ein sogenannter Weaklearner-Cache beschrieben, der die Zahl der notwendigen Merkmalsberechnungen vermindert. Darüber hinaus wird ein Verfahren zur dynamischen Reduktion der Hypothesenmenge vorgestellt, im Folgenden mit Multiraster-Hypothesenbaum bezeichnet. Die dritte Optimierung, welche mit Backtracking bezeichnet wird, reduziert im Falle einer Detektion unnötigen Aufwand in Zusammenhang mit Mehrfachdetektionen.You choose for the Internally used single-current prosthetic generators Position and scale increments of 5% of the search window height, as shown In the NIR picture about 400,000 single-stream hypotheses, in the FIR image about 50,000. However, there are about 1.2 million multistrom hypotheses. In practical use could process at 2 frames per second be achieved. To the real-time capability to ensure the application Further optimizations will be presented below. For one thing a so-called Weaklearner cache described the number of necessary feature calculations reduced. In addition, a procedure for the dynamic reduction of the hypothesis set, below denoted by multiraster hypothesis tree. The third optimization, which is called backtracking, reduced in the case of a Detection unnecessary Effort in connection with multiple detections.
Das Evaluieren von mehreren Multistrom-Hypothesen, die ein Suchfenster gemeinsam haben, führt dazu, dass Weaklearner mehrmals auf den gleichen Daten berechnet werden. Zur Vermeidung aller redundanten Berechnungen wird nun ein Cachingverfahren eingesetzt. Dabei wird für jedes Suchfenster in beiden Strömen und für jeden Stronglearner partielle Summen der Stronglearner-Berechnung in Tabellen abgelegt. Ein Stronglearner Hk der Kaskadenstufe k ist definiert durch: mit den Weaklearnern h k / t ∊ {–1, 1} und Hypothese x.Evaluating multiple multi-stream hypotheses that share a search window will cause Weaklearner to be computed multiple times on the same data. To avoid all redundant calculations, a caching method is now used. In this case, partial sums of the Stronglearner calculation are stored in tables for each search window in both streams and for each Stronglearner. A stronglearner H k of the cascade stage k is defined by: with the Weaklearnern hk / t ε {-1, 1} and Hypothesis x.
Sk(x) kann aufgetrennt werden in zwei Summen, die nur Weaklearner mit Merkmalen eines Stromes beinhalten: S k (x) can be separated into two sums, which contain only weapon learners with characteristics of a stream:
Falls mehrere Hypothesen xi in einem Strom s das gleiche Suchfenster besitzen, dann ist in jeder Stufe k für den Strom s die Summe Ss(xi) gleich für alle xi. Das Ergebnis wird vorzugsweise zwischengespeichert und mehrmals verwendet. Sofern für eine Stronglearner-Berechnung auf bereits berechnete Werte zurückgegriffen werden kann, reduziert sich der Aufwand in gewinnbringender Weise auf eine Summen- und eine Schwellwertoperation. Was die Größe der Tabellen betrifft, ergeben sich bei diesem Ausführungsbeispiel für insgesamt 500.000 Suchfenster und 25 Kaskadenstufen 12,5 Millionen Einträge. Mit 64Bit-Fließkommazahlen werden 100 MB dabei Speicher benötigt. Für eine Aufwandsabschätzung kann die Zahl der Merkmalsberechnungen sowohl mit als auch ohne Weaklearner-Cache betrachtet werden. Im ersteren Fall ist die Zahl der Hypothesen pro Bild und die Anzahl aller Merkmale ausschlaggebend. Die Zahl der Hypothesen kann durch die Anzahl der Suchfenster Rs in den Strömen s abgeschätzt werden mit O(R1·R2). Der in der O-Notation versteckte Faktor ist hier allerdings sehr klein, da der Korrespondenzbereich klein gegenüber der gesamten Bildfläche ist. Die Zahl der berechneten Merkmale ist dann im schlechtesten Fall O(R1·R2·(M1 + M2)) wobei Ms die Zahl der Merkmale in jedem Strom s ist. Im zweiten Fall wird jedes Merkmal in jedem Suchfenster höchstens einmal pro Bild berechnet. Somit ist die Zahl der berechneten Merkmale höchstens O(R1·M1 + R2·M2). Der Aufwand wird im schlechtesten Fall um den Faktor min(R1,R2) reduziert. Eine Komplexitätsanalyse für den durchschnittlichen Fall ist dagegen aufwändiger, da der Zusammenhang zwischen der mittleren Zahl berechneter Merkmale pro Hypothese bzw. Suchfenster im ersten Fall und im zweiten Fall nicht linear ist.If several hypotheses x i in a stream s have the same search window, then in each stage k for the stream s the sum S s (x i ) is the same for all x i . The result is preferably buffered and used several times. If it is possible to resort to already calculated values for a Stronglearner calculation, the effort is reduced in a profitable manner to a sum operation and a threshold operation. As far as the size of the tables is concerned, in this exemplary embodiment 12.5 million entries result for a total of 500,000 search windows and 25 cascade stages. 64-bit floating-point numbers require 100 MB of memory. For an effort estimate, the number of feature calculations can be considered both with and without a Weaklearner cache. In the former case, the number of hypotheses per image and the number of all features are decisive. The number of hypotheses can be estimated by the number of search windows R s in the streams s with O (R1 * R2). However, the factor hidden in the O-notation is very small here, since the correspondence area is small compared to the entire image area. The number of calculated features is then in the worst case O (R1 * R2 * (M1 + M2)) where Ms is the number of features in each stream s. In the second case, each feature in each search window is calculated at most once per image. Thus, the number of calculated features is at most O (R1 * M1 + R2 * M2). In the worst case, the effort is reduced by the factor min (R1, R2). A complexity analysis for the average case, however, is more complex because the relationship between the average number of calculated features per hypothesis or search window in the first case and in the second case is not linear.
Es folgen Ausführungen zum Multiraster-Hypothesenbaum. Der Suchraum des Multistrom-Detektors wurde bei diesem Beispiel mit zwei Einzelstrom-Hypothesengeneratoren und einer relaxierten Korrespondenzbeziehung erfasst. Hierbei ist es jedoch schwierig eine optimale Parametrisierung zu finden, speziell das Finden der geeigneten Abtast-Schrittweiten. Sie haben zum einen großen Einfluss auf die Detektionsleistung und zum anderen auf den entstehenden Rechenaufwand. Für die Einzelstrom-Detektoren konnten bei einem praktischen Versuch akzeptable Kompromisse gefunden werden, die im FIR-Fall wegen der geringeren Bildauflösung eine Echtzeitfähigkeit gewährleisten konnten, im NIR-Fall war dies mit der eingesetzten Hardware allerdings nicht möglich. Die Leistung des verwendeten Versuchsrechners war auch beim Einsatz eines Fusionsdetektors mit Weaklearner-Cache nicht ausreichend und führte in komplexen Szenen zu längeren Reaktionszeiten. Diese Probleme lassen sich aber natürlich mit leistungsfähigerer Hardware lösen.Below are comments on the multiraster hypothesis tree. The search space of the multistrom detector was detected in this example with two single-stream hypothesis generators and a relaxed correspondence relationship. In this case, however, it is difficult to find an optimal parameterization, especially the finding of the appropriate sampling step sizes. On the one hand, they have a major influence on the detection performance and, on the other hand, on the resulting computational effort. For the single-stream detectors could at a prak In the FIR case acceptable compromises could be found in the FIR case because of the lower image resolution, but in the NIR case this was not possible with the hardware used. The performance of the experimental computer used was also insufficient when using a fusion detector with Weaklearner cache and resulted in longer response times in complex scenes. Of course, these problems can be solved with more powerful hardware.
Beim
praktischen Einsatz wurden verschiedene Parametrisierungen des Hypothesengenerators
und des Detektors getestet. Mehrere Suchrasterdichten und verschiedene
Stufenbeschränkungen
wurden dabei evaluiert. Es hat sich gezeigt, dass auch bei sehr
grober Abtastung jeder zu detektierende Fußgänger bereits mit den ersten
Stufen des Detektors erkannt wird. Hierbei wurden die hinteren Kaskadenstufen
sukzessive abgeschaltet, was eine hohe Falschalarmrate zur Folge
hat. Die beim praktischen Einsatz aufgezeichneten Messwerte sind
in der
Die
In
der
D H / k kennzeichnet
hierbei die Detektionsrate der feinsten Rasterdichte H in Stufe
k. Wenn n die Zahl der Verfeinerungen ist, dann ergibt sich für die letzte
Stufe K des Detektors eine Detektionsrate
Für α sind in diesem Beispiel hauptsächlich Werte zwischen 0,98 und 0,999 geeignet.For α are in this example mainly Values between 0.98 and 0.999 are suitable.
Bei der Definition der Nachbarschaft wird der Hypothesenraum betrachtet. Der Hypothesenraum ist nun nicht eindimensional sondern im Falle des Einzelstrom-Detektors dreidimensional oder sechsdimensional beim Fusionsdetektor. Das Problem einer Schrittweisen Verfeinerung in allen Dimensionen wird mit dem Hypothesengenerator gelöst. Zur Definition der Nachbarschaft gibt es dabei zwei Möglichkeiten, von denen in diesem Ausführungsbeispiel die zweite verwendet wird. Zum einen kann ein Minimalwert für die Überdeckung (Coverage) zweier benachbarter Suchfenster festgelegt werden. In diesem Fall ist jedoch nicht klar, wie der Minimalwert zu wählen ist, da in den verfeinerten Hypothesenmengen Lücken entstehen können, also Bereiche, die keiner Hypothese der groben Hypothesenmenge nahe genug sind. Es müssen daher verschiedene Schwellwerte für jede Rasterdichte festgelegt werden. Zum anderen kann die Nachbarschaft mit einer modifizierten Schachbrett-Distanz definiert werden. Damit werden die erwähnten Lücken vermieden und es kann ein einheitlicher Schwellwert für alle Rasterdichten definiert werden. Die Schachbrett-Distanz ist definiert durch In defining the neighborhood, the hypothesis space is considered. The hypothesis space is now not one-dimensional but in the case of the single-stream detector three-dimensional or six-dimensional in the fusion detector. The problem of gradual refinement in all dimensions is solved with the hypothesis generator. There are two possibilities for defining the neighborhood, of which the second is used in this embodiment. On the one hand, a minimum value for the coverage of two adjacent search windows can be defined. In this case, however, it is not clear how to choose the minimum value, since gaps can arise in the refined sets of hypotheses, ie areas that are not close enough to any hypothesis of the coarse hypothesis set. Therefore, different thresholds must be set for each grid density. On the other hand, the neighborhood can be defined with a modified checkerboard distance. Thus, the mentioned gaps are avoided and it can be defined a uniform threshold for all screen densities. The chessboard distance is defined by
Die Rasterdichte für einen Strom ist durch rx, ry, rh ∊ R definiert. Die Rasterabstände sind für eine Suchfensterhöhe h dann in X-Richtung rx·h und in Y-Richtung ry·h. Für eine Suchfensterhöhe h1 ist die nächst größere Suchfensterhöhe h2 = h1·(1 + rh). Das Nachbarschaftskriterium für ein Suchfenster mit Position s1 ∊ R2 und Suchfensterhöhe h1 zu einem Suchfenster s2 ∊ R2 einer feineren Hypothesenmenge mit Höhe h2 ist mit einem Skalar δ definiert: The array density of a current is defined by r x, r y, r h ε R. The grid spacings are for a search window height h then in the x direction r x · h and in the y direction r y · h. For a search window height h 1 , the next largest search window height is h 2 = h 1 * (1 + rh). The neighborhood criterion for a search window with position s 1 ε R 2 and search window height h 1 to a search window s 2 ε R 2 of a finer hypothesis set with height h 2 is defined with a scalar δ:
Die
entstehenden Intervallgrenzen sind in der
In
der
Die
Erzeugung der verfeinerten Hypothesen während der Anwendung wäre zu zeitintensiv
und kann genauso gut als Vorverarbeitungsschritt erfolgen. Das Generieren
aller verfeinerten Hypothesenmengen erfolgt mittels des Hypothesengenerators.
Es wird zunächst
die Hypothesenmenge für
jede Verfeinerungsstufe generiert. Anschließend werden die Hypothesen
mit dem Nachbarschaftskriterium verknüpft, wobei Jede Hypothese mit
jeder Hypothese der nächsten
feineren Hypothesenmenge verglichen wird. Sind diese sich nahe, werden
sie verknüpft.
Es entsteht hierbei eine baumartige Struktur, deren Wurzeln den
Hypothesen der gröbsten
Stufe entsprechen. In der
Die Zahl der Mehrfachdetektionen ist beim Multistrom-Detektor und beim FIR-Detektor sehr hoch. Mehrfachdetektionen haben daher großen Einfluss auf die Rechenzeit, da sie die gesamte Kaskade durchlaufen. Es wird daher ein sogenanntes Backtracking-Verfahren eingesetzt. Mit einer Änderung der Suchstrategie kann dabei ein Großteil der Mehrfachdetektionen vermieden werden, wobei im Falle einer Detektion die Suche in dem Hypothesenbaum abgebrochen und bei der nächsten Baumwurzel fortgesetzt wird. Dadurch wird die Hypothesendichte lokal vermindert, sobald ein Objekt gefunden wird. Um keinen systematischen Fehler zu erzeugen, werden alle Kindknoten zufällig permutiert, so dass ihre Reihenfolge nicht mit ihrer Anordnung im Bild korreliert. Wenn die ersten Kind-Hypothesen beispielsweise immer links oben im Nachbarschaftsbereich liegen, so kann die Detektion tendenziell in diese Richtung verschoben werden.The The number of multiple detections is very high for the multi-stream detector and the FIR detector high. Multiple detections therefore have a major influence on the computing time, as they go through the entire cascade. It will therefore be a so-called Backtracking method used. With a change of search strategy can a large part the multiple detections are avoided, wherein in the case of detection the search in the hypothesis tree is aborted and at the next tree root will continue. This will reduce the density of hypotheses locally, as soon as an object is found. Not a systematic mistake All child nodes are randomly permuted so that their Order is not correlated with their arrangement in the picture. If the first child hypotheses, for example, always in the upper left corner of the neighborhood lie, the detection tends to shift in that direction become.
Anhand dieses Ausführungsbeispiels wurde somit ausgehend vom Einzelstrom-Hyothesengenerator, durch Modellierung eines relaxierten Korrespondenzbereiches und schließlich durch verschiedene Optimierungen ein Verfahren entwickelt, welches trotz des komplexen Suchraumes der Multistrom-Daten sehr wenig Rechenzeit erfordert. Einen wichtigen Beitrag leistet dabei der Multiraster-Hypothesenbaum.Based this embodiment was thus starting from the single-stream Hyothesengenerator, by Modeling a relaxed correspondence area and finally by Various optimizations developed a procedure which, despite the complex search space of the multistrom data has very little computation time requires. An important contribution is made by the multiraster hypothesis tree.
Die Verwendung des Multiraster-Hypothesenbaums ist nicht nur im Rahmen der Multisensorfusion von großem Vorteil, sondern eignet sich in besonderer Weise auch zum Zusammenspiel mit Kaskadenklassifikatoren im Allgemeinen und führt hierbei zu signifikant besseren Klassifikationsergebnissen.The Use of the Multiraster Hypothesis tree is not just in the frame the multisensor fusion of great Advantage, but is particularly suitable for interaction with cascade classifiers in general and leads to significant better classification results.
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102007013664A DE102007013664A1 (en) | 2006-03-22 | 2007-03-19 | Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006013597 | 2006-03-22 | ||
DE102006013597.0 | 2006-03-22 | ||
DE102007013664A DE102007013664A1 (en) | 2006-03-22 | 2007-03-19 | Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102007013664A1 true DE102007013664A1 (en) | 2007-09-27 |
Family
ID=38438589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102007013664A Withdrawn DE102007013664A1 (en) | 2006-03-22 | 2007-03-19 | Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102007013664A1 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007050568A1 (en) * | 2007-08-04 | 2009-02-05 | Continental Teves Ag & Co. Ohg | Method and device for object recognition in an image |
EP2056235A1 (en) * | 2007-11-02 | 2009-05-06 | Honda Research Institute Europe GmbH | Driving path identification via online adaptation of the driving path model |
DE102009034026A1 (en) * | 2009-07-21 | 2011-01-27 | Bayerische Motoren Werke Aktiengesellschaft | Method for recognizing object in environment of sensor system of vehicle, involves realizing object recognition based on determined candidates and part of environment detected by complementary metal oxide semiconductor-camera |
EP2254075A3 (en) * | 2009-05-18 | 2014-06-11 | EADS Deutschland GmbH | Method for recognising objects |
DE102017006155A1 (en) | 2017-06-29 | 2017-12-21 | Daimler Ag | Method for operating a sensor system of a vehicle |
CN107886169A (en) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | A kind of multiple dimensioned convolution kernel method that confrontation network model is generated based on text image |
DE102018209306A1 (en) * | 2018-06-12 | 2019-12-12 | Conti Temic Microelectronic Gmbh | Method for the detection of beacons |
DE102019206231A1 (en) * | 2019-04-30 | 2020-11-05 | Zf Friedrichshafen Ag | Camera-based position determination for an object in the surroundings of a vehicle using an epipolar image line |
DE102021002685A1 (en) | 2021-05-21 | 2021-08-12 | Daimler Ag | Method for the sensor fusion of at least two sensors and a vehicle |
DE102020109757A1 (en) | 2020-04-08 | 2021-10-14 | Bayerische Motoren Werke Aktiengesellschaft | System for recognizing the surroundings of a vehicle |
DE102009014437B4 (en) | 2008-03-26 | 2023-01-19 | Continental Autonomous Mobility Germany GmbH | Object Recognition System and Method |
-
2007
- 2007-03-19 DE DE102007013664A patent/DE102007013664A1/en not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007050568A1 (en) * | 2007-08-04 | 2009-02-05 | Continental Teves Ag & Co. Ohg | Method and device for object recognition in an image |
EP2056235A1 (en) * | 2007-11-02 | 2009-05-06 | Honda Research Institute Europe GmbH | Driving path identification via online adaptation of the driving path model |
DE102009014437B4 (en) | 2008-03-26 | 2023-01-19 | Continental Autonomous Mobility Germany GmbH | Object Recognition System and Method |
EP2254075A3 (en) * | 2009-05-18 | 2014-06-11 | EADS Deutschland GmbH | Method for recognising objects |
DE102009034026A1 (en) * | 2009-07-21 | 2011-01-27 | Bayerische Motoren Werke Aktiengesellschaft | Method for recognizing object in environment of sensor system of vehicle, involves realizing object recognition based on determined candidates and part of environment detected by complementary metal oxide semiconductor-camera |
DE102017006155A1 (en) | 2017-06-29 | 2017-12-21 | Daimler Ag | Method for operating a sensor system of a vehicle |
CN107886169A (en) * | 2017-11-14 | 2018-04-06 | 华南理工大学 | A kind of multiple dimensioned convolution kernel method that confrontation network model is generated based on text image |
DE102018209306A1 (en) * | 2018-06-12 | 2019-12-12 | Conti Temic Microelectronic Gmbh | Method for the detection of beacons |
WO2019238177A1 (en) * | 2018-06-12 | 2019-12-19 | Conti Temic Microelectronic Gmbh | Method for detecting identification lamps |
US12014632B2 (en) | 2018-06-12 | 2024-06-18 | Conti Temic Microelectronic Gmbh | Method for detecting beacons |
DE102019206231A1 (en) * | 2019-04-30 | 2020-11-05 | Zf Friedrichshafen Ag | Camera-based position determination for an object in the surroundings of a vehicle using an epipolar image line |
DE102020109757A1 (en) | 2020-04-08 | 2021-10-14 | Bayerische Motoren Werke Aktiengesellschaft | System for recognizing the surroundings of a vehicle |
DE102021002685A1 (en) | 2021-05-21 | 2021-08-12 | Daimler Ag | Method for the sensor fusion of at least two sensors and a vehicle |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2007107315A1 (en) | Multi-sensorial hypothesis based object detector and object pursuer | |
DE102007013664A1 (en) | Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient | |
EP1589484B1 (en) | Method for detecting and/or tracking objects | |
DE19636028C1 (en) | Stereo image object detection, esp. for road vehicles | |
DE102007019491B4 (en) | Vehicle environment monitoring device, vehicle, vehicle environment monitoring method, and vehicle environment monitoring program | |
DE112009000949T5 (en) | Detection of a free driving path for a vehicle | |
DE102009048699A1 (en) | Travel's clear path detection method for motor vehicle i.e. car, involves monitoring images, each comprising set of pixels, utilizing texture-less processing scheme to analyze images, and determining clear path based on clear surface | |
DE112010004767T5 (en) | Point cloud data processing device, point cloud data processing method and point cloud data processing program | |
DE102009048892A1 (en) | Clear traveling path detecting method for vehicle e.g. car, involves generating three-dimensional map of features in view based upon preferential set of matched pairs, and determining clear traveling path based upon features | |
WO2013029722A2 (en) | Method for representing surroundings | |
DE102021002798A1 (en) | Process for camera-based environment detection | |
DE102018212655A1 (en) | Detection of the intention to move a pedestrian from camera images | |
DE102021113651B3 (en) | System for sensor data fusion for environmental perception | |
DE102019133642A1 (en) | DIGITAL IMAGING SYSTEM INCLUDING OPTICAL PLENOPTIC DEVICE AND IMAGE DATA PROCESSING METHOD FOR DETECTING VEHICLE OBSTACLES AND GESTURES | |
DE102012000459A1 (en) | Method for detecting object e.g. vehicle in surrounding area, involves transforming segments with classification surfaces into two-dimensional representation of environment, and searching and classifying segments in representation | |
DE102006039104A1 (en) | Method for ranging or detection of stationary objects in surroundings of road vehicle using graphic data, involves testing object hypothesis such as stationary object against object hypothesis such as flat road | |
DE102018005969A1 (en) | Method for operating a driver assistance system with two detection devices | |
EP3663881B1 (en) | Method for controlling an autonomous vehicle on the basis of estimated movement vectors | |
DE102008036219A1 (en) | Method for identification of object i.e. traffic sign, in surrounding area of e.g. passenger car, involves determining similarity measure between multiple characteristics of image region and multiple characteristics of characteristic set | |
DE102007024641A1 (en) | Vehicle surrounding representing method for tracing of e.g. animal, involves determining measuring range based on object hypotheses, commonly analyzing sensor signal flow in ranges and processing flows in unadjusted manner | |
EP3543901B1 (en) | Device and method for robust determination of the position, orientation, identity and selected status information of objects | |
DE102011017707A1 (en) | Method for detecting object e.g. concrete post in vicinity of camera for monitoring rear side region of vehicle, involves reading images captured by cameras after partially illuminating with illumination patterns | |
DE102008055932A1 (en) | Man-made sensor e.g. environment sensor, performance model-based simulation method for car, involves modifying parameters of polygons and reference points, and generating sensor data by environment including parameter-modified polygons | |
EP3663800B1 (en) | Method for detecting objects using a 3d camera | |
DE102012008780B4 (en) | Method and device for detecting at least one road edge and motor vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
R120 | Application withdrawn or ip right abandoned | ||
R120 | Application withdrawn or ip right abandoned |
Effective date: 20130726 |