DE102017219402A1 - DEVICE AND METHOD FOR DETECTING AND TRACKING OBJECTS IN A VIDEO SEQUENCE - Google Patents
DEVICE AND METHOD FOR DETECTING AND TRACKING OBJECTS IN A VIDEO SEQUENCE Download PDFInfo
- Publication number
- DE102017219402A1 DE102017219402A1 DE102017219402.2A DE102017219402A DE102017219402A1 DE 102017219402 A1 DE102017219402 A1 DE 102017219402A1 DE 102017219402 A DE102017219402 A DE 102017219402A DE 102017219402 A1 DE102017219402 A1 DE 102017219402A1
- Authority
- DE
- Germany
- Prior art keywords
- image
- segmentation
- pixel
- pixels
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
Abstract
Vorrichtung zum Erkennen und Verfolgen von Objekten in einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln bestehenden Bildern, wobei die Vorrichtung umfasst:
eine Segmentierungsstufe zur Segmentierung wenigstens eines ersten Bildes und eines zeitlich nachfolgenden zweiten Bildes;
eine Korrespondenzermittlungsstufe zur Ermittlung mehrerer Korrespondenzpaare, welche jeweils ein Pixel der Pixel des ersten Bildes und ein dazu korrespondierendes Pixel der Pixel des zweiten Bildes umfassen;
eine Zuordnungsstufe zum Zuordnen der Segmentierungsinstanzinformation und des Satzes von Wahrscheinlichkeitsinformationen wenigstens eines Pixels des ersten Bildes auf der Basis von Verschiebungsvektoren zu jeweils einem Pixel des zweiten Bildes;
eine Objektkennungszuordnungsstufe zum Zuordnen der Pixel einer der Segmentierungsinstanzen des ersten Bildes und der Pixel einer der Segmentierungsinstanzen des zweiten Bildes zu einer gemeinsamen Objektkennung, sofern die jeweilige Segmentierungsinstanz des ersten Bildes und die Segmentierungsinstanz des zweiten Bildes dasselbe Objekt abbilden;
eine Fusionierungsstufe zum Fusionieren des jeweils einem Pixel des zweiten Bildes zugeordneten Satzes von Wahrscheinlichkeitsinformationen aus dem ersten Bild und des Satzes von Wahrscheinlichkeitsinformationen des jeweiligen Pixels des zweiten Bildes; und
eine Objektkategorieermittlungsstufe zum Ermitteln der jeweiligen Objektkategorie der Segmentierungsinstanzen.
Apparatus for detecting and tracking objects in a video sequence of temporally consecutive pixel-based images, the apparatus comprising:
a segmentation stage for segmenting at least a first image and a temporally subsequent second image;
a correspondence detection stage for detecting a plurality of correspondence pairs each comprising one pixel of the pixels of the first image and a corresponding one of the pixels of the second image;
an association stage for assigning the segmentation instance information and the set of probability information of at least one pixel of the first image based on displacement vectors to one pixel of the second image, respectively;
an object identifier assignment stage for assigning the pixels of one of the segmentation instances of the first image and the pixels of one of the segmentation instances of the second image to a common object identifier, if the respective segmentation entity of the first image and the segmentation entity of the second image image the same object;
a fusing stage for fusing the set of probability information from the first image and the set of likelihood information of the respective pixel of the second image respectively associated with a pixel of the second image; and
an object category discovery stage for determining the respective object category of the segmentation instances.
Description
Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zum Erkennen und Verfolgen von Objekten in einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln bestehenden Bildern.The present invention relates to an apparatus and method for recognizing and tracking objects in a video sequence of temporally successive pixelated images.
Aus den Referenzen [1], [2] und [3] sind Vorrichtungen zum Erkennen und Verfolgen von Objekten auf der Basis von sogenannten Bounding-Box-Ansätzen bekannt. Die verwendeten Verfahren bestehen aus mehreren Stufen. In der ersten Stufe werden in den Einzelbildern Objektabbildungen ermittelt, welche jeweils ein Objekt repräsentieren. Dabei wird der Bereich, den eine Objektabbildung im Bild einnimmt, durch ein Begrenzungsrechteck (Bounding-Box) festgelegt. In der zweiten Stufe werden die Objektabbildungen aus aufeinanderfolgenden Bildern miteinander verknüpft. Die Verknüpfung kann auf einem räumlichen Bezug und/oder auf einer visuellen Ähnlichkeit beruhen. Der räumliche Bezug kann beispielsweise durch eine Propagierung einer Objektabbildung aus dem aktuellen Bild in das darauffolgende Bild unter Verwendung eines Kalman Filters oder eines optischen Flusses hergestellt werden.References [1], [2] and [3] disclose devices for recognizing and tracking objects on the basis of so-called bounding box approaches. The methods used consist of several stages. In the first stage, object images are determined in the individual images, which each represent an object. The area occupied by an object image in the image is defined by a bounding box. In the second stage, the object images are linked together from successive images. The link may be based on spatial reference and / or visual similarity. The spatial reference can be made, for example, by propagating an object image from the current image into the subsequent image using a Kalman filter or an optical flow.
Eine weitere Vorrichtung zum Erkennen und Verfolgen von Objekten auf der Basis von sogenannten Segmentierungs-Ansätzen ist aus der Referenz [4] bekannt, bei welcher in einem ersten Schritt ein erstes Einzelbild und ein zweites Einzelbild derart segmentiert werden, dass für in dem jeweiligen Einzelbild abgebildete Objekte jeweils eine Segmentierungsinstanz gebildet wird, wobei die zu einer der Segmentierungsinstanzen gehörigen Pixel ermittelt und einer semantischen Objektkategorie zugeordnet werden. Dann werden in einem zweiten Schritt die Segmentierungsinstanzen des ersten Einzelbildes mittels eines optischen Flusses in das zweite Einzelbild abgebildet und in einem dritten Schritt die abgebildeten Segmentierungsinstanzen des ersten Einzelbildes mittels einer Affinitätsmatrix korrespondierenden Segmentierungsinstanzen des zweiten Einzelbildes zugeordnet.A further apparatus for recognizing and tracking objects on the basis of so-called segmentation approaches is known from reference [4], in which in a first step a first individual image and a second individual image are segmented in such a way that images shown in the respective individual image Objects is formed in each case a segmentation instance, wherein the belonging to one of the segmentation instances pixels are determined and assigned to a semantic object category. Then, in a second step, the segmentation instances of the first individual image are imaged into the second individual image by means of an optical flow, and in a third step the mapped segmentation entities of the first individual image are assigned by means of an affinity matrix to corresponding segmentation instances of the second individual image.
Aufgabe der vorliegenden Erfindung ist es, eine verbesserte Vorrichtung und ein verbessertes Verfahren zum Erkennen und Verfolgen von Objekten bereitzustellen.The object of the present invention is to provide an improved apparatus and method for recognizing and tracking objects.
In einem ersten Aspekt wird die Aufgabe gelöst durch eine Vorrichtung zum Erkennen und Verfolgen von Objekten in einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln bestehenden Bildern, wobei die Vorrichtung umfasst:
- eine Segmentierungsstufe zur Segmentierung wenigstens eines ersten Bildes der Bilder und eines zeitlich nachfolgenden zweiten Bildes der Bilder, wobei die Segmentierungsstufe über mehrere vordefinierte semantische Objektkategorien verfügt und wobei die Segmentierungsstufe so ausgebildet ist, dass bei der Segmentierung eines Bildes der Bilder
- für in dem jeweiligen Bild abgebildete Objekte jeweils eine für das jeweilige Bild gültige Segmentierungsinstanz gebildet ist, und
- für mehrere Pixel der Pixel des jeweiligen Bildes jeweils eine Segmentierungsinstanzinformation und jeweils ein Satz von Wahrscheinlichkeitsinformationen ermittelt sind, wobei die jeweilige Segmentierungsinstanzinformation angibt, zu welcher der Segmentierungsinstanzen des jeweiligen Bildes das jeweilige Pixel zugehörig ist, und wobei jede der Wahrscheinlichkeitsinformationen des jeweilige Satzes von Wahrscheinlichkeitsinformationen eine Wahrscheinlichkeitsangabe der Zugehörigkeit des jeweiligen Pixels zu einer der Objektkategorien angibt;
- eine Korrespondenzermittlungsstufe zur Ermittlung mehrerer Korrespondenzpaare, welche jeweils ein Pixel der Pixel einer der Segmentierungsinstanzen des ersten Bildes und ein dazu korrespondierendes Pixel der Pixel des zweiten Bildes umfassen, wobei aus den Korrespondenzpaaren jeweils ein Verschiebungsvektor zwischen dem jeweiligen Pixel des ersten Bildes BI1) und dem jeweiligen korrespondierenden Pixel des zweiten Bildes ermittelt ist;
- eine Zuordnungsstufe zum Zuordnen der Segmentierungsinstanzinformation und des Satzes von Wahrscheinlichkeitsinformationen wenigstens eines Pixels der Pixel des ersten Bildes auf der Basis der Verschiebungsvektoren zu jeweils einem Pixel der Pixel des zweiten Bildes, so dass dem jeweiligen Pixel des zweiten Bildes eine Segmentierungsinstanzinformation der Segmentierungsinstanzinformationen aus dem ersten Bild und ein Satz der Sätze von Wahrscheinlichkeitsinformationen aus dem ersten Bild zugeordnet sind;
- eine Objektkennungszuordnungsstufe zum Zuordnen der Pixel einer der Segmentierungsinstanzen des ersten Bildes und der Pixel einer der Segmentierungsinstanzen des zweiten Bildes zu einer gemeinsamen Objektkennung, sofern die jeweilige Segmentierungsinstanz des ersten Bildes und die Segmentierungsinstanz des zweiten Bildes dasselbe Objekt abbilden, wobei die Objektkennung das jeweilige Objekt über die Videosequenz hinweg eindeutig kennzeichnet, wobei das Zuordnen der Pixel der jeweiligen Segmentierungsinstanz des ersten Bildes auf der Basis der Segmentierungsinstanzinformation des jeweiligen Pixels erfolgt, und wobei das Zuordnen der Pixel der jeweiligen Segmentierungsinstanz des zweiten Bildes auf der Basis der Segmentierungsinstanzinformation des jeweiligen Pixels und der dem jeweiligen Pixel zugeordneten Segmentierungsinstanzinformation aus dem ersten Bild erfolgt;
- eine Fusionierungsstufe zum Fusionieren des jeweils einem Pixel der Pixel des zweiten Bildes zugeordneten Satzes von Wahrscheinlichkeitsinformationen aus dem ersten Bild und des Satzes von Wahrscheinlichkeitsinformationen des jeweiligen Pixels des zweiten Bildes, um so für ein oder mehrere Pixel des zweiten Bildes jeweils einen fusionierten Satz von Wahrscheinlichkeitsinformationen zu bestimmen; und
- eine Objektkategorieermittlungsstufe zum Ermitteln der jeweiligen Objektkategorie der Segmentierungsinstanzen, welche einer der Objektkennungen zugeordnet sind, auf der Basis der fusionierten Sätze von Wahrscheinlichkeitsinformationen der der jeweiligen Objektkennung zugeordneten Pixel des zweiten Bildes.
- a segmentation stage for segmenting at least a first image of the images and a temporally subsequent second image of the images, wherein the segmentation step has a plurality of predefined semantic object categories, and wherein the segmentation step is arranged such that when segmenting an image of the images
- for each of the objects imaged in the respective image a respective segmentation instance valid for the respective image is formed, and
- a segmentation instance information and a set of probability information are respectively determined for a plurality of pixels of the pixels of the respective image, the respective segmentation instance information indicating to which of the segmentation instances of the respective image the respective pixel belongs, and wherein each of the probability information of the respective set of probability information is a Indicates the probability of belonging the respective pixel to one of the object categories;
- a correspondence determination stage for determining a plurality of correspondence pairs, each comprising a pixel of the pixels of one of the segmentation instances of the first image and a corresponding pixel of the pixels of the second image, each of the correspondence pairs being a displacement vector between the respective pixel of the first image BI1) and the respective one corresponding pixel of the second image is determined;
- an assigning stage for assigning the segmentation instance information and the set of probability information of at least one pixel of the pixels of the first image based on the displacement vectors to one pixel of the pixels of the second image, so that the respective pixel of the second image has segmentation instance information of the segmentation instance information from the first image and associating a set of the sets of probability information from the first image;
- an object identifier assignment stage for assigning the pixels of one of the segmentation instances of the first image and the pixels of one of the segmentation instances of the second image to a common object identifier, if the respective segmentation entity of the first image and the segmentation entity of the second image image the same object, wherein the object identifier transmits the respective object via uniquely identifying the video sequence, wherein the assigning of the pixels of the respective segmentation instance of the first image is based on the segmentation instance information of the respective pixel, and the assigning of the pixels of the respective segmentation instance of the second image on the basis of the segmentation instance information of the respective pixel and the segmentation instance information associated with each pixel is from the first image;
- a fusing step of fusing the set of probability information from the first image and the set of likelihood information of the respective pixel of the second image respectively associated with one pixel of the pixels of the second image so as to respectively associate a fused set of likelihood information with one or more pixels of the second image determine; and
- an object category determination stage for determining the respective object category of the segmentation instances associated with one of the object identifiers on the basis of the merged sets of probability information of the pixels of the second image associated with the respective object identifier.
Unter einem Objekt wird dabei ein Element einer abgebildeten Szene verstanden. Ein Objekt hebt sich dabei in der Regel vom Hintergrund ab. Es kann in Bezug auf den Hintergrund ortsfest oder beweglich sein.An object is understood to be an element of an imaged scene. An object usually stands out from the background. It may be fixed or movable with respect to the background.
Erkennen eines Objektes bedeutet dabei, die Art des jeweiligen Objektes festzustellen. Weiterhin bedeutet Verfolgen eines Objektes, Positionsveränderungen des jeweiligen Objektes im Zeitverlauf in der jeweiligen Szene festzustellen.Detecting an object means to determine the type of the respective object. Furthermore, tracking an object means detecting changes in the position of the respective object over time in the respective scene.
Um nun das Erkennen und Verfolgen von Objekten zu ermöglichen, werden die mindestens zwei Bilder der Videosequenz der Segmentierungsstufe zugeführt und getrennt voneinander segmentiert. Dabei sind in der Segmentierungsstufe semantische Objektkategorien hinterlegt, welche die Art eines Objektes sinnhaft beschreiben. Es handelt sich somit um „sprechende“ Bezeichnungen für die Art eines Objekts Beispiele für Objektkategorien sind die Kategorien „Fußgänger“, „Auto“, „Baum“ usw.In order now to enable the recognition and tracking of objects, the at least two images of the video sequence are fed to the segmentation stage and segmented separately from one another. In this case, semantic object categories are stored in the segmentation stage, which describe the nature of an object meaningfully. These are therefore "speaking" terms for the type of object. Examples of object categories are the categories "pedestrian", "car", "tree", etc.
Bei der Segmentierung eines der Bilder wird nun für jedes in dem Bild sichtbare Objekt eine für das jeweilige Bild definierte Segmentierungsinstanz gebildet. Eine Segmentierungsinstanz ist somit ein Repräsentant für ein (noch nicht erkanntes) Objekt. Jedem Pixel des Bildes, welches einer der gebildeten Segmentierungsinstanzen zuordenbar ist, wird dabei eine Segmentierungsinstanzinformation zugewiesen, welche angibt, zu welcher der gebildeten Segmentierungsinstanzen das betreffende Pixel zugehörig ist. Weiterhin wird jedem zuordenbaren Pixel ein Satz von Wahrscheinlichkeitsinformationen zugewiesenen, wobei die Wahrscheinlichkeitsinformationen des Satzes jeweils eine Wahrscheinlichkeit für eine Zugehörigkeit des Pixels zu einer der Objektkategorien angeben. Der Satz von Wahrscheinlichkeitsinformationen kann ein Vektor sein, dessen Länge der Anzahl der hinterlegten Objektkategorien entspricht. Beispielsweise kann der Satz von Wahrscheinlichkeitsinformationen ausdrücken, dass das jeweilige Pixel mit einer Wahrscheinlichkeit von 50 % der Objektkategorie „Fußgänger“, mit einer Wahrscheinlichkeit von 20 % der Objektkategorie „Baum“ und mit einer Wahrscheinlichkeit von 30 % der Kategorie „Auto“ angehört. Es ist aber nicht erforderlich, dass die Wahrscheinlichkeiten auf einer normierten Skala angegeben werden. Auch ist es nicht erforderlich, dass die Wahrscheinlichkeiten zahlenmäßig ermittelt werden. So ist es beispielsweise möglich, die Wahrscheinlichkeiten auf einer Nominalskala, beispielsweise mit den Werten „sehr niedrig“, „niedrig“, „mittel“, „hoch“ und „sehr hoch“, anzugeben.During the segmentation of one of the images, a segmentation instance defined for the respective image is formed for each object visible in the image. A segmentation instance is thus a representative of an (not yet recognized) object. Each pixel of the image, which can be assigned to one of the formed segmentation instances, is assigned a segmentation instance information which indicates to which of the formed segmentation instances the pixel in question belongs. Further, each assignable pixel is assigned a set of likelihood information, the likelihood information of the set each indicating a likelihood of the pixel belonging to one of the object categories. The set of probability information may be a vector whose length corresponds to the number of stored object categories. For example, the set of probability information may express that the respective pixel belongs to the object category "pedestrian" with a probability of 50%, with a probability of 20% of the object category "tree" and with a probability of 30% of the category "auto". It is not necessary, however, that the probabilities be stated on a standardized scale. Nor is it necessary for the probabilities to be numerically determined. For example, it is possible to specify the probabilities on a nominal scale, for example with the values "very low", "low", "medium", "high" and "very high".
Die Segmentierungsstufe kann dabei wie in Referenz [4], [5] und [6] beschriebenen ausgebildet sein und insbesondere zur Ausführung der in den Referenzen [4], [5] und [6] näher beschriebenen Segmentierungsmethode ausgebildet sein, da diese Segmentierungsmethoden sowohl die benötigten Segmentierungsinstanzinformationen als auch die Sätze von Wahrscheinlichkeitsinformationen für die zuordenbaren Pixel bereitstellen.The segmentation stage can be embodied as described in reference [4], [5] and [6] and can be designed in particular for carrying out the segmentation method described in more detail in references [4], [5] and [6], since these segmentation methods both provide the required segmentation instance information as well as the sets of probability information for the assignable pixels.
Die Korrespondenzermittlungsstufe zur Ermittlung von Korrespondenzpaaren, welche korrespondierende Pixel aus aufeinanderfolgenden Bildern enthalten, dient der späteren Zusammenführung von Segmentierungsinstanzinformationen aus unterschiedlichen aufeinanderfolgenden Bildern sowie die Zusammenführung von Sätzen von Wahrscheinlichkeitsinformationen aus unterschiedlichen aufeinanderfolgenden Bildern. Die Ermittlung korrespondierender Pixel aus unterschiedlichen aufeinanderfolgenden Bildern kann beispielsweise auf korrespondierenden Farben oder auf korrespondierenden räumlichen Anordnungen beruhen. Die Verschiebungsvektoren, welche die Pixel des vorangegangenen Bildes zum korrespondierenden Pixel des aktuellen Bildes verschieben, berücksichtigen sowohl eine Bewegung des dem Pixel zu Grunde liegenden Objektes in der Szene als auch eine Bewegung der Kamera, mit der die Szene aufgenommen ist. Ein vordefiniertes Bewegungsmodell ist hierzu nicht erforderlich.The correspondence determination stage for determining pairs of correspondence, which contain corresponding pixels from successive images, is used later to merge segmentation instance information from different successive images and to merge sets of probability information from different successive images. The determination of corresponding pixels from different successive images can be based, for example, on corresponding colors or on corresponding spatial arrangements. The displacement vectors, which shift the pixels of the previous image to the corresponding pixel of the current image, take into account both a movement of the underlying pixel in the scene and a movement of the camera with which the scene is captured. A predefined movement model is not required.
Die Zuordnungsstufe dient dazu, Pixeln einer der Segmentierungsinstanzen des zweiten Bildes jeweils eine Segmentierungsinstanzinformationen und einen Satz von Wahrscheinlichkeitsinformationen eines Pixels des ersten Bildes zuzuordnen, wobei dies auf der Basis der Verschiebungsvektoren erfolgt. Auf diese Weise ergeben sich Pixel des zweiten Bildes, denen nicht nur eine Segmentierungsinstanzinformation und ein Satz von Wahrscheinlichkeitsinformationen aus dem zweiten Bild sondern auch eine Segmentierungsinstanzinformation und ein Satz von Wahrscheinlichkeitsinformationen aus dem ersten Bild zugeordnet sind.The assignment stage serves to associate pixels of one of the segmentation instances of the second image with a segmentation instance information and a set of probability information of a pixel of the first image, respectively, on the basis of the displacement vectors. In this way, pixels of the second image yield not only segmentation instance information and a set of probability information from the second image, but also segmentation instance information and a sentence associated with probability information from the first image.
Die Objektkennungszuordnungsstufe dient nun dazu, Segmentierungsinstanzen des ersten Bildes und Segmentierungsinstanzen des zweiten Bildes, welche dasselbe Objekt abbilden, miteinander zu verknüpfen, umso das jeweilige Objekt zu verfolgen. Hierzu werden zusammengehörige Segmentierungsinstanzen des ersten Bildes und des zweiten Bildes einer gemeinsamen Objektkennung zugeordnet, welche das jeweilige Objekt über die Videosequenz hinweg eindeutig kennzeichnet.The object identifier assignment stage now serves to link segmentation instances of the first image and segmentation instances of the second image, which map the same object, so as to track the respective object. For this purpose, associated segmentation instances of the first image and of the second image are assigned to a common object identifier which uniquely identifies the respective object across the video sequence.
Folgendes Beispiel verdeutlicht das Prinzip der Zuordnung: Es sei angenommen, dass die Segmentierungsstufe in dem ersten Bild zwei Segmentierungsinstanzen gebildet und diesen Segmentierungsinstanzen die Kennung „1, 1“ und die Kennung „1, 2“ zugewiesenen hat, wobei die erste Zahl die Zugehörigkeit zum ersten Bild ausdrückt und die zweite Zahl einen im ersten Bild eindeutigen Segmentierungsinstanzindex darstellt. Weiterhin sei angenommen, dass die Segmentierungsstufe in dem zweiten Bild drei Segmentierungsinstanzen gebildet und diesen Segmentierungsinstanzen die Kennung „2, 1“, die Kennung „2, 2“ und die Kennung „2, 3“ zugeordnet hat, wobei hier die erste Zahl die Zugehörigkeit zum zweiten Bild ausdrückt und die zweite Zahl einen im zweiten Bild eindeutigen Segmentierungsinstanzindex darstellt.The following example clarifies the principle of the assignment: Let it be assumed that the segmentation stage has formed two segmentation instances in the first image and assigned the identifier "1, 1" and the identifier "1, 2" to these segmentation instances, the first number belonging to the segmentation instances first image and the second number represents a unique segmentation instance index in the first image. Furthermore, it is assumed that the segmentation stage has formed three segmentation instances in the second image and assigned to these segmentation instances the identifier "2, 1", the identifier "2, 2" and the identifier "2, 3", in which case the first number is the affiliation to the second image and the second number represents a unique segmentation instance index in the second image.
Die Pixel der Segmentierungsinstanzen mit den Kennungen „1, 1“ und „1, 2“ des ersten Bildes können nun in Abhängigkeit ihrer Segmentierungsinstanzinformation aus dem ersten Bild einer ersten Objektkennung „1“ oder einer zweiten Objektkennung „2“ zugeordnet werden. Im Beispiel sei die Segmentierungsinstanz mit der Kennung „1, 1“ der Objektkennung „1“ und die Segmentierungsinstanz mit der Kennung „1, 2“ der Objektkennung „2“ zugeordnet.The pixels of the segmentation instances with the identifiers "1, 1" and "1, 2" of the first image can now be assigned as a function of their segmentation instance information from the first image to a first object identifier "1" or to a second object identifier "2". In the example, the segmentation instance with the identifier "1, 1" is assigned to the object identifier "1" and the segmentation entity with the identifier "1, 2" is assigned to the object identifier "2".
Die Zuordnung der Segmentierungsinstanz des zweiten Bildes mit der Kennung „2, 1“ beruht nun auf einer Betrachtung der dieser Segmentierungsinstanz zugeordneten Pixel. Sofern nun die Segmentierungsinstanz mit der Kennung „2, 1“ eines der Objekte abbildet, welche im ersten Bild abgebildet sind, sind zumindest einigen der Pixel der Segmentierungsinstanz mit der Kennung „2, 1“ Segmentierungsinstanzinformation des ersten Bildes zugeordnet. Aus den Segmentierungsinstanzinformationen des ersten Bildes kann dann eine Zuordnung Pixel der Segmentierungsinstanz mit der Kennung „2, 1“ zu der Objektkennung „1“ oder der Objektkennung „2“ erfolgen. Wenn beispielsweise die zugeordneten Segmentierungsinstanzinformationen des ersten Bildes besagen, dass deren Pixel der Segmentierungsinstanz mit der Kennung „1, 2“ zugehörig sind, dann kann die Segmentierungsinstanz mit der Kennung „2, 1“ ebenfalls der Objektkennung „2“ zugeordnet werden. Auf diese Weise kann festgestellt werden, dass die Segmentierungsinstanz mit der Kennung „2, 1“ dasselbe Objekt abbildet wie die Segmentierungsinstanz mit der Kennung „1, 2“.The assignment of the segmentation instance of the second image with the identifier "2, 1" is now based on a consideration of the pixels assigned to this segmentation entity. If the segmentation entity with the identifier "2, 1" now images one of the objects that are depicted in the first image, at least some of the pixels of the segmentation entity with the identifier "2, 1" are assigned segmentation instance information of the first image. From the segmentation instance information of the first image, an assignment of pixels of the segmentation instance with the identifier "2, 1" to the object identifier "1" or the object identifier "2" can then take place. For example, if the associated segmentation instance information of the first image indicates that its pixels belong to the segmentation instance with the identifier "1, 2", then the segmentation entity with the identifier "2, 1" can also be assigned to the object identifier "2". In this way, it can be stated that the segmentation entity with the identifier "2, 1" depicts the same object as the segmentation entity with the identifier "1, 2".
Im Idealfall gehören alle Segmentierungsinstanzinformationen des ersten Bildes, welche den Pixeln einer der Segmentierungsinstanzen des zweiten Bildes zugeordnet sind, zur selben Segmentierungsinstanz des ersten Bildes. In diesem Fall ist die Zuordnung der jeweiligen Segmentierungsinstanz des zweiten Bildes zu einer der Objektkennungen besonders zuverlässig. Sollten jedoch die Segmentierungsinstanzinformationen des ersten Bildes, welche den Pixeln einer der Segmentierungsinstanzen des zweiten Bildes zugeordnet sind, unterschiedlichen Segmentierungsinstanzen des ersten Bildes angehören, dann kann die Zuordnung zu einer der Objektkennungen auf der Basis einer Mehrheit der Segmentierungsinstanzinformation des ersten Bildes erfolgen. Dann erfolgt die Zuordnung zu einer der Objektkennungen allerdings unter einer gewissen Unsicherheit.Ideally, all segmentation instance information of the first image associated with the pixels of one of the segmentation instances of the second image belongs to the same segmentation instance of the first image. In this case, the assignment of the respective segmentation instance of the second image to one of the object identifiers is particularly reliable. However, if the segmentation instance information of the first image associated with the pixels of one of the segmentation instances of the second image belong to different segmentation instances of the first image, then the association with one of the object identifiers may be based on a majority of the segmentation instance information of the first image. Then, however, the assignment to one of the object identifiers takes place under a certain uncertainty.
Weiterhin sei angenommen, dass den Pixeln der Segmentierungsinstanz mit der Kennung „2, 2“ keine Segmentierungsinstanzinformation des ersten Bildes zugeordnet sind. In diesem Fall kann davon ausgegangen werden, dass die Segmentierungsinstanz mit der Kennung „2, 2“ keines der im ersten Bild abgebildeten Objekte abbildet, wobei dann eine neue Objektkennung „3“ vergeben werden kann.Furthermore, it is assumed that the pixels of the segmentation instance with the identifier "2, 2" are not assigned any segmentation instance information of the first image. In this case, it can be assumed that the segmentation entity with identifier "2, 2" does not map any of the objects depicted in the first image, in which case a new object identifier "3" can be assigned.
Nun können die Pixels der Segmentierungsinstanz mit der Kennung „2, 3“ auf das Vorhandensein von zugeordneten Segmentierungsinstanzinformationen aus dem ersten Bild untersucht werden. Wenn diese vorhanden sind und der Segmentierungsinstanz mit der Kennung „1, 1“ zugehörig sind, dann kann die Segmentierungsinstanz mit der Kennung „2, 3“ der Objektkennung „1“ zugeordnet werden.Now, the pixels of the segmentation instance with the identifier "2, 3" can be examined for the presence of associated segmentation instance information from the first image. If these are present and belong to the segmentation instance with the identifier "1, 1", then the segmentation entity with identifier "2, 3" can be assigned to the object identifier "1".
Unter einem fusionierten Satz von Wahrscheinlichkeitsinformationen versteht man einen derartigen Satz von Wahrscheinlichkeitsinformationen, der rechnerisch aus wenigstens zwei ursprünglichen Sätzen von Wahrscheinlichkeitsinformationen ermittelt ist, und somit Informationen aus wenigstens zwei ursprünglichen Sätzen von Wahrscheinlichkeitsinformationen enthält. Die Fusionierungsstufe ist nun so ausgebildet, dass ein einem Pixel zugeordneter Satz von Wahrscheinlichkeitsinformationen aus dem ersten Bild und einen demselben Pixel zugeordneten Satz von Wahrscheinlichkeitsinformationen aus dem zweiten Bild fusioniert werden, so dass Informationen aus dem ersten Bild und Informationen aus dem zweiten Bild in einem fusionierten Satz von Wahrscheinlichkeitsinformationen zusammengefasst werden. Das fusionieren kann beispielsweise so erfolgen, dass korrespondierende Wahrscheinlichkeitsangaben der beiden Sätze von Wahrscheinlichkeitsinformationen gemittelt werden.A fused set of likelihood information is understood to mean such a set of likelihood information computationally determined from at least two original sets of likelihood information and thus containing information from at least two original sets of likelihood information. The fusing stage is now arranged so that a set of probability information associated with one pixel from the first image and a set of likelihood information associated with the same pixel from the second image are fused such that information from the first image and information from the second image into a fused one Set of probability information summarized become. For example, the merging can take place in such a way that corresponding probability information of the two sets of probability information is averaged.
Die Objektkategorieermittlungsstufe ist nun so ausgebildet, dass die jeweilige Objektkategorie der Segmentierungsinstanzen, welche einer der Objektkennungen zugeordnet sind, auf der Basis der fusionierten Sätze von Wahrscheinlichkeitsinformationen erfolgt. Hierdurch werden bei der Ermittlung der jeweiligen Objektkategorie Informationen aus dem ersten Bild und Informationen aus dem zweiten Bild berücksichtigt. Betrachtet werden können hierbei alle Pixel, welche über die Segmentierungsinstanzen einer der Objektkennungen zugeordnet sind. Im Idealfall legen alle berücksichtigten fusionierten Sätze von Wahrscheinlichkeitsinformationen einer der Objektkennungen die Zugehörigkeit der jeweiligen Objektkennung zu ein und derselben Objektkategorie nahe. Sollte dies nicht der Fall sein, so kann die Ermittlung der jeweiligen Objektkategorie beispielsweise durch Durchschnittsbildungen bei den Wahrscheinlichkeitsangaben der berücksichtigten Sätze von Wahrscheinlichkeitsinformationen erfolgen. Dabei ist allerdings zu berücksichtigen, dass dann die Ermittlung der jeweiligen Objektkategorie einer gewissen Unsicherheit unterliegt.The object category detection stage is now designed so that the respective object category of the segmentation instances associated with one of the object identifiers is based on the merged sets of probability information. As a result, information from the first image and information from the second image are taken into account when determining the respective object category. All pixels that are assigned to one of the object identifiers via the segmentation instances can be considered here. Ideally, all considered fused sets of probability information of one of the object identifiers would approximate the affiliation of the respective object identifier to the same object category. If this is not the case, then the respective object category can be determined, for example, by averaging the probability information of the considered sets of probability information. It should be noted, however, that then the determination of the respective object category is subject to a certain uncertainty.
Die erfindungsgemäße Vorrichtung weist gegenüber den bekannten Vorrichtungen eine erhöhte Erkennungssicherheit und eine erhöhte Verfolgungssicherheit auf. Das bedeutet, dass die Wahrscheinlichkeit der Zuordnung der korrekten Objektkategorie sowie die Wahrscheinlichkeit der korrekten Ermittlung der Positionsveränderungen des jeweiligen Objektes im Zeitverlauf in der jeweiligen Szene erhöht sind. Letzteres gilt insbesondere, dann, wenn im Zeitverlauf neue Objekte in die Szene eintreten austreten und/oder ein in der Szene eine große Zahl von Objekten auftritt.The device according to the invention has, compared to the known devices, increased detection reliability and increased tracking security. This means that the probability of assigning the correct object category as well as the probability of correct determination of the positional changes of the respective object over time in the respective scene are increased. The latter is particularly true when, over time, new objects enter the scene and / or a large number of objects appear in the scene.
Die Erhöhung der Erkennungssicherheit sowie der Verfolgungssicherheit im Vergleich zu Vorrichtungen mit Bounding-Box-Ansätzen ergibt sich daraus, dass die jeweilige Form der Segmentierungsinstanzen als Ergebnis der Segmentierung im Gegensatz zu den Bounding-Boxen auf den Einzelfall bezogen und nicht auf ein Begrenzungsrechteck beschränkt ist, so dass die Segmentierungsinstanzen im allgemeinen keine dem Hintergrund zugehörige oder einer fremden Segmentierungsinstanz zugehörige Pixel enthalten.The increase of the recognition security as well as the tracking security in comparison to devices with bounding box approaches results from the fact that the respective form of the segmentation instances as opposed to the bounding boxes is based on the individual case and not limited to a bounding rectangle, as a result of the segmentation. such that the segmentation instances generally do not contain pixels associated with the background or associated with a foreign segmentation instance.
Die Verbesserung der der Verfolgungssicherheit im Vergleich zu bekannten Vorrichtungen mit Segmentierungs-Ansätzen liegt daran, dass die Zuordnung zu einer Objektkennung der Pixel der Segmentierungsinstanz eines Bildes, dem bereits ein oder mehrere Bilder vorangegangen sind, nicht nur auf den Segmentierungsinstanzinformationen dieses Bildes, sondern auch auf den Segmentierungsinstanzinformationen des oder der vorangegangenen Bilder beruhen.The improvement in tracking security compared to known devices with segmentation approaches is that the assignment to an object identifier of the pixels of the segmentation instance of an image, which has already been preceded by one or more images, not only on the segmentation instance information of this image, but also on based on the segmentation instance information of the previous image (s).
Weiterhin ergibt sich die Verbesserung der Erkennungssicherheit im Vergleich zu bekannten Vorrichtungen mit Segmentierungs-Ansätzen daraus, dass die Ermittlung der Objektkategorie der Segmentierungsinstanzeneines Bildes, dem bereits ein oder mehrere Bilder vorangegangen sind, nicht nur auf den Sätzen von Wahrscheinlichkeitsinformationen dieses Bildes, sondern auch auf den Segmentierungsinstanzinformationen des oder der vorangegangenen Bilder beruhen, welche in den fusionierten Sätzen von Wahrscheinlichkeitsinformationen implizit enthalten sind.Furthermore, the improvement of the recognition security compared to known devices with segmentation approaches results from the fact that the determination of the object category of the segmentation instances of an image, which has already been preceded by one or more images, not only on the sets of probability information of this image, but also on the Segmentation instance information of the previous image (s) implicit in the merged sets of probability information.
Die Erfindung kann insbesondere im Bereich autonomer Fahrzeuge angewendet werden. Hier kann die Erfindung insbesondere dazu eingesetzt werden, andere Verkehrsteilnehmer sowie Verkehrshindernisse zu erkennen und zu verfolgen.The invention can be used in particular in the field of autonomous vehicles. Here, the invention can be used in particular to recognize and track other road users as well as traffic obstructions.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist die Segmentierungsstufe so ausgebildet, dass bei der Segmentierung eines der Bilder die Vielzahl von Pixeln der Pixel des jeweiligen Bildes alle Pixel der Pixel des jeweiligen Bildes umfasst, welche nicht einer Hintergrundinstanz zugehörig sind. Unter einer Hintergrundinstanz wird dabei eine bei der Segmentierung eines der Bilder gebildete Instanz verstanden, deren Pixel einen Hintergrund des jeweiligen Bildes darstellen. Wenn nun für sämtliche Pixel, die nicht der Hintergrundinstanz angehören, jeweils eine Segmentierungsinstanzinformation und jeweils ein Satz von Wahrscheinlichkeitsinformationen ermittelt wird, so kann die Verfolgungssicherheit und die der Vorrichtung weiter verbessert werden.According to an advantageous development of the invention, the segmentation stage is designed such that, in the segmentation of one of the images, the plurality of pixels of the pixels of the respective image comprise all pixels of the pixels of the respective image which are not associated with a background entity. A background instance is understood here to mean an instance formed during the segmentation of one of the images whose pixels represent a background of the respective image. If a segmentation instance information and a set of probability information are respectively determined for all pixels that do not belong to the background entity, then the tracking security and that of the device can be further improved.
Gemäß einer bevorzugten Weiterbildung der Erfindung ist die Korrespondenzermittlungsstufe zur Ermittlung der Korrespondenzpaare und der Verschiebungsvektoren auf der Basis eines Optischen-Fluss-Verfahrens oder eines Semi-Dense-Matching-Verfahrens ausgebildet. Die Korrespondenzermittlungsstufe kann dabei zur Durchführung eines in der Referenz [7] beschriebenen Optischen-Fluss-Verfahrens oder zur Durchführung eines in der Referenz [8] beschriebenen Semi-Dense-Matching-Verfahrens ausgebildet sein.According to a preferred development of the invention, the correspondence determination stage is designed to determine the correspondence pairs and the displacement vectors on the basis of an optical flow method or a semi-sense matching method. The correspondence determination stage can be designed to carry out an optical flow method described in reference [7] or to carry out a semi-sense matching method described in reference [8].
Gemäß einer zweckmäßigen Weiterbildung der Erfindung ist die Korrespondenzermittlungsstufe so ausgebildet, dass zumindest für einige der Pixel des ersten Bildes, welche keinem der Korrespondenzpaare angehören, jeweils ein interpolierter Verschiebungsvektor auf der Basis von Interpolationen der Verschiebungsvektoren der Korrespondenzpaare, welche derselben Segmentierungsinstanz wie das jeweilige Pixel des ersten Bildes angehören, bestimmt wird. Auf diese Weise kann in dem zweiten Bild die Anzahl der Pixel, denen jeweils eine Segmentierungsinstanzinformation und jeweils ein Satz von Wahrscheinlichkeitsinformationen zugeordnet ist, erhöht werden, so dass die Verfolgungssicherheit und die der Vorrichtung weiter verbessert werden kann.According to an expedient development of the invention, the correspondence determination stage is designed such that at least for some of the pixels of the first image that do not belong to any of the correspondence pairs, an interpolated displacement vector based on interpolations of the displacement vectors of the correspondence pairs, of the same segmentation entity belong to the respective pixel of the first image is determined. In this way, in the second image, the number of pixels each having a segmentation instance information and a set of likelihood information respectively can be increased, so that the tracking certainty and that of the apparatus can be further improved.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Fusionierungsstufe so ausgebildet, dass das Fusionieren der jeweiligen Sätze von Wahrscheinlichkeitsinformationen durch Bildung gewichteter Summen erfolgt.According to an advantageous embodiment of the invention, the fusing stage is designed such that the fusing of the respective sets of likelihood information takes place by forming weighted sums.
Das Fusionieren der Sätze von Wahrscheinlichkeiten, welche einem der Punkte eines Bildes zugeordnet sind, soll am folgenden Beispiel erläutert werden: Wenn
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist die Objektkennungszuordnungsstufe so ausgebildet, dass das Zuordnen der Pixel einer der Segmentierungsinstanzen des zweiten Bildes zusätzlich auf der Basis des dem jeweiligen Pixel des zweiten Bildes zugeordneten Satzes von Wahrscheinlichkeitsinformationen aus dem ersten Bild und des Satzes von Wahrscheinlichkeitsinformationen des jeweiligen Pixels des zweiten Bildes erfolgt.According to an advantageous development of the invention, the object identifier assignment stage is arranged such that the assignment of the pixels of one of the segmentation instances of the second image additionally on the basis of the respective pixel of the second image associated set of probability information from the first image and the set of probability information of the respective pixel of the second picture.
Dies ist insbesondere dann sinnvoll, wenn die Zuordnung der Pixel einer der Segmentierungsinstanzen zu einer der Objektkennungen auf der Basis der Segmentierungsinstanzinformationen des ersten Bildes eine Unsicherheit aufweist. In diesem Fall ist es beispielsweise möglich, die Sätze von Wahrscheinlichkeiten der zuzuordnenden Segmentierungsinstanz mit den Sätzen von Wahrscheinlichkeiten der bisher eingeführten Objektkennungen zu vergleichen. Wenn nun die Sätze von Wahrscheinlichkeiten der zuzuordnenden Segmentierungsinstanz mit den Sätzen von Wahrscheinlichkeiten einer der bisher eingeführten Objektkennungen korrespondieren, dann kann die fragliche Segmentierungsinstanz dieser Objektkennung zugeordnet werden. Falls jedoch keine Korrespondenz zwischen den Sätzen von Wahrscheinlichkeiten der zuzuordnenden Segmentierungsinstanz und den Sätzen von Wahrscheinlichkeiten der bisher eingeführten Objektkennungen vorliegt, dann kann eine neue Objektkennung eingeführt werden. Auf diese Weise kann die Erkennungssicherheit der Vorrichtung weiter verbessert werden.This is particularly useful if the assignment of the pixels of one of the segmentation instances to one of the object identifiers has an uncertainty on the basis of the segmentation instance information of the first image. In this case, for example, it is possible to compare the sets of probabilities of the segmentation instance to be assigned with the sets of probabilities of the previously introduced object identifiers. If now the sets of probabilities of the segmentation instance to be assigned correspond to the sets of probabilities of one of the previously introduced object identifiers, then the segmentation instance in question can be assigned to this object identifier. However, if there is no correspondence between the sets of probabilities of the segmentation instance to be assigned and the sets of probabilities of the previously introduced object identifiers, then a new object identifier may be introduced. In this way, the detection reliability of the device can be further improved.
Gemäß einer bevorzugten Weiterbildung der Erfindung ist die Segmentierungsstufe zur Segmentierung eines dritten Bildes der Bilder, welches dem zweiten Bild der Bilder zeitlich nachfolgt, ausgebildet;
wobei die Korrespondenzermittlungsstufe zur Ermittlung mehrere weiterer Korrespondenzpaare ausgebildet ist, welche jeweils ein Pixel der Pixel einer der Segmentierungsinstanzen des zweiten Bildes und ein dazu korrespondierendes Pixel der Pixel des dritten Bildes umfassen, wobei aus den weiteren Korrespondenzpaaren jeweils ein weiterer Verschiebungsvektor zwischen dem jeweiligen Pixel des zweiten Bildes und dem jeweiligen korrespondierenden Pixel des dritten Bildes ermittelt ist;
wobei die Zuordnungsstufe zum Zuordnen der jeweils einem Pixel der Pixel des zweiten Bildes zugeordneten Segmentierungsinstanzinformationen aus dem ersten Bild und aus dem zweiten Bild auf der Basis der weiteren Verschiebungsvektoren zu jeweils einem korrespondierenden Pixel der Pixel des dritten Bildes ausgebildet ist, so dass dem jeweiligen Pixel des dritten Bildes eine Segmentierungsinstanzinformation der Segmentierungsinstanzinformationen aus dem ersten Bild und eine Segmentierungsinstanzinformation der Segmentierungsinstanzinformationen aus dem zweiten Bild zugeordnet sind;
wobei die Zuordnungsstufe zum Zuordnen der einem Pixel der Pixel des zweiten Bildes zugeordneten Sätze von Wahrscheinlichkeitsinformationen aus dem ersten Bild und aus dem zweiten Bild auf der Basis der weiteren Verschiebungsvektoren zu jeweils einem korrespondierenden Pixel der Pixel des dritten Bildes ausgebildet ist, so dass dem jeweiligen Pixel des dritten Bildes ein Satz der Sätze von Wahrscheinlichkeitsinformationen aus dem ersten Bild und ein Satz der Sätze von Wahrscheinlichkeitsinformationen aus dem zweiten Bild zugeordnet sind;
wobei die Objektkennungszuordnungsstufe zum Zuordnen der Pixel einer der Segmentierungsinstanzen des dritten Bildes zu einer der Objektkennungen ausgebildet ist, sofern die jeweilige Segmentierungsinstanz des dritten Bildes dasselbe Objekt abbildet, wie die der jeweiligen Objektkennung zugeordnete Segmentierungsinstanz des ersten Bildes und/oder die der jeweiligen Objektkennung zugeordnete Segmentierungsinstanz des zweiten Bildes, wobei das Zuordnen der Pixel der jeweiligen Segmentierungsinstanz des dritten Bildes auf der Basis der Segmentierungsinstanzinformation des jeweiligen Pixels und der dem jeweiligen Pixel zugeordneten Segmentierungsinstanzinformationen aus dem ersten Bild und/oder aus dem zweiten Bild erfolgt;
wobei die Fusionierungsstufe zum Fusionieren des einem Pixel der Pixel des dritten Bildes zugeordneten Satzes von Wahrscheinlichkeitsinformationen aus dem ersten Bild, des dem jeweiligen Pixel des dritten Bildes zugeordneten Satzes von Wahrscheinlichkeitsinformationen aus dem zweiten Bild und des Satzes von Wahrscheinlichkeitsinformationen des jeweiligen Pixels des dritten Bild ausgebildet ist, um so für das jeweilige Pixel des dritten Bildes einen fusionierten Satz von Wahrscheinlichkeitsinformationen zu bestimmen; und
wobei die Objektkategorieermittlungsstufe zum Ermitteln der jeweiligen Objektkategorie der Segmentierungsinstanzen, welche einer der Objektkennungen zugeordnet sind, auf der Basis der fusionierten Sätze von Wahrscheinlichkeitsinformationen der der jeweiligen Objektkennung zugeordneten Pixel des dritten Bildes ausgebildet ist.According to a preferred development of the invention, the segmentation stage is designed for segmenting a third image of the images, which follows in time the second image of the images;
wherein the correspondence determination stage is adapted to determine a plurality of further correspondence pairs, each comprising a pixel of the pixels of one of the segmentation instances of the second image and a corresponding pixel of the pixels of the third image, wherein from the further correspondence pairs in each case a further displacement vector between the respective pixel of the second Image and the respective corresponding pixel of the third image is determined;
wherein the association stage is adapted to associate the segmentation instance information associated with each one pixel of the pixels of the second image from the first image and the second image based on the further displacement vectors to a respective one of the pixels of the third image, so that the respective pixel of the third image a segmentation instance information of the segmentation instance information from the first image and a segmentation instance information of the segmentation instance information from the second image are assigned to the third image;
wherein the association stage is adapted to associate the sets of probability information associated with one pixel of the pixels of the second image from the first image and the second image based on the further displacement vectors to a respective one of the pixels of the third image, such that the respective pixel the third image is assigned a set of the sets of probability information from the first image and a set of the sets of probability information from the second image;
wherein the object identifier assignment stage is adapted to associate the pixels of one of the segmentation instances of the third image with one of the object identifiers if the respective segmentation entity of the third image maps the same object, such as the segmentation instance of the first image assigned to the respective object identifier and / or the segmentation entity of the second image associated with the respective object identifier, wherein the assignment of the pixels of the respective segmentation entity of the third image on the basis of the segmentation instance information of the respective pixel and the segmentation instance information associated with the respective pixel from the first image and / or from the second image takes place;
wherein the fusing stage is adapted to fusing the set of probability information from the first image associated with one pixel of the pixels of the third image, the set of probability information from the second image associated with the respective pixel of the third image, and the set of likelihood information from the respective pixel of the third image so as to determine a fused set of likelihood information for the respective pixel of the third image; and
wherein the object category determination stage is adapted to determine the respective object category of the segmentation instances associated with one of the object identifiers on the basis of the fused sets of probability information of the pixels of the third image associated with the respective object identifier.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung ist die Objektkennungszuordnungsstufe so ausgebildet, dass das Zuordnen der Pixel einer der Segmentierungsinstanzen des dritten Bildes zusätzlich auf der Basis der dem jeweiligen Pixel des dritten Bildes zugeordneten Sätze von Wahrscheinlichkeitsinformationen aus dem ersten und dem zweiten Bild) und des Satzes von Wahrscheinlichkeitsinformationen des jeweiligen Pixels des dritten Bildes erfolgt.According to an expedient development of the invention, the object identifier assignment stage is arranged such that the assignment of the pixels of one of the segmentation instances of the third image additionally on the basis of the respective pixel of the third image associated sets of probability information from the first and the second image) and the set of Probability information of the respective pixel of the third image is done.
Vorrichtung nach einem der Ansprüche 7 oder 8, wobei die Korrespondenzermittlungsstufe so ausgebildet ist, dass zumindest für einige der Pixel des zweiten Bildes, welche keinem der weiteren Korrespondenzpaare angehören, jeweils ein weiterer interpolierter Verschiebungsvektor auf der Basis von Interpolationen der weiteren Verschiebungsvektoren der Korrespondenzpaare, welche derselben Segmentierungsinstanz wie das jeweilige Pixel des zweiten Bildes angehören, bestimmt werden.Apparatus according to any one of claims 7 or 8, wherein the correspondence detection stage is arranged such that, at least for some of the pixels of the second image which do not belong to any of the further correspondence pairs, a further interpolated displacement vector based on interpolations of the further displacement vectors of the correspondence pairs the same segmentation instance as the respective pixel of the second image.
In diesen Ausführungsbeispielen beruht die Verfolgung und die Erkennung eines Objektes nicht nur auf Informationen aus dem ersten und dem zweiten Bild, sondern auch auf Informationen aus dem dritten Bild. Es versteht sich von selbst, dass in analoger Weise auch Informationen aus einem vierten Bild, aus einem fünften Bild usw. verarbeitet werden könnten. Auf diese Weise kann die Verfolgungssicherheit und die Erkennungssicherheit der Vorrichtung weiter verbessert werden.In these embodiments, the tracking and recognition of an object is based not only on information from the first and second images, but also on information from the third image. It goes without saying that information from a fourth image, from a fifth image, etc., could also be processed in an analogous manner. In this way, the tracking security and the detection reliability of the device can be further improved.
In einem weiteren Aspekt betrifft die Erfindung ein System zum Erkennen und Verfolgen von Objekten, wobei das System umfasst:
- eine Videokamera zur Erzeugung einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln bestehenden Bildern; und
- eine Vorrichtung zum Erkennen und Verfolgen von Objekten in der Videosequenz nach einem der vorstehenden Ansprüche.
- a video camera for generating a video sequence of temporally successive pixel-based images; and
- a device for detecting and tracking objects in the video sequence according to any one of the preceding claims.
In einem weiteren Aspekt betrifft Erfindung ein Verfahren zum Erkennen und Verfolgen von Objekten in einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln bestehenden Bildern, wobei das Verfahren folgende Schritte umfasst:
- Segmentierung wenigstens eines ersten Bildes der Bilder und eines zeitlich nachfolgenden zweiten Bildes der Bilder, wobei mehrere vordefinierte semantische Objektkategorien vorgesehen sind und wobei bei der Segmentierung eines Bildes der Bilder
- für in dem jeweiligen Bild abgebildete Objekte jeweils eine für das jeweilige Bild gültige Segmentierungsinstanz gebildet wird, welche jeweils eines der Objekte abbildet, und
- für mehrere Pixel der Pixel des jeweiligen Bildes jeweils eine Segmentierungsinstanzinformation und jeweils ein Satz von Wahrscheinlichkeitsinformationen ermittelt wird, wobei die jeweilige Segmentierungsinstanzinformation angibt, zu welcher der Segmentierungsinstanzen das jeweilige Pixel zugehörig ist, und wobei jede der Wahrscheinlichkeitsinformationen des jeweilige Satzes von Wahrscheinlichkeitsinformationen eine Wahrscheinlichkeitsangabe der Zugehörigkeit des jeweiligen Pixels zu einer der Objektkategorien angibt;
- Segmentation of at least a first image of the images and a temporally subsequent second image of the images, wherein a plurality of predefined semantic object categories are provided and wherein in the segmentation of an image of the images
- for each of the objects imaged in the respective image, a respective segmentation instance valid for the respective image is formed, which respectively represents one of the objects, and
- for each of a plurality of pixels of the pixels of the respective image, a segmentation instance information and a set of probability information are respectively determined, the respective segmentation instance information indicating to which of the segmentation entities the respective pixel belongs, and wherein each of the probability information of the respective set of probability information is a probability indication of the membership indicates the respective pixel to one of the object categories;
Ermittlung von Korrespondenzpaaren, welche jeweils ein Pixel der Pixel einer der Segmentierungsinstanzen des ersten Bildes und ein dazu korrespondierendes Pixel der Pixel des zweiten Bildes umfassen, wobei aus den Korrespondenzpaaren jeweils ein Verschiebungsvektor zwischen dem jeweiligen Pixel des ersten Bildes und dem jeweiligen Pixel des zweiten Bildes ermittelt wird;Determining correspondence pairs, each comprising a pixel of the pixels of one of the segmentation instances of the first image and a corresponding pixel of the pixels of the second image, wherein each of the correspondence pairs determines a displacement vector between the respective pixel of the first image and the respective pixel of the second image becomes;
Zuordnen der Segmentierungsinstanzinformation und des Satzes von Wahrscheinlichkeitsinformationen wenigstens eines Pixels der Pixel des ersten Bildes auf der Basis der Verschiebungsvektoren zu jeweils einem Pixel der Pixel des zweiten Bildes, so dass dem jeweiligen Pixel des zweiten Bildes eine Segmentierungsinstanzinformation der Segmentierungsinstanzinformationen aus dem ersten Bild und ein Satz der Sätze von Wahrscheinlichkeitsinformationen aus dem ersten Bild zugeordnet sind; undAssigning the segmentation instance information and the set of probability information of at least one pixel of the pixels of the first image on the basis of the displacement vectors to one pixel of the pixels of the second image, so that the segmentation instance information of the segmentation instance information is given to the respective pixel of the second image associated with the first image and a set of the sets of probability information from the first image; and
Zuordnen der Pixel einer der Segmentierungsinstanzen des ersten Bildes und der Pixel einer der Segmentierungsinstanzen des zweiten Bildes zu einer gemeinsamen Objektkennung, sofern die jeweilige Segmentierungsinstanz des ersten Bildes und die Segmentierungsinstanz des zweiten Bildes dasselbe Objekt abbilden, wobei die Objektkennung das jeweilige Objekt über die Videosequenz hinweg eindeutig kennzeichnet, wobei das Zuordnen der Pixel der Segmentierungsinstanz des ersten Bildes auf der Basis der Segmentierungsinstanzinformation des jeweiligen Pixels erfolgt, und wobei das Zuordnen der Pixel der Segmentierungsinstanz des zweiten Bildes auf der Basis der Segmentierungsinstanzinformation des jeweiligen Pixels und der dem jeweiligen Pixel zugeordneten Segmentierungsinstanzinformationen aus dem ersten Bild erfolgt;Assigning the pixels of one of the segmentation instances of the first image and the pixels of one of the segmentation instances of the second image to a common object identifier if the respective segmentation instance of the first image and the segmentation entity of the second image image the same object, the object identifier passing the respective object across the video sequence uniquely identifying wherein the pixels of the segmentation instance of the first image are assigned based on the segmentation instance information of the respective pixel, and assigning the pixels of the segmentation instance of the second image based on the segmentation instance information of the respective pixel and the segmentation instance information associated with the respective pixel the first picture takes place;
Fusionieren des jeweils einem Pixel der Pixel des zweiten Bildes zugeordneten Satzes von Wahrscheinlichkeitsinformationen aus dem ersten Bild und des Satzes von Wahrscheinlichkeitsinformationen des jeweiligen Pixels des zweiten Bildes, um so für ein oder mehre Pixel des zweiten Bildes jeweils einen fusionierten Satz von Wahrscheinlichkeitsinformationen zu bestimmen; undFusing the set of probability information from the first image associated with each one pixel of the pixels of the second image and the set of probability information of the respective pixel of the second image so as to respectively determine a fused set of probability information for one or more pixels of the second image; and
Ermitteln der jeweiligen Objektkategorie der Segmentierungsinstanzen, welche einer der Objektkennungen zugeordnet sind, auf der Basis der fusionierten Sätze von Wahrscheinlichkeitsinformationen der der jeweiligen Objektkennung zugeordneten Pixel des zweiten Bildes.Determining the respective object category of the segmentation instances associated with one of the object identifiers, based on the merged sets of probability information, of the pixels of the second image associated with the respective object identifier.
In einem weiteren Aspekt betrifft Erfindung ein Computerprogramm zur Durchführung eines erfindungsgemäßen Verfahrens, wenn es auf einem Computer oder Prozessor ausgeführt wird.In another aspect, the invention relates to a computer program for performing a method of the invention when executed on a computer or processor.
Im Folgenden werden die vorliegende Erfindung und deren Vorteile anhand von Figuren näher beschrieben.
-
1 zeigt ein erstes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung in einer schematischen Darstellung; -
2 zeigt ein zweites Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung in einer schematischen Darstellung; -
3 zeigt ein drittes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung in einer schematischen Darstellung; -
4 zeigt ein viertes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung in einer schematischen Darstellung; und -
5 illustriert die Funktionsweise der Zuordnungsstufe der erfindungsgemäßen Vorrichtung.
-
1 shows a first embodiment of a device according to the invention in a schematic representation; -
2 shows a second embodiment of a device according to the invention in a schematic representation; -
3 shows a third embodiment of a device according to the invention in a schematic representation; -
4 shows a fourth embodiment of a device according to the invention in a schematic representation; and -
5 illustrates the operation of the assignment stage of the device according to the invention.
Gleiche oder gleichartige Elemente oder Elemente mit gleicher oder äquivalenter Funktion sind im Folgenden mit gleichen oder gleichartigen Bezugszeichen versehen.Identical or similar elements or elements with the same or equivalent function are provided below with the same or similar reference numerals.
In der folgenden Beschreibung werden Ausführungsbeispiele mit einer Vielzahl von Merkmalen der vorliegenden Erfindung näher beschrieben, um ein besseres Verständnis der Erfindung zu vermitteln. Es ist jedoch festzuhalten, dass die vorliegende Erfindung auch unter Auslassung einzelner der beschriebenen Merkmale umgesetzt werden kann. Es sei auch darauf hingewiesen, dass die in verschiedenen Ausführungsbeispielen gezeigten Merkmale auch in anderer Weise kombinierbar sind, sofern dies nicht ausdrücklich ausgeschlossen ist oder zu Widersprüchen führen würde.In the following description, embodiments having a plurality of features of the present invention will be described in detail to provide a better understanding of the invention. It should be noted, however, that the present invention may be practiced by omitting some of the features described. It should also be noted that the features shown in various embodiments can also be combined in other ways, unless this is expressly excluded or would lead to contradictions.
Die Vorrichtung
eine Segmentierungsstufe 2 zur Segmentierung wenigstens eines ersten BildesBI1 der BilderBI und eines zeitlich nachfolgenden zweiten BildesBI2 der BilderBI ,wobei die Segmentierungsstufe 2 über mehrere vordefinierte semantische ObjektkategorienOKT verfügt und wobei dieSegmentierungsstufe 2 so ausgebildet ist, dass bei der Segmentierung eines BildesBI1 ,BI2 der Bilder BI- für in dem jeweiligen Bild
BI1 ,BI2 abgebildete Objekte jeweils eine für das jeweilige BildBI1 ,BI2 gültige SegmentierungsinstanzSI1 ,SI2 gebildet ist, und - für mehrere Pixel
PI1 ,PI2 der PixelPI1 ,PI2 des jeweiligen BildesBI1 ,BI2 jeweils eine SegmentierungsinstanzinformationSII1 ,SII2 und jeweils ein Satz von WahrscheinlichkeitsinformationenSVW1 ,SVW2 ermittelt sind, wobei die jeweilige SegmentierungsinstanzinformationSII1 ,SII2 angibt, zu welcher der SegmentierungsinstanzenSI1 ,SI2 des jeweiligen BildesBI1 ,BI2 das jeweilige PixelPI1 ,PI2 zugehörig ist, und wobei jede der Wahrscheinlichkeitsinformationen des jeweilige Satzes von WahrscheinlichkeitsinformationenSVW1 ,SVW2 eine Wahrscheinlichkeitsangabe der Zugehörigkeit des jeweiligen PixelsPI1 ,PI2 zu einer der ObjektkategorienOKT angibt; - eine Korrespondenzermittlungsstufe
3 zur Ermittlung mehrerer Korrespondenzpaare, welche jeweils ein PixelPI1 der PixelPI1 einer der SegmentierungsinstanzenSI1 des ersten BildesBI1 und ein dazu korrespondierendes PixelPI2 der PixelPI2 des zweiten BildesBI2 umfassen, wobei aus den Korrespondenzpaaren jeweils ein VerschiebungsvektorVV zwischen dem jeweiligen PixelPI1 des ersten BildesBI1 und dem jeweiligen korrespondierenden PixelPI2 des zweiten BildesBI ermittelt ist; - eine Zuordnungsstufe
4 zum Zuordnen der SegmentierungsinstanzinformationSII1 und des Satzes von WahrscheinlichkeitsinformationenSVW1 wenigstens eines PixelsPI1 der PixelPI1 des ersten BildesBI1 auf der Basis der VerschiebungsvektorenVV zu jeweils einem PixelPI2 der PixelPI2 des zweiten Bildes, so dass dem jeweiligen PixelPI2 des zweiten Bildes eine SegmentierungsinstanzinformationSII1 der SegmentierungsinstanzinformationenSII1 aus dem ersten BildBI1 und ein SatzSVW1 der Sätze von WahrscheinlichkeitsinformationenSVW1 aus dem ersten BildBI1 zugeordnet sind; - eine Objektkennungszuordnungsstufe
5 zum Zuordnen der PixelPI1 einer der SegmentierungsinstanzenSI1 des ersten BildesBI1 und der PixelPI2 einer der SegmentierungsinstanzenSI2 des zweiten BildesBI2 zu einer gemeinsamen ObjektkennungOBK , sofern die jeweilige SegmentierungsinstanzSI1 des ersten BildesBI1 und die SegmentierungsinstanzSI2 des zweiten BildesBI2 dasselbe Objekt abbilden, wobei die ObjektkennungOBK das jeweilige Objekt über die Videosequenz hinweg eindeutig kennzeichnet, wobei das Zuordnen der PixelPI1 der jeweiligen SegmentierungsinstanzSI1 des ersten BildesBI1 auf der Basis der SegmentierungsinstanzinformationSII1 des jeweiligen PixelsPI1 erfolgt, und wobei das Zuordnen der PixelPI2 der jeweiligen SegmentierungsinstanzSI2 des zweiten BildesBI2 auf der Basis der SegmentierungsinstanzinformationSII2 des jeweiligen PixelsPI2 und der dem jeweiligen PixelPI2 zugeordneten SegmentierungsinstanzinformationSII1 aus dem ersten BildBI1 erfolgt; eine Fusionierungsstufe 6 zum Fusionieren des jeweils einem PixelPI2 der PixelPI2 des zweiten BildesBI2 zugeordneten Satzes von WahrscheinlichkeitsinformationenSVW1 aus dem ersten BildBI1 und des Satzes von WahrscheinlichkeitsinformationenSVW2 des jeweiligen PixelsPI2 des zweiten BildesBI2 , um so für ein oder mehrere Pixel des zweiten BildesPI2 jeweils einen fusionierten Satz von WahrscheinlichkeitsinformationenFSVW2 zu bestimmen; und- eine Objektkategorieermittlungsstufe
7 zum Ermitteln der jeweiligen ObjektkategorieOKT der SegmentierungsinstanzenSI1 ,SI2 , welche einer der ObjektkennungenOBK zugeordnet sind, auf der Basis der fusionierten Sätze von WahrscheinlichkeitsinformationenFSVW2 der der jeweiligen ObjektkennungOBK zugeordneten PixelPI2 des zweiten BildesBI2 .
- a
segmentation level 2 for segmentation of at least one first imageBI1 the picturesBI and a temporally subsequent second imageBI2 the picturesBI , wherein thesegmentation stage 2 over several predefined semantic object categoriesOctober and where thesegmentation level 2 is designed so that when segmenting an imageBI1 .BI2 the pictures BI - for in the respective picture
BI1 .BI2 Imaged objects one for each imageBI1 .BI2 valid segmentation instanceSI1 .SI2 is formed, and - for several pixels
PI1 .PI2 the pixelPI1 .PI2 of the respective pictureBI1 .BI2 one segmentation instance information eachSII1 .SII2 and one set of probability information eachSVW1 .SVW2 are determined, wherein the respective segmentation instance informationSII1 .SII2 indicates to which of the segmentation instancesSI1 .SI2 of the respective pictureBI1 .BI2 the respective pixelPI1 .PI2 and each of the probability information of the respective set of probability informationSVW1 .SVW2 a Probability indication of the membership of the respective pixelPI1 .PI2 to one of the object categoriesOctober indicates; - a correspondence determination stage
3 for identifying multiple correspondence pairs, each one pixelPI1 the pixelPI1 one of the segmentation instancesSI1 of the first pictureBI1 and a corresponding pixelPI2 the pixelPI2 of the second pictureBI2 comprise, wherein from the correspondence pairs in each case a displacement vectorVV between each pixelPI1 of the first pictureBI1 and the respective corresponding pixelPI2 of the second pictureBI is determined; - an assignment level
4 for assigning the segmentation instance informationSII1 and the set of probability informationSVW1 at least one pixelPI1 the pixelPI1 of the first pictureBI1 based on the displacement vectorsVV to one pixel eachPI2 the pixelPI2 of the second image, allowing the respective pixelPI2 of the second image, a segmentation instance informationSII1 the segmentation instance informationSII1 from the first pictureBI1 and a sentenceSVW1 the sets of probability informationSVW1 from the first pictureBI1 assigned; - an object identifier mapping stage
5 to associate the pixelsPI1 one of the segmentation instancesSI1 of the first pictureBI1 and the pixelPI2 one of the segmentation instancesSI2 of the second pictureBI2 to a common object identifierOBK if the respective segmentation instanceSI1 of the first pictureBI1 and the segmentation instanceSI2 of the second pictureBI2 mimic the same object, where the object identifierOBK clearly identifies the respective object across the video sequence, wherein the mapping of the pixelsPI1 the respective segmentation instanceSI1 of the first pictureBI1 based on the segmentation instance informationSII1 of the respective pixelPI1 takes place, and wherein the mapping of the pixelsPI2 the respective segmentation instanceSI2 of the second pictureBI2 based on the segmentation instance informationSII2 of the respective pixelPI2 and the respective pixelPI2 associated segmentation instance informationSII1 from the first pictureBI1 he follows; - a level of
fusion 6 for fusing each one pixelPI2 the pixelPI2 of the second pictureBI2 associated set of probability informationSVW1 from the first pictureBI1 and the set of probability informationSVW2 of the respective pixelPI2 of the second pictureBI2 so as to one or more pixels of the second imagePI2 each a merged set of probability informationFSVW2 to determine; and - an object category discovery stage
7 for determining the respective object categoryOctober the segmentation instancesSI1 .SI2 which is one of the object identifiersOBK are assigned on the basis of the merged sets of probability informationFSVW2 that of the respective object identifierOBK associated pixelsPI2 of the second pictureBI2 ,
Gemäß einer bevorzugten Weiterbildung der Erfindung ist die Segmentierungsstufe
Nach einer zweckmäßigen Weiterbildung der Erfindung ist die Korrespondenzermittlungsstufe
Gemäß einer zweckmäßigen Weiterbildung der Erfindung ist die Fusionierungsstufe
In einem weiteren Aspekt betrifft Erfindung ein System zum Erkennen und Verfolgen von Objekten, wobei das System umfasst:
- eine Videokamera (nicht dargestellt) zur Erzeugung einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln
PI bestehenden BildernBI ; und - eine Vorrichtung
1 zum Erkennen und Verfolgen von Objekten in der Videosequenz nach einem der vorstehenden Ansprüche.
- a video camera (not shown) for generating a video sequence of temporally successive pixels
PI existing picturesBI ; and - a device
1 for recognizing and tracking objects in the video sequence according to any one of the preceding claims.
In einem weiteren Aspekt betrifft Erfindung ein Verfahren zum Erkennen und Verfolgen von Objekten in einer Videosequenz aus zeitlich aufeinanderfolgenden aus Pixeln
- Segmentierung wenigstens eines ersten Bildes
BI1 der BilderBI und eines zeitlich nachfolgenden zweiten BildesBI2 der BilderBI , wobei mehrere vordefinierte semantische ObjektkategorienOKT vorgesehen sind und wobei bei der Segmentierung eines BildesBI1 ,BI2 der BilderBI - für in dem jeweiligen Bild
BI1 ,BI2 abgebildete Objekte jeweils eine für das jeweilige BildBI1 ,BI2 gültige SegmentierungsinstanzSI1 ,SI2 gebildet wird, welche jeweils eines der Objekte abbildet, und - für mehrere Pixel
PI1 ,PI2 der PixelPI1 ,PI2 des jeweiligen BildesBI1 ,BI2 jeweils eine SegmentierungsinstanzinformationSII1 ,SII2 und jeweils ein Satz von WahrscheinlichkeitsinformationenSVW1 ,SVW2 ermittelt wird, wobei die jeweilige SegmentierungsinstanzinformationSII1 ,SII2 angibt, zu welcher der SegmentierungsinstanzenSI1 ,SI2 das jeweilige PixelPI1 ,PI2 zugehörig ist, und wobei jede der Wahrscheinlichkeitsinformationen des jeweilige Satzes von WahrscheinlichkeitsinformationenSVW1 ,SVW2 eine Wahrscheinlichkeitsangabe der Zugehörigkeit des jeweiligen PixelsPI1 ,PI2 zu einer der Objektkategorien angibtOKT ;
- Segmentation of at least a first image
BI1 the picturesBI and a temporally subsequent second imageBI2 the picturesBI , where several predefined semantic object categoriesOctober are provided and wherein at the segmentation of an imageBI1 .BI2 the picturesBI - for in the respective picture
BI1 .BI2 Imaged objects one for each imageBI1 .BI2 valid segmentation instanceSI1 .SI2 is formed, which each represents one of the objects, and - for several pixels
PI1 .PI2 the pixelPI1 .PI2 of the respective pictureBI1 .BI2 one segmentation instance information eachSII1 .SII2 and one set of probability information eachSVW1 .SVW2 is determined, wherein the respective segmentation instance informationSII1 .SII2 indicates to which of the segmentation instancesSI1 .SI2 the respective pixelPI1 .PI2 and each of the probability information of the respective set of probability informationSVW1 .SVW2 a probability indication of the membership of the respective pixelPI1 .PI2 to one of the object categoriesOctober ;
Ermittlung von Korrespondenzpaaren, welche jeweils ein Pixel
Zuordnen der Segmentierungsinstanzinformation
Zuordnen der Pixel
Fusionieren des jeweils einem Pixel
Ermitteln der jeweiligen Objektkategorie
Assign the segmentation instance information
Map the pixels
Fusion of each one pixel
Determining the respective object category
In einem weiteren Aspekt betrifft Erfindung ein Computerprogramm zur Durchführung eines erfindungsgemäßen Verfahrens, wenn es auf einem Computer oder Prozessor ausgeführt wird.In another aspect, the invention relates to a computer program for performing a method of the invention when executed on a computer or processor.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist die Korrespondenzermittlungsstufe
Nach einer zweckmäßigen Weiterbildung der Erfindung ist die Objektkennungszuordnungsstufe
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist die Segmentierungsstufe
wobei die Korrespondenzermittlungsstufe
wobei die Zuordnungsstufe
wobei die Zuordnungsstufe
wobei die Objektkennungszuordnungsstufe
wobei die Fusionierungsstufe
wobei die Objektkategorieermittlungsstufe
wherein the correspondence determination stage
where the assignment level
where the assignment level
wherein the object identifier assignment stage
the
wherein the object category discovery stage
Gemäß einer zweckmäßigen Weiterbildung der Erfindung ist die Korrespondenzermittlungsstufe
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Objektkennungszuordnungsstufe
Nun sei angenommen, dass die Korrespondenzermittlung Stufe
Für die weiteren Pixel
Das dritte Bild
Wenn nun angenommen wird, dass die Korrespondenzermittlungsstufe
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der erfindungsgemäßen Vorrichtung zumindest teilweise in Hardware oder zumindest teilweise in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können, dass eine oder mehrere oder alle der funktionalen Elemente der erfindungsgemäßen Vorrichtung realisiert werden. Beispielsweise kann die erfindungsgemäße Vorrichtung eine speicherprogrammierbare Steuerung aufweisen.Depending on specific implementation requirements, embodiments of the inventive device may be at least partially implemented in hardware or at least partially in software. The implementation may be performed using a digital storage medium, such as a floppy disk, a DVD, a Blu-ray Disc, a CD, a ROM, a PROM, an EPROM, an EEPROM or FLASH memory, a hard disk, or other magnetic disk or optical memory are stored on the electronically readable control signals that can interact with a programmable computer system such that one or more or all of the functional elements of the device according to the invention can be realized. For example, the device according to the invention may have a programmable logic controller.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Vorrichtung durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eine der hierin beschriebenen Vorrichtungen zu realisieren.In some embodiments, a programmable logic device (eg, a field programmable gate array, an FPGA) may be used to perform some or all of the functionality of the device described herein. In some embodiments, a field programmable gate array may cooperate with a microprocessor to implement one of the devices described herein.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele des erfindungsgemäßen Verfahrens mittels einer Vorrichtung durchgeführt werden, welche zumindest teilweise in Hardware oder zumindest teilweise in Software implementiert ist. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können, dass das erfindungsgemäße Verfahren durchgeführt wird.Depending on specific implementation requirements, embodiments of the inventive method may be performed by means of a device which is at least partially implemented in hardware or at least partially in software. The implementation may be performed using a digital storage medium, such as a floppy disk, a DVD, a Blu-ray Disc, a CD, a ROM, a PROM, an EPROM, an EEPROM or FLASH memory, a hard disk, or other magnetic disk or optical memory are stored on the electronically readable control signals that can interact with a programmable computer system such that the inventive method is performed.
Aspekte der Erfindung, welche hierin im Kontext der erfindungsgemäßen Vorrichtung beschrieben sind, repräsentieren ebenso Aspekte des erfindungsgemäßen Verfahrens. Umgekehrt repräsentieren solche Aspekte der Erfindung, welche hierin im Kontext des erfindungsgemäßen Verfahrens beschrieben sind, ebenso Aspekte der erfindungsgemäßen Vorrichtung.Aspects of the invention described herein in the context of the device of the invention also represent aspects of the method of the invention. Conversely, those aspects of the invention described herein in the context of the method of the invention also represent aspects of the inventive device.
Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) oder ein Grafikprozessor (GPU), sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.In general, in some embodiments, the methods are performed by any hardware device. This can be a universally applicable hardware such as a computer processor (CPU) or a graphics processor (GPU), or hardware specific to the method, such as an ASIC.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.Another embodiment includes a computer on which the computer program is installed to perform one of the methods described herein.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogramm mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.In general, embodiments of the present invention may be implemented as a computer program having a program code, wherein the program code is operable to perform one of the methods when the computer program runs on a computer. The program code can also be stored, for example, on a machine-readable carrier.
Manche Ausführungsbeispiele der Erfindung umfassen einen, vorzugsweise nicht-flüchtigen Datenträger oder Datenspeicher, der ein Computerprogramm mit elektronisch lesbaren Steuersignalen aufweist, welches in der Lage ist, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.Some embodiments of the invention include a preferably nonvolatile data carrier or data storage having a computer program with electronically readable control signals capable of interacting with a programmable computer system to perform one of the methods described herein.
Ausführungsbeispiele der vorliegenden Erfindung können als Computerprogrammprodukt mit einem Computerprogramm implementiert sein, wobei das Computerprogramm dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer abläuft.Embodiments of the present invention may be implemented as a computer program product having a computer program, wherein the computer program is operable to perform one of the methods when the computer program runs on a computer.
BezugszeichenlisteLIST OF REFERENCE NUMBERS
- 11
- Vorrichtung zum Erkennen und Verfolgen von Objekten in einer VideosequenzDevice for recognizing and tracking objects in a video sequence
- 22
- Segmentierungsstufesegmentation stage
- 33
- KorrespondenzermittlungsstufeCorrespondence determination stage
- 44
- Zuordnungsstufeassignment level
- 55
- ObjektkennungszuordnungsstufeObject identifier assignment stage
- 66
- Fusionierungsstufefusing step
- 77
- Objektkategorieermittlungsstufe Object category determination stage
- PIPI
- Pixelpixel
- BIBI
- Bildimage
- OKTOctober
- Objektkategorieobject category
- SISI
- Segmentierungsinstanzsegmentation instance
- SIISII
- SegmentierungsinstanzinformationSegmentation instance information
- SVWSVW
- Satz von WahrscheinlichkeitsinformationenSet of probability information
- VVVV
- Verschiebungsvektordisplacement vector
- OBKOBK
- Objektkennungobject identifier
- FSVWFSVW
- fusionierter Satz von Wahrscheinlichkeitsinformationenfused set of probability information
- IVVIVV
- interpolierter Verschiebungsvektorinterpolated displacement vector
- WVVWVV
- weiterer Verschiebungsvektorfurther shift vector
- WIWWIW
- weiterer interpolierter Verschiebungsvektoranother interpolated displacement vector
Quellen:Swell:
-
[1]
Yu Xiang, Alexandre Alahi and Silvio Savarese. „Learning to Track: Online Multi-Object Tracking by Decision Making“. In: 2015 IEEE International Conference on Computer Vision (ICCV), Seiten: 4705-4713, 2015 Yu Xiang, Alexandre Alahi and Silvio Savarese. "Learning to Track: Online Multi-Object Tracking by Decision Making". In: 2015 IEEE International Conference on Computer Vision (ICCV), Pages: 4705-4713, 2015 -
[2]
Wongun Choi. „Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor“. In: 2015 IEEE International Conference on Computer Vision (ICCV), Seiten: 3029-3037, 2015 Wongun Choi. "Near-Online Multi-Target Tracking with Aggregated Local Flow Descriptor". In: 2015 IEEE International Conference on Computer Vision (ICCV), Pages: 3029-3037, 2015 -
[3]
Anton Milan, Laura Leal-Taixe, Konrad Schindler, Ian Reid. „Joint Tracking and Segmentation of Multiple Targets“. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 Anton Milan, Laura Leal-Taixe, Konrad Schindler, Ian Reid. "Joint Tracking and Segmentation of Multiple Targets". In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 -
[4]
Sebastian Bullinger, Christoph Bodensteiner, Michael Arens. „Instance Flow Based Online Multiple Object Tracking“. In: Computing Research Repository (CoRR), 2017 Sebastian Bullinger, Christoph Bodensteiner, Michael Arens. "Instance Flow Based Online Multiple Object Tracking". In: Computing Research Repository (CoRR), 2017 -
[5]
Jifeng Dai, Kaiming He and Jian Sun, „Instance-aware Semantic Segmentation via Multi-task Network Cascades“. In: Computing Research Repository (CoRR), 2015 Jifeng Dai, Kaiming He and Jian Sun, "Instance-aware Semantic Segmentation via Multi-task Network Cascades". In: Computing Research Repository (CoRR), 2015 -
[6]
Yi Li, Haozhi Qi, Jifeng Dai, Xiangyuang Ji and Yichen Wie, „Fully Convolutional Instance aware Semantic Segmentation“. In: Computing Research Repository (CoRR), 2016 Yi Li, Haozhi Qi, Jifeng Dai, Xiangyuang Ji and Yichen Like, "Fully Convolutional Instance Aware Semantic Segmentation". In: Computing Research Repository (CoRR), 2016 -
[7]
Yinlin Hu, Yunsong Li, „Efficient Coarse-to-fine Patchmatch for Large Displacement Optical Flow“. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 Yinlin Hu, Yunsong Li, "Efficient Coarse-to-Fine Patchmatch for Large Displacement Optical Flow". In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 -
[8]
Jerome Revaud, Philippe Weinzaepfel, Zaid Harchaoui, Cordula Schmid, „Deepmatching:Hierarchical Deformable Dense Matching“. In: International Journal of Computer Vision, Band 120, Nr. 3 Seiten 300-323, 2016 Jerome Revaud, Philippe Weinzaepfel, Zaid Harchaoui, Cordula Schmid, "Deepmatching: Hierarchical Deformable Dense Matching". In: International Journal of Computer Vision, Volume 120, No. 3, pages 300-323, 2016
ZITATE ENTHALTEN IN DER BESCHREIBUNG QUOTES INCLUDE IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant has been generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte Nicht-PatentliteraturCited non-patent literature
- Yu Xiang, Alexandre Alahi and Silvio Savarese. „Learning to Track: Online Multi-Object Tracking by Decision Making“. In: 2015 IEEE International Conference on Computer Vision (ICCV), Seiten: 4705-4713, 2015 [0080]Yu Xiang, Alexandre Alahi and Silvio Savarese. "Learning to Track: Online Multi-Object Tracking by Decision Making". In: 2015 IEEE International Conference on Computer Vision (ICCV), Pages: 4705-4713, 2015 [0080]
- Wongun Choi. „Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor“. In: 2015 IEEE International Conference on Computer Vision (ICCV), Seiten: 3029-3037, 2015 [0080]Wongun Choi. "Near-Online Multi-Target Tracking with Aggregated Local Flow Descriptor". In: 2015 IEEE International Conference on Computer Vision (ICCV), Pages: 3029-3037, 2015 [0080]
- Anton Milan, Laura Leal-Taixe, Konrad Schindler, Ian Reid. „Joint Tracking and Segmentation of Multiple Targets“. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 [0080]Anton Milan, Laura Leal-Taixe, Konrad Schindler, Ian Reid. "Joint Tracking and Segmentation of Multiple Targets". In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 [0080]
- Sebastian Bullinger, Christoph Bodensteiner, Michael Arens. „Instance Flow Based Online Multiple Object Tracking“. In: Computing Research Repository (CoRR), 2017 [0080]Sebastian Bullinger, Christoph Bodensteiner, Michael Arens. "Instance Flow Based Online Multiple Object Tracking". In: Computing Research Repository (CoRR), 2017 [0080]
- Jifeng Dai, Kaiming He and Jian Sun, „Instance-aware Semantic Segmentation via Multi-task Network Cascades“. In: Computing Research Repository (CoRR), 2015 [0080]Jifeng Dai, Kaiming He and Jian Sun, "Instance-aware Semantic Segmentation via Multi-task Network Cascades". In: Computing Research Repository (CoRR), 2015 [0080]
- Yi Li, Haozhi Qi, Jifeng Dai, Xiangyuang Ji and Yichen Wie, „Fully Convolutional Instance aware Semantic Segmentation“. In: Computing Research Repository (CoRR), 2016 [0080]Yi Li, Haozhi Qi, Jifeng Dai, Xiangyuang Ji and Yichen Like, "Fully Convolutional Instance Aware Semantic Segmentation". In: Computing Research Repository (CoRR), 2016 [0080]
- Yinlin Hu, Yunsong Li, „Efficient Coarse-to-fine Patchmatch for Large Displacement Optical Flow“. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [0080]Yinlin Hu, Yunsong Li, "Efficient Coarse-to-Fine Patchmatch for Large Displacement Optical Flow". IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 [0080]
- Jerome Revaud, Philippe Weinzaepfel, Zaid Harchaoui, Cordula Schmid, „Deepmatching:Hierarchical Deformable Dense Matching“. In: International Journal of Computer Vision, Band 120, Nr. 3 Seiten 300-323, 2016 [0080]Jerome Revaud, Philippe Weinzaepfel, Zaid Harchaoui, Cordula Schmid, "Deepmatching: Hierarchical Deformable Dense Matching". In: International Journal of Computer Vision, Vol. 120, No. 3 pp. 300-323, 2016 [0080]
Claims (12)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017219402.2A DE102017219402A1 (en) | 2017-10-27 | 2017-10-27 | DEVICE AND METHOD FOR DETECTING AND TRACKING OBJECTS IN A VIDEO SEQUENCE |
PCT/EP2018/079418 WO2019081713A1 (en) | 2017-10-27 | 2018-10-26 | Device and method for identifying and tracking objects in a video sequence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102017219402.2A DE102017219402A1 (en) | 2017-10-27 | 2017-10-27 | DEVICE AND METHOD FOR DETECTING AND TRACKING OBJECTS IN A VIDEO SEQUENCE |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102017219402A1 true DE102017219402A1 (en) | 2019-05-02 |
Family
ID=64109823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102017219402.2A Ceased DE102017219402A1 (en) | 2017-10-27 | 2017-10-27 | DEVICE AND METHOD FOR DETECTING AND TRACKING OBJECTS IN A VIDEO SEQUENCE |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE102017219402A1 (en) |
WO (1) | WO2019081713A1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060222205A1 (en) * | 2005-04-01 | 2006-10-05 | Porikli Fatih M | Tracking objects in low frame rate videos |
US20110254950A1 (en) * | 2008-10-09 | 2011-10-20 | Isis Innovation Limited | Visual tracking of objects in images, and segmentation of images |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI489394B (en) * | 2008-03-03 | 2015-06-21 | Videoiq Inc | Object matching for tracking, indexing, and search |
US11295458B2 (en) * | 2016-12-01 | 2022-04-05 | Skydio, Inc. | Object tracking by an unmanned aerial vehicle using visual sensors |
-
2017
- 2017-10-27 DE DE102017219402.2A patent/DE102017219402A1/en not_active Ceased
-
2018
- 2018-10-26 WO PCT/EP2018/079418 patent/WO2019081713A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060222205A1 (en) * | 2005-04-01 | 2006-10-05 | Porikli Fatih M | Tracking objects in low frame rate videos |
US20110254950A1 (en) * | 2008-10-09 | 2011-10-20 | Isis Innovation Limited | Visual tracking of objects in images, and segmentation of images |
Non-Patent Citations (10)
Title |
---|
Anton Milan, Laura Leal-Taixe, Konrad Schindler, Ian Reid. „Joint Tracking and Segmentation of Multiple Targets". In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015 |
BULLINGER, Sebastian ; BODENSTEINER, Christoph ; ARENS, Michael: Instance flow based online multiple object tracking. 15-05-2017. arXiv:1703.01289v2. 5 S. URL: https://arxiv.org/pdf/1703.01289v2 [abgerufen am 2018-03-16] * |
Jerome Revaud, Philippe Weinzaepfel, Zaid Harchaoui, Cordula Schmid, „Deepmatching:Hierarchical Deformable Dense Matching". In: International Journal of Computer Vision, Band 120, Nr. 3 Seiten 300-323, 2016 |
Jifeng Dai, Kaiming He and Jian Sun, „Instance-aware Semantic Segmentation via Multi-task Network Cascades". In: Computing Research Repository (CoRR), 2015 |
Sebastian Bullinger, Christoph Bodensteiner, Michael Arens. „Instance Flow Based Online Multiple Object Tracking". In: Computing Research Repository (CoRR), 2017 |
WANG, Le, et al. Video object discovery and co-segmentation with extremely weak supervision. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, Nr. 10, S. 2074-2088. DOI: http://doi.ieeecomputersociety.org/10.1109/TPAMI.2016.2612187 * |
Wongun Choi. „Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor". In: 2015 IEEE International Conference on Computer Vision (ICCV), Seiten: 3029-3037, 2015 |
Yi Li, Haozhi Qi, Jifeng Dai, Xiangyuang Ji and Yichen Wie, „Fully Convolutional Instance aware Semantic Segmentation". In: Computing Research Repository (CoRR), 2016 |
Yinlin Hu, Yunsong Li, „Efficient Coarse-to-fine Patchmatch for Large Displacement Optical Flow". In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016 |
Yu Xiang, Alexandre Alahi and Silvio Savarese. „Learning to Track: Online Multi-Object Tracking by Decision Making". In: 2015 IEEE International Conference on Computer Vision (ICCV), Seiten: 4705-4713, 2015 |
Also Published As
Publication number | Publication date |
---|---|
WO2019081713A1 (en) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102013223803A1 (en) | Method and device for segmenting an occupancy grid for an environment model of a driver assistance system for a vehicle | |
DE102018116111A1 (en) | A uniform deep convolution neural network for the estimation of free space, the estimation of the object recognition and the object position | |
DE112016005059T5 (en) | Subcategory aware folding neural networks for object detection | |
DE102009038364A1 (en) | Method and system for automatic object recognition and subsequent object tracking according to the object shape | |
DE102005034597A1 (en) | Method and device for generating a depth map | |
DE112017007492T5 (en) | System and method for capturing objects in a digital image and system and method for re-evaluating object capturing | |
DE102012000459A1 (en) | Method for detecting object e.g. vehicle in surrounding area, involves transforming segments with classification surfaces into two-dimensional representation of environment, and searching and classifying segments in representation | |
DE102016014783A1 (en) | Method for detecting objects | |
DE102004032118A1 (en) | Object recognition method for vehicles | |
DE112021005678T5 (en) | Normalization of OCT image data | |
DE102017219402A1 (en) | DEVICE AND METHOD FOR DETECTING AND TRACKING OBJECTS IN A VIDEO SEQUENCE | |
DE102019129107A1 (en) | Method and system for image analysis using boundary detection | |
DE112015006815T5 (en) | Learning institution and learning discrimination system | |
EP3876157B1 (en) | Computer-implemented method and system for generating synthetic sensor data and training method | |
DE102018114912A1 (en) | Method for classifying a color of a road marking by means of a statistical road marking determination model, electronic computing device and driver assistance system | |
DE102020208080A1 (en) | Detection of objects in images under equivariance or invariance with respect to the object size | |
DE102020128952A1 (en) | Method and assistance device for two-stage image-based scene recognition and motor vehicle | |
DE102016124123A1 (en) | A method for generating a cluster of image areas for capturing a target object in an image, computer program product, camera system and motor vehicle | |
DE102017216854B4 (en) | Method and device for evaluating correspondences of images, operation assistance method and operation device | |
DE102019102423A1 (en) | Method for live annotation of sensor data | |
EP4296970A1 (en) | Computer-implemented method and system for creating a virtual vehicle environment | |
DE102017207958A1 (en) | A method of generating training data for a machine learning based pattern recognition method for a motor vehicle, motor vehicle, method of operating a computing device, and system | |
DE102023004171A1 (en) | Method for automatically assigning labels and/or objects to sensor data from a vehicle surroundings sensor system | |
DE102021206316A1 (en) | Method and device for detecting an object for a vehicle and camera system comprising a mono camera | |
DE112021007613T5 (en) | REFLEX EYE MOVEMENT EVALUATION DEVICE, REFLEX EYE MOVEMENT EVALUATION SYSTEM AND REFLEX EYE MOVEMENT EVALUATION METHOD |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |