EP4278329A1 - Method and system for recognizing objects, which are represented in an image by means of a point cloud - Google Patents

Method and system for recognizing objects, which are represented in an image by means of a point cloud

Info

Publication number
EP4278329A1
EP4278329A1 EP21843940.4A EP21843940A EP4278329A1 EP 4278329 A1 EP4278329 A1 EP 4278329A1 EP 21843940 A EP21843940 A EP 21843940A EP 4278329 A1 EP4278329 A1 EP 4278329A1
Authority
EP
European Patent Office
Prior art keywords
points
image
point
point cloud
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21843940.4A
Other languages
German (de)
French (fr)
Inventor
Niklas HERMES
Cornelius REINFELDT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gestigon GmbH
Original Assignee
Gestigon GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gestigon GmbH filed Critical Gestigon GmbH
Publication of EP4278329A1 publication Critical patent/EP4278329A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present invention relates to a method and a system for recognizing one or more objects that are represented in an image or in corresponding image data using a point cloud.
  • the task arises of analyzing image data, ie data representing an image or a sequence of images, such as a video, to determine whether and, if so, which objects are depicted in the image(s).
  • image data ie data representing an image or a sequence of images, such as a video
  • the detection of movements or changes in such objects on the basis of such images or image data is also regularly of interest.
  • the methods for generating images or image data also include methods of, in particular discrete, scanning of a real scene with one or more associated real objects (e.g. people or things), where the resulting image data represents a two- or three-dimensional point cloud.
  • Such scanning can be carried out in particular with image sensors that also scan a scene in the depth dimension.
  • image sensors are, in particular, stereo cameras, time-of-flight sensors (time of flight or time-of-flight (TOF) sensors), and electro-optical distance sensors (laser range finders (LRF) sensors).
  • TOF time of flight or time-of-flight
  • LRF laser range finders
  • point clouds can also be generated by radar, lidar or ultrasonic sensors.
  • such point clouds can also be generated artificially, without a real scene having to be recorded by sensors.
  • such point clouds can be generated artificially, in particular computer-aided, as part of or as the result of simulations, in particular simulations of real scenes.
  • segment such a point cloud in the sense of image processing
  • segments i.e. image segments
  • a simple known method for such a foreground/background segmentation for an image given by a point cloud is the Evaluate depth information regarding the points of a point cloud by means of a threshold value method, in that all points which, according to their depth information, are closer than a specific depth threshold are assigned to the image foreground, while all other points are assigned to the image background.
  • a separation of the two objects in the image or in the point cloud can also be achieved in this way.
  • the object of the present invention is to further improve the recognition of one or more objects that are represented in an image or in corresponding image data using a cloud of points. In particular, it is desirable to achieve improved separability of different objects.
  • a “cloud of points” in the sense of the invention is a set of points of a vector space (unless restricted to specific dimensions below for embodiments) of any given dimension M>1, which in particular can have an organized or an unorganized spatial structure.
  • a point cloud is described by the points it contains, which can each be recorded in particular by their positions specified using spatial coordinates.
  • attributes such as B. geometric standards, color values, temperature values, recording times or measurement accuracies or other information.
  • a “one-dimensional quantity” within the meaning of the invention is to be understood as any selected quantity that can be completely determined one-dimensionally, ie as a number (with or without a unit), and that characterizes a property of a point in a point cloud.
  • the property can be position information, such as a spatial coordinate, or an attribute of the point or be derived therefrom.
  • the size can correspond in particular, but is not limited to, an assignment of the position to a specific point on a directional line (e.g. coordinate axis). In another example, however, it could also correspond to a distance of the respective point of the point cloud from a specific reference point, so that, for example, points lying concentrically at the same distance from this reference point have the same value for the size.
  • X be a continuous random variable (here a continuous variable representing one of the one-dimensional characteristic quantities).
  • a “one-dimensional probability density function” within the meaning of the invention is then to understand a mathematical function f(x) of the one-dimensional random variable X, for which the following applies: sp (ci ⁇ X ⁇ b) stands for the probability or actual frequency of the occurrence of a value for x from the value interval ]a;b] specified by a and b.
  • sp (ci ⁇ X ⁇ b) stands for the probability or actual frequency of the occurrence of a value for x from the value interval ]a;b] specified by a and b.
  • this definition of f(x) agrees with the usual mathematical definition of a probability density function of a one-dimensional continuous random variable.
  • the concept of a “one-dimensional probability density function” within the meaning of the invention is therefore generalized, since c can also assume values other than 1 here.
  • a “segment” of an image (or a point cloud) in the sense of the invention is a content-related region of an image (or a point cloud) that is defined by combining adjacent pixels (or points in a point cloud) according to a specific homogeneity criterion is.
  • the homogeneity criterion can relate in particular to a position or coordinate or an attribute of the points, without being limited thereto.
  • the context of the region can thus be understood spatially in some cases in particular, while in other cases it can relate in particular to points in the sense of the homogeneity criterion of the same or similar attributes.
  • the terms “comprises,” “includes,” “includes,” “has,” “has,” “having,” or any other variant thereof, as appropriate, are intended to cover non-exclusive inclusion.
  • a method or apparatus that includes or has a list of elements is not necessarily limited to those elements, but may include other elements that are not expressly listed or that are inherent in such method or apparatus.
  • the term "configured” or “set up” to perform a specific function (and respective modifications thereof) is to be understood within the meaning of the invention that the corresponding device is already in a configuration or setting in which it can or can perform the function it is at least adjustable - i.e. configurable - so that it can carry out the function after appropriate setting.
  • the configuration can take place, for example, via a corresponding setting of parameters of a process flow or of switches or the like for activating or deactivating functionalities or settings.
  • the device can have a plurality of predetermined configurations or operating modes, so that the configuration can take place by selecting one of these configurations or operating modes.
  • the aforementioned method according to the first aspect is therefore based in particular on describing the cloud of points using one or more selected, one-dimensional variables that characterize each point in the cloud of points on the basis of its position or properties, and a frequency distribution of the values of the to approximate the respective variable by means of one-dimensional probability density functions (in the sense of the approximation or adjustment calculation).
  • this point can then be unambiguously assigned to a segment of the image or the point cloud. In many cases, this is even possible if the point cloud portions of different objects or of one object and the image background are close to each other.
  • This can be used in particular to separate the images of multiple objects represented by a point cloud from one another.
  • the accuracy of the separation can be increased and the error rate reduced.
  • Particularly high accuracies or low error rates can be achieved in the case of m>1, since different variables that are independent of one another interact here to create even stricter separation criteria for assigning the points to an image segment and thus if necessary, to deliver to an associated object.
  • the points of the point cloud are assigned to one segment each (segmentation criterion) in such a way that each point to be assigned is assigned to a segment of the image is assigned.
  • At least one of the threshold values is defined as a function of a variable value at which one of the intersection points of at least two of these probability density functions occurs such that the threshold value corresponds to the variable value for this intersection point.
  • the above-mentioned segmentation criterion can thus be defined in a simple manner and used efficiently without a great deal of computational effort in order to allocate the individual points to a segment in each case.
  • the definition of the threshold value(s) as a function of the point(s) of intersection of the probability density function is particularly advantageous with regard to the goal of an assignment that is as reliable as possible (with few or no errors). Namely, if the probability density functions for the linear combination are determined by the approximation in such a way that they each approximate the respective frequency distribution of the size for a specific object well, then their integral over a specific value interval, in which to the associated value for the size lies at a certain point, with a respective one Associate the probability that the point belongs to the object approximated by the respective probability density function.
  • a point is assigned to a particular segment based on its size value as a result of comparison with the threshold, this means that it has a higher probability of belonging to the object associated with this segment than to the other object whose associated segment is determined by means of of the threshold is separated from the associated segment.
  • At least one of the m quantities for each of the points in the point cloud indicates a position of this point along this spatial direction, projected onto a selected fixed spatial direction.
  • This can be used, for example, to achieve segmentation of the image or point cloud in a two- or three-dimensional point cloud (M e ⁇ 2;3 ⁇ ) with depth dimension z on the basis of the depth information given by the point positions, in particular also in the sense a foreground/background segmentation.
  • the spatial direction can in particular correspond to the direction of a coordinate axis of a coordinate system used to define the positions of the points in the M-dimensional space.
  • the fixed spatial direction is selected to be orthogonal to a first principal component resulting from a principal component analysis applied to the point cloud. This is particularly advantageous for the detection of objects that are to be separated from the background or other objects with regard to a spatial direction that does not coincide with the direction of the first principal component, preferably even, at least essentially, is perpendicular thereto. Since the first principal component from a principal component analysis represents the dominant component for objects that are not spherically symmetric, it is consequently particularly easy to separate those objects whose dominant component runs at least largely transversely to the fixed spatial direction under consideration. If, for example, the selected fixed spatial direction corresponds to the depth direction (e.g.
  • the least dominant of the main components is thus selected as the fixed spatial direction, so that objects can be recognized or separated particularly well whose more dominant first or second main components are transverse, in particular orthogonal, to the fixed spatial direction.
  • the method further includes: filtering the image such that, after filtering, it only contains those points of the point cloud that have been assigned to one of the segments that have each been identified as representing a respective recognized object.
  • a filter function can be implemented in particular, which has the effect that only the object or objects of interest is recognized or identified, while other objects or the image background are at least largely ignored (except for those points that may have been mistakenly assigned to the object or objects). assigned to the remaining objects of interest).
  • the image can be filtered in such a way that, after filtering, it only contains those points of the point cloud that have been assigned exactly to a specific selected one of those segments that has been identified as representing an assigned recognized object.
  • a result can thus be achieved in which at most or in particular only exactly one single object is identified.
  • the size for each of the points of the point cloud indicates a position of this point along this spatial direction projected onto a selected fixed spatial direction
  • that segment is selected from the set of segments identified as representing a respective recognized object , whose assigned points according to their positions projected onto the selected fixed spatial direction viewed in the viewing direction along this spatial direction, viewed on average, are closer than the points assigned to any other of the identified segments.
  • This can be advantageously used in particular for the purpose of foreground/background segmentation if only one (or the) foremost object is to be recognized as the foreground.
  • m>1 applies and at least one of the m quantities indicates a temperature value or a color value for each of the points of the point cloud.
  • Another of the m quantities can relate in particular to the position of the respective point.
  • a particularly reliable, ie selective, segmentation can be achieved if the object(s) to be identified typically have a surface temperature that deviates from their ambient temperature, as is usually the case with living objects, in particular people or animals.
  • output data is generated (and preferably output, in particular via an interface) that represents the result of the assignment of the points to segments or the identification of at least one recognized object in one or more of the following ways: (i) the output data represent, for at least one of the objects, an image of this object based on one or more, in particular all, of those points in the point cloud which have been assigned to the segment belonging to this object; (ii) the output data represents information indicating how many different objects were recognized by the segment assignment of the points in the image; (iii) the output data represent information which indicates to which respective segment or object the points were assigned in each case; (iv) the output data represent information which, for at least a subset of the points, specifies the respective function value of one or more of the probability density functions at the point which is determined by the values of the m quantities assigned to the point.
  • the image can be determined in particular by a specific point from the set of points assigned to the segment or as a specific, in particular calculated point depending on these points, for example as the center point of the distribution of the points in the set.
  • the image can in particular also be defined as a spatial area or body spanned by the points of the set.
  • the associated (respective) probability density functions each have a course in which the function value increases as a function of the value of the variable up to a maximum and then falls again, with the maximum is the only occurring maximum in the course of the probability density function.
  • a function profile which can be bell-shaped (symmetrical or also asymmetrical), is then particularly good for the method and in particular for approximating frequency distributions for the sampling point clouds generated by objects if the object or objects each have a convex shape.
  • At least one (in particular each) of the respective probability density functions for at least one of the m quantities can be a Gaussian function.
  • At least one of the frequency distributions is subjected to a respective smoothing process and the approximation with regard to this at least one frequency distribution takes place with respect to the corresponding frequency distribution smoothed by means of the smoothing process.
  • the quality of the approximation and thus the quality and reliability of the recognition or separation of objects represented by the point cloud based thereon can be further increased.
  • a gesture recognition process is performed to recognize a gesture of a person represented in the image by means of the point cloud. This can be done in particular in the context of an automotive application, in particular in connection with a gesture recognition with regard to gestures performed by an occupant of a vehicle to control a functionality of the vehicle.
  • a second aspect of the invention relates to a system for data processing, having at least one processor which is configured in such a way that it executes the method according to the first aspect of the invention.
  • the system can be a computer or a control unit for another or higher-level system, such as for a vehicle or for a production machine or line.
  • a third aspect of the invention relates to a computer program with instructions which, when executed on a system according to the second aspect, cause the latter to carry out the method according to the first aspect.
  • the computer program can in particular be stored on a non-volatile data medium.
  • a non-volatile data medium This is preferably a data carrier in the form of an optical data carrier or a flash memory module.
  • the computer program can be present as a file on a data processing unit, in particular on a server, and can be downloaded via a data connection, for example the Internet or a dedicated data connection, such as a proprietary or local network.
  • the computer program can have a plurality of interacting individual program modules.
  • the system according to the second aspect can accordingly have a program memory in which the computer program is stored.
  • the system can also be set up to access a computer program available externally, for example on one or more servers or other data processing units, via a communication connection, in particular in order to exchange data with it that are used during the course of the method or computer program or outputs of the computer program represent.
  • 1 shows schematically various exemplary scenes, each with an object arrangement of two objects to be separated from one another, and in each case a sectional image of a corresponding point cloud detected by sensors by scanning the scene;
  • FIG. 1 to illustrate an exemplary problem addressed by the invention, an overview 100 of various exemplary scenes 105a, 110a, 115a and 120a and a corresponding sectional view 105b, 110b, 1 15b or 120b through a point cloud P is shown, which was generated by scanning the respective scene using a depth image sensor, in particular a TOF camera (time of flight sensor).
  • the depth direction to which the detected depth image relates and which measures a distance from the sensor to the respective object along the depth image sensor, is selected here as the "z" direction by way of example.
  • the TOF camera is selected here as the "z" direction by way of example.
  • a point p, in the point cloud is given by its (x,y,z) coordinates, where (x,y) is a (horizontal) plane perpendicular to the sensor's line of sight, and z is the depth value, i.e. the distance from the point to the sensor.
  • Each of the scenes shows a first object Oi, which is formed by a human hand of a person, and any other object O 2 , which can be, for example, another part of the person's body or a body belonging to an interior of a vehicle.
  • the two objects Oi and O2 are laterally adjacent in a direction perpendicular to the z-direction (eg, x-direction), with a gap between them along this direction. Due to this gap, the point cloud portions corresponding to the two objects Oi and O 2 can be divided, as in shown in sectional view 105b, easily separate from one another and assign each to a separate image segment or. This assignment is essentially error-free, at least when the gap is larger than the average point spacing within the point cloud P.
  • the two objects Oi and O2 are offset from one another in the z-direction, with a gap between them in the z-direction. Due to this gap, the point cloud portions corresponding to the two objects O1 and O2, as shown in section view 110b, can also be easily separated from each other due to their clearly different depth values (z-coordinates) and each have their own image segment and thus object O1 or assign O2. This assignment is also essentially error-free, at least when the gap is larger than the average point spacing within the point cloud P.
  • the two objects O1 and O2 are offset from one another in the z-direction, separated only by a very small gap, and they overlap in the direction perpendicular to the z-direction.
  • the corresponding point cloud P in view 115b no longer allows a division of the point cloud P into point cloud portions or segments corresponding to the two objects O1 and O2 in a similarly simple and error-free manner as in scenes 105a and 110a due to a recognized gap, because the average point spacing within the point cloud P is similar in size to the gap.
  • the starting position for an object separation is even more difficult in the case of scene 120a, in which the two objects O1 and O2 overlap or touch both in the z-direction and in a direction perpendicular thereto, so that there is no gap that can be imaged by the point cloud P here more occurs and thus an object separation or segmentation with simple means, as explained for the scenes 105a and 105b, becomes unreliable or fails completely.
  • a scene 205 containing a plurality of objects is scanned by image sensors, in particular by means of a depth image sensor, such as a TOF camera, in order to obtain an image of the scene in the form of a point cloud P, as shown in view 210.
  • the image data output by the depth image sensor can, in particular, have its respective coordinate in the depth direction, here as the z-direction, for each of the points p in the point cloud P selected, and optionally represent further coordinates or additionally measured properties of the objects.
  • the resulting frequency distribution h(k) is illustrated using a histogram that represents it.
  • the set of depth values ⁇ d , ..., d n ⁇ (in this example equivalent to the set of z coordinates of the points [p L , ...,p n ⁇ ) serves as the basis for the further steps for object separation or Segmentation.
  • the range of possible depth values is divided into a sequence of sections of length y and each point Pt of the point cloud P, at least each point to be assigned to a segment, is assigned to one of the sections according to its depth value d L .
  • the histogram then indicates, for each value JE 2 , the number of those points whose depth value corresponds approximately (ie rounded down in the present example) to j /.
  • the finitely large granularity requires the aforementioned discretization, since all values of d L within the same section are assigned the same value k t for k.
  • a normalized Gaussian function is, as usual, to be understood as a function f :IR >— > H, which can be represented using the following formula, where the mean p of the distribution, the standard deviation a and the normalization factor c are each parameters of the function f (the notation "f" and "f" are used here synonymously, the same applies to different spellings of other symbols) and with regard to the method 200 z is selected as the independent variable:
  • Gaussian functions for the approximation are advantageous in several respects.
  • the Gaussian functions f q (z) are determined by means of the approximation, a segment of the image or the point cloud P represented by them can be defined by each of these Gaussian functions. Then, for each point p L e P , the probability that that point p L belongs to a respective particular segment can be interpreted such that this probability is proportional to fq(di).
  • the associated function value fi (di) indicates the probability that this point p L belongs to a first segment of the image, and accordingly for each point p t e P the associated function value f2 ( di) indicates the probability that this point Pt belongs to a second segment of the image different from the first segment.
  • each point p t is unambiguously assigned to that segment q whose function value f q (dj) for this point is the highest among the various function values for this point.
  • one or, in this case, two objects Oi and O2 can now be identified by assigning all points of a respective segment to exactly one of these objects O1 or O2.
  • the respective segment is thus determined as a representative of the respective associated object.
  • the choice of the one-dimensional variable can influence the resulting one, particularly if it corresponds to a position along a specific direction (here the z-direction, for example). Frequency distribution, thus on the functions determined from it by approximation and finally also on the quality of the segment assignment and object identification.
  • the z-direction is selected such that it runs orthogonally to a main extension direction, represented by direction vector A, of a person's hand to be identified as object O1 within the scope of the method.
  • direction vector A a main extension direction
  • the situation shown in view 310 results that the frequency distribution is good even using a single Gaussian function can be approximated, which in turn leads to a simple and very reliable and accurate identification of the object Oi.
  • the z-direction is selected such that it is no longer orthogonal, but rather at a smaller angle to the main extension direction represented by the direction vector A of the object shown and as part of the method Oi to be identified hand of a person runs.
  • the situation shown in view 320 results here that the frequency distribution can only be well approximated using a linear combination of several Gaussian functions, which in turn leads to a more difficult and possibly less reliable or less precise identification of the object Oi.
  • the method 200 can in particular provide that the one-dimensional direction is selected on the basis of the result of a principal component analysis in such a way that a fixed spatial direction is selected for the one-dimensional quantity such that it runs orthogonally to a first principal component, which consists of a point cloud applied principal component analysis results.
  • the least dominant main component (here along the z-direction) is selected, which usually optimizes the probability that the most dominant main component is at least predominantly perpendicular to it and thus to the scanning direction (here z-direction) and therefore a more dem scenario approximated to the first scenario with optimized segment allocation and object allocation.
  • Diagram 400 relates to an extension of the method, in particular also of method 200, to the case m>1.
  • each function, especially Gaussian may represent only one object category (i.e. a set of multiple objects that is not further discriminated by the chosen feature) and not necessarily exactly a single object.
  • One approach to improving the method with regard to its selectivity includes adding at least one additional one-dimensional variable so that m>1 applies.
  • a local temperature value T recorded for the respective point can also be used as a second variable and thus as an additional basis for the assignment.
  • the hand has a higher (surface) temperature than the background and a classification of the points pi according to their respective local temperature value Ti according to a second frequency distribution h'(k'(T) related to the temperature as an independent variable ) or h'(T) for short, which in turn can be approximated by a linear function of distribution density functions gi in accordance with method 200, only this time related to the temperature instead of the z-coordinate.
  • the size z enables the point cloud to be subdivided into the categories of near object and distant object or image background.
  • the thermal quantity (temperature) T can divide the points into the categories "warm objects" and "cold objects".
  • the image background B can optionally also be viewed as a distant object.
  • P ⁇ p x , ... , p n ⁇ be a point cloud generated by the sensory scanning of the scene, with each point p L being assigned a depth value z and a measured local temperature value T at the location of the measured position of the respective point Pt becomes.
  • equation (5) an approximation according to equation (5) is carried out for the depth z of the points, initially considered as a single variable, in order to determine a linear combination of functions f q (z) which approximates the depth value distribution of the points.
  • Each of the functions f q (z) again represents a depth segment.
  • the product for the selected point p t the combination /i(Pi) ' ⁇ (Pr) is largest among all combinations, so that the concrete point pt is assigned to the combined segment (1;2). becomes, which here corresponds to the closest and at the same time warmest object.
  • the points of this combined segment can then be identified as points of an object to be recognized, here the hand Oi.
  • the method according to the invention can be used in its various variants for a wide variety of applications.
  • Such applications include, in particular, the separation of images of different body parts of a person, of different people or of one or more people on the one hand and one or more other objects on the other hand, each from one another or from a background.
  • the method can be used to separate one or more body parts of a person in an image captured by sensors, in order then, depending on the result of such a separation or segmentation and a subsequent identification of the body parts as objects, to carry out gesture recognition with regard to any of the perform gestures performed by the person.

Abstract

A method for recognizing one or more objects, which are represented in an image by means of an M-dimensional point cloud, with M > 1, composed of a plurality n of points, comprises: determining, for each of a number m, with m > 0, of specific one-dimensional variables, an associated value of the variable for each of the points on the basis of the position or properties of the point; determining, for each of the variables, a frequency distribution with respect to the respective values of said variable which were determined for the various points; approximating each of the frequency distributions by means of a linear combination of a finite number of one-dimensional probability density functions associated with the variable in question; segmenting the image such that, in the case of m = 1, each of the probability density functions and, in the case of m > 1, each product of m probability density functions, one of the associated probability density functions per variable being represented in the product, is uniquely assigned a segment of the image; assigning each point of the point cloud to the segment, the probability density function associated with which, in the case of m = 1, or the product associated with which, in the case of m > 1, has, at the location which is determined by the values of the m variables which are assigned to the point, relatively the greatest function value among the probability density functions or relatively the greatest product value among the products; and identifying, as a representative of an associated recognized object, at least one of the segments to which at least a predefined minimum number of points was assigned. A corresponding device and a computer program are designed to carry out the method.

Description

VERFAHREN UND SYSTEM ZUM ERKENNEN VON IN EINEM BILD ANHAND EINER PUNKTWOLKE REPRÄSENTIERTEN OBJEKTEN METHOD AND SYSTEM FOR RECOGNIZING OBJECTS REPRESENTED IN AN IMAGE BY A CLOUD OF POINTS
Die vorliegende Erfindung betrifft ein Verfahren sowie ein System zum Erkennen von einem oder mehreren Objekten, die in einem Bild bzw. in entsprechenden Bilddaten anhand einer Punktwolke repräsentiert sind. The present invention relates to a method and a system for recognizing one or more objects that are represented in an image or in corresponding image data using a point cloud.
In vielen verschiedenen technischen Anwendungen stellt sich die Aufgabe, Bilddaten, also Daten die ein Bild oder eine Abfolge von Bildern, wie etwa ein Video, repräsentieren, dahingehend zu analysieren ob und gegebenenfalls welche Objekte in dem bzw. den Bildern abgebildet sind. Auch das Erkennen von Bewegungen oder Veränderungen solcher Objekte auf Basis solcher Bilder bzw. Bilddaten sind regelmäßig von Interesse. In many different technical applications, the task arises of analyzing image data, ie data representing an image or a sequence of images, such as a video, to determine whether and, if so, which objects are depicted in the image(s). The detection of movements or changes in such objects on the basis of such images or image data is also regularly of interest.
Zu den Methoden zur Erzeugung von Bildern bzw. Bilddaten gehören neben den bekannten Verfahren der Fotographie oder der Aufnahme von „bewegten Bildern“, wie etwa von Videoaufnahmen, auch Methoden der, insbesondere diskreten, Abtastung einer realen Szene mit einem oder mehreren zugehörigen realen Objekten (z.B. Personen oder Dingen), bei dem die resultierenden Bilddaten eine zwei- oder dreidimensionale Punktwolke repräsentieren. Eine solche Abtastung kann insbesondere mit Bildsensoren durchgeführt werden, die eine Szene auch in der Tiefendimension abtasten. Beispiele für solche Bildsensoren sind insbesondere Stereokameras, Flugzeitsensoren (Flugzeit- bzw. Time-of-Flight (TOF)-Sensoren), und elektrooptische Entfernungssensoren (Laser Range Finders (LRF)-Sensoren). Alternativ können solche Punktwolken auch durch Radar-, Lidar- oder Ultraschallsensoren generiert werden. Alternativ können solche Punktwolken aber auch künstlich generiert werden, ohne dass dazu zwingend eine reale Szene sensorisch erfasst werden muss. Insbesondere können solche Punktwolken im Rahmen bzw. als Ergebnis von Simulationen, insbesondere von Simulationen realer Szenen, künstlich, insbesondere computergestützt, generiert werden. In addition to the known methods of photography or the recording of "moving images", such as video recordings, the methods for generating images or image data also include methods of, in particular discrete, scanning of a real scene with one or more associated real objects ( e.g. people or things), where the resulting image data represents a two- or three-dimensional point cloud. Such scanning can be carried out in particular with image sensors that also scan a scene in the depth dimension. Examples of such image sensors are, in particular, stereo cameras, time-of-flight sensors (time of flight or time-of-flight (TOF) sensors), and electro-optical distance sensors (laser range finders (LRF) sensors). Alternatively, such point clouds can also be generated by radar, lidar or ultrasonic sensors. Alternatively, such point clouds can also be generated artificially, without a real scene having to be recorded by sensors. In particular, such point clouds can be generated artificially, in particular computer-aided, as part of or as the result of simulations, in particular simulations of real scenes.
Bei einigen Anwendungen kann es erforderlich sein, eine Segmentierung (im Sinne der Bildverarbeitung) einer solchen Punktwolke vorzunehmen, um verschiedene Bildbereiche bzw. Bereiche der Punktwolke als Segmente (d.h. Bildsegmente) voneinander unterscheiden bzw. separieren zu können, etwa um einen Bildvordergrund von einem Bildhintergrund zu trennen. In some applications, it may be necessary to segment such a point cloud (in the sense of image processing) in order to be able to distinguish or separate different image areas or areas of the point cloud as segments (i.e. image segments), for example to be able to separate an image foreground from an image background to separate.
Ein einfaches bekanntes Verfahren für eine solche Vordergrund/Hintergrund- Segmentierung für ein durch eine Punktwolke gegebenes Bild besteht darin, die Tiefeninformation bezüglich der Punkte einer Punktwolke mittels eines Schwellwertverfahrens auszuwerten, indem alle Punkte die ausweislich ihrer Tiefeninformation näher liegen als eine bestimmte Tiefenschwelle, dem Bildvordergrund zugeordnet werden, während alle anderen Punkte dem Bildhintergrund zugeordnet werden. A simple known method for such a foreground/background segmentation for an image given by a point cloud is the Evaluate depth information regarding the points of a point cloud by means of a threshold value method, in that all points which, according to their depth information, are closer than a specific depth threshold are assigned to the image foreground, while all other points are assigned to the image background.
Wenn eine durch die Punktwolke repräsentierte Szene beispielsweise zwei verschiedene Objekte enthält, dann kann auf diese Weise auch eine Separierung der beiden Objekte in dem Bild bzw. in der Punktwolke erreicht werden. If a scene represented by the point cloud contains, for example, two different objects, a separation of the two objects in the image or in the point cloud can also be achieved in this way.
Ein solches Verfahren stößt jedoch an seine Grenzen, wenn die Objekte nah beieinander liegen, insbesondere so, dass sie in jeder betrachteten Raumdimension überlappen und somit die die jeweiligen die Objekte repräsentierenden einzelnen Punktwolken ohne klar erkennbare Separierung ineinander übergehen und zu einer gemeinsamen Punktwolke verschmelzen. However, such a method reaches its limits when the objects are close together, in particular in such a way that they overlap in each spatial dimension considered and thus the individual point clouds representing the objects merge into one another without clearly recognizable separation and merge into a common point cloud.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, die Erkennung von einem oder mehreren Objekten, die in einem Bild bzw. in entsprechenden Bilddaten anhand einer Punktwolke repräsentiert sind, weiter zu verbessern. Insbesondere ist es wünschenswert, dabei eine verbesserte Separierbarkeit verschiedener Objekte zu erreichen. The object of the present invention is to further improve the recognition of one or more objects that are represented in an image or in corresponding image data using a cloud of points. In particular, it is desirable to achieve improved separability of different objects.
Die Lösung dieser Aufgabe wird gemäß der Lehre der unabhängigen Ansprüche erreicht. Verschiedene Ausführungsformen und Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche. The solution to this problem is achieved according to the teaching of the independent claims. Various embodiments and developments of the invention are the subject matter of the dependent claims.
Ein erster Aspekt der Erfindung betrifft ein, insbesondere computerimplementiertes, Verfahren zum Erkennen von einem oder mehreren in einem Bild anhand einer M- dimensionalen Punktwolke, mit M>1 , aus einer Mehrzahl n von Punkten repräsentierten Objekten, wobei das Verfahren aufweist: (i) Bestimmen, für jede einer Anzahl m, mit m > 0, von bestimmten eindimensionalen Größen, eines jeweiligen zugeordneten Werts der Größe zu jedem der Punkte auf Basis von dessen Position oder Eigenschaften; (ii) Bestimmen, für jede der Größen, einer jeweiligen Häufigkeitsverteilung bezüglich der für die verschiedenen Punkte jeweils bestimmten Werte dieser Größe; (iii) Approximieren jeder der Häufigkeitsverteilungen mittels einer jeweiligen Linearkombination einer endlichen Anzahl von der zugrundeliegenden Größe zugeordneten eindimensionalen Wahrscheinlichkeitsdichtefunktionen; (iv) Segmentieren des Bildes so, dass im Fall m=1 jeder der Wahrscheinlichkeitsdichtefunktionen und im Fall m>1 jedem Produkt aus m Wahrscheinlichkeitsdichtefunktionen, wobei je eine, insbesondere genau eine, der zugeordneten Wahrscheinlichkeitsdichtefunktionen je Größe in dem Produkt vertreten ist, ein jeweiliges Segment des Bildes eindeutig zugeordnet wird; (v) Jeweiliges Zuordnen jedes Punkts der Punktwolke zu demjenigen Segment, dessen zugeordnete Wahrscheinlichkeitsdichtefunktion im Fall m=1 bzw. dessen zugeordnetes Produkt im Fall m>1 an der Stelle, die durch die dem Punkt zugeordneten Werte der m Größen bestimmt ist, den relativ größten Funktionswert bzw. Produktwert unter den Wahrscheinlichkeitsdichtefunktionen bzw. Produkten aufweist; und (vi) Identifizieren zumindest eines derjenigen Segmente, denen jeweils zumindest eine vorbestimmte Mindestanzahl von Punkten zugeordnet wurde, als Repräsentant eines jeweiligen erkannten Objekts. A first aspect of the invention relates to a method, in particular a computer-implemented method, for recognizing one or more objects represented in an image using an M-dimensional point cloud, with M>1, from a plurality n of points, the method having: (i) determining, for each of a number m, with m > 0, of certain one-dimensional quantities, a respective associated value of the quantity to each of the points based on its position or properties; (ii) determining, for each of the quantities, a respective frequency distribution in relation to the values of this quantity determined for the various points; (iii) approximating each of the frequency distributions by means of a respective linear combination of a finite number of one-dimensional probability density functions associated with the underlying quantity; (iv) Segment the image such that if m=1 each of the probability density functions and if m>1 each product of m Probability density functions, one, in particular precisely one, of the associated probability density functions being represented for each variable in the product, a respective segment of the image being unambiguously associated; (v) Assigning each point of the point cloud to that segment whose assigned probability density function in the case of m=1 or its assigned product in the case of m>1 at the point that is determined by the values of the m variables assigned to the point, the relative has the largest function value or product value among the probability density functions or products; and (vi) identifying at least one of those segments to which at least a predetermined minimum number of points has been assigned as a representative of a respective recognized object.
Unter einer „Punktwolke“ ist im Sinne der Erfindung eine Menge von Punkten eines Vektorraums (soweit nicht nachfolgend für Ausführungsformen auf bestimmte Dimensionen eingeschränkt) beliebiger vorgegebener Dimension M>1 zu verstehen, die insbesondere eine organisierte oder aber eine unorganisierte räumliche Struktur aufweisen kann. Eine Punktwolke ist durch die in ihr enthaltenen Punkte beschrieben, die jeweils insbesondere durch ihre mittels Raumkoordinaten angegebenen Positionen erfasst sein können. Zu den Punkten können zusätzlich Attribute, wie z. B. geometrische Normalen, Farbwerte, Temperaturwerte, Aufnahmezeitpunkte oder Messgenauigkeiten oder andere Informationen, erfasst sein. A “cloud of points” in the sense of the invention is a set of points of a vector space (unless restricted to specific dimensions below for embodiments) of any given dimension M>1, which in particular can have an organized or an unorganized spatial structure. A point cloud is described by the points it contains, which can each be recorded in particular by their positions specified using spatial coordinates. In addition to the points, attributes such as B. geometric standards, color values, temperature values, recording times or measurement accuracies or other information.
Unter einer „eindimensionalen Größe“ im Sinne der Erfindung ist eine beliebige ausgewählte Größe zu verstehen, die eindimensional, also als Zahl (mit oder ohne Einheit) vollständig bestimmt werden kann, und die eine Eigenschaft eines Punkts einer Punktwolke kennzeichnet. Die Eigenschaft kann insbesondere eine Positionsinformation, etwa eine Raumkoordinate, oder ein Attribut des Punkts sein oder davon abgeleitet sein. Im Falle einer Positionsinformation kann die Größe insbesondere, ohne jedoch darauf begrenzt zu sein, einer Zuordnung der Position zu einer bestimmten Stelle auf einer Richtungsgeraden (z.B. Koordinatenachse) entsprechen. In einem anderen Beispiel könnte sie jedoch auch einem Abstand des jeweiligen Punkts der Punktwolke zu einem bestimmten Bezugspunkt entsprechen, sodass beispielsweise konzentrisch im gleichen Abstand von diesem Bezugspunkt liegende Punkte denselben Wert für die Größe aufweisen. A “one-dimensional quantity” within the meaning of the invention is to be understood as any selected quantity that can be completely determined one-dimensionally, ie as a number (with or without a unit), and that characterizes a property of a point in a point cloud. In particular, the property can be position information, such as a spatial coordinate, or an attribute of the point or be derived therefrom. In the case of position information, the size can correspond in particular, but is not limited to, an assignment of the position to a specific point on a directional line (e.g. coordinate axis). In another example, however, it could also correspond to a distance of the respective point of the point cloud from a specific reference point, so that, for example, points lying concentrically at the same distance from this reference point have the same value for the size.
Sei X eine stetige Zufallsvariable (vorliegend eine stetige Variable, die, eine der eindimensionalen kennzeichnenden Größen repräsentiert). Unter einer „eindimensionalen Wahrscheinlichkeitsdichtefunktion“ im Sinne der Erfindung ist dann eine mathematische Funktion f(x) der eindimensionalen Zufallsvariable X zu verstehen, für die gilt: sp (ci < X < b) steht hierbei für die Wahrscheinlichkeit oder tatsächlichen Häufigkeit des Auftretens eines Wertes für x aus dem durch a und b spezifizierten Werteintervall ]a;b]. Speziell für den Wert c = 1 des Skalierungsfaktors c stimmt diese Definition von f(x) mit der in der Mathematik üblichen Definition einer Wahrscheinlichkeitsdichtefunktion einer eindimensionalen stetigen Zufallsvariable überein. Der Begriff einer „eindimensionalen Wahrscheinlichkeitsdichtefunktion“ im Sinne der Erfindung ist also demgegenüber verallgemeinert, da c hier auch andere Werte als 1 annehmen kann. Let X be a continuous random variable (here a continuous variable representing one of the one-dimensional characteristic quantities). A “one-dimensional probability density function” within the meaning of the invention is then to understand a mathematical function f(x) of the one-dimensional random variable X, for which the following applies: sp (ci < X < b) stands for the probability or actual frequency of the occurrence of a value for x from the value interval ]a;b] specified by a and b. Especially for the value c = 1 of the scaling factor c, this definition of f(x) agrees with the usual mathematical definition of a probability density function of a one-dimensional continuous random variable. In contrast, the concept of a “one-dimensional probability density function” within the meaning of the invention is therefore generalized, since c can also assume values other than 1 here.
Unter einem „Segment“ eines Bildes (bzw. einer Punktwolke) ist im Sinne der Erfindung eine inhaltlich zusammenhängende Region eines Bildes (bzw. einer Punktwolke) zu verstehen, die durch Zusammenfassung benachbarter Bildpunkte (bzw. Punkte einer Punktwolke) entsprechend einem bestimmten Homogenitätskriterium definiert ist. Das Homogenitätskriterium kann sich dabei, ohne darauf beschränkt zu sein, insbesondere auf eine Position oder Koordinate oder ein Attribut der Punkte beziehen. Der Zusammenhang der Region kann somit insbesondere in einigen Fällen räumlich zu verstehen sein, während er sich in anderen Fällen insbesondere auf Punkte im Sinne des Homogenitätskriteriums gleicher oder ähnlicher Attribute beziehen kann. A “segment” of an image (or a point cloud) in the sense of the invention is a content-related region of an image (or a point cloud) that is defined by combining adjacent pixels (or points in a point cloud) according to a specific homogeneity criterion is. In this case, the homogeneity criterion can relate in particular to a position or coordinate or an attribute of the points, without being limited thereto. The context of the region can thus be understood spatially in some cases in particular, while in other cases it can relate in particular to points in the sense of the homogeneity criterion of the same or similar attributes.
Die hierein gegebenenfalls verwendeten Begriffe "umfasst", "beinhaltet", "schließt ein", "weist auf", "hat", "mit", oder jede andere Variante davon sollen eine nicht ausschließliche Einbeziehung abdecken. So ist beispielsweise ein Verfahren oder eine Vorrichtung, die eine Liste von Elementen umfasst oder aufweist, nicht notwendigerweise auf diese Elemente beschränkt, sondern kann andere Elemente einschließen, die nicht ausdrücklich aufgeführt sind oder die einem solchen Verfahren oder einer solchen Vorrichtung inhärent sind. As used herein, the terms "comprises," "includes," "includes," "has," "has," "having," or any other variant thereof, as appropriate, are intended to cover non-exclusive inclusion. For example, a method or apparatus that includes or has a list of elements is not necessarily limited to those elements, but may include other elements that are not expressly listed or that are inherent in such method or apparatus.
Ferner bezieht sich "oder", sofern nicht ausdrücklich das Gegenteil angegeben ist, auf ein inklusives oder und nicht auf ein exklusives „oder“. Zum Beispiel wird eine Bedingung A oder B durch eine der folgenden Bedingungen erfüllt: A ist wahr (oder vorhanden) und B ist falsch (oder nicht vorhanden), A ist falsch (oder nicht vorhanden) und B ist wahr (oder vorhanden), und sowohl A als auch B sind wahr (oder vorhanden). Die Begriffe "ein" oder "eine", wie sie hier verwendet werden, sind im Sinne von „ein/eine oder mehrere“ definiert. Die Begriffe "ein anderer" und „ein weiterer“ sowie jede andere Variante davon sind im Sinne von „zumindest ein Weiterer“ zu verstehen. Further, unless expressly stated to the contrary, "or" refers to an inclusive or and not to an exclusive "or". For example, a condition A or B is satisfied by one of the following conditions: A is true (or present) and B is false (or absent), A is false (or absent) and B is true (or present), and both A and B are true (or present). As used herein, the terms "a" or "an" are defined to mean "one or more". The terms "another" and "another" and any other variant thereof shall be construed to mean "at least one other".
Der Begriff "Mehrzahl", wie er hier verwendet wird, ist im Sinne von „zwei oder mehr“ zu verstehen. The term "plurality" as used herein means "two or more".
Unter dem Begriff „konfiguriert“ oder „eingerichtet“ eine bestimmte Funktion zu erfüllen, (und jeweiligen Abwandlungen davon) ist im Sinne der Erfindung zu verstehen, dass die entsprechende Vorrichtung bereits in einer Ausgestaltung oder Einstellung vorliegt, in der sie die Funktion ausführen kann oder sie zumindest so einstellbar - d.h. konfigurierbar - ist, dass sie nach entsprechender Einstellung die Funktion ausführen kann. Die Konfiguration kann dabei beispielsweise über eine entsprechende Einstellung von Parametern eines Prozessablaufs oder von Schaltern oder ähnlichem zur Aktivierung bzw. Deaktivierung von Funktionalitäten bzw. Einstellungen erfolgen. Insbesondere kann die Vorrichtung mehrere vorbestimmte Konfigurationen oder Betriebsmodi aufweisen, so dass das konfigurieren mittels einer Auswahl einer dieser Konfigurationen bzw. Betriebsmodi erfolgen kann. The term "configured" or "set up" to perform a specific function (and respective modifications thereof) is to be understood within the meaning of the invention that the corresponding device is already in a configuration or setting in which it can or can perform the function it is at least adjustable - i.e. configurable - so that it can carry out the function after appropriate setting. The configuration can take place, for example, via a corresponding setting of parameters of a process flow or of switches or the like for activating or deactivating functionalities or settings. In particular, the device can have a plurality of predetermined configurations or operating modes, so that the configuration can take place by selecting one of these configurations or operating modes.
Das vorgenannte Verfahren nach dem ersten Aspekt beruht folglich insbesondere darauf, die Punktewolke mittels einer oder mehreren ausgewählten, jeweils eindimensionalen Größen zu beschreiben, die jeden Punkt der Punktwolke jeweils auf Basis von dessen Position oder Eigenschaften kennzeichnen, und jeweils eine darauf gründende Häufigkeitsverteilung der Werte der jeweiligen Größe mittels eindimensionaler Wahrscheinlichkeitsdichtefunktionen (im Sinne der Näherungs- bzw. Ausgleichsrechnung) zu approximieren. Auf Basis dieser Approximation, insbesondere den jeweiligen Funktionswerten der verschiedenen Wahrscheinlichkeitsdichtefunktionen zu dem zu einem betrachteten Punkt jeweils gehörigen Werten der jeweiligen Größe, kann dieser Punkt sodann eindeutig einem Segment des Bildes bzw. der Punktwolke zugeordnet werden. Dies ist in vielen Fällen selbst dann möglich, wenn die Punktwolkenanteile verschiedener Objekte bzw. von einem Objekt und dem Bildhintergrund nahe beieinander liegen. Dies kann insbesondere dazu verwendet werden, die Abbilder mehrerer durch eine Punktwolke repräsentierten Objekte voneinander zu separieren. Insbesondere kann so die Genauigkeit der Separation erhöht bzw. die Fehlerquote gesenkt werden. Besonders hohe Genauigkeiten bzw. niedrige Fehlerquoten können im Fall m>1 erreicht werden, da hier verschiedene, voneinander unabhängige Größen Zusammenwirken, um noch schärfere Separierungskriterien für die Zuordnung der Punkte zu je einem Bildsegment und somit ggf. zu einem zugehörigen Objekt zu liefern. So können in vielen Fällen auch solche Abbilder von Objekten gut voneinander separiert werden, die bei Verwendung nur einer Größe nicht oder nur mit höherer Fehlerquote bzgl. der Punktezuordnung zu trennen wären. The aforementioned method according to the first aspect is therefore based in particular on describing the cloud of points using one or more selected, one-dimensional variables that characterize each point in the cloud of points on the basis of its position or properties, and a frequency distribution of the values of the to approximate the respective variable by means of one-dimensional probability density functions (in the sense of the approximation or adjustment calculation). On the basis of this approximation, in particular the respective function values of the various probability density functions for the values of the respective quantity associated with a point under consideration, this point can then be unambiguously assigned to a segment of the image or the point cloud. In many cases, this is even possible if the point cloud portions of different objects or of one object and the image background are close to each other. This can be used in particular to separate the images of multiple objects represented by a point cloud from one another. In particular, the accuracy of the separation can be increased and the error rate reduced. Particularly high accuracies or low error rates can be achieved in the case of m>1, since different variables that are independent of one another interact here to create even stricter separation criteria for assigning the points to an image segment and thus if necessary, to deliver to an associated object. In many cases, it is also possible to separate images of objects well from one another which, if only one size were used, could not be separated or could only be separated with a higher error rate with regard to the allocation of points.
Nachfolgend werden bevorzugte Ausführungsformen des Verfahrens beschrieben, die jeweils, soweit dies nicht ausdrücklich ausgeschlossen wird oder technisch unmöglich ist, beliebig miteinander sowie mit den weiteren beschriebenen anderen Aspekten der Erfindung kombiniert werden können. Preferred embodiments of the method are described below, each of which, unless expressly excluded or technically impossible, can be combined with one another and with the other aspects of the invention described further as desired.
Bei einigen Ausführungsformen für den Fall m=1 erfolgt dass Zuordnen der Punkte der Punktwolke zu je einem Segment so (Segmentierungskriterium), dass jeder zuzuordnende Punkt in Abhängigkeit vom Ergebnis eines Vergleichs des Werts der eindimensionalen Größe für diesen Punkt mit zumindest einem Schwellwert einem Segment des Bildes zuordnet wird. Dabei wird zumindest einer der Schwellwerte so in Abhängigkeit von einem Wert der Größe definiert, an dem einer der Schnittpunkte von zumindest zwei dieser Wahrscheinlichkeitsdichtefunktionen auftritt, dass der Schwellwert dem Wert der Größe für diesen Schnittpunkt entspricht. In some embodiments for the case m=1, the points of the point cloud are assigned to one segment each (segmentation criterion) in such a way that each point to be assigned is assigned to a segment of the image is assigned. At least one of the threshold values is defined as a function of a variable value at which one of the intersection points of at least two of these probability density functions occurs such that the threshold value corresponds to the variable value for this intersection point.
Diese Vorgehensweise kann insbesondere auch so veranschaulicht werden, dass mittels des Schwellwerts im M-dimensionalen Raum, in dem die Punktwolke definiert ist, im Falle M=2 eine Separationslinie, im Falle M=3 eine Separationsebene und im Falle M>3 eine Separationshyperebene festgelegt wird, die verschiedenen Segmenten zuzuordnende Punkte voneinander separiert. Falls es mehr als zwei Segmente und somit zwei oder mehr verschiedene Schwellwerte gibt, treten entsprechen mehrere solcher Separationslinien bzw. (Hyper-)ebenen auf. This procedure can also be illustrated in particular by using the threshold value in the M-dimensional space in which the point cloud is defined to define a separation line in the case of M=2, a separation plane in the case of M=3 and a separation hyperplane in the case of M>3 is used to separate the points to be assigned to the different segments. If there are more than two segments and therefore two or more different threshold values, then several such separation lines or (hyper)planes occur.
Das o.g. Segmentierungskriterium lässt sich so auf einfache Weise festlegen und effizient ohne großen Rechenaufwand anwenden, um die einzelnen Punkte jeweils einem Segment zuzuordnen. Die Definition des bzw. der Schwellwerte in Abhängigkeit von dem bzw. den Schnittpunkten der Wahrscheinlichkeitsdichtefunktionen ist dabei insbesondere auch im Hinblick auf das Ziel einer möglichst zuverlässigen (fehlerarmen bzw. fehlerfreien) Zuordnung vorteilhaft. Wenn nämlich die Wahrscheinlichkeitsdichtefunktionen für die Linearkombination durch die Approximation so bestimmt sind, dass sie jeweils gut die jeweilige Häufigkeitsverteilung der Größe für ein bestimmtes Objekt approximieren, dann kann man gemäß der oben genannten Beziehung (1 ) ihr Integral über ein bestimmtes Werteintervall, in dem zu einem bestimmten Punkt der zugehörige Wert für die Größe liegt, mit einer jeweiligen Wahrscheinlichkeit dafür assoziieren, dass der Punkt zu dem durch die jeweilige Wahrscheinlichkeitsdichtefunktion approximierten Objekt gehört. Wird demnach ein Punkt aufgrund seines Wertes für die Größe als Ergebnis des Vergleichs mit dem Schwellwert einem bestimmten Segment zugeordnet, so bedeutet dies, dass er mit einer höheren Wahrscheinlichkeit zu dem mit diesem Segment assoziierte Objekt gehört als zu dem anderen Objekt, dessen assoziiertes Segment mittels des Schwellwerts vom zugeordneten Segment separiert ist. The above-mentioned segmentation criterion can thus be defined in a simple manner and used efficiently without a great deal of computational effort in order to allocate the individual points to a segment in each case. The definition of the threshold value(s) as a function of the point(s) of intersection of the probability density function is particularly advantageous with regard to the goal of an assignment that is as reliable as possible (with few or no errors). Namely, if the probability density functions for the linear combination are determined by the approximation in such a way that they each approximate the respective frequency distribution of the size for a specific object well, then their integral over a specific value interval, in which to the associated value for the size lies at a certain point, with a respective one Associate the probability that the point belongs to the object approximated by the respective probability density function. Thus, if a point is assigned to a particular segment based on its size value as a result of comparison with the threshold, this means that it has a higher probability of belonging to the object associated with this segment than to the other object whose associated segment is determined by means of of the threshold is separated from the associated segment.
Bei einigen Ausführungsformen gibt zumindest eine der m Größen für jeden der Punkte der Punktwolke eine auf eine ausgewählte feste Raumrichtung projizierte Lage dieses Punkts entlang dieser Raumrichtung an. Auf diese Weise ist insbesondere eine Separierung von verschiedenen Objekten oder von Objekt und Hintergrund auf Basis der räumlichen Lage der Punkte (entlang der Raumrichtung) ermöglicht. Das kann beispielsweise genutzt werden, um in einer zwei- oder dreidimensionalen Punktewolke (M e {2;3}) mit Tiefendimension z , eine Segmentierung des Bildes bzw. der Punktwolke auf Basis der durch die Punktepositionen gegebenen Tiefeninformation zu erreichen, insbesondere auch im Sinne einer Vordergrund/Hintergrundsegmentierung. Die Raumrichtung kann insbesondere zur Richtung einer Koordinatenachse eines zur Festlegung der Positionen der Punkte im M-dimensionalen Raum verwendeten Koordinatensystems entsprechen. In some embodiments, at least one of the m quantities for each of the points in the point cloud indicates a position of this point along this spatial direction, projected onto a selected fixed spatial direction. In this way, in particular, a separation of different objects or of object and background on the basis of the spatial position of the points (along the spatial direction) is made possible. This can be used, for example, to achieve segmentation of the image or point cloud in a two- or three-dimensional point cloud (M e {2;3}) with depth dimension z on the basis of the depth information given by the point positions, in particular also in the sense a foreground/background segmentation. The spatial direction can in particular correspond to the direction of a coordinate axis of a coordinate system used to define the positions of the points in the M-dimensional space.
Bei einigen Ausführungsformen wird die feste Raumrichtung so ausgewählt, dass sie orthogonal zu einer ersten Hauptkomponente verläuft, die aus einer auf die Punktwolke angewandten Hauptkomponentenanalyse resultiert. Dies ist insbesondere für die Erkennung von Objekten vorteilhaft, die hinsichtlich einer Raumrichtung vom Hintergrund oder anderen Objekten separiert werden sollen, die nicht mit der Richtung der ersten Hauptkomponente zusammenfällt, vorzugsweise sogar, zumindest im Wesentlichen, senkrecht dazu steht. Da die erste Hauptkomponente aus einer Hauptkomponentenanalyse bei nicht kugelsymmetrischen Objekten die dominante Komponente darstellt, lassen sich so folglich insbesondere solche Objekte gut separieren, deren dominante Komponente zumindest weitgehend quer zur betrachteten festen Raumrichtung verläuft. Wenn beispielsweise die ausgewählte feste Raumrichtung der Tiefenrichtung (z.B. ,,z“-Richtung) eines Tiefenbilds entspricht, dann kann ein Arm, der quer zu Tiefenrichtung im Bild abgebildet ist und dessen der Längsrichtung des Arms entsprechende Hauptkomponente somit auch quer (z.B. in x- oder y-Richtung orthogonal zur z-Richtung) zur ausgewählten festen Raumrichtung verläuft, besonders gut erkannt bzw. separiert werden. Speziell kann bei einigen Ausführungsformen, für die M e {2;3} gilt, die feste Raumrichtung so ausgewählt werden, dass sie im Falle M=2 der aus der Hauptkomponentenanalyse resultierenden zweiten Hauptkomponente und im Falle M=3 der aus der Hauptkomponentenanalyse resultierenden dritten Hauptkomponente entspricht. Somit wird als feste Raumrichtung die am wenigsten dominante der Hauptkomponenten gewählt, so dass damit solche Objekte besonders gut erkannt bzw. separiert werden können, deren dominanteren ersten bzw. zweiten Hauptkomponenten quer, insbesondere orthogonal, zu der festen Raumrichtung liegen. In some embodiments, the fixed spatial direction is selected to be orthogonal to a first principal component resulting from a principal component analysis applied to the point cloud. This is particularly advantageous for the detection of objects that are to be separated from the background or other objects with regard to a spatial direction that does not coincide with the direction of the first principal component, preferably even, at least essentially, is perpendicular thereto. Since the first principal component from a principal component analysis represents the dominant component for objects that are not spherically symmetric, it is consequently particularly easy to separate those objects whose dominant component runs at least largely transversely to the fixed spatial direction under consideration. If, for example, the selected fixed spatial direction corresponds to the depth direction (e.g. "z" direction) of a depth image, then an arm that is shown transverse to the depth direction in the image and whose main component corresponding to the longitudinal direction of the arm can also be transverse (e.g. in x- or y-direction orthogonal to the z-direction) to the selected fixed spatial direction can be recognized or separated particularly well. Specifically, in some embodiments for which M e {2;3} applies, the fixed spatial direction can be selected such that, in the case of M=2, it is the second principal component resulting from the principal component analysis and, in the case of M=3, the third principal component resulting from the principal component analysis Main component corresponds. The least dominant of the main components is thus selected as the fixed spatial direction, so that objects can be recognized or separated particularly well whose more dominant first or second main components are transverse, in particular orthogonal, to the fixed spatial direction.
Bei einigen Ausführungsformen weist das Verfahren des Weiteren auf: Filtern des Bildes so, dass es nach der Filterung nur noch solche Punkte der Punktwolke enthält, die einem der Segmente zugeordnet wurden, die jeweils als Repräsentant eines jeweiligen erkannten Objekts identifiziert wurden. Auf diese Weise lässt sich insbesondere eine Filterfunktion implementieren, die bewirkt, dass nur das bzw. die interessierenden Objekte erkannt bzw. identifiziert wird, während gegebenenfalls andere Objekte oder der Bildhintergrund zumindest weitgehend ignoriert werden (Bis auf gegebenenfalls solche Punkte, die irrtümlich dem bzw. den interessierenden verbleibenden Objekten zugeordnet wurden). In some embodiments, the method further includes: filtering the image such that, after filtering, it only contains those points of the point cloud that have been assigned to one of the segments that have each been identified as representing a respective recognized object. In this way, a filter function can be implemented in particular, which has the effect that only the object or objects of interest is recognized or identified, while other objects or the image background are at least largely ignored (except for those points that may have been mistakenly assigned to the object or objects). assigned to the remaining objects of interest).
Speziell kann bei einigen dieser Ausführungsformen das Filtern des Bildes so erfolgen, dass es nach der Filterung nur noch solche Punkte der Punktwolke enthält, die genau einem bestimmten ausgewählten derjenigen Segmente zugeordnet wurden, das als Repräsentant eines zugeordneten erkannten Objekts identifiziert wurde. So lässt sich ein Ergebnis erzielen, bei dem höchstens oder insbesondere nur genau ein einziges Objekt identifiziert wird. Specifically, in some of these embodiments, the image can be filtered in such a way that, after filtering, it only contains those points of the point cloud that have been assigned exactly to a specific selected one of those segments that has been identified as representing an assigned recognized object. A result can thus be achieved in which at most or in particular only exactly one single object is identified.
Bei einigen Ausführungsformen, bei denen für m=1 die Größe für jeden der Punkte der Punktwolke eine auf eine ausgewählte feste Raumrichtung projizierte Lage dieses Punkts entlang dieser Raumrichtung angibt, wird dasjenige Segment aus der Menge der jeweils als Repräsentant eines jeweiligen erkannten Objekts identifizierten Segmente ausgewählt, dessen zugeordnete Punkte gemäß ihrer auf die ausgewählte feste Raumrichtung projizierten Lagen in Blickrichtung entlang dieser Raumrichtung betrachtet, im jeweiligen Mittel betrachtet, näher liegen als die einem beliebigen anderen der identifizierten Segmente zugeordneten Punkte. Dies ist insbesondere zum Zwecke der Vordergrund-/Hintergrund-Segmentierung vorteilhaft einsetzbar, wenn nur ein (bzw. das) zuvorderst liegendes Objekt als Vordergrund erkannt werden soll. Bei einigen Ausführungsformen gilt m>1 und zumindest eine der m Größen gibt für jeden der Punkte der Punktwolke einen Temperaturwert oder einen Farbwert an. Eine andere der m Größen kann sich insbesondere auf die Position des jeweiligen Punkts beziehen. So kann insbesondere dann eine besonders zuverlässige, d.h. trennscharfe, Segmentierung erreicht werden, wenn das bzw. die zu identifizierenden Objekte typischerweise eine von ihrer Umgebungstemperatur abweichende Oberflächentemperatur aufweisen, wie das insbesondere bei lebenden Objekten, insbesondere Personen oder Tieren, meist der Fall ist. In some embodiments, in which for m=1 the size for each of the points of the point cloud indicates a position of this point along this spatial direction projected onto a selected fixed spatial direction, that segment is selected from the set of segments identified as representing a respective recognized object , whose assigned points according to their positions projected onto the selected fixed spatial direction viewed in the viewing direction along this spatial direction, viewed on average, are closer than the points assigned to any other of the identified segments. This can be advantageously used in particular for the purpose of foreground/background segmentation if only one (or the) foremost object is to be recognized as the foreground. In some embodiments m>1 applies and at least one of the m quantities indicates a temperature value or a color value for each of the points of the point cloud. Another of the m quantities can relate in particular to the position of the respective point. In particular, a particularly reliable, ie selective, segmentation can be achieved if the object(s) to be identified typically have a surface temperature that deviates from their ambient temperature, as is usually the case with living objects, in particular people or animals.
Bei einigen Ausführungsformen werden Output-Daten generiert (und vorzugsweise ausgegeben, insbesondere über eine Schnittstelle), die das Ergebnis der erfolgten Zuordnung der Punkte zu Segmenten bzw. der Identifizierung von zumindest einem erkannten Objekt auf eine oder mehrere der folgenden Weisen repräsentieren: (i) die Output-Daten repräsentieren für zumindest eines der Objekte ein Abbild dieses Objekts auf Basis von einem oder mehreren, insbesondere sämtlichen, derjenigen Punkte der Punktwolke, die dem zu diesem Objekt gehörenden Segment zugeordnet wurden; (ii) die Output-Daten repräsentieren eine Information, die angibt, wie viele verschiedenen Objekte mittels der Segmentzuordnung der Punkte in dem Bild erkannt wurden; (iii) die Output-Daten repräsentieren eine Information, die angibt, zu welchem jeweiligen Segment bzw. Objekt die Punkte jeweils zugeordnet wurden; (iv) die Output-Daten repräsentieren eine Information, die für zumindest eine Teilmenge der Punkte den jeweiligen Funktionswert einer oder mehrerer der Wahrscheinlichkeitsdichtefunktionen an der Stelle angibt, die durch die dem Punkt zugeordneten Werte der m Größen bestimmt ist. Im Falle von Option (i) kann das Abbild insbesondere durch einen bestimmten Punkt aus der Menge der dem Segment zugeordneten Punkte oder als in Abhängigkeit von diesen Punkten bestimmter, insbesondere berechneter Punkt bestimmt werden, beispielsweise als Mittelpunkt der Verteilung der Punkte der Menge. Das Abbild kann stattdessen insbesondere auch als ein durch die Punkte der Menge aufgespannter Raumbereich oder Körper definiert sein. In some embodiments, output data is generated (and preferably output, in particular via an interface) that represents the result of the assignment of the points to segments or the identification of at least one recognized object in one or more of the following ways: (i) the output data represent, for at least one of the objects, an image of this object based on one or more, in particular all, of those points in the point cloud which have been assigned to the segment belonging to this object; (ii) the output data represents information indicating how many different objects were recognized by the segment assignment of the points in the image; (iii) the output data represent information which indicates to which respective segment or object the points were assigned in each case; (iv) the output data represent information which, for at least a subset of the points, specifies the respective function value of one or more of the probability density functions at the point which is determined by the values of the m quantities assigned to the point. In the case of option (i), the image can be determined in particular by a specific point from the set of points assigned to the segment or as a specific, in particular calculated point depending on these points, for example as the center point of the distribution of the points in the set. Instead, the image can in particular also be defined as a spatial area or body spanned by the points of the set.
Bei einigen Ausführungsformen weisen für zumindest eine (insbesondere für sämtliche) der m Größen die zugehörigen (jeweiligen) Wahrscheinlichkeitsdichtefunktionen jeweils einen Verlauf auf, bei dem der Funktionswert in Abhängigkeit von dem Wert der Größe bis zu einem Maximum ansteigt und danach wieder abfällt, wobei das Maximum das einzige auftretende Maximum im Verlauf der Wahrscheinlichkeitsdichtefunktion ist. Ein solcher Funktionsverlauf, der insbesondere glockenartig (symmetrisch oder auch asymmetrisch) sein kann, ist insbesondere dann besonders gut für das Verfahren und insbesondere zur Approximation von Häufigkeitsverteilungen für die durch Abtastung von Objekten generierten Punktewolken geeignet, wenn das bzw. die Objekte jeweils eine konvexe Form aufweisen. In some embodiments, for at least one (in particular for all) of the m variables, the associated (respective) probability density functions each have a course in which the function value increases as a function of the value of the variable up to a maximum and then falls again, with the maximum is the only occurring maximum in the course of the probability density function. Such a function profile, which can be bell-shaped (symmetrical or also asymmetrical), is then particularly good for the method and in particular for approximating frequency distributions for the sampling point clouds generated by objects if the object or objects each have a convex shape.
Insbesondere kann bei einigen dieser Ausführungsformen zumindest eine (insbesondere jede) der jeweiligen Wahrscheinlichkeitsdichtefunktionen für zumindest eine der m Größen eine Gaußfunktion sein. Die Gaußfunktion bzw. Gaußfunktionen können insbesondere normiert oder mittels eines Parameters normierbar sein (z.B. so, dass in Formel (3) oben c =1 ) gilt. Neben der o.g. guten Eignung zur Approximation von Häufigkeitsverteilungen für die durch Abtastung von konvexen Objekten generierten Punktewolken hat die Wahl von Gaußfunktionen auch den Vorteil, dass hierzu eine Mehrzahl von bekannten effizienten und robusten Approximationsverfahren zur Verfügung steht. In particular, in some of these embodiments, at least one (in particular each) of the respective probability density functions for at least one of the m quantities can be a Gaussian function. The Gaussian function or Gaussian functions can, in particular, be normalized or can be normalized by means of a parameter (e.g. such that c=1 in formula (3) above). In addition to the above-mentioned good suitability for approximating frequency distributions for the point clouds generated by scanning convex objects, the choice of Gaussian functions also has the advantage that a large number of known, efficient and robust approximation methods are available for this purpose.
Bei einigen Ausführungsformen wird zumindest eine der Häufigkeitsverteilungen einem jeweiligen Glättungsprozess unterworfen und das Approximieren im Hinblick auf diese zumindest eine Häufigkeitsverteilung erfolgt bezüglich der mittels des Glättungsprozesses geglätteten entsprechenden Häufigkeitsverteilung. Auf diese Weise kann die Qualität der Approximierung und somit die Qualität und Zuverlässigkeit der darauf aufbauenden Erkennung bzw. Separierung von durch die Punktewolke repräsentierten Objekten weiter gesteigert werden. In some embodiments, at least one of the frequency distributions is subjected to a respective smoothing process and the approximation with regard to this at least one frequency distribution takes place with respect to the corresponding frequency distribution smoothed by means of the smoothing process. In this way, the quality of the approximation and thus the quality and reliability of the recognition or separation of objects represented by the point cloud based thereon can be further increased.
Bei einigen Ausführungsformen wird auf Basis der jeweiligen Punkte eines oder mehrerer der Segmente, die als Repräsentanten eines jeweiligen Objekts identifiziert wurden, ein Prozess zur Gestenerkennung ausgeführt, um eine in dem Bild mittels der Punktwolke abgebildete Geste einer Person zu erkennen. Dies kann insbesondere im Rahmen einer Automotive-Anwendung erfolgen, insbesondere im Zusammenhang mit einer Gestenerkennung bezüglich von durch einen Insassen eines Fahrzeugs ausgeführten Gesten zur Steuerung einer Funktionalität des Fahrzeugs. In some embodiments, based on the respective points of one or more of the segments identified as representing a respective object, a gesture recognition process is performed to recognize a gesture of a person represented in the image by means of the point cloud. This can be done in particular in the context of an automotive application, in particular in connection with a gesture recognition with regard to gestures performed by an occupant of a vehicle to control a functionality of the vehicle.
Ein zweiter Aspekt der Erfindung betrifft ein System zur Datenverarbeitung, aufweisend zumindest einen Prozessor, der so konfiguriert ist, dass er das Verfahren nach dem ersten Aspekt der Erfindung ausführt. A second aspect of the invention relates to a system for data processing, having at least one processor which is configured in such a way that it executes the method according to the first aspect of the invention.
Das System kann insbesondere ein Computer oder ein Steuergerät für ein anderes oder übergeordnetes System, wie etwa für ein Fahrzeug oder für eine Produktionsmaschine oder -Linie sein. Ein dritter Aspekt der Erfindung betrifft ein Computerprogramm mit Instruktionen, die bei ihrer Ausführung auf einem System nach dem zweiten Aspekt dieses veranlassen, das Verfahren nach dem ersten Aspekt auszuführen. In particular, the system can be a computer or a control unit for another or higher-level system, such as for a vehicle or for a production machine or line. A third aspect of the invention relates to a computer program with instructions which, when executed on a system according to the second aspect, cause the latter to carry out the method according to the first aspect.
Das Computerprogramm kann insbesondere auf einem nichtflüchtigen Datenträger gespeichert sein. Bevorzugt ist dies ein Datenträger in Form eines optischen Datenträgers oder eines Flashspeichermoduls. Dies kann vorteilhaft sein, wenn das Computerprogramm als solches unabhängig von einer Prozessorplattform gehandelt werden soll, auf der das ein bzw. die mehreren Programme auszuführen sind. In einer anderen Implementierung kann das Computerprogramm als eine Datei auf einer Datenverarbeitungseinheit, insbesondere auf einem Server vorliegen, und über eine Datenverbindung, beispielsweise das Internet oder eine dedizierte Datenverbindung, wie etwa ein proprietäres oder lokales Netzwerk, herunterladbar sein. Zudem kann das Computerprogramm eine Mehrzahl von zusammenwirkenden einzelnen Programmodulen aufweisen. The computer program can in particular be stored on a non-volatile data medium. This is preferably a data carrier in the form of an optical data carrier or a flash memory module. This can be advantageous if the computer program as such is to be traded independently of a processor platform on which the one or more programs are to be executed. In another implementation, the computer program can be present as a file on a data processing unit, in particular on a server, and can be downloaded via a data connection, for example the Internet or a dedicated data connection, such as a proprietary or local network. In addition, the computer program can have a plurality of interacting individual program modules.
Das System nach dem zweiten Aspekt kann entsprechend einen Programmspeicher aufweisen, in dem das Computerprogramm abgelegt ist. Alternativ kann das System auch eingerichtet sein, über eine Kommunikationsverbindung auf ein extern, beispielsweise auf einem oder mehreren Servern oder anderen Datenverarbeitungseinheiten verfügbares Computerprogramm zuzugreifen, insbesondere um mit diesem Daten auszutauschen, die während des Ablaufs des Verfahrens bzw. Computerprogramms Verwendung finden oder Ausgaben des Computerprogramms darstellen. The system according to the second aspect can accordingly have a program memory in which the computer program is stored. Alternatively, the system can also be set up to access a computer program available externally, for example on one or more servers or other data processing units, via a communication connection, in particular in order to exchange data with it that are used during the course of the method or computer program or outputs of the computer program represent.
Die in Bezug auf den ersten Aspekt der Erfindung erläuterten Merkmale und Vorteile gelten entsprechend auch für die weiteren Aspekte der Erfindung. The features and advantages explained in relation to the first aspect of the invention also apply correspondingly to the further aspects of the invention.
Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden detaillierten Beschreibung im Zusammenhang mit den Figuren. Further advantages, features and application possibilities of the present invention result from the following detailed description in connection with the figures.
Dabei zeigt: It shows:
Fig. 1 schematisch verschiedene beispielhafte Szenen, jeweils mit einer Objektanordnung aus zwei voneinander zu trennenden Objekten, sowie jeweils dazu ein Schnittbild einer dazu korrespondierenden sensorisch mittels Abtastung der Szene erfassten Punktwolke; Fig. 2 ein Diagramm zur Veranschaulichung einer beispielhaften Ausführungsform des erfindungsgemäßen Verfahrens für den Fall m=1 ; 1 shows schematically various exemplary scenes, each with an object arrangement of two objects to be separated from one another, and in each case a sectional image of a corresponding point cloud detected by sensors by scanning the scene; 2 shows a diagram to illustrate an exemplary embodiment of the method according to the invention for the case m=1;
Fig. 3 eine Illustration zur Veranschaulichung der Abhängigkeit der Approximation von der Wahl einer eindimensionalen Größe; und 3 shows an illustration to illustrate the dependence of the approximation on the choice of a one-dimensional variable; and
Fig. 4 ein Diagramm zur Veranschaulichung der Zuordnung von Punkten zu je einem bestimmten Segment bei einer beispielhaften Ausführungsform des erfindungsgemäßen Verfahrens für den Fall m=2, wobei zu jedem Punkt neben der Tiefenkoordinate zusätzlich ein für den jeweiligen Punkt als Attribut erfasster lokaler Temperaturwert des Objekts am Ort des Punktes als Basis der Zuordnung herangezogen wird. 4 shows a diagram to illustrate the assignment of points to a specific segment in an exemplary embodiment of the method according to the invention for the case m=2, with a local temperature value of the object recorded for the respective point as an attribute for each point in addition to the depth coordinate at the location of the point is used as the basis for the assignment.
In den Figuren werden durchgängig dieselben Bezugszeichen für dieselben oder einander entsprechenden Elemente der Erfindung verwendet. Throughout the figures, the same reference numbers are used for the same or corresponding elements of the invention.
In Fig. 1 ist zur Illustration einer durch die Erfindung adressierten beispielhaften Problematik eine Übersicht 100 über verschiedene beispielhafte Szenen 105a, 110a, 115a und 120a sowie jeweils dazu eine entsprechende Schnittansicht 105b, 110b, 1 15b bzw. 120b durch eine Punktwolke P dargestellt, die mittels Abtastung der jeweiligen Szene mittels eines Tiefenbildsensors, insbesondere einer TOF-Kamera (Flugzeitsensor), erzeugt wurde. Die Tiefenrichtung, auf die sich das erfasste Tiefenbild bezieht und der entlang der tiefen Bildsensor einen Abstand vom Sensor bis zum jeweiligen Objekt misst, ist hier beispielhaft als „z“-Richtung gewählt. Man kann sich somit die TOF-Kamera als über der Szene montiert vorstellen, so dass die Betrachtungsrichtung in z-Richtung vertikal nach unten gerichtet ist. Ein Punkt p, in der Punktwolke ist durch seine (x,y,z)-Koordinaten gegeben, wobei (x,y) eine (horizontale) Ebene rechtwinklig zur Blickrichtung des Sensors, und z der Tiefenwert ist, d.h. der Abstand von dem Punkt zum Sensor. In Fig. 1, to illustrate an exemplary problem addressed by the invention, an overview 100 of various exemplary scenes 105a, 110a, 115a and 120a and a corresponding sectional view 105b, 110b, 1 15b or 120b through a point cloud P is shown, which was generated by scanning the respective scene using a depth image sensor, in particular a TOF camera (time of flight sensor). The depth direction, to which the detected depth image relates and which measures a distance from the sensor to the respective object along the depth image sensor, is selected here as the "z" direction by way of example. One can thus think of the TOF camera as mounted above the scene such that the z-direction viewing direction is vertically downward. A point p, in the point cloud is given by its (x,y,z) coordinates, where (x,y) is a (horizontal) plane perpendicular to the sensor's line of sight, and z is the depth value, i.e. the distance from the point to the sensor.
Jede der Szenen zeigt ein erstes Objekt Oi, das durch eine menschliche Hand einer Person gebildet ist, sowie ein beliebiges weiteres Objekt O2, was beispielsweise ein weiteres Körperteil der Person oder ein zu einer Inneneinrichtung eines Fahrzeugs gehörender Körper sein kann. Each of the scenes shows a first object Oi, which is formed by a human hand of a person, and any other object O 2 , which can be, for example, another part of the person's body or a body belonging to an interior of a vehicle.
Im Falle der Szene 105a, liegen die beiden Objekte Oi und O2 lateral in einer senkrecht zur z- Richtung verlaufenden Richtung (z.B. x-Richtung) nebeneinander, wobei zwischen ihnen entlang dieser Richtung ein Spalt liegt. Aufgrund dieses Spalts lassen sich die zu den beiden Objekten Oi und O2 korrespondieren Punktwolkenanteile, wie in der Schnittansicht 105b dargestellt, leicht voneinander trennen und jeweils einem eigenen Bildsegment bzw. zuordnen. Diese Zuordnung gelingt dabei im Wesentlichen fehlerfrei, jedenfalls dann, wenn der Spalt größer ist als der durchschnittliche Punkteabstand innerhalb der Punktwolke P. In the case of scene 105a, the two objects Oi and O2 are laterally adjacent in a direction perpendicular to the z-direction (eg, x-direction), with a gap between them along this direction. Due to this gap, the point cloud portions corresponding to the two objects Oi and O 2 can be divided, as in shown in sectional view 105b, easily separate from one another and assign each to a separate image segment or. This assignment is essentially error-free, at least when the gap is larger than the average point spacing within the point cloud P.
Im Falle der Szene 110a, liegen die beiden Objekte Oi und O2 in der z- Richtung gegeneinander versetzt, wobei zwischen ihnen in z-Richtung ein Spalt liegt. Aufgrund dieses Spalts lassen sich auch hier die zu den beiden Objekten O1 und O2 korrespondieren Punktwolkenanteile, wie in der Schnittansicht 1 10b dargestellt, aufgrund ihrer jeweils deutlich unterschiedlichen Tiefenwerte (z-Koordinaten) leicht voneinander trennen und jeweils einem eigenen Bildsegment und somit Objekt O1 bzw. O2 zuordnen. Auch diese Zuordnung gelingt im Wesentlichen fehlerfrei, jedenfalls dann, wenn der Spalt größer ist als der durchschnittliche Punkteabstand innerhalb der Punktwolke P. In the case of scene 110a, the two objects Oi and O2 are offset from one another in the z-direction, with a gap between them in the z-direction. Due to this gap, the point cloud portions corresponding to the two objects O1 and O2, as shown in section view 110b, can also be easily separated from each other due to their clearly different depth values (z-coordinates) and each have their own image segment and thus object O1 or assign O2. This assignment is also essentially error-free, at least when the gap is larger than the average point spacing within the point cloud P.
Im Falle der Szene 115a, liegen die beiden Objekte O1 und O2 dagegen in der z- Richtung nur durch einen sehr kleinen Spalt separiert gegeneinander versetzt und sie überlappen in der senkrecht zur z-Richtung liegenden Richtung. Die korrespondierende Punktwolke P in Ansicht 115b lässt hier eine Aufteilung der Punktwolke P in jeweils zu den beiden Objekten O1 und O2 korrespondiere Punktwolkenanteile bzw. Segmente auf ähnlich einfache und fehlerfreie Weise wie bei den Szenen 105a und 110a aufgrund eines erkannten Spaltes nicht mehr zu, denn der durchschnittliche Punkteabstand innerhalb der Punktwolke P ist ähnlich groß wie der Spalt. In the case of scene 115a, on the other hand, the two objects O1 and O2 are offset from one another in the z-direction, separated only by a very small gap, and they overlap in the direction perpendicular to the z-direction. The corresponding point cloud P in view 115b no longer allows a division of the point cloud P into point cloud portions or segments corresponding to the two objects O1 and O2 in a similarly simple and error-free manner as in scenes 105a and 110a due to a recognized gap, because the average point spacing within the point cloud P is similar in size to the gap.
Noch schwieriger ist die Ausgangslage für eine Objektseparierung im Falle der Szene 120a, bei der die beiden Objekte O1 und O2 sowohl in der z- Richtung als auch in einer dazu senkrechten Richtung überlappen oder sich berühren, so dass hier kein durch die Punktewolke P abbildbarer Spalt mehr auftritt und somit eine Objektseparierung bzw. Segmentierung mit einfachen Mitteln, wie zu den Szenen 105a und 105b erläutert, unzuverlässig wird oder vollends scheitert. The starting position for an object separation is even more difficult in the case of scene 120a, in which the two objects O1 and O2 overlap or touch both in the z-direction and in a direction perpendicular thereto, so that there is no gap that can be imaged by the point cloud P here more occurs and thus an object separation or segmentation with simple means, as explained for the scenes 105a and 105b, becomes unreliable or fails completely.
Bei der in Fig. 2 illustrierten beispielhaften Ausführungsform 200 eines erfindungsgemäßen Verfahrens, wird eine mehrere Objekte, hier beispielhaft zwei Objekte O1 und O2, enthaltende Szene 205 bildsensorisch, insbesondere mittels eines Tiefenbildsensors, wie etwa einer TOF-Kamera abgetastet, um ein Abbild der Szene in Form einer Punktwolke P zu generieren, wie in Ansicht 210 dargestellt. Die vom Tiefenbildsensor ausgegebenen Bilddaten können insbesondere für jeden der Punkte p, der Punktwolke P seine jeweilige Koordinate in der Tiefenrichtung, hier als z-Richtung gewählt, sowie optional weitere Koordinaten oder zusätzlich gemessene Eigenschaften der Objekte repräsentieren. Die folgenden Erläuterungen des Verfahrens 200 fokussieren sich dabei auf die z-Koordinate, die im Rahmen des Verfahrens 200 zunächst als einzige verwendete eindimensionale Größe berücksichtigt werden soll, sodass hier zunächst der Fall m=1 betrachtet wird. Der Fall m>1 wird im Weiteren unter Bezugnahme auf Fig. 4 adressiert werden. In the exemplary embodiment 200 of a method according to the invention illustrated in FIG. 2, a scene 205 containing a plurality of objects, in this case two objects O1 and O2, is scanned by image sensors, in particular by means of a depth image sensor, such as a TOF camera, in order to obtain an image of the scene in the form of a point cloud P, as shown in view 210. The image data output by the depth image sensor can, in particular, have its respective coordinate in the depth direction, here as the z-direction, for each of the points p in the point cloud P selected, and optionally represent further coordinates or additionally measured properties of the objects. The following explanations of the method 200 focus on the z-coordinate, which is initially to be taken into account as the only one-dimensional variable used within the scope of the method 200, so that the case m=1 is initially considered here. The case m>1 will be addressed below with reference to FIG.
Ausgehend von der Punktwolke P wird eine Häufigkeitsverteilung h(k) bezüglich der in der Punktwolke aufgetretenen z-Koordinaten der Punkte bestimmt, wobei k=k(z) für diskrete Werte von z steht, wie nachfolgend im Einzelnen erläutert werden wird. In Ansicht 220 ist die resultierende Häufigkeitsverteilung h(k) mittels eines sie darstellenden Histogramms illustriert. Starting from the point cloud P, a frequency distribution h(k) is determined with respect to the z coordinates of the points that occur in the point cloud, where k=k(z) stands for discrete values of z, as will be explained in detail below. In view 220, the resulting frequency distribution h(k) is illustrated using a histogram that represents it.
Mathematisch kann man dies, beispielsweise für den häufigen Fall M=3, für beliebige Tiefenwerte (eindimensionale Größen) verallgemeinert beispielhaft wie folgt ausdrücken: Sei P = {pi , ..., pn} eine dreidimensionale Punktwolke und d e IR3 ein gegebener Einheitsvektor in einer bestimmten Richtung, die hier als „Tiefenrichtung“ bezeichnet sei. Im vorliegenden Beispiel sei dies beispielhaft die z-Richtung. Sei weiter dt ■■= (pt, d) e ]R die gerichtete Tiefe (Tiefenwert) des Punkts pt , wobei (pb d) das Skalarprodukt der beiden Vektoren pL und d bezeichnet. Der Satz der Tiefenwerte {d , ..., dn } (im vorliegenden Beispiel gleichbedeutend mit dem Satz der z- Koordinaten der Punkte [pL , ...,pn}) dient als Basis der weiteren Schritte zur Objektseparierung bzw. Segmentierung. Mathematically, this can be expressed as follows, for example for the frequent case M=3, for any depth values (one-dimensional quantities): Let P = {pi , ..., p n } be a three-dimensional point cloud and de IR 3 a given unit vector in a specific direction, referred to herein as the "depth direction". In the present example, this is the z-direction. Furthermore, let dt ■■= (pt, d) e ]R be the directed depth (depth value) of the point p t , where (p b d) denotes the scalar product of the two vectors p L and d. The set of depth values {d , ..., d n } (in this example equivalent to the set of z coordinates of the points [p L , ...,p n }) serves as the basis for the further steps for object separation or Segmentation.
Eine Häufigkeitsverteilung bezüglich der Tiefenwerte {d^ ... , dn ) kann nun wie folgt bestimmt werden, insbesondere als Histogramm: Ein solches (Tiefen-)Histogramm habe eine bestimmte Granularität y>0. Beispielsweise könnte y = 1 cm gewählt werden. Zur Erreichung eines guten Kompromisses zwischen Ergebnisqualität der Segmentierung bzw. Objektidentifikation einerseits und der Effizienz, insbesondere in Form von Rechenaufwand, des Verfahrens sollte sich die Wahl von y an den Anforderungen der jeweiligen Anwendung orientieren. Für jeden Tiefenwert dL sei nun kL yJe TL , wobei L J ein Abrunden symbolisiert. Für j e TL sei nun n7 die Anzahl derjenigen für die j = kt gilt. Dann definiert die Abbildung hP Z >— > ]R:j >— > n7 ein solches Histogramm zu der Häufigkeitsverteilung. A frequency distribution with regard to the depth values {d^ . . . d n ) can now be determined as follows, in particular as a histogram: Such a (depth) histogram has a specific granularity y>0. For example, y=1 cm could be chosen. In order to achieve a good compromise between the quality of the result of the segmentation or object identification on the one hand and the efficiency, in particular in the form of computational effort, of the method, the choice of y should be based on the requirements of the respective application. For each depth value dL let kL yJe TL , where LJ symbolizes rounding off. For each TL let n 7 be the number of those for which j = k t holds. Then the mapping h P Z >— > ]R:j >— > n 7 defines such a histogram for the frequency distribution.
Anschaulich kann man dies wie folgt beschreiben: der Wertebereich der möglichen Tiefenwerte wird in eine Abfolge von Abschnitten der Länge y unterteilt und jeder Punkt Pt der Punktwolke P, zumindest jeder einem Segment zuzuordnende Punkt, wird gemäß seinem Tiefenwert dL einem der Abschnitte zugewiesen. Das Histogramm gibt dann für jeden Wert J E 2 die Anzahl derjenigen Punkte an, deren Tiefenwert ungefähr (d.h. im vorliegenden Beispiel abgerundet) j /entspricht. Die endlich große Granularität bedingt die vorgenannte Diskretisierung, da allen Werten von dL innerhalb desselben Abschnitts derselbe Wert kt für k zugeordnet wird. This can be described as follows: the range of possible depth values is divided into a sequence of sections of length y and each point Pt of the point cloud P, at least each point to be assigned to a segment, is assigned to one of the sections according to its depth value d L . The histogram then indicates, for each value JE 2 , the number of those points whose depth value corresponds approximately (ie rounded down in the present example) to j /. The finitely large granularity requires the aforementioned discretization, since all values of d L within the same section are assigned the same value k t for k.
Nun wieder Bezug nehmend auf das konkrete Beispiel aus Fig. 2 wird im weiteren Verlauf des Verfahrens 200 die Häufigkeitsverteilung h(k), vorzugsweise nach einer darauf angewandten Glättung (Ansicht 225), durch eine endliche Linearkombination von Wahrscheinlichkeitsdichtefunktionen, die im vorliegenden Fall jeweils als normierte Gaußfunktionen ausgewählt wurden, approximiert. So ergibt sich eine entsprechende mittels der Gaußfunktionen, im vorliegenden Fall mittels zwei verschiedener Gaußfunktionen fi(k) und f2(k), gebildete Approximationsfunktion F(h(z)) = fi(z) + f2(z), wie in Ansicht 230 illustriert. F(h(z)) ist somit eine Approximation der (geglätteten) Häufigkeitsverteilung aus Ansicht 225. Referring now again to the specific example from FIG normalized Gaussian functions were selected. This results in a corresponding approximation function F(h(z)) = fi(z) + f 2 (z) formed by means of the Gaussian functions, in the present case by means of two different Gaussian functions fi(k) and f 2 (k), as in View 230 illustrated. F(h(z)) is thus an approximation of the (smoothed) frequency distribution from view 225.
Unter einer normierten Gaußfunktion ist dabei wie üblich eine Funktion f :IR >— > H zu verstehen, die mittels der folgenden Formel darstellbar ist, wobei der Mittelwert p der Verteilung, die Standardabweichung a und der Normierungsfaktor c jeweils Parameter der Funktion f (die Schreibweisen „f " und „f“ werden hierin gleichbedeutend verwendet, gleiches gilt entsprechend für verschiedene Schreibweisen anderer Symbole) sind und im Hinblick auf das Verfahren 200 hier z als unabhängige Variable gewählt wird: A normalized Gaussian function is, as usual, to be understood as a function f :IR >— > H, which can be represented using the following formula, where the mean p of the distribution, the standard deviation a and the normalization factor c are each parameters of the function f (the notation "f" and "f" are used here synonymously, the same applies to different spellings of other symbols) and with regard to the method 200 z is selected as the independent variable:
Die Approximationsaufgabe besteht somit darin, die Anzahl N verschiedener Gaußfunktionen L sowie für jede davon den jeweiligen Parametersatz {pi, <7 c mit i = 1 ,...,N zu finden, so dass die (geglättete) Häufigkeitsverteilung h(k) für jeden Wert von k (also den entsprechenden diskreten z-Wert) durch die Summe dieser Gaußfunktionen approximiert wird: h(k)^fq(k) (5) The approximation task is to find the number N of different Gaussian functions L and for each of them the respective set of parameters {pi, <7 c with i = 1 ,...,N such that the (smoothed) frequency distribution h(k) for each value of k (i.e. the corresponding discrete z-value) is approximated by the sum of these Gaussian functions: h(k)^f q (k) (5)
Die Wahl von Gaußfunktionen für die Approximation ist in verschiedener Hinsicht vorteilhaft. Insbesondere hat sich gezeigt, dass solche Funktionen eine sehr gute Approximation für Häufigkeitsverteilungen liefern können, wie sie beim Abtasten von konvexen Körpern insbesondere auch vielen Körperteilen des menschlichen Körpers, wie etwa Arme und Beine oder der Kopf mittels eines Tiefenbildsensors auftreten. Betrachtet man jede punktförmige Abstandsmessung bei der Abtastung als eine unabhängige Zufallsvariable, so lässt sich die gute Eignung von Gaußfunktionen für die genannte Approximation insbesondere auch mathematisch auf Basis des zentralen Grenzwertsatzes begründen. The choice of Gaussian functions for the approximation is advantageous in several respects. In particular, it has been shown that such functions can provide a very good approximation for frequency distributions, such as those found when sampling convex bodies, in particular many body parts of the human body, such as arms and legs or the head, using a depth image sensor. If one considers each punctiform distance measurement during sampling as an independent random variable, then the good suitability of Gaussian functions for the mentioned approximation can also be justified mathematically on the basis of the central limit value theorem.
Des Weiteren sind verschiedene effiziente Verfahren für eine Funktionsapproximation mittels Gaußkurven verfügbar. Dazu gehört beispielsweise ein Approximationsverfahren, das in A. Goshtasby, W.D. O’Neill, „Curve Fitting by a Sum of Gaussians“, CVGIP: Graphical Models and Image Processing, Vol. 56. Mp 4, July, 1994, pp. 281 -288 beschrieben ist. Weitere Beispiele für anwendbare Approximationsverfahren finden sich insbesondere im Internet unter: httDs://www.researchgate.net/Dublication/252062037 A Simple Algorithm for Fitting a Gaussian Function DSP Tips and Tricks/link/544732410cf22b3c14e0c0c8/downlo ad oder unter https://stats.stackexchange.com/auestions/92748/multi-peak-aaussian-fit- in-r. Furthermore, various efficient methods for a function approximation using Gaussian curves are available. This includes, for example, an approximation method described in A. Goshtasby, W.D. O'Neill, "Curve Fitting by a Sum of Gaussians", CVGIP: Graphical Models and Image Processing, Vol. 56. Mp 4, July, 1994, pp. 281-288. Further examples of applicable approximation methods can be found in particular on the Internet at: httDs://www.researchgate.net/Dublication/252062037 A Simple Algorithm for Fitting a Gaussian Function DSP Tips and Tricks/link/544732410cf22b3c14e0c0c8/downlo ad or at https:// stats.stackexchange.com/auestions/92748/multi-peak-aaussian-fit-in-r.
Wenn mittels der Approximation die Gaußfunktionen fq(z) bestimmt sind, kann durch jede dieser Gaußfunktionen ein durch sie repräsentiertes Segment des Bildes bzw. der Punktwolke P definiert werden. Sodann kann für jedem Punkt pL e P die Wahrscheinlichkeit dafür, dass dieser Punkt pL zu einem jeweiligen bestimmten Segment gehört, so interpretiert werden, dass diese Wahrscheinlichkeit proportional zu fq(di) ist. Im vorliegenden Beispiel gibt für jeden Punkt Pt E P der zugehörige Funktionswert Wert fi (di) die Wahrscheinlichkeit dafür an, dass dieser Punkt pL zu einem ersten Segment des Bildes gehört und entsprechend gibt für jeden Punkt pt e P der zugehörige Funktionswert Wert f2 (di) die Wahrscheinlichkeit dafür an, dass dieser Punkt Pt zu einem zweiten, von dem ersten Segment verschiedenen Segment des Bildes gehört. If the Gaussian functions f q (z) are determined by means of the approximation, a segment of the image or the point cloud P represented by them can be defined by each of these Gaussian functions. Then, for each point p L e P , the probability that that point p L belongs to a respective particular segment can be interpreted such that this probability is proportional to fq(di). In the present example, for each point Pt EP the associated function value fi (di) indicates the probability that this point p L belongs to a first segment of the image, and accordingly for each point p t e P the associated function value f2 ( di) indicates the probability that this point Pt belongs to a second segment of the image different from the first segment.
Eine Separierung der beiden Segmente kann somit insbesondere, wie dargestellt, so erfolgen, dass jeder Punkt pt jeweils demjenigen Segment q eindeutig zugeordnet wird, dessen Funktionswert fq(dj) für diesen Punkt der höchste unter den verschiedenen Funktionswerten für diesen Punkt ist. Diese Zuordnungsvorschrift ist diese Ansicht 235 illustriert, wo die gestrichelte Trennlinie genau durch den Schnittpunkt der beiden Funktionen T und f2 verläuft und alle Punkte oberhalb dieser Trennlinie dem durch T repräsentierten ersten Segment (q=1 ) und alle unterhalb dieser Trennlinie liegenden Punkte dem durch f2 repräsentierten zweiten Segment (q=2) zugeordnet werden. Sollte ein Punkt pt tatsächlich (im Rahmen der Genauigkeit der Darstellung von di) auf der Trennlinie liegen, kann für diesen Fall eine vorbestimmte Zuordnung zu einem ausgewählten der Segmente vorgesehen sein, um Mehrdeutigkeiten zu vermeiden. Bei ausreichend hoher Darstellungsgenauigkeit von di wird dieser Fall aber in der Regel nicht oder eher sehr selten auftreten. The two segments can thus be separated, as shown, in such a way that each point p t is unambiguously assigned to that segment q whose function value f q (dj) for this point is the highest among the various function values for this point. This assignment rule is illustrated in this view 235, where the dashed dividing line runs exactly through the intersection of the two functions T and f2 and all points above this dividing line to the first segment represented by T (q=1 ) and all points lying below this dividing line to the segment represented by f 2 represented second segment (q = 2) are assigned. Should a point p t actually (within the accuracy of the representation of di) lie on the dividing line, a predetermined assignment to a selected one of the segments can be provided for this case in order to avoid ambiguities. However, if di is represented with a sufficiently high level of accuracy, this case will generally not occur or will occur very rarely.
Auf Basis dieser Segmentzuordnung kann nun, wie in Ansicht 240 illustriert, eine Identifizierung von einem oder, in diesem Fall, von zwei Objekten Oi und O2 erfolgen, indem sämtliche Punkte eines jeweiligen Segments jeweils genau einem dieser Objekte O1 bzw. O2 zugeordnet werden. Das jeweilige Segment wird so als Repräsentant des jeweils zugehörigen Objekts bestimmt. Based on this segment assignment, as illustrated in view 240, one or, in this case, two objects Oi and O2 can now be identified by assigning all points of a respective segment to exactly one of these objects O1 or O2. The respective segment is thus determined as a representative of the respective associated object.
Es ist jedoch alternativ auch möglich, vor der Objektzuordnung eine Filterung der Punktwolke auf Basis der Segmentierung vorzunehmen, sodass (außer im Grenzfall, dass alle Punkte demselben Objekt zugeordnet wurden) nur eine echte Teilmenge der Segmente nach der Filterung verbleibt und als Basis für die Objektzuordnung dient. Im vorliegenden Beispiel kann auf diese Weise beispielsweise das Segment für q = 2 ausgefiltert werden, dass zu den größeren Tiefenwerten z korrespondiert. Somit kann das erste Segment für q = 1 als Repräsentant eines (in diesem Beispiel einzigen) identifizierten Objekts O1 im Bildvordergrund (in z-Richtung nächstliegendes Segment) bestimmt werden, während das zweite Segment für q = 2 nicht als identifiziertes Objekt, sondern stattdessen gar nicht oder etwa als Bildhintergrund B interpretiert wird. Alternatively, however, it is also possible to filter the point cloud based on the segmentation before object assignment, so that (except in the limiting case that all points have been assigned to the same object) only a real subset of the segments remains after filtering and as a basis for object assignment serves. In the present example, the segment for q=2 can be filtered out in this way, for example, which corresponds to the larger depth values z. Thus, the first segment for q = 1 can be determined as a representative of a (in this example only) identified object O1 in the image foreground (nearest segment in the z-direction), while the second segment for q = 2 not as an identified object, but instead is not interpreted or interpreted as the background of the image B.
Wie in Fig. 3 anhand einer beispielhaften Gegenüberstellung 300 von zwei verschiedenen Szenarien illustriert, kann die Wahl der eindimensionalen Größe insbesondere in dem Fall, dass sie zu einer Position entlang einer bestimmten Richtung (hier beispielhaft der z-Richtung) korrespondiert, Einfluss auf die resultierende Häufigkeitsverteilung, somit auf die daraus per Approximation bestimmten Funktionen und schließlich auch auf die Qualität der Segmentzuordnung und Objektidentifizierung haben. As illustrated in FIG. 3 using an exemplary comparison 300 of two different scenarios, the choice of the one-dimensional variable can influence the resulting one, particularly if it corresponds to a position along a specific direction (here the z-direction, for example). Frequency distribution, thus on the functions determined from it by approximation and finally also on the quality of the segment assignment and object identification.
In einem ersten Szenario, das in der Ansicht 305 illustriert ist, ist die z-Richtung so gewählt, dass sie orthogonal zu einer durch den Richtungsvektor A dargestellten Haupterstreckungsrichtung der im Rahmen des Verfahrens als Objekt O1 zu identifizierenden Hand einer Person verläuft. Im Rahmen der Approximation, hier beispielsweise wieder mittels Gaußfunktionen, ergibt sich die in Ansicht 310 dargestellte Situation, dass die Häufigkeitsverteilung sogar mittels einer einzigen Gaußfunktion gut approximiert werden kann, was wiederum zu einer einfachen und sehr zuverlässigen und genauen Identifikation des Objekts Oi führt. In a first scenario, which is illustrated in view 305, the z-direction is selected such that it runs orthogonally to a main extension direction, represented by direction vector A, of a person's hand to be identified as object O1 within the scope of the method. Within the framework of the approximation, here for example again using Gaussian functions, the situation shown in view 310 results that the frequency distribution is good even using a single Gaussian function can be approximated, which in turn leads to a simple and very reliable and accurate identification of the object Oi.
In dem zweiten Szenario, das in der Ansicht 315 illustriert ist, ist die z-Richtung dagegen so gewählt, dass sie nicht mehr orthogonal, sondern in einem kleineren Winkel zu der durch den Richtungsvektor A dargestellten Haupterstreckungsrichtung der gezeigten und im Rahmen des Verfahrens als Objekt Oi zu identifizierenden Hand einer Person verläuft. Im Rahmen der Approximation mittels Gaußfunktionen ergibt sich hier die in Ansicht 320 dargestellte Situation, dass die Häufigkeitsverteilung nur noch mittels einer Linearkombination mehrerer Gaußfunktionen gut approximiert werden kann, was wiederum zu einer erschwerten und möglicherweise weniger zuverlässigen oder weniger genauen Identifikation des Objekts Oi führt. In the second scenario, which is illustrated in view 315, the z-direction is selected such that it is no longer orthogonal, but rather at a smaller angle to the main extension direction represented by the direction vector A of the object shown and as part of the method Oi to be identified hand of a person runs. Within the framework of the approximation using Gaussian functions, the situation shown in view 320 results here that the frequency distribution can only be well approximated using a linear combination of several Gaussian functions, which in turn leads to a more difficult and possibly less reliable or less precise identification of the object Oi.
Die Wahl der eindimensionalen Größe ist somit im Falle des ersten Szenarios deutlich zu bevorzugen. Dementsprechend kann das Verfahren 200 insbesondere vorsehen, dass die Wahl der eindimensionalen Richtung auf Basis des Ergebnisses einer Hauptkomponentenanalyse so erfolgt, dass für die eindimensionale Größe eine feste Raumrichtung so ausgewählt wird, dass sie orthogonal zu einer ersten Hauptkomponente verläuft, die aus einer auf die Punktwolke angewandten Hauptkomponentenanalyse resultiert. Insbesondere können in dem vorliegenden Beispielsfall im Falle M=2 die aus der Hauptkomponentenanalyse resultierende zweite Hauptkomponente und im Falle M=3 die aus der Hauptkomponentenanalyse resultierende dritte Hauptkomponente dazu ausgewählt werden (vgl. Richtungsvektor Ä in Ansicht 305). So wird die am wenigsten dominante Hauptkomponente (hier entlang der z-Richtung) ausgewählt, was in der Regel die Wahrscheinlichkeit dafür optimiert, dass die dominanteste Hauptkomponente zumindest überwiegend senkrecht dazu und somit zur Abtastrichtung (hier z-Richtung) verläuft und daher ein eher dem ersten Szenario angenähertes Szenario mit optimierter Segmentzuordnung und Objektzuordnung resultiert. The choice of the one-dimensional variable is therefore clearly preferable in the case of the first scenario. Accordingly, the method 200 can in particular provide that the one-dimensional direction is selected on the basis of the result of a principal component analysis in such a way that a fixed spatial direction is selected for the one-dimensional quantity such that it runs orthogonally to a first principal component, which consists of a point cloud applied principal component analysis results. In particular, in the present example, the second principal component resulting from the principal component analysis can be selected in the case of M=2 and the third principal component resulting from the principal component analysis in the case of M=3 (cf. direction vector Ä in view 305). In this way, the least dominant main component (here along the z-direction) is selected, which usually optimizes the probability that the most dominant main component is at least predominantly perpendicular to it and thus to the scanning direction (here z-direction) and therefore a more dem scenario approximated to the first scenario with optimized segment allocation and object allocation.
Fig. 4 betrifft eine Erweiterung des Verfahrens, insbesondere auch des Verfahrens 200, auf den Fall m>1. Das Diagramm 400 dient zur beispielhaften Veranschaulichung der Zuordnung von Punkten zu je einem bestimmten Segment bei einer beispielhaften Ausführungsform des erfindungsgemäßen Verfahrens für den Fall m=2. 4 relates to an extension of the method, in particular also of method 200, to the case m>1. Diagram 400 serves as an example to illustrate the assignment of points to a specific segment in an exemplary embodiment of the method according to the invention for the case m=2.
Es sei nun noch einmal das beispielhafte Problem betrachtet, eine Hand Oi von einem Hintergrund B zu diskriminieren. Dieses Problem kann wie folgt angegangen werden. Bislang wurde im Verfahren 200 allein die Tiefeninformation des Pixels ausgenutzt, aber selbst dieser fortschrittliche Ansatz kann Grenzen aufweisen: Wenn zum Beispiel im Rahmen einer Bildaufnahme in einem Kraftfahrzeug, die Hand (des Fahrers) zu einem bestimmten Zeitpunkt neben dem Schaltknüppel gehalten wird, und zwar etwa aus Sicht des Bildsensors auf der gleichen Tiefenebene, so dass sich gleiche oder sehr ähnliche Tiefenwerte z für die durch Abtastung der Szene ergebenden Punkte einer Punktwolke ergeben, dann kann die Segmentierung des Bildes bzw. der Punktwolke in ein Segment für die Hand und ein Segment für den Hintergrund B (oder den Schalthebel als zweites Objekt O2) allein aufgrund der Tiefenwerte möglicherweise fehlschlagen. Consider the exemplary problem of discriminating a hand Oi from a background B once again. This problem can be addressed as follows. So far, only the depth information of the pixel has been used in the method 200, but even this advanced approach can have limitations: if, for example, in the context of an image recording in a motor vehicle, the hand (of the driver) is held next to the gear stick at a certain point in time, at about the same depth level from the point of view of the image sensor, so that same or very similar depth values z result for the points of a point cloud resulting from scanning the scene, then the image or the point cloud can be segmented into a segment for the hand and a segment for the background B (or the shift lever as the second object O2) may fail based on depth readings alone.
Im Allgemeinen kann bei bestimmten Szenen eine Situation auftreten, bei der die Punkte, die durch das Verfahren für m=1 unterschieden werden können (d.h., dass, sie zu verschiedenen Gauß-Kurven gehören) zu verschiedenen Objekten gehören, aber es ist nicht garantiert, dass solche Punkte, die nicht die auf diese Weise diskriminiert werden, zu einem selben Objekt gehören. Mit anderen Worten, in einem solchen Fall repräsentiert jede Funktion, insbesondere Gaußfunktion, möglicherweise nur eine Objektkategorie (d.h. eine Menge von mehreren Objekten, die nicht durch das gewählte Merkmal weiter diskriminiert wird) und nicht zwingend genau ein einzelnes Objekt. In general, for certain scenes, a situation may arise where the points that can be distinguished by the method for m=1 (i.e., that they belong to different Gaussian curves) belong to different objects, but it is not guaranteed that those points that are not discriminated in this way belong to the same object. In other words, in such a case each function, especially Gaussian, may represent only one object category (i.e. a set of multiple objects that is not further discriminated by the chosen feature) and not necessarily exactly a single object.
Ein Ansatz, das Verfahren im Hinblick auf seine Trennschärfe zu verbessern, umfasst das Ergänzen um die Berücksichtigung von zumindest einer weiteren eindimensionalen Größe, so dass m>1 gilt. Insbesondere, kann, wie in Fig. 4 illustriert, zu jedem Punkt pL neben der Tiefenkoordinate z zusätzlich ein für den jeweiligen Punkt erfasster lokaler Temperaturwert T als zweite Größe und somit zusätzliche Basis für die Zuordnung herangezogen werden. One approach to improving the method with regard to its selectivity includes adding at least one additional one-dimensional variable so that m>1 applies. In particular, as illustrated in FIG. 4, for each point p L , in addition to the depth coordinate z, a local temperature value T recorded for the respective point can also be used as a second variable and thus as an additional basis for the assignment.
Es sei nun beispielhaft angenommen, dass die Hand eine höhere (Oberflächen)Temperatur als der Hintergrund aufweist und eine Klassifizierung der Punkte pi nach deren jeweiligen lokalen Temperaturwert Ti entsprechend eine auf die Temperatur als unabhängige Variable bezogenen zweite Häufigkeitsverteilung h‘(k‘(T)) oder kurz h‘(T) liefert, die wiederum entsprechend dem Verfahren 200, nur diesmal auf die Temperatur anstelle der z-Koordinate bezogen, durch eine Linearfunktion von Verteilungsdichtefunktionen gi approximiert werden kann. It is now assumed, for example, that the hand has a higher (surface) temperature than the background and a classification of the points pi according to their respective local temperature value Ti according to a second frequency distribution h'(k'(T) related to the temperature as an independent variable ) or h'(T) for short, which in turn can be approximated by a linear function of distribution density functions gi in accordance with method 200, only this time related to the temperature instead of the z-coordinate.
Nun kann entweder in entsprechender Anwendung der Segmentierung gemäß Ansicht 235 aus Fig. 2 eine rein temperaturbasierte Segmentierung und darauf aufsetzende Objektidentifikation (entsprechend Ansicht 240) erfolgen. Dies entspricht weiterhin dem Fall m=1 , nur mit einer temperaturbasierten Segmentierung anstelle einer Tiefenwert (z- Koordinaten)-basierten Segmentierung. Noch effektiver ist es jedoch, wie in Fig. 4 illustriert, beide Größen z und T in Kombination als Grundlage der Segmentierung heranzuziehen. Hier ermöglicht die Größe z die Unterteilung der Punktwolke in die Kategorien nahes Objekt und fernes Objekt bzw. Bildhintergrund. Parallel dazu kann die thermische Größe (Temperatur) T die Punkte in die Kategorien „warme Objekte“ und „kalte Objekte“ unterteilen. So lässt sich im vorliegenden Beispiel eine Unterscheidung von mindestens vier Kategorien (bzw. entsprechenden Segmenten) erreichen: (i) ein warmes und zugleich nahes Objekt, (ii) ein warmes und zugleich fernes Objekt, (iii) ein kaltes und zugleich nahes Objekt und (iv) ein Kaltes und zugleich fernes Objekt. Als fernes Objekt kann optional auch jeweils der Bildhintergrund B betrachtet werden. A purely temperature-based segmentation and object identification based thereon (corresponding to view 240) can now be carried out in a corresponding application of the segmentation according to view 235 from FIG. This still corresponds to the m=1 case, only with a temperature-based segmentation instead of a depth-value (z-coordinate)-based segmentation. However, as illustrated in FIG. 4, it is even more effective to use both variables z and T in combination as the basis for the segmentation. Here, the size z enables the point cloud to be subdivided into the categories of near object and distant object or image background. In parallel, the thermal quantity (temperature) T can divide the points into the categories "warm objects" and "cold objects". In the present example, a distinction can be made between at least four categories (or corresponding segments): (i) a warm and at the same time close object, (ii) a warm and at the same time distant object, (iii) a cold and at the same time close object and (iv) a cold and at the same time distant object. The image background B can optionally also be viewed as a distant object.
Mathematisch lässt sich eine solche Verallgemeinerung insbesondere wie folgt darstellen: Mathematically, such a generalization can be represented in particular as follows:
Sei wieder P = {px , ... , pn} eine durch die sensorische Abtastung der Szene generierte Punktwolke, wobei jedem Punkt pL neben einem Tiefenwert z zusätzlich ein gemessener lokaler Temperaturwert T am Ort der gemessenen Position des jeweiligen Punktes Pt zugeordnet wird. Let P = {p x , ... , p n } be a point cloud generated by the sensory scanning of the scene, with each point p L being assigned a depth value z and a measured local temperature value T at the location of the measured position of the respective point Pt becomes.
Für die zunächst als einzelne Größe betrachtete Tiefe z der Punkte wird wie oben beschrieben eine Approximation gemäß der Beziehung (5) vorgenommen, um eine Linearkombination von Funktionen fq(z) zu bestimmen, welche die Tiefenwertverteilung der Punkte approximiert. Jeder der Funktionen fq(z) repräsentiert dabei wieder ein Tiefensegment. As described above, an approximation according to equation (5) is carried out for the depth z of the points, initially considered as a single variable, in order to determine a linear combination of functions f q (z) which approximates the depth value distribution of the points. Each of the functions f q (z) again represents a depth segment.
Auf gleiche Weise wird für die ebenfalls zunächst als einzelne Größe betrachtete Temperatur (lokale Temperaturwerte T) der Punkte eine Approximation gemäß der Beziehung (5) vorgenommen, um eine Linearkombination von Funktionen, insbesondere Gaußfunktionen, gr(T) zu bestimmen, welche die Temperaturwertverteilung der Punkte approximiert. Jede der Funktionen gr(T) repräsentiert dabei ein Temperatursegment. In the same way, for the temperature (local temperature values T) of the points, which is also initially considered as a single variable, an approximation is made according to equation (5) in order to determine a linear combination of functions, in particular Gaussian functions, g r (T), which the temperature value distribution of points approximated. Each of the functions g r (T) represents a temperature segment.
Dann kann man den Wert des Produkts fq(z(pi)') ■ gr( (pd) oder in abgekürzter Schreibweise fq(pt) ■ gr(.pd als proportional zu der Wahrscheinlichkeit interpretieren, dass der Punkt pt zum kombinierten Segment (q, r) gehört, das als Schnittmenge des Tiefensegments zu q und des Temperatursegments zu r gebildet wird, wobei q und r jeweils Indizes zur Durchnummerierung der Funktionen fq bzw. gr sind. Der Wert dieses Produkts wird nun herangezogen, um dem jeweiligen Punkt pL so einem bestimmten der kombinierten Segmente zuzuordnen, dass das Produkt für dieses kombinierte Segment relativ am größten ist, was einer Auswahl der wahrscheinlichsten Zuordnung entspricht. Then one can interpret the value of the product f q (z(p i )') ■ gr ( (pd) or in abbreviated notation f q (pt) ■ gr ( .pd as proportional to the probability that the point p t belongs to the combined segment (q, r) formed as the intersection of the depth segment in q and the temperature segment in r, where q and r are subscripts for enumerating the functions f q and g r , respectively The value of this product is now used to the respective point p L so a certain of to assign to combined segments that the product for that combined segment is relatively largest, which corresponds to a selection of the most likely assignment.
Speziell bei dem Beispiel aus Fig. 4 ist das Produkt für den ausgewählten Punkt pt die Kombination /i(Pi) ’ ^(Pr) unter allen Kombinationen am größten, so dass der konkrete Punkt pt dem kombinierten Segment (1 ; 2) zugeordnet wird, was hier dem nächsten und zugleich wärmsten Objekt entspricht. Die Punkte dieses kombinierten Segments können sodann als Punkte eines zu erkennenden Objektes, hier der Hand Oi, identifiziert werden. Specifically, in the example of FIG. 4, the product for the selected point p t the combination /i(Pi) '^(Pr) is largest among all combinations, so that the concrete point pt is assigned to the combined segment (1;2). becomes, which here corresponds to the closest and at the same time warmest object. The points of this combined segment can then be identified as points of an object to be recognized, here the hand Oi.
Das erfindungsgemäße Verfahren kann in seinen verschiedenen Varianten für unterschiedlichste Applikationen genutzt werden. Zu solchen Applikationen gehören insbesondere die Separierung von Abbildern verschiedener Körperteile einer Person, von verschiedenen Personen oder von einer oder mehreren Personen einerseits und einem oder mehreren anderen Objekten andererseits, jeweils voneinander oder gegenüber einem Hintergrund. Insbesondere kann das Verfahren genutzt werden, ein oder mehrere Körperteile einer Person in einem sensorisch erfassten Bild zu separieren, um sodann in Abhängigkeit vom Ergebnis einer solchen Separierung bzw. Segmentierung und einer darauf aufsetzenden Identifikation der Körperteile als Objekte eine Gestenerkennung im Hinblick auf etwaigen von der Person ausgeführten Gesten durchzuführen. The method according to the invention can be used in its various variants for a wide variety of applications. Such applications include, in particular, the separation of images of different body parts of a person, of different people or of one or more people on the one hand and one or more other objects on the other hand, each from one another or from a background. In particular, the method can be used to separate one or more body parts of a person in an image captured by sensors, in order then, depending on the result of such a separation or segmentation and a subsequent identification of the body parts as objects, to carry out gesture recognition with regard to any of the perform gestures performed by the person.
Während vorausgehend wenigstens eine beispielhafte Ausführungsform beschrieben wurde, ist zu bemerken, dass eine große Anzahl von Variationen dazu existiert. Es ist dabei auch zu beachten, dass die beschriebenen beispielhaften Ausführungsformen nur nichtlimitierende Beispiele darstellen, und es nicht beabsichtigt ist, dadurch den Umfang, die Anwendbarkeit oder die Konfiguration der hier beschriebenen Vorrichtungen und Verfahren zu beschränken. Vielmehr wird die vorausgehende Beschreibung dem Fachmann eine Anleitung zur Implementierung mindestens einer beispielhaften Ausführungsform liefern, wobei sich versteht, dass verschiedene Änderungen in der Funktionsweise und der Anordnung der in einer beispielhaften Ausführungsform beschriebenen Elemente vorgenommen werden können, ohne dass dabei von dem in den angehängten Ansprüchen jeweils festgelegten Gegenstand sowie seinen rechtlichen Äquivalenten abgewichen wird. BEZUGSZEICHENLISTE While at least one exemplary embodiment has been described above, it should be appreciated that a large number of variations thereon exist. It should also be noted that the example embodiments described are intended to be non-limiting examples only, and are not intended to limit the scope, applicability, or configuration of the devices and methods described herein. Rather, the foregoing description will provide those skilled in the art with guidance for implementing at least one example embodiment, while understanding that various changes in the operation and arrangement of elements described in an example embodiment may be made without departing from the scope of the appended claims the specified object and its legal equivalents are deviated from. REFERENCE LIST
100 Übersicht über verschiedene beispielhafte Szenen 100 Overview of various exemplary scenes
105a-120a verschiedene Szenen 105a-120a different scenes
105b-120b Punktwolken zu den verschiedene Szenen 105a-120a 105b-120b point clouds for the various scenes 105a-120a
200 beispielhaftes Verfahren zur Erkennung von Objekten 200 exemplary method for detecting objects
205-240 Ansichten von Zwischenstufen des Verfahrens 200 205-240 views of intermediate stages of the process 200
300 Gegenüberstellung von zwei verschiedenen Szenarien 300 Comparison of two different scenarios
305 erstes Szenario 305 first scenario
310 Approximationsfunktion zum ersten Szenario 310 Approximation function for the first scenario
315 zweites Szenario 315 second scenario
320 Approximationsfunktion zum zweiten Szenario 320 approximation function for the second scenario
400 Diagramm zur Veranschaulichung einer beispielhaften Zuordnung von Punkten im Fall m=2 400 Diagram to illustrate an example assignment of points in the case of m=2
A Richtungsvektor der ersten Hauptkomponente eines Objekts A Direction vector of the first principal component of an object
B Hintergrund B background
Satz von Wahrscheinlichkeitsdichtefunktionen, insbesondere Gaußfunktionen, zur Approximation einer Häufigkeitsverteilung von Tiefenwerten gr Satz von Wahrscheinlichkeitsdichtefunktionen, insbesondere Gaußfunktionen, zur Approximation einer Häufigkeitsverteilung von Tiefenwerten h(z) Häufigkeitsverteilung p Punktwolke Set of probability density functions, in particular Gaussian functions, for approximating a frequency distribution of depth values gr Set of probability density functions, in particular Gaussian functions, for approximating a frequency distribution of depth values h(z) frequency distribution p point cloud
P/ einzelner Punkt der Punktwolke P/ single point of the point cloud
Oi ; O2 Objekte Oi ; O2 objects
T Temperatur T temperature
Tiefe depth

Claims

ANSPRÜCHE Verfahren (200) zum Erkennen von einem oder mehreren in einem Bild anhand einer M-dimensionalen Punktwolke (P), mit M>1 , aus einer Mehrzahl n von Punkten (p,) repräsentierten Objekten (Oi;O2), wobei das Verfahren (200) aufweist: CLAIMS Method (200) for recognizing one or more objects (Oi;O 2 ) represented in an image by means of an M-dimensional point cloud (P), with M>1, from a plurality n of points (p,), wherein the Method (200) comprises:
Bestimmen, für jede einer Anzahl m, mit m > 0, von bestimmten eindimensionalen Größen (z; T), eines jeweiligen zugeordneten Werts der Größe (z; T) zu jedem der Punkte (pz) auf Basis von dessen Position oder Eigenschaften; determining, for each of a number m, with m > 0, of certain one-dimensional quantities (z; T), a respective associated value of the quantity (z; T) to each of the points (p z ) based on its position or properties;
Bestimmen, für jede der Größen (z; T), einer jeweiligen Häufigkeitsverteilung (h) bezüglich der für die verschiedenen Punkte (pz) jeweils bestimmten Werte dieser Größe (z; T); determining, for each of the quantities (z; T), a respective frequency distribution (h) with respect to the values of this quantity (z; T) determined in each case for the different points (p z );
Approximieren jeder der Häufigkeitsverteilungen (h) mittels einer jeweiligen Linearkombination einer endlichen Anzahl von der zugrundeliegenden Größe (z;T) zugeordneten eindimensionalen Wahrscheinlichkeitsdichtefunktionen (fq;gr); approximating each of the frequency distributions (h) by means of a respective linear combination of a finite number of one-dimensional probability density functions (f q ;gr) associated with the underlying quantity (z;T);
Segmentieren des Bildes so, dass im Fall m =1 jeder der Wahrscheinlichkeitsdichtefunktionen (fq;gr) und im Fall m>1 jedem Produkt aus m Wahrscheinlichkeitsdichtefunktionen (fq;gr), wobei je eine der zugeordneten Wahrscheinlichkeitsdichtefunktionen (fq;gr) je Größe (z; T) in dem Produkt vertreten ist, ein jeweiliges Segment des Bildes eindeutig zugeordnet wird; Segment the image in such a way that in the case m = 1 each of the probability density functions (f q ; gr ) and in the case m>1 each product of m probability density functions (f q ; gr r ), with each one of the associated probability density functions (f q ; g r ) is represented in the product for each size (z; T), a respective segment of the image is clearly assigned;
Jeweiliges Zuordnen jedes Punkts der Punktwolke (P) zu demjenigen Segment, dessen zugeordnete Wahrscheinlichkeitsdichtefunktion im Fall m=1 bzw. dessen zugeordnetes Produkt im Fall m>1 an der Stelle, die durch die dem Punkt (pz) zugeordneten Werte der m Größen (z; T) bestimmt ist, den relativ größten Funktionswert bzw. Produktwert unter den Wahrscheinlichkeitsdichtefunktionen (fq;gr) bzw. Produkten aufweist; und Assignment of each point of the point cloud ( P ) to that segment whose assigned probability density function in the case of m=1 or its assigned product in the case of m>1 at the point that is determined by the values of the m quantities ( z;T) has the relatively largest function value or product value among the probability density functions (f q ;g r ) or products; and
Identifizieren zumindest eines derjenigen Segmente, denen jeweils zumindest eine vorbestimmte Mindestanzahl von Punkten (pz) zugeordnet wurde, als Repräsentant eines jeweiligen erkannten Objekts (Oi ;O2). Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei die zumindest eine der m Größen (z) für jeden der Punkte (pz) der Punktwolke (P) eine auf eine ausgewählte feste Raumrichtung projizierte Lage dieses Punkts (pz) entlang dieser Raumrichtung angibt. Identifying at least one of those segments to which at least a predetermined minimum number of points (p z ) has been assigned in each case as a representative of a respective recognized object (Oi ;O 2 ). Method (200) according to one of the preceding claims, wherein the at least one of the m variables (z) for each of the points (p z ) of the point cloud (P) is a position of this point (p z ) projected onto a selected fixed spatial direction along this spatial direction indicates.
23 23
3. Verfahren (200) nach Anspruch 2, wobei die feste Raumrichtung so ausgewählt wird, dass sie orthogonal zu einer ersten Hauptkomponente (1) verläuft, die aus einer auf die Punktwolke (P) angewandten Hauptkomponentenanalyse resultiert. 3. The method (200) of claim 2, wherein the fixed spatial direction is selected to be orthogonal to a first principal component (1) resulting from a principal component analysis applied to the point cloud (P).
4. Verfahren (200) nach Anspruch 3, wobei M e{2:3} und die feste Raumrichtung so ausgewählt wird, dass sie im Falle M=2 der aus der Hauptkomponentenanalyse resultierenden zweiten Hauptkomponente und im Falle M=3 der aus der Hauptkomponentenanalyse resultierenden dritten Hauptkomponente entspricht. 4. The method (200) according to claim 3, wherein M e{2:3} and the fixed spatial direction is selected such that, in the case of M=2, the second principal component resulting from the principal component analysis and in the case of M=3, the second principal component resulting from the principal component analysis resulting third principal component.
5. Verfahren (200) nach einem der vorausgehenden Ansprüche, des Weiteren aufweisend: The method (200) of any preceding claim, further comprising:
Filtern des Bildes so, dass es nach der Filterung nur noch solche Punkte (p/) der Punktwolke (P) enthält, die einem der Segmente zugeordnet wurden, die jeweils als Repräsentant eines jeweiligen erkannten Objekts (01 ;O2) identifiziert wurden. Filtering the image in such a way that, after filtering, it only contains those points (p/) of the point cloud (P) which have been assigned to one of the segments which have each been identified as representing a respective recognized object (01; O2).
6. Verfahren (200) Anspruch 5, wobei das Filtern des Bildes so erfolgt, dass es nach der Filterung nur noch solche Punkte (p,) der Punktwolke (P) enthält, die genau einem bestimmten ausgewählten derjenigen Segmente zugeordnet wurden, das als Repräsentant eines zugeordneten erkannten Objekts (01 ;O2) identifiziert wurde. 6. The method (200) of claim 5, wherein the image is filtered in such a way that, after filtering, it only contains those points (p 1 ) of the point cloud (P) that have been assigned exactly to a specific selected one of those segments that, as a representative an associated recognized object (01; O2) was identified.
7. Verfahren (200) nach einem der Ansprüche 2 bis 4 in Verbindung mit Anspruch 6, wobei m=1 und dasjenige Segment aus der Menge der jeweils als Repräsentant eines jeweiligen erkannten Objekts (01 ;O2) identifizierten Segmente ausgewählt wird, dessen zugeordnete Punkte (p,) gemäß ihrer auf die ausgewählte feste Raumrichtung projizierten Lagen in Blickrichtung entlang dieser Raumrichtung betrachtet, im jeweiligen Mittel betrachtet, näher liegen als die einem beliebigen anderen der identifizierten Segmente zugeordneten Punkte. 7. The method (200) according to any one of claims 2 to 4 in conjunction with claim 6, wherein m=1 and that segment is selected from the set of segments identified as representing a respective recognized object (01; 02), its associated points (p,) according to their positions projected onto the selected fixed spatial direction viewed in the viewing direction along this spatial direction, viewed on average, are closer than the points assigned to any other of the identified segments.
8. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei m>1 und zumindest eine der m Größen (z; T) für jeden der Punkte (p,) der Punktwolke (P) einen Temperaturwert (T) oder einen Farbwert angibt. 8. The method (200) according to any one of the preceding claims, wherein m>1 and at least one of the m variables (z; T) indicates a temperature value (T) or a color value for each of the points (p 1 ) of the point cloud (P).
9. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei Output- Daten generiert werden, die das Ergebnis der erfolgten Zuordnung der Punkte (p/) zu Segmenten bzw. der Identifizierung von zumindest einem erkannten Objekt auf eine oder mehrere der folgenden Weisen repräsentieren: 9. The method (200) according to any one of the preceding claims, wherein output data are generated, which is the result of the assignment of the points (p/) to segments or the identification of at least one recognized object in one or more of the following ways:
- die Output-Daten repräsentieren für zumindest eines der Objekte (01 ;O2) ein Abbild dieses Objekts (01 ;O2) auf Basis von einem oder mehreren derjenigen Punkte (p,) der Punktwolke (P), die dem zu diesem Objekt (01 ;O2) gehörenden Segment zugeordnet wurden. - for at least one of the objects (01; O2), the output data represent an image of this object (01; O2) based on one or more of those points (p,) of the point cloud (P) that correspond to the object (01 ;O2) belonging segment.
- die Output-Daten repräsentieren eine Information, die angibt, wie viele verschiedenen Objekte mittels der Segmentzuordnung der Punkte (pz) in dem Bild erkannt wurden; - the output data represent information indicating how many different objects were recognized by means of the segment assignment of the points (p z ) in the image;
- die Output-Daten repräsentieren eine Information, die angibt, zu welchem jeweiligen Segment bzw. Objekt (01 ;02) die Punkte (p) jeweils zugeordnet wurden; - The output data represent information which indicates to which respective segment or object (01; 02) the points (p) were assigned in each case;
- die Output-Daten repräsentieren eine Information, die für zumindest eine Teilmenge der Punkte (p,) den jeweiligen Funktionswert einer oder mehrerer der Wahrscheinlichkeitsdichtefunktionen (fq;gr) an der Stelle angibt, die durch die dem Punkt (p) zugeordneten Werte der m Größen (z; T) bestimmt ist. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei für zumindest eine der m Größen (z;T) die zugehörigen Wahrscheinlichkeitsdichtefunktionen (fq;gr) jeweils einen Verlauf aufweisen, bei dem der Funktionswert in Abhängigkeit von dem Wert der Größe (z; T) bis zu einem Maximum ansteigt und danach wieder abfällt, wobei das Maximum das einzige auftretende Maximum im Verlauf der Wahrscheinlichkeitsdichtefunktion ist. Verfahren (200) nach Anspruch 10, wobei zumindest eine der jeweiligen Wahrscheinlichkeitsdichtefunktionen (fq;gr) für zumindest eine der m Größen (z; T) eine Gaußfunktion ist. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei zumindest eine der Häufigkeitsverteilungen (h) einem jeweiligen Glättungsprozess unterworfen wird und das Approximieren im Hinblick auf diese zumindest eine Häufigkeitsverteilung (h) bezüglich der mittels des Glättungsprozesses geglätteten entsprechenden Häufigkeitsverteilung (h) erfolgt. Verfahren (200) einem der vorausgehenden Ansprüche, wobei auf Basis der jeweiligen Punkte (p) eines oder mehrerer der Segmente, die als Repräsentanten eines jeweiligen Objekts (01 ;O2) identifiziert wurden, ein Prozess zur Gestenerkennung ausgeführt wird, um eine in dem Bild mittels der Punktwolke (P) abgebildete Geste einer Person zu erkennen. System zur Datenverarbeitung, aufweisend zumindest einen Prozessor, der so konfiguriert ist, dass er das Verfahren (200) nach einem der vorausgehenden Ansprüche ausführt. Computerprogramm mit Instruktionen, die bei ihrer Ausführung auf einem System nach Anspruch 14 dieses veranlassen, das Verfahren (200) nach einem der Ansprüche 1 bis 13 auszuführen. - the output data represent information which, for at least a subset of the points (p,) indicates the respective function value of one or more of the probability density functions (f q ;g r ) at the point indicated by the values assigned to the point (p). of m sizes (z; T) is determined. Method (200) according to one of the preceding claims, wherein for at least one of the m variables (z;T) the associated probability density functions (f q ; gr ) each have a profile in which the function value depends on the value of the variable (z ; T) rises to a maximum and then falls again, the maximum being the only maximum that occurs in the course of the probability density function. Method (200) according to claim 10, wherein at least one of the respective probability density functions (f q ; gr ) for at least one of the m quantities (z; T) is a Gaussian function. Method (200) according to one of the preceding claims, wherein at least one of the frequency distributions (h) is subjected to a respective smoothing process and the approximation with regard to this at least one frequency distribution (h) is carried out with regard to the corresponding frequency distribution (h) smoothed by means of the smoothing process. Method (200) according to one of the preceding claims, wherein on the basis of the respective points (p) one or more of the segments identified as representing a respective object (01; O2) a Gesture recognition process is performed to recognize a person's gesture depicted in the image by means of the point cloud (P). A data processing system comprising at least one processor configured to perform the method (200) of any preceding claim. A computer program having instructions which, when executed on a system according to claim 14, cause it to carry out the method (200) according to any one of claims 1 to 13.
26 26
EP21843940.4A 2021-01-13 2021-12-21 Method and system for recognizing objects, which are represented in an image by means of a point cloud Pending EP4278329A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021100512.4A DE102021100512A1 (en) 2021-01-13 2021-01-13 METHOD AND SYSTEM FOR RECOGNIZING OBJECTS REPRESENTED IN AN IMAGE BY A CLOUD OF POINTS
PCT/EP2021/086957 WO2022152522A1 (en) 2021-01-13 2021-12-21 Method and system for recognizing objects, which are represented in an image by means of a point cloud

Publications (1)

Publication Number Publication Date
EP4278329A1 true EP4278329A1 (en) 2023-11-22

Family

ID=80112348

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21843940.4A Pending EP4278329A1 (en) 2021-01-13 2021-12-21 Method and system for recognizing objects, which are represented in an image by means of a point cloud

Country Status (4)

Country Link
EP (1) EP4278329A1 (en)
CN (1) CN116888637A (en)
DE (1) DE102021100512A1 (en)
WO (1) WO2022152522A1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10593042B1 (en) * 2017-04-11 2020-03-17 Zoox, Inc. Perspective conversion for multi-dimensional data analysis

Also Published As

Publication number Publication date
WO2022152522A1 (en) 2022-07-21
DE102021100512A1 (en) 2022-07-14
CN116888637A (en) 2023-10-13

Similar Documents

Publication Publication Date Title
DE112014003563B4 (en) Device and method for gesture determination, gesture control device, program and recording medium
DE102015121339B4 (en) SYSTEMS AND METHODS FOR DETERMINING A CONDITION OF A ROAD
DE102014209137B4 (en) Method and device for calibrating a camera system of a motor vehicle
DE102018116111A1 (en) A uniform deep convolution neural network for the estimation of free space, the estimation of the object recognition and the object position
DE202017007675U1 (en) Computer program product with a computer program for processing visual data of a road surface
DE102017203276B4 (en) Method and device for determining a trajectory in off-road scenarios
DE102015207676A1 (en) Method and device for obstacle detection based on a monocular camera
DE102019100575A1 (en) METHOD AND SYSTEM FOR PRODUCING A AREA PICTURE USING LOW DEPTH DATA
EP1298454A2 (en) Method for recognising and tracking objects
DE102017218366A1 (en) METHOD AND PEDESTRIAN DETECTION APPROACH IN A VEHICLE
EP1531342B1 (en) Method of detecting pedestrians
DE102015208139A1 (en) Vehicle occupant detection by means of the distance between passenger and driver characteristics
EP3782117A1 (en) Method, device and computer-readable storage medium having instructions for processing sensor data
DE102018132805A1 (en) Procedure for improved object detection
DE102008015535B4 (en) Process for image processing of stereo images
DE102018121866A1 (en) Method for depth estimation of two-dimensional sensor data
EP3663881B1 (en) Method for controlling an autonomous vehicle on the basis of estimated movement vectors
WO2022152522A1 (en) Method and system for recognizing objects, which are represented in an image by means of a point cloud
DE102018121317A1 (en) Method and device for estimating direction information conveyed by a free space gesture for determining user input at a human-machine interface
EP3663800B1 (en) Method for detecting objects using a 3d camera
DE102020208080A1 (en) Detection of objects in images under equivariance or invariance with respect to the object size
DE102018130745A1 (en) Method for controlling an autonomous vehicle
WO2019072451A1 (en) Method for processing images
DE102019101634A1 (en) Workpiece imaging device
DE102016124989A1 (en) Curb representation with a three-dimensional body in a driver assistance system for a motor vehicle

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230706

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)