EP4278329A1 - Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten - Google Patents

Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten

Info

Publication number
EP4278329A1
EP4278329A1 EP21843940.4A EP21843940A EP4278329A1 EP 4278329 A1 EP4278329 A1 EP 4278329A1 EP 21843940 A EP21843940 A EP 21843940A EP 4278329 A1 EP4278329 A1 EP 4278329A1
Authority
EP
European Patent Office
Prior art keywords
points
image
point
point cloud
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21843940.4A
Other languages
English (en)
French (fr)
Inventor
Niklas HERMES
Cornelius REINFELDT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gestigon GmbH
Original Assignee
Gestigon GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gestigon GmbH filed Critical Gestigon GmbH
Publication of EP4278329A1 publication Critical patent/EP4278329A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to a method and a system for recognizing one or more objects that are represented in an image or in corresponding image data using a point cloud.
  • the task arises of analyzing image data, ie data representing an image or a sequence of images, such as a video, to determine whether and, if so, which objects are depicted in the image(s).
  • image data ie data representing an image or a sequence of images, such as a video
  • the detection of movements or changes in such objects on the basis of such images or image data is also regularly of interest.
  • the methods for generating images or image data also include methods of, in particular discrete, scanning of a real scene with one or more associated real objects (e.g. people or things), where the resulting image data represents a two- or three-dimensional point cloud.
  • Such scanning can be carried out in particular with image sensors that also scan a scene in the depth dimension.
  • image sensors are, in particular, stereo cameras, time-of-flight sensors (time of flight or time-of-flight (TOF) sensors), and electro-optical distance sensors (laser range finders (LRF) sensors).
  • TOF time of flight or time-of-flight
  • LRF laser range finders
  • point clouds can also be generated by radar, lidar or ultrasonic sensors.
  • such point clouds can also be generated artificially, without a real scene having to be recorded by sensors.
  • such point clouds can be generated artificially, in particular computer-aided, as part of or as the result of simulations, in particular simulations of real scenes.
  • segment such a point cloud in the sense of image processing
  • segments i.e. image segments
  • a simple known method for such a foreground/background segmentation for an image given by a point cloud is the Evaluate depth information regarding the points of a point cloud by means of a threshold value method, in that all points which, according to their depth information, are closer than a specific depth threshold are assigned to the image foreground, while all other points are assigned to the image background.
  • a separation of the two objects in the image or in the point cloud can also be achieved in this way.
  • the object of the present invention is to further improve the recognition of one or more objects that are represented in an image or in corresponding image data using a cloud of points. In particular, it is desirable to achieve improved separability of different objects.
  • a “cloud of points” in the sense of the invention is a set of points of a vector space (unless restricted to specific dimensions below for embodiments) of any given dimension M>1, which in particular can have an organized or an unorganized spatial structure.
  • a point cloud is described by the points it contains, which can each be recorded in particular by their positions specified using spatial coordinates.
  • attributes such as B. geometric standards, color values, temperature values, recording times or measurement accuracies or other information.
  • a “one-dimensional quantity” within the meaning of the invention is to be understood as any selected quantity that can be completely determined one-dimensionally, ie as a number (with or without a unit), and that characterizes a property of a point in a point cloud.
  • the property can be position information, such as a spatial coordinate, or an attribute of the point or be derived therefrom.
  • the size can correspond in particular, but is not limited to, an assignment of the position to a specific point on a directional line (e.g. coordinate axis). In another example, however, it could also correspond to a distance of the respective point of the point cloud from a specific reference point, so that, for example, points lying concentrically at the same distance from this reference point have the same value for the size.
  • X be a continuous random variable (here a continuous variable representing one of the one-dimensional characteristic quantities).
  • a “one-dimensional probability density function” within the meaning of the invention is then to understand a mathematical function f(x) of the one-dimensional random variable X, for which the following applies: sp (ci ⁇ X ⁇ b) stands for the probability or actual frequency of the occurrence of a value for x from the value interval ]a;b] specified by a and b.
  • sp (ci ⁇ X ⁇ b) stands for the probability or actual frequency of the occurrence of a value for x from the value interval ]a;b] specified by a and b.
  • this definition of f(x) agrees with the usual mathematical definition of a probability density function of a one-dimensional continuous random variable.
  • the concept of a “one-dimensional probability density function” within the meaning of the invention is therefore generalized, since c can also assume values other than 1 here.
  • a “segment” of an image (or a point cloud) in the sense of the invention is a content-related region of an image (or a point cloud) that is defined by combining adjacent pixels (or points in a point cloud) according to a specific homogeneity criterion is.
  • the homogeneity criterion can relate in particular to a position or coordinate or an attribute of the points, without being limited thereto.
  • the context of the region can thus be understood spatially in some cases in particular, while in other cases it can relate in particular to points in the sense of the homogeneity criterion of the same or similar attributes.
  • the terms “comprises,” “includes,” “includes,” “has,” “has,” “having,” or any other variant thereof, as appropriate, are intended to cover non-exclusive inclusion.
  • a method or apparatus that includes or has a list of elements is not necessarily limited to those elements, but may include other elements that are not expressly listed or that are inherent in such method or apparatus.
  • the term "configured” or “set up” to perform a specific function (and respective modifications thereof) is to be understood within the meaning of the invention that the corresponding device is already in a configuration or setting in which it can or can perform the function it is at least adjustable - i.e. configurable - so that it can carry out the function after appropriate setting.
  • the configuration can take place, for example, via a corresponding setting of parameters of a process flow or of switches or the like for activating or deactivating functionalities or settings.
  • the device can have a plurality of predetermined configurations or operating modes, so that the configuration can take place by selecting one of these configurations or operating modes.
  • the aforementioned method according to the first aspect is therefore based in particular on describing the cloud of points using one or more selected, one-dimensional variables that characterize each point in the cloud of points on the basis of its position or properties, and a frequency distribution of the values of the to approximate the respective variable by means of one-dimensional probability density functions (in the sense of the approximation or adjustment calculation).
  • this point can then be unambiguously assigned to a segment of the image or the point cloud. In many cases, this is even possible if the point cloud portions of different objects or of one object and the image background are close to each other.
  • This can be used in particular to separate the images of multiple objects represented by a point cloud from one another.
  • the accuracy of the separation can be increased and the error rate reduced.
  • Particularly high accuracies or low error rates can be achieved in the case of m>1, since different variables that are independent of one another interact here to create even stricter separation criteria for assigning the points to an image segment and thus if necessary, to deliver to an associated object.
  • the points of the point cloud are assigned to one segment each (segmentation criterion) in such a way that each point to be assigned is assigned to a segment of the image is assigned.
  • At least one of the threshold values is defined as a function of a variable value at which one of the intersection points of at least two of these probability density functions occurs such that the threshold value corresponds to the variable value for this intersection point.
  • the above-mentioned segmentation criterion can thus be defined in a simple manner and used efficiently without a great deal of computational effort in order to allocate the individual points to a segment in each case.
  • the definition of the threshold value(s) as a function of the point(s) of intersection of the probability density function is particularly advantageous with regard to the goal of an assignment that is as reliable as possible (with few or no errors). Namely, if the probability density functions for the linear combination are determined by the approximation in such a way that they each approximate the respective frequency distribution of the size for a specific object well, then their integral over a specific value interval, in which to the associated value for the size lies at a certain point, with a respective one Associate the probability that the point belongs to the object approximated by the respective probability density function.
  • a point is assigned to a particular segment based on its size value as a result of comparison with the threshold, this means that it has a higher probability of belonging to the object associated with this segment than to the other object whose associated segment is determined by means of of the threshold is separated from the associated segment.
  • At least one of the m quantities for each of the points in the point cloud indicates a position of this point along this spatial direction, projected onto a selected fixed spatial direction.
  • This can be used, for example, to achieve segmentation of the image or point cloud in a two- or three-dimensional point cloud (M e ⁇ 2;3 ⁇ ) with depth dimension z on the basis of the depth information given by the point positions, in particular also in the sense a foreground/background segmentation.
  • the spatial direction can in particular correspond to the direction of a coordinate axis of a coordinate system used to define the positions of the points in the M-dimensional space.
  • the fixed spatial direction is selected to be orthogonal to a first principal component resulting from a principal component analysis applied to the point cloud. This is particularly advantageous for the detection of objects that are to be separated from the background or other objects with regard to a spatial direction that does not coincide with the direction of the first principal component, preferably even, at least essentially, is perpendicular thereto. Since the first principal component from a principal component analysis represents the dominant component for objects that are not spherically symmetric, it is consequently particularly easy to separate those objects whose dominant component runs at least largely transversely to the fixed spatial direction under consideration. If, for example, the selected fixed spatial direction corresponds to the depth direction (e.g.
  • the least dominant of the main components is thus selected as the fixed spatial direction, so that objects can be recognized or separated particularly well whose more dominant first or second main components are transverse, in particular orthogonal, to the fixed spatial direction.
  • the method further includes: filtering the image such that, after filtering, it only contains those points of the point cloud that have been assigned to one of the segments that have each been identified as representing a respective recognized object.
  • a filter function can be implemented in particular, which has the effect that only the object or objects of interest is recognized or identified, while other objects or the image background are at least largely ignored (except for those points that may have been mistakenly assigned to the object or objects). assigned to the remaining objects of interest).
  • the image can be filtered in such a way that, after filtering, it only contains those points of the point cloud that have been assigned exactly to a specific selected one of those segments that has been identified as representing an assigned recognized object.
  • a result can thus be achieved in which at most or in particular only exactly one single object is identified.
  • the size for each of the points of the point cloud indicates a position of this point along this spatial direction projected onto a selected fixed spatial direction
  • that segment is selected from the set of segments identified as representing a respective recognized object , whose assigned points according to their positions projected onto the selected fixed spatial direction viewed in the viewing direction along this spatial direction, viewed on average, are closer than the points assigned to any other of the identified segments.
  • This can be advantageously used in particular for the purpose of foreground/background segmentation if only one (or the) foremost object is to be recognized as the foreground.
  • m>1 applies and at least one of the m quantities indicates a temperature value or a color value for each of the points of the point cloud.
  • Another of the m quantities can relate in particular to the position of the respective point.
  • a particularly reliable, ie selective, segmentation can be achieved if the object(s) to be identified typically have a surface temperature that deviates from their ambient temperature, as is usually the case with living objects, in particular people or animals.
  • output data is generated (and preferably output, in particular via an interface) that represents the result of the assignment of the points to segments or the identification of at least one recognized object in one or more of the following ways: (i) the output data represent, for at least one of the objects, an image of this object based on one or more, in particular all, of those points in the point cloud which have been assigned to the segment belonging to this object; (ii) the output data represents information indicating how many different objects were recognized by the segment assignment of the points in the image; (iii) the output data represent information which indicates to which respective segment or object the points were assigned in each case; (iv) the output data represent information which, for at least a subset of the points, specifies the respective function value of one or more of the probability density functions at the point which is determined by the values of the m quantities assigned to the point.
  • the image can be determined in particular by a specific point from the set of points assigned to the segment or as a specific, in particular calculated point depending on these points, for example as the center point of the distribution of the points in the set.
  • the image can in particular also be defined as a spatial area or body spanned by the points of the set.
  • the associated (respective) probability density functions each have a course in which the function value increases as a function of the value of the variable up to a maximum and then falls again, with the maximum is the only occurring maximum in the course of the probability density function.
  • a function profile which can be bell-shaped (symmetrical or also asymmetrical), is then particularly good for the method and in particular for approximating frequency distributions for the sampling point clouds generated by objects if the object or objects each have a convex shape.
  • At least one (in particular each) of the respective probability density functions for at least one of the m quantities can be a Gaussian function.
  • At least one of the frequency distributions is subjected to a respective smoothing process and the approximation with regard to this at least one frequency distribution takes place with respect to the corresponding frequency distribution smoothed by means of the smoothing process.
  • the quality of the approximation and thus the quality and reliability of the recognition or separation of objects represented by the point cloud based thereon can be further increased.
  • a gesture recognition process is performed to recognize a gesture of a person represented in the image by means of the point cloud. This can be done in particular in the context of an automotive application, in particular in connection with a gesture recognition with regard to gestures performed by an occupant of a vehicle to control a functionality of the vehicle.
  • a second aspect of the invention relates to a system for data processing, having at least one processor which is configured in such a way that it executes the method according to the first aspect of the invention.
  • the system can be a computer or a control unit for another or higher-level system, such as for a vehicle or for a production machine or line.
  • a third aspect of the invention relates to a computer program with instructions which, when executed on a system according to the second aspect, cause the latter to carry out the method according to the first aspect.
  • the computer program can in particular be stored on a non-volatile data medium.
  • a non-volatile data medium This is preferably a data carrier in the form of an optical data carrier or a flash memory module.
  • the computer program can be present as a file on a data processing unit, in particular on a server, and can be downloaded via a data connection, for example the Internet or a dedicated data connection, such as a proprietary or local network.
  • the computer program can have a plurality of interacting individual program modules.
  • the system according to the second aspect can accordingly have a program memory in which the computer program is stored.
  • the system can also be set up to access a computer program available externally, for example on one or more servers or other data processing units, via a communication connection, in particular in order to exchange data with it that are used during the course of the method or computer program or outputs of the computer program represent.
  • 1 shows schematically various exemplary scenes, each with an object arrangement of two objects to be separated from one another, and in each case a sectional image of a corresponding point cloud detected by sensors by scanning the scene;
  • FIG. 1 to illustrate an exemplary problem addressed by the invention, an overview 100 of various exemplary scenes 105a, 110a, 115a and 120a and a corresponding sectional view 105b, 110b, 1 15b or 120b through a point cloud P is shown, which was generated by scanning the respective scene using a depth image sensor, in particular a TOF camera (time of flight sensor).
  • the depth direction to which the detected depth image relates and which measures a distance from the sensor to the respective object along the depth image sensor, is selected here as the "z" direction by way of example.
  • the TOF camera is selected here as the "z" direction by way of example.
  • a point p, in the point cloud is given by its (x,y,z) coordinates, where (x,y) is a (horizontal) plane perpendicular to the sensor's line of sight, and z is the depth value, i.e. the distance from the point to the sensor.
  • Each of the scenes shows a first object Oi, which is formed by a human hand of a person, and any other object O 2 , which can be, for example, another part of the person's body or a body belonging to an interior of a vehicle.
  • the two objects Oi and O2 are laterally adjacent in a direction perpendicular to the z-direction (eg, x-direction), with a gap between them along this direction. Due to this gap, the point cloud portions corresponding to the two objects Oi and O 2 can be divided, as in shown in sectional view 105b, easily separate from one another and assign each to a separate image segment or. This assignment is essentially error-free, at least when the gap is larger than the average point spacing within the point cloud P.
  • the two objects Oi and O2 are offset from one another in the z-direction, with a gap between them in the z-direction. Due to this gap, the point cloud portions corresponding to the two objects O1 and O2, as shown in section view 110b, can also be easily separated from each other due to their clearly different depth values (z-coordinates) and each have their own image segment and thus object O1 or assign O2. This assignment is also essentially error-free, at least when the gap is larger than the average point spacing within the point cloud P.
  • the two objects O1 and O2 are offset from one another in the z-direction, separated only by a very small gap, and they overlap in the direction perpendicular to the z-direction.
  • the corresponding point cloud P in view 115b no longer allows a division of the point cloud P into point cloud portions or segments corresponding to the two objects O1 and O2 in a similarly simple and error-free manner as in scenes 105a and 110a due to a recognized gap, because the average point spacing within the point cloud P is similar in size to the gap.
  • the starting position for an object separation is even more difficult in the case of scene 120a, in which the two objects O1 and O2 overlap or touch both in the z-direction and in a direction perpendicular thereto, so that there is no gap that can be imaged by the point cloud P here more occurs and thus an object separation or segmentation with simple means, as explained for the scenes 105a and 105b, becomes unreliable or fails completely.
  • a scene 205 containing a plurality of objects is scanned by image sensors, in particular by means of a depth image sensor, such as a TOF camera, in order to obtain an image of the scene in the form of a point cloud P, as shown in view 210.
  • the image data output by the depth image sensor can, in particular, have its respective coordinate in the depth direction, here as the z-direction, for each of the points p in the point cloud P selected, and optionally represent further coordinates or additionally measured properties of the objects.
  • the resulting frequency distribution h(k) is illustrated using a histogram that represents it.
  • the set of depth values ⁇ d , ..., d n ⁇ (in this example equivalent to the set of z coordinates of the points [p L , ...,p n ⁇ ) serves as the basis for the further steps for object separation or Segmentation.
  • the range of possible depth values is divided into a sequence of sections of length y and each point Pt of the point cloud P, at least each point to be assigned to a segment, is assigned to one of the sections according to its depth value d L .
  • the histogram then indicates, for each value JE 2 , the number of those points whose depth value corresponds approximately (ie rounded down in the present example) to j /.
  • the finitely large granularity requires the aforementioned discretization, since all values of d L within the same section are assigned the same value k t for k.
  • a normalized Gaussian function is, as usual, to be understood as a function f :IR >— > H, which can be represented using the following formula, where the mean p of the distribution, the standard deviation a and the normalization factor c are each parameters of the function f (the notation "f" and "f" are used here synonymously, the same applies to different spellings of other symbols) and with regard to the method 200 z is selected as the independent variable:
  • Gaussian functions for the approximation are advantageous in several respects.
  • the Gaussian functions f q (z) are determined by means of the approximation, a segment of the image or the point cloud P represented by them can be defined by each of these Gaussian functions. Then, for each point p L e P , the probability that that point p L belongs to a respective particular segment can be interpreted such that this probability is proportional to fq(di).
  • the associated function value fi (di) indicates the probability that this point p L belongs to a first segment of the image, and accordingly for each point p t e P the associated function value f2 ( di) indicates the probability that this point Pt belongs to a second segment of the image different from the first segment.
  • each point p t is unambiguously assigned to that segment q whose function value f q (dj) for this point is the highest among the various function values for this point.
  • one or, in this case, two objects Oi and O2 can now be identified by assigning all points of a respective segment to exactly one of these objects O1 or O2.
  • the respective segment is thus determined as a representative of the respective associated object.
  • the choice of the one-dimensional variable can influence the resulting one, particularly if it corresponds to a position along a specific direction (here the z-direction, for example). Frequency distribution, thus on the functions determined from it by approximation and finally also on the quality of the segment assignment and object identification.
  • the z-direction is selected such that it runs orthogonally to a main extension direction, represented by direction vector A, of a person's hand to be identified as object O1 within the scope of the method.
  • direction vector A a main extension direction
  • the situation shown in view 310 results that the frequency distribution is good even using a single Gaussian function can be approximated, which in turn leads to a simple and very reliable and accurate identification of the object Oi.
  • the z-direction is selected such that it is no longer orthogonal, but rather at a smaller angle to the main extension direction represented by the direction vector A of the object shown and as part of the method Oi to be identified hand of a person runs.
  • the situation shown in view 320 results here that the frequency distribution can only be well approximated using a linear combination of several Gaussian functions, which in turn leads to a more difficult and possibly less reliable or less precise identification of the object Oi.
  • the method 200 can in particular provide that the one-dimensional direction is selected on the basis of the result of a principal component analysis in such a way that a fixed spatial direction is selected for the one-dimensional quantity such that it runs orthogonally to a first principal component, which consists of a point cloud applied principal component analysis results.
  • the least dominant main component (here along the z-direction) is selected, which usually optimizes the probability that the most dominant main component is at least predominantly perpendicular to it and thus to the scanning direction (here z-direction) and therefore a more dem scenario approximated to the first scenario with optimized segment allocation and object allocation.
  • Diagram 400 relates to an extension of the method, in particular also of method 200, to the case m>1.
  • each function, especially Gaussian may represent only one object category (i.e. a set of multiple objects that is not further discriminated by the chosen feature) and not necessarily exactly a single object.
  • One approach to improving the method with regard to its selectivity includes adding at least one additional one-dimensional variable so that m>1 applies.
  • a local temperature value T recorded for the respective point can also be used as a second variable and thus as an additional basis for the assignment.
  • the hand has a higher (surface) temperature than the background and a classification of the points pi according to their respective local temperature value Ti according to a second frequency distribution h'(k'(T) related to the temperature as an independent variable ) or h'(T) for short, which in turn can be approximated by a linear function of distribution density functions gi in accordance with method 200, only this time related to the temperature instead of the z-coordinate.
  • the size z enables the point cloud to be subdivided into the categories of near object and distant object or image background.
  • the thermal quantity (temperature) T can divide the points into the categories "warm objects" and "cold objects".
  • the image background B can optionally also be viewed as a distant object.
  • P ⁇ p x , ... , p n ⁇ be a point cloud generated by the sensory scanning of the scene, with each point p L being assigned a depth value z and a measured local temperature value T at the location of the measured position of the respective point Pt becomes.
  • equation (5) an approximation according to equation (5) is carried out for the depth z of the points, initially considered as a single variable, in order to determine a linear combination of functions f q (z) which approximates the depth value distribution of the points.
  • Each of the functions f q (z) again represents a depth segment.
  • the product for the selected point p t the combination /i(Pi) ' ⁇ (Pr) is largest among all combinations, so that the concrete point pt is assigned to the combined segment (1;2). becomes, which here corresponds to the closest and at the same time warmest object.
  • the points of this combined segment can then be identified as points of an object to be recognized, here the hand Oi.
  • the method according to the invention can be used in its various variants for a wide variety of applications.
  • Such applications include, in particular, the separation of images of different body parts of a person, of different people or of one or more people on the one hand and one or more other objects on the other hand, each from one another or from a background.
  • the method can be used to separate one or more body parts of a person in an image captured by sensors, in order then, depending on the result of such a separation or segmentation and a subsequent identification of the body parts as objects, to carry out gesture recognition with regard to any of the perform gestures performed by the person.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

Ein Verfahren zum Erkennen von einem oder mehreren in einem Bild anhand einer M-dimensionalen Punktwolke, mit M>1, aus einer Mehrzahl n von Punkten repräsentierten Objekten, weist auf: Bestimmen, für jede einer Anzahl m, mit m>0, von bestimmten eindimensionalen Größen, eines jeweiligen zugeordneten Werts der Größe zu jedem der Punkte auf Basis von dessen Position oder Eigenschaften; Bestimmen, für jede der Größen, einer jeweiligen Häufigkeitsverteilung bezüglich der für die verschiedenen Punkte jeweils bestimmten Werte dieser Größe; Approximieren jeder der Häufigkeitsverteilungen mittels einer jeweiligen Linearkombination einer endlichen Anzahl von der zugrundeliegenden Größe zugeordneten eindimensionalen Wahrscheinlichkeitsdichtefunktionen; Segmentieren des Bildes so, dass im Fall m=1 jeder der Wahrscheinlichkeitsdichtefunktionen und im Fall m>1 jedem Produkt aus m Wahrscheinlichkeitsdichtefunktionen, wobei je eine der zugeordneten Wahrscheinlichkeitsdichtefunktionen je Größe in dem Produkt vertreten ist, ein jeweiliges Segment des Bildes eindeutig zugeordnet wird; Jeweiliges Zuordnen jedes Punkts der Punktwolke zu demjenigen Segment, dessen zugeordnete Wahrscheinlichkeitsdichtefunktion im Fall m=1 bzw. dessen zugeordnetes Produkt im Fall m>1 an der Stelle, die durch die dem Punkt zugeordneten Werte der m Größen bestimmt ist, den relativ größten Funktionswert bzw. Produktwert unter den Wahrscheinlichkeitsdichtefunktionen bzw. Produkten aufweist; und Identifizieren zumindest eines derjenigen Segmente, denen jeweils zumindest eine vorbestimmte Mindestanzahl von Punkten zugeordnet wurde, als Repräsentant eines jeweiligen erkannten Objekts. Eine entsprechende Vorrichtung und ein Computerprogramm sind eingerichtet, das Verfahren auszuführen.

Description

VERFAHREN UND SYSTEM ZUM ERKENNEN VON IN EINEM BILD ANHAND EINER PUNKTWOLKE REPRÄSENTIERTEN OBJEKTEN
Die vorliegende Erfindung betrifft ein Verfahren sowie ein System zum Erkennen von einem oder mehreren Objekten, die in einem Bild bzw. in entsprechenden Bilddaten anhand einer Punktwolke repräsentiert sind.
In vielen verschiedenen technischen Anwendungen stellt sich die Aufgabe, Bilddaten, also Daten die ein Bild oder eine Abfolge von Bildern, wie etwa ein Video, repräsentieren, dahingehend zu analysieren ob und gegebenenfalls welche Objekte in dem bzw. den Bildern abgebildet sind. Auch das Erkennen von Bewegungen oder Veränderungen solcher Objekte auf Basis solcher Bilder bzw. Bilddaten sind regelmäßig von Interesse.
Zu den Methoden zur Erzeugung von Bildern bzw. Bilddaten gehören neben den bekannten Verfahren der Fotographie oder der Aufnahme von „bewegten Bildern“, wie etwa von Videoaufnahmen, auch Methoden der, insbesondere diskreten, Abtastung einer realen Szene mit einem oder mehreren zugehörigen realen Objekten (z.B. Personen oder Dingen), bei dem die resultierenden Bilddaten eine zwei- oder dreidimensionale Punktwolke repräsentieren. Eine solche Abtastung kann insbesondere mit Bildsensoren durchgeführt werden, die eine Szene auch in der Tiefendimension abtasten. Beispiele für solche Bildsensoren sind insbesondere Stereokameras, Flugzeitsensoren (Flugzeit- bzw. Time-of-Flight (TOF)-Sensoren), und elektrooptische Entfernungssensoren (Laser Range Finders (LRF)-Sensoren). Alternativ können solche Punktwolken auch durch Radar-, Lidar- oder Ultraschallsensoren generiert werden. Alternativ können solche Punktwolken aber auch künstlich generiert werden, ohne dass dazu zwingend eine reale Szene sensorisch erfasst werden muss. Insbesondere können solche Punktwolken im Rahmen bzw. als Ergebnis von Simulationen, insbesondere von Simulationen realer Szenen, künstlich, insbesondere computergestützt, generiert werden.
Bei einigen Anwendungen kann es erforderlich sein, eine Segmentierung (im Sinne der Bildverarbeitung) einer solchen Punktwolke vorzunehmen, um verschiedene Bildbereiche bzw. Bereiche der Punktwolke als Segmente (d.h. Bildsegmente) voneinander unterscheiden bzw. separieren zu können, etwa um einen Bildvordergrund von einem Bildhintergrund zu trennen.
Ein einfaches bekanntes Verfahren für eine solche Vordergrund/Hintergrund- Segmentierung für ein durch eine Punktwolke gegebenes Bild besteht darin, die Tiefeninformation bezüglich der Punkte einer Punktwolke mittels eines Schwellwertverfahrens auszuwerten, indem alle Punkte die ausweislich ihrer Tiefeninformation näher liegen als eine bestimmte Tiefenschwelle, dem Bildvordergrund zugeordnet werden, während alle anderen Punkte dem Bildhintergrund zugeordnet werden.
Wenn eine durch die Punktwolke repräsentierte Szene beispielsweise zwei verschiedene Objekte enthält, dann kann auf diese Weise auch eine Separierung der beiden Objekte in dem Bild bzw. in der Punktwolke erreicht werden.
Ein solches Verfahren stößt jedoch an seine Grenzen, wenn die Objekte nah beieinander liegen, insbesondere so, dass sie in jeder betrachteten Raumdimension überlappen und somit die die jeweiligen die Objekte repräsentierenden einzelnen Punktwolken ohne klar erkennbare Separierung ineinander übergehen und zu einer gemeinsamen Punktwolke verschmelzen.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, die Erkennung von einem oder mehreren Objekten, die in einem Bild bzw. in entsprechenden Bilddaten anhand einer Punktwolke repräsentiert sind, weiter zu verbessern. Insbesondere ist es wünschenswert, dabei eine verbesserte Separierbarkeit verschiedener Objekte zu erreichen.
Die Lösung dieser Aufgabe wird gemäß der Lehre der unabhängigen Ansprüche erreicht. Verschiedene Ausführungsformen und Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.
Ein erster Aspekt der Erfindung betrifft ein, insbesondere computerimplementiertes, Verfahren zum Erkennen von einem oder mehreren in einem Bild anhand einer M- dimensionalen Punktwolke, mit M>1 , aus einer Mehrzahl n von Punkten repräsentierten Objekten, wobei das Verfahren aufweist: (i) Bestimmen, für jede einer Anzahl m, mit m > 0, von bestimmten eindimensionalen Größen, eines jeweiligen zugeordneten Werts der Größe zu jedem der Punkte auf Basis von dessen Position oder Eigenschaften; (ii) Bestimmen, für jede der Größen, einer jeweiligen Häufigkeitsverteilung bezüglich der für die verschiedenen Punkte jeweils bestimmten Werte dieser Größe; (iii) Approximieren jeder der Häufigkeitsverteilungen mittels einer jeweiligen Linearkombination einer endlichen Anzahl von der zugrundeliegenden Größe zugeordneten eindimensionalen Wahrscheinlichkeitsdichtefunktionen; (iv) Segmentieren des Bildes so, dass im Fall m=1 jeder der Wahrscheinlichkeitsdichtefunktionen und im Fall m>1 jedem Produkt aus m Wahrscheinlichkeitsdichtefunktionen, wobei je eine, insbesondere genau eine, der zugeordneten Wahrscheinlichkeitsdichtefunktionen je Größe in dem Produkt vertreten ist, ein jeweiliges Segment des Bildes eindeutig zugeordnet wird; (v) Jeweiliges Zuordnen jedes Punkts der Punktwolke zu demjenigen Segment, dessen zugeordnete Wahrscheinlichkeitsdichtefunktion im Fall m=1 bzw. dessen zugeordnetes Produkt im Fall m>1 an der Stelle, die durch die dem Punkt zugeordneten Werte der m Größen bestimmt ist, den relativ größten Funktionswert bzw. Produktwert unter den Wahrscheinlichkeitsdichtefunktionen bzw. Produkten aufweist; und (vi) Identifizieren zumindest eines derjenigen Segmente, denen jeweils zumindest eine vorbestimmte Mindestanzahl von Punkten zugeordnet wurde, als Repräsentant eines jeweiligen erkannten Objekts.
Unter einer „Punktwolke“ ist im Sinne der Erfindung eine Menge von Punkten eines Vektorraums (soweit nicht nachfolgend für Ausführungsformen auf bestimmte Dimensionen eingeschränkt) beliebiger vorgegebener Dimension M>1 zu verstehen, die insbesondere eine organisierte oder aber eine unorganisierte räumliche Struktur aufweisen kann. Eine Punktwolke ist durch die in ihr enthaltenen Punkte beschrieben, die jeweils insbesondere durch ihre mittels Raumkoordinaten angegebenen Positionen erfasst sein können. Zu den Punkten können zusätzlich Attribute, wie z. B. geometrische Normalen, Farbwerte, Temperaturwerte, Aufnahmezeitpunkte oder Messgenauigkeiten oder andere Informationen, erfasst sein.
Unter einer „eindimensionalen Größe“ im Sinne der Erfindung ist eine beliebige ausgewählte Größe zu verstehen, die eindimensional, also als Zahl (mit oder ohne Einheit) vollständig bestimmt werden kann, und die eine Eigenschaft eines Punkts einer Punktwolke kennzeichnet. Die Eigenschaft kann insbesondere eine Positionsinformation, etwa eine Raumkoordinate, oder ein Attribut des Punkts sein oder davon abgeleitet sein. Im Falle einer Positionsinformation kann die Größe insbesondere, ohne jedoch darauf begrenzt zu sein, einer Zuordnung der Position zu einer bestimmten Stelle auf einer Richtungsgeraden (z.B. Koordinatenachse) entsprechen. In einem anderen Beispiel könnte sie jedoch auch einem Abstand des jeweiligen Punkts der Punktwolke zu einem bestimmten Bezugspunkt entsprechen, sodass beispielsweise konzentrisch im gleichen Abstand von diesem Bezugspunkt liegende Punkte denselben Wert für die Größe aufweisen.
Sei X eine stetige Zufallsvariable (vorliegend eine stetige Variable, die, eine der eindimensionalen kennzeichnenden Größen repräsentiert). Unter einer „eindimensionalen Wahrscheinlichkeitsdichtefunktion“ im Sinne der Erfindung ist dann eine mathematische Funktion f(x) der eindimensionalen Zufallsvariable X zu verstehen, für die gilt: sp (ci < X < b) steht hierbei für die Wahrscheinlichkeit oder tatsächlichen Häufigkeit des Auftretens eines Wertes für x aus dem durch a und b spezifizierten Werteintervall ]a;b]. Speziell für den Wert c = 1 des Skalierungsfaktors c stimmt diese Definition von f(x) mit der in der Mathematik üblichen Definition einer Wahrscheinlichkeitsdichtefunktion einer eindimensionalen stetigen Zufallsvariable überein. Der Begriff einer „eindimensionalen Wahrscheinlichkeitsdichtefunktion“ im Sinne der Erfindung ist also demgegenüber verallgemeinert, da c hier auch andere Werte als 1 annehmen kann.
Unter einem „Segment“ eines Bildes (bzw. einer Punktwolke) ist im Sinne der Erfindung eine inhaltlich zusammenhängende Region eines Bildes (bzw. einer Punktwolke) zu verstehen, die durch Zusammenfassung benachbarter Bildpunkte (bzw. Punkte einer Punktwolke) entsprechend einem bestimmten Homogenitätskriterium definiert ist. Das Homogenitätskriterium kann sich dabei, ohne darauf beschränkt zu sein, insbesondere auf eine Position oder Koordinate oder ein Attribut der Punkte beziehen. Der Zusammenhang der Region kann somit insbesondere in einigen Fällen räumlich zu verstehen sein, während er sich in anderen Fällen insbesondere auf Punkte im Sinne des Homogenitätskriteriums gleicher oder ähnlicher Attribute beziehen kann.
Die hierein gegebenenfalls verwendeten Begriffe "umfasst", "beinhaltet", "schließt ein", "weist auf", "hat", "mit", oder jede andere Variante davon sollen eine nicht ausschließliche Einbeziehung abdecken. So ist beispielsweise ein Verfahren oder eine Vorrichtung, die eine Liste von Elementen umfasst oder aufweist, nicht notwendigerweise auf diese Elemente beschränkt, sondern kann andere Elemente einschließen, die nicht ausdrücklich aufgeführt sind oder die einem solchen Verfahren oder einer solchen Vorrichtung inhärent sind.
Ferner bezieht sich "oder", sofern nicht ausdrücklich das Gegenteil angegeben ist, auf ein inklusives oder und nicht auf ein exklusives „oder“. Zum Beispiel wird eine Bedingung A oder B durch eine der folgenden Bedingungen erfüllt: A ist wahr (oder vorhanden) und B ist falsch (oder nicht vorhanden), A ist falsch (oder nicht vorhanden) und B ist wahr (oder vorhanden), und sowohl A als auch B sind wahr (oder vorhanden). Die Begriffe "ein" oder "eine", wie sie hier verwendet werden, sind im Sinne von „ein/eine oder mehrere“ definiert. Die Begriffe "ein anderer" und „ein weiterer“ sowie jede andere Variante davon sind im Sinne von „zumindest ein Weiterer“ zu verstehen.
Der Begriff "Mehrzahl", wie er hier verwendet wird, ist im Sinne von „zwei oder mehr“ zu verstehen.
Unter dem Begriff „konfiguriert“ oder „eingerichtet“ eine bestimmte Funktion zu erfüllen, (und jeweiligen Abwandlungen davon) ist im Sinne der Erfindung zu verstehen, dass die entsprechende Vorrichtung bereits in einer Ausgestaltung oder Einstellung vorliegt, in der sie die Funktion ausführen kann oder sie zumindest so einstellbar - d.h. konfigurierbar - ist, dass sie nach entsprechender Einstellung die Funktion ausführen kann. Die Konfiguration kann dabei beispielsweise über eine entsprechende Einstellung von Parametern eines Prozessablaufs oder von Schaltern oder ähnlichem zur Aktivierung bzw. Deaktivierung von Funktionalitäten bzw. Einstellungen erfolgen. Insbesondere kann die Vorrichtung mehrere vorbestimmte Konfigurationen oder Betriebsmodi aufweisen, so dass das konfigurieren mittels einer Auswahl einer dieser Konfigurationen bzw. Betriebsmodi erfolgen kann.
Das vorgenannte Verfahren nach dem ersten Aspekt beruht folglich insbesondere darauf, die Punktewolke mittels einer oder mehreren ausgewählten, jeweils eindimensionalen Größen zu beschreiben, die jeden Punkt der Punktwolke jeweils auf Basis von dessen Position oder Eigenschaften kennzeichnen, und jeweils eine darauf gründende Häufigkeitsverteilung der Werte der jeweiligen Größe mittels eindimensionaler Wahrscheinlichkeitsdichtefunktionen (im Sinne der Näherungs- bzw. Ausgleichsrechnung) zu approximieren. Auf Basis dieser Approximation, insbesondere den jeweiligen Funktionswerten der verschiedenen Wahrscheinlichkeitsdichtefunktionen zu dem zu einem betrachteten Punkt jeweils gehörigen Werten der jeweiligen Größe, kann dieser Punkt sodann eindeutig einem Segment des Bildes bzw. der Punktwolke zugeordnet werden. Dies ist in vielen Fällen selbst dann möglich, wenn die Punktwolkenanteile verschiedener Objekte bzw. von einem Objekt und dem Bildhintergrund nahe beieinander liegen. Dies kann insbesondere dazu verwendet werden, die Abbilder mehrerer durch eine Punktwolke repräsentierten Objekte voneinander zu separieren. Insbesondere kann so die Genauigkeit der Separation erhöht bzw. die Fehlerquote gesenkt werden. Besonders hohe Genauigkeiten bzw. niedrige Fehlerquoten können im Fall m>1 erreicht werden, da hier verschiedene, voneinander unabhängige Größen Zusammenwirken, um noch schärfere Separierungskriterien für die Zuordnung der Punkte zu je einem Bildsegment und somit ggf. zu einem zugehörigen Objekt zu liefern. So können in vielen Fällen auch solche Abbilder von Objekten gut voneinander separiert werden, die bei Verwendung nur einer Größe nicht oder nur mit höherer Fehlerquote bzgl. der Punktezuordnung zu trennen wären.
Nachfolgend werden bevorzugte Ausführungsformen des Verfahrens beschrieben, die jeweils, soweit dies nicht ausdrücklich ausgeschlossen wird oder technisch unmöglich ist, beliebig miteinander sowie mit den weiteren beschriebenen anderen Aspekten der Erfindung kombiniert werden können.
Bei einigen Ausführungsformen für den Fall m=1 erfolgt dass Zuordnen der Punkte der Punktwolke zu je einem Segment so (Segmentierungskriterium), dass jeder zuzuordnende Punkt in Abhängigkeit vom Ergebnis eines Vergleichs des Werts der eindimensionalen Größe für diesen Punkt mit zumindest einem Schwellwert einem Segment des Bildes zuordnet wird. Dabei wird zumindest einer der Schwellwerte so in Abhängigkeit von einem Wert der Größe definiert, an dem einer der Schnittpunkte von zumindest zwei dieser Wahrscheinlichkeitsdichtefunktionen auftritt, dass der Schwellwert dem Wert der Größe für diesen Schnittpunkt entspricht.
Diese Vorgehensweise kann insbesondere auch so veranschaulicht werden, dass mittels des Schwellwerts im M-dimensionalen Raum, in dem die Punktwolke definiert ist, im Falle M=2 eine Separationslinie, im Falle M=3 eine Separationsebene und im Falle M>3 eine Separationshyperebene festgelegt wird, die verschiedenen Segmenten zuzuordnende Punkte voneinander separiert. Falls es mehr als zwei Segmente und somit zwei oder mehr verschiedene Schwellwerte gibt, treten entsprechen mehrere solcher Separationslinien bzw. (Hyper-)ebenen auf.
Das o.g. Segmentierungskriterium lässt sich so auf einfache Weise festlegen und effizient ohne großen Rechenaufwand anwenden, um die einzelnen Punkte jeweils einem Segment zuzuordnen. Die Definition des bzw. der Schwellwerte in Abhängigkeit von dem bzw. den Schnittpunkten der Wahrscheinlichkeitsdichtefunktionen ist dabei insbesondere auch im Hinblick auf das Ziel einer möglichst zuverlässigen (fehlerarmen bzw. fehlerfreien) Zuordnung vorteilhaft. Wenn nämlich die Wahrscheinlichkeitsdichtefunktionen für die Linearkombination durch die Approximation so bestimmt sind, dass sie jeweils gut die jeweilige Häufigkeitsverteilung der Größe für ein bestimmtes Objekt approximieren, dann kann man gemäß der oben genannten Beziehung (1 ) ihr Integral über ein bestimmtes Werteintervall, in dem zu einem bestimmten Punkt der zugehörige Wert für die Größe liegt, mit einer jeweiligen Wahrscheinlichkeit dafür assoziieren, dass der Punkt zu dem durch die jeweilige Wahrscheinlichkeitsdichtefunktion approximierten Objekt gehört. Wird demnach ein Punkt aufgrund seines Wertes für die Größe als Ergebnis des Vergleichs mit dem Schwellwert einem bestimmten Segment zugeordnet, so bedeutet dies, dass er mit einer höheren Wahrscheinlichkeit zu dem mit diesem Segment assoziierte Objekt gehört als zu dem anderen Objekt, dessen assoziiertes Segment mittels des Schwellwerts vom zugeordneten Segment separiert ist.
Bei einigen Ausführungsformen gibt zumindest eine der m Größen für jeden der Punkte der Punktwolke eine auf eine ausgewählte feste Raumrichtung projizierte Lage dieses Punkts entlang dieser Raumrichtung an. Auf diese Weise ist insbesondere eine Separierung von verschiedenen Objekten oder von Objekt und Hintergrund auf Basis der räumlichen Lage der Punkte (entlang der Raumrichtung) ermöglicht. Das kann beispielsweise genutzt werden, um in einer zwei- oder dreidimensionalen Punktewolke (M e {2;3}) mit Tiefendimension z , eine Segmentierung des Bildes bzw. der Punktwolke auf Basis der durch die Punktepositionen gegebenen Tiefeninformation zu erreichen, insbesondere auch im Sinne einer Vordergrund/Hintergrundsegmentierung. Die Raumrichtung kann insbesondere zur Richtung einer Koordinatenachse eines zur Festlegung der Positionen der Punkte im M-dimensionalen Raum verwendeten Koordinatensystems entsprechen.
Bei einigen Ausführungsformen wird die feste Raumrichtung so ausgewählt, dass sie orthogonal zu einer ersten Hauptkomponente verläuft, die aus einer auf die Punktwolke angewandten Hauptkomponentenanalyse resultiert. Dies ist insbesondere für die Erkennung von Objekten vorteilhaft, die hinsichtlich einer Raumrichtung vom Hintergrund oder anderen Objekten separiert werden sollen, die nicht mit der Richtung der ersten Hauptkomponente zusammenfällt, vorzugsweise sogar, zumindest im Wesentlichen, senkrecht dazu steht. Da die erste Hauptkomponente aus einer Hauptkomponentenanalyse bei nicht kugelsymmetrischen Objekten die dominante Komponente darstellt, lassen sich so folglich insbesondere solche Objekte gut separieren, deren dominante Komponente zumindest weitgehend quer zur betrachteten festen Raumrichtung verläuft. Wenn beispielsweise die ausgewählte feste Raumrichtung der Tiefenrichtung (z.B. ,,z“-Richtung) eines Tiefenbilds entspricht, dann kann ein Arm, der quer zu Tiefenrichtung im Bild abgebildet ist und dessen der Längsrichtung des Arms entsprechende Hauptkomponente somit auch quer (z.B. in x- oder y-Richtung orthogonal zur z-Richtung) zur ausgewählten festen Raumrichtung verläuft, besonders gut erkannt bzw. separiert werden. Speziell kann bei einigen Ausführungsformen, für die M e {2;3} gilt, die feste Raumrichtung so ausgewählt werden, dass sie im Falle M=2 der aus der Hauptkomponentenanalyse resultierenden zweiten Hauptkomponente und im Falle M=3 der aus der Hauptkomponentenanalyse resultierenden dritten Hauptkomponente entspricht. Somit wird als feste Raumrichtung die am wenigsten dominante der Hauptkomponenten gewählt, so dass damit solche Objekte besonders gut erkannt bzw. separiert werden können, deren dominanteren ersten bzw. zweiten Hauptkomponenten quer, insbesondere orthogonal, zu der festen Raumrichtung liegen.
Bei einigen Ausführungsformen weist das Verfahren des Weiteren auf: Filtern des Bildes so, dass es nach der Filterung nur noch solche Punkte der Punktwolke enthält, die einem der Segmente zugeordnet wurden, die jeweils als Repräsentant eines jeweiligen erkannten Objekts identifiziert wurden. Auf diese Weise lässt sich insbesondere eine Filterfunktion implementieren, die bewirkt, dass nur das bzw. die interessierenden Objekte erkannt bzw. identifiziert wird, während gegebenenfalls andere Objekte oder der Bildhintergrund zumindest weitgehend ignoriert werden (Bis auf gegebenenfalls solche Punkte, die irrtümlich dem bzw. den interessierenden verbleibenden Objekten zugeordnet wurden).
Speziell kann bei einigen dieser Ausführungsformen das Filtern des Bildes so erfolgen, dass es nach der Filterung nur noch solche Punkte der Punktwolke enthält, die genau einem bestimmten ausgewählten derjenigen Segmente zugeordnet wurden, das als Repräsentant eines zugeordneten erkannten Objekts identifiziert wurde. So lässt sich ein Ergebnis erzielen, bei dem höchstens oder insbesondere nur genau ein einziges Objekt identifiziert wird.
Bei einigen Ausführungsformen, bei denen für m=1 die Größe für jeden der Punkte der Punktwolke eine auf eine ausgewählte feste Raumrichtung projizierte Lage dieses Punkts entlang dieser Raumrichtung angibt, wird dasjenige Segment aus der Menge der jeweils als Repräsentant eines jeweiligen erkannten Objekts identifizierten Segmente ausgewählt, dessen zugeordnete Punkte gemäß ihrer auf die ausgewählte feste Raumrichtung projizierten Lagen in Blickrichtung entlang dieser Raumrichtung betrachtet, im jeweiligen Mittel betrachtet, näher liegen als die einem beliebigen anderen der identifizierten Segmente zugeordneten Punkte. Dies ist insbesondere zum Zwecke der Vordergrund-/Hintergrund-Segmentierung vorteilhaft einsetzbar, wenn nur ein (bzw. das) zuvorderst liegendes Objekt als Vordergrund erkannt werden soll. Bei einigen Ausführungsformen gilt m>1 und zumindest eine der m Größen gibt für jeden der Punkte der Punktwolke einen Temperaturwert oder einen Farbwert an. Eine andere der m Größen kann sich insbesondere auf die Position des jeweiligen Punkts beziehen. So kann insbesondere dann eine besonders zuverlässige, d.h. trennscharfe, Segmentierung erreicht werden, wenn das bzw. die zu identifizierenden Objekte typischerweise eine von ihrer Umgebungstemperatur abweichende Oberflächentemperatur aufweisen, wie das insbesondere bei lebenden Objekten, insbesondere Personen oder Tieren, meist der Fall ist.
Bei einigen Ausführungsformen werden Output-Daten generiert (und vorzugsweise ausgegeben, insbesondere über eine Schnittstelle), die das Ergebnis der erfolgten Zuordnung der Punkte zu Segmenten bzw. der Identifizierung von zumindest einem erkannten Objekt auf eine oder mehrere der folgenden Weisen repräsentieren: (i) die Output-Daten repräsentieren für zumindest eines der Objekte ein Abbild dieses Objekts auf Basis von einem oder mehreren, insbesondere sämtlichen, derjenigen Punkte der Punktwolke, die dem zu diesem Objekt gehörenden Segment zugeordnet wurden; (ii) die Output-Daten repräsentieren eine Information, die angibt, wie viele verschiedenen Objekte mittels der Segmentzuordnung der Punkte in dem Bild erkannt wurden; (iii) die Output-Daten repräsentieren eine Information, die angibt, zu welchem jeweiligen Segment bzw. Objekt die Punkte jeweils zugeordnet wurden; (iv) die Output-Daten repräsentieren eine Information, die für zumindest eine Teilmenge der Punkte den jeweiligen Funktionswert einer oder mehrerer der Wahrscheinlichkeitsdichtefunktionen an der Stelle angibt, die durch die dem Punkt zugeordneten Werte der m Größen bestimmt ist. Im Falle von Option (i) kann das Abbild insbesondere durch einen bestimmten Punkt aus der Menge der dem Segment zugeordneten Punkte oder als in Abhängigkeit von diesen Punkten bestimmter, insbesondere berechneter Punkt bestimmt werden, beispielsweise als Mittelpunkt der Verteilung der Punkte der Menge. Das Abbild kann stattdessen insbesondere auch als ein durch die Punkte der Menge aufgespannter Raumbereich oder Körper definiert sein.
Bei einigen Ausführungsformen weisen für zumindest eine (insbesondere für sämtliche) der m Größen die zugehörigen (jeweiligen) Wahrscheinlichkeitsdichtefunktionen jeweils einen Verlauf auf, bei dem der Funktionswert in Abhängigkeit von dem Wert der Größe bis zu einem Maximum ansteigt und danach wieder abfällt, wobei das Maximum das einzige auftretende Maximum im Verlauf der Wahrscheinlichkeitsdichtefunktion ist. Ein solcher Funktionsverlauf, der insbesondere glockenartig (symmetrisch oder auch asymmetrisch) sein kann, ist insbesondere dann besonders gut für das Verfahren und insbesondere zur Approximation von Häufigkeitsverteilungen für die durch Abtastung von Objekten generierten Punktewolken geeignet, wenn das bzw. die Objekte jeweils eine konvexe Form aufweisen.
Insbesondere kann bei einigen dieser Ausführungsformen zumindest eine (insbesondere jede) der jeweiligen Wahrscheinlichkeitsdichtefunktionen für zumindest eine der m Größen eine Gaußfunktion sein. Die Gaußfunktion bzw. Gaußfunktionen können insbesondere normiert oder mittels eines Parameters normierbar sein (z.B. so, dass in Formel (3) oben c =1 ) gilt. Neben der o.g. guten Eignung zur Approximation von Häufigkeitsverteilungen für die durch Abtastung von konvexen Objekten generierten Punktewolken hat die Wahl von Gaußfunktionen auch den Vorteil, dass hierzu eine Mehrzahl von bekannten effizienten und robusten Approximationsverfahren zur Verfügung steht.
Bei einigen Ausführungsformen wird zumindest eine der Häufigkeitsverteilungen einem jeweiligen Glättungsprozess unterworfen und das Approximieren im Hinblick auf diese zumindest eine Häufigkeitsverteilung erfolgt bezüglich der mittels des Glättungsprozesses geglätteten entsprechenden Häufigkeitsverteilung. Auf diese Weise kann die Qualität der Approximierung und somit die Qualität und Zuverlässigkeit der darauf aufbauenden Erkennung bzw. Separierung von durch die Punktewolke repräsentierten Objekten weiter gesteigert werden.
Bei einigen Ausführungsformen wird auf Basis der jeweiligen Punkte eines oder mehrerer der Segmente, die als Repräsentanten eines jeweiligen Objekts identifiziert wurden, ein Prozess zur Gestenerkennung ausgeführt, um eine in dem Bild mittels der Punktwolke abgebildete Geste einer Person zu erkennen. Dies kann insbesondere im Rahmen einer Automotive-Anwendung erfolgen, insbesondere im Zusammenhang mit einer Gestenerkennung bezüglich von durch einen Insassen eines Fahrzeugs ausgeführten Gesten zur Steuerung einer Funktionalität des Fahrzeugs.
Ein zweiter Aspekt der Erfindung betrifft ein System zur Datenverarbeitung, aufweisend zumindest einen Prozessor, der so konfiguriert ist, dass er das Verfahren nach dem ersten Aspekt der Erfindung ausführt.
Das System kann insbesondere ein Computer oder ein Steuergerät für ein anderes oder übergeordnetes System, wie etwa für ein Fahrzeug oder für eine Produktionsmaschine oder -Linie sein. Ein dritter Aspekt der Erfindung betrifft ein Computerprogramm mit Instruktionen, die bei ihrer Ausführung auf einem System nach dem zweiten Aspekt dieses veranlassen, das Verfahren nach dem ersten Aspekt auszuführen.
Das Computerprogramm kann insbesondere auf einem nichtflüchtigen Datenträger gespeichert sein. Bevorzugt ist dies ein Datenträger in Form eines optischen Datenträgers oder eines Flashspeichermoduls. Dies kann vorteilhaft sein, wenn das Computerprogramm als solches unabhängig von einer Prozessorplattform gehandelt werden soll, auf der das ein bzw. die mehreren Programme auszuführen sind. In einer anderen Implementierung kann das Computerprogramm als eine Datei auf einer Datenverarbeitungseinheit, insbesondere auf einem Server vorliegen, und über eine Datenverbindung, beispielsweise das Internet oder eine dedizierte Datenverbindung, wie etwa ein proprietäres oder lokales Netzwerk, herunterladbar sein. Zudem kann das Computerprogramm eine Mehrzahl von zusammenwirkenden einzelnen Programmodulen aufweisen.
Das System nach dem zweiten Aspekt kann entsprechend einen Programmspeicher aufweisen, in dem das Computerprogramm abgelegt ist. Alternativ kann das System auch eingerichtet sein, über eine Kommunikationsverbindung auf ein extern, beispielsweise auf einem oder mehreren Servern oder anderen Datenverarbeitungseinheiten verfügbares Computerprogramm zuzugreifen, insbesondere um mit diesem Daten auszutauschen, die während des Ablaufs des Verfahrens bzw. Computerprogramms Verwendung finden oder Ausgaben des Computerprogramms darstellen.
Die in Bezug auf den ersten Aspekt der Erfindung erläuterten Merkmale und Vorteile gelten entsprechend auch für die weiteren Aspekte der Erfindung.
Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden detaillierten Beschreibung im Zusammenhang mit den Figuren.
Dabei zeigt:
Fig. 1 schematisch verschiedene beispielhafte Szenen, jeweils mit einer Objektanordnung aus zwei voneinander zu trennenden Objekten, sowie jeweils dazu ein Schnittbild einer dazu korrespondierenden sensorisch mittels Abtastung der Szene erfassten Punktwolke; Fig. 2 ein Diagramm zur Veranschaulichung einer beispielhaften Ausführungsform des erfindungsgemäßen Verfahrens für den Fall m=1 ;
Fig. 3 eine Illustration zur Veranschaulichung der Abhängigkeit der Approximation von der Wahl einer eindimensionalen Größe; und
Fig. 4 ein Diagramm zur Veranschaulichung der Zuordnung von Punkten zu je einem bestimmten Segment bei einer beispielhaften Ausführungsform des erfindungsgemäßen Verfahrens für den Fall m=2, wobei zu jedem Punkt neben der Tiefenkoordinate zusätzlich ein für den jeweiligen Punkt als Attribut erfasster lokaler Temperaturwert des Objekts am Ort des Punktes als Basis der Zuordnung herangezogen wird.
In den Figuren werden durchgängig dieselben Bezugszeichen für dieselben oder einander entsprechenden Elemente der Erfindung verwendet.
In Fig. 1 ist zur Illustration einer durch die Erfindung adressierten beispielhaften Problematik eine Übersicht 100 über verschiedene beispielhafte Szenen 105a, 110a, 115a und 120a sowie jeweils dazu eine entsprechende Schnittansicht 105b, 110b, 1 15b bzw. 120b durch eine Punktwolke P dargestellt, die mittels Abtastung der jeweiligen Szene mittels eines Tiefenbildsensors, insbesondere einer TOF-Kamera (Flugzeitsensor), erzeugt wurde. Die Tiefenrichtung, auf die sich das erfasste Tiefenbild bezieht und der entlang der tiefen Bildsensor einen Abstand vom Sensor bis zum jeweiligen Objekt misst, ist hier beispielhaft als „z“-Richtung gewählt. Man kann sich somit die TOF-Kamera als über der Szene montiert vorstellen, so dass die Betrachtungsrichtung in z-Richtung vertikal nach unten gerichtet ist. Ein Punkt p, in der Punktwolke ist durch seine (x,y,z)-Koordinaten gegeben, wobei (x,y) eine (horizontale) Ebene rechtwinklig zur Blickrichtung des Sensors, und z der Tiefenwert ist, d.h. der Abstand von dem Punkt zum Sensor.
Jede der Szenen zeigt ein erstes Objekt Oi, das durch eine menschliche Hand einer Person gebildet ist, sowie ein beliebiges weiteres Objekt O2, was beispielsweise ein weiteres Körperteil der Person oder ein zu einer Inneneinrichtung eines Fahrzeugs gehörender Körper sein kann.
Im Falle der Szene 105a, liegen die beiden Objekte Oi und O2 lateral in einer senkrecht zur z- Richtung verlaufenden Richtung (z.B. x-Richtung) nebeneinander, wobei zwischen ihnen entlang dieser Richtung ein Spalt liegt. Aufgrund dieses Spalts lassen sich die zu den beiden Objekten Oi und O2 korrespondieren Punktwolkenanteile, wie in der Schnittansicht 105b dargestellt, leicht voneinander trennen und jeweils einem eigenen Bildsegment bzw. zuordnen. Diese Zuordnung gelingt dabei im Wesentlichen fehlerfrei, jedenfalls dann, wenn der Spalt größer ist als der durchschnittliche Punkteabstand innerhalb der Punktwolke P.
Im Falle der Szene 110a, liegen die beiden Objekte Oi und O2 in der z- Richtung gegeneinander versetzt, wobei zwischen ihnen in z-Richtung ein Spalt liegt. Aufgrund dieses Spalts lassen sich auch hier die zu den beiden Objekten O1 und O2 korrespondieren Punktwolkenanteile, wie in der Schnittansicht 1 10b dargestellt, aufgrund ihrer jeweils deutlich unterschiedlichen Tiefenwerte (z-Koordinaten) leicht voneinander trennen und jeweils einem eigenen Bildsegment und somit Objekt O1 bzw. O2 zuordnen. Auch diese Zuordnung gelingt im Wesentlichen fehlerfrei, jedenfalls dann, wenn der Spalt größer ist als der durchschnittliche Punkteabstand innerhalb der Punktwolke P.
Im Falle der Szene 115a, liegen die beiden Objekte O1 und O2 dagegen in der z- Richtung nur durch einen sehr kleinen Spalt separiert gegeneinander versetzt und sie überlappen in der senkrecht zur z-Richtung liegenden Richtung. Die korrespondierende Punktwolke P in Ansicht 115b lässt hier eine Aufteilung der Punktwolke P in jeweils zu den beiden Objekten O1 und O2 korrespondiere Punktwolkenanteile bzw. Segmente auf ähnlich einfache und fehlerfreie Weise wie bei den Szenen 105a und 110a aufgrund eines erkannten Spaltes nicht mehr zu, denn der durchschnittliche Punkteabstand innerhalb der Punktwolke P ist ähnlich groß wie der Spalt.
Noch schwieriger ist die Ausgangslage für eine Objektseparierung im Falle der Szene 120a, bei der die beiden Objekte O1 und O2 sowohl in der z- Richtung als auch in einer dazu senkrechten Richtung überlappen oder sich berühren, so dass hier kein durch die Punktewolke P abbildbarer Spalt mehr auftritt und somit eine Objektseparierung bzw. Segmentierung mit einfachen Mitteln, wie zu den Szenen 105a und 105b erläutert, unzuverlässig wird oder vollends scheitert.
Bei der in Fig. 2 illustrierten beispielhaften Ausführungsform 200 eines erfindungsgemäßen Verfahrens, wird eine mehrere Objekte, hier beispielhaft zwei Objekte O1 und O2, enthaltende Szene 205 bildsensorisch, insbesondere mittels eines Tiefenbildsensors, wie etwa einer TOF-Kamera abgetastet, um ein Abbild der Szene in Form einer Punktwolke P zu generieren, wie in Ansicht 210 dargestellt. Die vom Tiefenbildsensor ausgegebenen Bilddaten können insbesondere für jeden der Punkte p, der Punktwolke P seine jeweilige Koordinate in der Tiefenrichtung, hier als z-Richtung gewählt, sowie optional weitere Koordinaten oder zusätzlich gemessene Eigenschaften der Objekte repräsentieren. Die folgenden Erläuterungen des Verfahrens 200 fokussieren sich dabei auf die z-Koordinate, die im Rahmen des Verfahrens 200 zunächst als einzige verwendete eindimensionale Größe berücksichtigt werden soll, sodass hier zunächst der Fall m=1 betrachtet wird. Der Fall m>1 wird im Weiteren unter Bezugnahme auf Fig. 4 adressiert werden.
Ausgehend von der Punktwolke P wird eine Häufigkeitsverteilung h(k) bezüglich der in der Punktwolke aufgetretenen z-Koordinaten der Punkte bestimmt, wobei k=k(z) für diskrete Werte von z steht, wie nachfolgend im Einzelnen erläutert werden wird. In Ansicht 220 ist die resultierende Häufigkeitsverteilung h(k) mittels eines sie darstellenden Histogramms illustriert.
Mathematisch kann man dies, beispielsweise für den häufigen Fall M=3, für beliebige Tiefenwerte (eindimensionale Größen) verallgemeinert beispielhaft wie folgt ausdrücken: Sei P = {pi , ..., pn} eine dreidimensionale Punktwolke und d e IR3 ein gegebener Einheitsvektor in einer bestimmten Richtung, die hier als „Tiefenrichtung“ bezeichnet sei. Im vorliegenden Beispiel sei dies beispielhaft die z-Richtung. Sei weiter dt ■■= (pt, d) e ]R die gerichtete Tiefe (Tiefenwert) des Punkts pt , wobei (pb d) das Skalarprodukt der beiden Vektoren pL und d bezeichnet. Der Satz der Tiefenwerte {d , ..., dn } (im vorliegenden Beispiel gleichbedeutend mit dem Satz der z- Koordinaten der Punkte [pL , ...,pn}) dient als Basis der weiteren Schritte zur Objektseparierung bzw. Segmentierung.
Eine Häufigkeitsverteilung bezüglich der Tiefenwerte {d^ ... , dn ) kann nun wie folgt bestimmt werden, insbesondere als Histogramm: Ein solches (Tiefen-)Histogramm habe eine bestimmte Granularität y>0. Beispielsweise könnte y = 1 cm gewählt werden. Zur Erreichung eines guten Kompromisses zwischen Ergebnisqualität der Segmentierung bzw. Objektidentifikation einerseits und der Effizienz, insbesondere in Form von Rechenaufwand, des Verfahrens sollte sich die Wahl von y an den Anforderungen der jeweiligen Anwendung orientieren. Für jeden Tiefenwert dL sei nun kL yJe TL , wobei L J ein Abrunden symbolisiert. Für j e TL sei nun n7 die Anzahl derjenigen für die j = kt gilt. Dann definiert die Abbildung hP Z >— > ]R:j >— > n7 ein solches Histogramm zu der Häufigkeitsverteilung.
Anschaulich kann man dies wie folgt beschreiben: der Wertebereich der möglichen Tiefenwerte wird in eine Abfolge von Abschnitten der Länge y unterteilt und jeder Punkt Pt der Punktwolke P, zumindest jeder einem Segment zuzuordnende Punkt, wird gemäß seinem Tiefenwert dL einem der Abschnitte zugewiesen. Das Histogramm gibt dann für jeden Wert J E 2 die Anzahl derjenigen Punkte an, deren Tiefenwert ungefähr (d.h. im vorliegenden Beispiel abgerundet) j /entspricht. Die endlich große Granularität bedingt die vorgenannte Diskretisierung, da allen Werten von dL innerhalb desselben Abschnitts derselbe Wert kt für k zugeordnet wird.
Nun wieder Bezug nehmend auf das konkrete Beispiel aus Fig. 2 wird im weiteren Verlauf des Verfahrens 200 die Häufigkeitsverteilung h(k), vorzugsweise nach einer darauf angewandten Glättung (Ansicht 225), durch eine endliche Linearkombination von Wahrscheinlichkeitsdichtefunktionen, die im vorliegenden Fall jeweils als normierte Gaußfunktionen ausgewählt wurden, approximiert. So ergibt sich eine entsprechende mittels der Gaußfunktionen, im vorliegenden Fall mittels zwei verschiedener Gaußfunktionen fi(k) und f2(k), gebildete Approximationsfunktion F(h(z)) = fi(z) + f2(z), wie in Ansicht 230 illustriert. F(h(z)) ist somit eine Approximation der (geglätteten) Häufigkeitsverteilung aus Ansicht 225.
Unter einer normierten Gaußfunktion ist dabei wie üblich eine Funktion f :IR >— > H zu verstehen, die mittels der folgenden Formel darstellbar ist, wobei der Mittelwert p der Verteilung, die Standardabweichung a und der Normierungsfaktor c jeweils Parameter der Funktion f (die Schreibweisen „f " und „f“ werden hierin gleichbedeutend verwendet, gleiches gilt entsprechend für verschiedene Schreibweisen anderer Symbole) sind und im Hinblick auf das Verfahren 200 hier z als unabhängige Variable gewählt wird:
Die Approximationsaufgabe besteht somit darin, die Anzahl N verschiedener Gaußfunktionen L sowie für jede davon den jeweiligen Parametersatz {pi, <7 c mit i = 1 ,...,N zu finden, so dass die (geglättete) Häufigkeitsverteilung h(k) für jeden Wert von k (also den entsprechenden diskreten z-Wert) durch die Summe dieser Gaußfunktionen approximiert wird: h(k)^fq(k) (5)
Die Wahl von Gaußfunktionen für die Approximation ist in verschiedener Hinsicht vorteilhaft. Insbesondere hat sich gezeigt, dass solche Funktionen eine sehr gute Approximation für Häufigkeitsverteilungen liefern können, wie sie beim Abtasten von konvexen Körpern insbesondere auch vielen Körperteilen des menschlichen Körpers, wie etwa Arme und Beine oder der Kopf mittels eines Tiefenbildsensors auftreten. Betrachtet man jede punktförmige Abstandsmessung bei der Abtastung als eine unabhängige Zufallsvariable, so lässt sich die gute Eignung von Gaußfunktionen für die genannte Approximation insbesondere auch mathematisch auf Basis des zentralen Grenzwertsatzes begründen.
Des Weiteren sind verschiedene effiziente Verfahren für eine Funktionsapproximation mittels Gaußkurven verfügbar. Dazu gehört beispielsweise ein Approximationsverfahren, das in A. Goshtasby, W.D. O’Neill, „Curve Fitting by a Sum of Gaussians“, CVGIP: Graphical Models and Image Processing, Vol. 56. Mp 4, July, 1994, pp. 281 -288 beschrieben ist. Weitere Beispiele für anwendbare Approximationsverfahren finden sich insbesondere im Internet unter: httDs://www.researchgate.net/Dublication/252062037 A Simple Algorithm for Fitting a Gaussian Function DSP Tips and Tricks/link/544732410cf22b3c14e0c0c8/downlo ad oder unter https://stats.stackexchange.com/auestions/92748/multi-peak-aaussian-fit- in-r.
Wenn mittels der Approximation die Gaußfunktionen fq(z) bestimmt sind, kann durch jede dieser Gaußfunktionen ein durch sie repräsentiertes Segment des Bildes bzw. der Punktwolke P definiert werden. Sodann kann für jedem Punkt pL e P die Wahrscheinlichkeit dafür, dass dieser Punkt pL zu einem jeweiligen bestimmten Segment gehört, so interpretiert werden, dass diese Wahrscheinlichkeit proportional zu fq(di) ist. Im vorliegenden Beispiel gibt für jeden Punkt Pt E P der zugehörige Funktionswert Wert fi (di) die Wahrscheinlichkeit dafür an, dass dieser Punkt pL zu einem ersten Segment des Bildes gehört und entsprechend gibt für jeden Punkt pt e P der zugehörige Funktionswert Wert f2 (di) die Wahrscheinlichkeit dafür an, dass dieser Punkt Pt zu einem zweiten, von dem ersten Segment verschiedenen Segment des Bildes gehört.
Eine Separierung der beiden Segmente kann somit insbesondere, wie dargestellt, so erfolgen, dass jeder Punkt pt jeweils demjenigen Segment q eindeutig zugeordnet wird, dessen Funktionswert fq(dj) für diesen Punkt der höchste unter den verschiedenen Funktionswerten für diesen Punkt ist. Diese Zuordnungsvorschrift ist diese Ansicht 235 illustriert, wo die gestrichelte Trennlinie genau durch den Schnittpunkt der beiden Funktionen T und f2 verläuft und alle Punkte oberhalb dieser Trennlinie dem durch T repräsentierten ersten Segment (q=1 ) und alle unterhalb dieser Trennlinie liegenden Punkte dem durch f2 repräsentierten zweiten Segment (q=2) zugeordnet werden. Sollte ein Punkt pt tatsächlich (im Rahmen der Genauigkeit der Darstellung von di) auf der Trennlinie liegen, kann für diesen Fall eine vorbestimmte Zuordnung zu einem ausgewählten der Segmente vorgesehen sein, um Mehrdeutigkeiten zu vermeiden. Bei ausreichend hoher Darstellungsgenauigkeit von di wird dieser Fall aber in der Regel nicht oder eher sehr selten auftreten.
Auf Basis dieser Segmentzuordnung kann nun, wie in Ansicht 240 illustriert, eine Identifizierung von einem oder, in diesem Fall, von zwei Objekten Oi und O2 erfolgen, indem sämtliche Punkte eines jeweiligen Segments jeweils genau einem dieser Objekte O1 bzw. O2 zugeordnet werden. Das jeweilige Segment wird so als Repräsentant des jeweils zugehörigen Objekts bestimmt.
Es ist jedoch alternativ auch möglich, vor der Objektzuordnung eine Filterung der Punktwolke auf Basis der Segmentierung vorzunehmen, sodass (außer im Grenzfall, dass alle Punkte demselben Objekt zugeordnet wurden) nur eine echte Teilmenge der Segmente nach der Filterung verbleibt und als Basis für die Objektzuordnung dient. Im vorliegenden Beispiel kann auf diese Weise beispielsweise das Segment für q = 2 ausgefiltert werden, dass zu den größeren Tiefenwerten z korrespondiert. Somit kann das erste Segment für q = 1 als Repräsentant eines (in diesem Beispiel einzigen) identifizierten Objekts O1 im Bildvordergrund (in z-Richtung nächstliegendes Segment) bestimmt werden, während das zweite Segment für q = 2 nicht als identifiziertes Objekt, sondern stattdessen gar nicht oder etwa als Bildhintergrund B interpretiert wird.
Wie in Fig. 3 anhand einer beispielhaften Gegenüberstellung 300 von zwei verschiedenen Szenarien illustriert, kann die Wahl der eindimensionalen Größe insbesondere in dem Fall, dass sie zu einer Position entlang einer bestimmten Richtung (hier beispielhaft der z-Richtung) korrespondiert, Einfluss auf die resultierende Häufigkeitsverteilung, somit auf die daraus per Approximation bestimmten Funktionen und schließlich auch auf die Qualität der Segmentzuordnung und Objektidentifizierung haben.
In einem ersten Szenario, das in der Ansicht 305 illustriert ist, ist die z-Richtung so gewählt, dass sie orthogonal zu einer durch den Richtungsvektor A dargestellten Haupterstreckungsrichtung der im Rahmen des Verfahrens als Objekt O1 zu identifizierenden Hand einer Person verläuft. Im Rahmen der Approximation, hier beispielsweise wieder mittels Gaußfunktionen, ergibt sich die in Ansicht 310 dargestellte Situation, dass die Häufigkeitsverteilung sogar mittels einer einzigen Gaußfunktion gut approximiert werden kann, was wiederum zu einer einfachen und sehr zuverlässigen und genauen Identifikation des Objekts Oi führt.
In dem zweiten Szenario, das in der Ansicht 315 illustriert ist, ist die z-Richtung dagegen so gewählt, dass sie nicht mehr orthogonal, sondern in einem kleineren Winkel zu der durch den Richtungsvektor A dargestellten Haupterstreckungsrichtung der gezeigten und im Rahmen des Verfahrens als Objekt Oi zu identifizierenden Hand einer Person verläuft. Im Rahmen der Approximation mittels Gaußfunktionen ergibt sich hier die in Ansicht 320 dargestellte Situation, dass die Häufigkeitsverteilung nur noch mittels einer Linearkombination mehrerer Gaußfunktionen gut approximiert werden kann, was wiederum zu einer erschwerten und möglicherweise weniger zuverlässigen oder weniger genauen Identifikation des Objekts Oi führt.
Die Wahl der eindimensionalen Größe ist somit im Falle des ersten Szenarios deutlich zu bevorzugen. Dementsprechend kann das Verfahren 200 insbesondere vorsehen, dass die Wahl der eindimensionalen Richtung auf Basis des Ergebnisses einer Hauptkomponentenanalyse so erfolgt, dass für die eindimensionale Größe eine feste Raumrichtung so ausgewählt wird, dass sie orthogonal zu einer ersten Hauptkomponente verläuft, die aus einer auf die Punktwolke angewandten Hauptkomponentenanalyse resultiert. Insbesondere können in dem vorliegenden Beispielsfall im Falle M=2 die aus der Hauptkomponentenanalyse resultierende zweite Hauptkomponente und im Falle M=3 die aus der Hauptkomponentenanalyse resultierende dritte Hauptkomponente dazu ausgewählt werden (vgl. Richtungsvektor Ä in Ansicht 305). So wird die am wenigsten dominante Hauptkomponente (hier entlang der z-Richtung) ausgewählt, was in der Regel die Wahrscheinlichkeit dafür optimiert, dass die dominanteste Hauptkomponente zumindest überwiegend senkrecht dazu und somit zur Abtastrichtung (hier z-Richtung) verläuft und daher ein eher dem ersten Szenario angenähertes Szenario mit optimierter Segmentzuordnung und Objektzuordnung resultiert.
Fig. 4 betrifft eine Erweiterung des Verfahrens, insbesondere auch des Verfahrens 200, auf den Fall m>1. Das Diagramm 400 dient zur beispielhaften Veranschaulichung der Zuordnung von Punkten zu je einem bestimmten Segment bei einer beispielhaften Ausführungsform des erfindungsgemäßen Verfahrens für den Fall m=2.
Es sei nun noch einmal das beispielhafte Problem betrachtet, eine Hand Oi von einem Hintergrund B zu diskriminieren. Dieses Problem kann wie folgt angegangen werden. Bislang wurde im Verfahren 200 allein die Tiefeninformation des Pixels ausgenutzt, aber selbst dieser fortschrittliche Ansatz kann Grenzen aufweisen: Wenn zum Beispiel im Rahmen einer Bildaufnahme in einem Kraftfahrzeug, die Hand (des Fahrers) zu einem bestimmten Zeitpunkt neben dem Schaltknüppel gehalten wird, und zwar etwa aus Sicht des Bildsensors auf der gleichen Tiefenebene, so dass sich gleiche oder sehr ähnliche Tiefenwerte z für die durch Abtastung der Szene ergebenden Punkte einer Punktwolke ergeben, dann kann die Segmentierung des Bildes bzw. der Punktwolke in ein Segment für die Hand und ein Segment für den Hintergrund B (oder den Schalthebel als zweites Objekt O2) allein aufgrund der Tiefenwerte möglicherweise fehlschlagen.
Im Allgemeinen kann bei bestimmten Szenen eine Situation auftreten, bei der die Punkte, die durch das Verfahren für m=1 unterschieden werden können (d.h., dass, sie zu verschiedenen Gauß-Kurven gehören) zu verschiedenen Objekten gehören, aber es ist nicht garantiert, dass solche Punkte, die nicht die auf diese Weise diskriminiert werden, zu einem selben Objekt gehören. Mit anderen Worten, in einem solchen Fall repräsentiert jede Funktion, insbesondere Gaußfunktion, möglicherweise nur eine Objektkategorie (d.h. eine Menge von mehreren Objekten, die nicht durch das gewählte Merkmal weiter diskriminiert wird) und nicht zwingend genau ein einzelnes Objekt.
Ein Ansatz, das Verfahren im Hinblick auf seine Trennschärfe zu verbessern, umfasst das Ergänzen um die Berücksichtigung von zumindest einer weiteren eindimensionalen Größe, so dass m>1 gilt. Insbesondere, kann, wie in Fig. 4 illustriert, zu jedem Punkt pL neben der Tiefenkoordinate z zusätzlich ein für den jeweiligen Punkt erfasster lokaler Temperaturwert T als zweite Größe und somit zusätzliche Basis für die Zuordnung herangezogen werden.
Es sei nun beispielhaft angenommen, dass die Hand eine höhere (Oberflächen)Temperatur als der Hintergrund aufweist und eine Klassifizierung der Punkte pi nach deren jeweiligen lokalen Temperaturwert Ti entsprechend eine auf die Temperatur als unabhängige Variable bezogenen zweite Häufigkeitsverteilung h‘(k‘(T)) oder kurz h‘(T) liefert, die wiederum entsprechend dem Verfahren 200, nur diesmal auf die Temperatur anstelle der z-Koordinate bezogen, durch eine Linearfunktion von Verteilungsdichtefunktionen gi approximiert werden kann.
Nun kann entweder in entsprechender Anwendung der Segmentierung gemäß Ansicht 235 aus Fig. 2 eine rein temperaturbasierte Segmentierung und darauf aufsetzende Objektidentifikation (entsprechend Ansicht 240) erfolgen. Dies entspricht weiterhin dem Fall m=1 , nur mit einer temperaturbasierten Segmentierung anstelle einer Tiefenwert (z- Koordinaten)-basierten Segmentierung. Noch effektiver ist es jedoch, wie in Fig. 4 illustriert, beide Größen z und T in Kombination als Grundlage der Segmentierung heranzuziehen. Hier ermöglicht die Größe z die Unterteilung der Punktwolke in die Kategorien nahes Objekt und fernes Objekt bzw. Bildhintergrund. Parallel dazu kann die thermische Größe (Temperatur) T die Punkte in die Kategorien „warme Objekte“ und „kalte Objekte“ unterteilen. So lässt sich im vorliegenden Beispiel eine Unterscheidung von mindestens vier Kategorien (bzw. entsprechenden Segmenten) erreichen: (i) ein warmes und zugleich nahes Objekt, (ii) ein warmes und zugleich fernes Objekt, (iii) ein kaltes und zugleich nahes Objekt und (iv) ein Kaltes und zugleich fernes Objekt. Als fernes Objekt kann optional auch jeweils der Bildhintergrund B betrachtet werden.
Mathematisch lässt sich eine solche Verallgemeinerung insbesondere wie folgt darstellen:
Sei wieder P = {px , ... , pn} eine durch die sensorische Abtastung der Szene generierte Punktwolke, wobei jedem Punkt pL neben einem Tiefenwert z zusätzlich ein gemessener lokaler Temperaturwert T am Ort der gemessenen Position des jeweiligen Punktes Pt zugeordnet wird.
Für die zunächst als einzelne Größe betrachtete Tiefe z der Punkte wird wie oben beschrieben eine Approximation gemäß der Beziehung (5) vorgenommen, um eine Linearkombination von Funktionen fq(z) zu bestimmen, welche die Tiefenwertverteilung der Punkte approximiert. Jeder der Funktionen fq(z) repräsentiert dabei wieder ein Tiefensegment.
Auf gleiche Weise wird für die ebenfalls zunächst als einzelne Größe betrachtete Temperatur (lokale Temperaturwerte T) der Punkte eine Approximation gemäß der Beziehung (5) vorgenommen, um eine Linearkombination von Funktionen, insbesondere Gaußfunktionen, gr(T) zu bestimmen, welche die Temperaturwertverteilung der Punkte approximiert. Jede der Funktionen gr(T) repräsentiert dabei ein Temperatursegment.
Dann kann man den Wert des Produkts fq(z(pi)') ■ gr( (pd) oder in abgekürzter Schreibweise fq(pt) ■ gr(.pd als proportional zu der Wahrscheinlichkeit interpretieren, dass der Punkt pt zum kombinierten Segment (q, r) gehört, das als Schnittmenge des Tiefensegments zu q und des Temperatursegments zu r gebildet wird, wobei q und r jeweils Indizes zur Durchnummerierung der Funktionen fq bzw. gr sind. Der Wert dieses Produkts wird nun herangezogen, um dem jeweiligen Punkt pL so einem bestimmten der kombinierten Segmente zuzuordnen, dass das Produkt für dieses kombinierte Segment relativ am größten ist, was einer Auswahl der wahrscheinlichsten Zuordnung entspricht.
Speziell bei dem Beispiel aus Fig. 4 ist das Produkt für den ausgewählten Punkt pt die Kombination /i(Pi) ’ ^(Pr) unter allen Kombinationen am größten, so dass der konkrete Punkt pt dem kombinierten Segment (1 ; 2) zugeordnet wird, was hier dem nächsten und zugleich wärmsten Objekt entspricht. Die Punkte dieses kombinierten Segments können sodann als Punkte eines zu erkennenden Objektes, hier der Hand Oi, identifiziert werden.
Das erfindungsgemäße Verfahren kann in seinen verschiedenen Varianten für unterschiedlichste Applikationen genutzt werden. Zu solchen Applikationen gehören insbesondere die Separierung von Abbildern verschiedener Körperteile einer Person, von verschiedenen Personen oder von einer oder mehreren Personen einerseits und einem oder mehreren anderen Objekten andererseits, jeweils voneinander oder gegenüber einem Hintergrund. Insbesondere kann das Verfahren genutzt werden, ein oder mehrere Körperteile einer Person in einem sensorisch erfassten Bild zu separieren, um sodann in Abhängigkeit vom Ergebnis einer solchen Separierung bzw. Segmentierung und einer darauf aufsetzenden Identifikation der Körperteile als Objekte eine Gestenerkennung im Hinblick auf etwaigen von der Person ausgeführten Gesten durchzuführen.
Während vorausgehend wenigstens eine beispielhafte Ausführungsform beschrieben wurde, ist zu bemerken, dass eine große Anzahl von Variationen dazu existiert. Es ist dabei auch zu beachten, dass die beschriebenen beispielhaften Ausführungsformen nur nichtlimitierende Beispiele darstellen, und es nicht beabsichtigt ist, dadurch den Umfang, die Anwendbarkeit oder die Konfiguration der hier beschriebenen Vorrichtungen und Verfahren zu beschränken. Vielmehr wird die vorausgehende Beschreibung dem Fachmann eine Anleitung zur Implementierung mindestens einer beispielhaften Ausführungsform liefern, wobei sich versteht, dass verschiedene Änderungen in der Funktionsweise und der Anordnung der in einer beispielhaften Ausführungsform beschriebenen Elemente vorgenommen werden können, ohne dass dabei von dem in den angehängten Ansprüchen jeweils festgelegten Gegenstand sowie seinen rechtlichen Äquivalenten abgewichen wird. BEZUGSZEICHENLISTE
100 Übersicht über verschiedene beispielhafte Szenen
105a-120a verschiedene Szenen
105b-120b Punktwolken zu den verschiedene Szenen 105a-120a
200 beispielhaftes Verfahren zur Erkennung von Objekten
205-240 Ansichten von Zwischenstufen des Verfahrens 200
300 Gegenüberstellung von zwei verschiedenen Szenarien
305 erstes Szenario
310 Approximationsfunktion zum ersten Szenario
315 zweites Szenario
320 Approximationsfunktion zum zweiten Szenario
400 Diagramm zur Veranschaulichung einer beispielhaften Zuordnung von Punkten im Fall m=2
A Richtungsvektor der ersten Hauptkomponente eines Objekts
B Hintergrund
Satz von Wahrscheinlichkeitsdichtefunktionen, insbesondere Gaußfunktionen, zur Approximation einer Häufigkeitsverteilung von Tiefenwerten gr Satz von Wahrscheinlichkeitsdichtefunktionen, insbesondere Gaußfunktionen, zur Approximation einer Häufigkeitsverteilung von Tiefenwerten h(z) Häufigkeitsverteilung p Punktwolke
P/ einzelner Punkt der Punktwolke
Oi ; O2 Objekte
T Temperatur
Tiefe

Claims

ANSPRÜCHE Verfahren (200) zum Erkennen von einem oder mehreren in einem Bild anhand einer M-dimensionalen Punktwolke (P), mit M>1 , aus einer Mehrzahl n von Punkten (p,) repräsentierten Objekten (Oi;O2), wobei das Verfahren (200) aufweist:
Bestimmen, für jede einer Anzahl m, mit m > 0, von bestimmten eindimensionalen Größen (z; T), eines jeweiligen zugeordneten Werts der Größe (z; T) zu jedem der Punkte (pz) auf Basis von dessen Position oder Eigenschaften;
Bestimmen, für jede der Größen (z; T), einer jeweiligen Häufigkeitsverteilung (h) bezüglich der für die verschiedenen Punkte (pz) jeweils bestimmten Werte dieser Größe (z; T);
Approximieren jeder der Häufigkeitsverteilungen (h) mittels einer jeweiligen Linearkombination einer endlichen Anzahl von der zugrundeliegenden Größe (z;T) zugeordneten eindimensionalen Wahrscheinlichkeitsdichtefunktionen (fq;gr);
Segmentieren des Bildes so, dass im Fall m =1 jeder der Wahrscheinlichkeitsdichtefunktionen (fq;gr) und im Fall m>1 jedem Produkt aus m Wahrscheinlichkeitsdichtefunktionen (fq;gr), wobei je eine der zugeordneten Wahrscheinlichkeitsdichtefunktionen (fq;gr) je Größe (z; T) in dem Produkt vertreten ist, ein jeweiliges Segment des Bildes eindeutig zugeordnet wird;
Jeweiliges Zuordnen jedes Punkts der Punktwolke (P) zu demjenigen Segment, dessen zugeordnete Wahrscheinlichkeitsdichtefunktion im Fall m=1 bzw. dessen zugeordnetes Produkt im Fall m>1 an der Stelle, die durch die dem Punkt (pz) zugeordneten Werte der m Größen (z; T) bestimmt ist, den relativ größten Funktionswert bzw. Produktwert unter den Wahrscheinlichkeitsdichtefunktionen (fq;gr) bzw. Produkten aufweist; und
Identifizieren zumindest eines derjenigen Segmente, denen jeweils zumindest eine vorbestimmte Mindestanzahl von Punkten (pz) zugeordnet wurde, als Repräsentant eines jeweiligen erkannten Objekts (Oi ;O2). Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei die zumindest eine der m Größen (z) für jeden der Punkte (pz) der Punktwolke (P) eine auf eine ausgewählte feste Raumrichtung projizierte Lage dieses Punkts (pz) entlang dieser Raumrichtung angibt.
23
3. Verfahren (200) nach Anspruch 2, wobei die feste Raumrichtung so ausgewählt wird, dass sie orthogonal zu einer ersten Hauptkomponente (1) verläuft, die aus einer auf die Punktwolke (P) angewandten Hauptkomponentenanalyse resultiert.
4. Verfahren (200) nach Anspruch 3, wobei M e{2:3} und die feste Raumrichtung so ausgewählt wird, dass sie im Falle M=2 der aus der Hauptkomponentenanalyse resultierenden zweiten Hauptkomponente und im Falle M=3 der aus der Hauptkomponentenanalyse resultierenden dritten Hauptkomponente entspricht.
5. Verfahren (200) nach einem der vorausgehenden Ansprüche, des Weiteren aufweisend:
Filtern des Bildes so, dass es nach der Filterung nur noch solche Punkte (p/) der Punktwolke (P) enthält, die einem der Segmente zugeordnet wurden, die jeweils als Repräsentant eines jeweiligen erkannten Objekts (01 ;O2) identifiziert wurden.
6. Verfahren (200) Anspruch 5, wobei das Filtern des Bildes so erfolgt, dass es nach der Filterung nur noch solche Punkte (p,) der Punktwolke (P) enthält, die genau einem bestimmten ausgewählten derjenigen Segmente zugeordnet wurden, das als Repräsentant eines zugeordneten erkannten Objekts (01 ;O2) identifiziert wurde.
7. Verfahren (200) nach einem der Ansprüche 2 bis 4 in Verbindung mit Anspruch 6, wobei m=1 und dasjenige Segment aus der Menge der jeweils als Repräsentant eines jeweiligen erkannten Objekts (01 ;O2) identifizierten Segmente ausgewählt wird, dessen zugeordnete Punkte (p,) gemäß ihrer auf die ausgewählte feste Raumrichtung projizierten Lagen in Blickrichtung entlang dieser Raumrichtung betrachtet, im jeweiligen Mittel betrachtet, näher liegen als die einem beliebigen anderen der identifizierten Segmente zugeordneten Punkte.
8. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei m>1 und zumindest eine der m Größen (z; T) für jeden der Punkte (p,) der Punktwolke (P) einen Temperaturwert (T) oder einen Farbwert angibt.
9. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei Output- Daten generiert werden, die das Ergebnis der erfolgten Zuordnung der Punkte (p/) zu Segmenten bzw. der Identifizierung von zumindest einem erkannten Objekt auf eine oder mehrere der folgenden Weisen repräsentieren:
- die Output-Daten repräsentieren für zumindest eines der Objekte (01 ;O2) ein Abbild dieses Objekts (01 ;O2) auf Basis von einem oder mehreren derjenigen Punkte (p,) der Punktwolke (P), die dem zu diesem Objekt (01 ;O2) gehörenden Segment zugeordnet wurden.
- die Output-Daten repräsentieren eine Information, die angibt, wie viele verschiedenen Objekte mittels der Segmentzuordnung der Punkte (pz) in dem Bild erkannt wurden;
- die Output-Daten repräsentieren eine Information, die angibt, zu welchem jeweiligen Segment bzw. Objekt (01 ;02) die Punkte (p) jeweils zugeordnet wurden;
- die Output-Daten repräsentieren eine Information, die für zumindest eine Teilmenge der Punkte (p,) den jeweiligen Funktionswert einer oder mehrerer der Wahrscheinlichkeitsdichtefunktionen (fq;gr) an der Stelle angibt, die durch die dem Punkt (p) zugeordneten Werte der m Größen (z; T) bestimmt ist. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei für zumindest eine der m Größen (z;T) die zugehörigen Wahrscheinlichkeitsdichtefunktionen (fq;gr) jeweils einen Verlauf aufweisen, bei dem der Funktionswert in Abhängigkeit von dem Wert der Größe (z; T) bis zu einem Maximum ansteigt und danach wieder abfällt, wobei das Maximum das einzige auftretende Maximum im Verlauf der Wahrscheinlichkeitsdichtefunktion ist. Verfahren (200) nach Anspruch 10, wobei zumindest eine der jeweiligen Wahrscheinlichkeitsdichtefunktionen (fq;gr) für zumindest eine der m Größen (z; T) eine Gaußfunktion ist. Verfahren (200) nach einem der vorausgehenden Ansprüche, wobei zumindest eine der Häufigkeitsverteilungen (h) einem jeweiligen Glättungsprozess unterworfen wird und das Approximieren im Hinblick auf diese zumindest eine Häufigkeitsverteilung (h) bezüglich der mittels des Glättungsprozesses geglätteten entsprechenden Häufigkeitsverteilung (h) erfolgt. Verfahren (200) einem der vorausgehenden Ansprüche, wobei auf Basis der jeweiligen Punkte (p) eines oder mehrerer der Segmente, die als Repräsentanten eines jeweiligen Objekts (01 ;O2) identifiziert wurden, ein Prozess zur Gestenerkennung ausgeführt wird, um eine in dem Bild mittels der Punktwolke (P) abgebildete Geste einer Person zu erkennen. System zur Datenverarbeitung, aufweisend zumindest einen Prozessor, der so konfiguriert ist, dass er das Verfahren (200) nach einem der vorausgehenden Ansprüche ausführt. Computerprogramm mit Instruktionen, die bei ihrer Ausführung auf einem System nach Anspruch 14 dieses veranlassen, das Verfahren (200) nach einem der Ansprüche 1 bis 13 auszuführen.
26
EP21843940.4A 2021-01-13 2021-12-21 Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten Pending EP4278329A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021100512.4A DE102021100512A1 (de) 2021-01-13 2021-01-13 Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten
PCT/EP2021/086957 WO2022152522A1 (de) 2021-01-13 2021-12-21 Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten

Publications (1)

Publication Number Publication Date
EP4278329A1 true EP4278329A1 (de) 2023-11-22

Family

ID=80112348

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21843940.4A Pending EP4278329A1 (de) 2021-01-13 2021-12-21 Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten

Country Status (5)

Country Link
US (1) US20240144483A1 (de)
EP (1) EP4278329A1 (de)
CN (1) CN116888637A (de)
DE (1) DE102021100512A1 (de)
WO (1) WO2022152522A1 (de)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10593042B1 (en) * 2017-04-11 2020-03-17 Zoox, Inc. Perspective conversion for multi-dimensional data analysis

Also Published As

Publication number Publication date
WO2022152522A1 (de) 2022-07-21
CN116888637A (zh) 2023-10-13
DE102021100512A1 (de) 2022-07-14
US20240144483A1 (en) 2024-05-02

Similar Documents

Publication Publication Date Title
DE112014003563B4 (de) Vorrichtung und Verfahren zur Gestenbestimmung, Gestenbedienungsvorrichtung, Programm und Aufzeichnungsmedium
DE102015121339B4 (de) Systeme und verfahren zum ermitteln eines zustands einer fahrbahn
DE102014209137B4 (de) Verfahren und Vorrichtung zur Kalibrierung eines Kamerasystems eines Kraftfahrzeugs
DE102018116111A1 (de) Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung
DE202017007675U1 (de) Computerprogrammprodukt mit einem Computerprogramm zur Verarbeitung von visuellen Daten einer Straßenoberfläche
DE102017203276B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102015207676A1 (de) Verfahren und Vorrichtung zur Hinderniserkennung auf Basis einer monokularen Kamera
DE102019100575A1 (de) Verfahren und system zum erzeugen eines bereichsbildes unter verwendung von daten mit geringer tiefe
EP1298454A2 (de) Verfahren zur Erkennung und Verfolgung von Objekten
DE102017218366A1 (de) Verfahren und system zur fussgängererfassung in einem fahrzeug
EP1531342B1 (de) Verfahren zur Erkennung von Fussgängern
DE102015208139A1 (de) Fahrzeuginsassenerfassung mittels des Abstands zwischen Beifahrer- und Fahrermerkmalen
WO2019201565A1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur verarbeitung von sensordaten
DE102018132805A1 (de) Verfahren für eine verbesserte Objekterfassung
DE102008015535B4 (de) Verfahren zur Bildverarbeitung von Stereobildern
DE102018121866A1 (de) Verfahren zur Tiefenabschätzung von zweidimensionalen Sensordaten
EP3663881B1 (de) Verfahren zur steuerung eines autonomen fahrzeugs auf der grundlage von geschätzten bewegungsvektoren
DE10145608B4 (de) Modellbasierte Objektklassifikation und Zielerkennung
EP4278329A1 (de) Verfahren und system zum erkennen von in einem bild anhand einer punktwolke repräsentierten objekten
DE102019101634A1 (de) Werkstückbilderzeugungsvorrichtung
DE102018121317A1 (de) Verfahren und Vorrichtung zur Schätzung einer durch eine Freiraumgeste vermittelten Richtungsinformation zur Bestimmung einer Benutzereingabe an einer Mensch-Maschine-Schnittstelle
EP3663800B1 (de) Verfahren zur objekterfassung mit einer 3d-kamera
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
DE102019126074A1 (de) Analyse einer Umgebung eines aktiven optischen Sensorsystems
DE102018130745A1 (de) Verfahren zur Steuerung eines autonomen Fahrzeugs

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230706

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)