WO2002025576A1 - System for detecting a line of vision using image data - Google Patents

System for detecting a line of vision using image data Download PDF

Info

Publication number
WO2002025576A1
WO2002025576A1 PCT/EP2001/010820 EP0110820W WO0225576A1 WO 2002025576 A1 WO2002025576 A1 WO 2002025576A1 EP 0110820 W EP0110820 W EP 0110820W WO 0225576 A1 WO0225576 A1 WO 0225576A1
Authority
WO
WIPO (PCT)
Prior art keywords
eyes
image
classifier
eye
detection
Prior art date
Application number
PCT/EP2001/010820
Other languages
German (de)
French (fr)
Inventor
Matthias Franz
Martin Fritzsche
Matthias Oberländer
Tilo Schwarz
Bernd Woltermann
Original Assignee
Daimlerchrysler Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimlerchrysler Ag filed Critical Daimlerchrysler Ag
Priority to AU2001295572A priority Critical patent/AU2001295572A1/en
Publication of WO2002025576A1 publication Critical patent/WO2002025576A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Definitions

  • the invention relates to a system for detecting the direction of view of an observed person from image data according to the preamble of claim 1, and devices and methods suitable for this system for operating these devices according to the preambles of claims 2, 21 and 24, and 3, 22 and 25.
  • Eye detection plays a major role in a system for detecting the direction of view. Most of the information about the direction of view is contained in the eyes. From the position of the eyes alone, it is possible to give an approximate indication of the direction of the gaze. However, the head must not be moved. In order to detect the line of sight even when the head is allowed to move, additional facial features must be consulted. This includes the nose, the mouth and possibly even the eyebrows. This also makes it possible to determine the person's head position. A method for detecting the eyes is based on the so-called difference method with two light sources (Morimoto [20], Morimoto et al. [17], Ebiswana [8]).
  • the person is illuminated with two light sources, usually LEDs (Light Emitting Diodes).
  • a light source is positioned in the axis of the pupil and camera so that the light is reflected directly from the retina of the eye.
  • the second light source is arranged on the side so that no reflections from the retina reach the camera.
  • two pictures are taken, each with an active light source. These two images are identical except for the reflection of the first light source on the retina.
  • By forming a difference image only the reflection on the result image remains. It is now easy to extract this reflection from the result image using threshold value methods and thus to determine the position of the eyes. However, this procedure cannot be used for head movements. Since the difference image is formed from two images taken at intervals, the pupil reflex and the dark pupil no longer coincide.
  • the direction of view must be derived.
  • the eyes contain most of the information about the viewing direction.
  • the eye is additionally actively illuminated so that a light reflex can be seen on the eye.
  • the light source is installed directly in front of the person. If the position of the pupil and the position of the light reflex are known, the viewing direction can be recognized from this. The position of the light reflex corresponds to that Straight view of the person. With the help of the vector between reflex and pupil, it is now possible to calculate the direction of view. However, this procedure is necessary because high-resolution images of the eye region are available.
  • Cipolla [6] a method is described which detects the viewing direction from the positions of the eyes and the mouth. To do this, the mouth is modeled by a line. With the help of this line and the connecting line of both eyes, it is now possible to detect the direction of view. However, the mouth must be found for this, which is not easy due to the many possible conditions of the mouth. When detecting the direction of view in a motor vehicle, however, both eyes may not be visible under certain circumstances. In extreme twisting of the head, eg with a view 'over the shoulder, only one eye is visible and therefore only the position of an eye there.
  • the object of the invention is to find a novel system, particularly suitable for use in a motor vehicle, for detecting the direction of view of an observed person from image data. Furthermore, suitable devices and methods for operating these devices are to be found for incorporation into this system.
  • the system for detecting the line of sight can be divided into two areas:
  • the first area contains a device for detecting the eyes.
  • the second area contains, downstream of the first area, a device for determining the viewing direction.
  • the process chain within the device for detecting the eyes is essentially divided into three stages:
  • the first stage is formed by a unit for radius adjustment.
  • the area used to search for the circles is limited to r m j n and r max , ie no circles with smaller or larger radii are detected; the radius of the iris is limited to this area in the pictures.
  • the upper limit r max is chosen too high, many circle-like structures that do not belong to an iris are detected. which extend between the nose and eyebrows. These shadows have a circle-like structure with a large radius. Furthermore, bends of glasses frames are detected much more easily if large radii are allowed.
  • the upper radius limit is too large, the circular algorithm is often used the iris is described by a circle that is too large. Then the eyebrows and the lower lid are regarded as the boundaries of the circle because there is a very high contrast If, on the other hand, the radius below the radius is selected too small, many small circles are detected. In addition count small dark objects, mostly only from four to 10
  • the method according to the invention preferably uses an adaptive radius adaptation which covers the range of
  • Radii further restricted and newly adapted to every image.
  • the upper and lower bounds of the radii r m j n and r mgx are reset for each image.
  • the radius r of the circle that circumscribes the iris is used as a reference value.
  • the new choice of the radius range r m ; n and r max are preferably always applied to the following image. However, since the size of the iris does not change too much from picture to picture, the error resulting from this procedure is negligible. If no eye is detected in an image, it is advantageous to leave the values r m , - n and r max unchanged and thus to use them when processing the subsequent image.
  • the second stage of the process chain within the eye detection device includes a circle detection device. For example, it is conceivable for this
  • a threshold value method which isolates the accumulations in the accumulator field is preferably used to determine the center of the circle.
  • the method determines the threshold value from a histogram.
  • Brightness distribution in the accumulator field calculates a histogram, which the
  • Distribution of brightness contains.
  • the histogram is marked with histo [i]
  • the histogram contains 256 entries from 0 to 255, since the image format used as an example has 256 gray levels.
  • the N brightest points are then searched for, starting with the points which are to be assigned to the largest brightness level (here: 255). If N points are then selected, the brightness value of the N point then serves as a threshold value for the further process. As a result, all points in the accumulator whose brightness values are below this threshold are suppressed. The other points are left with their associated brightness. Islands are formed in the accumulator field according to the threshold value method, which indicate the area of a possible center point of a circle. Objects must then be extracted from this threshold image. This is done using an algorithm that works on grayscale images; a so-called color connected components algorithm Connected components) called CCC for short.
  • CCC color connected components algorithm Connected components
  • the centers of circles are determined on the basis of a calculation of the centers of gravity in each of these objects.
  • the center points of the circles are thus known and the associated radii must subsequently be determined.
  • the previously calculated center of gravity is preferably used to determine the circle radii.
  • the circle with the best quality is retained, whereas the others are discarded
  • Correcting the Hough transformation that occurs during the discretization of the accumulator field and the discretization of the gradients is preferably examined not only for the center of gravity of the CCC-coded objects according to circles, but also for an environment around them; a 5 ⁇ 5 image pixel area surrounding area proves to be advantageous The best of the circles determined from this environment is again kept, and this circle then determines the actual center.
  • edge-oriented method instead of a threshold-based method for eye detection, which method works on the basis of polar edge detection.
  • edge-oriented methods over the threshold value method is that they are insensitive to light fluctuations, since differences are considered.
  • the edge detectors are generally based on the Cartesian coordinate system. However, since eye detection is used to search for the iris, which can be easily described by circles, a method that uses this polar property directly is advantageous. In Wilson [29] one such
  • the two-dimensional function to be examined is designated by l (x, y), where x and y represent the Cartesian coordinates of this function.
  • l (x, y) Based on this function l (x, y), a circular path with radius r is traversed at position (XQ, y ⁇ ) and the intensities l (x, y) are integrated on this circular path and then normalized with the factor 2 ⁇ r. This process can be compared to averaging along the circular path.
  • the integration along a circular path is derived according to the radius r, which forms the gradient of the different integrations at different radii at the position (XQ, yg).
  • the maximum gradient along the radius r is determined with the aid of the maximum formation.
  • This process is repeated for all points of the function l (x, y), so that a maximum gradient is formed for each position (x, y).
  • This method therefore specifies an evaluation of a circle at the position (x, y) and its best radius r for each point of the function l (x, y). It is irrelevant whether the examined positions are actually circle-like structures. The better the structure at the point (x, y) resembles a circle, the higher the rating.
  • Figure 1 shows the polar edge detector after discretization of the variables.
  • a circular path is described for each radius, on which the intensities are added.
  • the core of the polar edge operator is the orbital integral, which describes a circular path with radius r at the position (x0, yO). This integration must be converted into a summation when using image data. For a certain radius r, the value ⁇ r then results for the orbital integral:
  • the function s i) can be used to describe any path along which an average is calculated.
  • the polar edge detection is now generally generalized to the effect that it can also detect paths of any other shape in addition to the usually circular paths.
  • the basic idea here is the desire to find eyes with the help of the detection of the iris. In most cases, however, the iris is partially covered by the eyelids at the top and bottom. The covering by the eyelids is more pronounced at the top than at the bottom. Due to this concealment, the iris is no longer a perfect circle, but a circle that is cut off by two arcs below and above. For this reason, it is necessary to adapt the paths to the circle search so that this concealment is taken into account.
  • Figure 2 describes different ways used in averaging.
  • Figure a) of Figure 2 shows the circle already mentioned, which does not take into account the masking, but has the fewest additional parameters.
  • the covering of the eyelids is best approximated by the path from Figure d) in Figure 2.
  • the circle is cut open at the top and bottom.
  • the resulting gaps are bridged using two routes.
  • the two gaps are described with the angles a and ⁇ , which define the opening angles or the sections of the circular path circumscribing the iris, which are not included in the circle detection.
  • Another advantageous design of the circular path is shown in Figure c).
  • the ellipse from Figure b) in Figure 2 has only one additional parameter compared to the other paths, namely that Relationship of the two main axes of the ellipse.
  • Figure e) in FIG. 2 is a rectangle.
  • the rectangle is a rough approximation of Figure d) because many circles are relatively small and the arc can be approximated by a straight line.
  • the illustrations shown in FIG. 2 are of course only examples of possible paths on which the polar edge detector is optimized. It is now conceivable to carry out the method according to the invention in such a way that the optimum contour for the current image data is used in accordance with the examples from FIG. 2 ,
  • V r ⁇ r - ⁇ r-1 GI.4
  • V r represents the evaluation for an average with radius r. In order to find the best circle, it is necessary to find the largest V r . The V r must therefore be generated for a specific range r m j n to r max and compared with one another.
  • the first approximation of the derivative according to the radius is susceptible to fluctuations between the individual mean values.
  • the iris is not an exact black disk, but has fluctuations in brightness that result, for example, from reflections. These fluctuations have a negative effect on the evaluation of the circle at radius r if they occur on the edge of the circular disk.
  • it is particularly advantageous to form the evaluation over several mean values. This can be represented as follows if n is the number of mean values that should be included in the evaluation: V r ⁇ r - ⁇ ⁇ i GI.5
  • V r ⁇ r ⁇ ( ⁇ r _, + ⁇ r _ 2 ) GI.6
  • the iris can be easily detected by eyes.
  • circle-like structures are also detected that do not represent an iris from one eye. Above all, this includes glasses and eyebrows.
  • glasses and eyebrows There are very large contrasts on glasses, which are also detected as circles, although they do not correspond to a circle-like structure.
  • the evaluation of the path integrals is carried out by means of mean values, the difference between the mean values is greater in these "feel hitting" than in the iris, which may not have such a large contrast.
  • it is particularly advantageous to expand the evaluation of the path integrals in an inventive manner.
  • the decisive difference between these missed hits and correct circles lies in the non-uniformity of the brightness distribution along the circular orbits.
  • For eyebrows e.g.
  • the method according to the invention includes the variance of the brightnesses along the circular path in the evaluation of the path integrals.
  • the root mean square ⁇ - is also calculated, i.e.
  • the variance can thus be determined using the direct relationship between the mean and the root mean square.
  • ⁇ 2 ⁇ r! - ⁇ 2 GI.8
  • V r ⁇ r - ⁇ ( ⁇ r _, + ⁇ r _ 2 ) -c - ⁇ 2 GI.9
  • the variance is not included as a difference in the evaluation like the mean value, but is always offset directly with the respective radius.
  • the problem with variance is to include it in the evaluation with a suitable weighting factor.
  • the polar edge operator according to the invention described above, according to equations 1-9, can be used particularly advantageously in the system for eye direction detection and / or eye detection.
  • the polar edge operator profitably in similar systems; for example in systems for identifying people by comparing the structure of the iris (such as in ATMs and access controls).
  • the polar edge operator returns a rating for a circle at every point (x, y) of the image. From these evaluations, it must be decided which of these groups should be used for further processing. As with the procedures with the Hough transformation, the best circles are selected and transferred to the next processing step.
  • the entire search area is evaluated with the aid of the polar edge operator and then sorted, so that the N best circles are in the first position in a list with all evaluated circles.
  • the search area is run through line by line and each point is evaluated. At the end of a line, it is sorted according to the N best circles and the next line is processed. After processing this line, the N best circles from the list again removed. After the last line, the N best circles of the entire search area are then sorted in a list.
  • a particularly inventive alternative to suppressing neighboring circles is a method which does not have to evaluate the entire search area. A corresponding method is described in FIG. 3.
  • Figure 3 shows a spiral path that is used in evaluating the individual positions within the search box.
  • the spiral path that is used to evaluate the circles within the search box results in certain arrangements of the ratings along this path. If an area with high ratings is not in the middle of the search box, but somewhat shifted to it, this rating is adopted with each revolution of the spiral. Since the spiral is approximately circular, this area is repeated with the period of the spiral. From these evaluations, the maxima are to be extracted at which circles are highly likely. With However, maxima are not the peaks of the individual valuation maxima, but the maxima of the envelopes of all valuation maxima over the entire previous circulation.
  • an algorithm was designed in an inventive manner, which only extracts the interesting maxima from these arrangements of the evaluations. Since the spiral has a circle-like structure, it has a period accordingly. This period can be used to extract the interesting maxima.
  • a search area search box
  • the individual peaks in the arrangements have a distance of approximately 80 to 120 points. In principle, this distance should change with the radius of the spiral. It turns out, however, that the positions with the maxima of the ratings are usually extended over a small area. This means that the period at the beginning of the spiral does not have much of an impact on small radii, so that a constant period can be assumed over the entire range.
  • FIG. 4 shows the flow diagram of the algorithm for maximum search along a spiral path.
  • the advantageous algorithm according to the invention runs according to FIG. 4 in the following steps: First, an index is placed on the beginning of the list with all evaluations. This
  • the individual ratings are stored in val [i], with / the position is within this list. Since a constant period, ie a constant distance between the individual peaks can be assumed, it is only necessary to look for a new maximum up to the next peak. This requires a counter, which is called count. The distance of the peaks is recorded in the constant variable dist, which must be passed to the algorithm as a parameter. Now the next maximum is searched in a vicinity of dist points from the current position index.
  • maxvalue is compared with lastvalue. If maxvalue is greater than lastvalue, a maximum has been found and it is stored in a list with maxima (disturbance). Regardless of this output, lastvalue is now set to maxvalue and the search is started again from the position of maxvalue plus an offset offset. The offset should prevent values that are close to the maximum from being included again in the evaluations, since the drop after a maximum only returns to a very small value after a few points.
  • a classifier described below is used here, which can make the decision - “eye” or “not eye.” If a maximum is found during the execution of the algorithm, it is passed to the classifier instead of to the list of maxima If the circle found is the iris of one eye, the algorithm is terminated, if it is not an eye, the next circle must be found, which in turn is then verified using the classifier. This process is repeated until all points in the search box have been examined, but it is also conceivable that the classifier does not work in such an interaction with the circle detection, but after detection of all circles is given this as a list and then all circles at the same time
  • the third stage within eye detection is a classifier, which is the
  • Eyes determined within the image data When configuring the classifier, it is very conceivable not only in terms of a search for "eye present"-> to configure yes / no; but also to classify an open or closed eye. This in turn allows, in an inventive manner, to generate a functionality of a system which, in the event that the length of time during which the eyes of an observed person remain closed last significantly longer than the duration of blinking, triggers and (or necessary) a mechanism suitable for warning of falling asleep Take measures to prevent accidents, which is particularly advantageous when observing vehicle drivers and machine operators.
  • the method for eye detection makes no particular claims.
  • a learning classifier is used, which typical patterns to be classified are represented in a training sequence (polynomial classifier, neural networks).
  • a classifier is designed so that it classifies the image data of both eyes together.
  • the method for eye detection should be designed with a common or two individual, eye-specific search areas (search boxes).
  • search boxes are preferably used which are smaller than the overall image and thus simplify and considerably speed up the finding of the eyes. The use of search boxes is discussed in more detail below. Methods according to the invention are described below which compensate for the disadvantages resulting from the use of search boxes.
  • search boxes are used, which are each positioned near an eye.
  • search boxes are used, which are each positioned near an eye.
  • the disadvantage of using search boxes is that they must always be placed near the eyes so that the circle detection algorithms can also detect the iris. If there is no eye within a search box, circles are still found, but these are classified by the classifier as "no eye available”.
  • the placement of the search boxes is advantageously implemented with eye tracking.
  • the eye tracking repositions the search boxes after each image, so that the iris can be found within the search box and the eye detection algorithms can find it.
  • the starting point for eye tracking is the last eye position found. With the help of this position, an attempt is now made to correctly position the search box in the next picture. To do this, the eyes must be correctly recognized in the search boxes.
  • eye tracking is implemented in the method according to the invention by means of a linear prediction of the position of the search boxes. It is assumed that the movement of the head has a constant speed. Accelerations are therefore not taken into account. If the sampling rate of the image sequences is large enough, this assumption has only a small error.
  • the position of the search boxes for the next image n + 1 is calculated from the last two positions of the eyes found from the current n and last n-1 image.
  • the search box position is described with x (i).
  • both search boxes are coupled to each other, ie the search boxes are oriented towards each other, then when the head is turned further, one of the search boxes is pushed out of the head area and is still outside the head area after turning back. For this reason, it is conceivable and sensible not to couple the eyes rigidly, but also to look at them separately.
  • the problem with eye tracking is that the head movement is mapped from a three-dimensional space into a two-dimensional display space. The distance between the eyes changes depending on the rotation of the head in the picture.
  • the linear estimate of the search box position is only valid if the speed of the eyes is constant. In the event of a sudden change of direction, the assumption of constant speed can no longer be met. Further problems arise if no eyes are found. This is particularly the case if closed eyes are included in the image, since they cannot be detected directly.
  • a particularly advantageous embodiment of the eye tracking is provided by the utilization of the optical flow, whereby the head movement can be estimated from the image sequences and the eye tracking can therefore be carried out correctly even if no eyes were found.
  • Optical flow is a process for finding the displacement of two similar image structures from two successive images. With this shift it is possible to determine the movement of an image structure from one image to the next. With the help of the optical flow, it is now possible to set up simple eye tracking.
  • the optical flow alone is not accurate enough to place the search boxes. However, it can be used to estimate the next position of the search boxes.
  • the optical displacement vector h n, ⁇ + 1). It denotes the optical flow calculated from images n and / 7 + 1.
  • the same designations apply as have already been used in the linear estimation of the search box position, ie the search box positions are again designated with X n '.
  • the designation m 1 is again used for the position of a detected eye.
  • the search boxes can be placed directly over the eyes with the positions m '.
  • the displacement vector of the optical flow is also added to the new coordinates.
  • next position could not be estimated for the linear one.
  • the search box position in picture n + 1 can be estimated with sufficient accuracy. It will only be the optical one
  • Displacement vector h (n, n + 1) used ie:
  • the search box position is automatically initialized at the beginning by means of an algorithm based on the hyperpermutation network HPN (Mandler, Oberlönder [19]).
  • HPN hyperpermutation network
  • An HPN tries to separate the redundancy and the information from the diversity of data.
  • there is a lot of redundancy in each picture For example, in the case of eye detection, only the information “at the location (x, y) is an eye” is of interest. This is only a fraction of the information that the entire image contains.
  • the HPN is constructed similarly to neural networks, only that of them Nodes or neurons have a different structure.
  • the HPN With the HPN, these nodes have the same number of inputs and outputs. Furthermore, a line corresponds to exactly one information unit (bit). The inputs are mapped to the output by permutations, this mapping being reversible
  • the HPN After entering an image, the HPN creates a probability distribution of the eyes in the image. There are several levels.
  • the probability of finding an eye at this point is the highest. In practice, this corresponds to a kind of "probability clouds" around the eye area. If border boxes are determined by the highest level, these can be used as positions for the search boxes.
  • the Cayman filter it is conceivable for the Cayman filter to be used for the task Adjust the initialization of the position of the search boxes so that the eye tracking can be made more dynamic, ie the position of the eyes relative to each other and the search box size can be handled adaptively. This procedure requires the development of a complete model of the head movement, which shows the movement of the head in three dimensions
  • the device according to the invention for the detection of eyes in image data described above and the method suitable for its operation can be used particularly advantageously as a core element in the system according to the invention for detecting the direction of view.
  • this device and the method it is also possible to use this device and the method as general elements in a wide variety of applications in which eyes can be recognized in image data. For example, also in the case of methods for identifying people by recognizing the structure of the eye iris, in which the viewing direction of the person to be identified is already predetermined by the system.
  • the actual device for determining the viewing direction can be found within the system for detecting the viewing direction.
  • the method according to the invention which is suitable for operating the device for determining the viewing direction allows the viewing direction of an observed person to be determined even when both eyes are no longer visible. The method even goes so far that a rough estimate of the viewing direction is already possible without eye detection.
  • the method according to the invention makes use of the image information which is supplied by the nose of the person being observed. The position of the nose is advantageously detected by searching for the nostrils using a polar edge detector, corresponding to that described for use in eye detection.
  • the advantage over finding the iris of the eyes is the good contrast between the nostrils and the surrounding area, so that the fact that nostrils are not circular is relatively unimportant.
  • the nostrils are then tracked according to the eye tracking described above (e.g. optical flow or caiman filter).
  • a data area is selected from the image of the observed person, which is selected based on empirical values large enough so that the image of the entire nose is contained in the data area.
  • a recognized nostril or the arithmetic mean of the two positions of two nostrils can be used as a guideline value as the center for the data area. It is but also conceivable to choose the data area so that the positions of the nostrils or the nostril come to lie in the lower area.
  • both the image of the nose and that of the eyes are classified in a first approach. If there are no images of the eyes, the direction of the gaze can be roughly estimated by aligning the nose. If the viewing direction of the eyes can also be classified correctly, the viewing direction of the observed person can be estimated from the combination of the viewing direction of the eyes and the alignment of the nose in relation to the camera position.
  • the device according to the invention for determining the viewing direction described above and the method suitable for its operation can be used particularly advantageously as a core element in the system for detecting the viewing direction according to the invention.
  • this device and the method as general elements in a wide variety of applications in which the viewing direction of observed people is to be recognized from image data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

The invention relates to a novel system for identifying a line of vision of a person under observation using image data. Said system comprises a device for locating the eyes and a unit connected downstream for determining the line of vision of the person under observation. The system is characterised by an inventive device for locating the eyes, which contains a unit that adapts to radii, to which an inventive circle-detection device is connected. A classifier, which evaluates the results of the circle-detection device and determines the position of the eyes within the image data is positioned downstream of the circle-detection device. The invention also relates to a novel device for determining a line of vision, which contains units for segmenting the image data corresponding to the eyes and the nose, a common classifier being connected downstream of said units.

Description

Beschreibungdescription
System zur Blickrichtungsdetektion aus BilddatenSystem for detecting the direction of view from image data
Die Erfindung betrifft ein System zur Blickrichtungserkennung einer beobachteten Person aus Bilddaten nach dem Oberbegriff von Anspruch 1, sowie für dieses System geeignete Vorrichtungen und Verfahrren zum Betrieb dieser Vorrichtungen nach den Oberbegriffen der Ansprüche 2, 21 und 24, sowie 3, 22 und 25.The invention relates to a system for detecting the direction of view of an observed person from image data according to the preamble of claim 1, and devices and methods suitable for this system for operating these devices according to the preambles of claims 2, 21 and 24, and 3, 22 and 25.
Die Augendetektion spielt bei einem System zur Blickrichtungserkennung eine große Rolle. In den Augen ist die meiste Information über die Blickrichtung enthalten. Allein aus der Stellung der Augen ist es möglich, eine ungefähre Angabe über die Blickrichtung zu machen. Allerdings darf der Kopf dabei nicht bewegt werden. Um die Blickrichtung auch bei erlaubter Kopfbewegung zu detektieren, müssen weitere Gesichtsmerkmale hinzugezogen werden. Dazu gehren die Nase, der Mund und eventuell sogar die Augenbrauen. Damit wird möglich auch die Kopfstellung der Person zu ermitteln. Ein Verfahren, um die Augen detektieren zu können, basiert auf der sogenannten Differenzenmethode mit zwei Lichtquellen (Morimoto [20], Morimoto et al. [17], Ebiswana[8]). Bei dieser Methode wird die Person mit zwei Lichtquellen, meist LEDs (Light Emitting Diodes), beleuchtet. Eine Lichtquelle ist dabei in der Achse der Pupille und Kamera positioniert, so da das Licht direkt von der Netzhaut des Auges zurückgeworfen wird. Die zweite Lichtquelle ist seitlich angeordnet, so da keine Reflexionen der Netzhaut die Kamera erreichen. Es werden nun zwei Bilder mit je einer aktiven Lichtquelle aufgenommen. Diese beiden Bilder sind bis auf die Reflexion der ersten Lichtquelle auf der Netzhaut identisch. Durch die Bildung eines Differenzbildes bleibt nur die Reflexion auf dem Ergebnisbild übrig. Es ist nun einfach diese Reflexion aus dem Ergebnisbild mit Hilfe von Schwellwertverfahren zu extrahieren und somit die Position der Augen zu bestimmen. Dieses Verfahren kann allerdings nicht bei Bewegungen des Kopfes angewendet werden. Da das Differenzbild aus zwei im zeitlichen Abstand aufgenommenen Bildern gebildet wird, kommen der Reflex der Pupille sowie die dunkle Pupille nicht mehr zur Deckung. Des weiteren entstehen durch die Bewegungen weiter Strukturen im Bild, die mit Hilfe der Schwellwertbildung nicht mehr von dem Pupillenreflexunterschieden werden können. Diese Verfahren werden üblicherweise dann eingesetzt, wenn die zu beobachtende Person den Kopf nicht bewegen muss. Dazu zählen Gesichterkennungsaufgaben zur Identifikation von Personen, wie sie z.B. bei Bankautomaten eingesetzt werden sollen, sowie zur Bedienung von Computern mit den Augen.Eye detection plays a major role in a system for detecting the direction of view. Most of the information about the direction of view is contained in the eyes. From the position of the eyes alone, it is possible to give an approximate indication of the direction of the gaze. However, the head must not be moved. In order to detect the line of sight even when the head is allowed to move, additional facial features must be consulted. This includes the nose, the mouth and possibly even the eyebrows. This also makes it possible to determine the person's head position. A method for detecting the eyes is based on the so-called difference method with two light sources (Morimoto [20], Morimoto et al. [17], Ebiswana [8]). With this method, the person is illuminated with two light sources, usually LEDs (Light Emitting Diodes). A light source is positioned in the axis of the pupil and camera so that the light is reflected directly from the retina of the eye. The second light source is arranged on the side so that no reflections from the retina reach the camera. Now two pictures are taken, each with an active light source. These two images are identical except for the reflection of the first light source on the retina. By forming a difference image, only the reflection on the result image remains. It is now easy to extract this reflection from the result image using threshold value methods and thus to determine the position of the eyes. However, this procedure cannot be used for head movements. Since the difference image is formed from two images taken at intervals, the pupil reflex and the dark pupil no longer coincide. Furthermore, the movements of further structures in the image result which, with the help of the threshold value formation, can no longer be distinguished from the pupil reflex. These methods are usually used when the person to be observed does not have to move his head. These include face recognition tasks for identifying people, such as those used in ATMs, as well as for operating computers with the eyes.
Andere aus der Literatur bekannte Methoden sind die des Template Matching (Schablonenanpassung) (Xie et al. [31 ],Chow et al. [7]). Hierzu wird ein geometrisches Modell der Augen erstellt, welches adaptiv auf dem Bild angepasst wird. Der Nachteil dieser Verfahren ist, dass das Template adaptiv angepasst werden muss . Des weiteren neigen Templates dazu, die Augenbrauen anstatt der Augen zu detektieren. Dies ist dann der Fall, wenn die Anfangsposition der Templates nicht sorgfältig ausgewählt wurde (Xie et al. [31 ],Chow et al. [7]). Die weitaus bekanntesten Verfahren zur Ermittlung der Augenpositionen sind schwellwert- und kantenorientierte Verfahren. Diese Verfahren werden in vielen wissenschaftlichen Veröffentlichungen zur Initialisierung der Ausgangsposition von Templates benutzt (Xie et al. [31 ], Chowet al. [7]). Weitere Möglichkeiten zur Initialisierung, sind Methoden zur Erkennung des Gesichtes. Hierbei wird mit Hilfe von statistischen oder geometrischen Methoden versucht das Gesicht einer Person aus Bildern zu extrahieren (Edwards et al. [9], Stiefelhagenet al. [26 ], Chow et al. [7], Zobel et al. [33 ]). Damit ist der Bereich, in dem nach Augengesucht werden muss, schon weit eingeschränkt. Allen diesen Verfahren ist gemeinsam, da sie relativ langsam sind (Tian et al. [28 ], Lam, Yan [16 ]). Allein das Template Matching ist ein aufwendiger Prozess. Hinzu kommt die Ermittlung geeigneter Startpositionen für die Templates, welche mit den obigen Verfahren ermittelt werden. Diese Verfahren sind aber in der Kombination mit dem Template Matching ebenfalls langsam, da zwei Verfahren sequentiell benutzt werden. Um den Aufwand bei der Augendetektion zu minimieren ist es notwendig das Gesamtbild ein oder zwei kleinere Suchbereiche zu unterteilen. Dazu werden zwei Boxen verwendet, die jeweils in der Nähe eines Auges positioniert werden. Mit der Verwendung dieser sogenannten Suchboxen ergeben sich zum einen Geschwindigkeitsvorteile, da nicht mehr das gesamte Bild untersucht werden muss und zum anderen wird die Fehlerrate reduziert, da der Iris ähnliche Objekte außerhalb der Boxen, wie Knöpfe, Muster auf Hemden usw., nicht mehr gefunden werden. Damit wird die eigentliche Entscheidung, ob es sich bei den gefundenen Kreisen um die Iris eines Auges handelt vereinfacht.Other methods known from the literature are those of template matching (Xie et al. [31], Chow et al. [7]). For this purpose, a geometric model of the eyes is created, which is adaptively adjusted on the image. The disadvantage of this method is that the template has to be adapted adaptively. Furthermore, templates tend to detect the eyebrows instead of the eyes. This is the case if the starting position of the templates has not been carefully selected (Xie et al. [31], Chow et al. [7]). The most well-known methods for determining the eye positions are threshold and edge-oriented methods. These methods are used in many scientific publications to initialize the starting position of templates (Xie et al. [31], Chow et al. [7]). Other methods of initialization are methods for recognizing the face. Here, with the help of statistical or geometric methods attempt to extract a person's face from images (Edwards et al. [9], Stiefelhagen et al. [26], Chow et al. [7], Zobel et al. [33]). The area in which to look for eyes is already very limited. All of these methods are common because they are relatively slow (Tian et al. [28], Lam, Yan [16]). Template matching alone is a complex process. In addition, there is the determination of suitable starting positions for the templates, which are determined using the above methods. However, these methods are also slow in combination with template matching, since two methods are used sequentially. In order to minimize the effort involved in eye detection, it is necessary to subdivide the overall image into one or two smaller search areas. Two boxes are used for this, each positioned near an eye. Using these so-called search boxes results in speed advantages, on the one hand, since it is no longer necessary to examine the entire image and, on the other hand, the error rate is reduced because objects similar to the iris, such as buttons, patterns on shirts, etc., are no longer found outside the boxes become. This simplifies the actual decision as to whether the circles found are the iris of an eye.
Nachdem die Position der Augen bekannt ist, muss daraus die Blickrichtung abgeleitet werden. Die Augen enthalten den größten Teil der Information über die Blickrichtung.After the position of the eyes is known, the direction of view must be derived. The eyes contain most of the information about the viewing direction.
Diese Information alleine ist allerdings noch nicht ausreichend, wenn bei der Blickrichtungsdetektion auch der Kopf bewegt werden darf. Viele Anwendungen gehen von der Annahme aus, da der Kopf nicht bewegt wird, was auch oft ausreichend ist. Dazu zählen Bankautomaten, bei denen die Identität über das Gesicht oder die Netzhaut geprüft wird, sowie eine mit den Augen gesteuerte Computermaus. Wird die Kopfbewegung nicht in Betracht gezogen, so ist die Information, die die Augen enthalten, ausreichend, um damit die Blickrichtung zu erkennen. In Baluja, Pomerleau [3] und Xu et al. [30 ] wird z.B. die Blickrichtungsdetektion allein mit den Augen mit Hilfe eines neuronalen Netzwerkes ermittelt. Ein anderes Verfahren zur Blickrichtungsdetektion benutzt geometrischen VerfahrenHowever, this information alone is not sufficient if the head can also be moved during the line of sight detection. Many applications assume that the head is not moved, which is often sufficient. These include automated teller machines, in which the identity is checked via the face or retina, and a computer mouse controlled by the eyes. If the head movement is not taken into account, the information contained in the eyes is sufficient to recognize the direction of the gaze. In Baluja, Pomerleau [3] and Xu et al. [30] is e.g. the direction of view detection is determined with the eyes alone with the help of a neural network. Another method for direction of view detection uses geometric methods
(Arrington[1]). Hierzu wird das Auge zusätzlich aktiv beleuchtet, so da ein Lichtreflex auf dem Auge zu erkennen ist. Die Lichtquelle ist dabei direkt vor der Person installiert. Ist die Position der Pupille sowie die Position des Lichtreflexes bekannt, so kann daraus die Blickrichtung erkannt werden. Die Position des Lichtreflexes entspricht dem Geradeausblick der Person. Mit Hilfe des Vektors zwischen Reflex und Pupille ist es nun möglich, die Blickrichtung zu berechnen. Bei diesem Verfahren ist es allerdings nötig, da hochauflösende Bilder von der Augenregion vorhanden sind.(Arrington [1]). For this purpose, the eye is additionally actively illuminated so that a light reflex can be seen on the eye. The light source is installed directly in front of the person. If the position of the pupil and the position of the light reflex are known, the viewing direction can be recognized from this. The position of the light reflex corresponds to that Straight view of the person. With the help of the vector between reflex and pupil, it is now possible to calculate the direction of view. However, this procedure is necessary because high-resolution images of the eye region are available.
Um die Blickrichtung auch bei Kopfbewegungen korrekt ermitteln zu können, ist es nötig weitere Information bereitzustellen. Dazu gehören weitere Gesichtsmerkmale, wie z.B. Nase und Mund. In Gee, Cipolla [6] ist ein Verfahren beschrieben, welches aus den Positionen von den Augen und dem Mund die Blickrichtung detektiert. Dazu wird der Mund durch eine Linie modelliert. Mit Hilfe dieser Linie und der Verbindungsstrecke beider Augen, ist es nun möglich die Blickrichtung zu detektieren. Allerdings muss dazu der Mund gefunden werden, was Aufgrund der vielen möglichen Zustände des Mundes nicht einfach ist. Bei der Blickrichtungsdetektion in einem Kraftfahrzeug sind aber unter Umständen nicht beide Augensichtbar. Bei extremer Verdrehung des Kopfes, z.B. bei Blick' über die Schulter, ist nur ein Auge sichtbar und damit auch nur die Position eines Auges vorhanden.In order to be able to correctly determine the line of sight even when the head is moving, it is necessary to provide further information. This includes other facial features, such as nose and mouth. In Gee, Cipolla [6] a method is described which detects the viewing direction from the positions of the eyes and the mouth. To do this, the mouth is modeled by a line. With the help of this line and the connecting line of both eyes, it is now possible to detect the direction of view. However, the mouth must be found for this, which is not easy due to the many possible conditions of the mouth. When detecting the direction of view in a motor vehicle, however, both eyes may not be visible under certain circumstances. In extreme twisting of the head, eg with a view 'over the shoulder, only one eye is visible and therefore only the position of an eye there.
Aufgabe der Erfindung ist es ein neuartiges, insbesondere für die Verwendung in einem Kraftfahrzeug geeignetes System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten zu finden. Des weiteren sollen zur Inkorporation in dieses System geeignete Vorrichtungen und Verfahren zum Betrieb dieser Vorrichtungen gefunden werden.The object of the invention is to find a novel system, particularly suitable for use in a motor vehicle, for detecting the direction of view of an observed person from image data. Furthermore, suitable devices and methods for operating these devices are to be found for incorporation into this system.
Die Aufgabe wird durch die Merkmale des in Anspruch 1 beschriebenen Systems gelöst. Die für dieses System geeigneten Vorrichtung und die zu deren Betrieb geeigneten Verfahren sind durch die Merkmale der Ansprüche 2, 21 und 24, sowie 3, 22 und 25 dargelegt. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind durch die Merkmale der untergeordneten Ansprüche beschrieben.The object is achieved by the features of the system described in claim 1. The device suitable for this system and the methods suitable for its operation are set out in the features of claims 2, 21 and 24, and 3, 22 and 25. Advantageous refinements and developments of the invention are described by the features of the subordinate claims.
In erfinderischer Weise lässt sich das System zur Detektion der Blickrichtung in zwei Bereiche einteilen:In an inventive manner, the system for detecting the line of sight can be divided into two areas:
- Der erste Bereich beinhaltet eine Vorrichtung zur Detektion der Augen . - Der zweite Bereich beinhaltet, dem ersten Bereich nachgeschaltet, eine Vorrichtung zur Bestimmung der Blickrichtung. Dabei gliedert sich die Prozesskette innerhalb der Vorrichtung zur Detektion der Augen im wesentlichen in drei Stufen:- The first area contains a device for detecting the eyes. - The second area contains, downstream of the first area, a device for determining the viewing direction. The process chain within the device for detecting the eyes is essentially divided into three stages:
- Die erste Stufe wird durch Einheit zur Radienanpassung gebildet. Im Rahmen dieser Radienanpassung wird der Bereich, der zur Suche nach den Kreisen benutzt wird, auf rmjn und rmax beschränkt, d.h. es werden keine Kreise mit kleineren bzw. größeren Radien detektiert; der Radius der Iris ist in den Bildern auf diesen Bereich beschränkt. Als untere Schranke rmm- wird vorzugsweise auf einen so kleiner Wert festgelegt (z.B.: rmin = 3 P'xeö» dass gerade noch Detektion der Iris bei halb geschlossenen Augen möglich ist. Werden diese Schranken rm,-n und rmgx für die Radien nicht benutzt, so werden viele Fehlkreise zusätzlich zu der Iris der Augen detektiert. Wird z.B. die obere Schranke rmax zu hoch gewählt, so werden viele kreis-ähnliche Strukturen detektiert, die nicht zu einer Iris gehören. Dazu gehören vor allem Schatten, die sich zwischen Nase und Augenbrauen erstrecken. Diese Schatten besitzen eine kreis-ähnliche Struktur mit großem Radius. Des weiteren werden Böge von Brillengestellen weitaus leichter detektiert, wenn große Radien zugelassen werden. Hinzu kommt, da bei zu großer Wahl der oberen Radiusgrenze der Kreisalgorithmus oft die Iris durch einen zu großen Kreis beschreibt. Es werden dann die Augenbrauen und das untere Lid als Grenzen des Kreises angesehen, da sich hier sehr hohe Kontrastübergänge befinden. Wird dagegen die unter Schranke des Radius zu klein gewählt, so werden viele kleine Kreise detektiert. Dazu Zählen kleine dunkel Objekte, die meistens nur aus vier bis 10- The first stage is formed by a unit for radius adjustment. As part of this radius adjustment, the area used to search for the circles is limited to r m j n and r max , ie no circles with smaller or larger radii are detected; the radius of the iris is limited to this area in the pictures. The lower limit r mm - is preferably set to such a small value (eg: r min = 3 P'xeö »that detection of the iris is still possible with eyes half closed. If these limits r m , - n and r mgx for If the radii are not used, many faulty circles are detected in addition to the iris of the eyes. If, for example, the upper limit r max is chosen too high, many circle-like structures that do not belong to an iris are detected. which extend between the nose and eyebrows. These shadows have a circle-like structure with a large radius. Furthermore, bends of glasses frames are detected much more easily if large radii are allowed. In addition, if the upper radius limit is too large, the circular algorithm is often used the iris is described by a circle that is too large. Then the eyebrows and the lower lid are regarded as the boundaries of the circle because there is a very high contrast If, on the other hand, the radius below the radius is selected too small, many small circles are detected. In addition count small dark objects, mostly only from four to 10
Bildpunkten bestehen. Da bei diesen kleinen Radien nicht mehr zwischen Kreisen und anderen Objekten in der Form unterschieden werden kann, werden so viele kleine Kreise detektiert. Dies kann mit der Beschränkung der Kreissuche auf einen kleinen Bereich zu einem großen Teil unterdrückt werden. Des weiteren verringert diese Einschränkung ebenfalls die Ausführgeschwindigkeit des Algorithmus, da nun weit weniger Kreisradien überprüft werden müssen.Pixels exist. With these small radii it is no longer possible to distinguish between circles and other objects in terms of shape, so many small circles are detected. This can be largely suppressed by restricting the circular search to a small area. Furthermore, this limitation also reduces the execution speed of the algorithm, since far fewer circular radii now have to be checked.
Ideal wäre es aber, in einem noch kleineren Intervall von ca. 5 bis 6 Radien nach dem erwünschten Kreis suchen zu lassen. Damit muss aber im voraus bekannt sein, wie groß der Radius der Iris ist. Aus diesen Gründen verwendet das erfindungsgemäße Verfahren vorzugsweise eine adaptive Radienanpassung, welche den Bereich derIt would be ideal, however, to search for the desired circle in an even smaller interval of approx. 5 to 6 radii. This means, however, that the radius of the iris must be known in advance. For these reasons, the method according to the invention preferably uses an adaptive radius adaptation which covers the range of
Radien weiter einschränkt und auf jedes Bild neu adaptiert. Dazu werden die obere und untere Schranke der Radien rmjn und rmgx bei jedem Bild neu eingestellt. Als Referenzwert wird hierbei in vorzüglicher Weise der Radius r des Kreises benutzt, welcher die Iris umschreibt. Auf dieser Basis werden die neuen Werte von rmjn und rmax aιJf wendige Bildpixel (Bildauflösungen) weniger beziehungsweise mehr als r festgelegt (z.B.: rmjn = r-2 und rmax = r+3).Radii further restricted and newly adapted to every image. For this purpose, the upper and lower bounds of the radii r m j n and r mgx are reset for each image. The radius r of the circle that circumscribes the iris is used as a reference value. On this basis, the new values of r m j n and r max aιJ f agile image pixels (image resolutions) less or more than r specified ( e.g.: r mjn = r-2 and r max = r + 3).
Die neuen Bereiche für die Radien rm;n und rmax dürfen dabei bestimmte absolute Grenzen nicht unter- bzw. Überschreiten (z.B.: rm,-n >= 3 und rmax <= 12 Pixel). Sollte in im Betrieb des Systems dennoch eine Grenzüberschreitung durch rm/n und rmax auftreten, so müssen rm/n und rmax so korrigiert/begrenzt werden, dass innerhalb dieser maximalen Schranken zu liegen kommen.The new areas for the radii r m ; n and r max may not fall below or exceed certain absolute limits (eg: r m , - n > = 3 and r max <= 12 pixels). If a limit is exceeded during operation of the system due to r m / n and r max , r m / n and r max must be corrected / limited so that they come within these maximum limits.
Die neue Wahl des Radienbereiches rm;n und rmax wird vorzugsweise immer auf das nachfolgende Bild angewandt. Da sich die Größe der Iris von Bild zu Bild jedoch nicht allzu sehr verändert, ist der aus diesem Vorgehen resultierende Fehler vernachlässigbar. Wird in einem Bild kein Auge detektiert, so ist es vorteilhaft, die Werte rm,-n und rmax unverändert zu belassen und so bei der Bearbeitung des nachfolgenden Bildes anzuwenden.The new choice of the radius range r m ; n and r max are preferably always applied to the following image. However, since the size of the iris does not change too much from picture to picture, the error resulting from this procedure is negligible. If no eye is detected in an image, it is advantageous to leave the values r m , - n and r max unchanged and thus to use them when processing the subsequent image.
- Die zweite Stufe der Prozesskette innerhalb der Vorrichtung zur Detektion der Augen beinhaltet eine Vorrichtung zur Kreisdetektion. Beispielsweise ist es denkbar hierzu die- The second stage of the process chain within the eye detection device includes a circle detection device. For example, it is conceivable for this
Hough-Transformation heranzuziehen. Nach der Erzeugung der Schnittpunkte bzw. derHough transform. After creating the intersection or
Häufungen von Schnittpunkten im Akkumulatorfeld, müssen daraus die Mittelpunkte und Radien der Kreise extrahiert werden. Zur Bestimmung des Kreismittelpunktes wird vorzugsweise ein Schwellwertverfahren eingesetzt, welches die Häufungen im Akkumulatorfeld isoliert. Ein für das System zur Blickrichtungsdetektion geeignetesAccumulations of intersections in the accumulator field, the center points and radii of the circles must be extracted from them. A threshold value method which isolates the accumulations in the accumulator field is preferably used to determine the center of the circle. A suitable one for the line of sight detection system
Verfahren bestimmt den Schwellwert aus einem Histogramm. Dabei wird aus derThe method determines the threshold value from a histogram. Thereby the
Helligkeitsverteilung im Akkumulatorfeld ein Histogramm berechnet, welches dieBrightness distribution in the accumulator field calculates a histogram, which the
Verteilung der Helligkeiten enthält. Beispielsweise wird das Histogramm mit histo[i] mitDistribution of brightness contains. For example, the histogram is marked with histo [i]
0 <= i <= 255 bezeichnet. Es kann hierbei als Vektor der Länge 256 angesehen werden. Das Histogramm enthält dabei 256 Einträge von 0 bis 255, da das beispielhaft verwendete Bildformat 256 Graustufen besitzt.0 <= i <= 255. It can be viewed as a vector of length 256. The histogram contains 256 entries from 0 to 255, since the image format used as an example has 256 gray levels.
Es werden sodann die N hellsten Punkte gesucht, beginnend mit den Punkten die der größten Helligkeitsstufe (hier:255) zuzuordnen sind. Sind sodann N Punkte selektiert, dient der Helligkeitswert des N Punktes sodann als Schwellwert für das weitere Verfahren. In der Folge werden im Akkumulator alle Punkte deren Helligkeitswert unterhalb dieser Schwelle liegen unterdrückt. Die anderen Punkte werden mit ihrer dazugehörigen Helligkeit belassen. Im Akkumulatorfeld bilden sich nach dem Schwellwertverfahren Inseln, welche den Bereich eines möglichen Mittelpunktes eines Kreises angeben. Aus diesem Schwellwertbild müssen sodann Objekte extrahiert werden. Dazu wird Algorithmus der auf Grauwertbildern arbeitet benutzt; ein sogenannter Color Connected Components Algorithmus ( Farblich Verbundene Komponenten) kurz CCC genannt. In den mit Hilfe von CCC kodierten Objekten, werden die Mittelpunkte von Kreisen auf Grundlage einer Berechnung der Schwerpunkte in jedem dieser Objekte bestimmt. Somit sind die Mittelpunkte der Kreise bekannt und es müssen nachfolgend die zugehörigen Radien bestimmt werden. Vorzugsweise wird zur Bestimmung der Kreisradien wird der zuvor berechnete Schwerpunkt benutzt. Dabei werden von ihm ausgehend Kreise mit den Radien r = rmin >> rmax berechnet und mit den Punkten aus dem Kantenbild verglichen. Dabei werden alle Punkte, die auf dem entsprechenden Kreisradius r liegen und deren Normale in diesem Punkt, bis auf eine Toleranz, in Richtung Kreismittelpunkt zeigen gezählt. Die Anzahl der Treffer werden anschließend normiert, d.h. durch die Anzahl der maximalen Punkte dieses Radius geteilt. Somit wird eine Größe des Kreises erzeugt, welche die Anzahl der Treffer zu diesem Kreis mit diesem Radius wiedergibt, d.h. Güte = Anzahl _der_Treff er / (2πή. Vorzugsweise wird der Kreis mit der besten Güte beibehalten, wogegen die anderen verworfen werden. Um Ungenauigkeiten der Hough-Transformation, die bei der Diskretisierung des Akkumulatorfeldes und der Diskretisierung der Gradienten entstehen, zu korrigieren, wird vorzugsweise nicht nur der Schwerpunkt der CCC codierten Objekte nach Kreisen untersucht, sondern auch eine Umgebung um diesen; als vorteilhaft erweist sich ein 5x5 Bildpixel großer Umgebungsbereich. Aus den aus dieser Umgebung bestimmten Kreisen wird wiederum der beste behalten. Dieser Kreis bestimmt sodann den eigentlichen Mittelpunkt.The N brightest points are then searched for, starting with the points which are to be assigned to the largest brightness level (here: 255). If N points are then selected, the brightness value of the N point then serves as a threshold value for the further process. As a result, all points in the accumulator whose brightness values are below this threshold are suppressed. The other points are left with their associated brightness. Islands are formed in the accumulator field according to the threshold value method, which indicate the area of a possible center point of a circle. Objects must then be extracted from this threshold image. This is done using an algorithm that works on grayscale images; a so-called color connected components algorithm Connected components) called CCC for short. In the objects coded with the help of CCC, the centers of circles are determined on the basis of a calculation of the centers of gravity in each of these objects. The center points of the circles are thus known and the associated radii must subsequently be determined. The previously calculated center of gravity is preferably used to determine the circle radii. Starting from him, circles with the radii r = r min > - > r max are calculated and compared with the points from the edge image. All points that lie on the corresponding circle radius r and their normal points at this point, with the exception of a tolerance, are counted towards the center of the circle. The number of hits is then standardized, ie divided by the number of maximum points of this radius. Thus, a size of the circle is generated which reflects the number of hits for this circle with this radius, ie quality = number of the hit / (2πή. Preferably the circle with the best quality is retained, whereas the others are discarded Correcting the Hough transformation that occurs during the discretization of the accumulator field and the discretization of the gradients is preferably examined not only for the center of gravity of the CCC-coded objects according to circles, but also for an environment around them; a 5 × 5 image pixel area surrounding area proves to be advantageous The best of the circles determined from this environment is again kept, and this circle then determines the actual center.
In besonders Vorteilhafter Weise ist es auch denkbar im Rahmen der Erfindung an Stelle eines Schwellwert basierten Verfahrens zur Augendetektion ein kantenorientiertes Verfahren zu verwenden, welches auf Grundlage der polaren Kantendetektion arbeitet. Der Vorteil der kanten-orientierten Verfahren gegenüber dem Schwellwertverfahren ist ihre uUnempfindlichkeit gegenüber Lichtschwankungen sind, da Differenzen betrachtet werden. Die Kantendetektoren beruhen im allgemeinen auf dem kartesischen Koordinatensystem. Da aber bei der Augendetektion nach der Iris gesucht wird, welche gut durch Kreise beschrieben werden kann, ist ein Verfahren von Vorteil, welches diese polare Eigenschaft direkt nutzt. In Wilson [29] wird ein solchesIn a particularly advantageous manner, it is also conceivable within the scope of the invention to use an edge-oriented method instead of a threshold-based method for eye detection, which method works on the basis of polar edge detection. The advantage of edge-oriented methods over the threshold value method is that they are insensitive to light fluctuations, since differences are considered. The edge detectors are generally based on the Cartesian coordinate system. However, since eye detection is used to search for the iris, which can be easily described by circles, a method that uses this polar property directly is advantageous. In Wilson [29] one such
Verfahren beschrieben. Es handelt sich dabei um einen polaren Kantendetektor, der Gleichung 1 beschrieben wird:Procedure described. It is a polar edge detector that is described in Equation 1:
Figure imgf000008_0001
Die zu untersuchende zweidimensionale Funktion wird mit l(x, y) bezeichnet, wobei x und y die kartesischen Koordinaten dieser Funktion darstellen. Ausgehend von dieser Funktion l(x, y) wird ein kreisförmiger Weg mit Radius r an der Position (XQ, yυ) durchlaufen und die Intensitäten l(x, y) auf dieser Kreisbahn integriert und anschließend mit dem Faktor 2πr normiert. Dieser Vorgang kann mit einer Mittelwertbildung entlang der Kreisbahn verglichen werden. Die Integration entlang einer Kreisbahn wird nach dem Radius r abgeleitet, womit der Gradient der verschiedenen Integrationen bei verschiedenen Radien an der Position (XQ, yg) gebildet wird. Mit Hilfe der Maximumbildung wird der größte Gradient entlang des Radius r ermittelt. Dieser Vorgang wiederholt sich für alle Punkte der Funktion l(x, y), so dass für jede Position (x, y) ein maximaler Gradient gebildet wird. Dieses Verfahren gibt demnach für jeden Punkt der Funktion l(x, y) eine Bewertung eines Kreises an der Stelle (x, y) und dessen besten Radius r an. Es ist dabei irrelevant, ob es sich bei den untersuchten Positionen tatsächlich um kreis-ähnliche Strukturen handelt. Je besser die Struktur an der Stelle (x, y)einem Kreis ähnelt, desto höher ist die Bewertung.
Figure imgf000008_0001
The two-dimensional function to be examined is designated by l (x, y), where x and y represent the Cartesian coordinates of this function. Based on this function l (x, y), a circular path with radius r is traversed at position (XQ, y υ ) and the intensities l (x, y) are integrated on this circular path and then normalized with the factor 2πr. This process can be compared to averaging along the circular path. The integration along a circular path is derived according to the radius r, which forms the gradient of the different integrations at different radii at the position (XQ, yg). The maximum gradient along the radius r is determined with the aid of the maximum formation. This process is repeated for all points of the function l (x, y), so that a maximum gradient is formed for each position (x, y). This method therefore specifies an evaluation of a circle at the position (x, y) and its best radius r for each point of the function l (x, y). It is irrelevant whether the examined positions are actually circle-like structures. The better the structure at the point (x, y) resembles a circle, the higher the rating.
Um die polare Kantendetektion in der Bildverarbeitung nutzen zu können, ist es nötig Gleichung 1 zu diskretisieren, da die Bilddaten f(x, y) dem erfindungsgemäßen Verfahren ebenfalls diskret vorliegen, und somit der diskretisierten Funktion l(x, y) entsprechen. Aus diesem Grunde schlägt die Erfindung verwendet die Erfindung in vorteilhafter Weise ein neuartiges, nachfolgend beschriebenes Konzept zur Diskretisierung von Gleichung 1. In Figur 1 ist die diskretisierte Vorgehensweise schematisch abgebildet.In order to be able to use the polar edge detection in image processing, it is necessary to discretize equation 1, since the image data f (x, y) are also available discretely according to the method according to the invention and thus correspond to the discretized function l (x, y). For this reason, the invention advantageously uses a novel concept, described below, for discretizing equation 1. The discretized procedure is shown schematically in FIG.
Figur 1 zeigt den polaren Kantendetektor nach Diskretisierung der Variablen.Figure 1 shows the polar edge detector after discretization of the variables.
Für jeden Radius wird eine Kreisbahn beschrieben, auf welcher die Intensitäten aufaddiert werden.A circular path is described for each radius, on which the intensities are added.
Der Kern des polaren Kantenoperators ist das Umlaufintegral, welches einen kreisförmigen Weg mit Radius r an der Position (x0, yO) beschreibt. Diese Integration muß bei der Verwendung von Bilddaten in eine Summation umgewandelt werden. Für einen bestimmten Radius r ergibt sich dann für das Umlaufintegral der Wert μr zu:The core of the polar edge operator is the orbital integral, which describes a circular path with radius r at the position (x0, yO). This integration must be converted into a summation when using image data. For a certain radius r, the value μ r then results for the orbital integral:
Figure imgf000009_0001
Figure imgf000009_0001
Das Abrunden der Kreisfunktion ist nötig, da mit diskreten Bilddaten gearbeitet wird. Aus diesem Grund sind alle Positionen (x, y) innerhalb eines Bildes durch ganze Zahlen dargestellt. Das Gleiche gilt für den Radius r. Diese Summation entspricht der Bildung eines Mittelwertes μr der Grauwertverteilung des Bildes entlang einer Kreisbahn mit Radius r. Diese Mittelwertbildung kann mit Hilfe einer Funktion srfi) = (sr>x(i), sr>y(i)fi , welche einer parameterisierten Kurve entspricht, allgemeiner beschrieben werden: μr =ΣX XX!}lRounding off the circular function is necessary, since discrete image data is used. For this reason, all positions (x, y) within an image are integers shown. The same applies to the radius r. This summation corresponds to the formation of an average value μ r of the gray value distribution of the image along a circular path with radius r. This averaging can be described more generally with the help of a function srfi) = (s r> x (i), s r> y (i) fi, which corresponds to a parameterized curve: μr = ΣX XX!} L
Mit Hilfe der Funktion s i) können beliebige Wege beschrieben werden, entlang derer ein Mittelwert berechnet wird.The function s i) can be used to describe any path along which an average is calculated.
In erfinderischer Weise wird nun vorzüglich die polare Kantendetektion dahingehend verallgemeinert, daß sie neben den üblicherweise kreisförmigen Wege auch beliebig anders gestaltete Wege detektieren kann. Die Grundidee hierbei ist der Wunsch auch Augen mit Hilfe der Detektion der Iris zu finden. In den meisten Fällen wird aber die Iris teilweise von den Augenlidern oben und unten verdeckt. Dabei ist die Verdeckung durch die Augenlider oben stärker ausgeprägt als unten. Durch diese Verdeckung ist die Iris kein perfekter Kreis mehr, sondern ein Kreis, der durch zwei Kreisbögen unten und oben abgeschnitten ist. Aus diesem Grund ist es nötig, die Pfade zur Kreissuche so anzupassen, dass diese Verdeckung mit in Betracht gezogen wird.In an inventive manner, the polar edge detection is now generally generalized to the effect that it can also detect paths of any other shape in addition to the usually circular paths. The basic idea here is the desire to find eyes with the help of the detection of the iris. In most cases, however, the iris is partially covered by the eyelids at the top and bottom. The covering by the eyelids is more pronounced at the top than at the bottom. Due to this concealment, the iris is no longer a perfect circle, but a circle that is cut off by two arcs below and above. For this reason, it is necessary to adapt the paths to the circle search so that this concealment is taken into account.
In Figur 2 sind verschieden Wege dargestellt, womit die Verdeckung der Iris durchdie Augenlider kompensiert werden soll ( (a) Kreis, (b) Ellipse,In Figure 2 different ways are shown, with which the covering of the iris by the eyelids is to be compensated ((a) circle, (b) ellipse,
(c) offener Kreis, (d) ergänzter Kreis, (e) Rechteck ). Die dick eingezeichneten Abschnitte sind diejenigen Positionen, die in die Mittelwertbildung mit einbezogen wurden. Die dünn gezeichneten Abschnitte stellen Hilfslinien zur Orientierung dar.(c) open circle, (d) supplemented circle, (e) rectangle). The thick sections are the positions that were included in the averaging. The thinly drawn sections represent guidelines for orientation.
Figur 2 beschreibt verschiedene verwendete Wege bei der Mittelwertbildung.Figure 2 describes different ways used in averaging.
In Abbildung a) von Figur 2 ist der schon erwähnte Kreis dargestellt, welcher die Verdeckung zwar nicht berücksichtigt, dafür aber die wenigsten zusätzlichen Parameter besitzt. Die Verdeckung der Augenlider wird am Besten durch den Weg aus Abbildung d) in Figur 2 angenähert. Dabei wird der Kreis oben und unten aufgeschnitten. Die entstehenden Lücken werden mit Hilfe zweier Strecken überbrückt. Die beiden Lücken werden mit den Winkeln a und ß beschrieben, welche die Öffnungswinkel, beziehungsweise die Abschnitte der die Iris umschreibenden Kreisbahn, welche nicht die Kreisdetektion einbezogen werden, festlegen. Eine andere vorteilhafte Gestaltung der Kreisbahn ist aus Abbildung c) ersichtlich. Die Ellipse aus Abbildung b) in Figur 2 besitzt gegenüber den anderen Bahnen nur einen zusätzlichen Parameter, nämlich das Verhältnis der beiden Hauptachsen der Ellipse. Da die Ausdehnung der Ellipsen in beiden Richtungen unterschiedlich ist, werden bei verschiedenen Radien die gleichen Punkte mehrmals mit in die Auswertung einbezogen. Dies ist auf die Diskretisierung des Bildes zurückzuführen, da nur ganzzahlige Positionen zulässig sind. Dies stellt aber bei der Auswertung keinen Nachteil dar. Die Abbildung e) in Figur 2 ist ein Rechteck. Das Rechteck stellt eine grobe Näherung von Abbildung d) dar, da viele Kreise relativ klein sind und der Kreisbogen durch eine Gerade angenähert werden kann. Die in Figur 2 aufgezeigten Abbildungen stellen selbstverständlich nur Beispiele von möglichen Bahnen, auf welche der polare Kantendetektor optimiert wird, dar.Es ist nun denkbar das Erfindungsgemäße Verfahren dergestalt auszuführen, dass die für die aktuellen Bilddaten optimale Kontur entsprechend den Beispielen aus Figur 2 angewandt wird.Figure a) of Figure 2 shows the circle already mentioned, which does not take into account the masking, but has the fewest additional parameters. The covering of the eyelids is best approximated by the path from Figure d) in Figure 2. The circle is cut open at the top and bottom. The resulting gaps are bridged using two routes. The two gaps are described with the angles a and β, which define the opening angles or the sections of the circular path circumscribing the iris, which are not included in the circle detection. Another advantageous design of the circular path is shown in Figure c). The ellipse from Figure b) in Figure 2 has only one additional parameter compared to the other paths, namely that Relationship of the two main axes of the ellipse. Since the extent of the ellipses is different in both directions, the same points are included several times in the evaluation for different radii. This is due to the discretization of the image, since only integer positions are permitted. However, this does not represent a disadvantage in the evaluation. Figure e) in FIG. 2 is a rectangle. The rectangle is a rough approximation of Figure d) because many circles are relatively small and the arc can be approximated by a straight line. The illustrations shown in FIG. 2 are of course only examples of possible paths on which the polar edge detector is optimized. It is now conceivable to carry out the method according to the invention in such a way that the optimum contour for the current image data is used in accordance with the examples from FIG. 2 ,
Ausgehend von Gleichung 1 des polaren Kantenoperators ist ersichtlich, dass nicht der maximale Wert eines Wegintegrals gesucht wird, sondern die maximale Veränderung zweier aufeinanderfolgender Wegintegrale. Dies ist auch sinnvoll, da nach dem größten Übergang von Dunkel nach Hell gesucht wird. Die Iris des Auges ist in Bildern im allgemeinen als schwarze Scheibe zu erkennen, wohingegen der Bereich um die Iris sehr hell ist. Genau dieser Übergang von Dunkel nach Hell soll detektiert werden, da dies den besten Kreisbahn liefert, der die Iris beschreibt. Die Ableitung nach dem Radius r aus Gleichung 1 mit Differenzen realisiert werden. Damit ergibt sich als ersteStarting from equation 1 of the polar edge operator, it can be seen that it is not the maximum value of a path integral that is sought, but the maximum change in two successive path integrals. This also makes sense since the largest transition from dark to light is searched for. The iris of the eye is generally seen as a black disc in images, whereas the area around the iris is very bright. Exactly this transition from dark to light should be detected, since this provides the best circular path that describes the iris. The derivation according to the radius r from equation 1 can be realized with differences. This is the first
Näherung folgender Ansatz:Approximation of the following approach:
Vr = μr - μr-1 GI.4V r = μr - μr-1 GI.4
Vr stellt die Bewertung für einen Mittelwert mit Radius r dar. Um den besten Kreis zu finden, ist es nötig das größte Vr zu finden. Es müssen deshalb für einen bestimmten Bereich rmjn bis rmax die Vr erzeugt und miteinander verglichen werden.V r represents the evaluation for an average with radius r. In order to find the best circle, it is necessary to find the largest V r . The V r must therefore be generated for a specific range r m j n to r max and compared with one another.
Die erste Näherung der Ableitung nach dem Radius ist wie in Gleichung 4 angegeben anfällig auf Schwankungen zwischen den einzelnen Mittelwerten. Die Iris ist bei realen Bedingungen keine exakte schwarze Scheibe, sondern besitzt Helligkeitsschwankungen, die beispielsweise von Reflexionen herrühren. Diese Schwankungen wirken sich negativ auf die Bewertung des Kreises bei Radius r auf, wenn sie an der Kante der Kreisscheibe auftreten. Um diese Helligkeitsschwankungen besser kompensieren zu können, ist es besonders vorteilhaft die Bewertung über mehrere Mittelwerte zu bilden. Dies kann folgendermaßen dargestellt werden, wenn n die Anzahl der Mittelwerte ist, die mit in die Bewertung einbezogen werden sollen: Vr = μr -- ∑μi GI.5The first approximation of the derivative according to the radius, as indicated in equation 4, is susceptible to fluctuations between the individual mean values. In real conditions, the iris is not an exact black disk, but has fluctuations in brightness that result, for example, from reflections. These fluctuations have a negative effect on the evaluation of the circle at radius r if they occur on the edge of the circular disk. In order to be able to better compensate for these brightness fluctuations, it is particularly advantageous to form the evaluation over several mean values. This can be represented as follows if n is the number of mean values that should be included in the evaluation: V r = μ r - ∑ μi GI.5
Für die Bewertungsberechnung hat sich ein Wert von n = 2 als sehr zuverlässig herausgestellt. Damit vereinfacht sich Gleichung 5 zuA value of n = 2 has proven to be very reliable for the evaluation calculation. This simplifies Equation 5
Vr = μr ~(μr_, +μr_2) GI.6V r = μ r ~ (μ r _, + μ r _ 2 ) GI.6
Werte größer als zwei sind meist nicht sinnvoll, da dann die Bewertung im allgemeinen schlechter wird. Dies ist besonders dann der Fall, wenn in der Iris Gebiete mit großer Helligkeit auftreten. In diesem Fall ist der Mittelwert schon sehr groß, bevor überhaupt der Rand der Iris betrachtet wurde. Der Sprung des Mittelwertes am Rand der Iris ist dann nicht mehr so groß und dieser Kreis bekommt eine schlechte bzw. schwache Bewertung bzw. der falsche Radius r wird ermittelt. Der Fall n = 2 stellt daher einen Kompromiß zur Kompensation von solchen Schwankungen innerhalb der Iris dar.Values greater than two are usually not sensible, since then the evaluation generally becomes worse. This is particularly the case when areas of high brightness appear in the iris. In this case, the mean is very large even before the edge of the iris has been considered. The jump in the mean value at the edge of the iris is then no longer so large and this circle receives a poor or weak rating or the wrong radius r is determined. The case n = 2 therefore represents a compromise to compensate for such fluctuations within the iris.
Mit diesem Ansatz kann die Iris von Augen gut detektiert werden. Allerdings werden auch kreis-ähnliche Strukturen detektiert, die keine Iris von einem Auge darstellen. Dazu gehören vor allem Brillen und Augenbrauen. An Brillen sind sehr große Kontraste vorhanden, die ebenfalls als Kreise detektiert werden, obwohl sie keiner kreis-ähnlichen Struktur entsprechen. Da die Auswertung der Wegintegrale über Mittelwerte vollzogen wird, ist bei diesen " Fe hl treffe rn" die Differenz des Mittelwertes größer als bei der Iris, die unter Umständen keinen so großen Kontrast besitzt. Um diese Fehltreffer zu eliminieren, ist es besonders Vorteilhaft in erfinderischer Weise die Auswertung der Wegintegrale zu erweitern. Hierbei macht man sich die Erkenntnis zu nutze, dass der entscheidende Unterschied von diesen Fehltreffern zu richtigen Kreisen in der Uneinheitlichkeit der Helligkeitsverteilung entlang der Kreisbahnen liegt. Bei Augenbrauen ist z.B. in senkrechter Richtung überhaupt kein Kontrast vorhanden. Dafür ist aber der Kontrast oben und unten an der Augenbrauen sehr ausgeprägt. Aus diesem Grund zieht das erfindungsgemäße Verfahren die Varianz der Helligkeiten entlang der Kreisbahn mit in die Auswertung der Wegintegrale ein. Es wird somit nun neben dem Mittelwert aus Gleichung 1 ebenfalls der quadratische Mittelwert μ - berechnet, d.h.With this approach, the iris can be easily detected by eyes. However, circle-like structures are also detected that do not represent an iris from one eye. Above all, this includes glasses and eyebrows. There are very large contrasts on glasses, which are also detected as circles, although they do not correspond to a circle-like structure. Since the evaluation of the path integrals is carried out by means of mean values, the difference between the mean values is greater in these "feel hitting" than in the iris, which may not have such a large contrast. In order to eliminate these mistakes, it is particularly advantageous to expand the evaluation of the path integrals in an inventive manner. Here one makes use of the knowledge that the decisive difference between these missed hits and correct circles lies in the non-uniformity of the brightness distribution along the circular orbits. For eyebrows e.g. no contrast at all in the vertical direction. But the contrast at the top and bottom of the eyebrows is very pronounced. For this reason, the method according to the invention includes the variance of the brightnesses along the circular path in the evaluation of the path integrals. In addition to the mean from equation 1, the root mean square μ - is also calculated, i.e.
Figure imgf000012_0001
Damit kann die Varianz mit Hilfe der direkten Beziehung zwischen Mittelwert und dem quadratischen Mittelwert ermittelt werden. σ2 = μr!2 GI.8
Figure imgf000012_0001
The variance can thus be determined using the direct relationship between the mean and the root mean square. σ 2 = μ r!2 GI.8
Die Varianz des Umlaufintegrals wird nun gemäß Gleichung 9 mit in die Bewertung einbezogen:The variance of the orbital integral is now included in the evaluation according to equation 9:
Vr = μr - ^(μr_, +μr_2)-c - σ2 GI.9V r = μ r - ^ (μ r _, + μ r _ 2 ) -c - σ 2 GI.9
Die Varianz wird nicht wie der Mittelwert als Differenz in die Bewertung einbezogen, sondern immer direkt mit dem jeweiligen Radius verrechnet. Das Problem der Varianz ist, sie mit einem geeignetem Gewichtungsfaktor in die Bewertung mit aufzunehmen. Hier hat sich ein Wert von c = 0.001 als ausreichend erwiesen. Dieser Wert darf nicht zu klein gewählt werden, da dann der Effekt der Varianz ansonsten verschwindet. Wird der Gewichtungsfaktor c zu groß gewählt, so werden auch kleine Ungleichmäßigkeiten auf der Kreisbahn der Iris zu sehr gewertet und diese nicht mehr detektiert.The variance is not included as a difference in the evaluation like the mean value, but is always offset directly with the respective radius. The problem with variance is to include it in the evaluation with a suitable weighting factor. Here a value of c = 0.001 has proven to be sufficient. This value must not be chosen too small, otherwise the effect of the variance will disappear. If the weighting factor c is chosen too large, even small irregularities on the circular path of the iris are rated too much and these are no longer detected.
Der oben beschriebene erfindungsgemäße polaren Kantenoperator, entsprechend der Gleichungen 1-9 läßt sich besonders vorteilhaft in dem System zur Blickrichtungsdetektion und/oder Augendetektion verwenden. Selbstverständlich ist es aber auch denkbar den polaren Kantenoperator auch in ählichen Systemen gewinnbringend einzusetzen; beispielsweise bei Systemen zu Identifikation von Personen durch Vergleich der Struktur der Iris (wie bei Geldautomaten und Zugangskontrollen).The polar edge operator according to the invention described above, according to equations 1-9, can be used particularly advantageously in the system for eye direction detection and / or eye detection. Of course, it is also conceivable to use the polar edge operator profitably in similar systems; for example in systems for identifying people by comparing the structure of the iris (such as in ATMs and access controls).
Der polare Kantenoperator gibt eine Bewertung für einen Kreis an jeder Stelle (x, y) des Bildes zurück. Aus diesen Bewertungen muß entschieden werden, welcher dieser Kreise für die Weiterverarbeitung genutzt werden soll. Ebenso wie bei den Verfahren mit der Hough-Transformation werden die besten Kreise ausgewählt und dem nächsten Verarbeitungsschritt übergeben. Dazu wird in einer denkbaren Ausgestaltung des Verfahrens der gesamte Suchbereich mit Hilfe des polaren Kantenoperators ausgewertet und anschließend sortiert, so daß die N besten Kreise an erster Stelle einer Liste mit allen bewerteten Kreisen stehen. Der Suchbereich wird dazu Zeile für Zeile durchlaufen und jeder Punkt ausgewertet. Am Ende einer Zeile wird diese nach den N besten Kreisen sortiert und die nächste Zeile wird verarbeitet. Nach der Verarbeitung dieser Zeile werden wieder die N besten Kreise aus der Liste herausgenommen. Nach der letzten Zeile sind dann die N besten Kreise des gesamten Suchbereichs in einer Liste sortiert vorhanden.The polar edge operator returns a rating for a circle at every point (x, y) of the image. From these evaluations, it must be decided which of these groups should be used for further processing. As with the procedures with the Hough transformation, the best circles are selected and transferred to the next processing step. For this purpose, in a conceivable embodiment of the method, the entire search area is evaluated with the aid of the polar edge operator and then sorted, so that the N best circles are in the first position in a list with all evaluated circles. The search area is run through line by line and each point is evaluated. At the end of a line, it is sorted according to the N best circles and the next line is processed. After processing this line, the N best circles from the list again removed. After the last line, the N best circles of the entire search area are then sorted in a list.
Eine andere besonders vorteilhafte Alternative zur Unterdrückung von unerwünschten Nachbarkreisen, wird durch nachfolgenden Algorithmus beschrieben. Dabei wird zunächst der beste Kreis aus der Liste aller Kreise herausgenommen. Der nächstbeste Kreis muß nun einen bestimmten Abstand d zum vorherigen Kreis besitzen, bevor er aus der Liste herausgenommen wird. Dies wird solange wiederholt, bis die N besten Kreise extrahiert wurden. Durch dieses Verfahren wird die Wahrscheinlichkeit erhöht, daß sich der gesuchte Kreis bei den N besten Kreisen befindet, falls dieser schwach bewertet wurde.Another particularly advantageous alternative for suppressing unwanted neighboring circles is described by the following algorithm. First, the best circle is removed from the list of all circles. The next best circle must now have a certain distance d from the previous circle before it is removed from the list. This is repeated until the N best circles have been extracted. This procedure increases the likelihood that the searched circle will be in the N best circles if it has been rated poorly.
Eine besonders erfinderische Alternative zur Unterdrückung von Nachbarkreisen stellt ein Verfahren dar, welches nicht den gesamten Suchbereich auswerten muß. Ein entsprechendes Verfahren ist in Figur 3 beschrieben.A particularly inventive alternative to suppressing neighboring circles is a method which does not have to evaluate the entire search area. A corresponding method is described in FIG. 3.
Figur 3 zeigt einen spiralförmigen Pfad, der bei der Bewertung der einzelnen Positionen innerhalb der Suchbox verwendet wird.Figure 3 shows a spiral path that is used in evaluating the individual positions within the search box.
Im Rahmen dieses Verfahrens wird statt der zeilenweisen Auswertung des Suchbereichs ein spiralförmiger Weg beschrieben. Dieser Weg ist in Figur 3 dargestellt. Begonnen wird mit der Suche in der Mitte des Suchbereichs (Suchbox). Ist die Mitte der Suchbox nahe am Auge plaziert, so wird diese Position schon nach wenigen Schritten erreicht. Ist das Auge eher am Rand der Suchbox plaziert, so muß nun trotzdem die gesamte Suchbox untersucht werden. Da aber davon ausgegangen werden kann, daß der Fahrer die meiste Zeit in die gleiche Richtung schaut, ist das Plazieren der Box relativ einfach und das Auge befindet sich meistens in der Mitte der Suchbox. Um bei heftigen Kopfbewegungen trotzdem die Suchbox über dem Auge zu plazieren, müssen jedoch geeignete, nachfolgend beschriebene Algorithmen zur Augenverfolgung benutzt werden, die die Suchbox immer korrekt plazieren.In the context of this method, instead of evaluating the search area line by line, a spiral path is described. This route is shown in Figure 3. The search begins in the middle of the search area (search box). If the center of the search box is placed close to the eye, this position is reached after just a few steps. If the eye is placed at the edge of the search box, the entire search box must still be examined. But since it can be assumed that the driver looks in the same direction most of the time, placing the box is relatively easy and the eye is usually in the middle of the search box. In order to nevertheless place the search box above the eye in the event of violent head movements, suitable algorithms for tracking the eyes described below must always be used, which always place the search box correctly.
Durch den spiralförmigen Weg, der bei der Bewertung der Kreise innerhalb der Suchbox durchgeführt wird, ergeben sich bestimmte Anordnungen der Bewertungen entlang dieses Pfades. Ist ein Bereich mit hohen Bewertungen nicht in der Mitte der Suchbox, sondern etwas verschoben dazu, so wird bei jedem Umlauf der Spirale dieses Bewertung übernommen. Da die Spirale annähernd kreisförmig ist, wiederholt sich dieser Bereich mit der Periode der Spirale. Aus diesen Auswertungen sollen die Maxima extrahiert werden, an denen sich mit hoher Wahrscheinlichkeit Kreise befinden. Mit Maxima sind allerdings dabei nicht die Spitzen der einzelnen Bewertungsmaxima, sondern die Maxima der Einhüllenden aller Bewertungsmaxima über den gesamten bisherigen Umlauf gemeint.The spiral path that is used to evaluate the circles within the search box results in certain arrangements of the ratings along this path. If an area with high ratings is not in the middle of the search box, but somewhat shifted to it, this rating is adopted with each revolution of the spiral. Since the spiral is approximately circular, this area is repeated with the period of the spiral. From these evaluations, the maxima are to be extracted at which circles are highly likely. With However, maxima are not the peaks of the individual valuation maxima, but the maxima of the envelopes of all valuation maxima over the entire previous circulation.
Dazu wurde in erfinderischer Weise ein Algorithmus entworfen, der aus diesen Anordnungen der Bewertungen nur die interessanten Maxima extrahiert. Da die Spirale eine kreisähnliche Struktur besitzt, hat sie dementsprechend eine Periode. Diese Periode kann dazu benutzt werden, die interessanten Maxima zu extrahieren. Zur Verdeutlichung soll nachfolgend von einem Suchbereich (Suchbox) in der Größe von 75 x 45 Bildpunkten ausgegangen werden. Dies entspricht 3375 Punkten. Die einzelnen Spitzen in den Anordnungen besitzen hierbei einen Abstand von ca. 80 bis 120 Punkten. Dieser Abstand müßte sich prinzipiell mit dem Radius der Spirale ändern. Es zeigt sich aber, dass die Stellen mit den Maxima der Bewertungen meist über ein kleines Gebiet ausgedehnt sind. Damit wirkt sich die Periode am Anfang der Spirale bei kleinen Radien nicht sehr aus, so daß eine konstante Periode über den gesamten Bereich angenommen werden kann.For this purpose, an algorithm was designed in an inventive manner, which only extracts the interesting maxima from these arrangements of the evaluations. Since the spiral has a circle-like structure, it has a period accordingly. This period can be used to extract the interesting maxima. For the sake of clarity, a search area (search box) with the size of 75 x 45 pixels is to be assumed below. This corresponds to 3375 points. The individual peaks in the arrangements have a distance of approximately 80 to 120 points. In principle, this distance should change with the radius of the spiral. It turns out, however, that the positions with the maxima of the ratings are usually extended over a small area. This means that the period at the beginning of the spiral does not have much of an impact on small radii, so that a constant period can be assumed over the entire range.
Figur 4 zeigt das Flußdiagramm des Algorithmus zur Maximumssuche entlang eines spiralförmigen Pfades.FIG. 4 shows the flow diagram of the algorithm for maximum search along a spiral path.
Der vorteilhafte, erfindungsgemäße Algorithmus läuft entsprechen Figur 4 in folgenden Schritten ab: Zunächst wird ein Index auf den Beginn der Liste mit allen Bewertungen gesetzt. DieserThe advantageous algorithm according to the invention runs according to FIG. 4 in the following steps: First, an index is placed on the beginning of the list with all evaluations. This
Index wird mit Index bezeichnet und ist zu Anfang mit index = 0 initialisiert. Des weiteren werden zwei Variablen, welche das zuletzt gefundene Maximum lastvalue und das im Moment zu suchende Maximum maxvalue bezeichnen definiert. Mit maxpos wird die Position des zu suchenden Maximums bezeichnet und wird zu Beginn mit maxpos = 0 initialisiert. Die einzelnen Bewertungen sind in val[i] abgelegt, wobei / die Position innerhalb dieser Liste ist. Da eine konstante Periode, d.h. ein konstanter Abstand zwischen den einzelnen Spitzen angenommen werden kann, ist es nur nötig, bis zur nächsten Spitze nach einem neuem Maximum zu suchen. Dazu ist ein Zähler notwendig, welcher mit count bezeichnet wird. Die Entfernung der Spitzen wird in der konstanten Variablen dist festgehalten, welche dem Algorithmus als Parameter übergeben werden muß. Nun wird das nächste Maximum in einer Umgebung von dist Punkten von der momentanen Position index gesucht. Dazu werden alle Werte miteinander verglichen und der höchste Wert in maxvalue gespeichert. Wird ein Wert höher als maxvalue gefunden, so werden erneut von der Position von maxvalue wieder dist Punkte untersucht, bis kein neuer Wert größer als maxvalue erscheint. Ist dieser Punkt erreicht, so wird maxvalue mit lastvalue verglichen. Ist maxvalue größer als lastvalue, so wurde ein Maximum gefunden und es wird in einer Liste mit Maxima abgelegt (störe). Unabhängig von diesem Ausgang, wird nun lastvalue zu maxvalue gesetzt, und die Suche von der Position von maxvalue plus einem Offset offset erneut gestartet. Der Offset soll verhindern, daß Werte die dicht an dem Maximum liegen erneut mit in die Auswertungen einbezogen werden, da der Abfall nach einem Maximum erst nach wenigen Punkte auf einen sehr kleinen Wert zurückgeht. Da aber Hauptmaxima gefunden werden sollen, ist es nötig diese Werte zu überspringen. Der Wert offset muß dem Algorithmus ebenfalls als Parameter übergeben werden. Hat der Zeiger index das Ende der Liste erreicht, so wird der Algorithmus abgebrochen. Durch Einsatz eines Zählers, welche die Anzahl der bisher gefundenen Maxima zählt, kann ebenfalls nach einer bestimmten Zahl von gefundenen Maxima abgebrochen werden. Damit kann wieder die Forderung nach den N besten Kreisen erfüllt werden, nur daß es sich nun um eine andere Sortierreihenfolge der Kreise handelt, von denen die ersten N Kreise ermittelt wurden. Die Parameter dist und offset sind dem Algorithmus zur Konfiguration zur Verfügung zu stellen. Zur Vereinfachung wurde auf das Zählen der bisher gefunden Maxima in Figur 4 verzichtet. Das Ziel dieser Suche des Maximums ist, nicht alle Punkte der Suchbox untersuchen zu müssen, sondern nur einen Teil. Dazu ist es aber notwendig zu wissen, welcher Kreis der gesuchte ist, d.h. eine Iris umschreibt.Index is called index and is initially initialized with index = 0. Furthermore, two variables are defined, which denote the last found maximum value and the maximum value to be found at the moment. Maxpos is the position of the maximum to be searched for and is initially initialized with maxpos = 0. The individual ratings are stored in val [i], with / the position is within this list. Since a constant period, ie a constant distance between the individual peaks can be assumed, it is only necessary to look for a new maximum up to the next peak. This requires a counter, which is called count. The distance of the peaks is recorded in the constant variable dist, which must be passed to the algorithm as a parameter. Now the next maximum is searched in a vicinity of dist points from the current position index. For this purpose, all values are compared with each other and the highest value is saved in maxvalue. If a value higher than maxvalue is found, then again from the position of maxvalue Dist points are examined until no new value larger than maxvalue appears. If this point is reached, maxvalue is compared with lastvalue. If maxvalue is greater than lastvalue, a maximum has been found and it is stored in a list with maxima (disturbance). Regardless of this output, lastvalue is now set to maxvalue and the search is started again from the position of maxvalue plus an offset offset. The offset should prevent values that are close to the maximum from being included again in the evaluations, since the drop after a maximum only returns to a very small value after a few points. However, since main maxima are to be found, it is necessary to skip these values. The offset value must also be passed to the algorithm as a parameter. If the index pointer has reached the end of the list, the algorithm is terminated. By using a counter, which counts the number of maxima found so far, it can also be terminated after a certain number of found maxima. This again fulfills the requirement for the N best circles, only that it is now a different sort order of the circles, from which the first N circles were determined. The parameters dist and offset are to be made available to the algorithm for configuration. To simplify matters, the counting of the maxima found so far in FIG. 4 has been dispensed with. The goal of this search of the maximum is not to have to examine all points of the search box, but only a part. To do this, however, it is necessary to know which circle is the one you are looking for, ie which describes an iris.
Hier kommt ein nachfolgend beschriebener Klassifikator, welcher die Entscheidung - „Auge" oder "nicht Auge" treffen kann, zum Einsatz. Wird während der Ausführung des Algorithmus ein Maximum gefunden, so wird es dem Klassifikator übergeben, anstatt es in der Liste der Maxima zu speichern. Handelt es sich bei dem gefundenen Kreis um die Iris eines Auges, so wird der Algorithmus abgebrochen. Handelt es sich um kein Auge, so muß der nächste Kreis gesucht werden, welcher dann wiederum mit Hilfe des Klassifikators verifiziert wird. Dieser Vorgang wiederholt sich, bis alle Punkte in der Suchbox untersucht wurden. Es ist sehr wohl aber auch denkbar, daß der Klassifikator nicht in einer solchen Wechselwirkung mit der Kreisdetektion arbeitet, sondern nach Detektion aller Kreise diese als Liste übergeben erhält und sodann alle Kreise zugleichA classifier described below is used here, which can make the decision - “eye” or “not eye.” If a maximum is found during the execution of the algorithm, it is passed to the classifier instead of to the list of maxima If the circle found is the iris of one eye, the algorithm is terminated, if it is not an eye, the next circle must be found, which in turn is then verified using the classifier. This process is repeated until all points in the search box have been examined, but it is also conceivable that the classifier does not work in such an interaction with the circle detection, but after detection of all circles is given this as a list and then all circles at the same time
(zeitgleich oder in direkter Abfolge) klassifiziert.(at the same time or in direct succession) classified.
- Die dritte Stufe innerhalb der Augendetektion bildet ein Klassifikator, welcher die- The third stage within eye detection is a classifier, which is the
Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position derResults of the device for circle detection is evaluated and thus the position of the
Augen innerhalb der Bilddaten bestimmt. Es ist bei der Konfiguration des Klassifikators sehr wohl denkbar nicht in nicht nur bezüglich einer Suche nach „Auge vorhanden"-> ja/nein zu konfigurieren; sondern auch eine Klassifikation bezüglich eines geöffneten bzw. geschlossenen Auges vorzunehmen. Dies wiederum erlaubt in erfinderischer Weise eine Funktionalität eines Systems zu generieren, welches für den Fall, daß die Zeitdauer während welcher die Augen einer beobachteten Person geschlossen bleiben, signifikant länger als die Dauer eines Lidschlages fortwährt, einen zur Einschlafwarnung geeigneten Mechanismus auslöst und(oder notwendige Maßnahmen zur Verhinderung von Unfällen ergreift. Dies ist besonders bei der Beobachtung von Fahrzeuglenkern und Bedienpersonal von Maschinen von Vorteil.Eyes determined within the image data. When configuring the classifier, it is very conceivable not only in terms of a search for "eye present"-> to configure yes / no; but also to classify an open or closed eye. This in turn allows, in an inventive manner, to generate a functionality of a system which, in the event that the length of time during which the eyes of an observed person remain closed last significantly longer than the duration of blinking, triggers and (or necessary) a mechanism suitable for warning of falling asleep Take measures to prevent accidents, which is particularly advantageous when observing vehicle drivers and machine operators.
Bezüglich der Art des Klassifikators stellt das erfindungsgemäße Verfahren zur Augendetektion keine besonderen Ansprüche. Im allgemeinen wird ein lernender Klassifikator verwendet, welchem in einer Trainingssequenz typische zu klassifizierende Muster repräsentiert werden (Polynomklassifikator, Neuronale Netze). Entsprechen der Anwendung ist es denkbar den Klassifikationsprozess so auszugestalten, daß jedes der beiden Augen der beobachteten Person individuell klassifiziert wird, oder aber daß ein Klassifikator so ausgelegt wird, daß er die Bilddaten beider Augen gemeinsam klassifiziert. Entsprechend ist das Verfahren zur Augendetektion mit einem gemeinsamen oder zwei individuellen, augen-spezifischen Suchbereichen (Suchboxen) auszugestalten.With regard to the type of classifier, the method for eye detection according to the invention makes no particular claims. In general, a learning classifier is used, which typical patterns to be classified are represented in a training sequence (polynomial classifier, neural networks). According to the application, it is conceivable to design the classification process in such a way that each of the two eyes of the observed person is classified individually, or that a classifier is designed so that it classifies the image data of both eyes together. Accordingly, the method for eye detection should be designed with a common or two individual, eye-specific search areas (search boxes).
Die Blickrichtungserkennung hängt entscheidend von der Detektion der Augen innerhalb der Bilddaten ab, da diese einen großen Teil der Information über die Blickrichtung des Fahrers enthalten. Deshalb ist die Suche nach den Augen ein wichtiger Schritt. Zur Detektion der Augen werden vorzugsweise Suchboxen eingesetzt welche kleiner als das Gesamtbild sind und somit das Auffinden der Augen vereinfachen und erheblich beschleunigen. Im folgenden wird näher auf die Verwendung von Suchboxen eingegangen. Im Anschluß werden erfindungsgemäße Verfahren beschrieben welche die aus der Verwendung von Suchboxen resultierende Nachteile ausgleichen.The direction of view detection depends crucially on the detection of the eyes within the image data, since these contain a large part of the information about the driver's line of sight. That is why the search for the eyes is an important step. For the detection of the eyes, search boxes are preferably used which are smaller than the overall image and thus simplify and considerably speed up the finding of the eyes. The use of search boxes is discussed in more detail below. Methods according to the invention are described below which compensate for the disadvantages resulting from the use of search boxes.
Wie eingangs erwähnt sind die meisten vorveröffentlichten Verfahren zur Blickrichtungsdetektion aufgrund ihrer Laufzeit für die Fahrerbeobachtung nicht einsetzbar. Der Grund liegt unter anderem in der Anzahl der zu verarbeitenden Bildpunkte. Die Bilder der Kamera sind in der PAL Norm aufgenommen worden. Dabei werden immer zwei Halbbilder zu einem Bild zusammengefaßt, so dass sich eine effektive Bildauflösung von horizontal 768 und vertikal 576 Bildpunkten ergibt. Insgesamt müssen demnach 442368 Bildpunkte untersucht werden. Wird das gesamte Bild zur Augendetektion benutzt, so ergibt sich ein weiterer Nachteil: In den Bildern sind viele der Iris ähnliche Objekte enthalten, die ebenfalls von den Algorithmen der Augendetektion durch Kreise beschrieben werden. Dadurch ist die Wahrscheinlichkeit einer Fehlentscheidung durch den Klassifikator wesentlich höher. Aus diesem Grund ist es vorteilhaft, das gesamte Bild in ein oder zwei kleinere Suchbereiche zu unterteilen (zwei Suchbereiche wenn jedes Auge einzeln detektiert und klassifiziert werden soll; ein Suchbereich wenn beide Augen gemeinsam detektiert und klassifiziert werden sollen). Hierzu werden Boxen (Suchboxen) verwendet, die jeweils in der Nähe eines Auge positioniert werden. Die Nachteile der Verwendung von Suchboxen ist dadurch gegeben, dass diese immer in der Nähe der Augen plaziert sein müssen, damit die Algorithmen der Kreisdetektion auch die Iris detektieren können. Ist innerhalb einer Suchbox kein Auge vorhanden, so werden zwar trotzdem Kreise gefunden, diese werden aber vom Klassifikator als "kein Auge vorhanden" klassifiziert.As mentioned at the beginning, most of the previously published methods for detecting the direction of view cannot be used for driver observation because of their running time. One of the reasons for this is the number of pixels to be processed. The images from the camera have been recorded in the PAL standard. Two fields are always combined into one image, so that there is an effective image resolution of 768 horizontally and 576 vertically. A total of 442,368 pixels must therefore be examined. Will the whole If there is an image used for eye detection, there is another disadvantage: The images contain many objects similar to the iris, which are also described by the eye detection algorithms using circles. As a result, the probability of a wrong decision by the classifier is significantly higher. For this reason, it is advantageous to divide the entire image into one or two smaller search areas (two search areas if each eye is to be individually detected and classified; one search area if both eyes are to be detected and classified together). For this, boxes (search boxes) are used, which are each positioned near an eye. The disadvantage of using search boxes is that they must always be placed near the eyes so that the circle detection algorithms can also detect the iris. If there is no eye within a search box, circles are still found, but these are classified by the classifier as "no eye available".
In vorteilhafter Weise wird bei dem erfindungsgemäßen Verfahren das Plazieren der Suchboxen wird mit einer Augenverfolgung realisiert. Vorzugsweise plaziert die Augenverfolgung dabei die Suchboxen nach jedem Bild neu, so dass die Iris innerhalb der Suchbox zu finden ist und die Algorithmen der Augendetektion diese finden können. Ausgangspunkt für die Augenverfolgung ist die zuletzt gefundene Augenposition. Mit Hilfe dieser Position wird nun versucht, die Suchbox im nächsten Bild korrekt zu plazieren. Dazu müssen aber in den Suchboxen die Augen korrekt erkannt werden.In the method according to the invention, the placement of the search boxes is advantageously implemented with eye tracking. Preferably, the eye tracking repositions the search boxes after each image, so that the iris can be found within the search box and the eye detection algorithms can find it. The starting point for eye tracking is the last eye position found. With the help of this position, an attempt is now made to correctly position the search box in the next picture. To do this, the eyes must be correctly recognized in the search boxes.
In einer möglichen Ausführungsform der Augenverfolgung wird bei dem erfindungsgemäßen Verfahren die Augenverfolgung mittels einer linearen Vorhersage der Position der Suchboxen realisiert. Dabei wird davon ausgegangen, dass die Bewegung des Kopfes eine konstante Geschwindigkeit besitzt. Beschleunigungen werden demnach nicht berücksichtigt. Ist die Abtastrate der Bildsequenzen groß genug, so besitzt diese Annahme nur einen kleinen Fehler. Die Position der Suchboxen für das nächste Bild n+1 wird aus den beiden zuletzt gefundenen Positionen der Augen aus dem aktuellen n und letztem n-1 Bild berechnet. Die Augenpositionen werden mit rnj,'1 = {m^[ x, m^y) bezeichnet, wobei mit i das linke oder rechte Auge bezeichnet wird, d.h. i e {links, rechts}. Die Suchboxposition wird mit x(i) beschrieben. Da bei diesem Verfahren zur Augenverfolgung Augen aus mehreren Bildern betrachtet werden, existieren verschiedene Zustandskombinationen der Augen. Die unterschiedlichen Zustände entstehen, wenn die Augen als voneinander abhängig betrachtet werden. Werden beide Augen unabhängig voneinander betrachtete, so reduziert sich der Aufwand auf vier Zustände pro Auge. Hinzukommt, daß die Augen einen bestimmten Augenabstand zueinander besitzen. Wird dies ebenfalls berücksichtigt, so müssen wiederum alle sechzehn Zustände betrachtet werden, da sich die Augen zueinander orientieren und dadurch die einzelnen Zustände ebenfalls berücksichtigt werden müßten. Nachteil einer starren Kopplung beider Augen ist, daß teilweise dann keine Augen gefunden werden, wenn der Kopf sehr zu einer Seite zeigt. In diesem Fall wird ein Auge von der Nase verdeckt und kann nicht detektiert werden. Sind beide Suchboxen mit einander gekoppelt, d.h. die Suchboxen orientieren sich zueinander, so wird bei weiterer Drehung des Kopfes eine der Suchboxen aus dem Kopfbereich hinausgeschoben und befindet sich nach zurückdrehen weiterhin außerhalb des Kopfbereiches. Aus diesem Grund ist es denkbar und sinnvoll die Augen nicht starr zu koppeln, sondern ebenfalls getrennt zu betrachten. Das Problem der Augenverfolgung ist, dass die Kopfbewegung von einem dreidimensionalen Raum in einen zweidimensionalen Darstellungsraum abgebildet wird. Damit ändert sich der Abstand der Augen je nach Drehung des Kopfes auf dem Bild.In one possible embodiment of eye tracking, eye tracking is implemented in the method according to the invention by means of a linear prediction of the position of the search boxes. It is assumed that the movement of the head has a constant speed. Accelerations are therefore not taken into account. If the sampling rate of the image sequences is large enough, this assumption has only a small error. The position of the search boxes for the next image n + 1 is calculated from the last two positions of the eyes found from the current n and last n-1 image. The eye positions are denoted by rnj, ' 1 = {m ^ [ x , m ^ y ), with i denoting the left or right eye, ie ie {left, right}. The search box position is described with x (i). Since eyes are viewed from several images in this eye tracking method, there are different combinations of states of the eyes. The different states arise when the eyes are viewed as interdependent. If both eyes are viewed independently of one another, the effort is reduced to four states per eye. In addition, the eyes have a certain distance between them. If this is also taken into account, then again all sixteen states must be considered, since the eyes are oriented towards each other and the individual states would also have to be taken into account. The disadvantage of a rigid coupling of both eyes is that sometimes no eyes are found when the head is very much to one side. In this case, one eye is covered by the nose and cannot be detected. If both search boxes are coupled to each other, ie the search boxes are oriented towards each other, then when the head is turned further, one of the search boxes is pushed out of the head area and is still outside the head area after turning back. For this reason, it is conceivable and sensible not to couple the eyes rigidly, but also to look at them separately. The problem with eye tracking is that the head movement is mapped from a three-dimensional space into a two-dimensional display space. The distance between the eyes changes depending on the rotation of the head in the picture.
Die lineare Schätzung der Suchboxposition ist nur dann gültig, wenn die Geschwindigkeit der Augen konstant ist. Bei plötzlichem Richtungswechsel kann die Annahme der konstanten Geschwindigkeit nicht mehr eingehalten werden. Weitere Probleme ergeben sich, wenn keine Augen gefunden wurden. Dies ist besonders dann der Fall, wenn geschlossene Augen im Bild enthalten sind, da diese nicht direkt detektiert werden können.The linear estimate of the search box position is only valid if the speed of the eyes is constant. In the event of a sudden change of direction, the assumption of constant speed can no longer be met. Further problems arise if no eyes are found. This is particularly the case if closed eyes are included in the image, since they cannot be detected directly.
Um diese Probleme zu minimieren, bietet es sich in vorteilhafter Weise an entsprechende Erweiterungen der linearen Augenverfolgung zu implementieren. Eine Möglichkeit ist die bereits erwähnte Koppelung der Augen. Wird in einer der Suchboxen kein Auge gefunden, dann kann die Position der Suchbox, in der ein Auge gefunden wurde, im nächsten Bild mit dem obigen Verfahren gut geschätzt werden. Die andere Suchbox, in der kein Auge detektiert wurde, wird nun relativ, entsprechend der alten relativen Position im vorherigen Bild, zu der Suchbox mit dem detektierten Auge plaziert. Eine weitere denkbare Möglichkeit der Ausgestaltung des erfindungsgemäßen Verfahrens ist Einbeziehung bestimmter Randbedingungen für die Positionen der Suchboxen. Damit können den Suchboxen bestimmte Bereiche zugeordnet werden, innerhalb welcher sie relativ zueinander plaziert werden können. Es ist z.B. sehr unwahrscheinlich, dass beide Augen des Fahrers übereinander liegen. Eine besonders vorteilhafte Ausgestaltung der Augenverfolgung ist durch die Nutzbarmachung des Optischen Flusses gegeben, wodurch die Kopfbewegung aus den Bildsequenzen geschätzt werden kann und somit die Augenverfolgung auch dann korrekt durchführbar ist, wenn keine Augen gefunden wurden. Beim optischen Fluß handelt es sich um ein Verfahren, um aus zwei aufeinanderfolgenden Bildern die Verschiebung zweier ähnlicher Bildstrukturen zu finden. Mit dieser Verschiebung ist es möglich, die Bewegung einer Bildstruktur von einem zum nächsten Bild zu ermitteln. Mit Hilfe des optischen Flusses ist es nun möglich, eine einfache Augenverfolgung aufzubauen. Der optische Fluß alleine ist nicht genau genug, um die Suchboxen zu plazieren. Er kann aber dafür benutzt werden, die nächste Position der Suchboxen zu schätzen. Für die Beschreibung des Algorithmus ist es sinnvoll, den optischen Verschiebungsvektor h(n, π+1) zu definieren. Er bezeichnet den optischen Fluß, der aus den Bildern n und /7+1 berechnet wurde. Es gelten die gleichen Bezeichnungen, wie sie schon bei der linearen Schätzung der Suchboxposition verwendet wurden, d.h. die Suchboxpositionen werden wieder mit Xn' bezeichnet. Für die Position eines detektierten Auges wird ebenfalls wieder die Bezeichnung m1 benutzt. Bei diesemIn order to minimize these problems, it is advantageous to implement corresponding extensions of the linear eye tracking. One possibility is the coupling of the eyes already mentioned. If no eye is found in one of the search boxes, the position of the search box in which an eye was found can be estimated well in the next image using the above procedure. The other search box in which no eye was detected is now placed relative to the search box with the detected eye, corresponding to the old relative position in the previous image. Another conceivable possibility of designing the method according to the invention is to include certain boundary conditions for the positions of the search boxes. This allows the search boxes to be assigned certain areas within which they can be placed relative to each other. For example, it is very unlikely that the driver's eyes will be over one another. A particularly advantageous embodiment of the eye tracking is provided by the utilization of the optical flow, whereby the head movement can be estimated from the image sequences and the eye tracking can therefore be carried out correctly even if no eyes were found. Optical flow is a process for finding the displacement of two similar image structures from two successive images. With this shift it is possible to determine the movement of an image structure from one image to the next. With the help of the optical flow, it is now possible to set up simple eye tracking. The optical flow alone is not accurate enough to place the search boxes. However, it can be used to estimate the next position of the search boxes. For the description of the algorithm it makes sense to define the optical displacement vector h (n, π + 1). It denotes the optical flow calculated from images n and / 7 + 1. The same designations apply as have already been used in the linear estimation of the search box position, ie the search box positions are again designated with X n '. The designation m 1 is again used for the position of a detected eye. With this
Verfahren werden ebenfalls beide Suchboxen unabhängig voneinander betrachtet. Daraus ergeben sich für jede Suchbox nur zwei Fälle, die berücksichtigt werden müssen: - Fall 1 : In der Suchbox i wurde ein Auge gefunden.Both search boxes are also considered independently of one another. This means that there are only two cases for each search box that must be taken into account: - Case 1: An eye was found in search box i.
In diesem Fall kann die Suchboxen direkt über das Augen mit der Positionen m' plaziert werden. Um eine Bewegung des Kopfes mit zu berücksichtigen, wird der Verschiebungsvektor des optischen Flusses ebenfalls zu den neuen Koordinaten addiert. Es ergibt sich für die neue Suchboxposition Xπ'^ : X^ = m' +h(n,n +l) GI.10In this case, the search boxes can be placed directly over the eyes with the positions m '. To take into account movement of the head, the displacement vector of the optical flow is also added to the new coordinates. For the new search box position, the result is X π '^: X ^ = m' + h (n, n + l) GI.10
Entscheidend bei der Plazierung der Suchboxen ist, dass der optische Verschiebungsvektor aus dem aktuellen Bild und dem nächsten Bild zu berechnen ist. Damit kann die Suchbox schon für das nächste Bild möglichst optimal gesetzt werden - Fall 2: In der Suchbox i wurde kein Auge gefunden.It is crucial when placing the search boxes that the optical displacement vector is to be calculated from the current image and the next image. This enables the search box to be set as optimally as possible for the next image - Case 2: No eye was found in search box i.
In diesem Fall konnte bei der linearen keine Schätzung der nächsten Position vor- genommen werden. Da aber die Bewegung des Kopfes mit Hilfe des optischen Flusses ermittelt wurde, kann bei diesem Verfahren trotzdem eine unter Umständen hinreichend genaue Schätzung der Suchboxposition in Bild n + 1 vorgenommen werden. Es wird hierbei nur der optischeIn this case the next position could not be estimated for the linear one. However, since the movement of the head was determined with the aid of the optical flow, one can still use this method Under certain circumstances, the search box position in picture n + 1 can be estimated with sufficient accuracy. It will only be the optical one
Verschiebungsvektor h (n, n + 1) benutzt, d.h.:
Figure imgf000021_0001
In gewinnbringender Weise wird bei der Durchführung des erfindungsgemäßen Verfahrens die Suchboxposition zu Beginn automatisch mittels eines Algorithmus auf Grundlage des Hyperpermutations-Netzwerkes HPN (Mandler, Oberlönder [19]) initialisiert. Bei einem HPN wird versucht aus der Verschiedenheit von Daten, die Redundanz und die Information zu trennen. In jedem Bild ist, abhängig vom erwünschten Ergebnis, viel Redundanz enthalten. Beispielsweise ist bei der Augendetektion nur die Information „an der Stelle (x, y) ist ein Auge" von Interesse. Dies ist nur ein Bruchteil der Information die das gesamte Bild enthält. Dazu wird das HPN ähnlich wie Neuronale Netzwerke aufgebaut, nur dass deren Knoten bzw. Neuronen eine andere Beschaffenheit besitzen. Beim HPN besitzen diese Knoten die gleiche Anzahl an Ein- und Ausgängen. Des weiteren entspricht eine Leitung genau einer Informationseinheit (Bit). Die Eingänge werden durch Permutationen auf den Ausgang abgebildet, wobei diese Abbildung umkehrbar ist. Durch das Zusammenschalten mehrerer Knoten ist es nun möglich, das Problem der Augendetektion zu lösen. Das HPN erstellt nach Eingabe eines Bildes eine Wahrscheinlichkeitsverteilung der Augen im Bild. Es existieren dabei mehrere Stufen.
Displacement vector h (n, n + 1) used, ie:
Figure imgf000021_0001
In a profitable manner, when performing the method according to the invention, the search box position is automatically initialized at the beginning by means of an algorithm based on the hyperpermutation network HPN (Mandler, Oberlönder [19]). An HPN tries to separate the redundancy and the information from the diversity of data. Depending on the desired result, there is a lot of redundancy in each picture. For example, in the case of eye detection, only the information “at the location (x, y) is an eye” is of interest. This is only a fraction of the information that the entire image contains. For this purpose, the HPN is constructed similarly to neural networks, only that of them Nodes or neurons have a different structure. With the HPN, these nodes have the same number of inputs and outputs. Furthermore, a line corresponds to exactly one information unit (bit). The inputs are mapped to the output by permutations, this mapping being reversible By interconnecting several nodes, it is now possible to solve the problem of eye detection. After entering an image, the HPN creates a probability distribution of the eyes in the image. There are several levels.
An der höchsten Stufe ist die Wahrscheinlichkeit an dieser Stelle ein Auge zu finden am höchsten. In der Praxis entspricht dies einer Art „Wahrscheinlichkeitswolken" um den Augenbereich. Werden von der höchsten Stufe Umrandungsboxen ermittelt, so können diese als Positionen für die Suchboxen verwendet werden. In einer alternativen Ausführungsform des erfindungsgemäßen Verfahrens ist es denkbar Kaiman-Filter für die Aufgabe der Initialisierung der Position der Suchboxen anzupassen. Hierdurch kann sodann die Augenverfolgung dynamischer gestaltet werden, d.h. die Stellung der Augen zueinander und die Suchboxgröße adaptiv gehandhabt werden. Bei diesem Verfahren muss ein komplettes Modell der Kopfbewegung entwickelt werden, das die Bewegung des Kopfes im dreidimensionalenAt the highest level, the probability of finding an eye at this point is the highest. In practice, this corresponds to a kind of "probability clouds" around the eye area. If border boxes are determined by the highest level, these can be used as positions for the search boxes. In an alternative embodiment of the method according to the invention, it is conceivable for the Cayman filter to be used for the task Adjust the initialization of the position of the search boxes so that the eye tracking can be made more dynamic, ie the position of the eyes relative to each other and the search box size can be handled adaptively.This procedure requires the development of a complete model of the head movement, which shows the movement of the head in three dimensions
Raum und die Abbildungseigenschaften der Kamera berücksichtigt. Ein solches Verfahren arbeitet hierbei mit statistischen Methoden, mit denen ebenfalls eine dynamische Anpassung der Suchboxgröße möglich ist. Ebenfalls ist es denkbar die Initialisierung der Suchboxen durch das allgemein bekannte Verfahren des Template Matching vorzunehmen.Space and the imaging properties of the camera are taken into account. Such a method works with statistical methods, with which a dynamic adjustment of the search box size is also possible. It is also conceivable to initialize the search boxes using the generally known method of template matching.
Die oben beschriebene erfindungsgemäße Vorrichtung zur Detektion von Augen in Bilddaten und das zu dessen Betrieb geeignete Verfahren sind besonders vorteilhaft als Kernelement im erfindungsgemäßen System zur Blickrichtungsdetektion zu verwenden. Darüber hinaus ist es jedoch auch möglich diese Vorrichtung und das Verfahren als generelle Elemente in verschiedenartigsten Anwendungen in denen Augen in Bilddaten zu erkennen sind anzuwenden. So zum Beispiel auch bei Verfahren zur Identifikation von Personen durch die Erkennung der Struktur der Augeniris, bei welcher die Blickrichtung der zu identifizierenden Person durch das System bereits vorgegeben wird.The device according to the invention for the detection of eyes in image data described above and the method suitable for its operation can be used particularly advantageously as a core element in the system according to the invention for detecting the direction of view. In addition, however, it is also possible to use this device and the method as general elements in a wide variety of applications in which eyes can be recognized in image data. For example, also in the case of methods for identifying people by recognizing the structure of the eye iris, in which the viewing direction of the person to be identified is already predetermined by the system.
Der Vorrichtung zur Detektion der Augen nachgeschaltet, findet sich innerhalb des Systems zur Blickrichtungsdetektion die eigentliche Vorrichtung zur Bestimmung der Blickrichtung. Das erfindungsgemäße zum Betrieb der Vorrichtung zur Bestimmung der Blickrichtung geeignete Verfahren erlaubt es im Gegensatz zu den aus dem Stand der Technik bekannten Verfahren die Blickrichtung einer beobachteten Person auch dann zu ermitteln, wenn nicht mehr beide Augen sichtbar sind. Das Verfahren reicht sogar soweit, daß eine grobe Schätzung der Blickrichtung bereits ohne Augenerkennung möglich wird. Hierzu greift das erfindungsgemäße Verfahren auf die Bildinformation, welche von der Nase der beobachteten Person geliefert wird zurück. In vorteilhafter Weise wird die Position der Nase durch die Suche nach den Nasenlöchern mittels eines polaren Kantendetektors, entsprechend dem zur Anwendung bei der Augendetektion beschriebenen, detektiert. Der Vorteil gegenüber der Suche nach der Iris der Augen liegt in dem gute Kontrast zwischen Nasenlöchern und Umgebung gegeben, so dass der Umstand, dass Nasenlöcher nicht Kreisförmig sind relativ unwichtig wird. Die Verfolgung der Nasenlöcher wird, sodann entsprechend der oben beschriebenen Augenverfolgung vorgenommen (beispielsweise Optischer Fluß oder Kaiman-Filter). Auf Grundlage der Position der erkannten Nasenlöcher wird aus dem Bild der beobachteten Person ein Datenbereich ausgewählt, welcher basierend auf Erfahrungswerte groß genug gewählt wird damit das Bild der gesamten Nase im Datenbereich enthalten ist. Als Richtwert kann ein erkanntes Nasenloch, bzw. das arithmetische Mittel aus den beiden Positionen zweier Nasenlöcher als Zentrum für den Datenbereich liegen. Es ist aber auch denkbar den Datenbereich so zu wählen daß die Positionen der Nasenlöcher bzw. des Nasenlochs im unteren Bereich zu liegen kommt.Downstream of the device for detecting the eyes, the actual device for determining the viewing direction can be found within the system for detecting the viewing direction. In contrast to the methods known from the prior art, the method according to the invention which is suitable for operating the device for determining the viewing direction allows the viewing direction of an observed person to be determined even when both eyes are no longer visible. The method even goes so far that a rough estimate of the viewing direction is already possible without eye detection. For this purpose, the method according to the invention makes use of the image information which is supplied by the nose of the person being observed. The position of the nose is advantageously detected by searching for the nostrils using a polar edge detector, corresponding to that described for use in eye detection. The advantage over finding the iris of the eyes is the good contrast between the nostrils and the surrounding area, so that the fact that nostrils are not circular is relatively unimportant. The nostrils are then tracked according to the eye tracking described above (e.g. optical flow or caiman filter). On the basis of the position of the recognized nostrils, a data area is selected from the image of the observed person, which is selected based on empirical values large enough so that the image of the entire nose is contained in the data area. A recognized nostril or the arithmetic mean of the two positions of two nostrils can be used as a guideline value as the center for the data area. It is but also conceivable to choose the data area so that the positions of the nostrils or the nostril come to lie in the lower area.
Zur Erkennung der Blickrichtung wird nun in einem ersten Ansatz sowohl das Abbild der Nase als auch das der Augen klassifiziert. Sind keine Bilder der Augen vorhanden, so kann bereits durch die Ausrichtung der Nase grob die Blickrichtung geschätzt werden. Kann zudem die Blickrichtung der Augen korrekt klassifiziert werden, so ist aus der Kombination der Blickrichtung der Augen und der Ausrichtung der Nase in Bezug auf die Kameraposition die Blickrichtung der beobachteten Person schätzbar.In order to recognize the viewing direction, both the image of the nose and that of the eyes are classified in a first approach. If there are no images of the eyes, the direction of the gaze can be roughly estimated by aligning the nose. If the viewing direction of the eyes can also be classified correctly, the viewing direction of the observed person can be estimated from the combination of the viewing direction of the eyes and the alignment of the nose in relation to the camera position.
Hierzu ist es denkbar einen gesonderten Klassifikator zu Klassifikation der Nasenausrichtung und einen gesonderten Klassifikator zur Klassifikation der Blickrichtung der Augen zu verwenden. In vorteilhafter Weise ist es jedoch auch denkbar die Bilddaten der Augen und der Nase zu einem zu kombinieren und diese gemeinsam einem geeignet trainierten Klassifikator zur Bestimmung der Blickrichtung zur Verfügung zu stellen. Die oben beschriebene erfindungsgemäße Vorrichtung zur Bestimmung der Blickrichtung und das zu dessen Betrieb geeignete Verfahren sind besonders vorteilhaft als Kernelement im erfindungsgemäßen System zur Blickrichtungsdetektion zu verwenden. Darüber hinaus ist es jedoch auch möglich diese Vorrichtung und das Verfahren als generelle Elemente in verschiedenartigsten Anwendungen in denen die Blickrichtung beobachteter Personen aus Bilddaten erkannt werden soll anzuwenden.For this purpose, it is conceivable to use a separate classifier for classifying the nose alignment and a separate classifier for classifying the direction of the eyes. In an advantageous manner, however, it is also conceivable to combine the image data of the eyes and nose and to make them available together to a suitably trained classifier for determining the viewing direction. The device according to the invention for determining the viewing direction described above and the method suitable for its operation can be used particularly advantageously as a core element in the system for detecting the viewing direction according to the invention. In addition, however, it is also possible to use this device and the method as general elements in a wide variety of applications in which the viewing direction of observed people is to be recognized from image data.
Literaturverzeichnisbibliography
[1] K.F. Arrington, Arrington Research, November 1997, www.arringtonresearch.com/viewPoint.html [3] S.Baluja, D.Pomerieau, Non-Intrusive Gaze Tracking Using Artificial Neural Netwoorks, Technical Report CMU-CS-94-102, Carnegie Mellon University, 1994[1] K.F. Arrington, Arrington Research, November 1997, www.arringtonresearch.com/viewPoint.html [3] S.Baluja, D.Pomerieau, Non-Intrusive Gaze Tracking Using Artificial Neural Netwoorks, Technical Report CMU-CS-94-102, Carnegie Mellon University, 1994
[6] A.Gee, R. Cipolla, Non-intrusive Gaze Tracking for Human-Computer lnteraction, Proceedings on Mechatronics and Machine Vision in Practice, pp.1 12-1 17, Toowoomba, Australia 1994 [7] G.Chow, X. Li, Towards a System for Automatic Facial Feature Detection, Pattern Recognition Vol. 26, No. 12, pp.1739-1755, 1993 [8] Y. Ebiswana, Unconstrained Pupil Detection Technique using Two Light Sources and the Image Difference Mathod, Visualization and intelligent Design in Engineering and Architecture II / ed. by S.Hemandez. - Southhampton: Computational Mechanical Publications, 1995 [9] G.J.Edwards, A.Lanitis, C.J.Taylor, T.F.Cootes, Statistical Models of Face Images- Improving Specificity, Image and Vision Computing 16, 1998, pp.203-21 1[6] A.Gee, R. Cipolla, Non-intrusive Gaze Tracking for Human-Computer Interaction, Proceedings on Mechatronics and Machine Vision in Practice, pp.1 12-1 17, Toowoomba, Australia 1994 [7] G.Chow, X. Li, Towards a System for Automatic Facial Feature Detection, Pattern Recognition Vol. 26, No. 12, pp.1739-1755, 1993 [8] Y. Ebiswana, Unconstrained Pupil Detection Technique using Two Light Sources and the Image Difference Mathod, Visualization and intelligent Design in Engineering and Architecture II / ed. By S.Hemandez. - Southhampton: Computational Mechanical Publications, 1995 [9] GJEdwards, A.Lanitis, CJTaylor, TFCootes, Statistical Models of Face Images- Improving Specificity, Image and Vision Computing 16, 1998, pp.203-21 1
[16] K.-M. Lam, H. Yan, Locating and Extracting the Eye in Human Face Images, Pattern Recognition, Vol.29, No. 5, pp. 771-779, 1996[16] K.-M. Lam, H. Yan, Locating and Extracting the Eye in Human Face Images, Pattern Recognition, Vol. 29, No. 5, pp. 771-779, 1996
[17] C.Motrimoto, D. Koons, A. Amir, M. Flicker, Pupil Detection and Tracking Using Multiple Light Sources, Image and Vision Computing, Vol.18, No.4, March 2000, Eisevier, Netherlands[17] C.Motrimoto, D. Koons, A. Amir, M. Flicker, Pupil Detection and Tracking Using Multiple Light Sources, Image and Vision Computing, Vol.18, No.4, March 2000, Eisevier, Netherlands
[19] M.Oberländer, Hyperpermutation Networks - A Discrete Approach to Machine Perception, 3rd Workshop on Weightless Neural Networks, York, 30th March 1999[19] M. Oberländer, Hyperpermutation Networks - A Discrete Approach to Machine Perception, 3rd Workshop on Weightless Neural Networks, York, 30th March 1999
[20] OH. Morimoto, Real-Time Multiple Face Detection Using Active Illumination, Proceedings of the fourth international Conference on automatic Face and Gesture Recognition, 28-30 March 2000,Grenoble, France[20] OH. Morimoto, Real-Time Multiple Face Detection Using Active Illumination, Proceedings of the fourth international Conference on automatic Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[26] R.Stiefelhagen, J.Yang, A.Waibel, Tracking Eyes and Monitoring Eye Gaze, Proceedings of Perceptual User Interfaces (PUI'97) Banff, Alberta, Canada 1997 (werner.ira.uka.de/ISL.publications.html) [28] Y.-L.Tian, T.Kanade, J.F.Cohn, Dual State Parametric Eye Tracking, Proceedings of the 4th International Conference on Automatix Face and Gesture Recognition, 28-30 March 2000, Grenoble, France[26] R.Stiefelhagen, J.Yang, A.Waibel, Tracking Eyes and Monitoring Eye Gaze, Proceedings of Perceptual User Interfaces (PUI'97) Banff, Alberta, Canada 1997 (werner.ira.uka.de/ISL.publications .html) [28] Y.-L.Tian, T.Kanade, JFCohn, Dual State Parametric Eye Tracking, Proceedings of the 4th International Conference on Automatix Face and Gesture Recognition, 28-30 March 2000, Grenoble, France
[30] L.-O.Xu, D.Machin, P.Sheppard, A Novel Approach to Real-tine Non-intrusive Gaze Finding, Proceedings of the British Vision Conference, University Southhampton, 14-17 September 1998[30] L.-O.Xu, D.Machin, P.Sheppard, A Novel Approach to Real-tine Non-intrusive Gaze Finding, Proceedings of the British Vision Conference, University Southhampton, September 14-17, 1998
[31] X.Xie, R.Sudhakar, H.Zhuang, On Improving Eye Feature Extraction Using Deformable Templates, Pattern Recognition, Vol.27, No.6, pp.791-799, 1994[31] X.Xie, R.Sudhakar, H.Zhuang, On Improving Eye Feature Extraction Using Deformable Templates, Pattern Recognition, Vol.27, No.6, pp.791-799, 1994
[33] M.Zobel, A.Gebhard, D.Paulus, J.Denzler, H. Niemann, Robust Facial Feature Localizati- onby Coupled Features, Proceedings of the fourth International Conference on Automatic Face and Gesture Recognition, 28-30 March 2000,[33] M.Zobel, A. Gebhard, D. Paulus, J. Denzler, H. Niemann, Robust Facial Feature Localization Coupled Features, Proceedings of the fourth International Conference on Automatic Face and Gesture Recognition, 28-30 March 2000 .
Grenoble, France Grenoble, France

Claims

Patentansprüche claims
I. System zur Blickrichtungsdetektion einer beobachteten Person aus Bilddaten, bestehend aus einer Vorrichtung zur Detektion der Augen und einer nachgeschalteten Einheit zur Bestimmung der Blickrichtung der beobachteten Person, dadurch gekennzeichnet, daß die Vorrichtung zur Detektion der Augen eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt, und daß die Vorrichtung zur Bestimmung der Blickrichtung Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist. I. System for detecting the direction of view of an observed person from image data, consisting of a device for detecting the eyes and a downstream unit for determining the direction of view of the observed person, characterized in that the device for detecting the eyes contains a unit for adapting the radii to which a device for circle detection is connected, which is followed by a classifier which evaluates the results of the device for circle detection and thus determines the position of the eyes within the image data, and that the device for determining the viewing direction devices for segmenting the image data associated with the eyes and nose contains which is followed by a common classifier.
2. Vorrichtung zur Detektion von Augen, dadurch gekennzeichnet, dass die Vorrichtung eine Einheit zur Radienanpassung enthält, an welche sich eine Vorrichtung zur Kreisdetektion anschließt, der ein Klassifikator nachgeordnet ist, welcher die Ergebnisse der Vorrichtung zur Kreisdetektion auswertet und somit die Position der Augen innerhalb der Bilddaten bestimmt.2. Device for the detection of eyes, characterized in that the device contains a unit for radius adjustment, which is followed by a device for circle detection, which is followed by a classifier, which evaluates the results of the device for circle detection and thus the position of the eyes within the image data determined.
3. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass im Rahmen der Radienanpassung, der Bereich in welcher die Vorrichtung zur Kreisdetektion nach Kreisen suchen auf einen minimalen Bereich rm/n und einen maximalen Bereich rmax beschränkt wird.3. Method for operating a device according to claim 2, characterized in that within the scope of the radius adjustment, the area in which the device for circle detection searches for circles is limited to a minimum area r m / n and a maximum area r max .
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Beschränkung des Bereichs von Bild zu Bild adaptiv angepaßt wird, wobei als Referenzwert der Radius rdes Kreises benutzt, welcher eine im Bild zuvor detektierte Iris umschreibt, und auf dieser Grundlage die neuen Werte von rm;n und rmax auf wenige Bildpixel (Bildauflösungen) weniger beziehungsweise mehr als r festgelegt werden, wobei die Werte von rm/n und rmax gewisse absolute Grenzen nicht unter- bzw. überschreiten dürfen.4. The method according to claim 3, characterized in that the limitation of the area from image to image is adapted adaptively, using as the reference value the radius r of the circle which circumscribes an iris previously detected in the image, and on this basis the new values of r m ; n and r max are set to a few image pixels (image resolutions) less or more than r, the values of r m / n and r max not being allowed to fall below or exceed certain absolute limits.
5. Verfahren nach einem der Ansprüche Anspruch 3 bis 4, dadurch gekennzeichnet, dass in einem Bild kein Auge detektiert wurde, für die Auswertung des nachfolgenden Bildes die Werte von rm\n und rmax unverändert herangezogen werden.5. The method according to any one of claims 3 to 4, characterized in that no eye was detected in an image, the values of r m \ n and r max are used unchanged for the evaluation of the subsequent image.
6. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass die Vorrichtung zur Kreisdetektion auf Grundlage eines kantenorientierten Detektionsverfahrens, insbesondere der Hough-Transformation arbeitet.6. The method for operating a device according to claim 2, characterized in that the device for circle detection works on the basis of an edge-oriented detection method, in particular the Hough transformation.
7. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass die Vorrichtung zur Kreisdetektion auf Grundlage eines Verfahrens der polaren Kantendetektion arbeitet.7. The method for operating a device according to claim 2, characterized in that the device for circle detection works on the basis of a method of polar edge detection.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Vorrichtung zur Kreisdetektion, nicht nur Kreise sondern auch andere, beliebig vordefinierbare Bahnen detektieren kann. 8. The method according to claim 7, characterized in that the device for circle detection can detect not only circles but also other, arbitrarily predefined orbits.
9. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass der der Vorrichtung zur Kreisdetektion nachgeordnete Klassifikator auf Grundlage der ihm gelieferten Daten selektierte Bildbereiche klassifiziert um festzustellen, ob es sich bei diesen Bereichen um die Abbildung eines Auges handelt.9. The method for operating a device according to claim 2, characterized in that the device downstream of the circuit detection Classifier classifies selected image areas on the basis of the data supplied to it in order to determine whether these areas are the images of an eye.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Klassifikator in einem Schritt eine komplette Liste aller innerhalb einer Suchbox durch die Vorrichtung zur Kreisdetektion selektieren Bereiche klassifiziert.10. The method according to claim 9, characterized in that the classifier classifies a complete list of all areas selected within a search box by the device for circle detection in one step.
1 1. Verfahren nach einem der Ansprüche 6 bis 9, dadurch gekennzeichnet, dass der Klassifikator synchron, im Wechsel mit der Vorrichtung zur Kreisdetektion arbeitet, dass nach jeder einzelnen erfolgreicher Kreisdetektion eine Klassifikation des so selektierten Bereiches zur Feststellung ob es sich hierbei um die Abbildung eines Auges handelt durchgeführt wird, und dass eines der Abbruchkriterien dieses Prozesses der Kreisdetektion ein durch den Klassifikator erkanntes Auge dient.1 1. The method according to any one of claims 6 to 9, characterized in that the classifier works synchronously, alternating with the device for circle detection, that after each individual successful circle detection, a classification of the area selected in this way to determine whether this is the image an eye is performed, and that one of the termination criteria of this process of circle detection is an eye recognized by the classifier.
12. Verfahren nach einem der Ansprüche Anspruch 3 bis 1 1, dadurch gekennzeichnet, dass der Klassifikator in der Lage ist, zu erkennen ob ein Auge geschlossen oder geöffnet ist.12. The method according to any one of claims 3 to 1 1, characterized in that the classifier is able to recognize whether an eye is closed or open.
13. Verfahren nach einem der Ansprüche Anspruch 3 bis 12, dadurch gekennzeichnet, dass für den Fall, dass der Klassifikator für eine Zeitdauer, welche signifikant länger als die Dauer eines Lidschiages fortwährt, einen zur Einschlafwarnung geeigneten Mechanismus auslöst und/oder notwendige Maßnahmen zur Verhinderung von Unfällen ergreift.13. The method according to any one of claims 3 to 12, characterized in that in the event that the classifier triggers a mechanism suitable for warning of falling asleep and / or necessary measures for prevention for a period of time which lasts significantly longer than the duration of an eyeshadow of accidents.
14. Verfahren nach einem der Ansprüche Anspruch 3 bis 13, dadurch gekennzeichnet, dass der Bereich, in welchem die Vorrichtung zur Detektion von Augen im Bild sucht, durch eine sogenannte Suchboxen eingeschränkt wird, welche gleich oder kleiner als der gesamte Bildbereich ist.14. The method according to any one of claims 3 to 13, characterized in that the area in which the device for detecting eyes in the image searches is limited by a so-called search boxes, which is equal to or smaller than the entire image area.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Suchboxen zu Beginn des Verfahrens mit Hilfe eines pixel-orientierten Klassifikators initialisiert werden.15. The method according to claim 14, characterized in that the search boxes are initialized at the beginning of the method with the aid of a pixel-oriented classifier.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass der pixel-orientierte Klassifikator ein Hyperpermutationsnetzwerke ist. 16. The method according to claim 15, characterized in that the pixel-oriented classifier is a hyperpermutation network.
17. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Suchboxen zu Beginn des Verfahrens mit Hilfe von Template-Matching initialisiert werden.17. The method according to claim 14, characterized in that the search boxes are initialized at the beginning of the method with the aid of template matching.
18. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass von Bild zu Bild zur Schätzung der Positionsveränderungen der Suchboxen ein Verfahren auf18. The method according to any one of claims 14 to 17, characterized in that a method from image to image for estimating the changes in position of the search boxes
Basis des optischen Flusses angewandt wird.Base of the optical flow is applied.
19. Verfahren nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, dass von Bild zu Bild zur Schätzung der Positionsveränderungen der Suchboxen ein auf dieses Problem angepasster Kaiman-Filter angewandt wird. 19. The method according to any one of claims 14 to 17, characterized in that a Cayman filter adapted to this problem is used from picture to picture to estimate the position changes of the search boxes.
20. Verfahren nach einem der Ansprüche 14 bis 19, dadurch gekennzeichnet, dass bei der Suche nach Kreisen innerhalb einer Suchbox in der Mitte der Suchbox begonnen wird und die weitere Ausdehnung des Suchbereichs von dort ausgehend einen spiralförmigen Weg beschreibt.20. The method according to any one of claims 14 to 19, characterized in that the search for circles within a search box begins in the middle of the search box and the further expansion of the search area describes a spiral path from there.
21. Vorrichtung zur Kreisdetektion dadurch gekennzeichnet, dass die Vorrichtung auf der Basis eines polaren kanten-orientierten Algorithmus realisiert ist, welcher nicht nur Kreise sondern auch andere, beliebig vordefinierbare Bahnen detektieren kann. 21. Device for circle detection, characterized in that the device is implemented on the basis of a polar edge-oriented algorithm which can detect not only circles but also other, arbitrarily predefined orbits.
22. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 21, dadurch gekennzeichnet, dass zur Berücksichtigung der Verdeckung der Iris durch die Augenlider, zwei Winkel a und ß definiert werden, welche die Öffnungswinkel beziehungsweise die Abschnitte der die Iris umschreibenden Kreisbahn, welche nicht in die Kreisdetektion einbezogen werden, festlegen. 22. A method of operating a device according to claim 21, characterized in that in order to take account of the occlusion of the iris through the eyelids, two angles a and β are defined which define the opening angles or the sections of the circular path circumscribing the iris which are not included in the circle detection be included.
23. Verfahren nach einem der Ansprüche 21 oder 22, dadurch gekennzeichnet, dass bei der Auswertung der Wegintegrale der Kreisbahnen die Varianz der Helligkeiten entlang der Bahn mit einbezogen wird.23. The method according to any one of claims 21 or 22, characterized in that the variance of the brightnesses along the path is included in the evaluation of the path integrals of the circular orbits.
24. Vorrichtung zur Bestimmung der Blickrichtung, dadurch gekennzeichnet, dass die Vorrichtung Einrichtungen zur Segmentierung der den Augen und der Nase zugehörigen Bilddaten enthält, welchen ein gemeinsamer Klassifikator nachgeschaltet ist, welcher als Klassifikationsergebnis die Blickrichtung einer beobachteten Person liefert. 24. Device for determining the viewing direction, characterized in that that the device contains devices for segmenting the image data associated with the eyes and nose, which is followed by a common classifier which, as the classification result, provides the direction of view of an observed person.
25. Verfahren zum Betreiben einer Vorrichtung nach Anspruch 24, dadurch gekennzeichnet, dass die Einrichtung zur Segmentierung der der Nase der beobachteten Person zugehörigen Bilddaten die Auswahl ausgehend von einem detektierten Nasenloch trifft.25. The method for operating a device according to claim 24, characterized in that the device for segmenting the image data associated with the nose of the person being observed makes the selection based on a detected nostril.
26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass die Detektion eines Nasenlochs mittels eines polaren Kantendetektor mit nachgeschaltetem Klassifikator erfolgt.26. The method according to claim 25, characterized in that the detection of a nostril is carried out by means of a polar edge detector with a downstream classifier.
27. Verfahren nach einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, dass ein gesonderter Klassifikator zur Klassifikation der Nasenausrichtung und ein gesonderter Klassifikator zur Klassifikation der Blickrichtung der Augen verwendet wird. 27. The method according to any one of claims 25 or 26, characterized in that a separate classifier for classifying the nose alignment and a separate classifier for classifying the direction of gaze of the eyes is used.
28. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass für den Fall, daß kein Auge erkannt wurde, der Klassifikator zur Klassifikation der Nasenausrichtung eine Schätzung der Blickrichtung durchführt.28. The method according to claim 27, characterized in that in the event that no eye was recognized, the classifier for classifying the nose alignment performs an estimation of the viewing direction.
29. Verfahren nach einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, dass ein gemeinsamer Klassifikator die kombinierten Bilddaten der Augen und der Nase klassifiziert um die Blickrichtung einer beobachteten Person zu schätzen. 29. The method according to any one of claims 25 or 26, characterized in that a common classifier classifies the combined image data of the eyes and nose in order to estimate the direction of view of an observed person.
PCT/EP2001/010820 2000-09-20 2001-09-19 System for detecting a line of vision using image data WO2002025576A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2001295572A AU2001295572A1 (en) 2000-09-20 2001-09-19 System for detecting a line of vision using image data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10046859A DE10046859B4 (en) 2000-09-20 2000-09-20 Vision direction detection system from image data
DE10046859.4 2000-09-20

Publications (1)

Publication Number Publication Date
WO2002025576A1 true WO2002025576A1 (en) 2002-03-28

Family

ID=7657148

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2001/010820 WO2002025576A1 (en) 2000-09-20 2001-09-19 System for detecting a line of vision using image data

Country Status (3)

Country Link
AU (1) AU2001295572A1 (en)
DE (1) DE10046859B4 (en)
WO (1) WO2002025576A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359265A (en) * 2022-03-04 2022-04-15 广东顺德富意德智能包装科技有限公司 Screw counting method and system based on target tracking

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10255796A1 (en) * 2002-11-28 2004-06-17 Daimlerchrysler Ag Method and device for operating an optical display device
DE10257963A1 (en) * 2002-12-12 2004-07-08 Daimlerchrysler Ag Method and device for determining the 3D position of passenger car occupants
DE10325762A1 (en) * 2003-06-05 2004-12-23 Daimlerchrysler Ag Image processing system for a vehicle
DE102007001738B4 (en) * 2007-01-11 2016-04-14 Audi Ag Method and computer program product for eye tracking
DE102008045774A1 (en) * 2008-09-04 2010-03-11 Claudius Zelenka Arrangement for detection of reflex from eye, has two illumination systems, which produce same light power spectral density of viewer, where former illumination system produces eye reflexes on two-dimensional optical detector
DE102014208008A1 (en) * 2014-04-29 2015-10-29 Bayerische Motoren Werke Aktiengesellschaft Cursor graphic depending on the data quality of input devices

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291560A (en) * 1991-07-15 1994-03-01 Iri Scan Incorporated Biometric personal identification system based on iris analysis
WO1997021188A1 (en) * 1995-12-04 1997-06-12 David Sarnoff Research Center, Inc. Wide field of view/narrow field of view recognition system and method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5471542A (en) * 1993-09-27 1995-11-28 Ragland; Richard R. Point-of-gaze tracker
US5912721A (en) * 1996-03-13 1999-06-15 Kabushiki Kaisha Toshiba Gaze detection apparatus and its method as well as information display apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291560A (en) * 1991-07-15 1994-03-01 Iri Scan Incorporated Biometric personal identification system based on iris analysis
WO1997021188A1 (en) * 1995-12-04 1997-06-12 David Sarnoff Research Center, Inc. Wide field of view/narrow field of view recognition system and method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHOW G ET AL: "TOWARDS A SYSTEM FOR AUTOMATIC FACIAL FEATURE DETECTION", PATTERN RECOGNITION, PERGAMON PRESS INC. ELMSFORD, N.Y, US, vol. 26, no. 12, 1 December 1993 (1993-12-01), pages 1739 - 1755, XP000420368, ISSN: 0031-3203 *
COLLET C ET AL: "CapRe: a gaze tracking system in man-machine interaction", INTELLIGENT ENGINEERING SYSTEMS, 1997. INES '97. PROCEEDINGS., 1997 IEEE INTERNATIONAL CONFERENCE ON BUDAPEST, HUNGARY 15-17 SEPT. 1997, NEW YORK, NY, USA,IEEE, US, 15 September 1997 (1997-09-15), pages 577 - 581, XP010254547, ISBN: 0-7803-3627-5 *
SINGH S ET AL: "Monitoring driver fatigue using facial analysis techniques", INTELLIGENT TRANSPORTATION SYSTEMS, 1999. PROCEEDINGS. 1999 IEEE/IEEJ/JSAI INTERNATIONAL CONFERENCE ON TOKYO, JAPAN 5-8 OCT. 1999, PISCATAWAY, NJ, USA,IEEE, US, 5 October 1999 (1999-10-05), pages 314 - 318, XP010369866, ISBN: 0-7803-4975-X *
XIE X ET AL: "REAL-TIME EYE FEATURE TRACKING FROM A VIDEO IMAGE SEQUENCE USING KALMAN FILTER", SOUTHCON /94. CONFERENCE RECORD. ORLANDO, MAR. 29 - 31, 1994, NEW YORK, IEEE, US, 29 March 1994 (1994-03-29), pages 110 - 115, XP000544399, ISBN: 0-7803-9989-7 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359265A (en) * 2022-03-04 2022-04-15 广东顺德富意德智能包装科技有限公司 Screw counting method and system based on target tracking

Also Published As

Publication number Publication date
DE10046859A1 (en) 2002-03-28
AU2001295572A1 (en) 2002-04-02
DE10046859B4 (en) 2006-12-14

Similar Documents

Publication Publication Date Title
DE19614975C2 (en) Facial image processing system
EP2467828B1 (en) Method and system for automatic object detection and subsequent object tracking in accordance with the object shape
DE60313941T2 (en) Person detection by face detection and motion detection
DE102007056528B3 (en) Method and device for finding and tracking pairs of eyes
EP3542211B1 (en) Method and device and computer program for determining a representation of a spectacle glass rim
DE60209989T2 (en) Robust visual models for visual motion analysis and tracking
EP1119822B1 (en) Method and system for recognizing people with model-based face detection
DE69936620T2 (en) Method and device for segmenting hand gestures
DE69333094T2 (en) Device for extracting features of a face image
WO2015192980A1 (en) Device, method, and computer program for detecting momentary sleep
DE102017220307B4 (en) Device and method for recognizing traffic signs
DE69730811T2 (en) Plant for image recognition
WO2015117905A1 (en) 3-d image analyzer for determining viewing direction
DE102015209822A1 (en) Detecting means, detecting program, detecting method, vehicle equipped with detecting means, parameter calculating means, parameter calculating parameters, parameter calculating program, and method of calculating parameters
DE4406020C1 (en) Automatic digital image recognition system
WO1995004977A1 (en) Process for recognizing the position and rotational position in space of suitably marked objects in digital image sequences
DE102014100352A1 (en) Method for detecting condition of viewing direction of rider of vehicle, involves estimating driver&#39;s line of sight on basis of detected location for each of eye characteristic of eyeball of rider and estimated position of head
DE112011105116T5 (en) Method and apparatus for image content based automatic brightness detection
WO2002025576A1 (en) System for detecting a line of vision using image data
EP2483834B1 (en) Method and apparatus for the recognition of a false object detection in an image
EP3642697A1 (en) Method and device for detecting a user input on the basis of a gesture
DE112020004823T5 (en) Image processing device and non-transitory computer-readable medium
EP0713592B1 (en) Process for recognizing the position and rotational position in space of suitably marked objects in digital image sequences
DE102010054168B4 (en) Method, device and program for determining the torsional component of the eye position
DE102014201313A1 (en) Method for detecting a movement path of at least one moving object within a detection area, method for gesture recognition using such a detection method, and device for carrying out such a detection method

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP