EP1281157A1 - Verfahren und anordnung zum ermitteln eines objekts in einem bild - Google Patents

Verfahren und anordnung zum ermitteln eines objekts in einem bild

Info

Publication number
EP1281157A1
EP1281157A1 EP01940216A EP01940216A EP1281157A1 EP 1281157 A1 EP1281157 A1 EP 1281157A1 EP 01940216 A EP01940216 A EP 01940216A EP 01940216 A EP01940216 A EP 01940216A EP 1281157 A1 EP1281157 A1 EP 1281157A1
Authority
EP
European Patent Office
Prior art keywords
information
image
local resolution
partial area
recorded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP01940216A
Other languages
English (en)
French (fr)
Inventor
Gustavo Deco
Bernd SCHÜRMANN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1281157A1 publication Critical patent/EP1281157A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Definitions

  • the invention relates to a method for determining an object in an image and arrangements for determining an object in an image.
  • the method is ended and the recognized object for which the extracted features have been formed is output as a recognized object.
  • the method is carried out iteratively for different sub-areas of the image until the object has been determined or until a predetermined termination criterion is fulfilled, for example a predetermined number of iterations or the object to be recognized is recognized with sufficient accuracy.
  • a disadvantage of this procedure is in particular the very large computing time required to determine an object in the image to be examined. This is due in particular to the fact that all partial areas of the image are treated in the same way, that is to say the local resolution is the same for all partial areas of the image in the context of the method for object detection.
  • the two-dimensional Gabor transformations are basic functions that use local spatial bandpass filters to achieve the theoretical optimal overall resolution in the spatial and frequency ranges, that is, in the one-dimensional spatial range and in the two-dimensional frequency range.
  • the invention is based on the problem of determining an object in an image, the determination being able to be carried out with a statistically lower computing time requirement. Furthermore, the invention is based on the problem of training an arrangement capable of learning in such a way that it can be used in the context of determining an object in an image, so that less computing time is required to determine the object in an image using the trained arrangement capable of learning than with the known procedure.
  • a method for determining an object in an image information is acquired from the image with a first local resolution.
  • a first feature extraction is carried out for the recorded information.
  • At least one partial area in which the object could be located is selected from the image.
  • Information with a second local resolution is also acquired from the selected partial area.
  • the second local resolution is larger than the first local resolution.
  • a second feature extraction is carried out for the information that has been acquired with the second local resolution, and a check is carried out to determine whether a predetermined criterion regarding the features extracted from the information by means of the second feature extraction is fulfilled.
  • the predefined criterion In the event that the predefined criterion is not met, information is iteratively recorded from at least one sub-region of the selected sub-region, in each case with a higher local resolution, and it is checked whether the information recorded with the respectively higher local resolution fulfills the predefined criterion for as long as until the specified criterion is met, or a further partial area is selected from the image and information from the further partial area is recorded with a second local resolution. Alternatively, the process can be ended.
  • the information can be brightness information and / or color information that is / are assigned to pixels of a digitized image.
  • the invention achieves considerable computing time savings in the context of the determination of an object in an image.
  • the invention is clearly based on the knowledge that in the context of the visual perception of a living being Probably a hierarchical approach to the perception of individual areas of different sizes with different local resolution usually leads to the goal of recognizing a searched object.
  • the invention is clearly to be seen in that, in order to determine an object in an image, hierarchical sub-areas and sub-sub-areas are selected, each of which is recorded with a different resolution on each hierarchical level and is compared with features of the object to be recognized after feature extraction has taken place. If the object is recognized with sufficient certainty, the object to be recognized is output as the recognized object. However, if this is not the case, there are alternatively the options available either to select a further sub-area of the current sub-area and to acquire information from this sub-area with a further increased local resolution, or to select a different sub-area and then in turn to this according to the object to be recognized investigate.
  • an image that contains an object to be determined is captured.
  • the position of the object to be recognized within the image and the object itself are predefined.
  • Several feature extractions are carried out for the object, each with a different local resolution.
  • the further refinements relate both to the methods, the arrangements, the computer-readable storage medium and the computer program element.
  • the test can be used as a predetermined criterion as to whether the information recorded with the respective local resolution is sufficient to determine the object with sufficient accuracy.
  • the predefined criterion can also be a predefined number of iterations, that is to say a predefined number of maximum iterations, in each of which a lower part area is selected and examined with an increased local resolution.
  • the predefined criterion can be a predefined number of subareas to be examined or maximum subareas to be examined.
  • the feature extraction can take place by means of a transformation with different local resolutions.
  • a wavelet transformation is preferably used as the transformation, preferably a two-dimensional Gabor transformation (2D Gabor transformation).
  • the image information is encoded in an optimal manner both in the spatial area and in the spectral area, that is to say an optimal compromise is achieved in the context of the reduction of redundancy information between the local area coding and the frequency area coding.
  • Any transformation that meets the following requirements in particular can be used as a transformation:
  • the aspect ratio of the elliptical Gaussian envelope should be essentially 2: 1; • the plane wave should have its direction of propagation along the shorter axis of the elliptical Gaussian envelope;
  • the half-amplitude bandwidth of the frequency response should have approximately 1 to 1.5 octaves along the optimal direction.
  • the mean value of the transformation should have the value zero in order to ensure a permissible functional basis for the wavelet transformation.
  • the transformation can take place by means of a neural network or a plurality of neural networks, preferably by means of a recurrent neural network.
  • a very fast transformation arrangement that can be adapted to the object to be recognized or to the correspondingly captured image information is used in particular.
  • a plurality of partial areas is determined in the image, with a probability being determined for each partial area that the corresponding partial area contains the object to be recognized.
  • the iterative procedure is carried out for detail areas in the order according to the falling probability of belonging to the object to be determined accordingly. This procedure results in a further reduction in the computing time required, since an optimal procedure for determining the object to be recognized is specified from a statistical point of view.
  • At least one neural network can be used as an arrangement capable of learning.
  • the neurons of the neural network are preferably arranged topographically.
  • FIG. 1 is a block diagram in which the architecture of the
  • FIG. 2 shows a block diagram in which the structure of the module for carrying out the two-dimensional Gabor
  • FIG. 3 shows a block diagram in which the recognition module from FIG. 1 according to the exemplary embodiment is shown in detail
  • FIG. 4 is a block diagram showing the architecture of the
  • FIGS. 5a and 5b show sketches of an image with different objects from which the object to be determined is to be determined, the different recorded objects being shown in FIG. 5a and the recognition result having been determined in FIG. 5b at different local resolutions;
  • FIG. 6 is a flowchart showing the individual steps of the method according to the embodiment of the invention.
  • FIG. 1 shows a sketch of an arrangement 100 with which the object to be determined is determined.
  • the arrangement 100 has a visual field 101.
  • a detection unit 102 is provided, with which information from the image can be detected via the visual field 101 with different local resolution.
  • the detection unit 102 has one
  • FIG. 1 shows in the acquisition unit 102 a multiplicity of feature extraction units 103, each of which acquires information from the image with a different local resolution.
  • Features extracted from the captured image information are fed to the recognition module, that is to say the recognition unit 104, as feature vector 105 by the feature extraction unit 103.
  • a pattern comparison of the feature vector 105 with a previously formed feature vector is carried out in the manner explained in more detail below.
  • the recognition result is fed to a control unit 106, from which it is decided which sub-area or sub-area, as will be explained in more detail below, of the image is selected, and with which local resolution the respective sub-area or sub-area is examined.
  • the control unit 106 also has a decision unit in which it is checked whether a predefined criterion with regard to the extracted features is met.
  • Arrows 107 symbolically indicate that the individual detection units 104 are "switched" to acquire information in different detection areas 108, 109, 110, each with a different local resolution, depending on control signals from the control unit 106.
  • each recorded frequency is referred to as an octave.
  • Each octave is referred to below as a local resolution.
  • Each unit that performs a wavelet transformation at a given local resolution has an arrangement of neurons whose detection range corresponds to a two-dimensional Gabor function and is dependent on a specific orientation.
  • Each feature extraction unit 103 has a recurrent neural network 200, as shown in FIG. 2.
  • n 128, that is to say according to the exemplary embodiment, the image has 16384 pixels).
  • Each pixel is a brightness value I? ⁇ 1 ⁇ between "0 *
  • the brightness value I ° f ig denotes the
  • the image 201 that is to say the pixels which lie in the respective detection area, becomes an average brightness value DC,
  • the brightness values I ° -g of the pixels of the image 201 which lie in the detection range and the average brightness value DC is determined by a
  • Contrast correction unit 202 is subtracted from the brightness values I? J lg of each pixel.
  • the result is a set of brightness values that are contrast invariant.
  • Brightness values of the pixels in the detection area are formed in accordance with the following regulation:
  • the DC-free brightness values are fed to a neuron layer 203, the neurons of which carry out an extraction of simple features.
  • the neurons in the neuron layer 203 have receptive ones
  • the Gabor Wavelet is at
  • the frequency bandwidth is determined with the constant K.
  • a family of a discrete 2D Gabor wavelet G] pg_ (x, y) can be determined by discretizing the frequencies, orientations and centers of the continuous wavelet function (3) according to the following rule:
  • Gkpql / y a "k ⁇ ⁇ l (a ⁇ k x - pb, a ⁇ k y - qb), (7)
  • ⁇ ⁇ l ⁇ (x cos (l ⁇ 0 ) + y sin (l ⁇ 0 ), - x sin (l ⁇ o) + y cos (l ⁇ 0 )) (8)
  • the activation of a neuron in the neuron layer 203 is also referred to as rj qi.
  • the activation rj qi depends on a certain local frequency, which is dependent on the octave k for a preferred orientation, which is determined by the rotation index 1 and an excitation at the center, determined by the indices p and q.
  • Neuron layer 203 is defined as the convolution of the corresponding receptive field and the image, that is to say that
  • Brightness values of the pixels which results in the activation rj qi of a neuron according to the following rule:
  • Detection unit is designated with the corresponding local resolution k.
  • the activation rj ⁇ q] _ of a neuron is a complex number, which is why the exemplary embodiment uses two neurons for coding a brightness value Ij_j, one neuron for the real part of a brightness value Iij and one neuron for the imaginary part of the transformed brightness information Iij.
  • the neurons 206 of the neuron layer 205 which detect the transformed brightness signal 204, generate a neuron output value 207.
  • a reconstructed image 209 is formed in an image reconstruction unit 208 by means of the neuron output signal 207.
  • Image reconstruction unit 208 neurons that perform a Gabor wavelet transformation.
  • the image reconstruction unit 208 has neurons that operate according to a feed-forward structure connected to each other that correspond to a Gabor-receptive field.
  • a constant C denotes the density of the wavelet base used. Due to the non-orthogonality of the Gabor-Wavelet basic functions, regulation (13) and its linear superposition do not guarantee that a minimum of a reconstruction error E, which is formed according to the following regulation:
  • a correction of this regulation (14) can be obtained by dynamically optimizing the reconstruction error E by means of a feedback connection.
  • a feedback correction term r or 1 r is formed for each neuron 206 of the neuron layer 205.
  • the dynamics of the recurrent neural network 200 are determined in such a way that a dynamic reconstruction error is formed in accordance with the following regulation:
  • the dynamic reconstruction error of the recurrent neural network 200 is minimized.
  • the constant C is formed according to the following rule:
  • the reconstruction error signal 214 is formed by means of a differential unit 210.
  • the contrast-free brightness signal 211 and the reconstructed brightness signal 212 are fed to the differential unit 210.
  • a reconstruction error value 213 is formed, which is fed to the receptive field, that is to say the Gabor filter.
  • a training method according to regulation (16) is carried out for each object to be determined from a set of objects to be determined, that is to say to be recognized, and for each local resolution in the feature extraction unit 103 described above.
  • the recognition unit 104 stores the extracted feature vectors 105 in their weights of the neurons individually for each local resolution.
  • Different feature extraction units 103 are thus trained in accordance with each local resolution for each object to be determined, as is indicated in FIG. 1 by the different feature extraction units 103.
  • the positions of the centers of the receptive fields are discretized and result for a local resolution of the degree k
  • the receptive fields cover the entire detection area in the same way at every local resolution, that is to say they always overlap in the same way.
  • a feature extraction unit 103 thus has the local resolution k
  • the Gabor neurons are clearly identified by means of the index kpql and the activation ⁇ ], ql, which, as described above, are given by the folding of the corresponding receptive field with the brightness values I j of the pixels of the detection area.
  • a feature extraction unit 103 which is preferably used, quickly becomes one through the forward-looking Gabor connections a sufficiently good set of wavelet basis functions for the greatly improved coding of the brightness values is determined, which is formed by the recurrent dynamic analysis of the reconstruction error value 213, so that a smaller number of iterations is achieved in order to determine the minimum of the reconstruction error value 213.
  • the feedback reconstruction error E is used according to the exemplary embodiment in order to dynamically improve the forward-facing Gabor representation of the image 201 in the sense that the problem of redundancy set out above in the description of the image information is dynamically corrected on account of the non-orthogonality of the Gabor wavelets ,
  • the redundancy of the Gabor feature description has therefore been dynamically reduced considerably by improving the reconstruction in accordance with the internal representation of the image information.
  • the number of iterations required to achieve optimal predictive coding of the image information can be further reduced by using an over-complete number of Gabor neurons for the feature coding.
  • a base that is thus complete allows a larger number of base vectors than input signals.
  • Characteristics corresponding to the octave at least the number of number given by the local resolution K is used.
  • the neurons of the neuron layer 205 are explained in detail below (see FIG. 3).
  • each neuron 206 (a neuron 300 is provided for a real part and a neuron 301 for the imaginary part of the Gabor transformation, as explained above, that is to say two neurons for a “logical” neuron) with the corresponding connections to the feature extraction unit 103 in each case as weight information, which the description is stored by means of feature vectors of an object for a specific local resolution and a specific position of the object in the detection area.
  • the neurons 206 of the neuron layer 205 are arranged in columns so that the neurons are arranged topographically.
  • the receptive fields of the recognition neurons are set up in such a way that only a limited square detection area of the neuron input values is transmitted around a certain center area.
  • the size of the quadratic receptive fields of the recognition neurons is constant and the recognition neurons are set up in such a way that only the signals from neurons 206 of the neuron layer 205 which are located within the detection range of the respective recognition neurons 301, 302 are taken into account.
  • the center of the receptive field is in the brightness center of the respective object.
  • Translation invariance is achieved in that for each object to be learned, that is to say to be recognized in the application phase, of identical recognition neurons, that is to say neurons that share the same weights but have different centers, are distributed over the entire coverage area.
  • Rotation invariance is achieved by storing the sum of the wavelet coefficients along the different orientations at each position.
  • a separate number of recognition neurons is provided for each new object to be learned during the learning phase, which store in their weights the corresponding wavelet-based internal description of the respective object, that is to say the feature vectors that describe the objects.
  • a recognition neuron For each local resolution, a recognition neuron is generated which corresponds to the respective internal description in accordance with the corresponding octave, that is to say the corresponding local one Resolution corresponds and the respective recognition neuron for all center positions is distributed in the entire detection area.
  • the recognition neurons are linear neurons, which output a linear correlation coefficient between its input weights and the input signal, which are formed by the neurons 206 of the neuron layer, which are located in the feature extraction unit 103.
  • each object is clearly provided at a time in the detection area at a predetermined, freely definable position ,
  • the recognition neurons store the wavelet-based information in their weights. For a given PPoossiittion, that is, a center with the pixel coordinates ⁇ C ⁇ f Cyj, two recognition neurons are provided for each object to be learned, one for storing the real part of the wavelet description and one for storing the imaginary part of the internal wavelet description.
  • Re () denotes the real part and Im () denotes the imaginary part and applies to the indices p and q:
  • R is the width of the receptive field in recorded pixels.
  • R 32 pixels is selected.
  • the center (c x , Cyj is formed by the center of brightness of the respective object, which is given according to:
  • Neurons that are activated due to excitation in another center are formed in the same way, with the same weights for recognizing the same object be used in a shifted position within the detection range.
  • Correlation coefficient that describes the correlation between the weights and the output of the neurons 206 of the neuron layer 205.
  • the output of a recognition neuron in the recognition unit 104 at a local resolution k based on the real parts of the neurons 206 of the neuron layer 205).
  • the local resolution k and related to the center ⁇ z x ,, Zzy y ]) given by:
  • (A) denotes the mean value and ⁇ a the standard deviation of a variable a over the detection range, i.e. over all indices p, q.
  • the neurons are activated at every local resolution depending on the detection of the same object but also on the different positions, since the same weights are stored for different positions according to the object.
  • the different detection units 104 are thus activated serially by the control unit 106, as will be described below.
  • a check is carried out to determine whether a predetermined criterion is met or not, the activation of the recognition neurons with the greatest activation being determined in accordance with the octave, which is greater than or equal to the current octave, that is to say by taking into account only the activated ones Detection units 104 at the appropriate time.
  • a so-called winner-takes-all strategy is used in deciding which recognition neuron is selected in such a way that the selected recognition neuron, which is assigned to a specific center and a specific object, is analyzed by the control unit 106.
  • control unit 106 can further decide whether the identification of the corresponding object is sufficiently precise or whether a more precise analysis of the object by selecting a smaller, more detailed area with a higher local resolution is required. If this is the case, then further neurons are activated in the further feature extraction units 103 or recognition units 104, so that the local resolution is increased.
  • a priority map is formed by the recognition unit 104 for the detection area with the coarsest local resolution, individual priority areas of the image area being indicated by the priority map and the probability being assigned to the corresponding area areas, indicating how likely it is is that the object to be recognized is in the partial area (see FIG.).
  • a partial area 401 is characterized by a center 402 of the partial area 401.
  • a serial feedback mechanism is provided for masking the detection areas, whereby successive others
  • Detection units 102 and feature extraction units 103 and detection units 104 are activated in accordance with the respectively selected increased resolution k, that is to say the control unit 106 regulates the positioning and size of the detection area in which visual information is received by the system and processed further.
  • this rough local resolution usually only the position of the object is practically recognizable and a very rough determination of the global shape of an object is determined.
  • control unit stores the result of the recognition unit as a priority map and selects a partial area of the image in which, as will be described below, image information is examined.
  • the corresponding selection of the partial area is fed back through the same feedback connections through the activated wavelet module.
  • the selection of the sub-area is dependent on the pixels which describe the object of the last activated local resolution.
  • the corresponding pixels are selected on the basis of the pixels which enable a good reconstruction, that is to say a reconstruction with a small reconstruction error, and by pixels which do not correspond to a filtered black background.
  • the attention mechanism is object-based in the sense that only the areas in which the object lies are further analyzed in series with a higher local resolution.
  • the attention mechanism is described mathematically using a matrix G ⁇ j, the elements of which have the value "1 * if the corresponding pixels are to be taken into account and have the value "0" if the corresponding pixels are not to be taken into account.
  • the priority map is generated and the control unit 106 decides which object is to be analyzed in more detail in a further step, so that only the pixels which lie in the image area, that is to say in the selected partial area, are taken into account in the context of the next higher local resolution.
  • the first condition is that the reconstructed image has brightness values I j> 0 and the second condition is that the reconstruction error is not greater than a predetermined threshold, that is to say:
  • the control unit 106 thus decides that the object is analyzed in more detail at a center (c x , Cy) in the priority map, then the mask, given by the matrix Gij, is updated in accordance with the following regulations:
  • the attention feedback between the local resolution k and the subsequent local resolution k - 1 i.e. the increased local
  • a new matrix value G j is therefore defined in accordance with the exemplary embodiment for the activation of the next, increased local resolution k-1 in accordance with the following regulation:
  • a first object 501 has a global form of an H and has object components of the form T as local elements, which is why the first object is called Ht.
  • the second object 502 has a global H-shape and also H-shaped components as local object components, which is why the second object 502 is referred to as Hh.
  • a third object 503 has a global and also a local T-shaped structure, which is why the third object 503 is referred to as Tt.
  • a fourth object 504 has a global T-shape and a local H-shape of the individual object components, which is why the fourth object 504 is referred to as Th.
  • 5b shows the recognition results of a device according to the invention for different local resolutions, in each case for the first object 501 (recognized object at first local resolution 510, at second local resolution 511, at third local resolution 512, at fourth local resolution 513).
  • 5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the second object 502 (recognized object at first local resolution 520, at second local resolution 521, at third local resolution 512, at fourth local resolution 523).
  • 5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the third object 503 (recognized object at first local resolution 530, at second local resolution 531, at third local resolution 532, at fourth local resolution 533).
  • 5b also shows the recognition results of a device according to the invention for different local resolutions, in each case for the fourth object 504 (recognized object with first local resolution 540, with second local resolution 541, with third local resolution 542, with fourth local resolution 543).
  • the respective object is already recognized with a very good, at least sufficient accuracy, at the highest local resolution.
  • step 601 the for the pixels, that is, for the brightness values
  • a feature extraction with a first local resolution j-1 is carried out on the captured image (step 602).
  • a first partial area Tbi is formed from the image (step 603).
  • a probability is determined that the object to be determined is in the corresponding sub-area Tbi.
  • the result is a priority map that contains the respective assignments probability and partial area (step 604).
  • a test step 608 it is checked whether the object has been recognized with sufficient certainty (step 608).
  • the recognized object is output as a recognized object (step 609). If this is not the case, then in a further test step (step 610) it is checked whether a predetermined termination criterion has been met, according to the exemplary embodiment, whether a predetermined number of iterations has been reached.
  • step 611 If this is the case, the method is ended (step 611).
  • step 612 it is checked in a further test step (step 612) whether a further lower part area should be selected.
  • Step 613 and the method continues in step 606 by incrementing the local resolution for the corresponding sub-area.
  • a further partial area Tbi + 1 is selected from the priority map (step 614), and the method is continued in a further step (step 605).

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Zur Ermittlung eines Objekts in einem Bild werden hierarchisch Teil- und Unterteilbereiche ausgewählt, die mit unterschiedlicher Auflösung auf jeder hierarchischen Ebene aufgenommen werden und mit Merkmalen des zu erkennenden Objekts verglichen werden. Ist das Objekt mit ausreichender Sicherheit erkannt, so wird das zu erkennende Objekt als erkanntes Objekt ausgegeben. Ist dies nicht der Fall, so stehen wird entweder ein weiterer Unterteilbereich des aktuellen Teilbereichs ausgewählt und aus diesem Unterteilbereich werden Informationen mit einer wiederum erhöhten örtlichen Auflösung erfasst.

Description

VERFAHREN UND ANORDNUNG ZUM ERMITTELN EINES OBJEKTS IN EINEM BILD
Die Erfindung betrifft ein Verfahren zum Ermitteln eines Objekts in einem Bild sowie Anordnungen zum Ermitteln eines Objekts in einem Bild.
Ein solches Verfahren und eine solche Anordnung sind aus [1] bekannt.
Bei der aus [1] bekannten Vorgehensweise wird aus einem mittels einer Kamera aufgenommenen Bild, in dem ein zu erkennendes Objekt enthalten ist, Information jeweils in einem Teilbereich des Bildes erfasst. Für die erfasste Information wird eine Merkmalsextraktion durchgeführt und mittels eines bekannten Mustererkennungsverfahrens werden die extrahierten Merkmale aus dem Teilbereich mit zuvor extrahierten Merkmalen, die das zu erkennende Objekt beschreiben, verglichen.
Ist die Ähnlichkeit zwischen den extrahierten Merkmalen aus dem Teilbereich und den vorgegebenen Merkmalen, die das zu erkennende Objekt beschreiben, ausreichend groß, so wird das Verfahren beendet und das erkannte Objekt, für das die extrahierten Merkmale gebildet worden sind, wird als erkanntes Objekt ausgegeben.
Das Verfahren wird iterativ für verschiedene Teilbereiche des Bildes durchgeführt solange, bis das Objekt ermittelt worden ist oder bis ein vorgegebenes Abbruchkriterium erfüllt ist, beispielsweise eine vorgegebene Anzahl von Iterationen oder ein mit ausreichender Genauigkeit Erkennen des zu erkennenden Objekts. Nachteilig an dieser Vorgehensweise ist insbesondere der sehr große Rechenzeitbedarf zur Ermittlung eines Objekts in dem zu untersuchenden Bild. Dies ist insbesondere darauf zurückzuführen, dass alle Teilbereiche des Bildes auf gleiche Weise behandelt werden, das heißt die örtliche Auflösung für alle Teilbereiche des Bildes gleich ist im Rahmen des Verfahrens zur Objektermittlung.
Weiterhin ist aus [2] eine sogenannte zweidimensionale Gabor- Transformation als Wavelet-Transformation bekannt. Die zweidimensionalen Gabor-Transformationen sind Basisfunktionen, die mittels lokaler räumlicher Bandpassfilter, die die theoretische optimale Gesamtauflösung im Ortsbereich und im Frequenzbereich, das heißt im eindimensionalen Ortsbereich und im zweidimensionalen Frequenzbereich erzielt.
Aus [3] und [4] sind weitere Transformationen bekannt.
Der Erfindung liegt das Problem zugrunde, in einem Bild ein Objekt zu ermitteln, wobei das Ermitteln mit statistisch geringerem Rechenzeitbedarf durchgeführt werden kann. Weiterhin liegt der Erfindung das Problem zugrunde, eine lernfähige Anordnung derart zu trainieren, dass sie im Rahmen einer Ermittlung eines Objekts in einem Bild eingesetzt werden kann, so dass zum Ermitteln des Objekts in einem Bild unter Einsatz der trainierten lernfähigen Anordnung ein geringerer Rechenzeitbedarf erreicht wird als bei der bekannten Vorgehensweise.
Die Probleme werden durch die Verfahren, die Anordnungen, das Computerprogramm-Element sowie das Computerlesbare Speichermedium mit dem Merkmalen gemäß den unabhängigen Patentansprüchen gelöst. Bei einem Verfahren zum Ermitteln eines Objekts in einem Bild wird aus dem Bild Information mit einer ersten örtlichen Auflösung erfasst. Für die erfasste Information wird eine erste Merkmalsextraktion durchgeführt. Aus dem Bild wird aufgrund der ersten Merkmalsextraktion mindestens ein Teilbereich ausgewählt, in dem sich das Objekt befinden könnte. Aus dem ausgewählten Teilbereich wird weiterhin Information mit einer zweiten örtlichen Auflösung erfasst. Die zweite örtliche Auflösung ist größer als die erste örtliche Auflösung. Für die Information, die mit der zweiten örtlichen Auflösung erfasst worden ist, wird eine zweite Merkmalsextraktion durchgeführt und es wird geprüft, ob ein vorgegebenes Kriterium bezüglich der mittels der zweiten Merkmalsextraktion extrahierten Merkmale aus der Information erfüllt ist. Für den Fall, dass das vorgegebene Kriterium nicht erfüllt ist, wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereichs erfasst, jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt solange, bis das vorgegebene Kriterium erfüllt ist, oder es wird aus dem Bild ein weiterer Teilbereich ausgewählt und Information aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst. Alternativ kann das Verfahren beendet werden.
Die Information kann beispielsweise im Rahmen der digitalen Bildverarbeitung Helligkeitsinformation und/oder Farbinformation sein, die Bildpunkten eines digitalisierten Bildes zugeordnet ist/sind.
Durch die Erfindung wird eine erhebliche Rechenzeiteinsparung im Rahmen der Ermittlung eines Objekts in einem Bild erreicht .
Anschaulich orientiert sich die Erfindung an der Erkenntnis, dass im Rahmen der visuellen Wahrnehmung eines Lebewesens wahrscheinlich eine hierarchische Vorgehensweise der Wahrnehmung einzelner Bereiche unterschiedlicher Größe mit unterschiedlicher örtlicher Auflösung üblicherweise zu dem Ziel führt, ein gesuchtes Objekt zu erkennen.
Anschaulich ist die Erfindung darin zu sehen, dass zur Ermittlung eines Objekts in einem Bild hierarchisch Teilbereiche und Unterteilbereiche ausgewählt werden, die jeweils mit unterschiedlicher Auflösung auf jeder hierarchischen Ebene aufgenommen werden und nach erfolgter Merkmalsextraktion mit Merkmalen des zu erkennenden Objekts verglichen werden. Ist das Objekt mit ausreichender Sicherheit erkannt, so wird das zu erkennende Objekt als erkanntes Objekt ausgegeben. Ist dies jedoch nicht der Fall, so stehen alternativ die Möglichkeiten zur Verfügung, entweder einen weiteren Unterteilbereich des aktuellen Teilbereichs auszuwählen und aus diesem Unterteilbereich Information mit einer wiederum erhöhten örtlichen Auflösung zu erfassen oder einen anderen Teilbereich auszuwählen und diesen wiederum nach dem zu erkennenden Objekt zu untersuchen.
Bei einem Verfahren zum Trainieren einer lernfähigen Anordnung, die zum Ermitteln eines Objekts in einem Bild verwendet werden kann, wird ein Bild, welches ein zu ermittelndes Objekt enthält, erfasst. Die Position des zu erkennenden Objekts innerhalb des Bildes und das Objekt selbst sind vorgegeben. Für das Objekt werden mehrere Merkmalsextraktionen durchgeführt, jeweils mit einer unterschiedlichen örtlichen Auflösung. Die lernfähige
Anordnung wird mit den extrahierten Merkmalen jeweils für eine unterschiedliche örtliche Auflösung trainiert.
Die im Erfindung kann sowohl mittels eines Computerprogramms, das heißt in Software, implementiert werden, als auch mittels einer speziellen elektronischen Schaltung, das heißt in Hardware . Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Die weiteren Ausgestaltungen betreffen sowohl die Verfahren, die Anordnungen, das Computerlesbares Speichermedium als auch das Computerprogramm-Element .
Als vorgegebenes Kriterium kann die Prüfung verwendet werden, ob die mit der jeweiligen örtlichen Auflösung erfasste Information ausreicht, um das Objekt mit ausreichender Genauigkeit zu ermitteln.
Das vorgegebene Kriterium kann weiterhin eine vorgegebene Anzahl von Iterationen sein, das heißt eine vorgegebene Anzahl maximaler Iterationen, in denen jeweils ein Unterteilbereich ausgewählt wird und mit einer erhöhten örtlichen Auflösung untersucht wird.
Weiterhin kann das vorgegebene Kriterium eine vorgegebene Anzahl zu untersuchender Teilbereiche bzw. maximal zu untersuchende Unterteilbereiche sein.
Die Merkmalsextraktion kann mittels einer Transformation mit jeweils unterschiedlicher örtlicher Auflösung erfolgen.
Als Transformation wird bevorzugt eine Wavelet-Transformation eingesetzt, vorzugsweise eine zweidimensionale Gabor- Transformation (2D-Gabor-Transformation) .
Durch Einsatz der zweidimensionalen Gabor-Transformation wird die Bildinformation in optimaler Weise sowohl im Ortsbereich als auch im Spektralbereich codiert, das heißt es wird ein optimaler Kompromiss im Rahmen der Reduktion von Redundanzinformation zwischen Ortsbereic s-Codierung und Frequenzbereichs-Codierung erreicht . Als Transformation kann jede Transformation eingesetzt werden, die insbesondere folgende Voraussetzungen erfüllt:
• das Aspektverhältnis der elliptischen gaussianisehen Einhüllenden sollte im wesentlichen 2:1 betragen; • die ebene Welle sollte ihre Ausbreitungsrichtung entlang der kürzeren Achse der elliptischen gaussianischen Einhüllenden aufweisen;
• weiterhin sollte die Halb-Amplituden-Bandbreite der Frequenzantwort ungefähr 1 bis 1,5 Oktaven entlang der optimalen Richtung aufweisen.
Weiterhin sollte der Mittelwert der Transformation den Wert Null aufweisen, um eine zulässige Funktionsbasis für die Wavelet-Transformation zu gewährleisten.
Alternativ können auch die in [3] und [4] beschriebenen Transformationen verwendet werden.
Die Transformation kann mittels eines neuronalen Netzes oder mehrerer neuronaler Netze erfolgen, vorzugsweise mittels eines rekurrenten neuronalen Netzes.
Durch Einsatz eines neuronalen Netzes wird insbesondere eine sehr schnelle und an das jeweils zu erkennende Objekt bzw. an die entsprechend erfasste Bildinformation anpassbare Transformationsanordnung eingesetzt.
In einer weiteren Ausgestaltung der Erfindung wird in dem Bild eine Mehrzahl von Teilbereichen ermittelt, wobei für jeden Teilbereich jeweils eine Wahrscheinlichkeit dafür ermittelt wird, dass der entsprechende Teilbereich das zu erkennende Objekt enthält. Das iterative Verfahren wird für Detailbereiche in der Reihenfolge entsprechend fallender Zugehörigkeitswahrscheinlichkeit des entsprechend zu ermittelnden Objekts durchgeführt. Durch diese Vorgehensweise wird eine weitere Reduktion des benötigten Rechenzeitbedarfs erreicht, da aus statistischer Sicht eine optimale Vorgehensweise zur Ermittlung des zu erkennenden Objekts angegeben wird.
Zur weiteren Reduktion des benötigten Rechenzeitbedarfs ist es in einer Weiterbildung der Erfindung vorgesehen, die Form eines ausgewählten Teilbereichs im wesentlichen der Form des zu ermittelnden Objekts anzupassen.
Auf diese Weise wird jeweils ein Teilbereich oder auch ein Unterteilbereich untersucht, der für sich schon im wesentlichen dem zu ermittelnden Objekt entspricht. Damit wird vermieden, dass ein Bildbereich untersucht wird, in dem sich das zu ermittelnde Objekt sicher nicht befindet, da der entsprechende Bildbereich dann ohnehin schon eine andere Form aufweist.
Als lernfähige Anordnung kann mindestens ein neuronales Netz verwendet werden.
Vorzugsweise sind die Neuronen des neuronalen Netzes topographisch angeordnet.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im weiteren näher erläutert.
Es zeigen
Figur 1 ein Blockdiagramm, in dem die Architektur der
Anordnung zum Ermitteln des Objekts gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist;
Figur 2 ein Blockdiagramm, in dem der Aufbau des Moduls zur Durchführung der zweidimensionalen Gabor-
Transformation aus Figur 1 gemäß dem Ausführungsbeispiel der Erfindung im Detail dargestellt ist;
Figur 3 ein Blockdiagramm, in dem das Erkennungsmodul aus Figur 1 gemäß dem Ausführungsbeispiel im Detail dargestellt ist;
Figur 4 ein Blockdiagramm, in dem die Architektur der
Anordnung zum Ermitteln des Objekts gemäß einem Ausführungsbeispiel der Erfindung dargestellt ist, wobei die Ermittlung einer Prioritätskarte im Detail dargestellt ist;
Figuren 5a und 5b Skizzen eines Bildes mit unterschiedlichen Objekten, aus denen das zu ermittelnde Objekt zu ermitteln ist, wobei in Figur 5a die unterschiedlichen aufgenommenen Objekte dargestellt sind und in Figur 5b das Erkennungsergebnis bei unterschiedlichen örtlichen Auflösungen ermittelt worden ist;
Figur 6 ein Ablaufdiagramm, in dem die einzelnen Schritte des Verfahrens gemäß dem Ausführungsbeispiel der Erfindung dargestellt sind.
Fig.l zeigt eine Skizze einer Anordnung 100, mit der das zu ermittelnde Objekt ermittelt wird.
Die Anordnung 100 weist ein visuelles Feld 101 auf.
Weiterhin ist eine Erfassungseinheit 102 vorgesehen, mit der Information aus dem Bild über das visuelle Feld 101 mit unterschiedlicher örtlicher Auflösung erfasst werden kann.
Die Erfassungseinheit 102 weist eine
Merkmalsextraktionseinheit 103 sowie eine Erkennungseinheit 104 auf. Fig.l zeigt in der Erfassungseinheit 102 eine Vielzahl von Merkmalsextraktionseinheiten 103, die jeweils Information aus dem Bild mit einer unterschiedlichen örtlichen Auflösung erfasst.
Von der Merkmalsextraktionseinheit 103 werden jeweils extrahierte Merkmale aus der erfassten Bildinformation dem Erkennungsmodul, das heißt der Erkennungseinheit 104 als Merkmalsvektor 105 zugeführt.
In der im weiteren näher erläuterten Erkennungseinheit 104 wird ein Mustervergleich des Merkmalsvektors 105 mit einem zuvor gebildeten Merkmalsvektor auf die im weiteren näher erläuterte Weise durchgeführt.
Das Erkennungsergebnis wird einer Steuerungseinheit 106 zugeführt, von der entschieden wird, welcher Teilbereich oder Unterteilbereich, wie im weiteren näher erläutert wird, des Bildes ausgewählt wird, und mit welcher örtlichen Auflösung der jeweilige Teilbereich oder Unterteilbereich untersucht wird. Die Steuerungseinheit 106 weist ferner eine Entscheidungseinheit auf, in der geprüft wird, ob ein vorgegebenes Kriterium hinsichtlich der extrahierten Merkmale erfüllt ist.
Durch Pfeile 107 ist symbolisch angedeutet, dass zwischen den einzelnen Erkennungseinheiten 104 zu einer Erfassung von Information in unterschiedlichen Erfassungsbereichen 108, 109, 110 mit jeweils unterschiedlicher örtlicher Auflösung abhängig von Steuersignalen der Steuerungseinheit 106 "umgeschaltet" wird.
Im weiteren wird die in Fig.2 im Detail dargestellte Merkmalsextraktionseinheit 103 näher erläutert. Werden die zweidimensionalen Gabor-Wavelets derart eingerichtet, dass der Frequenzbereich in einer logarithmischen Aufteilung angeordnet sind, so wird jede erfasste Frequenz als Oktave bezeichnet. Jede Oktave wird im weiteren als eine örtliche Auflösung bezeichnet.
Jede Einheit, die eine Wavelet-Transformation bei einer vorgegebenen örtlichen Auflösung durchführt, weist eine Anordnung von Neuronen auf, deren Erfassungsbereich einer zweidimensionalen Gabor-Funktion entspricht und von einer bestimmten Orientierung abhängig sind.
Die Ausgabe des entsprechenden Neurons ist ferner abhängig von der vorgegebenen örtlichen Auflösung und ist symmetrisch. Jede Merkmalsextraktionseinheit 103 weist ein rekurrentes neuronales Netz 200 auf, wie in Fig.2 dargestellt.
Es wird im weiteren von einem digitalisierten Bild 201 mit n*n Bildpunkten ausgegangen (gemäß diesem Ausführungsbeispiel n = 128, das heißt gemäß dem Ausführungsbeispiel weist das Bild 16384 Bildpunkte auf) .
Jedem Bildpunkt ist ein Helligkeitswert I?^1^ zwischen „0*
(schwarz) und „255λ (weiß) zugeordnet.
Der Helligkeitswert I°fig bezeichnet jeweils den
Helligkeitswert, der einem Bildpunkt zugeordnet ist, welcher Bildpunkt sich an der durch die Indizes i, j bezeichneten örtlichen Koordinaten innerhalb des Bildes 201 befindet.
Aus dem Bild 201, das heißt aus den Bildpunkten, die in dem jeweiligen Erfassungsbereich liegen, wird ein mittlerer Helligkeitswert DC,
der Helligkeitswerte I°- g der Bildpunkte des Bildes 201 ermittelt, die in dem Erfassungsbereich liegen und der mittlere Helligkeitswert DC wird durch eine
Kontrastkorrektureinheit 202 von den Helligkeitswerten I?Jlg jedes Bildpunktes abgezogen.
Ergebnis ist eine Menge von Helligkeitswerten, die kontrast- invariant sind. Die kontrast-invariante Beschreibung der
Helligkeitswerte der Bildpunkte in dem Erfassungsbereich wird gemäß folgender Vorschrift gebildet:
Die DC-freien Helligkeitswerte werden einer Neuronenschicht 203 zugeführt, deren Neuronen eine Extraktion einfacher Merkmale durchführt.
Die Neuronen in der Neuronenschicht 203 haben rezeptive
Felder, die eine zweidimensionale Gabor-Transformation gemäß folgender Vorschrift durchführen.
cos Θ+y sin ©)2+(-x sin Θ+y cos θ)2)
K*
5iωo(x cos Θ+y sin θ)
o:
wobei mit • (Dg eine Kreisfrequenz in Radianten pro Längeneinheit, und
• Θ die Orientierungsrichtung des Wavelets in Radianten bezeichnet wird.
Das Gabor-Wavelet ist bei
x = y = 0 (4)
o zentriert und mittels einer L -Norm normalisiert derart, dass gilt:
(Ψ, Ψ) = 1. (5)
Mit der Konstante K wird die Frequenzbandbreite bestimmt.
Gemäß diesem Ausführungsbeispiel wird
K = π (6)
verwendet, was einer Frequenzbandbreite einer Oktave entspricht.
Eine Familie einer diskreten 2D-Gabor-Wavelet G]pg_(x, y) kann ermittelt werden durch Diskretisierung der Frequenzen, Orientierungen und der Zentren der kontinuierlichen Wavelet- Funktion (3) gemäß folgender Vorschrift:
Gkpql / y) = a"kΨΘl(a~kx - pb, a~ky - qb), (7)
mit
ΨΘl = ψ(x cos(lΘ0) + y sin(lΘ0),-x sin(lΘo) + y cos(lΘ0)) (8)
und der Basis-Wavelet :
Gemäß dieser Vorschrift bezeichnet
Θg = — die Schrittgröße der jeweiligen Winkeldrehung, L
1 den Index der Rotation entsprechend der bevorzugten Orientierung Θ]_ = — , k die jeweilige Oktave, und p und q die Position des Zentrums des rezeptiven Felds (cx pba und Cy = qba )
Für eine gegebene Oktave k ergeben sich die Maximalwerte von p und q gemäß
und
n
Q = dl! ba'
wobei mit |_xj die größte Integer-Zahl bezeichnet wird, die kleiner als x ist.
Im weiteren wird mit rj qi die Aktivierung eines Neurons in der Neuronenschicht 203 bezeichnet.
Die Aktivierung rj qi ist abhängig von einer bestimmten örtlichen Frequenz, die durch die Oktave k zu einer bevorzugten Orientierung, die durch den Rotationsindex 1 und zu einer Anregung an dem Zentrum, bestimmt durch die Indizes p und q abhängig ist. Die Aktivierung ηcpqi des Neurons in der jeweiligen
Neuronenschicht 203 ist definiert als die Faltung des entsprechenden rezeptiven Feldes und dem Bild, das heißt den
Helligkeitswerten der Bildpunkte, wodurch sich die Aktivierung rj qi eines Neurons gemäß folgender Vorschrift ergibt:
n n rpql = (Gkpql' τ) = ∑ ∑ Gkpql(i' j) • xij 9ij # (12) i=lj=l
wobei mit gj_j ein Gewichtswert für den Bildpunkt (i, j) der
Erfassungseinheit mit der entsprechenden örtlichen Auflösung k bezeichnet wird.
Es ist anzumerken, dass die Aktivierung rjφq]_ eines Neurons eine komplexe Zahl ist, weshalb dem Ausführungsbeispiel zwei Neuronen zur Codierung eines Helligkeitswerts Ij_j eingesetzt wird, ein Neuron für den Realteil eines Helligkeitswerts Iij und ein Neuron für den Imaginärteil der transformierten Helligkeitsinformation Iij .
Die Neuronen 206 der Neuronenschicht 205, die das transformierte Helligkeitssignal 204 erfassen, erzeugen einen Neuronen-Ausgangswert 207.
Mittels des Neuronen-Ausgangssignals 207 wird in einer Bildrekonstruktions'-Einheit 208 ein rekonstruiertes Bild 209 gebildet.
Gemäß diesem Ausführungsbeispiel weist die
Bildrekonstruktions-Einheit 208 Neuronen auf, die eine Gabor- Wavelet-Transformation durchführen.
Zu diesem Zweck weist die Bildrekonstruktions-Einheit 208 Neuronen auf, die gemäß einer Feed-Forward-Struktur miteinander verbunden sind, die einem Gabor-rezeptiven Feld entsprechen.
In anderen Worten ausgedrückt bedeutet dies, dass die Bildrekonstruktion gemäß folgender Vorschrift erfolgt:
K P Q L-l !ij = CΣ Σ Σ Σ rkpqlGkpql (i, j) # (13) k = 0p = 0q = 01 = 0
wobei mit K die maximale Auflösung bezeichnet wird.
Mit einer Konstante C wird die Dichte der verwendeten Wavelet-Basis bezeichnet. Aufgrund der Nicht-Orthogonalität der Gabor-Wavelet-Basisfunktionen wird durch die Vorschrift (13) und durch deren lineare Superposition nicht garantiert, dass ein Minimum eines Rekonstruktionsfehlers E, der gemäß folgender Vorschrift gebildet wird:
erreicht wird.
Eine Korrektur dieser Vorschrift (14) kann erhalten werden durch dynamische Optimierung des Rekonstruktionsfehlers E mittels einer Rückkopplungsverbindung.
Im weiteren wird ein rückgekoppelter Korrektur-Term r or 1 r für jedes Neuron 206 der Neuronenschicht 205 gebildet.
Die Dynamik des rekurrenten neuronalen Netzes 200 wird derart bestimmt, dass ein dynamischer Rekonstruktionsfehler gemäß folgender Vorschrift gebildet wird:
(15)
Der dynamische Rekonstruktionsfehler des rekurrenten neuronalen Netzes 200 wird minimiert.
Dies wird erreicht durch dynamische Anpassung des Korrektur-
„corr
Ter s gemäß folgender Vorschrift :
= corr ijEijGkpqlC j) = η(G pqι, E) ,
( 16 )
wobei
K P Q L-lj ^ E iD ij " C Σ Σ Σ Σ feql + rkpql pkpqlfc j) Ü7) k=0p = 0q=01 = 0
und mit η ein Änderungskoeffizient bezeichnet wird (gemäß dem Ausführungsbeispiel η = 0,1).
Die Konstante C wird gemäß folgender Vorschrift gebildet:
wobei mit max() der maximale Wert der jeweiligen Werte bezeichnet wird.
Diese oben beschriebene Dynamik kann auf folgende Weise anschaulich interpretiert werden. Wenn das Rekonstruktionsfehlersignal E rückgekoppelt und mit den gleichen Gabor-rezeptiven Feldern Gkpql, EJ gefaltet wird, dann konvergiert das gesamte dynamische System zu einem Attraktor, der dem Minimum des Rekonstruktionsfehlersignals 214 entspricht.
Das Rekonstruktionsfehlersignal 214 wird gebildet mittels einer Differenzeinheit 210. Der Differenzeinheit 210 wird das kontrastfreie Helligkeitssignal 211 sowie das rekonstruierte Helligkeitssignal 212 zugeführt. Durch Differenzbildung zwischen dem kontrastfreien Helligkeitswert 211 und dem jeweiligen rekonstruierten Helligkeitswert 212 wird jeweils ein Rekonstruktionsfehlerwert 213 gebildet, der dem rezeptiven Feld, das heißt dem Gabor-Filter zugeführt wird.
In einer Lernphase wird für jedes zu ermittelnde Objekt aus einer Menge zu ermittelnder, das heißt zu erkennender Objekte und für jede örtliche Auflösung in der oben beschriebenen Merkmalsextraktionseinheit 103 ein Trainingsverfahren gemäß Vorschrift (16) durchgeführt.
Dies erfolgt durch Extraktion der entsprechenden 2D-Gabor- Wavelet-Merkmale für jedes Objekt zu jeder örtlichen Auflösung.
Die Erkennungseinheit 104 speichert in ihren Gewichten der Neuronen die extrahierten Merkmalsvektoren 105 für jede örtliche Auflösung einzeln.
Somit werden unterschiedliche- Merkmalsextraktionseinheiten 103 entsprechend jeder örtlichen Auflösung für jedes zu ermittelnde Objekt trainiert, wie dies in Fig.l durch die verschiedenen Merkmalsextraktionseinheiten 103 angedeutet ist. Die Positionen der Zentren der rezeptiven Felder sind diskretisiert und ergeben sich für eine örtliche Auflösung des Grades k zu
cx = pbak (18)
und
cy = qbak. (19)
Dies bedeutet anschaulich, dass räumlich näher liegende Wavelets durch geringere Schritte getrennt sind und weiter entfernte Wavelets durch größere Schritte.
Gemäß diesem Ausführungsbeispiel überdecken die rezeptiven Felder bei jeder örtlichen Auflösung den gesamten Erfassungsbereich auf gleiche Weise, das heißt sie überlappen sich immer in der gleichen Weise.
Somit weist eine Merkmalsextraktionseinheit 103 der örtlichen Auflösung k
Gabor-Neuronen auf.
Die Gabor-Neuronen werden eindeutig mittels des Indexes kpql und der Aktivierung ^] ,ql bezeichnet, welche, wie oben beschrieben worden ist, durch die Faltung des entsprechenden rezeptiven Feldes mit den Helligkeitswerten I j der Bildpunkte des Erfassungsbereichs gegeben sind.
Durch die oben beschriebene Vorgehensweise wird mittels der vorzugsweise eingesetzten Merkmalsextraktionseinheit 103 durch die vorwärtsgerichteten Gabor-Verbindungen schnell eine ausreichend gute Menge von Wavelet-Basisfunktionen zum stark verbesserten Codieren der Helligkeitswerte ermittelt, welche durch die rekurrente dynamische Analyse des Rekonstruktionsfehlerwerts 213 gebildet wird, so dass eine geringere Anzahl von Iterationen erreicht wird, um das Minimum des Rekonstruktionsfehlerwerts 213 zu ermitteln.
Der rückgekoppelte Rekonstruktionsfehler E wird gemäß dem Ausführungsbeispiel verwendet, um die vorwärtsgerichtete Gabor-Repräsentation des Bildes 201 dynamisch zu verbessern in dem Sinne, dass das oben dargelegte Problem der Redundanz in der Beschreibung der Bildinformation aufgrund der Nicht- Orthogonalität der Gabor-Wavelets dynamisch korrigiert wird.
Die Redundanz der Gabor-Merkmalsbeschreibung ist deshalb dynamisch erheblich verringert worden durch Verbesserung der Rekonstruktion gemäß der internen Repräsentation der Bildinformation.
Durch diese Struktur wird deshalb eine nicht-lineare
Korrektur der üblichen linearen Darstellung eines Gabor- Filters erreicht, wodurch eine effizientere prädiktive Codierung der Bildinformation erzielt wird.
Die Anzahl benötigter Iterationen, um ein optimales prädiktives Codieren der Bildinformation zu erreichen, kann weiter dadurch reduziert werden, dass eine übervollständige Anzahl von Gabor-Neuronen zum Merkmalscodieren verwendet werden.
Eine somit übervollständige Basis erlaubt eine größere Anzahl von Basisvektoren als Eingangssignale. Für eine Merkmalsextraktionseinheit 103 der örtlichen Auflösung K werden gemäß dem Ausführungsbeispiel zur Rekonstruktion der internen Repräsentation der Gabor-Neuronen mit Wavelet-
Merkmalen entsprechend der Oktave mindestens die Anzahl der durch die örtliche Auflösung K vorgegebene Zahl ist, verwendet .
Gemäß dem Ausführungsbeispiel werden sechs Oktaven, das heißt sechs Merkmalsextraktionseinheiten 103 (N = 6) mit acht Orientierungen (L = 8), mit b = 1 und a = 2 eingesetzt, so dass bei Einsatz aller Grade der Auflösung
codierende Gabor-Neuronen verwendet werden,
Da gemäß dem Ausführungsbeispiel 16.384 Bildpunkte in dem Bild enthalten sind, werden 174.080 codierende Gabor-Neuronen zum Bilden der übervollständigen Basis eingesetzt.
Im weiteren werden die Neuronen der Neuronenschicht 205 im Detail erläutert (vgl. Fig.3) .
Es wird gemäß dem Ausführungsbeispiel angenommen, dass für jedes Neuron 206 (wobei ein Neuron 300 für einen Realteil und ein Neuron 301 für den Imaginärteil der Gabor-Transformation vorgesehen ist, wie oben erläutert wurde, das heißt zwei Neuronen für ein "logisches" Neuron) mit den entsprechenden Verbindungen zu der Merkmalsextraktionseinheit 103 jeweils als Gewichtsinformation, die die Beschreibung mittels Merkmalsvektoren eines Objekts zu einer bestimmten örtlichen Auflösung und einer bestimmten Position des Objekts in dem Erfassungsbereich gespeichert wird.
Die Neuronen 206 der Neuronenschicht 205 sind in Spalten organisiert angeordnet, so dass die Neuronen topographisch angeordnet sind. Die rezeptiven Felder der Erkennungsneuronen sind derart eingerichtet, dass nur ein beschränkter quadratischer Erfassungsbereich der Neuronen-Eingangswerte um einen bestimmten Zentrumsbereich übertragen wird.
Die Größe der quadratischen rezeptiven Felder der Erkennungsneuronen ist konstant und die Erkennungsneuronen sind derart eingerichtet, dass nur die Signale von Neuronen 206 der Neuronenschicht 205 berücksichtigt werden, die sich innerhalb des Erfassungsbereichs des jeweiligen Erkennungsneurons 301, 302 befindet.
Im Rahmen der Trainingsphase befindet sich das Zentrum des rezeptiven Feldes in dem Helligkeitszentrum des jeweiligen Objekts.
Translationsinvarianz wird erreicht, indem für jedes zu lernende, das heißt in der Anwendungsphase zu erkennende Objekt identischer Erkennungsneuronen, das heißt Neuronen, die sich die gleichen Gewichte teilen, aber unterschiedlicher Zentren aufweisen, über den gesamten Abfassungsbereich verteilt sind.
Rotationsinvarianz wird dadurch erreicht, dass an jeder Position die Summe der Wavelet-Koeffizienten entlang der unterschiedlichen Orientierungen gespeichert werden.
Zusammenfassend wird gemäß dem Ausführungsbeispiel während der Lernphase für jedes neu zu lernende Objekt eine eigene Anzahl von Erkennungsneuronen vorgesehen, die in ihren Gewichten die entsprechenden Wavelet-basierende interne Beschreibung des jeweiligen Objekts, das heißt der Merkmalsvektoren, die die Objekte beschreiben, speichern.
Für jede örtliche Auflösung wird ein Erkennungsneuron erzeugt, das der jeweiligen internen Beschreibung gemäß der entsprechenden Oktave, das heißt der entsprechenden örtlichen Auflösung entspricht und es wird das jeweilige Erkennungsneuron für alle Zentrenpositionen in dem gesamten Erfassungsbereich verteilt angeordnet.
Die Erkennungsneuronen sind lineare Neuronen, die als Ausgabewert einen linearen Korrelationskoeffizienten zwischen seinen Eingangsgewichten und dem Eingangssignal, die von den Neuronen 206 der Neuronenschicht gebildet werden, die sich in der Merkmalsextraktionseinheit 103 befinden.
Fig.3 zeigt für unterschiedliche Objekte 303, 304 die jeweiligen Erkennungsneuronen 305, 306, 307, 308, 309, 310, 311, 312. Anschaulich wird während der Trainingsphase jedes Objekt zu einer Zeit in dem Erfassungsbereich an einer vorgegebenen, frei vorgebbaren Position bereitgestellt.
Die Erkennungsneuronen speichern in ihren Gewichten die Wavelet-basierte Information. Für eine gegebenee PPoossiittion, das heißt einem Zentrum mit den Pixelkoordinaten \Cχf Cyj, sind zwei Erkennungsneuronen für jedes zu lernende Objekt vorgesehen, eines zum Speichern des Realteils der Wavelet- Beschreibung und eines zum Speichern des Imaginärteils der internen Wavelet-Beschreibung.
Die interne Beschreibung der Neuronen nach erfolgter
Konvergenz der rekurrenten Dynamik, wie sie oben beschrieben wurde, ist gemäß der folgenden zwei Tensoren gespeichert:
wkpq = + rk(p+rcχ)(q+cy)l (2i;
und
wobei mit Re ( ) jeweils der Realteil und mit Im() jeweils der Imaginärteil bezeichnet wird und für die Indizes p und q gilt:
p, q e [- R, R], (23)
wobei mit R die Breite des rezeptiven Feldes in erfassten Bildpunkten bezeichnet wird.
Gemäß dem Ausführungsbeispiel wird R = 32 Bildpunkte gewählt.
Während der Trainingsphase wird das Zentrum (cx, Cyj gebildet durch das Helligkeitszentrum des jeweiligen Objekts, welches gegeben ist gemäß :
n cx = (24) n
und
Durch Bilden der Summe über alle Indizes 1 wird eine rotationsinvariante Beschreibung des entsprechenden Objekts erreicht.
Neuronen, die aufgrund einer Anregung in einem anderen Zentrum aktiviert werden, werden auf gleiche Weise gebildet, wobei die gleichen Gewichte zum Erkennen des gleichen Objekts an einer verschobenen Position innerhalb des Erfassungsbereichs verwendet werden.
Die Ausgabe eines Erkennungsneurons im Rahmen der Erkennungsphase ist gegeben durch einen
Korrelationskoeffizienten, der die Korrelation zwischen den Gewichten und der Ausgabe der Neuronen 206 der Neuronenschicht 205 beschreibt.
Gemäß dem Ausführungsbeispiel wird die Ausgabe eines Erkennungsneurons in der Erkennungseinheit 104 bei einer örtlichen Auflösung k, bezogen auf die Realteile der Neuronen 206 der Neuronenschicht 205 ) zzuu. der örtlichen Auflösung k und bezogen auf das Zentrum \zx,, Zzyy]) gegeben durch:
Die Ausgabe des entsprechenden Erkennungsneurons für den Imaginärteil ist gegeben durch:
Λzχ/Zy] _
Mit (a) wird der Mittelwert und mit σa die Standardabweichung einer Variable a über den Erfassungsbereich, das heißt über alle Indizes p, q, bezeichnet.
Es ist anzumerken, dass die Neuronen bei jeder örtlichen Auflösung aktiviert werden abhängig von dem Erfassen des gleichen Objekts aber auch abhängig von den unterschiedlichen Positionen, da die gleichen Gewichte entsprechend des Objekts für unterschiedliche Positionen gespeichert sind. Gemäß dem Ausführungsbeispiel sind die Zentren der Erkennungsneuronen derart über den Erfassungsbereich angeordnet, dass sie den Erfassungsbereich vollständig überdecken und jeweils ein Neuron sich mit dem Erfassungsbereich eines weiteren Neurons halb überlappt, das heißt für n = 128 und R = 64 werden neun Zentren an folgenden Positionen angeordnet ((32, 32) (32, 64) (32, 96) (64, 32) (64, 64) (64, 96) (96, 32) (96, 64) (96, 96)).
Während der Erkennungsphase werden somit die unterschiedlichen Erkennungseinheiten 104 seriell durch die Steuerungseinheit 106 aktiviert, wie im weiteren beschrieben wird.
Nach der Aktivierung der entsprechenden Erkennungseinheit 104 wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist oder nicht, wobei die Aktivierung der Erkennungsneuronen mit der größten Aktivierung entsprechend der Oktave ermittelt wird, die größer oder gleich ist der aktuellen Oktave, das heißt durch Berücksichtigen nur der aktivierten Erkennungseinheiten 104 zu der entsprechenden Zeit.
Anders ausgedrückt wird eine sogenannte Winner-takes-all- Strategie bei der Entscheidung, welches Erkennungsneuron ausgewählt wird, verwendet in einer Weise, dass das ausgewählte Erkennungsneuron, das einem bestimmten Zentrum und einem bestimmten Objekt zugeordnet ist, von der Steuerungseinheit 106 analysiert wird.
Wie im weiteren erläutert wird, kann von der Steuerungseinheit 106 weiterhin entschieden werden, ob die Identifikation des- entsprechenden Objekts ausreichend genau ist, oder eine ob genauere Analyse des Objekts durch Auswahl eines kleineren, detaillierteren Bereichs mit höherer örtlichen Auflösung erforderlich ist. Ist dies der Fall, so werden weitere Neuronen in den weiteren Merkmalsextraktionseinheiten 103 bzw. Erkennungseinheiten 104 aktiviert, so dass die örtliche Auflösung erhöht wird.
Wie in Fig. gezeigt ist, wird für den Erfassungsbereich bei gröbster örtlicher Auflösung eine Prioritätskarte von der Erkennungseinheit 104 gebildet, wobei durch die Prioritätskarte einzelne Teilbereiche des Bildbereichs angegeben werden und den entsprechenden Teilbereichen eine Wahrscheinlichkeit zugeordnet wird, mit der angegeben wird, wie wahrscheinlich es ist, dass sich das zu erkennende Objekt in dem Teilbereich befindet (vgl. Fig. ) .
Die Prioritätskarte ist in Fig.4 mit 400 symbolisiert. Ein Teilbereich 401 ist charakterisiert durch ein Zentrum 402 des Teilbereichs 401.
Die einzelnen Iterationen, in denen verschiedene Teilbereiche und Unterteilbereiche ausgewählt werden und mit jeweils höherer örtlicher Auflösung untersucht werden, wird im weiteren näher erläutert.
Gemäß dem Ausführungsbeispiel ist ein serieller Rückkopplungs-Mechanismus zur Maskierung der Erfassungsbereiche vorgesehen, wodurch sukzessive weitere
Erfassungseinheiten 102 und Merkmalsextraktionseinheiten 103 sowie Erkennungseinheiten 104 entsprechend der jeweils gewählten erhöhten Auflösung k aktiviert werden, das heißt die Steuerungseinheit 106 regelt die Positionierung und Größe des Erfassungsbereichs, in dem visuelle Information von dem System aufgenommen wird und weiterverarbeitet wird.
In einem ersten Schritt wird das gesamte Bild 201 verarbeitet, jedoch mit der gröbsten örtlichen Auflösung, das heißt es ist nur die erste Erkennungseinheit und Merkmalsextraktionseinheit mit k = N aktiviert. Bei dieser groben örtlichen Auflösung ist üblicherweise praktisch nur die Position des Objekts erkennbar und es wird eine sehr grobe Bestimmung der globalen Form eines Objekts bestimmt.
Abhängig von der jeweiligen Aufgabe wird von der Steuerungseinheit das Ergebnis der Erkennungseinheit als Prioritätskarte gespeichert und es wird ein Teilbereich des Bildes ausgewählt, in dem, wie im weiteren beschrieben wird, Bildinformation untersucht wird.
Die entsprechende Auswahl des Teilbereichs wird durch die gleichen Rückkopplungsverbindungen durch das aktivierte Wavelet-Modul rückgekoppelt.
Die Auswahl des Teilbereichs, das heißt der Angabe, welche Bildpunkte mit erhöhter örtlicher Auflösung näher untersucht werden, erfolgt abhängig von den Bildpunkten, die das Objekt der zuletzt aktivierten örtlichen Auflösung beschreiben.
Die entsprechenden Bildpunkte werden ausgewählt aufgrund der Bildpunkte, die eine gute Rekonstruktion, das heißt eine Rekonstruktion mit einem geringen Rekonstruktionsfehler, sowie durch Bildpunkte, die nicht einem gefilterten schwarzen Hintergrund entsprechen, ermöglicht.
In anderen Worten ist der Aufmerksamkeits-Mechanismus objektbasiert in dem Sinne, dass nur die Bereiche, in denen das Objekt liegt, seriell mit einer höheren örtlichen Auflösung weiter analysiert werden.
Dies bedeutet, dass die entsprechenden niedrigeren Oktaven seriell aktiviert werden, jedoch nur in dem ausgewählten Teilbereich.
Der Aufmerksamkeits-Mechanismus wird mathematisch mittels einer Matrix G^j beschrieben, deren Elemente den Wert „1* aufweisen, wenn die entsprechenden Bildpunkte berücksichtigt werden sollen und den Wert „0' aufweisen, wenn der entsprechende Bildpunkt nicht berücksichtigt werden soll.
Bei der gröbsten örtlichen Auflösung im Rahmen der
Objekterkennung (k = N) wird das gesamte Bild 201 analysiert, das heißt
gij = 1 Vi, j (28;
Die Prioritätskarte wird erzeugt und die Steuerungseinheit 106 entscheidet, welches Objekt in einem weiteren Schritt näher analysiert wird, so dass im Rahmen der nächsthöheren örtlichen Auflösung nur die Bildpunkte, die in dem Bildbereich, das heißt in dem ausgewählten Teilbereich, liegen, berücksichtigt werden.
Es werden gemäß dem Ausführungsbeispiel zwei weitere Bedingungen angenommen.
Die erste Bedingung ist, dass das rekonstruierte Bild Helligkeitswerte I j > 0 aufweist und die zweite Bedingung ist, dass der Rekonstruktionsfehler nicht größer als eine vorgegebene Schwelle ist, das heißt das gilt:
g jE j < α. (29)
Somit entscheidet die Steuerungseinheit 106, dass das Objekt näher analysiert wird bei einem Zentrum (cx, Cy) in der Prioritätskarte, dann wird die Maske, gegeben durch die Matrix Gij gemäß folgenden Vorschriften aktualisiert:
Im allgemeinen wird die Aufmerksamkeits-Rückkopplung zwischen der örtlichen Auflösung k und der folgenden örtlichen Auflösung k - 1 (das heißt der erhöhten örtlichen
Aufmerksamkeit) für k > N nur durch die zwei oben erwähnten Bedingungen geregelt.
Ein neuer Matrixwert G j ist deshalb gemäß dem Ausführungsbeispiel für die Aktivierung der nächsten, erhöhten örtlichen Auflösung k - 1 definiert gemäß folgender Vorschrift definiert:
Im weiteren wird der Verlauf der verschiedenen Iterationen der Untersuchung der einzelnen Teilbereiche und Unterteilbereiche mit unterschiedlichen örtlichen Auflösungen für eine konkrete Objekterkennung beschrieben.
Im Rahmen dieses Beispiels sind vier Arten von Objekten vorgesehen, wie sie in Fig.5a gezeigt sind.
Ein erstes Objekt 501 weist eine globale Form eines H auf und hat als lokale Elemente Objektkomponenten der Form T, weshalb das erste Objekt Ht bezeichnet wird.
Das zweite Objekt 502 weist eine globale H-Form auf und als lokale Objektkomponenten ebenfalls H-förmige Komponenten, weshalb das zweite Objekt 502 mit Hh bezeichnet wird. Ein drittes Objekt 503 weist eine globale sowie auch eine lokale T-förmige Struktur auf, weshalb das dritte Objekt 503 mit Tt bezeichnet wird.
Ein viertes Objekt 504 weist eine globale T-Form und eine lokale H-Form der einzelnen Objektkomponenten auf, weshalb das vierte Objekt 504 mit Th bezeichnet wird.
Fig.5b zeigt die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das erste Objekt 501 (erkanntes Objekt bei erster örtlicher Auflösung 510, bei zweiter örtlicher Auflösung 511, bei dritter örtlicher Auflösung 512, bei vierter örtlicher Auflösung 513) .
Fig.5b zeigt die ferner die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das zweite Objekt 502 (erkanntes Objekt bei erster örtlicher Auflösung 520, bei zweiter örtlicher Auflösung 521, bei dritter örtlicher Auflösung 512, bei vierter örtlicher Auflösung 523) .
Fig.5b zeigt weiterhin die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das dritte Objekt 503 (erkanntes Objekt bei erster örtlicher Auflösung 530, bei zweiter örtlicher Auflösung 531, bei dritter örtlicher Auflösung 532, bei vierter örtlicher Auflösung 533) .
Fig.5b zeigt weiterhin die Erkennungsergebnisse einer erfindungsgemäßen Vorrichtung für unterschiedliche örtliche Auflösungen, jeweils für das vierte Objekt 504 (erkanntes Objekt bei erster örtlicher Auflösung 540, bei • zweiter örtlicher Auflösung 541, bei dritter örtlicher Auflösung 542, bei vierter örtlicher Auflösung 543) . Wie aus Fig.5b ersichtlich, wird bei der höchsten örtlichen Auflösung das jeweilige Objekt schon mit einer sehr guten, zumindest ausreichenden Genauigkeit erkannt.
Unter Bezugnahme auf Fig.6 wird das Verfahren zur Ermittlung eines Objekts in einem Bild anschaulich noch einmal erläutert.
In einem ersten Schritt (Schritt 601) wird für die Bildpunkte, das heißt für die Helligkeitswerte der
Bildpunkte, des erfassten Bildes eine Merkmalsextraktion mit einer ersten örtlichen Auflösung j - 1 durchgeführt (Schritt 602) .
In einem weiteren Schritt wird aus dem Bild ein erster Teilbereich Tbi gebildet (Schritt 603) .
Für jeden gebildeten Teilbereich Tbi wird eine Wahrscheinlichkeit dafür ermittelt, dass sich das zu ermittelnde Objekt in dem entsprechenden Teilbereich Tbi befindet. Ergebnis ist eine Prioritätskarte, die die jeweiligen Zuordnungen Wahrscheinlichkeit und Teilbereich enthält (Schritt 604) .
Gemäß der gebildeten Prioritätskarte wird ein erster
Teilbereich Tbi mit i = 1 ausgewählt und es werden die Neuronen aktiviert, so dass der ausgewählte Teilbereich in Schritt 605 um dem Wert 1 inkrementiert wird, so dass der ausgewählte Teilbereich Tbi mit einer erhöhten örtlichen Auflösung untersucht wird (Schritte 606, 607) .
In einem Prüfschritt 608 wird geprüft, ob das Objekt mit ausreichender Sicherheit erkannt worden ist (Schritt 608) .
Ist dies der Fall, so wird das erkannte Objekt als erkanntes Objekt ausgegeben (Schritt 609) . Ist dies nicht der Fall, so wird in einem weiteren Prüfschritt (Schritt 610) überprüft, ob ein vorgegebenes Abbruchkriterium erfüllt ist, gemäß dem Ausführungsbeispiel, ob eine vorgegebene Anzahl von Iterationen erreicht ist.
Ist dies der Fall, so wird das Verfahren beendet (Schritt 611) .
Ist dies nicht der Fall, so wird in einem weiteren Prüfschritt überprüft (Schritt 612) , ob ein weiterer Unterteilbereich ausgewählt werden soll.
Soll ein weiterer Unterteilbereich, der mit einer erhöhten Auflösung untersucht werden soll, ausgewählt werden, so wird dieser entsprechende Unterteilbereich ausgewählt
(Schritt 613) und das Verfahren wird in Schritt 606 weitergeführt durch Inkrementierung der örtlichen Auflösung für den entsprechenden Unterteilbereich.
Ist dies jedoch nicht der Fall, so wird ein weiterer Teilbereich Tbi + 1 aus der Prioritätskarte ausgewählt (Schritt 614), und das Verfahren wird in einem weiteren Schritt (Schritt 605) weitergeführt.
In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] A. Treisman, Perceptual Grouping and Attention in Visual Search for Features and for Objects, Journal of Experimental Psychology: Human Perception and Performance, Vol. 8, S. 194 - 214, 1982
[2] J. Daugman, Complete Discrete 2D-Gabor-Transforms by Neural Networks for Image Analysis and Compression, IEEE-Transactions on Acoustics, Speed and Signal Processing, Vol. 36, S. 1169 - 1179, 1988
[3] D.J. Heeger, Nonlinear Model of Neural Responses in Cat Visual Cortex, Computational Models of Visual Processing, Edited by M. Landy and J.A. Movshon, Cambridge, MA, MIT Press, S. 119 - 133, 1991
[4] D.J. Heeger, Normalization of Cell Responses in Cat
Striate Cortex, Visual Neuro Science, Vol. 9, S. 181 - 197, 1992

Claims

Patentansprüche
1. Verfahren zum Ermitteln eines Objekts in einem Bild,
• bei dem Information aus dem Bild mit einer ersten örtlichen Auflösung erfasst wird,
• bei dem für die Information aus dem Bild eine erste Merkmalsextraktion durchgeführt wird,
• bei dem aus dem Bild mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der Merkmalsextraktion ausgewählt wird,
• bei dem Information aus dem ausgewählten Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung, • bei dem für die Information aus dem ausgewählten
Teilbereich eine zweite Merkmalsextraktion durchgeführt wird,
• bei dem geprüft wird, ob ein vorgegebenes Kriterium erfüllt ist, • bei dem das Verfahren beendet wird oder aus dem Bild ein weiterer Teilbereich ausgewählt wird und Information aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wenn das vorgegebene Kriterium nicht erfüllt ist, • bei dem iterativ Information aus zumindest einem
Unterteilbereich des ausgewählten Teilbereich erfasst wird jeweils mit einer höheren örtlichen Auflösung und bei dem geprüft wird, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.
2. Verfahren nach Anspruch 1, bei dem das Kriterium ist, ob die mit der zweiten örtlichen Auflösung erfasste Information ausreicht-, um die Information mit ausreichender Genauigkeit zu erfassen
3. Verfahren nach Anspruch 1, bei dem das Kriterium eine vorgegebene Anzahl von Iterationen ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Merkmalsextraktionen mittels einer Transformation mit jeweils unterschiedlicher örtlicher Auflösung durchgeführt werden.
5. Verfahren nach Anspruch 4, bei dem als Transformation eine Wavelet-Transformation verwendet wird.
6. Verfahren nach Anspruch 5, bei dem als Wavelet-Transformation eine zweidimensionale Gabor-Transformation verwendet wird.
7. Verfahren nach einem der Ansprüche 4 bis 6, bei dem die Transformation mittels eines Neuronalen Netzes durchgeführt wird.
8. Verfahren nach Anspruch 7, bei dem die Transformation mittels eines rekurrenten Neuronalen Netzes durchgeführt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8,
• bei dem in dem Bild eine Mehrzahl von Teilbereichen ermittelt, die jeweils mit einer ermittelten Wahrscheinlichkeit das zu erkennende Objekt enthalten, • bei dem das iterative Verfahren für die Teilbereiche in der Reihenfolge entsprechend fallender Wahrscheinlichkeit durchgeführt wird.
10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem die Form eines ausgewählten Teilbereichs im wesentlichen der Form des zu erkennenden Objekts entspricht.
11. Verfahren zum Trainieren einer lernfähigen Anordnung, die zum Ermitteln eines Objekts in einem Bild verwendet werden soll, • bei dem ein Bild, das ein zu erkennendes Objekt enthält, erfasst wird, wobei die Position des zu erkennenden Objekts in dem Bild und das Objekt vorgegeben sind,
• bei dem für das Objekt mehrere Merkmalsextraktionen durchgeführt werden, jeweils mit einer unterschiedlichen örtlichen Auflösung,
• bei dem die Anordnung mit den extrahierten Merkmalen jeweils für eine örtliche Auflösung trainiert wird.
12. Verfahren nach Anspruch 11, bei dem als Anordnung mindestens ein Neuronales Netz verwendet wird.
13. Verfahren nach Anspruch 12, bei dem die Neuronen des Neuronalen Netzes topographisch angeordnet sind.
14. Anordnung zum Ermitteln eines Objekts in einem Bild, mit einem Prozessor, der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind: • Information aus dem Bild mit einer ersten örtlichen Auflösung wird erfasst,
• für die Information aus dem Bild wird eine erste Merkmalsextraktion durchgeführt,
• aus dem Bild wird mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der
Merkmalsextraktion ausgewählt,
• Information aus dem ausgewählten Teilbereich wird mit einer zweiten örtlichen Auflösung erfasst, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,
• für die Information aus dem ausgewählten Teilbereich wird eine zweite Merkmalsextraktion durchgeführt, • es wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist,
• das Verfahren wird beendet oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen
Auflösung erfasst, wenn das vorgegebene Kriterium nicht erfüllt ist,
• es wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.
15. Anordnung zum Ermitteln eines Objekts in einem Bild, mit
• einer Erfassungseinheit zum Erfassen von Information aus dem Bild mit mehreren unterschiedlichen örtlichen Auflösungen, • einer Merkmalsextraktionseinheit zum Extrahieren von Merkmalen für die von der Erfassungseinheit erfassten Information,
• einer Auswahleinheit zum Auswählen mindestens eines Teilbereichs aus dem Bild, in dem sich das Objekt befinden könnte, aufgrund der von der Merkmalsextraktionseinheit extrahierten Merkmale,
• einer Steuerungseinheit zum Steuern der Erfassungseinheit, welche Steuerungseinheit derart eingerichtet ist, dass Information aus dem ausgewählten Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,
• einer Entscheidungseinheit, in der geprüft wird, ob ein vorgegebenes Kriterium hinsichtlich der jeweils extrahierten Merkmale erfüllt ist,
• wobei die Steuerungseinheit weiter derart eingerichtet ist, dass - das Verfahren beendet wird oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst wird, wenn das vorgegebene Kriterium nicht erfüllt ist,
- iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst wird jeweils mit einer höheren örtlichen Auflösung und dass geprüft wird, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.
16. Computerlesbares Speichermedium, in dem ein Computerprogramm zum Ermitteln eines Objekts in einem Bild gespeichert ist, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
• Information aus dem Bild mit einer ersten örtlichen Auflösung wird erfasst, • für die Information aus dem Bild wird eine erste Merkmalsextraktion durchgeführt,
• aus dem Bild wird mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der Merkmalsextraktion ausgewählt, • Information aus dem ausgewählten Teilbereich wird mit einer zweiten örtlichen Auflösung erfasst, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,
• für die Information aus dem ausgewählten Teilbereich wird eine zweite Merkmalsextraktion durchgeführt,
• es wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist,
• das Verfahren wird beendet oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen
Auflösung erfasst, wenn das vorgegebene Kriterium nicht erfüllt ist, • es wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.
17. Computerprogramm-Element zum Ermitteln eines Objekts in einem Bild, das, wenn es von einem Prozessor ausgeführt wird, folgende Verfahrensschritte aufweist:
• Information aus dem Bild mit einer ersten örtlichen Auflösung wird erfasst,
• für die Information aus dem Bild wird eine erste Merkmalsextraktion durchgeführt,
• aus dem Bild wird mindestens ein Teilbereich, in dem sich das Objekt befinden könnte, aufgrund der Merkmalsextraktion ausgewählt,
• Information aus dem ausgewählten Teilbereich wird mit einer zweiten örtlichen Auflösung erfasst, wobei die zweite örtliche Auflösung größer ist als die erste örtliche Auflösung,
• für die Information aus dem ausgewählten Teilbereich wird eine zweite Merkmalsextraktion durchgeführt, • es wird geprüft, ob ein vorgegebenes Kriterium erfüllt ist,
• das Verfahren wird beendet oder aus dem Bild wird ein weiterer Teilbereich ausgewählt und Information wird aus dem weiteren Teilbereich mit einer zweiten örtlichen Auflösung erfasst, wenn das vorgegebene Kriterium nicht erfüllt ist,
• es wird iterativ Information aus zumindest einem Unterteilbereich des ausgewählten Teilbereich erfasst jeweils mit einer höheren örtlichen Auflösung und es wird geprüft, ob die mit der jeweils höheren örtlichen
Auflösung erfasste Information das vorgegebene Kriterium erfüllt, solange, bis das vorgegebene Kriterium erfüllt ist.
EP01940216A 2000-05-09 2001-05-07 Verfahren und anordnung zum ermitteln eines objekts in einem bild Withdrawn EP1281157A1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10022480 2000-05-09
DE10022480 2000-05-09
PCT/DE2001/001744 WO2001086585A1 (de) 2000-05-09 2001-05-07 Verfahren und anordnung zum ermitteln eines objekts in einem bild

Publications (1)

Publication Number Publication Date
EP1281157A1 true EP1281157A1 (de) 2003-02-05

Family

ID=7641256

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01940216A Withdrawn EP1281157A1 (de) 2000-05-09 2001-05-07 Verfahren und anordnung zum ermitteln eines objekts in einem bild

Country Status (5)

Country Link
US (1) US20030133611A1 (de)
EP (1) EP1281157A1 (de)
JP (1) JP2003533785A (de)
CN (1) CN1440538A (de)
WO (1) WO2001086585A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10163002A1 (de) * 2001-12-20 2003-07-17 Siemens Ag Erstellen eines Interessenprofils einer Person mit Hilfe einer neurokognitiven Einheit
JP3863775B2 (ja) * 2001-12-25 2006-12-27 株式会社九州エレクトロニクスシステム 画像情報圧縮方法及び画像情報圧縮装置並びに画像情報圧縮プログラム
WO2006083278A2 (en) * 2004-05-26 2006-08-10 Bae Systems Information And Electronic Systems Integration, Inc. Method for transitioning from a missile warning system to a fine tracking system in a countermeasures system
US8370755B2 (en) * 2007-12-27 2013-02-05 Core Wireless Licensing S.A.R.L. User interface controlled by environmental cues
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US10192327B1 (en) * 2016-02-04 2019-01-29 Google Llc Image compression with recurrent neural networks
MX2017017142A (es) 2016-12-02 2018-11-09 Avent Inc Sistema y metodo para la navegacion a un objeto anatomico objetivo en procedimientos basados en obtencion de imágenes medicas.
CN107728143B (zh) * 2017-09-18 2021-01-19 西安电子科技大学 基于一维卷积神经网络的雷达高分辨距离像目标识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5579439A (en) * 1993-03-24 1996-11-26 National Semiconductor Corporation Fuzzy logic design generator using a neural network to generate fuzzy logic rules and membership functions for use in intelligent systems
US6714665B1 (en) * 1994-09-02 2004-03-30 Sarnoff Corporation Fully automated iris recognition system utilizing wide and narrow fields of view
US6263122B1 (en) * 1998-09-23 2001-07-17 Hewlett Packard Company System and method for manipulating regions in a scanned image
US6639998B1 (en) * 1999-01-11 2003-10-28 Lg Electronics Inc. Method of detecting a specific object in an image signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0186585A1 *

Also Published As

Publication number Publication date
WO2001086585A1 (de) 2001-11-15
JP2003533785A (ja) 2003-11-11
US20030133611A1 (en) 2003-07-17
CN1440538A (zh) 2003-09-03

Similar Documents

Publication Publication Date Title
EP0780002B1 (de) Verfahren und vorrichtung zur rekonstruktion von in rasterform vorliegenden linienstrukturen
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
DE69516733T2 (de) Verfahren und System mit neuronalem Netzwerk zur Bestimmung der Lage und der Orientierung
DE69031774T2 (de) Adaptiver Gruppierer
DE69610689T2 (de) System zum Klassifizieren von Fingerabdrücken
DE69919464T2 (de) Elektronische Vorrichtung zur Bildausrichtung
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
WO2020192849A1 (de) Automatische erkennung und klassifizierung von adversarial attacks
DE4406020C1 (de) Verfahren zur automatisierten Erkennung von Objekten
WO2020049154A1 (de) Verfahren und vorrichtung zur klassifizierung von objekten
DE60037416T2 (de) Drehkorrektur und duplikatbildern detektion mit musterkorrelation mittels diskreter fourier-transform
DE112020000448T5 (de) Kameraselbstkalibrierungsnetz
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE69805280T2 (de) Gerät und verfahren zur mustererkennung.
EP1281157A1 (de) Verfahren und anordnung zum ermitteln eines objekts in einem bild
DE69230940T2 (de) Verfahren zum Ableiten der Merkmale von Zeichen in einem Zeichenerkennungssystem
EP1180258A1 (de) Mustererkennung mittels prüfung zusätzlicher merkmale nach teilverarbeitung
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102018100315A1 (de) Erzeugen von Eingabedaten für ein konvolutionelles neuronales Netzwerk
DE102019127622B4 (de) Abwehrgenerator, Verfahren zur Verhinderung eines Angriffs auf eine KI-Einheit und computerlesbares-Speichermedium
WO2021180470A1 (de) Verfahren zur qualitätssicherung eines beispielbasierten systems
EP0981802B1 (de) Verfahren zur identifizierung von fingerabdrücken
EP1359539A2 (de) Neurodynamisches Modell der Verarbeitung visueller Informationen
DE10126375B4 (de) Verfahren und System zur Erkennung von Objekten
DE10361838B3 (de) Verfahren zur Bewertung von Ähnlichkeiten realer Objekte

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20021023

AK Designated contracting states

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

17Q First examination report despatched

Effective date: 20030422

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20030903

RBV Designated contracting states (corrected)

Designated state(s): DE FR GB IT SE