EP2831806A1 - Verfahren zum detektieren einer perspektivisch verzerrten mehreckstruktur in einem bild eines identifikationsdokumentes - Google Patents

Verfahren zum detektieren einer perspektivisch verzerrten mehreckstruktur in einem bild eines identifikationsdokumentes

Info

Publication number
EP2831806A1
EP2831806A1 EP13712765.0A EP13712765A EP2831806A1 EP 2831806 A1 EP2831806 A1 EP 2831806A1 EP 13712765 A EP13712765 A EP 13712765A EP 2831806 A1 EP2831806 A1 EP 2831806A1
Authority
EP
European Patent Office
Prior art keywords
edge
polygonal
image
edges
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP13712765.0A
Other languages
English (en)
French (fr)
Inventor
Andreas Hartl
Gerhard REITMEYR
Olaf Dressel
Frank Fritze
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bundesdruckerei GmbH
Original Assignee
Bundesdruckerei GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bundesdruckerei GmbH filed Critical Bundesdruckerei GmbH
Publication of EP2831806A1 publication Critical patent/EP2831806A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image

Definitions

  • the present invention relates to the detection of a perspective distorted
  • Polygon structure for example, a perspective distorted rectangle, in an image of an identification document.
  • passports or ID cards or to verify the authenticity of an identification document is usually a picture of the
  • Document verification and mobile document testing devices such as smartphones are used.
  • One problem with capturing an image of an identification document by means of a camera of a mobile document validator is the perspective distortion that occurs with a tilt of the mobile document verification device relative to the camera
  • Identification document may arise.
  • An identification document points to
  • the quality of the captured image also depends on the quality of the camera as well as on the outside
  • the Hough transformation can be used, as described in the document C. R. Jung and R.
  • the invention is based on the finding that, in the case of a perspective distortion of a polygonal structure, originally straight edges of the polygonal structure continue to run in a straight line. Due to the perspective distortion, however, the lengths of the edges are changed, for example, shortened or lengthened. Thus, an inclined recording of a rectangle in the shape of a trapezoid appears with a long base, a shorter top and two sides running in alignment.
  • This finding allows a particularly simple detection of, for example, originally rectangular structures by detecting perspectively distorted quadrilateral structures whose edges run in a straight line within a tolerance range, for example +/- 5%. In this way perspective distorted polygonal structures can be detected particularly efficiently and, if necessary, equalized.
  • the invention relates to a method for detecting a perspective distorted polygon structure in an image of an identification document, with detecting edges in the image to obtain an edge image, detecting a plurality of polygonal edge structures in the edge image, determining a metric for any polygonal edge structure and selecting those polygonal ones
  • Edge structure as the perspective distorted polygonal structure, which has the largest metric.
  • the metrics of perspective distorted polyhedra can be compared to capture the largest metric.
  • the edge image is an image of edges detectable in the image and may have a plurality of polygonal edge structures, which may be, for example, the edges of the identification document or a passport side, or the edges of the geometric structures depicted therein.
  • the respective edge structure can be given, for example, by an edge course, for example by a gray level edge course.
  • the identification document can be one of the following documents, with or without electronics: Identity document, such as identity card, passport,
  • Access control card authorization card, company card, tax stamp or ticket, birth certificate, driver's license, motor vehicle pass or means of payment.
  • the identification document can be one or more layers or paper and / or
  • the identification document can be plastic-based.
  • the identification document can be constructed from plastic-based films which are joined together to form a card body by means of gluing and / or lamination, the films preferably having similar material properties.
  • the identification document may further comprise a chip for storing data.
  • edge detection is performed for detecting edges, in particular by means of the Canny algorithm.
  • the Canny algorithm any algorithms known per se for edge detection can be used.
  • the edge structures can be determined directly by the edges detected in this way.
  • the edges are subjected to a transformation to obtain transformed edges, which can be represented by lines.
  • the transformation can be the Hough transformation, by means of which defined line images are provided as edge structures.
  • Edge pairs detected According to one embodiment, parallel edge pairs with edges whose distance from each other does not exceed a predetermined threshold are detected.
  • Parallelism range can specify, for example, an angular range within which adjacent edge pairs are considered to be parallel.
  • Parallelism range may be, for example, a range of 0 °, +/- 1 °, +/- 2 °, +/- 5 ° or +/- 10 °.
  • the predetermined angular range within which the edges of an edge pair intersect may include, for example, an angular range of 89 ° to 91 ° or to from 85 ° to 95 ° or 80 ° to 100 or 50 ° to 140 °.
  • edge pairs are detected, which meet within the angular range.
  • it is possible to detect corners of the distorted polygon structure whereby it can be determined whether the distorted polygon structure is, for example, a quadrangular structure resulting from a tilted reception of a rectangle. Further, by detecting the corners, it can be determined whether the distorted polygon structure is in a certain region (ROI: Region of Interest) of the image or the identity document.
  • ROI Region of Interest
  • the polygonal edge structures are dilated.
  • the edge structures are perspectively enlarged in order, for example, to enable a more accurate detection of the perspectively distorted polygonal structure.
  • a number of pixels representing the respective edge structure is detected.
  • the pixels representing the respective edge structure are gray scale values, for example. By prior dilation of the edge structure, an even more accurate determination of the number of pixels actually representing the respective edge structure can be detected.
  • a relative number of the pixels representing the respective edge structure is detected, the relative number of the pixels representing the respective edge structure being based on a ratio between the pixel actually representing the respective edge structure and a maximum number for displaying the respective edge structure possible pixels is calculated.
  • the maximum number of pixels possible is the number of pixels that the
  • the metric of only those becomes polygonal
  • Edge structures determined which are arranged within a predetermined image section, so-called ROI. In this way, it is ensured that the focus in detecting the perspective distorted polygonal structure on those
  • Image section of the image is directed, in which a polygonal structure is also expected.
  • the perspective distorted polygonal structure is equalized by means of at least one equalization parameter, in particular equalized in perspective.
  • the equalization parameter indicates, for example, by what length amount the respective edge should be shortened or extended.
  • the at least one equalization parameter is calculated on the basis of average values of lengths of mutually opposite edges. In this case, for example, lengths of opposite edges are added and that
  • the perspective distorted polygonal structure is equalized by means of homography.
  • the perspective distorted polygon structure is a perspective distorted rectangle
  • the polygonal edge structures are quadrangular edge structures.
  • the edge structure is filtered to text or
  • the invention relates to a device, in particular a smartphone, for detecting a perspectively distorted polygonal structure in an image of an identification document, having an optical pick-up device for picking up the image and a processor which is configured to perform a detection of edges in the image in order to obtain an edge image, to detect a plurality of polygonal edge structures in the edge image, to determine a metric for each polygonal edge structure, and to select that polygonal edge structure as the perspective distorted polygon structure having the largest metric.
  • the optical recording device can be, for example, a camera of a smartphone.
  • the processor can be set up to carry out the method according to the invention for detecting a perspective-distorted polygonal structure in an image.
  • the invention relates to a computer program having a
  • Program code for carrying out the method according to the invention, when the program code is executed on a computer.
  • Fig. 1 is a schematic representation of an identification document
  • FIG. 2 shows a perspective distorted image of an identification document
  • 3 is a flowchart of a method for detecting a perspective distorted polygon structure
  • 4 is a flowchart of a method for detecting a perspective distorted polygon structure in an image
  • FIG. 5 shows a flowchart of a text filtering with a threshold value formation.
  • FIG. 1 schematically shows an identification document 101 with an image of a person 103 and a text field 105.
  • the border of the identification document 101 is a polygonal structure which is predetermined by the edges of the identification document 101 and, for example, rectangular. This means that adjacent edges or their extensions meet vertically. The same applies to the edges of the image 103 of the person forming a polygonal structure.
  • the text field 105 may be a text field of a machine-readable zone of the identification document 101, the edges of which form a polygonal structure, for example a rectangle.
  • the image shown in Fig. 2 201 may arise, if that for this example recording
  • the polygonal structures 101, 103, 105 are distorted in perspective and thereby converted into perspectively distorted polygonal structures, which are represented by polygonal edge structures 203, 205, 207.
  • the polygonal edge structures 203, 205 and 207 can be detected.
  • each polygonal edge structure 203, 205 and 207 corresponds to a perspectively distorted polygonal structure 101, 103, 105.
  • an ROI can be predetermined in order to match the respective perspective distorted polygonal structure, for example the
  • the edge image can have further edge image structures, for example curved lines, which are also detected during edge detection, and which are not shown for reasons of clarity.
  • the polygonal edge structure 203 is determined, for example, by the edges 209, 21 1, 213 and 215. The edges 209 and 21 1 run within one
  • Parallelism range, for example +/- 5 °, parallel to each other. However, they have different lengths.
  • the side edges 213 and 215, however, are aligned. Corner points of the polygonal edge structure 203 are formed by the intersections of the adjacent edges. These corner points can therefore be detected based on the edge structure.
  • the edge structure 209 may be converted to a line image by the Hough transform to give a more accurate one
  • Edge structures 205 and 207 Edge structures 205 and 207.
  • FIG. 3 shows a flowchart of a method for detecting a perspective distorted polygon structure in an image of an identification document.
  • the method includes detecting 301 edges in the image to obtain an edge image.
  • the Hough transformation can be carried out.
  • a plurality of polygonal edge structures are detected in the edge image.
  • the polygonal edge structures 205 and 207 can be detected.
  • a metric is determined for each detected polygonal edge structure.
  • the metric can be determined, for example, by determining the respective number of pixels or the respective relative number of pixels for the pixels representing the respective polygonal edge structure.
  • the polygonal edge structure is selected as the detected perspectively distorted polygon structure having the largest metric, for example, the largest number of pixels. Thereafter, the detected perspective distorted polygon structure can optionally be equalized by a reverse perspective distortion.
  • the method includes detecting edges 401 401 to capture an edge image having one or a plurality of polygonal edge structures.
  • the edge image may, for example, be in the form of an edge folder, which can be opened by means of the Canny Edge detector can be provided.
  • Such an edge detector is described in JS Canny, A Computational Approach to Edge Detection, PAMI, 1986.
  • an automatic threshold value selection can also be carried out, in which, for example, only edges above a predetermined brightness threshold, for example on the gray scale image, are taken into account.
  • the filtering 403 may be text filtering and is performed to remove, for example, high frequency structures that result in falsification of the line detection.
  • threshold-weighted image are calculated, as in the example
  • the filtering of the edge image can be done by local adaptive thresholding on the
  • Grayscale image and the labeling and evaluation of regions e.g.
  • a line detection 405 can be carried out, in which, for example, the Hough algorithm is used.
  • a plurality of lines within an ROI can be obtained. These lines or edges are grouped in pairs using a condition regarding their course of the course. So parallel edges or parallel lines are grouped in pairs. The same applies to edges or lines which meet or intersect within a predetermined angular range and thus represent corners of a polygonal structure.
  • a plurality of polygonal edge structures which as hypotheses, ie as a possible perspective distorted polygonal structures, or as Models can be saved in a list.
  • the list can be provided, for example, by means of a database.
  • the edge image can be dilated in order, for example, to take account of a specific curvature fraction. This would not take into account completely weighted lines along the current hypothesis.
  • To calculate the weight of each hypothesis consider the connecting lines between the four points of a hypothesis. The relative number of pixels placed along these lines on the edge image (support) is noted down to the length of the hypothesis. The hypothesis with the largest support is output as a result of the localization and can be used to equalize the enclosed area if it is a rectangular structure.
  • a hypothesis can be determined by intersections of two pairs of lines or edges whose angle lies within the angular range and differs by no more than thangle degrees and whose distance from one another is less than a threshold value thdistance. It can be assumed that the original image is an orthogonal, undistorted image of the wanted polygon structure.
  • the desired length of the rectified rectangular structure may be specified or determined as the target length.
  • pairs of lines can be considered taking into account the minimum distance and the
  • Directional deviation can be determined using the thresholds thdistance and thangle. For example, 90 ° ⁇ thangle ⁇ 0 °.
  • the threshold thdistance can be determined from the dimensions of the ROI. According to one embodiment, the intersection of two pieces forms one
  • hypotheses when the four intersections are within the ROI.
  • the hypotheses can be weighted by determining the respective metric.
  • that polygonal edge structure is selected which most likely represents the perspective distorted polygon structure.
  • metrics can be determined, as described above.
  • step of the equalization 41 1 the detected perspective distorted polygonal structure is equalized.
  • the method can according to an embodiment for the extraction of targets, so-called.
  • AR Augmented Reality
  • a known aspect ratio may be useful for the definition of the region relevant to the search, for example an edge structure, or replace the corresponding estimate in the equalization step.
  • a region of interest is understood as meaning an image region in which a search is to be made, for example, for a quadrangular polygonal structure.
  • rectangular edge structures can be rectified by rectification.
  • Origin image by averaging the lengths for each of the 2 pairs of lines involved. By using the desired target length, the width is now also defined. This determines 4 point correspondences.
  • the equalization can be carried out, for example, on the basis of a homography estimation and inverse mapping.
  • Comparison metric i. a measure of error to be determined. This can be
  • the perspective distorted polygonal structure is a perspective distorted rectangular structure.
  • an automatic rectification i. Equalization
  • undistorted corners can be determined by averaging over the pixel width and height on the basis of the corresponding hypothesis.
  • homographic equalization can be performed for rectification.
  • the degree of perspective distortion may be determined from a model rectangle.
  • the model rectangle can be distorted in perspective in such a way that a perspective distorted model structure results, which corresponds to the detected, perspective distorted polygonal structure.
  • a backward equalization applied to the perspectively distorted polygonal structure this can be equalized.
  • the method described above can be carried out, for example, by means of a stack-based or a recursive method.
  • look-up tables can be used to indicate forbidden and allowed directions of the edge pairs.
  • the image may be a video frame or serve as a tracking target, for example, to enable an immediate contactless interaction.
  • Identification document is planar and has a rectangular boundary, which results in a square edge image.
  • an aspect ratio is known. This aspect ratio can be determined by means of an estimate. As a result, an equalization of the perspective distorted
  • Polygon structure which in the case is a quadrangular structure, be particularly easily performed.
  • the identification document is localized by the determination of edges by an edge detection with an optional subsequent line detection by means of the Hough transformation.
  • four regions can first be processed according to the ROI. These four regions are an upper region, a lower region, a left region, or a right region. After this, a selection of parallel lines and subsequently of parallel pairs of lines or edges can be carried out. After a
  • the current hypotheses can be intersected based on features such as edge image support, connecting lines, aspect ratio, inner angle, and
  • the support can be determined, for example, by the number of pixels along the connecting lines.
  • a metric is calculated for the individual features whose weighted sum indicates the quality of the hypothesis.
  • the hypothesis with the maximum sum is output in each case. This information can be used together with the current aspect ratio for extraction and equalization of the identification document image.
  • Fig. 5 is a flowchart of a text filtering is shown with a
  • Threshold 501 which may be locally adaptive, a labeling 503 and a subsequent filtering 505 are performed in which, for example, a surface 507 or an aspect ratio 509 of a character are evaluated.
  • text filtering is based on the assumption that text areas may vary in both their nature and their spatial arrangement. Especially at
  • Text areas in the edge or line detection cause problems.
  • Text filtering is an efficient measure that merely assesses the geometry of the regions of a threshold image to filter out the textual components. This may for example be based on the assumption that the text regions are approximately square and filled to a certain extent.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit Detektieren (301) von Kanten in dem Bild, um ein Kantenbild zu erhalten, Erfassen (303) einer Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild, Bestimmen (305) einer Metrik für jede mehreckige Kantenstruktur, und Auswählen (307) derjenigen mehreckigen Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur, welche die größte Metrik aufweist.

Description

Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes
Die vorliegende Erfindung betrifft die Detektion einer perspektivisch verzerrten
Mehreckstruktur, beispielsweise eines perspektivisch verzerrten Rechtecks, in einem Bild eines Identifikationsdokumentes.
Zur Überprüfung von Personen anhand von Identifikationsdokumenten, wie
beispielsweise Reisepässen oder Personalausweisen bzw. zur Überprüfung der Echtheit eines Identifikationsdokumentes, wird üblicherweise ein Bild des
Identifikationsdokumentes mittels einer Kamera eines Dokumentenprüfgerätes
aufgenommen. Neben stationären Dokumentenprüfgeräten können zur
Dokumentenprüfung auch mobile Dokumentenprüfgeräte, wie etwa Smartphones, eingesetzt werden. Ein Problem bei der Aufnahme eines Bildes eines Identifikationsdokumentes mittels einer Kamera eines mobilen Dokumentenprüfgerätes ist die perspektivische Verzerrung, welche bei einer Neigung des mobilen Dokumentenprüfgerätes bezüglich des
Identifikationsdokumentes entstehen kann. Ein Identifikationsdokument weist
insbesondere eine Mehrzahl von Mehreckstrukturen, welche beispielsweise durch Ränder von Identifikationsdokumenten oder durch Berandungen darin angeordneter Felder, beispielsweise Datenfelder, dargestellt sind und bei einer optischen Aufnahme
perspektivisch verzerrt werden können. Dies erschwert beispielsweise das automatische Nachverfolgen (Tracking) dieser Mehreckstrukturen, um beispielsweise darin abgelegte Daten auszulesen.
Aufgrund einer Vielzahl von möglichen perspektivischen Verzerrungen des
Identifikationsdokumentes in einem Bild können diese nicht in einem
Dokumentenprüfgerät oder in einem Nachverfolgungssystem (Tracking System) berücksichtigt werden.
Bei Verwendung eines mobilen Dokumentenprüfgerätes hängt die Qualität des aufgenommenen Bildes zudem von der Qualität der Kamera sowie von äußeren
Umwelteinflüssen, wie beispielsweise Reflexionen und dergleichen, ab. Dies kann die Detektierbarkeit von Mehreckstrukturen in einem Bild weiter beeinträchtigen oder sogar dazu führen, dass ein mobiles Dokumentenprüfgerät mit einer Kamera mit
unzureichenden Abbildungseigenschaften zur Detektion nicht geeignet ist.
Zur Lokalisierung von Mehreckstrukturen wie Rechtecken kann beispielsweise die Hough- Transformation verwendet werden, wie sie in der Druckschrift C. R. Jung und R.
Schramm, Rectangle Detection Based on a Window Hough Transform, CGIP, 2004, beschrieben ist. Dieses Verfahren ist jedoch nicht robust im Hinblick auf perspektivische Verzerrungen. Es ist daher die Aufgabe der vorliegenden Erfindung, ein effizientes Konzept zum
Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines
Identifikationsdokumentes zu schaffen.
Diese Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungsformen sind Gegenstand der abhängigen Ansprüche, der Beschreibung sowie der beiliegenden Figuren.
Die Erfindung basiert auf der Erkenntnis, dass bei einer perspektivischen Verzerrung einer Mehreckstruktur ursprünglich geradlinige Kanten der Mehreckstruktur weiterhin geradlinig verlaufen. Durch die perspektivische Verzerrung werden jedoch die Längen der Kanten verändert, beispielsweise verkürzt oder verlängert. So erscheint eine geneigte Aufnahme eines Rechtecks in der Gestalt eines Trapezes mit einer langen Grundseite, einer kürzeren Oberseite und zwei fluchtend aufeinander zulaufenden Seiten. Diese Erkenntnis ermöglicht eine besonders einfache Detektion von beispielsweise ursprünglich rechteckigen Strukturen durch Detektion von perspektivisch verzerrten Viereckstrukturen, deren Kanten innerhalb eines Toleranzbereichs, beispielsweise +/- 5%, geradlinig verlaufen. Auf diese Weise können perspektivisch verzerrte Mehreckstrukturen besonders effizient erkannt und gegebenenfalls entzerrt werden. Gemäß einem Aspekt betrifft die Erfindung ein Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit Detektieren von Kanten in dem Bild, um ein Kantenbild zu erhalten, Erfassen einer Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild, Bestimmen einer Metrik für jede mehreckige Kantenstruktur und Auswählen derjenigen mehreckigen
Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur, welche die größte Metrik aufweist. Die Metriken der perspektivisch verzerrten Mehreckstrukturen können miteinander verglichen werden, um die größte Metrik zu erfassen. Das Kantenbild ist eine Abbildung von in dem Bild detektierbaren Kanten und kann mehrere mehreckige Kantenstrukturen aufweisen, welche beispielsweise durch die Ränder des Identifikationsdokumentes oder einer Seite eines Reisepasses oder durch die Ränder der darin abgebildeten geometrischen Strukturen gegeben sein können. Die jeweilige Kantenstruktur kann beispielsweise durch einen Kantenverlauf, beispielsweise durch einen Graustufenkantenverlauf, gegeben sein.
Das Identifikationsdokument kann eines der folgenden Dokumente, mit oder ohne Elektronik, sein: Identitätsdokument, wie Personalausweis, Reisepass,
Zugangskontrollausweis, Berechtigungsausweis, Unternehmensausweis, Steuerzeichen oder Ticket, Geburtsurkunde, Führerschein, Kraftfahrzeugausweis oder Zahlungsmittel. Das Identifikationsdokument kann ein- oder mehrlagig bzw. papier- und/oder
kunststoffbasiert sein. Das Identifikationsdokument kann aus kunststoff basierten Folien aufgebaut sein, welche zu einem Kartenkörper mittels Verkleben und/oder Laminieren zusammengefügt werden, wobei die Folien bevorzugt ähnliche stoffliche Eigenschaften aufweisen. Das Identifikationsdokument kann ferner einen Chip zum Speichern von Daten umfassen.
Gemäß einer Ausführungsform wird zum Detektieren von Kanten eine Kantenerkennung, insbesondere mittels des Canny-Algorithmus, durchgeführt. Neben dem Canny- Algorithmus können beliebige, an sich bekannte Algorithmen zur Kantenerkennung herangezogen werden. Die Kantenstrukturen können unmittelbar durch die auf diese Weise detektierten Kanten bestimmt sein.
Gemäß einer Ausführungsform werden die Kanten einer Transformation unterzogen, um transformierte Kanten zu erhalten, welche durch Linien dargestellt werden können. Bei der Transformation kann es sich um die Hough-Transformation handeln, mittels welcher definierte Linienbilder als Kantenstrukturen bereitgestellt werden. Gemäß einer Ausführungsform werden zur Erfassung jeder mehreckigen Kantenstruktur innerhalb eines Parallelitätsbereichs parallele Kantenpaare und/oder innerhalb eines vorbestimmten Winkelbereichs aufeinander zulaufende oder sich schneidende
Kantenpaare erfasst. Gemäß einer Ausführungsform werden parallele Kantenpaare mit Kanten, deren Abstand zueinander einen vorbestimmten Schwellwert nicht überschreitet, erfasst. Der
Parallelitätsbereich kann beispielsweise einen Winkelbereich angeben, innerhalb dessen nebeneinander verlaufende Kantenpaare als parallel verlaufend gelten. Der
Parallelitätsbereich kann beispielsweise einen Bereich von 0°, +/- 1 °, +/- 2°, +/- 5° oder +/- 10° betragen. Dadurch werden parallele Kantenpaare, wie etwa die parallel verlaufenden Seiten eines Trapezes, erfasst.
Der vorbestimmte Winkelbereich, innerhalb dessen die Kanten eines Kantenpaars sich schneiden, kann beispielsweise einen Winkelbereich von 89° bis 91 ° oder bis von 85° bis 95° oder 80° bis 100 oder 50° bis 140° umfassen. Auf diese Weise werden Kantenpaare erfasst, welche innerhalb des Winkelbereichs aufeinander treffen. Dadurch ist es möglich, Ecken der verzerrten Mehreckstruktur zu erfassen, wodurch festgestellt werden kann, ob die verzerrte Mehreckstruktur beispielsweise eine Viereckstruktur ist, die aus einer verkippten Aufnahme eines Rechtecks resultiert. Durch die Erfassung der Ecken kann ferner festgestellt werden, ob die verzerrte Mehreckstruktur sich in einem bestimmten Bereich (ROI: Region of Interest) des Bildes bzw. des Identitätsdokumentes, befindet.
Gemäß einer Ausführungsform werden die mehreckigen Kantenstrukturen dilatiert. Auf diese Weise werden die Kantenstrukturen beispielsweise perspektivisch vergrößert, um beispielsweise eine genauere Detektion der perspektivisch verzerrten Mehreckstruktur zu ermöglichen.
Gemäß einer Ausführungsform wird zur Bestimmung der Metrik eine Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst. Die das jeweilige Kantenstruktur darstellenden Pixel sind beispielsweise Graustufenwerte. Durch die vorherige Dilatation der Kantenstruktur kann eine noch genauere Bestimmung der Anzahl der die jeweilige Kantenstruktur tatsächlich darstellenden Pixel erfasst werden. Gemäß einer Ausführungsform wird zur Bestimmung der Metrik eine relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst, wobei die relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel anhand eines Verhältnisses zwischen der die jeweilige Kantenstruktur tatsächlich darstellenden Pixel und einer maximalen Anzahl von zur Darstellung der jeweiligen Kantenstruktur möglichen Pixeln berechnet wird. Die maximale Anzahl von möglichen Pixeln ist diejenige Anzahl der Pixel, welche die
Kantenstruktur bei der Annahme eines unterbrechungsfreien Kantenverlaufs darstellen würde.
Gemäß einer Ausführungsform wird die Metrik von nur denjenigen mehreckigen
Kantenstrukturen bestimmt, welche innerhalb eines vorbestimmten Bildausschnitts, sogenannter ROI, angeordnet sind. Auf diese Weise wird sichergestellt, dass der Fokus bei der Detektion der perspektivisch verzerrten Mehreckstruktur auf denjenigen
Bildausschnitt des Bildes gerichtet wird, in dem eine Mehreckstruktur auch zu erwarten ist.
Gemäß einer Ausführungsform wird die perspektivisch verzerrte Mehreckstruktur mittels zumindest eines Entzerrungsparameters entzerrt, insbesondere perspektivisch entzerrt. Der Entzerrungsparameter gibt beispielsweise an, um welchen Längenbetrag die jeweilige Kante verkürzt oder verlängert werden soll.
Gemäß einer Ausführungsform wird der zumindest eine Entzerrungsparameter anhand von Mittelwerten von Längen einander gegenüberliegenden Kanten berechnet. Hierbei werden beispielsweise Längen von gegenüberliegenden Kanten addiert und das
Additionsergebnis wird halbiert, um den Mittelwert zu erhalten.
Gemäß einer Ausführungsform wird die perspektivisch verzerrte Mehreckstruktur mittels einer Homographie entzerrt.
Gemäß einer Ausführungsform ist die perspektivisch verzerrte Mehreckstruktur ein perspektivisch verzerrtes Rechteck, und die mehreckigen Kantenstrukturen sind viereckige Kantenstrukturen. Gemäß einer Ausführungsform wird die Kantenstruktur gefiltert, um Text- bzw.
Buchstaben- oder Zahlenelemente aus dem Bild zu entfernen. Hierbei kann
beispielsweise eine Hochfrequenzfilterung oder eine Mustererkennung oder eine Graustufendetektion durchgeführt werden. Gemäß einem weiteren Aspekt betrifft die Erfindung eine Vorrichtung, insbesondere ein Smartphone, zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit einer optischen Aufnahmeeinrichtung zum Aufnehmen des Bildes und einem Prozessor, welcher eingerichtet ist, eine Detektion von Kanten in dem Bild durchzuführen, um ein Kantenbild zu erhalten, eine Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild zu erfassen, eine Metrik für jede mehreckige Kantenstruktur zu bestimmen, und diejenige mehreckige Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur auszuwählen, welche die größte Metrik aufweist. Die optische Aufnahmeeinrichtung kann beispielsweise eine Kamera eines Smartphones sein. Der Prozessor kann beispielsweise eingerichtet sein, das erfindungsgemäße Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild auszuführen. Gemäß einem Aspekt betrifft die Erfindung ein Computerprogramm mit einem
Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn der Programmcode auf einem Computer ausgeführt wird.
Weitere Ausführungsformen werden Bezug nehmend auf die beiliegenden Zeichnungen erläutert. Es zeigen:
Fig. 1 eine schematische Darstellung eines Identifikationsdokumentes;
Fig. 2 ein perspektivisch verzerrtes Bild eines Identifikationsdokumentes;
Fig. 3 ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur; Fig. 4 ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild; und
Fig. 5 ein Ablaufdiagramm einer Textfilterung mit einer Schwellwertbildung. Fig. 1 zeigt schematisch ein Identifikationsdokument 101 mit einer Abbildung einer Person 103 sowie einem Textfeld 105. Die Umrandung des Identifikationsdokumentes 101 ist eine Mehreckstruktur, welche durch die Kanten des Identifikationsdokumentes 101 vorgegeben und beispielsweise rechteckig ist. Dies bedeutet, dass benachbarte Kanten bzw. deren Verlängerungen senkrecht aufeinandertreffen. Dasselbe gilt für die eine Mehreckstruktur bildenden Kanten der Abbildung 103 der Person. Das Textfeld 105 kann ein Textfeld einer Maschinenlesbaren Zone des Identifikationsdokumentes 101 sein, dessen Kanten eine Mehreckstruktur, beispielsweise ein Rechteck, bilden.
Bei einer Aufnahme des in Fig. 1 dargestellten Identifikationsdokumentes kann das in Fig. 2 dargestellte Bild 201 entstehen, falls das für diese Aufnahme beispielweise
herangezogene Smartphone gegenüber dem in Fig. 1 dargestellten Dokumentes geneigt gehalten wird. Dadurch entsteht ein perspektivisch verzerrtes, trapezförmiges Bild des Identifikationsdokumentes 101 mit einem Kantenbild mit Kantenstrukturen 203, 205 und 207, welche jeweils durch eine perspektivische Verzerrung der Mehreckstrukturen 101 , 103, 105 entstehen.
Bei der perspektivischen Verzerrung werden die Mehreckstrukturen 101 , 103, 105 perspektivisch verzerrt und dadurch in perspektivisch verzerrte Mehreckstrukturen überführt, welche durch mehreckige Kantenstrukturen 203, 205, 207 repräsentiert sind. Durch eine Kantendetektion können die mehreckigen Kantenstrukturen 203, 205 und 207 detektiert werden. In diesem Ausführungsbeispiel entspricht daher jede mehreckige Kantenstruktur 203, 205 und 207 einer perspektivisch verzerrten Mehreckstruktur 101 , 103, 105. Hierbei kann beispielsweise eine ROI vorgegeben sein, um die jeweils interessierende perspektivisch verzerrte Mehreckstruktur, beispielsweise die
perspektivisch verzerrte Mehreckstruktur 101 zu detektieren. Das Kantenbild kann jedoch weitere Kantenbildstrukturen, beispielsweise gekrümmte Linien, aufweisen, welche bei der Kantendetektion mitdetektiert werden, und welche aus Gründen der Übersichtlichkeit nicht dargestellt sind. So wird die mehreckige Kantenstruktur 203 beispielsweise durch die Kanten 209, 21 1 , 213 und 215 bestimmt. Dabei verlaufen die Kanten 209 und 21 1 innerhalb eines
Parallelitätsbereiches, beispielsweise +/- 5°, parallel zueinander. Sie weisen jedoch unterschiedliche Längen auf. Die Seitenkanten 213 und 215 verlaufen hingegen fluchtend. Durch die Schnittpunkte der benachbarten Kanten werden jeweils Eckpunkte der mehreckigen Kantenstruktur 203 gebildet. Diese Eckpunkte können daher anhand der Kantenstruktur detektiert werden. Optional kann die Kantenstruktur 209 mittels der Hough-Transformation in ein Linienbild überführt werden, um einen genaueren
Kantenverlauf zu erhalten. Ähnliche Ausführungen gelten für die mehreckigen
Kantenstrukturen 205 und 207.
Fig. 3 zeigt ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes. Das Verfahren umfasst das Detektieren 301 von Kanten in dem Bild, um ein Kantenbild zu erhalten. Hierbei kann die Hough-Transformation durchgeführt werden. Nachfolgend wird im Schritt des Erfassens 303 eine Mehrzahl von mehreckigen Kantenstrukturen in den Kantenbild erfasst. Hierbei können beispielsweise die mehreckigen Kantenstrukturen 205 und 207 erfasst werden. Im nachfolgenden Schritt des Bestimmens 305 wird eine Metrik für jede detektierte mehreckige Kantenstruktur bestimmt. Die Metrik kann beispielsweise durch die Bestimmung der jeweiligen Pixelanzahl bzw. der jeweiligen relativen Pixelanzahl für die die jeweilige mehreckige Kantenstruktur darstellenden Pixel bestimmt werden.
Im Schritt des Auswählens 307 wird diejenige mehreckige Kantenstruktur als die detektierte, perspektivisch verzerrte Mehreckstruktur ausgewählt, welche die größte Metrik, beispielsweise die größte Anzahl von Pixeln, aufweist. Danach kann die detektierte perspektivisch verzerrte Mehreckstruktur optional durch eine perspektivische Rückwärtsverzerrung entzerrt werden.
Fig. 4 zeigt ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild gemäß einer weiteren Ausführungsform. Das Verfahren umfasst das Detektieren 401 von Kanten, um ein Kantenbild mit einer oder mit einer Mehrzahl von mehreckigen Kantenstrukturen zu erfassen. Das Kantenbild kann beispielsweise in der Gestalt einer Kantenmappe vorliegen, welche mittels des Canny- Kantendetektors bereitgestellt werden kann. Ein derartiger Kantendetektor ist in der Druckschrift J. S. Canny, A Computational Approach to Edge Detection, PAMI, 1986, beschrieben. Hierbei kann auch eine automatische Schwellwertauswahl durchgeführt werden, bei der beispielsweise ausschließlich Kanten oberhalb eines vorbestimmten Helligkeitsschwellwerts, beispielswiese am Graustufenbild, berücksichtigt werden.
In dem optional darauf folgenden Schritt der Filterung 403 werden textartige Strukturen gefiltert bzw. aus der Kantenstruktur entfernt. Die Filterung 403 kann eine Textfilterung sein und wird durchgeführt, um beispielsweise Hochfrequenzstrukturen zu entfernen, welche zu einer Verfälschung der Kanten - bzw. Liniendetektion führen. Hierbei können die beispielsweise miteinander verbundenen Komponenten eines adaptiv
schwellwertgewichteten Bildes berechnet werden, wie es beispielsweise in der
Druckschrift F. Shafait, D. Keysers, T. M. Breuel, Efficient Implementation of Local Adaptive Thresholding Techniques Using Integral Images, SPIE, 2008, beschrieben ist. Hier können Kriterien, wie das Seitenverhältnis, die relative Höhe und die Menge der Pixel der jeweiligen Kantenstruktur berücksichtigt werden.
Die Filterung des Kantenbildes kann durch lokale adaptive Schwellwertbildung am
Graufstufenbild und die Erfassung (Labeling) sowie Beurteilung von Regionen, z.B.
einzelner Buchstaben, anhand deren Seitenverhältnises, Füllgrads und relativer Länge der kürzeren Seite durchgeführt werden. Dadurch kann die Anzahl der Hypothesen, also der zur berücksichtigenden Kantenstrukturen, reduziert werden, was die Robustheit des Algorithmus erhöht und dessen Komplexität reduziert.
Hiernach kann optional eine Linienerkennung 405 durchgeführt werden, bei der beispielsweise der Hough-Algorithmus eingesetzt wird. Hier kann beispielsweise eine Vielzahl von Linien innerhalb einer ROI erhalten werden. Diese Linien bzw. Kanten werden paarweise unter Verwendung einer Bedingung bezüglich deren Richtungsverläufe gruppiert. So werden parallele Kanten bzw. parallele Linien paarweise gruppiert. Dasselbe gilt für Kanten oder Linien, die innerhalb eines vorbestimmten Winkelbereichs aufeinander treffen bzw. einander kreuzen und somit Ecken einer Mehreckstruktur darstellen. Auf diese Weise entsteht eine Mehrzahl von mehreckigen Kantenstrukturen, welche als Hypothesen, d.h. als mögliche perspektivisch verzerrte Mehreckstrukturen, oder als Modelle in einer Liste gespeichert werden können. Die Liste kann beispielsweise mittels einer Datenbank bereitgestellt werden.
Im optional nachfolgenden Schritt der Auswahl 409 wird beispielsweise festgestellt, ob die Eckpunkte der Kantenstrukturen innerhalb der ROI liegen, um diejenigen
Kantenstrukturen zu berücksichtigen, welche potentielle perspektivisch verzerrte
Mehreckstrukturen darstellen.
In einem optional nachfolgenden Schritt kann das Kantenbild dilatiert werden, um beispielsweise einen bestimmten Krümmungsanteil zu berücksichtigen. Damit könnten nicht gänzlich entlang der aktuellen Hypothese verlaufende Linien in der Gewichtung berücksichtigt werden. Zur Berechnung des Gewichts jeder einzelnen Hypothese werden die Verbindungslinien zwischen den vier Punkten einer Hypothese betrachtet. Dabei wird die relative Anzahl der entlang dieser Linien am Kantenbild gesetzten Pixel (Support) zur Länge der Hypothese notiert. Die Hypothese mit dem größten Support wird als Ergebnis der Lokalisierung ausgegeben und kann zur Entzerrung des eingeschlossenen Bereiches verwendet werden, falls es sich um eine rechteckige Struktur handelt. Eine Hypothese kann durch Schnittpunkte von zwei Paaren von Linien oder Kanten bestimmt werden, deren Winkel innerhalb des Winkelbereichs liegt und sich um nicht mehr als thangle Grad unterscheidet und deren Abstand zueinander kleiner als ein Schwellwert thdistance ist. Dabei kann angenommen werden, dass das Ursprungsbild ein orthogonales, unverzerrtes Bild der gesuchten Mehreckstruktur ist.
Für die Entzerrung kann gemäß einer Ausführungsform als Ziellänge die gewünschte Länge der entzerrten rechteckigen Struktur angegeben oder bestimmt werden. So können Paare von Linien unter Berücksichtigung des minimalen Abstandes und der
Richtungsabweichung unter Verwendung der Schwellwerte thdistance und thangle bestimmt werden. Beispielsweise gilt 90° < thangle < 0°. Der Schwellwert thdistance kann aus den Abmessungen der ROI bestimmt werden. Gemäß einer Ausführungsform bildet die Verschneidung von je zwei Stück eine
Hypothese, wenn sich die vier Schnittpunkte innerhalb der ROI befinden. Die Hypothesen können durch die Bestimmung der jeweiligen Metrik gewichtet werden. In einem nachfolgenden Schritt wird diejenige mehreckige Kantenstruktur ausgewählt, welche am wahrscheinlichsten die perspektivisch verzerrte Mehreckstruktur darstellt. Hierbei können beispielsweise Metriken bestimmt werden, wie es vorstehend beschrieben wurde. In einem weiteren, optionalen Schritt der Entzerrung 41 1 wird die detektierte perspektivisch verzerrte Mehreckstruktur entzerrt.
Das Verfahren kann gemäß einer Ausführungsform zur Extraktion von Zielen, sog.
Targets, für mobile AR Anwendungen (AR: Augmented Reality) eingesetzt werden.
Zur Detektion oder Entzerrung einer perspektivisch Verzerrten Mehreckstruktur kann ein bekanntes Seitenverhältnis für die Definition des zur Suche relevanten Bereiches, beispielsweise einer Kantenstruktur nützlich sein oder die entsprechende Schätzung im Entzerrungsschritt ersetzen.
Unter einer Region of Interest (ROI) wird gemäß einer Ausführungsform ein Bildbereich verstanden, in welchem nach einer beispielsweise viereckigen Mehreckstruktur gesucht werden soll. Dadurch kann die Robustheit erhöht und die Verkürzung der Laufzeit des Verfahrens erreicht werden.
Gemäß einer Ausführungsform können rechteckige Kantenstrukturen durch Rektifizierung entzerrt werden. Hierzu kann eine Schätzung des Seitenverhältnisses des
Ursprungsbildes durch Mittelung der Längen für jedes der 2 beteiligten Linienpaare durchgeführt werden. Durch Verwendung der gewünschten Ziellänge ist nun auch die Breite definiert. Damit sind 4 Punktkorrespondenzen bestimmt. Die Entzerrung kann beispielweise auf der Basis einer Homographieschätzung und inverser Abbildung durchgeführt werden.
Zur Überprüfung der Entzerrung rechteckiger Kantenstrukturen kann eine
Vergleichsmetrik, d.h. ein Fehlermaß, bestimmt werden. Hierbei können werden
Punktkorrespondenzen zwischen dem Referenzviereck rref und dem extrahierten Viereck rex gebildet. Der relative Fehler e wird als Verhältnis der maximalen Abweichung der Korrespondenzen in Bezug auf die kleinste Seitenlänge dref_min des Referenzvierecks angegeben: ex max
e
e nirt
Durch visuelle Inspektion wurde eine obere Schranke von beispielsweise 3.5% bestimmt, bei welcher ein Bezug auf die Qualität verwertbarer Lösung angenommen werden kann. Unter der Annahme, dass die erfasste Mehreckstruktur eine Region darstellt, welche als ein Nachverfolgungsobjekt (Tracking Target) verwendet wird, kann oft davon
ausgegangen werden, dass es sich bei der perspektivisch verzerrten Mehreckstruktur um eine perspektivisch verzerrte Rechteckstruktur handelt. Auf diese Weise kann eine automatische Rektifizierung, d.h. Entzerrung, durchgeführt werden. Hierbei können beispielsweise unverzerrte Ecken durch eine Mittelung über die Pixelbreite und -höhe anhand der entsprechenden Hypothese bestimmt werden. Mit dieser Information kann eine homographische Entzerrung für eine Rektifizierung durchgeführt werden.
Gemäß einer weiteren Ausführungsform kann der Grad der perspektivischen Verzerrung anhand eines Modellrechtecks bestimmt werden. Hierbei kann das Modellrechteck derart perspektivisch verzerrt werden, dass eine perspektivisch verzerrte Modellstruktur entsteht, welche der detektierten, perspektivisch verzerrten Mehreckstruktur entspricht. Durch eine auf die perspektivisch verzerrte Mehreckstruktur angewendete Rückwärtsentzerrung kann diese entzerrt werden.
Das vorstehend beschriebene Verfahren kann beispielsweise mittels eines Stackbasierten oder eines rekursiven Verfahrens durchgeführt werden. Um die
Verarbeitungsgeschwindigkeit noch weiter zu erhöhen, können Look-up-Tabellen verwendet werden, um verbotene und zugelassene Richtungen der Kantenpaare anzugeben.
Aufgrund der durchzuführenden Kantendetektion ist es nicht notwendig, irgendwelche Annahmen über einen Inhalt eines Bildhintergrundes oder der zu extrahierenden bzw. zu detektierenden Mehreckstruktur zu treffen. Denn zur Kantendetektion ist es ausreichend, anzunehmen, dass die Kanten sich von dem Hintergrund visuell abheben. Gemäß einer Ausführungsform kann es sich bei dem Bild um ein Video Frame handeln oder als Tracking Target dienen, um beispielsweise eine sofortige berührungslose Interaktion zu ermöglichen.
Gemäß einer Ausführungsform kann angenommen werden, dass das
Identifikationsdokument planar ist und eine rechteckige Begrenzung besitzt, welche ein viereckiges Kantenbild ergibt. Darüber hinaus kann angenommen werden, dass ein Seitenverhältnis bekannt ist. Dieses Seitenverhältnis kann mittels einer Schätzung bestimmt werden. Hierdurch kann eine Entzerrung der perspektivisch verzerrten
Mehreckstruktur, welche in dem Fall eine Viereckstruktur ist, besonders einfach durchgeführt werden. Die Lokalisierung des Identifikationsdokumentes erfolgt durch die Ermittlung von Kanten durch eine Kantendetektion mit einer optionalen nachfolgenden Liniendetektion mittels der Hough-Transformation. Hierbei können vier Regionen zunächst entsprechend der ROI verarbeitet werden. Bei diesen vier Regionen handelt es sich um eine obere Region, um eine untere Region, um eine linke Region oder um eine rechte Region. Hiernach kann eine Selektion von parallelen Linien und nachfolgend von parallelen Paaren von Linien bzw. Kanten durchgeführt werden. Nach einer
Verschneidung können die aktuellen Hypothesen anhand von Merkmalen wie Support im Kantenbild, anhand der Verbindungslinien, Seitenverhältnis, innerer Winkel und
Orientierung bewertet werden. Der Support kann hierbei beispielsweise durch die Anzahl der Pixel entlang der Verbindungslinien bestimmt werden. Hierbei wird für die einzelnen Merkmale eine Metrik berechnet, deren gewichtete Summe die Qualität der Hypothese angibt. Es wird jeweils die Hypothese mit der maximalen Summe ausgegeben. Diese Information kann zusammen mit dem aktuellen Seitenverhältnis zur Extraktion und Entzerrung des Identifikationsdokumentesbildes verwendet werden.
In Fig. 5 ist ein Ablaufdiagramm einer Textfilterung dargestellt mit einer
Schwellwertbildung 501 , welche lokal adaptiv sein kann, einem Labelling 503 sowie einer anschließenden Filterung 505 durchgeführt werden, bei der beispielsweise eine Fläche 507 oder ein Seitenverhältnis 509 eines Zeichens ausgewertet werden.
Die Textfilterung basiert beispielsweise auf der Annahme, dass Textbereiche sowohl in ihrer Art als auch in ihrer räumlichen Anordnung variieren können. Besonders bei
Identifikationsdokumenten mit Textteilen, welche sich annähernd über die gesamte Länge des Dokumentes erstrecken, wie beispielsweise maschinenlesbare Zeilen, können
Textbereiche bei der Kanten- bzw. Liniendetektion zu Problemen führen. Die Textfilterung ist eine effiziente Maßnahme, welche lediglich die Geometrie der Regionen eines Schwellwertbildes beurteilt, um die Textbestandteile herauszufiltern. Dies kann beispielsweise auf der Annahme beruhen, dass die Textregionen annähernd quadratisch und zu einem gewissen Teil gefüllt sind.
Bezugszeichenliste
101 Identifikationsdokument
103 Abbildung einer Person
105 Textfeld
201 Bild
203 mehreckige Kantenstruktur
205 mehreckige Kantenstruktur
207 mehreckige Kantenstruktur
209 Kante
21 1 Kante
213 Kante
215 Kante
301 Detektieren
303 Erfassen
305 Bestimmen
307 Auswählen
401 Detektieren von Kanten
403 Textfilterung
405 Linienerkennung
407 Modellbildung
409 Auswahl
41 1 Entzerrung
501 Schwellwertbildung
503 Labelling
505 Filterung
507 Fläche
509 Seitenverhältnis

Claims

PATENTANSPRÜCHE
1 . Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit:
Detektieren (301 ) von Kanten in dem Bild, um ein Kantenbild zu erhalten;
Erfassen (303) einer Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild; Bestimmen (305) einer Metrik für jede mehreckige Kantenstruktur; und
Auswählen (307) derjenigen mehreckigen Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur, welche die größte Metrik aufweist.
2. Verfahren nach Anspruch 1 , bei dem zum Detektieren (301 ) von Kanten eine Kantenerkennung, insbesondere mittels des Canny-Algorithmus, durchgeführt wird.
3. Verfahren nach Anspruch 2, bei dem die detektierten Kanten mittels einer
Transformation, insbesondere der Hough-Transformation, in transformierte Kanten, insbesondere Linien, überführt werden.
4. Verfahren nach einem der vorstehenden Ansprüche, bei dem zum Erfassen (303) einer mehreckigen Kantenstruktur innerhalb eines Parallelitätsbereichs parallele
Kantenpaare und/oder innerhalb eines vorbestimmten Winkelbereichs aufeinander zulaufende oder sich schneidende Kantenpaare erfasst werden.
5. Verfahren nach Anspruch 4, bei dem nur parallele Kantenpaare mit Kanten, deren Abstand zueinander einen vorbestimmten Schwellwert nicht überschreitet, erfasst werden.
6. Verfahren nach einem der vorstehenden Ansprüche, bei dem die mehreckigen Kantenstrukturen zur Bestimmung der Metrik dilatiert werden.
7. Verfahren nach einem der vorstehenden Ansprüche, bei dem zum Bestimmen (305) der Metrik eine Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst wird.
8. Verfahren nach einem der vorstehenden Ansprüche, bei dem zum Bestimmen (305) der Metrik eine relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst wird, wobei die relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel anhand eines Verhältnisses zwischen der die jeweilige Kantenstruktur tatsächlich darstellenden Pixel und einer maximalen Anzahl von zur Darstellung der jeweiligen Kantenstruktur möglichen Pixeln berechnet wird.
9. Verfahren nach einem der vorstehenden Ansprüche, bei dem die Metrik von nur denjenigen mehreckigen Kantenstrukturen bestimmt wird, welche innerhalb eines vorbestimmten Bildausschnitts angeordnet sind.
10. Verfahren nach einem der vorstehenden Ansprüche, bei dem die perspektivisch verzerrte Mehreckstruktur mittels zumindest eines Entzerrungsparameters entzerrt, insbesondere perspektivisch entzerrt, wird.
1 1 . Verfahren nach Anspruch 10, bei dem der zumindest ein Entzerrungsparameter anhand von Mittelwerten von Längen einander gegenüberliegenden Kanten berechnet wird.
12. Verfahren nach einem der vorstehenden Ansprüche, bei dem die perspektivisch verzerrte Mehreckstruktur mittels einer Homographieschätzung entzerrt wird.
13. Verfahren nach einem der vorstehenden Ansprüche, bei dem die perspektivisch verzerrte Mehreckstruktur ein perspektivisch verzerrtes Rechteck ist und bei dem die mehreckigen Kantenstrukturen viereckige Kantenstrukturen sind.
14. Vorrichtung, insbesondere ein Smartphone, zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit: einer optischen Aufnahmeeinrichtung zum Aufnehmen des Bildes; und einem Prozessor, welcher eingerichtet ist, eine Detektion von Kanten in dem Bild durchzuführen, um ein Kantenbild zu erhalten, eine Mehrzahl von mehreckigen
Kantenstrukturen in dem Kantenbild zu erfassen, eine Metrik für jede mehreckige
Kantenstruktur zu bestimmen, und diejenige mehreckige Kantenstruktur als die
perspektivisch verzerrte Mehreckstruktur auszuwählen, welche die größte Metrik aufweist.
15. Computerprogramm mit einem Programmcode zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 13, wenn der Programmcode auf einem Computer ausgeführt wird.
EP13712765.0A 2012-03-29 2013-03-26 Verfahren zum detektieren einer perspektivisch verzerrten mehreckstruktur in einem bild eines identifikationsdokumentes Ceased EP2831806A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102012205079A DE102012205079A1 (de) 2012-03-29 2012-03-29 Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes
PCT/EP2013/056389 WO2013144136A1 (de) 2012-03-29 2013-03-26 Verfahren zum detektieren einer perspektivisch verzerrten mehreckstruktur in einem bild eines identifikationsdokumentes

Publications (1)

Publication Number Publication Date
EP2831806A1 true EP2831806A1 (de) 2015-02-04

Family

ID=48013985

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13712765.0A Ceased EP2831806A1 (de) 2012-03-29 2013-03-26 Verfahren zum detektieren einer perspektivisch verzerrten mehreckstruktur in einem bild eines identifikationsdokumentes

Country Status (3)

Country Link
EP (1) EP2831806A1 (de)
DE (1) DE102012205079A1 (de)
WO (1) WO2013144136A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014207439A1 (de) * 2014-04-17 2015-10-22 IDnow GmbH Maskierung von sensiblen Daten bei der Benutzer-Identifikation
DE102015108330A1 (de) * 2015-05-27 2016-12-01 Bundesdruckerei Gmbh Elektronisches Zugangskontrollverfahren

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110025860A1 (en) * 2009-08-03 2011-02-03 Terumitsu Katougi Image output apparatus, captured image processing system, and recording medium
EP2388735A2 (de) * 2010-05-21 2011-11-23 Hand Held Products, Inc. Interaktive Benutzerschnittstelle zum Erfassen eines Dokuments in einem Bildsignal

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19713511A1 (de) * 1997-04-01 1998-10-08 Cwa Gmbh Verfahren zur automatischen Wiedererkennung von beschrifteten Kennzeichen anhand der Zeichenfolge sowie geometrischer Merkmale
US6763141B2 (en) * 2000-12-28 2004-07-13 Xerox Corporation Estimation of local defocus distance and geometric distortion based on scanned image features
US7171056B2 (en) * 2003-02-22 2007-01-30 Microsoft Corp. System and method for converting whiteboard content into an electronic document
DE102009060791A1 (de) * 2009-12-22 2011-06-30 Automotive Lighting Reutlingen GmbH, 72762 Lichtmodul für eine Beleuchtungseinrichtung eines Kraftfahrzeugs sowie Beleuchtungseinrichtung eines Kraftfahrzeugs mit einem solchen Lichtmodul

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110025860A1 (en) * 2009-08-03 2011-02-03 Terumitsu Katougi Image output apparatus, captured image processing system, and recording medium
EP2388735A2 (de) * 2010-05-21 2011-11-23 Hand Held Products, Inc. Interaktive Benutzerschnittstelle zum Erfassen eines Dokuments in einem Bildsignal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of WO2013144136A1 *

Also Published As

Publication number Publication date
DE102012205079A1 (de) 2013-10-02
WO2013144136A1 (de) 2013-10-03

Similar Documents

Publication Publication Date Title
DE112016006366T5 (de) Verfahren und systeme zur verarbeitung von punktwolkendaten mit einem linienscanner
DE102016120775A1 (de) System und Verfahren zum Erkennen von Linien in einem Bild mit einem Sichtsystem
CN109859227A (zh) 翻拍图像检测方法、装置、计算机设备及存储介质
CH708993B1 (de) Verfahren und Vorrichtung zum Identifizieren eines zweidimensionalen Punktcodes.
WO2013011013A2 (de) Verfahren und vorrichtung zur ocr-erfassung von wertdokumenten mittels einer matrixkamera
CN107464245B (zh) 一种图像结构边缘的定位方法及装置
DE102017212418A1 (de) Fahrerassistenzsystem und -verfahren zur leitplankenerkennung
CN108960221B (zh) 基于图像的银行卡识别方法及装置
EP2856390A1 (de) Verfahren und vorrichtung zur verarbeitung stereoskopischer daten
DE102017220752A1 (de) Bildverarbeitungsvorrichtung, Bildbverarbeitungsverfahren und Bildverarbeitungsprogramm
DE102015207903A1 (de) Vorrichtung und Verfahren zum Erfassen eines Verkehrszeichens vom Balkentyp in einem Verkehrszeichen-Erkennungssystem
DE69623564T2 (de) Gerät zur Extraktion von Fingerabdruckmerkmalen
DE102006059659B4 (de) Vorrichtung, Verfahren und Computerprogramm zur Erkennung von Schriftzeichen in einem Bild
EP3158543B1 (de) Verfahren zum detektieren eines blickwinkelabhängigen merkmals eines dokumentes
DE102015205505A1 (de) Verfahren und Vorrichtung zum Detektieren elliptischer Strukturen in einem Bild
DE102005025220B4 (de) Gerät, Verfahren und Programm zum Beseitigen von Poren
EP2831806A1 (de) Verfahren zum detektieren einer perspektivisch verzerrten mehreckstruktur in einem bild eines identifikationsdokumentes
CN108280839A (zh) 一种作业图像定位与分割方法及其装置
DE102019119138B4 (de) Bestimmen einer Verteil- und/oder Sortierinformation zum automatisierten Verteilen und/oder Sortieren einer Sendung
EP3259703B1 (de) Mobilgerät zum erfassen eines textbereiches auf einem identifikationsdokument
WO2017055277A1 (de) Dokument und verfahren zum verifizieren eines dokuments
DE102019115224A1 (de) System und verfahren zum auffinden und klassifizieren von linien in einem bild mittels eines schichtsystems
DE202022106314U1 (de) Ein Kantenerkennungssystem, das die fraktale Dimension auf der Grundlage der differentiellen Boxenzählung nutzt
WO2015011221A1 (de) Verfahren zur überprüfung der echtheit eines dokumentes
Ahmed et al. Comparative analysis of global feature extraction methods for off-line signature recognition

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20141028

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RIN1 Information on inventor provided before grant (corrected)

Inventor name: DRESSEL, OLAF

Inventor name: FRITZE, FRANK

Inventor name: REITMAYR, GERHARD

Inventor name: HARTL, ANDREAS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: HARTL, ANDREAS

Inventor name: DRESSEL, OLAF

Inventor name: FRITZE, FRANK

Inventor name: REITMEYR, GERHARD

RIN1 Information on inventor provided before grant (corrected)

Inventor name: HARTL, ANDREAS

Inventor name: REITMAYR, GERHARD

Inventor name: FRITZE, FRANK

Inventor name: DRESSEL, OLAF

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20160829

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20181011

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230526