DE102012205079A1

DE102012205079A1 - Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes

Info

Publication number: DE102012205079A1
Application number: DE102012205079A
Authority: DE
Inventors: Andreas Hartl; Olaf Dressel; Frank Fritze; Gerhard Reitmeyr
Original assignee: Bundesdruckerei GmbH
Current assignee: Bundesdruckerei GmbH
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-02
Also published as: EP2831806A1; WO2013144136A1

Abstract

Die Erfindung betrifft ein Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit Detektieren (301) von Kanten in dem Bild, um ein Kantenbild zu erhalten, Erfassen (303) einer Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild, Bestimmen (305) einer Metrik für jede mehreckige Kantenstruktur, und Auswählen (307) derjenigen mehreckigen Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur, welche die größte Metrik aufweist.

Description

Die vorliegende Erfindung betrifft die Detektion einer perspektivisch verzerrten Mehreckstruktur, beispielsweise eines perspektivisch verzerrten Rechtecks, in einem Bild eines Identifikationsdokumentes.
Zur Überprüfung von Personen anhand von Identifikationsdokumenten, wie beispielsweise Reisepässen oder Personalausweisen bzw. zur Überprüfung der Echtheit eines Identifikationsdokumentes, wird üblicherweise ein Bild des Identifikationsdokumentes mittels einer Kamera eines Dokumentenprüfgerätes aufgenommen. Neben stationären Dokumentenprüfgeräten können zur Dokumentenprüfung auch mobile Dokumentenprüfgeräte, wie etwa Smartphones, eingesetzt werden.
Ein Problem bei der Aufnahme eines Bildes eines Identifikationsdokumentes mittels einer Kamera eines mobilen Dokumentenprüfgerätes ist die perspektivische Verzerrung, welche bei einer Neigung des mobilen Dokumentenprüfgerätes bezüglich des Identifikationsdokumentes entstehen kann. Ein Identifikationsdokument weist insbesondere eine Mehrzahl von Mehreckstrukturen, welche beispielsweise durch Ränder von Identifikationsdokumenten oder durch Berandungen darin angeordneter Felder, beispielsweise Datenfelder, dargestellt sind und bei einer optischen Aufnahme perspektivisch verzerrt werden können. Dies erschwert beispielsweise das automatische Nachverfolgen (Tracking) dieser Mehreckstrukturen, um beispielsweise darin abgelegte Daten auszulesen.
Aufgrund einer Vielzahl von möglichen perspektivischen Verzerrungen des Identifikationsdokumentes in einem Bild können diese nicht in einem Dokumentenprüfgerät oder in einem Nachverfolgungssystem (Tracking System) berücksichtigt werden.
Bei Verwendung eines mobilen Dokumentenprüfgerätes hängt die Qualität des aufgenommenen Bildes zudem von der Qualität der Kamera sowie von äußeren Umwelteinflüssen, wie beispielsweise Reflexionen und dergleichen, ab. Dies kann die Detektierbarkeit von Mehreckstrukturen in einem Bild weiter beeinträchtigen oder sogar dazu führen, dass ein mobiles Dokumentenprüfgerät mit einer Kamera mit unzureichenden Abbildungseigenschaften zur Detektion nicht geeignet ist.
Zur Lokalisierung von Mehreckstrukturen wie Rechtecken kann beispielsweise die Hough-Transformation verwendet werden, wie sie in der Druckschrift C. R. Jung und R. Schramm, Rectangle Detection Based on a Window Hough Transform, CGIP, 2004, beschrieben ist. Dieses Verfahren ist jedoch nicht robust im Hinblick auf perspektivische Verzerrungen.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein effizientes Konzept zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes zu schaffen.
Diese Aufgabe wird durch die Merkmale der unabhängigen Ansprüche gelöst. Vorteilhafte Weiterbildungsformen sind Gegenstand der abhängigen Ansprüche, der Beschreibung sowie der beiliegenden Figuren.
Die Erfindung basiert auf der Erkenntnis, dass bei einer perspektivischen Verzerrung einer Mehreckstruktur ursprünglich geradlinige Kanten der Mehreckstruktur weiterhin geradlinig verlaufen. Durch die perspektivische Verzerrung werden jedoch die Längen der Kanten verändert, beispielsweise verkürzt oder verlängert. So erscheint eine geneigte Aufnahme eines Rechtecks in der Gestalt eines Trapezes mit einer langen Grundseite, einer kürzeren Oberseite und zwei fluchtend aufeinander zulaufenden Seiten. Diese Erkenntnis ermöglicht eine besonders einfache Detektion von beispielsweise ursprünglich rechteckigen Strukturen durch Detektion von perspektivisch verzerrten Viereckstrukturen, deren Kanten innerhalb eines Toleranzbereichs, beispielsweise +/–5%, geradlinig verlaufen. Auf diese Weise können perspektivisch verzerrte Mehreckstrukturen besonders effizient erkannt und gegebenenfalls entzerrt werden.
Gemäß einem Aspekt betrifft die Erfindung ein Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit Detektieren von Kanten in dem Bild, um ein Kantenbild zu erhalten, Erfassen einer Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild, Bestimmen einer Metrik für jede mehreckige Kantenstruktur und Auswählen derjenigen mehreckigen Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur, welche die größte Metrik aufweist. Die Metriken der perspektivisch verzerrten Mehreckstrukturen können miteinander verglichen werden, um die größte Metrik zu erfassen.
Das Kantenbild ist eine Abbildung von in dem Bild detektierbaren Kanten und kann mehrere mehreckige Kantenstrukturen aufweisen, welche beispielsweise durch die Ränder des Identifikationsdokumentes oder einer Seite eines Reisepasses oder durch die Ränder der darin abgebildeten geometrischen Strukturen gegeben sein können. Die jeweilige Kantenstruktur kann beispielsweise durch einen Kantenverlauf, beispielsweise durch einen Graustufenkantenverlauf, gegeben sein.
Das Identifikationsdokument kann eines der folgenden Dokumente, mit oder ohne Elektronik, sein: Identitätsdokument, wie Personalausweis, Reisepass, Zugangskontrollausweis, Berechtigungsausweis, Unternehmensausweis, Steuerzeichen oder Ticket, Geburtsurkunde, Führerschein, Kraftfahrzeugausweis oder Zahlungsmittel. Das Identifikationsdokument kann ein- oder mehrlagig bzw. papier- und/oder kunststoffbasiert sein. Das Identifikationsdokument kann aus kunststoffbasierten Folien aufgebaut sein, welche zu einem Kartenkörper mittels Verkleben und/oder Laminieren zusammengefügt werden, wobei die Folien bevorzugt ähnliche stoffliche Eigenschaften aufweisen. Das Identifikationsdokument kann ferner einen Chip zum Speichern von Daten umfassen.
Gemäß einer Ausführungsform wird zum Detektieren von Kanten eine Kantenerkennung, insbesondere mittels des Canny-Algorithmus, durchgeführt. Neben dem Canny-Algorithmus können beliebige, an sich bekannte Algorithmen zur Kantenerkennung herangezogen werden. Die Kantenstrukturen können unmittelbar durch die auf diese Weise detektierten Kanten bestimmt sein.
Gemäß einer Ausführungsform werden die Kanten einer Transformation unterzogen, um transformierte Kanten zu erhalten, welche durch Linien dargestellt werden können. Bei der Transformation kann es sich um die Hough-Transformation handeln, mittels welcher definierte Linienbilder als Kantenstrukturen bereitgestellt werden.
Gemäß einer Ausführungsform werden zur Erfassung jeder mehreckigen Kantenstruktur innerhalb eines Parallelitätsbereichs parallele Kantenpaare und/oder innerhalb eines vorbestimmten Winkelbereichs aufeinander zulaufende oder sich schneidende Kantenpaare erfasst.
Gemäß einer Ausführungsform werden parallele Kantenpaare mit Kanten, deren Abstand zueinander einen vorbestimmten Schwellwert nicht überschreitet, erfasst. Der Parallelitätsbereich kann beispielsweise einen Winkelbereich angeben, innerhalb dessen nebeneinander verlaufende Kantenpaare als parallel verlaufend gelten. Der Parallelitätsbereich kann beispielsweise einen Bereich von 0°, +/–1°, +/–2°, +/–5° oder +/-10° betragen. Dadurch werden parallele Kantenpaare, wie etwa die parallel verlaufenden Seiten eines Trapezes, erfasst.
Der vorbestimmte Winkelbereich, innerhalb dessen die Kanten eines Kantenpaars sich schneiden, kann beispielsweise einen Winkelbereich von 89° bis 91° oder bis von 85° bis 95° oder 80° bis 100 oder 50° bis 140° umfassen. Auf diese Weise werden Kantenpaare erfasst, welche innerhalb des Winkelbereichs aufeinander treffen. Dadurch ist es möglich, Ecken der verzerrten Mehreckstruktur zu erfassen, wodurch festgestellt werden kann, ob die verzerrte Mehreckstruktur beispielsweise eine Viereckstruktur ist, die aus einer verkippten Aufnahme eines Rechtecks resultiert. Durch die Erfassung der Ecken kann ferner festgestellt werden, ob die verzerrte Mehreckstruktur sich in einem bestimmten Bereich (ROI: Region of Interest) des Bildes bzw. des Identitätsdokumentes, befindet.
Gemäß einer Ausführungsform werden die mehreckigen Kantenstrukturen dilatiert. Auf diese Weise werden die Kantenstrukturen beispielsweise perspektivisch vergrößert, um beispielsweise eine genauere Detektion der perspektivisch verzerrten Mehreckstruktur zu ermöglichen.
Gemäß einer Ausführungsform wird zur Bestimmung der Metrik eine Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst. Die das jeweilige Kantenstruktur darstellenden Pixel sind beispielsweise Graustufenwerte. Durch die vorherige Dilatation der Kantenstruktur kann eine noch genauere Bestimmung der Anzahl der die jeweilige Kantenstruktur tatsächlich darstellenden Pixel erfasst werden.
Gemäß einer Ausführungsform wird zur Bestimmung der Metrik eine relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst, wobei die relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel anhand eines Verhältnisses zwischen der die jeweilige Kantenstruktur tatsächlich darstellenden Pixel und einer maximalen Anzahl von zur Darstellung der jeweiligen Kantenstruktur möglichen Pixeln berechnet wird. Die maximale Anzahl von möglichen Pixeln ist diejenige Anzahl der Pixel, welche die Kantenstruktur bei der Annahme eines unterbrechungsfreien Kantenverlaufs darstellen würde.
Gemäß einer Ausführungsform wird die Metrik von nur denjenigen mehreckigen Kantenstrukturen bestimmt, welche innerhalb eines vorbestimmten Bildausschnitts, sogenannter ROI, angeordnet sind. Auf diese Weise wird sichergestellt, dass der Fokus bei der Detektion der perspektivisch verzerrten Mehreckstruktur auf denjenigen Bildausschnitt des Bildes gerichtet wird, in dem eine Mehreckstruktur auch zu erwarten ist.
Gemäß einer Ausführungsform wird die perspektivisch verzerrte Mehreckstruktur mittels zumindest eines Entzerrungsparameters entzerrt, insbesondere perspektivisch entzerrt. Der Entzerrungsparameter gibt beispielsweise an, um welchen Längenbetrag die jeweilige Kante verkürzt oder verlängert werden soll.
Gemäß einer Ausführungsform wird der zumindest eine Entzerrungsparameter anhand von Mittelwerten von Längen einander gegenüberliegenden Kanten berechnet. Hierbei werden beispielsweise Längen von gegenüberliegenden Kanten addiert und das Additionsergebnis wird halbiert, um den Mittelwert zu erhalten.
Gemäß einer Ausführungsform wird die perspektivisch verzerrte Mehreckstruktur mittels einer Homographie entzerrt.
Gemäß einer Ausführungsform ist die perspektivisch verzerrte Mehreckstruktur ein perspektivisch verzerrtes Rechteck, und die mehreckigen Kantenstrukturen sind viereckige Kantenstrukturen.
Gemäß einer Ausführungsform wird die Kantenstruktur gefiltert, um Text- bzw. Buchstaben- oder Zahlenelemente aus dem Bild zu entfernen. Hierbei kann beispielsweise eine Hochfrequenzfilterung oder eine Mustererkennung oder eine Graustufendetektion durchgeführt werden.
Gemäß einem weiteren Aspekt betrifft die Erfindung eine Vorrichtung, insbesondere ein Smartphone, zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit einer optischen Aufnahmeeinrichtung zum Aufnehmen des Bildes und einem Prozessor, welcher eingerichtet ist, eine Detektion von Kanten in dem Bild durchzuführen, um ein Kantenbild zu erhalten, eine Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild zu erfassen, eine Metrik für jede mehreckige Kantenstruktur zu bestimmen, und diejenige mehreckige Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur auszuwählen, welche die größte Metrik aufweist.
Die optische Aufnahmeeinrichtung kann beispielsweise eine Kamera eines Smartphones sein. Der Prozessor kann beispielsweise eingerichtet sein, das erfindungsgemäße Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild auszuführen.
Gemäß einem Aspekt betrifft die Erfindung ein Computerprogramm mit einem Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn der Programmcode auf einem Computer ausgeführt wird.
Weitere Ausführungsformen werden Bezug nehmend auf die beiliegenden Zeichnungen erläutert. Es zeigen:
1 eine schematische Darstellung eines Identifikationsdokumentes;
2 ein perspektivisch verzerrtes Bild eines Identifikationsdokumentes;
3 ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur;
4 ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild; und
5 ein Ablaufdiagramm einer Textfilterung mit einer Schwellwertbildung.
1 zeigt schematisch ein Identifikationsdokument 101 mit einer Abbildung einer Person 103 sowie einem Textfeld 105. Die Umrandung des Identifikationsdokumentes 101 ist eine Mehreckstruktur, welche durch die Kanten des Identifikationsdokumentes 101 vorgegeben und beispielsweise rechteckig ist. Dies bedeutet, dass benachbarte Kanten bzw. deren Verlängerungen senkrecht aufeinandertreffen. Dasselbe gilt für die eine Mehreckstruktur bildenden Kanten der Abbildung 103 der Person. Das Textfeld 105 kann ein Textfeld einer Maschinenlesbaren Zone des Identifikationsdokumentes 101 sein, dessen Kanten eine Mehreckstruktur, beispielsweise ein Rechteck, bilden.
Bei einer Aufnahme des in 1 dargestellten Identifikationsdokumentes kann das in 2 dargestellte Bild 201 entstehen, falls das für diese Aufnahme beispielweise herangezogene Smartphone gegenüber dem in 1 dargestellten Dokumentes geneigt gehalten wird. Dadurch entsteht ein perspektivisch verzerrtes, trapezförmiges Bild des Identifikationsdokumentes 101 mit einem Kantenbild mit Kantenstrukturen 203, 205 und 207, welche jeweils durch eine perspektivische Verzerrung der Mehreckstrukturen 101, 103, 105 entstehen.
Bei der perspektivischen Verzerrung werden die Mehreckstrukturen 101, 103, 105 perspektivisch verzerrt und dadurch in perspektivisch verzerrte Mehreckstrukturen überführt, welche durch mehreckige Kantenstrukturen 203, 205, 207 repräsentiert sind. Durch eine Kantendetektion können die mehreckigen Kantenstrukturen 203, 205 und 207 detektiert werden. In diesem Ausführungsbeispiel entspricht daher jede mehreckige Kantenstruktur 203, 205 und 207 einer perspektivisch verzerrten Mehreckstruktur 101, 103, 105. Hierbei kann beispielsweise eine ROI vorgegeben sein, um die jeweils interessierende perspektivisch verzerrte Mehreckstruktur, beispielsweise die perspektivisch verzerrte Mehreckstruktur 101 zu detektieren. Das Kantenbild kann jedoch weitere Kantenbildstrukturen, beispielsweise gekrümmte Linien, aufweisen, welche bei der Kantendetektion mitdetektiert werden, und welche aus Gründen der Übersichtlichkeit nicht dargestellt sind.
So wird die mehreckige Kantenstruktur 203 beispielsweise durch die Kanten 209, 211, 213 und 215 bestimmt. Dabei verlaufen die Kanten 209 und 211 innerhalb eines Parallelitätsbereiches, beispielsweise +/–5°, parallel zueinander. Sie weisen jedoch unterschiedliche Längen auf. Die Seitenkanten 213 und 215 verlaufen hingegen fluchtend. Durch die Schnittpunkte der benachbarten Kanten werden jeweils Eckpunkte der mehreckigen Kantenstruktur 203 gebildet. Diese Eckpunkte können daher anhand der Kantenstruktur detektiert werden. Optional kann die Kantenstruktur 209 mittels der Hough-Transformation in ein Linienbild überführt werden, um einen genaueren Kantenverlauf zu erhalten. Ähnliche Ausführungen gelten für die mehreckigen Kantenstrukturen 205 und 207.
3 zeigt ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes. Das Verfahren umfasst das Detektieren 301 von Kanten in dem Bild, um ein Kantenbild zu erhalten. Hierbei kann die Hough-Transformation durchgeführt werden. Nachfolgend wird im Schritt des Erfassens 303 eine Mehrzahl von mehreckigen Kantenstrukturen in den Kantenbild erfasst. Hierbei können beispielsweise die mehreckigen Kantenstrukturen 205 und 207 erfasst werden. Im nachfolgenden Schritt des Bestimmens 305 wird eine Metrik für jede detektierte mehreckige Kantenstruktur bestimmt. Die Metrik kann beispielsweise durch die Bestimmung der jeweiligen Pixelanzahl bzw. der jeweiligen relativen Pixelanzahl für die die jeweilige mehreckige Kantenstruktur darstellenden Pixel bestimmt werden.
Im Schritt des Auswählens 307 wird diejenige mehreckige Kantenstruktur als die detektierte, perspektivisch verzerrte Mehreckstruktur ausgewählt, welche die größte Metrik, beispielsweise die größte Anzahl von Pixeln, aufweist. Danach kann die detektierte perspektivisch verzerrte Mehreckstruktur optional durch eine perspektivische Rückwärtsverzerrung entzerrt werden.
4 zeigt ein Ablaufdiagramm eines Verfahrens zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild gemäß einer weiteren Ausführungsform. Das Verfahren umfasst das Detektieren 401 von Kanten, um ein Kantenbild mit einer oder mit einer Mehrzahl von mehreckigen Kantenstrukturen zu erfassen. Das Kantenbild kann beispielsweise in der Gestalt einer Kantenmappe vorliegen, welche mittels des Canny-Kantendetektors bereitgestellt werden kann. Ein derartiger Kantendetektor ist in der Druckschrift J. S. Canny, A Computational Approach to Edge Detection, PAMI, 1986, beschrieben. Hierbei kann auch eine automatische Schwellwertauswahl durchgeführt werden, bei der beispielsweise ausschließlich Kanten oberhalb eines vorbestimmten Helligkeitsschwellwerts, beispielswiese am Graustufenbild, berücksichtigt werden.
In dem optional darauf folgenden Schritt der Filterung 403 werden textartige Strukturen gefiltert bzw. aus der Kantenstruktur entfernt. Die Filterung 403 kann eine Textfilterung sein und wird durchgeführt, um beispielsweise Hochfrequenzstrukturen zu entfernen, welche zu einer Verfälschung der Kanten- bzw. Liniendetektion führen. Hierbei können die beispielsweise miteinander verbundenen Komponenten eines adaptiv schwellwertgewichteten Bildes berechnet werden, wie es beispielsweise in der Druckschrift F. Shafait, D. Keysers, T. M. Breuel, Efficient Implementation of Local Adaptive Thresholding Techniques Using Integral Images, SPIE, 2008, beschrieben ist. Hier können Kriterien, wie das Seitenverhältnis, die relative Höhe und die Menge der Pixel der jeweiligen Kantenstruktur berücksichtigt werden.
Die Filterung des Kantenbildes kann durch lokale adaptive Schwellwertbildung am Graufstufenbild und die Erfassung (Labeling) sowie Beurteilung von Regionen, z.B. einzelner Buchstaben, anhand deren Seitenverhältnises, Füllgrads und relativer Länge der kürzeren Seite durchgeführt werden. Dadurch kann die Anzahl der Hypothesen, also der zur berücksichtigenden Kantenstrukturen, reduziert werden, was die Robustheit des Algorithmus erhöht und dessen Komplexität reduziert.
Hiernach kann optional eine Linienerkennung 405 durchgeführt werden, bei der beispielsweise der Hough-Algorithmus eingesetzt wird. Hier kann beispielsweise eine Vielzahl von Linien innerhalb einer ROI erhalten werden. Diese Linien bzw. Kanten werden paarweise unter Verwendung einer Bedingung bezüglich deren Richtungsverläufe gruppiert. So werden parallele Kanten bzw. parallele Linien paarweise gruppiert. Dasselbe gilt für Kanten oder Linien, die innerhalb eines vorbestimmten Winkelbereichs aufeinander treffen bzw. einander kreuzen und somit Ecken einer Mehreckstruktur darstellen. Auf diese Weise entsteht eine Mehrzahl von mehreckigen Kantenstrukturen, welche als Hypothesen, d.h. als mögliche perspektivisch verzerrte Mehreckstrukturen, oder als Modelle in einer Liste gespeichert werden können. Die Liste kann beispielsweise mittels einer Datenbank bereitgestellt werden.
Im optional nachfolgenden Schritt der Auswahl 409 wird beispielsweise festgestellt, ob die Eckpunkte der Kantenstrukturen innerhalb der ROI liegen, um diejenigen Kantenstrukturen zu berücksichtigen, welche potentielle perspektivisch verzerrte Mehreckstrukturen darstellen.
In einem optional nachfolgenden Schritt kann das Kantenbild dilatiert werden, um beispielsweise einen bestimmten Krümmungsanteil zu berücksichtigen. Damit könnten nicht gänzlich entlang der aktuellen Hypothese verlaufende Linien in der Gewichtung berücksichtigt werden. Zur Berechnung des Gewichts jeder einzelnen Hypothese werden die Verbindungslinien zwischen den vier Punkten einer Hypothese betrachtet. Dabei wird die relative Anzahl der entlang dieser Linien am Kantenbild gesetzten Pixel (Support) zur Länge der Hypothese notiert. Die Hypothese mit dem größten Support wird als Ergebnis der Lokalisierung ausgegeben und kann zur Entzerrung des eingeschlossenen Bereiches verwendet werden, falls es sich um eine rechteckige Struktur handelt. Eine Hypothese kann durch Schnittpunkte von zwei Paaren von Linien oder Kanten bestimmt werden, deren Winkel innerhalb des Winkelbereichs liegt und sich um nicht mehr als thangle Grad unterscheidet und deren Abstand zueinander kleiner als ein Schwellwert thdistance ist. Dabei kann angenommen werden, dass das Ursprungsbild ein orthogonales, unverzerrtes Bild der gesuchten Mehreckstruktur ist.
Für die Entzerrung kann gemäß einer Ausführungsform als Ziellänge die gewünschte Länge der entzerrten rechteckigen Struktur angegeben oder bestimmt werden. So können Paare von Linien unter Berücksichtigung des minimalen Abstandes und der Richtungsabweichung unter Verwendung der Schwellwerte thdistance und thangle bestimmt werden. Beispielsweise gilt 90° < thangle < 0°. Der Schwellwert thdistance kann aus den Abmessungen der ROI bestimmt werden.
Gemäß einer Ausführungsform bildet die Verschneidung von je zwei Stück eine Hypothese, wenn sich die vier Schnittpunkte innerhalb der ROI befinden. Die Hypothesen können durch die Bestimmung der jeweiligen Metrik gewichtet werden.
In einem nachfolgenden Schritt wird diejenige mehreckige Kantenstruktur ausgewählt, welche am wahrscheinlichsten die perspektivisch verzerrte Mehreckstruktur darstellt. Hierbei können beispielsweise Metriken bestimmt werden, wie es vorstehend beschrieben wurde. In einem weiteren, optionalen Schritt der Entzerrung 411 wird die detektierte perspektivisch verzerrte Mehreckstruktur entzerrt.
Das Verfahren kann gemäß einer Ausführungsform zur Extraktion von Zielen, sog. Targets, für mobile AR Anwendungen (AR: Augmented Reality) eingesetzt werden.
Zur Detektion oder Entzerrung einer perspektivisch Verzerrten Mehreckstruktur kann ein bekanntes Seitenverhältnis für die Definition des zur Suche relevanten Bereiches, beispielsweise einer Kantenstruktur nützlich sein oder die entsprechende Schätzung im Entzerrungsschritt ersetzen.
Unter einer Region of Interest (ROI) wird gemäß einer Ausführungsform ein Bildbereich verstanden, in welchem nach einer beispielsweise viereckigen Mehreckstruktur gesucht werden soll. Dadurch kann die Robustheit erhöht und die Verkürzung der Laufzeit des Verfahrens erreicht werden.
Gemäß einer Ausführungsform können rechteckige Kantenstrukturen durch Rektifizierung entzerrt werden. Hierzu kann eine Schätzung des Seitenverhältnisses des Ursprungsbildes durch Mittelung der Längen für jedes der 2 beteiligten Linienpaare durchgeführt werden. Durch Verwendung der gewünschten Ziellänge ist nun auch die Breite definiert. Damit sind 4 Punktkorrespondenzen bestimmt. Die Entzerrung kann beispielweise auf der Basis einer Homographieschätzung und inverser Abbildung durchgeführt werden.
Zur Überprüfung der Entzerrung rechteckiger Kantenstrukturen kann eine Vergleichsmetrik, d.h. ein Fehlermaß, bestimmt werden. Hierbei können werden Punktkorrespondenzen zwischen dem Referenzviereck rref und dem extrahierten Viereck rex gebildet. Der relative Fehler e wird als Verhältnis der maximalen Abweichung der Korrespondenzen in Bezug auf die kleinste Seitenlänge dref_min des Referenzvierecks angegeben:
Durch visuelle Inspektion wurde eine obere Schranke von beispielsweise 3.5% bestimmt, bei welcher ein Bezug auf die Qualität verwertbarer Lösung angenommen werden kann.
Unter der Annahme, dass die erfasste Mehreckstruktur eine Region darstellt, welche als ein Nachverfolgungsobjekt (Tracking Target) verwendet wird, kann oft davon ausgegangen werden, dass es sich bei der perspektivisch verzerrten Mehreckstruktur um eine perspektivisch verzerrte Rechteckstruktur handelt. Auf diese Weise kann eine automatische Rektifizierung, d.h. Entzerrung, durchgeführt werden. Hierbei können beispielsweise unverzerrte Ecken durch eine Mittelung über die Pixelbreite und -höhe anhand der entsprechenden Hypothese bestimmt werden. Mit dieser Information kann eine homographische Entzerrung für eine Rektifizierung durchgeführt werden.
Gemäß einer weiteren Ausführungsform kann der Grad der perspektivischen Verzerrung anhand eines Modellrechtecks bestimmt werden. Hierbei kann das Modellrechteck derart perspektivisch verzerrt werden, dass eine perspektivisch verzerrte Modellstruktur entsteht, welche der detektierten, perspektivisch verzerrten Mehreckstruktur entspricht. Durch eine auf die perspektivisch verzerrte Mehreckstruktur angewendete Rückwärtsentzerrung kann diese entzerrt werden.
Das vorstehend beschriebene Verfahren kann beispielsweise mittels eines Stackbasierten oder eines rekursiven Verfahrens durchgeführt werden. Um die Verarbeitungsgeschwindigkeit noch weiter zu erhöhen, können Look-up-Tabellen verwendet werden, um verbotene und zugelassene Richtungen der Kantenpaare anzugeben.
Aufgrund der durchzuführenden Kantendetektion ist es nicht notwendig, irgendwelche Annahmen über einen Inhalt eines Bildhintergrundes oder der zu extrahierenden bzw. zu detektierenden Mehreckstruktur zu treffen. Denn zur Kantendetektion ist es ausreichend, anzunehmen, dass die Kanten sich von dem Hintergrund visuell abheben.
Gemäß einer Ausführungsform kann es sich bei dem Bild um ein Video Frame handeln oder als Tracking Target dienen, um beispielsweise eine sofortige berührungslose Interaktion zu ermöglichen.
Gemäß einer Ausführungsform kann angenommen werden, dass das Identifikationsdokument planar ist und eine rechteckige Begrenzung besitzt, welche ein viereckiges Kantenbild ergibt. Darüber hinaus kann angenommen werden. dass ein Seitenverhältnis bekannt ist. Dieses Seitenverhältnis kann mittels einer Schätzung bestimmt werden. Hierdurch kann eine Entzerrung der perspektivisch verzerrten Mehreckstruktur, welche in dem Fall eine Viereckstruktur ist, besonders einfach durchgeführt werden. Die Lokalisierung des Identifikationsdokumentes erfolgt durch die Ermittlung von Kanten durch eine Kantendetektion mit einer optionalen nachfolgenden Liniendetektion mittels der Hough-Transformation. Hierbei können vier Regionen zunächst entsprechend der ROI verarbeitet werden. Bei diesen vier Regionen handelt es sich um eine obere Region, um eine untere Region, um eine linke Region oder um eine rechte Region. Hiernach kann eine Selektion von parallelen Linien und nachfolgend von parallelen Paaren von Linien bzw. Kanten durchgeführt werden. Nach einer Verschneidung können die aktuellen Hypothesen anhand von Merkmalen wie Support im Kantenbild, anhand der Verbindungslinien, Seitenverhältnis, innerer Winkel und Orientierung bewertet werden. Der Support kann hierbei beispielsweise durch die Anzahl der Pixel entlang der Verbindungslinien bestimmt werden. Hierbei wird für die einzelnen Merkmale eine Metrik berechnet, deren gewichtete Summe die Qualität der Hypothese angibt. Es wird jeweils die Hypothese mit der maximalen Summe ausgegeben. Diese Information kann zusammen mit dem aktuellen Seitenverhältnis zur Extraktion und Entzerrung des Identifikationsdokumentesbildes verwendet werden.
In 5 ist ein Ablaufdiagramm einer Textfilterung dargestellt mit einer Schwellwertbildung 501, welche lokal adaptiv sein kann, einem Labelling 503 sowie einer anschließenden Filterung 505 durchgeführt werden, bei der beispielsweise eine Fläche 507 oder ein Seitenverhältnis 509 eines Zeichens ausgewertet werden.
Die Textfilterung basiert beispielsweise auf der Annahme, dass Textbereiche sowohl in ihrer Art als auch in ihrer räumlichen Anordnung variieren können. Besonders bei Identifikationsdokumenten mit Textteilen, welche sich annähernd über die gesamte Länge des Dokumentes erstrecken, wie beispielsweise maschinenlesbare Zeilen, können Textbereiche bei der Kanten- bzw. Liniendetektion zu Problemen führen. Die Textfilterung ist eine effiziente Maßnahme, welche lediglich die Geometrie der Regionen eines Schwellwertbildes beurteilt, um die Textbestandteile herauszufiltern. Dies kann beispielsweise auf der Annahme beruhen, dass die Textregionen annähernd quadratisch und zu einem gewissen Teil gefüllt sind.
Bezugszeichenliste

101: Identifikationsdokument
103: Abbildung einer Person
105: Textfeld
201: Bild
203: mehreckige Kantenstruktur
205: mehreckige Kantenstruktur
207: mehreckige Kantenstruktur
209: Kante
211: Kante
213: Kante
215: Kante
301: Detektieren
303: Erfassen
305: Bestimmen
307: Auswählen
401: Detektieren von Kanten
403: Textfilterung
405: Linienerkennung
407: Modellbildung
409: Auswahl
411: Entzerrung
501: Schwellwertbildung
503: Labelling
505: Filterung
507: Fläche
509: Seitenverhältnis

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

C. R. Jung und R. Schramm, Rectangle Detection Based on a Window Hough Transform, CGIP, 2004 [0006]
J. S. Canny, A Computational Approach to Edge Detection, PAMI, 1986 [0042]
F. Shafait, D. Keysers, T. M. Breuel, Efficient Implementation of Local Adaptive Thresholding Techniques Using Integral Images, SPIE, 2008 [0043]

Claims

Verfahren zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit: Detektieren (301) von Kanten in dem Bild, um ein Kantenbild zu erhalten; Erfassen (303) einer Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild; Bestimmen (305) einer Metrik für jede mehreckige Kantenstruktur; und Auswählen (307) derjenigen mehreckigen Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur, welche die größte Metrik aufweist.
Verfahren nach Anspruch 1, bei dem zum Detektieren (301) von Kanten eine Kantenerkennung, insbesondere mittels des Canny-Algorithmus, durchgeführt wird.
Verfahren nach Anspruch 2, bei dem die detektierten Kanten mittels einer Transformation, insbesondere der Hough-Transformation, in transformierte Kanten, insbesondere Linien, überführt werden.
Verfahren nach einem der vorstehenden Ansprüche, bei dem zum Erfassen (303) einer mehreckigen Kantenstruktur innerhalb eines Parallelitätsbereichs parallele Kantenpaare und/oder innerhalb eines vorbestimmten Winkelbereichs aufeinander zulaufende oder sich schneidende Kantenpaare erfasst werden.
Verfahren nach Anspruch 4, bei dem nur parallele Kantenpaare mit Kanten, deren Abstand zueinander einen vorbestimmten Schwellwert nicht überschreitet, erfasst werden.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die mehreckigen Kantenstrukturen zur Bestimmung der Metrik dilatiert werden.
Verfahren nach einem der vorstehenden Ansprüche, bei dem zum Bestimmen (305) der Metrik eine Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst wird.
Verfahren nach einem der vorstehenden Ansprüche, bei dem zum Bestimmen (305) der Metrik eine relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel erfasst wird, wobei die relative Anzahl der die jeweilige Kantenstruktur darstellenden Pixel anhand eines Verhältnisses zwischen der die jeweilige Kantenstruktur tatsächlich darstellenden Pixel und einer maximalen Anzahl von zur Darstellung der jeweiligen Kantenstruktur möglichen Pixeln berechnet wird.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die Metrik von nur denjenigen mehreckigen Kantenstrukturen bestimmt wird, welche innerhalb eines vorbestimmten Bildausschnitts angeordnet sind.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die perspektivisch verzerrte Mehreckstruktur mittels zumindest eines Entzerrungsparameters entzerrt, insbesondere perspektivisch entzerrt, wird.
Verfahren nach Anspruch 10, bei dem der zumindest ein Entzerrungsparameter anhand von Mittelwerten von Längen einander gegenüberliegenden Kanten berechnet wird.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die perspektivisch verzerrte Mehreckstruktur mittels einer Homographieschätzung entzerrt wird.
Verfahren nach einem der vorstehenden Ansprüche, bei dem die perspektivisch verzerrte Mehreckstruktur ein perspektivisch verzerrtes Rechteck ist und bei dem die mehreckigen Kantenstrukturen viereckige Kantenstrukturen sind.
Vorrichtung, insbesondere ein Smartphone, zum Detektieren einer perspektivisch verzerrten Mehreckstruktur in einem Bild eines Identifikationsdokumentes, mit: einer optischen Aufnahmeeinrichtung zum Aufnehmen des Bildes; und einem Prozessor, welcher eingerichtet ist, eine Detektion von Kanten in dem Bild durchzuführen, um ein Kantenbild zu erhalten, eine Mehrzahl von mehreckigen Kantenstrukturen in dem Kantenbild zu erfassen, eine Metrik für jede mehreckige Kantenstruktur zu bestimmen, und diejenige mehreckige Kantenstruktur als die perspektivisch verzerrte Mehreckstruktur auszuwählen, welche die größte Metrik aufweist.
Computerprogramm mit einem Programmcode zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 13, wenn der Programmcode auf einem Computer ausgeführt wird.