DE102008041944A1

DE102008041944A1 - Datenverarbeitungsverfahren zur Generierung eines Klassifikators und zur Überprüfung der Echtheit eines Dokuments, Vorrichtung zur Überprüfung der Echtheit eines Dokuments und Computerprogrammprodukt

Info

Publication number: DE102008041944A1
Application number: DE102008041944A
Authority: DE
Inventors: Christian Meilke; Horst Kessler
Original assignee: Bundesdruckerei GmbH
Current assignee: Bundesdruckerei GmbH
Priority date: 2008-09-10
Filing date: 2008-09-10
Publication date: 2010-03-11

Abstract

Die Erfindung betrifft ein Verfahren zur Generierung eines Klassifikators (128), wobei der Klassifikator zur automatischen Klassifizierung von Dokumenten eines vorgegebenen Dokumententyps ausgebildet ist und wobei der Klassifikator mit Hilfe von Trainingsdokumenten (100, 102) des vorgegebenen Dokumententyps erstellt wird, wobei die Trainingsdokumente eine erste Menge von echten Dokumenten und eine zweite Menge von unechten Dokumenten beinhalten, mit folgenden Schritten: - Erfassung eines Bildes (Bi) von einem vordefinierten Bildbereich (110) jedes der Trainingsdokumente, - Eingabe der Bilder in einen Merkmalextraktor, wobei der Merkmalextraktor zur Extraktion einer vorgegebenen Merkmalsmenge aus einem eingegebenen Bild und zur Ausgabe einer Wertemenge (Wi) für die Merkmalsmenge des Bildes ausgebildet ist, - Zuordnung einer Information zu jeder der Wertemengen zur Angabe, ob eine bestimmte Wertemenge zu einem echten oder zu einem unechten der Trainingsdokumente gehört, - Eingabe der Wertemengen und der jeweils zugeordneten Information in ein Lernmodul, wobei das Lernmodul ein maschinelles Lernverfahren implementiert, - Ausgabe des Klassifikators durch das Lernmodul.

Description

Die Erfindung betrifft ein Datenverarbeitungsverfahren zur Generierung eines Klassifikators, ein Datenverarbeitungsverfahren zur Überprüfung der Echtheit eines Dokuments, Vorrichtung zur Überprüfung der Echtheit eines Dokuments und Computerprogrammprodukt.
Die Prüfung von Wert- und Sicherheitsdokumenten auf Echtheit wird im Allgemeinen durch eine Person vorgenommen, wie zum Beispiel durch einen Grenzbeamten oder einen Polizisten. Dabei wird zwischen verfälschten und gefälschten Dokumenten unterschieden. Gefälschte Dokumente sind Dokumente, welche vollständig von einem Fälscher erstellt wurden. Ge- und verfälschte Dokumente werden auch als unechte Dokumente bezeichnet. Verfälschungen von solchen Dokumenten werden insbesondere dadurch erreicht, dass aus einem echten Dokument das Lichtbild des rechtmäßigen Trägers des Dokuments entfernt wurde, wobei insbesondere die Erkennung von Verfälschungen von Ausweisdokumenten durch Austausch des Lichtbildes ein hohes Maß an Expertise und Aufmerksamkeit voraussetzt.
Der Erfindung liegt dem gegenüber die Aufgabe zugrunde, ein Datenverarbeitungsverfahren zur Generierung eines Klassifikators für die automatische Klassifizierung von Dokumenten als echt oder unecht zu schaffen sowie ein entsprechendes Computerprogrammprodukt und ein verbessertes Verfahren zur Überprüfung der Echtheit eines Dokuments sowie eine entsprechende Vorrichtung und ein Computerprogrammprodukt.
Die der Erfindung zugrunde liegenden Aufgaben werden jeweils mit den Merkmalen der unabhängigen Patentansprüche gelöst. Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen angegeben.
Nach Ausführungsformen der Erfindung wird ein Datenverarbeitungsverfahren zur Generierung eines Klassifikators geschaffen, wobei der Klassifikator zur automatischen Klassifizierung von Dokumenten eines vorgegebenen Dokumententyps ausgebildet ist. Der Klassifikator wird mit Hilfe von Trainingsdokumenten des vorgegebenen Dokumententyps erstellt, wobei die Trainingsdokumente eine erste Menge von bekanntermaßen echten Dokumenten und eine zweite Menge von bekanntermaßen unechten Dokumenten beinhalten.
Beispielsweise kann es sich bei dem vorgegebenen Dokumententyp um einen Reisepass eines bestimmten Staates handeln. Grundlage für die Erstellung des Klassifikators ist eine erste Menge von Trainingsdokumenten dieses Dokumententyps, die echt sind, sowie eine zweite Menge von Trainingsdokumenten desselben Dokumententyps, für die bereits durch einen menschlichen Experten festgestellt worden ist, dass sie gefälscht oder verfälscht sind.
Mit Hilfe dieser Trainingsdokumente wird der Klassifikator generiert, indem zunächst ein Bild von einem vordefinierten Bildbereich jedes der Trainingsdokumente aufgenommen wird. Wenn es sich bei dem Dokumententyp zum Beispiel um ein Ausweisdokument mit einem Foto handelt, so ist der Bildbereich vorzugsweise so vordefiniert, dass er das Foto beinhaltet.
Die von dem vordefinierten Bildbereich der Trainingsdokumente aufgenommenen Bilder werden in einen Merkmalsextraktor eingegeben. Der Merkmalsextraktor extrahiert für jedes der Bilder eine vorgegebene Merkmalsmenge und bestimmt für jedes Merkmal dieser Menge einen Wert, insbesondere eine quantitative Angabe. Der Merkmalsextraktor gibt dann für jedes der Bilder eine entsprechende Wertemenge aus, welche die Werte der Merkmalsmenge für das betreffende Bild beinhaltet. Durch den Merkmalsextraktor wird also jedes Bild in einen Merkmalsraum überführt.
Jeder der Wertemengen wird dann die Information zugeordnet, ob die Wertemenge zu einem echten oder falschen der Trainingsdokumente gehört. Die Wertemengen mit den jeweils zugeordneten Informationen werden dann in ein Lernmodul eingegeben, welches ein maschinelles Lernverfahren implementiert. Das Lernmodul ist so ausgebildet, dass es aufgrund der eingegebenen Wertemengen und den zugeordneten Informationen den Klassifikator generiert und ausgibt.
Nach einer Ausführungsform der Erfindung handelt es sich bei dem Dokument um einen Wert- oder Sicherheitsdokument, wie zum Beispiel ein ID-Dokument, das heißt ein Ausweisdokument, wie zum Beispiel einen Personalausweis, Reisepass, Diplomatenausweis, Führerschein oder Firmenausweis, oder ein Zahlungsmittel, wie zum Beispiel eine Banknote, eine Kreditkarte, oder einen sonstigen Berechtigungsnachweis, wie zum Beispiel eine Eintrittskarte, einen Frachtbrief, ein Visum oder dergleichen.
Vorzugsweise handelt es sich bei dem Dokument um ein Dokument mit einem zum Beispiel aufgedrucktem oder von einer Anzeigevorrichtung angezeigtem Foto. Solche Dokumente mit Foto werden nämlich verfälscht, indem das Foto des rechtmäßigen Trägers des Dokuments durch ein Foto einer anderen Person ausgetauscht wird. Hierdurch entstehen Spuren an dem Dokument, wie zum Beispiel Schnitt- und/oder Klebespuren, die bisher nur von einem menschlichen Experten erkannt werden konnten, um das Dokument als unecht zu klassifizieren. Hier schaffen Ausführungsformen der Erfindung Abhilfe, indem ein Klassifikator generiert wird, der eine automatische Klassifizierung von solchen Dokumenten als echt oder unecht erlaubt, ohne dass hierzu ein menschlicher Experte erforderlich wäre. Das Know-how des menschlichen Experten ist dagegen nur einmal erforderlich, um die Trainingsdokumente zu klassifizieren, auf deren Grundlage das Datenverarbeitungsverfahren zur Generierung des Klassifikators durchgeführt wird.
Nach Ausführungsformen der Erfindung ist der Bildbereich für die Aufnahme des Bildes so vordefiniert, dass darin bei dem vorgegebenen Dokumententyp ein Foto angeordnet ist. Zur Aufnahme des Bildes kann zum Beispiel ein Vollbild einer Seite des Dokuments aufgenommen werden, auf der das Foto gezeigt ist. Die Aufnahme eines solchen Vollbildes bezeichnet man auch als „Full-Page-Reading”. In dem Vollbild wird der vordefinierte Bildbereich dann automatisch identifiziert, beispielsweise über vorgegebene Koordinaten dieses Bildbereichs. Aus dem so identifizierten Bildbereich werden dann die Bilddaten entnommen, um so das Bild des vordefinierten Bildbereichs zu gewinnen.
Nach einer Ausführungsform der Erfindung umfasst der vordefinierte Bildbereich einen Randstreifen, der um das Foto herum verläuft. Der Randstreifen hat beispielsweise eine Breite von zwischen 0,5 cm und 2 cm. Dies ist besonders vorteilhaft, da typischerweise beim Austausch eines Fotos zur Herstellung eines verfälschten Dokuments in einem solchen Randstreifen Bearbeitungsspuren erzeugt werden, wie zum Beispiel kleine Schnitte- und/oder Klebespuren. Vorzugsweise ist der Randstreifen so gewählt, dass nur ein Randbereich um das Foto abgedeckt wird, in dem sich solche Spuren durch den Austausch eines Fotos manifestieren. Andere Bereiche des Dokuments, in denen solche Spuren aufgrund des Austauschs des Fotos normalerweise nicht festzustellen sind, finden dagegen keinen Eingang in das Bild, welches anschließend in den Merkmalsklassifikator eingegeben wird.
Nach einer Ausführungsform der Erfindung ist der Merkmalsextraktor zur Extraktion der Grauwerte ausgebildet. Bei dem Bild handelt es sich also um ein Farbbild. Beispielsweise wird einer der Farbkanäle des Bildes ausgewählt. Die Farbwerte dieses ausgewählten Farbkanals können als Grauwerte verwendet werden, wobei die Grauwerte der Bildpunkte die extrahierten Merkmale darstellen. Alternativ können die Farbkanäle auch einer Transformation unterzogen werden, um aus den verschiedenen Farben jeweils pro Bildpunkt einen Grauwert zu ermitteln.
Nach einer Ausführungsform der Erfindung ist der Merkmalsextraktor zur Durchführung einer Hauptkomponentenanalyse ausgebildet. Die Hauptkomponentenanalyse, die auch als Principal Component Analysis (PCA) bezeichnet wird, ist ein Verfahren der Multivariaten Statistik, welche an sich aus dem Stand der Technik bekannt ist. Bei aus dem Stand der Technik bekannten Anwendungen in der Bildverarbeitung wird die Hauptkomponentenanalyse auch als Karhunen-Loeve-Transformation bezeichnet. Die Anzahl der aus dem Bild zu extrahierenden Hauptkomponenten ist vorgegeben. Für jedes Bild wird also die vorgegebene Anzahl der Hauptkomponenten und ein Wert für jede Hauptkomponente ermittelt. Diese Werte der extrahierten Merkmale, d. h. der Hauptkomponenten, werden dann als Wertemenge ausgegeben.
In einer Ausführungsform der Erfindung ist der Merkmalsextraktor zur Generierung von Scale-Invariant-Feature-Transform(SIFT)-Deskriptoren ausgebildet, wobei jeder SIFT-Deskriptor ein Merkmal der Merkmalsmenge repräsentiert. Der Merkmalsextraktor kann also eine so genannte SIFT durchführen, wie an sich aus dem Stand der Technik bekannt ist.
Nach einer Ausführungsform der Erfindung handelt es sich bei dem von dem Lernmodul implementierten maschinellen Lernverfahren um ein Adaptive-Boosting-Verfahren, welches auch als AdaBoost bezeichnet wird. AdaBoost ist ein aus dem Stand der Technik an sich bekanntes maschinelles Lernverfahren. Das AdaBoost-Verfahren ist so ausgebildet, dass es einen Klassifikator ausgibt. Der Klassifikator kann so ausgebildet sein, dass er für jedes Merkmal der Merkmalsmenge einen Schwellwert und eine Gewichtung angibt. Zur Klassifizierung eines Dokuments als echt oder falsch werden die aus dem Dokument extrahierten Merkmale dann mit Hilfe der Schwellwerte und deren Gewichtungen ausgewertet.
Nach Ausführungsformen der Erfindung implementiert das Lernmodul ein neuronales Netz, welches mit den Wertemengen und den jeweils zugeordneten Information trainiert wird. Das Training neuronaler Netze ist ebenfalls an sich aus dem Stand der Technik bekannt.
Bei einer Ausführungsform des Lernverfahrens als neuronales Netz wird als Ergebnis ein Klassifikator in Form eines trainierten neuronalen Netzes ausgegeben oder spezifiziert. Das trainierte neuronale Netz kann dann zur Klassifikation eines Dokuments verwendet werden, indem die aus dem Dokument extrahierten Merkmale in das neuronale Netz eingegeben werden, welches dann ausgibt, ob das Dokument als echt oder falsch zu klassifizieren ist. Das neuronale Netz hat also einen Eingang für jeder der Merkmale, um den für das betreffende Merkmal bestimmten Wert der Merkmalsmenge einzugeben. Das neuronale Netz hat ferner einen Ausgang, der dazu dient, ein Signal auszugeben, welches angibt, ob das gerade zu klassifizierende Dokument, dessen Wertemenge in die Eingänge des neuronalen Netzes eingegeben wurde, echt oder unecht ist.
Nach einer weiteren Ausführungsform der Erfindung implementiert das Lernmodul ein Clustering-Verfahren. Hierbei werden von dem Lernmodul aufgrund der Eingabe der Wertemengen und der jeweils zugeordneten Informationen so genannte Cluster definiert.
Bei einer Ausführungsform des maschinellen Lernverfahrens als Clustering-Verfahren wird ein Klassifikator ausgegeben, der die durch die Ausführung des Clustering-Verfahrens aufgefundenen Cluster spezifiziert. Beispielsweise wird ein erster Cluster spezifiziert, der echte Dokumente repräsentiert, sowie ein zweiter Cluster, der unechte Dokumente repräsentiert. Die Cluster können jeweils durch bestimmte Wertebereiche der Merkmale spezifiziert sein. Die aus einem zu klassifizierenden Dokument extrahierten Merkmale, das heißt die Wertemenge dieser Merkmalsmenge, wird dann mit den Spezifikationen des ersten und zweiten Clusters verglichen. Derjenigen Spezifikation, der das Dokument am besten entspricht, wird es dann zugeordnet, um es als echt oder unecht zu klassifizieren.
Das von dem Lernmodul implementierte Lernverfahren kann so ausgebildet sein, dass es hinsichtlich der Klassifikation einen Zuverlässigkeits- oder Wahrscheinlichkeitswert ausgibt. Dieser Zuverlässigkeits- oder Wahrscheinlichkeitswert kann alternativ oder zusätzlich zu der Klassifikation des Dokuments als echt oder falsch über eine Schnittstelle ausgegeben werden.
Nach einer Ausführungsform handelt es sich bei dem Klassifikator um eine Datei. Insbesondere kann es sich bei dem Klassifikator um eine ausführbare Datei, das heißt ein Computerprogramm, oder eine andere Datei, wie zum Beispiel eine Datei in einer Auszeichnungssprache, insbesondere eine XML-Datei, handeln. Wenn die Datei nicht ausführbar ist, so greift ein generisches Computerprogramm auf die Datei zu, in welches die von einem zu klassifizierenden Dokument extrahierte Wertemenge eingegeben wird, um diese Wertemenge anhand der Datei für die Klassifikationszwecke auszuwerten.
In einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt zur Durchführung einer Ausführungsform eines erfindungsgemäßen Datenverarbeitungsverfahrens.
In einem weiteren Aspekt betrifft die Erfindung ein Datenverarbeitungsverfahren zur Überprüfung der Echtheit eines Dokuments.
In einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt zur Durchführung eines solchen Verfahrens. Beispielsweise wird das Computerprogrammprodukt von einem Computer ausgeführt, an welchem ein Dokumentenscanner oder eine Dokumentenkamera angeschlossen ist. Alternativ kann das Computerprogramm auch von einer Prüfvorrichtung ausgeführt werden, das heißt einem elektronischen Gerät, welches sowohl der Bildaufnahme als auch der Klassifikation dient.
In einem weiteren Aspekt betrifft die Erfindung eine Vorrichtung zur Überprüfung der Echtheit eines Dokuments.
Nach einer Ausführungsform der Erfindung hat die Vorrichtung einen elektronischen Speicher zur Speicherung des Klassifikators. Bei dem Klassifikator kann es sich um eine ausführbare Datei oder eine Beschreibungsdatei handeln, insbesondere eine Datei in einer Auszeichnungssprache, wie zum Beispiel XML.
Nach einer Ausführungsform der Erfindung sind in der Vorrichtung mehrere solcher Klassifikatoren gespeichert, wobei jeder der Klassifikatoren einem anderen Dokumententyp zugeordnet ist. Über eine Schnittstelle kann der Dokumententyp eines zu überprüfenden Dokuments spezifiziert werden, woraufhin der diesem Dokumententyp zugeordnete Klassifikator für die Klassifikation verwendet wird.
Im Weiteren werden Ausführungsbeispiele der Erfindung mit Bezugnahme auf die Zeichnungen näher erläutert. Es zeigen:
1 eine schematische Ansicht von Trainingsdokumenten zur Generierung einer Ausführungsform des erfindungsgemäßen Klassifikators,
2 ein Flussdiagramm einer Ausführungsform eines erfindungsgemäßen Datenverarbeitungsverfahrens zur Generierung eines Klassifikators,
3 eine schematische Draufsicht auf eine Ausführungsform eines zu klassifizierenden Dokuments,
4 ein Blockdiagramm einer Ausführungsform einer erfindungsgemäßen Vorrichtung zur Überprüfung der Echtheit eines Dokuments,
5 eine schematische Ansicht einer Ausführungsform eines erfindungsgemäßen Klassifikators,
6 ein Flussdiagramm einer Ausführungsform eines erfindungsgemäßen Datenverarbeitungsverfahrens zur Überprüfung der Echtheit eines Dokuments anhand des Klassifikators in der Ausführungsform der 5.
Elemente der nachfolgenden Ausführungsformen, die einander entsprechen, sind mit denselben Bezugszeichen gekennzeichnet.
Die 1 zeigt eine Anzahl von N = n + m Trainingsdokumenten, wobei die N Trainingsdokumente eine erste Menge von n echten Dokumenten 100 und eine zweite Menge von m unechten Dokumente 102 beinhaltet. Die echten Dokumente 100 und die unechten Dokumente 102 gehören zu demselben vorgegebenen Dokumententyp.
Beispielsweise handelt es sich bei den Dokumenten 100, 102 um Ausweisdokumente eines bestimmten Staates, wie zum Beispiel um Reisepässe eines bestimmten Staates eines bestimmten Ausgabezeitraumes. Durch den vorgegebenen Dokumententyp werden grundsätzliche Eigenschaften von Dokumenten dieses Typs festgelegt, wie zum Beispiel die Abmessungen des Dokuments, die Position eines Fotos in dem Dokument, die Position von Textfeldern in dem Dokument, die verwendeten Schrifttypen sowie sonstige Sicherheitsmerkmale. Beispielsweise werden Dokumente des vorgegebenen Dokumententyps anhand von identischen Dokumentenrohlingen hergestellt, wobei die Dokumentenrohlinge zur Herstellung der Dokumente personalisiert werden.
Bei den Dokumenten 100 handelt es sich um bekanntermaßen echte Dokumente des vorgegebenen Dokumententyps. Bei den Dokumenten 102 handelt es sich dagegen um bekanntermaßen unechte Dokumente desselben vorgegebenen Dokumententyps. Diese unechten Dokumente 102 wurden beispielsweise anlässlich von Personenkontrollen oder Grenzkontrollen von einem zuständigen Beamten als verfälscht oder gefälscht identifiziert und eingezogen.
Auf der Basis der ersten Menge von echten Dokumenten 100 und der zweiten Menge von unechten Dokumenten 102 sowie der den Dokumenten jeweils zugeordne ten Information „echt” oder „unecht” wird anhand eines maschinellen Lernverfahrens ein Klassifikator generiert. Eine Ausführungsform eines diesbezüglichen Datenverarbeitungsverfahrens zeigt das Flussdiagramm der 2.
In dem Schritt 200 wird ein Laufindex i für die Trainingsdokumente initialisiert. Ein bestimmtes Dokument der ersten oder zweiten Menge der Trainingselemente wird im Weiteren als Dokument D_i bezeichnet, wobei 0 ≤ i < N ist.
In dem Schritt 202 wird ein Bild B_i von dem Dokument D_i aufgenommen. Das Bild B_i beinhaltet einen vordefinierten Bildbereich des Dokuments D_i. Die Aufnahme des Bildes kann als Vollbild erfolgen, wobei aus dem Vollbild das B_i aus dem vordefinierten Bildbereich entnommen wird. Alternativ wird nur der vordefinierte Bildbereich des Dokuments D_i aufgenommen. Vorzugsweise wird jedoch das Bild als Vollbild aufgenommen, um aus dem Vollbild das Bild B_i zu entnehmen, da das Vollbild für weitere Überprüfungen des Dokuments verwendet werden kann, insbesondere für die Überprüfung von weiteren Sicherheitsmerkmalen, die für den vorgegebenen Dokumententyp spezifiziert sind.
In dem Schritt 204 wird das Bild B_i in einen Merkmalsextraktor eingegeben. Der Merkmalsextraktor extrahiert eine vorgegebene Merkmalsmenge aus dem Bild B_i. Der Merkmalsextraktor ermittelt für jedes der vorgegebenen Merkmale der Merkmalsmenge einen Wert und gibt die resultierende Wertemenge W_i des Bildes B_i in dem Schritt 206 aus.
In dem Schritt 208 wird diese Wertemenge W_i in ein Lernmodul eingegeben. Zusätzlich wird für die Wertemenge W_i eine Informationen in das Lernmodul eingegeben, wonach die Wertemenge W_i zu einem echten oder unechten Dokument D_i gehört.
In dem Schritt 210 wird der Index i inkrementiert, und der Ablauf geht zu dem Schritt 202 zurück. Dies wiederholt sich so lange, bis der Wert des Index i in dem Schritt 210 N erreicht. in diesem Fall sind sämtliche der Trainingsdokumente verarbeitet worden und in dem Schritt 212 gibt das Lernmodul den daraus resultierenden Klassifikator aus.
Anstelle des in der 2 gezeigten Verfahrens kann auch so vorgegangen werden, dass zunächst die Bilder B_i von sämtlichen der Dokumente D_i aufgenommen werden. In einer nachfolgenden Verarbeitungsschleife werden dann sämtliche Wertemengen W_i generiert und zwischengespeichert, bevor sie schließlich in das Lernmodul eingegeben werden. Insbesondere kann die Aufnahme der Bilder B_i, die Merkmalsextraktion und/oder die Ausführung des maschinellen Lernverfahrens durch das Lernmodul in voneinander zeitlich und/oder räumlich getrennten Verarbeitungsschritten erfolgen.
Die 3 zeigt exemplarisch eines der Dokumente D_i der Trainingsdokumente. Bei dem vorgegebenen Dokumententyp der Trainingsdokumente handelt es sich hier beispielsweise um einen elektronischen Personalausweis. Der Dokumententyp des elektronischen Personalausweises ist dahingehend spezifiziert, dass der Personalausweis gewisse äußere Abmessungen hat und dass an einer vordefinierten Position ein Foto 104 des Trägers des Dokuments angeordnet ist. Das Foto 104 kann aufgedruckt sein oder das Dokument D_i beinhaltet eine Anzeigevorrichtung, auf der das Foto wiedergegeben wird. Bei der Anzeigevorrichtung kann es sich zum Beispiel um ein bistabiles Display handeln.
Ferner ist für den Dokumententyp „elektronische Personalausweis” die Lage und der Schrifttyp eines Textbereiches 106 sowie einer maschinenlesbaren Zone 108 spezifiziert, welche auch als so genannte Machine Readable Zone (MRZ) bezeichnet wird. Darüber hinaus können für den vorgegebenen Dokumententyp, das heißt hier den elektronischen Personalausweis, weitere Merkmale, insbesondere Sicherheitsmerkmale, spezifiziert sein, die Dokumente dieses vorgegebenen Dokumententyps erfüllen müssen.
Zur Generierung eines Klassifikators zur automatischen Erkennung von Fälschungen und Verfälschungen von Dokumenten des vorgegebenen Dokumententyps, die dadurch hergestellt worden sind, dass das Foto 104 durch ein anderes ersetzt worden ist, wird der vordefinierte Bildbereich 110 so festgelegt, dass er das Foto 104 beinhaltet. Ferner beinhaltet der Bildbereich 110 einen Randstreifen 112, der um das Foto 104 herum verläuft. Der Randstreifen hat eine Breite B von zum Beispiel zwischen 0,5 cm und 2 cm, insbesondere ca. 1 cm, da innerhalb dieser Breite um das Foto 104 herum typischerweise Bearbeitungsspuren entstehen, die bei einer Verfälschung des Dokuments D_i aufgrund des Austauschs des Fotos 104 erzeugt werden. Die Hilfe Generierung des Klassifikators kann auf dieser Basis anhand des in der 2 gezeigten Verfahrens erfolgen.
Die 4 zeigt eine Ausführungsform einer erfindungsgemäßen Vorrichtung 114 zur Überprüfung der Echtheit eines Dokuments des in der 3 gezeigten Dokumententyps. Die Vorrichtung 114 hat einen Scanner 116 oder einen CCD-Sensor zur Aufnahme eines Vollbildes eines zu prüfenden Dokuments oder unmittelbar des Bildes nur des vordefinierten Bildbereiches 110.
Der Scanner 116 ist an einen Computer 118 angeschlossen. Der Computer 118 dient zur Ausführung eines Programmmoduls 120, welches dann erforderlich ist, wenn der Scanner 116 ein Vollbild aufnimmt. Das Programmmodul 120 identifiziert den vordefinierten Bildbereich in dem Vollbild und entnimmt diesem Bildbereich 110 das Bild.
Der Computer 118 dient ferner zur Ausführung eines Programmmoduls 122, durch welches der Merkmalsextraktor 122 implementiert wird. Beispielsweise ist das Programmmodul 122 zur Extraktion von Grauwerten aus dem Bild, zur Hauptkomponentenanalyse des Bildes oder zur Extraktion von SIFT-Descriptoren aus dem Bild ausgebildet. Für jedes der aus dem Bild extrahierten Merkmale bestimmt das Programmmodul 122 einen Wert, insbesondere einen Zahlenwert. Diese Zahlenwerte werden als Wertemenge von dem Programmmodul 122 ausgegeben.
Ferner dient der Computer 118 zur Ausführung eines Programmmoduls 124, um ein Dokument des vorgegebenen Dokumententyps zu klassifizieren. Bei dem Programmmodul 124 kann es sich um den von dem Lernmodul (vgl. Schritt 212 der 2) ausgegebenen Klassifikator handeln, wenn es sich bei dem Klassifikator um eine ausführbare Datei handelt.
Das Programmmodul 124 kann auch generisch ausgebildet sein. In diesem Fall handelt es sich bei dem von dem Lernmodul generierten Klassifikator um eine Be schreibungsdatei, insbesondere eine Datei in einer Auszeichnungssprache, auf die das Programmmodul 124 zugreift, um das Dokument zu klassifizieren.
Der Computer 118 dient ferner zur Ausführung eines Programmmoduls 126, durch welches eine Schnittstelle, insbesondere eine Nutzer-Schnittstelle realisiert wird. Die Schnittstelle kann so ausgebildet sein, dass ein erstes Signal ausgegeben wird, wenn das Dokument als echt klassifiziert worden ist, und ein zweites Signal, wenn das Dokument als unecht klassifiziert worden ist.
Beispielsweise kann die Schnittstelle hierzu entsprechende optische und/oder akustische Ausgabemittel beinhalten, die von dem Programmmodul 126 angesteuert werden. Alternativ oder zusätzlich kann die Schnittstelle als grafische Nutzer-Schnittstelle ausgebildet sein oder bei der Schnittstelle handelt es sich um eine maschinelle-Schnittstelle, beispielsweise um das erste Signal zur Freigabe eines Drehkreuzes auszugeben.
Zur Überprüfung der Echtheit eines Dokuments des vorgegebenen Dokumententyps, für welchen der Klassifikator generiert worden ist, wird wie folgt vorgegangen:
Das Dokument wird mit Hilfe des Scanners 116 erfasst, indem beispielsweise ein Vollbild aufgenommen wird. Daraufhin wird von dem Programmmodul 120 der vordefinierte Bildbereich 110 in dem Vollbild identifiziert und die Bilddaten werden aus diesem vordefinierten Bildbereich entnommen, um so zu dem Bild dieses vordefinierten Bildbereichs zu kommen, entsprechend eines Bildes B_i (vgl. Schritt 202 der 2) der Trainingsdokumente.
Die Bilddaten des Bildes werden dann in das Programmmodul 122 eingegeben, um die Wertemenge zu bestimmen (vgl. Schritte 204 und 206 der 2 zur Bestimmung der Wertemenge W_i eines Trainingsdokuments). Diese Wertemenge wird dann in das Programmmodul 124 eingegeben, welches auf dieser Basis eine Klassifizierung vornimmt.
Das Programmmodul 124 gibt dann an das Programmmodul 126 aus, ob das Dokument als echt oder unecht klassifiziert worden ist. Alternativ oder zusätzlich kann das Programmmodul 124 einen Zuverlässigkeitswert für die Klassifikation ausgegeben, welcher optional über das Programmmodul 126 über die Nutzer-Schnittstelle ausgegeben wird.
Nach einer Ausführungsform der Erfindung kann die Vorrichtung 114 zur Überprüfung der Echtheit von Dokumenten verschiedener vorgegebener Dokumententypen verwendet werden. Hierzu beinhaltet der Computer 118 entweder mehrere verschiedene der Programmmodule 124, die jeweils einen bestimmten der Dokumententypen zugeordneten Klassifikator implementieren, oder verschiedene Klassifikatoren, auf die das Programmmodul 124 zugreifen kann.
Über die Nutzer-Schnittstelle kann ein Benutzer eingeben, welchen der unterstützten Dokumententypen ein zu klassifizierendes Dokument hat. Alternativ oder zusätzlich kann die Vorrichtung 114 auch so ausgebildet sein, dass zunächst der Dokumententyp aus dem von dem Dokument aufgenommenen Vollbild ermittelt wird, z. B. aus der MRZ. Hierzu kann die Vorrichtung 114 ein weiteres Programmmodul aufweisen.
Daraufhin wird der Klassifikator, der für den gewählten oder automatisch ermittelten Dokumententyp, beispielsweise nach dem Verfahren gemäß 2, generiert worden ist, von der Vorrichtung automatisch ausgewählt und für die Klassifizierung des Dokuments verwendet.
Der Klassifikator, das heißt beispielsweise das Programmmodul 124 oder eine entsprechende Datei, können von der Institution, die den Klassifikator generiert hat, digital signiert sein. Bevor der Computer 118 die Klassifikation des Dokuments mit Hilfe beispielsweise des Programmmoduls 124 durchführt, wird diese digitale Signatur auf Validität geprüft, um sicherzustellen, dass bezüglich des Klassifikators keine Manipulation vorliegt.
Die 5 zeigt eine Ausführungsform eines erfindungsgemäßen Klassifikators 128, wie er von dem Lernmodul (vgl. Schritt 208 der 2) mit Hilfe eines Adaptive-Boosting-Verfahrens erstellt worden ist. Der Klassifikator 128 beinhaltet für jedes der Merkmale M_j, wobei 0 ≤ j < J – 1, der vorgegebenen Merkmalsmenge einen entsprechenden Schwellwert S_j sowie ein Gewicht G_j. Die Klassifikation eines Dokuments des vorgegebenen Dokumententyps kann gemäß der Ausführungsform der 6 anhand des Klassifikators 128 wie folgt vorgenommen werden:
In dem Schritt 300 werden die Bilddaten des Bildes des zu überprüfenden Dokuments eingegeben. Daraufhin erfolgt in dem Schritt 302 eine Merkmalsextraktion durch den Merkmalsextraktor, der eine Wertemenge ausgibt, welche einen Wert W_j für jedes der Merkmale M_j des Klassifikators 128 beinhaltet.
In dem Schritt 304 wird der Index j initialisiert. Ferner werden die Summen Σ1 und Σ2 auf 0 gesetzt.
In dem Schritt 306 wird für den Wert W_j der Wertemenge geprüft, ob dieser Wert kleiner ist als der zu dem entsprechenden Merkmal M_j gehörende Schwellwert S_j, so wie er in dem Klassifikator 128 spezifiziert ist.
Wenn dies der Fall ist, wird anschließend der Schritt 308 ausgeführt, in dem die Summe Σ1 um das Gewicht G_j erhöht wird. Danach wird der Index j in dem Schritt 310 inkrementiert und die Ablaufsteuerung geht zu dem Schritt 306 zurück. Wenn die Prüfung in dem Schritt 306 hingegen ergibt, dass der Wert W_j des Merkmals M_j nicht kleiner als der Schwellwert S_j dieses Merkmals ist, so wird nachfolgend der Schritt 312 durchgeführt, indem anstelle der Summe Σ1 die Summe Σ2 um das Gewicht G_j erhöht wird, um danach den Schritt 310 auszuführen.
Dies wird so lange wiederholt, bis der Wert des Index j in dem Schritt 310 J erreicht.
Dann wird in dem Schritt 314 geprüft, ob Σ1 kleiner als Σ2 ist. Ist dies der Fall, so wird in dem Schritt 316 ein Signal ausgegeben, um die Echtheit des Dokuments D_i zu signalisieren. Im gegenteiligen Fall wird in dem Schritt 318 ein Signal ausgegeben, um zu signalisieren, dass es sich bei dem Dokument D_i um ein unechtes Dokument handelt. Alternativ oder zusätzlich wird in dem Schritt 316 ein Zuverlässigkeitswert Σ1/(Σ1 + Σ2) ausgegeben, sowie in dem Schritt 318 ein Zuverlässigkeitswert Σ2/(Σ1 + Σ2).

100: Dokument
102: Dokument
104: Foto
106: Textbereich
108: maschinenlesbare Zone
110: Bildbereich
112: Randstreifen
114: Vorrichtung
116: Scanner
118: Computer
120: Programmmodul
122: Programmmodul
124: Programmmodul
126: Programmmodul
128: Klassifikator

Claims

Datenverarbeitungsverfahren zur Generierung eines Klassifikators (128), wobei der Klassifikator zur automatischen Klassifizierung von Dokumenten eines vorgegebenen Dokumententyps ausgebildet ist, und wobei der Klassifikator mit Hilfe von Trainingsdokumenten (100, 102) des vorgegebenen Dokumententyps erstellt wird, wobei die Trainingsdokumente eine erste Menge von echten Dokumenten und eine zweite Menge von unechten Dokumenten beinhalten, mit folgenden Schritten: – Erfassung eines Bildes (B_i) von einem vordefinierten Bildbereich (110) jedes der Trainingsdokumente, – Eingabe der Bilder in einen Merkmalsextraktor, wobei der Merkmalextraktor zur Extraktion einer vorgegebenen Merkmalsmenge aus einem eingegebenen Bild und zur Ausgabe einer Wertemenge (W_i) für die Merkmalsmenge des Bildes ausgebildet ist, – Zuordnung einer Information zu jeder der Wertemengen zur Angabe, ob eine bestimmte Wertemenge zu einem echten oder zu einem unechten der Trainingsdokumente gehört, – Eingabe der Wertemengen und der jeweils zugeordneten Information in ein Lernmodul, wobei das Lernmodul ein maschinelles Lernverfahren implementiert, – Ausgabe des Klassifikators durch das Lernmodul.
Datenverarbeitungsverfahren nach Anspruch 1, wobei es sich bei dem Dokument um ein Wert- oder Sicherheitsdokument, insbesondere ein Ausweisdokument handelt.
Datenverarbeitungsverfahren nach Anspruch 1 oder 2, wobei der vordefinierte Bildbereich einen Bereich des Dokumententyps beinhaltet, in dem ein Foto (104) angeordnet ist.
Datenverarbeitungssystem nach Anspruch 3, wobei der vordefinierte Bildbereich einen Randstreifen umfasst, der um das Foto herum verläuft.
Datenverarbeitungsverfahren nach Anspruch 4, wobei der Randstreifen eine Breite von 0,5 cm bis 2 cm hat.
Datenverarbeitungsverfahren nach einem der vorhergehenden Ansprüche, wobei zur Aufnahme des Bildes ein Vollbild aufgenommen wird, der vordefinierte Bildbereich in dem Vollbild automatisch identifiziert wird und die Bilddaten des Bildes aus dem vordefinierten Bildbereich dem Vollbild entnommen werden.
Datenverarbeitungsverfahren nach einem der vorhergehenden Ansprüche, wobei der Merkmalsextraktor zur Extraktion von Grauwerten, zur Extraktion von SIFT-Descriptoren oder zur Hauptkomponentenanalyse ausgebildet ist, um die Merkmalsmenge zu extrahieren.
Datenverarbeitungsverfahren nach einem der vorhergehenden Ansprüche, wobei es sich bei dem maschinellen Lernverfahren um Adaptive Boosting. das Trainieren eines neuronalen Netzes oder ein Clustering-Verfahren handelt.
Datenverarbeitungsverfahren nach Anspruch 8, wobei das Lernmodul so ausgebildet ist, dass der Klassifikator die Eingabe einer Wertemenge eines zu klassifizierenden Dokuments des vorgegebenen Dokumententyps erlaubt, woraufhin ausgegeben wird, ob das Dokument echt oder unecht ist.
Datenverarbeitungsverfahren nach einem der vorhergehenden Ansprüche, wobei der Klassifikator in Form einer Datei ausgegeben wird.
Datenverarbeitungsverfahren nach Anspruch 10, wobei es sich bei der Datei um eine ausführbare Datei oder eine Datei einer Auszeichnungssprache handelt.
Computerprogrammprodukt mit ausführbaren Programminstruktionen zur Durchführung eines Datenverarbeitungsverfahrens nach einem der vorhergehenden Ansprüche.
Datenverarbeitungsverfahren zur Überprüfung der Echtheit eines Dokuments mit folgenden Schritten: – Eingabe von Bilddaten eines vorgegebenen Bildbereichs (110) des Dokuments in einen Merkmalsextraktor (122), wobei der Merkmalsextraktor, wobei der Merkmalextraktor zur Extraktion einer vorgegebenen Merkmalsmenge aus einem eingegebenen Bild und zur Ausgabe einer Wertemenge für die Merkmalsmenge des Bildes ausgebildet ist, – Auswertung der für das Dokument von dem Merkmalsextraktor ausgegebenem Wertemenge mit Hilfe eines Klassifikators (128), wobei als Ergebnis der Auswertung ausgegeben wird, ob das Dokument echt oder unecht ist.
Datenverarbeitungsverfahren nach Anspruch 13, wobei der Klassifikator als Datei ausgebildet ist.
Datenverarbeitungsverfahren nach Anspruch 13 oder 14, wobei ein Zuverlässigkeitswert für die Klassifizierung des Dokuments als echtes oder unechtes Dokument ausgegeben wird.
Datenverarbeitungsverfahren nach Anspruch 13, 14 oder 15, wobei der Klassifikator einen Schwellwert und ein Gewicht für jedes Merkmal der Merkmalsmenge beinhaltet, und wobei die Auswertung so erfolgt, dass der Wert jedes Merkmals der Merkmalsmenge mit dem dem betreffenden Merkmal zugeordneten Schwellwert verglichen wird, und wobei in Abhängigkeit von dem Ergebnis dieses Vergleichs das dem diesen Merkmal zugeordnete Ge wicht zu einer ersten oder einer zweiten Summe aufaddiert wird, wobei nach Durchführung der Vergleiche für alle Merkmale der Merkmalsmenge die ersten und die zweiten Summen mit einander verglichen werden, wobei in Abhängigkeit von dem Ergebnis des Vergleichs der ersten und zweiten Summen das Dokument als echt oder unecht klassifiziert wird.
Computerprogrammprodukt zur Durchführung eines Datenverarbeitungsverfahrens nach einem der vorhergehenden Ansprüche 13 bis 16.
Vorrichtung zur Überprüfung der Echtheit eines Dokuments mit: – Mitteln (116) zur Aufnahme eines Bildes von einem vordefinierten Bildbereich (110) des Dokuments, – Mitteln (122) zur Merkmalsextraktion aus dem Bild, wobei die Mittel zur Merkmalsextraktion zur Extraktion einer vorgegebenen Merkmalsmenge aus dem Bild und zur Ausgabe einer Wertemenge für die Merkmalsmenge ausgebildet sind, – Mitteln (124; 128) zur Klassifikation des Dokuments als echt oder unecht, wobei die Mittel zur Klassifikation einen gespeicherten Klassifikator beinhalten, – Mitteln (126) zur Ausgabe eines Ergebnisses der Klassifikation.
Vorrichtung nach Anspruch 18, wobei es sich bei dem Klassifikator um eine Datei handelt.
Vorrichtung nach Anspruch 18 oder 19, wobei mehrere Klassifikatoren gespeichert sind, wobei jeder der Klassifikatoren einem bestimmten Dokumententyp zugeordnet ist, und mit einer Schnittstelle zur Auswahl eines der Klassifikatoren in Abhängigkeit von dem Dokumententyp des zu überprüfenden Dokuments.
Vorrichtung nach Anspruch 18 oder 19, wobei mehrere Klassifikatoren gespeichert sind, wobei jeder der Klassifikatoren einem bestimmten Dokumententyp zugeordnet ist, und mit Mitteln zur automatischen Ermittlung des Dokumententyps des zu überprüfenden Dokuments und zur automatischen Auswahl eines der Klassifikatoren in Abhängigkeit von dem ermittelten Dokumententyp für die Durchführung der Klassifizierung.