-
Die
Erfindung betrifft ein Datenverarbeitungsverfahren zur Generierung
eines Klassifikators, ein Datenverarbeitungsverfahren zur Überprüfung der
Echtheit eines Dokuments, Vorrichtung zur Überprüfung der Echtheit eines Dokuments
und Computerprogrammprodukt.
-
Die
Prüfung
von Wert- und Sicherheitsdokumenten auf Echtheit wird im Allgemeinen
durch eine Person vorgenommen, wie zum Beispiel durch einen Grenzbeamten
oder einen Polizisten. Dabei wird zwischen verfälschten und gefälschten
Dokumenten unterschieden. Gefälschte
Dokumente sind Dokumente, welche vollständig von einem Fälscher erstellt wurden.
Ge- und verfälschte
Dokumente werden auch als unechte Dokumente bezeichnet. Verfälschungen
von solchen Dokumenten werden insbesondere dadurch erreicht, dass
aus einem echten Dokument das Lichtbild des rechtmäßigen Trägers des
Dokuments entfernt wurde, wobei insbesondere die Erkennung von Verfälschungen
von Ausweisdokumenten durch Austausch des Lichtbildes ein hohes Maß an Expertise
und Aufmerksamkeit voraussetzt.
-
Der
Erfindung liegt dem gegenüber
die Aufgabe zugrunde, ein Datenverarbeitungsverfahren zur Generierung
eines Klassifikators für
die automatische Klassifizierung von Dokumenten als echt oder unecht
zu schaffen sowie ein entsprechendes Computerprogrammprodukt und
ein verbessertes Verfahren zur Überprüfung der
Echtheit eines Dokuments sowie eine entsprechende Vorrichtung und
ein Computerprogrammprodukt.
-
Die
der Erfindung zugrunde liegenden Aufgaben werden jeweils mit den
Merkmalen der unabhängigen
Patentansprüche
gelöst.
Ausführungsformen
der Erfindung sind in den abhängigen
Patentansprüchen
angegeben.
-
Nach
Ausführungsformen
der Erfindung wird ein Datenverarbeitungsverfahren zur Generierung
eines Klassifikators geschaffen, wobei der Klassifikator zur automatischen
Klassifizierung von Dokumenten eines vorgegebenen Dokumententyps
ausgebildet ist. Der Klassifikator wird mit Hilfe von Trainingsdokumenten
des vorgegebenen Dokumententyps erstellt, wobei die Trainingsdokumente
eine erste Menge von bekanntermaßen echten Dokumenten und eine
zweite Menge von bekanntermaßen
unechten Dokumenten beinhalten.
-
Beispielsweise
kann es sich bei dem vorgegebenen Dokumententyp um einen Reisepass
eines bestimmten Staates handeln. Grundlage für die Erstellung des Klassifikators
ist eine erste Menge von Trainingsdokumenten dieses Dokumententyps,
die echt sind, sowie eine zweite Menge von Trainingsdokumenten desselben
Dokumententyps, für
die bereits durch einen menschlichen Experten festgestellt worden
ist, dass sie gefälscht
oder verfälscht
sind.
-
Mit
Hilfe dieser Trainingsdokumente wird der Klassifikator generiert,
indem zunächst
ein Bild von einem vordefinierten Bildbereich jedes der Trainingsdokumente
aufgenommen wird. Wenn es sich bei dem Dokumententyp zum Beispiel
um ein Ausweisdokument mit einem Foto handelt, so ist der Bildbereich
vorzugsweise so vordefiniert, dass er das Foto beinhaltet.
-
Die
von dem vordefinierten Bildbereich der Trainingsdokumente aufgenommenen
Bilder werden in einen Merkmalsextraktor eingegeben. Der Merkmalsextraktor
extrahiert für
jedes der Bilder eine vorgegebene Merkmalsmenge und bestimmt für jedes Merkmal
dieser Menge einen Wert, insbesondere eine quantitative Angabe.
Der Merkmalsextraktor gibt dann für jedes der Bilder eine entsprechende
Wertemenge aus, welche die Werte der Merkmalsmenge für das betreffende
Bild beinhaltet. Durch den Merkmalsextraktor wird also jedes Bild
in einen Merkmalsraum überführt.
-
Jeder
der Wertemengen wird dann die Information zugeordnet, ob die Wertemenge
zu einem echten oder falschen der Trainingsdokumente gehört. Die
Wertemengen mit den jeweils zugeordneten Informationen werden dann
in ein Lernmodul eingegeben, welches ein maschinelles Lernverfahren
implementiert. Das Lernmodul ist so ausgebildet, dass es aufgrund
der eingegebenen Wertemengen und den zugeordneten Informationen
den Klassifikator generiert und ausgibt.
-
Nach
einer Ausführungsform
der Erfindung handelt es sich bei dem Dokument um einen Wert- oder
Sicherheitsdokument, wie zum Beispiel ein ID-Dokument, das heißt ein Ausweisdokument,
wie zum Beispiel einen Personalausweis, Reisepass, Diplomatenausweis,
Führerschein
oder Firmenausweis, oder ein Zahlungsmittel, wie zum Beispiel eine Banknote,
eine Kreditkarte, oder einen sonstigen Berechtigungsnachweis, wie
zum Beispiel eine Eintrittskarte, einen Frachtbrief, ein Visum oder
dergleichen.
-
Vorzugsweise
handelt es sich bei dem Dokument um ein Dokument mit einem zum Beispiel
aufgedrucktem oder von einer Anzeigevorrichtung angezeigtem Foto.
Solche Dokumente mit Foto werden nämlich verfälscht, indem das Foto des rechtmäßigen Trägers des
Dokuments durch ein Foto einer anderen Person ausgetauscht wird.
Hierdurch entstehen Spuren an dem Dokument, wie zum Beispiel Schnitt-
und/oder Klebespuren, die bisher nur von einem menschlichen Experten
erkannt werden konnten, um das Dokument als unecht zu klassifizieren. Hier
schaffen Ausführungsformen
der Erfindung Abhilfe, indem ein Klassifikator generiert wird, der
eine automatische Klassifizierung von solchen Dokumenten als echt
oder unecht erlaubt, ohne dass hierzu ein menschlicher Experte erforderlich
wäre. Das Know-how
des menschlichen Experten ist dagegen nur einmal erforderlich, um
die Trainingsdokumente zu klassifizieren, auf deren Grundlage das
Datenverarbeitungsverfahren zur Generierung des Klassifikators durchgeführt wird.
-
Nach
Ausführungsformen
der Erfindung ist der Bildbereich für die Aufnahme des Bildes so
vordefiniert, dass darin bei dem vorgegebenen Dokumententyp ein
Foto angeordnet ist. Zur Aufnahme des Bildes kann zum Beispiel ein
Vollbild einer Seite des Dokuments aufgenommen werden, auf der das Foto
gezeigt ist. Die Aufnahme eines solchen Vollbildes bezeichnet man
auch als „Full-Page-Reading”. In dem
Vollbild wird der vordefinierte Bildbereich dann automatisch identifiziert,
beispielsweise über
vorgegebene Koordinaten dieses Bildbereichs. Aus dem so identifizierten
Bildbereich werden dann die Bilddaten entnommen, um so das Bild
des vordefinierten Bildbereichs zu gewinnen.
-
Nach
einer Ausführungsform
der Erfindung umfasst der vordefinierte Bildbereich einen Randstreifen,
der um das Foto herum verläuft.
Der Randstreifen hat beispielsweise eine Breite von zwischen 0,5
cm und 2 cm. Dies ist besonders vorteilhaft, da typischerweise beim
Austausch eines Fotos zur Herstellung eines verfälschten Dokuments in einem
solchen Randstreifen Bearbeitungsspuren erzeugt werden, wie zum
Beispiel kleine Schnitte- und/oder Klebespuren. Vorzugsweise ist
der Randstreifen so gewählt,
dass nur ein Randbereich um das Foto abgedeckt wird, in dem sich
solche Spuren durch den Austausch eines Fotos manifestieren. Andere
Bereiche des Dokuments, in denen solche Spuren aufgrund des Austauschs
des Fotos normalerweise nicht festzustellen sind, finden dagegen
keinen Eingang in das Bild, welches anschließend in den Merkmalsklassifikator
eingegeben wird.
-
Nach
einer Ausführungsform
der Erfindung ist der Merkmalsextraktor zur Extraktion der Grauwerte
ausgebildet. Bei dem Bild handelt es sich also um ein Farbbild.
Beispielsweise wird einer der Farbkanäle des Bildes ausgewählt. Die
Farbwerte dieses ausgewählten
Farbkanals können
als Grauwerte verwendet werden, wobei die Grauwerte der Bildpunkte die
extrahierten Merkmale darstellen. Alternativ können die Farbkanäle auch
einer Transformation unterzogen werden, um aus den verschiedenen
Farben jeweils pro Bildpunkt einen Grauwert zu ermitteln.
-
Nach
einer Ausführungsform
der Erfindung ist der Merkmalsextraktor zur Durchführung einer Hauptkomponentenanalyse
ausgebildet. Die Hauptkomponentenanalyse, die auch als Principal
Component Analysis (PCA) bezeichnet wird, ist ein Verfahren der
Multivariaten Statistik, welche an sich aus dem Stand der Technik
bekannt ist. Bei aus dem Stand der Technik bekannten Anwendungen
in der Bildverarbeitung wird die Hauptkomponentenanalyse auch als
Karhunen-Loeve-Transformation bezeichnet. Die Anzahl der aus dem
Bild zu extrahierenden Hauptkomponenten ist vorgegeben. Für jedes
Bild wird also die vorgegebene Anzahl der Hauptkomponenten und ein
Wert für
jede Hauptkomponente ermittelt. Diese Werte der extrahierten Merkmale,
d. h. der Hauptkomponenten, werden dann als Wertemenge ausgegeben.
-
In
einer Ausführungsform
der Erfindung ist der Merkmalsextraktor zur Generierung von Scale-Invariant-Feature-Transform(SIFT)-Deskriptoren ausgebildet,
wobei jeder SIFT-Deskriptor ein Merkmal der Merkmalsmenge repräsentiert.
Der Merkmalsextraktor kann also eine so genannte SIFT durchführen, wie
an sich aus dem Stand der Technik bekannt ist.
-
Nach
einer Ausführungsform
der Erfindung handelt es sich bei dem von dem Lernmodul implementierten
maschinellen Lernverfahren um ein Adaptive-Boosting-Verfahren, welches
auch als AdaBoost bezeichnet wird. AdaBoost ist ein aus dem Stand
der Technik an sich bekanntes maschinelles Lernverfahren. Das AdaBoost-Verfahren ist so
ausgebildet, dass es einen Klassifikator ausgibt. Der Klassifikator kann
so ausgebildet sein, dass er für
jedes Merkmal der Merkmalsmenge einen Schwellwert und eine Gewichtung
angibt. Zur Klassifizierung eines Dokuments als echt oder falsch
werden die aus dem Dokument extrahierten Merkmale dann mit Hilfe
der Schwellwerte und deren Gewichtungen ausgewertet.
-
Nach
Ausführungsformen
der Erfindung implementiert das Lernmodul ein neuronales Netz, welches
mit den Wertemengen und den jeweils zugeordneten Information trainiert
wird. Das Training neuronaler Netze ist ebenfalls an sich aus dem
Stand der Technik bekannt.
-
Bei
einer Ausführungsform
des Lernverfahrens als neuronales Netz wird als Ergebnis ein Klassifikator
in Form eines trainierten neuronalen Netzes ausgegeben oder spezifiziert.
Das trainierte neuronale Netz kann dann zur Klassifikation eines
Dokuments verwendet werden, indem die aus dem Dokument extrahierten
Merkmale in das neuronale Netz eingegeben werden, welches dann ausgibt,
ob das Dokument als echt oder falsch zu klassifizieren ist. Das
neuronale Netz hat also einen Eingang für jeder der Merkmale, um den
für das
betreffende Merkmal bestimmten Wert der Merkmalsmenge einzugeben. Das
neuronale Netz hat ferner einen Ausgang, der dazu dient, ein Signal
auszugeben, welches angibt, ob das gerade zu klassifizierende Dokument,
dessen Wertemenge in die Eingänge
des neuronalen Netzes eingegeben wurde, echt oder unecht ist.
-
Nach
einer weiteren Ausführungsform
der Erfindung implementiert das Lernmodul ein Clustering-Verfahren.
Hierbei werden von dem Lernmodul aufgrund der Eingabe der Wertemengen
und der jeweils zugeordneten Informationen so genannte Cluster definiert.
-
Bei
einer Ausführungsform
des maschinellen Lernverfahrens als Clustering-Verfahren wird ein Klassifikator ausgegeben,
der die durch die Ausführung
des Clustering-Verfahrens aufgefundenen Cluster spezifiziert. Beispielsweise
wird ein erster Cluster spezifiziert, der echte Dokumente repräsentiert,
sowie ein zweiter Cluster, der unechte Dokumente repräsentiert.
Die Cluster können
jeweils durch bestimmte Wertebereiche der Merkmale spezifiziert sein.
Die aus einem zu klassifizierenden Dokument extrahierten Merkmale,
das heißt
die Wertemenge dieser Merkmalsmenge, wird dann mit den Spezifikationen
des ersten und zweiten Clusters verglichen. Derjenigen Spezifikation,
der das Dokument am besten entspricht, wird es dann zugeordnet,
um es als echt oder unecht zu klassifizieren.
-
Das
von dem Lernmodul implementierte Lernverfahren kann so ausgebildet
sein, dass es hinsichtlich der Klassifikation einen Zuverlässigkeits- oder
Wahrscheinlichkeitswert ausgibt. Dieser Zuverlässigkeits- oder Wahrscheinlichkeitswert
kann alternativ oder zusätzlich
zu der Klassifikation des Dokuments als echt oder falsch über eine
Schnittstelle ausgegeben werden.
-
Nach
einer Ausführungsform
handelt es sich bei dem Klassifikator um eine Datei. Insbesondere kann
es sich bei dem Klassifikator um eine ausführbare Datei, das heißt ein Computerprogramm,
oder eine andere Datei, wie zum Beispiel eine Datei in einer Auszeichnungssprache,
insbesondere eine XML-Datei, handeln. Wenn die Datei nicht ausführbar ist,
so greift ein generisches Computerprogramm auf die Datei zu, in
welches die von einem zu klassifizierenden Dokument extrahierte
Wertemenge eingegeben wird, um diese Wertemenge anhand der Datei
für die
Klassifikationszwecke auszuwerten.
-
In
einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt
zur Durchführung
einer Ausführungsform
eines erfindungsgemäßen Datenverarbeitungsverfahrens.
-
In
einem weiteren Aspekt betrifft die Erfindung ein Datenverarbeitungsverfahren
zur Überprüfung der
Echtheit eines Dokuments.
-
In
einem weiteren Aspekt betrifft die Erfindung ein Computerprogrammprodukt
zur Durchführung
eines solchen Verfahrens. Beispielsweise wird das Computerprogrammprodukt
von einem Computer ausgeführt,
an welchem ein Dokumentenscanner oder eine Dokumentenkamera angeschlossen
ist. Alternativ kann das Computerprogramm auch von einer Prüfvorrichtung
ausgeführt
werden, das heißt
einem elektronischen Gerät,
welches sowohl der Bildaufnahme als auch der Klassifikation dient.
-
In
einem weiteren Aspekt betrifft die Erfindung eine Vorrichtung zur Überprüfung der
Echtheit eines Dokuments.
-
Nach
einer Ausführungsform
der Erfindung hat die Vorrichtung einen elektronischen Speicher zur
Speicherung des Klassifikators. Bei dem Klassifikator kann es sich
um eine ausführbare
Datei oder eine Beschreibungsdatei handeln, insbesondere eine Datei
in einer Auszeichnungssprache, wie zum Beispiel XML.
-
Nach
einer Ausführungsform
der Erfindung sind in der Vorrichtung mehrere solcher Klassifikatoren
gespeichert, wobei jeder der Klassifikatoren einem anderen Dokumententyp
zugeordnet ist. Über eine
Schnittstelle kann der Dokumententyp eines zu überprüfenden Dokuments spezifiziert
werden, woraufhin der diesem Dokumententyp zugeordnete Klassifikator
für die
Klassifikation verwendet wird.
-
Im
Weiteren werden Ausführungsbeispiele der
Erfindung mit Bezugnahme auf die Zeichnungen näher erläutert. Es zeigen:
-
1 eine
schematische Ansicht von Trainingsdokumenten zur Generierung einer
Ausführungsform
des erfindungsgemäßen Klassifikators,
-
2 ein
Flussdiagramm einer Ausführungsform
eines erfindungsgemäßen Datenverarbeitungsverfahrens
zur Generierung eines Klassifikators,
-
3 eine
schematische Draufsicht auf eine Ausführungsform eines zu klassifizierenden
Dokuments,
-
4 ein
Blockdiagramm einer Ausführungsform
einer erfindungsgemäßen Vorrichtung
zur Überprüfung der
Echtheit eines Dokuments,
-
5 eine
schematische Ansicht einer Ausführungsform
eines erfindungsgemäßen Klassifikators,
-
6 ein
Flussdiagramm einer Ausführungsform
eines erfindungsgemäßen Datenverarbeitungsverfahrens
zur Überprüfung der
Echtheit eines Dokuments anhand des Klassifikators in der Ausführungsform
der 5.
-
Elemente
der nachfolgenden Ausführungsformen,
die einander entsprechen, sind mit denselben Bezugszeichen gekennzeichnet.
-
Die 1 zeigt
eine Anzahl von N = n + m Trainingsdokumenten, wobei die N Trainingsdokumente
eine erste Menge von n echten Dokumenten 100 und eine zweite
Menge von m unechten Dokumente 102 beinhaltet. Die echten
Dokumente 100 und die unechten Dokumente 102 gehören zu demselben
vorgegebenen Dokumententyp.
-
Beispielsweise
handelt es sich bei den Dokumenten 100, 102 um
Ausweisdokumente eines bestimmten Staates, wie zum Beispiel um Reisepässe eines
bestimmten Staates eines bestimmten Ausgabezeitraumes. Durch den
vorgegebenen Dokumententyp werden grundsätzliche Eigenschaften von Dokumenten
dieses Typs festgelegt, wie zum Beispiel die Abmessungen des Dokuments,
die Position eines Fotos in dem Dokument, die Position von Textfeldern in
dem Dokument, die verwendeten Schrifttypen sowie sonstige Sicherheitsmerkmale.
Beispielsweise werden Dokumente des vorgegebenen Dokumententyps
anhand von identischen Dokumentenrohlingen hergestellt, wobei die
Dokumentenrohlinge zur Herstellung der Dokumente personalisiert
werden.
-
Bei
den Dokumenten 100 handelt es sich um bekanntermaßen echte
Dokumente des vorgegebenen Dokumententyps. Bei den Dokumenten 102 handelt
es sich dagegen um bekanntermaßen
unechte Dokumente desselben vorgegebenen Dokumententyps. Diese unechten
Dokumente 102 wurden beispielsweise anlässlich von Personenkontrollen
oder Grenzkontrollen von einem zuständigen Beamten als verfälscht oder
gefälscht
identifiziert und eingezogen.
-
Auf
der Basis der ersten Menge von echten Dokumenten 100 und
der zweiten Menge von unechten Dokumenten 102 sowie der
den Dokumenten jeweils zugeordne ten Information „echt” oder „unecht” wird anhand eines maschinellen
Lernverfahrens ein Klassifikator generiert. Eine Ausführungsform
eines diesbezüglichen
Datenverarbeitungsverfahrens zeigt das Flussdiagramm der 2.
-
In
dem Schritt 200 wird ein Laufindex i für die Trainingsdokumente initialisiert.
Ein bestimmtes Dokument der ersten oder zweiten Menge der Trainingselemente
wird im Weiteren als Dokument Di bezeichnet,
wobei 0 ≤ i < N ist.
-
In
dem Schritt 202 wird ein Bild Bi von
dem Dokument Di aufgenommen. Das Bild Bi beinhaltet einen vordefinierten Bildbereich
des Dokuments Di. Die Aufnahme des Bildes
kann als Vollbild erfolgen, wobei aus dem Vollbild das Bi aus dem vordefinierten Bildbereich entnommen
wird. Alternativ wird nur der vordefinierte Bildbereich des Dokuments
Di aufgenommen. Vorzugsweise wird jedoch
das Bild als Vollbild aufgenommen, um aus dem Vollbild das Bild
Bi zu entnehmen, da das Vollbild für weitere Überprüfungen des
Dokuments verwendet werden kann, insbesondere für die Überprüfung von weiteren Sicherheitsmerkmalen,
die für
den vorgegebenen Dokumententyp spezifiziert sind.
-
In
dem Schritt 204 wird das Bild Bi in
einen Merkmalsextraktor eingegeben. Der Merkmalsextraktor extrahiert
eine vorgegebene Merkmalsmenge aus dem Bild Bi.
Der Merkmalsextraktor ermittelt für jedes der vorgegebenen Merkmale
der Merkmalsmenge einen Wert und gibt die resultierende Wertemenge
Wi des Bildes Bi in
dem Schritt 206 aus.
-
In
dem Schritt 208 wird diese Wertemenge Wi in
ein Lernmodul eingegeben. Zusätzlich
wird für die
Wertemenge Wi eine Informationen in das
Lernmodul eingegeben, wonach die Wertemenge Wi zu einem
echten oder unechten Dokument Di gehört.
-
In
dem Schritt 210 wird der Index i inkrementiert, und der
Ablauf geht zu dem Schritt 202 zurück. Dies wiederholt sich so
lange, bis der Wert des Index i in dem Schritt 210 N erreicht.
in diesem Fall sind sämtliche
der Trainingsdokumente verarbeitet worden und in dem Schritt 212 gibt
das Lernmodul den daraus resultierenden Klassifikator aus.
-
Anstelle
des in der 2 gezeigten Verfahrens kann
auch so vorgegangen werden, dass zunächst die Bilder Bi von
sämtlichen
der Dokumente Di aufgenommen werden. In
einer nachfolgenden Verarbeitungsschleife werden dann sämtliche
Wertemengen Wi generiert und zwischengespeichert,
bevor sie schließlich
in das Lernmodul eingegeben werden. Insbesondere kann die Aufnahme
der Bilder Bi, die Merkmalsextraktion und/oder
die Ausführung
des maschinellen Lernverfahrens durch das Lernmodul in voneinander
zeitlich und/oder räumlich
getrennten Verarbeitungsschritten erfolgen.
-
Die 3 zeigt
exemplarisch eines der Dokumente Di der
Trainingsdokumente. Bei dem vorgegebenen Dokumententyp der Trainingsdokumente handelt
es sich hier beispielsweise um einen elektronischen Personalausweis.
Der Dokumententyp des elektronischen Personalausweises ist dahingehend spezifiziert,
dass der Personalausweis gewisse äußere Abmessungen hat und dass
an einer vordefinierten Position ein Foto 104 des Trägers des
Dokuments angeordnet ist. Das Foto 104 kann aufgedruckt
sein oder das Dokument Di beinhaltet eine
Anzeigevorrichtung, auf der das Foto wiedergegeben wird. Bei der
Anzeigevorrichtung kann es sich zum Beispiel um ein bistabiles Display
handeln.
-
Ferner
ist für
den Dokumententyp „elektronische
Personalausweis” die
Lage und der Schrifttyp eines Textbereiches 106 sowie einer
maschinenlesbaren Zone 108 spezifiziert, welche auch als
so genannte Machine Readable Zone (MRZ) bezeichnet wird. Darüber hinaus
können
für den
vorgegebenen Dokumententyp, das heißt hier den elektronischen Personalausweis,
weitere Merkmale, insbesondere Sicherheitsmerkmale, spezifiziert
sein, die Dokumente dieses vorgegebenen Dokumententyps erfüllen müssen.
-
Zur
Generierung eines Klassifikators zur automatischen Erkennung von
Fälschungen
und Verfälschungen
von Dokumenten des vorgegebenen Dokumententyps, die dadurch hergestellt
worden sind, dass das Foto 104 durch ein anderes ersetzt
worden ist, wird der vordefinierte Bildbereich 110 so festgelegt,
dass er das Foto 104 beinhaltet. Ferner beinhaltet der
Bildbereich 110 einen Randstreifen 112, der um
das Foto 104 herum verläuft.
Der Randstreifen hat eine Breite B von zum Beispiel zwischen 0,5
cm und 2 cm, insbesondere ca. 1 cm, da innerhalb dieser Breite um
das Foto 104 herum typischerweise Bearbeitungsspuren entstehen,
die bei einer Verfälschung des
Dokuments Di aufgrund des Austauschs des
Fotos 104 erzeugt werden. Die Hilfe Generierung des Klassifikators
kann auf dieser Basis anhand des in der 2 gezeigten
Verfahrens erfolgen.
-
Die 4 zeigt
eine Ausführungsform
einer erfindungsgemäßen Vorrichtung 114 zur Überprüfung der
Echtheit eines Dokuments des in der 3 gezeigten
Dokumententyps. Die Vorrichtung 114 hat einen Scanner 116 oder
einen CCD-Sensor zur Aufnahme eines Vollbildes eines zu prüfenden Dokuments
oder unmittelbar des Bildes nur des vordefinierten Bildbereiches 110.
-
Der
Scanner 116 ist an einen Computer 118 angeschlossen.
Der Computer 118 dient zur Ausführung eines Programmmoduls 120,
welches dann erforderlich ist, wenn der Scanner 116 ein
Vollbild aufnimmt. Das Programmmodul 120 identifiziert
den vordefinierten Bildbereich in dem Vollbild und entnimmt diesem
Bildbereich 110 das Bild.
-
Der
Computer 118 dient ferner zur Ausführung eines Programmmoduls 122,
durch welches der Merkmalsextraktor 122 implementiert wird.
Beispielsweise ist das Programmmodul 122 zur Extraktion
von Grauwerten aus dem Bild, zur Hauptkomponentenanalyse des Bildes
oder zur Extraktion von SIFT-Descriptoren aus dem Bild ausgebildet.
Für jedes
der aus dem Bild extrahierten Merkmale bestimmt das Programmmodul 122 einen
Wert, insbesondere einen Zahlenwert. Diese Zahlenwerte werden als
Wertemenge von dem Programmmodul 122 ausgegeben.
-
Ferner
dient der Computer 118 zur Ausführung eines Programmmoduls 124,
um ein Dokument des vorgegebenen Dokumententyps zu klassifizieren.
Bei dem Programmmodul 124 kann es sich um den von dem Lernmodul
(vgl. Schritt 212 der 2) ausgegebenen
Klassifikator handeln, wenn es sich bei dem Klassifikator um eine
ausführbare
Datei handelt.
-
Das
Programmmodul 124 kann auch generisch ausgebildet sein.
In diesem Fall handelt es sich bei dem von dem Lernmodul generierten
Klassifikator um eine Be schreibungsdatei, insbesondere eine Datei
in einer Auszeichnungssprache, auf die das Programmmodul 124 zugreift,
um das Dokument zu klassifizieren.
-
Der
Computer 118 dient ferner zur Ausführung eines Programmmoduls 126,
durch welches eine Schnittstelle, insbesondere eine Nutzer-Schnittstelle
realisiert wird. Die Schnittstelle kann so ausgebildet sein, dass
ein erstes Signal ausgegeben wird, wenn das Dokument als echt klassifiziert
worden ist, und ein zweites Signal, wenn das Dokument als unecht
klassifiziert worden ist.
-
Beispielsweise
kann die Schnittstelle hierzu entsprechende optische und/oder akustische
Ausgabemittel beinhalten, die von dem Programmmodul 126 angesteuert
werden. Alternativ oder zusätzlich kann
die Schnittstelle als grafische Nutzer-Schnittstelle ausgebildet sein oder
bei der Schnittstelle handelt es sich um eine maschinelle-Schnittstelle,
beispielsweise um das erste Signal zur Freigabe eines Drehkreuzes
auszugeben.
-
Zur Überprüfung der
Echtheit eines Dokuments des vorgegebenen Dokumententyps, für welchen
der Klassifikator generiert worden ist, wird wie folgt vorgegangen:
Das
Dokument wird mit Hilfe des Scanners 116 erfasst, indem
beispielsweise ein Vollbild aufgenommen wird. Daraufhin wird von
dem Programmmodul 120 der vordefinierte Bildbereich 110 in
dem Vollbild identifiziert und die Bilddaten werden aus diesem vordefinierten
Bildbereich entnommen, um so zu dem Bild dieses vordefinierten Bildbereichs
zu kommen, entsprechend eines Bildes Bi (vgl.
Schritt 202 der 2) der Trainingsdokumente.
-
Die
Bilddaten des Bildes werden dann in das Programmmodul 122 eingegeben,
um die Wertemenge zu bestimmen (vgl. Schritte 204 und 206 der 2 zur
Bestimmung der Wertemenge Wi eines Trainingsdokuments).
Diese Wertemenge wird dann in das Programmmodul 124 eingegeben,
welches auf dieser Basis eine Klassifizierung vornimmt.
-
Das
Programmmodul 124 gibt dann an das Programmmodul 126 aus,
ob das Dokument als echt oder unecht klassifiziert worden ist. Alternativ
oder zusätzlich
kann das Programmmodul 124 einen Zuverlässigkeitswert für die Klassifikation
ausgegeben, welcher optional über
das Programmmodul 126 über die
Nutzer-Schnittstelle ausgegeben wird.
-
Nach
einer Ausführungsform
der Erfindung kann die Vorrichtung 114 zur Überprüfung der
Echtheit von Dokumenten verschiedener vorgegebener Dokumententypen
verwendet werden. Hierzu beinhaltet der Computer 118 entweder
mehrere verschiedene der Programmmodule 124, die jeweils
einen bestimmten der Dokumententypen zugeordneten Klassifikator
implementieren, oder verschiedene Klassifikatoren, auf die das Programmmodul 124 zugreifen kann.
-
Über die
Nutzer-Schnittstelle kann ein Benutzer eingeben, welchen der unterstützten Dokumententypen
ein zu klassifizierendes Dokument hat. Alternativ oder zusätzlich kann
die Vorrichtung 114 auch so ausgebildet sein, dass zunächst der
Dokumententyp aus dem von dem Dokument aufgenommenen Vollbild ermittelt
wird, z. B. aus der MRZ. Hierzu kann die Vorrichtung 114 ein
weiteres Programmmodul aufweisen.
-
Daraufhin
wird der Klassifikator, der für
den gewählten
oder automatisch ermittelten Dokumententyp, beispielsweise nach
dem Verfahren gemäß 2,
generiert worden ist, von der Vorrichtung automatisch ausgewählt und
für die
Klassifizierung des Dokuments verwendet.
-
Der
Klassifikator, das heißt
beispielsweise das Programmmodul 124 oder eine entsprechende Datei,
können
von der Institution, die den Klassifikator generiert hat, digital
signiert sein. Bevor der Computer 118 die Klassifikation
des Dokuments mit Hilfe beispielsweise des Programmmoduls 124 durchführt, wird
diese digitale Signatur auf Validität geprüft, um sicherzustellen, dass
bezüglich
des Klassifikators keine Manipulation vorliegt.
-
Die 5 zeigt
eine Ausführungsform
eines erfindungsgemäßen Klassifikators 128,
wie er von dem Lernmodul (vgl. Schritt 208 der 2)
mit Hilfe eines Adaptive-Boosting-Verfahrens erstellt worden ist.
Der Klassifikator 128 beinhaltet für jedes der Merkmale Mj, wobei 0 ≤ j < J – 1, der
vorgegebenen Merkmalsmenge einen entsprechenden Schwellwert Sj sowie ein Gewicht Gj.
Die Klassifikation eines Dokuments des vorgegebenen Dokumententyps
kann gemäß der Ausführungsform
der 6 anhand des Klassifikators 128 wie folgt
vorgenommen werden:
In dem Schritt 300 werden die
Bilddaten des Bildes des zu überprüfenden Dokuments
eingegeben. Daraufhin erfolgt in dem Schritt 302 eine Merkmalsextraktion
durch den Merkmalsextraktor, der eine Wertemenge ausgibt, welche
einen Wert Wj für jedes der Merkmale Mj des Klassifikators 128 beinhaltet.
-
In
dem Schritt 304 wird der Index j initialisiert. Ferner
werden die Summen Σ1
und Σ2 auf
0 gesetzt.
-
In
dem Schritt 306 wird für
den Wert Wj der Wertemenge geprüft, ob dieser
Wert kleiner ist als der zu dem entsprechenden Merkmal Mj gehörende Schwellwert
Sj, so wie er in dem Klassifikator 128 spezifiziert
ist.
-
Wenn
dies der Fall ist, wird anschließend der Schritt 308 ausgeführt, in
dem die Summe Σ1
um das Gewicht Gj erhöht wird. Danach wird der Index
j in dem Schritt 310 inkrementiert und die Ablaufsteuerung
geht zu dem Schritt 306 zurück. Wenn die Prüfung in
dem Schritt 306 hingegen ergibt, dass der Wert Wj des Merkmals Mj nicht
kleiner als der Schwellwert Sj dieses Merkmals
ist, so wird nachfolgend der Schritt 312 durchgeführt, indem
anstelle der Summe Σ1
die Summe Σ2
um das Gewicht Gj erhöht wird, um danach den Schritt 310 auszuführen.
-
Dies
wird so lange wiederholt, bis der Wert des Index j in dem Schritt 310 J
erreicht.
-
Dann
wird in dem Schritt 314 geprüft, ob Σ1 kleiner als Σ2 ist. Ist
dies der Fall, so wird in dem Schritt 316 ein Signal ausgegeben,
um die Echtheit des Dokuments Di zu signalisieren.
Im gegenteiligen Fall wird in dem Schritt 318 ein Signal
ausgegeben, um zu signalisieren, dass es sich bei dem Dokument Di um ein unechtes Dokument handelt. Alternativ oder
zusätzlich
wird in dem Schritt 316 ein Zuverlässigkeitswert Σ1/(Σ1 + Σ2) ausgegeben,
sowie in dem Schritt 318 ein Zuverlässigkeitswert Σ2/(Σ1 + Σ2).
-
- 100
- Dokument
- 102
- Dokument
- 104
- Foto
- 106
- Textbereich
- 108
- maschinenlesbare
Zone
- 110
- Bildbereich
- 112
- Randstreifen
- 114
- Vorrichtung
- 116
- Scanner
- 118
- Computer
- 120
- Programmmodul
- 122
- Programmmodul
- 124
- Programmmodul
- 126
- Programmmodul
- 128
- Klassifikator