DE102013005658A1

DE102013005658A1 - Erfassung eines dokuments

Info

Publication number: DE102013005658A1
Application number: DE102013005658.6A
Authority: DE
Inventors: Mirco Schöpf; Dmitri Toropov
Original assignee: DocuWare GmbH
Current assignee: DocuWare GmbH
Priority date: 2013-04-02
Filing date: 2013-04-02
Publication date: 2014-10-02
Also published as: US20140294305A1; US9826155B2

Abstract

Es wird ein Verfahren zur Erfassung eines Dokuments vorgeschlagen, bei dem mittels einer Kamera Bilddaten aufgenommen werden, bei dem basierend auf den aufgenommenen Bilddaten von einer ersten Verarbeitungseinheit gefilterte Aufnahmedaten bestimmt werden und bei dem basierend auf den gefilterten Aufnahmedaten von einer zweiten Verarbeitungseinheit eine Aufnahme der Kamera gespeichert wird, falls ein Stabilitätskriterium erfüllt ist. Weiterhin werden entsprechend Vorrichtung, Computerprogrammprodukt sowie Speichermedium angegeben.

Description

Die Erfindung betrifft die Erfassung eines Dokuments insbesondere zur weiteren Verarbeitung in einem Zeichenerkennung und/oder einem Dokumentenmanagementsystem.
Es sind unterschiedliche Verfahren zur Texterkennung (auch bezeichnet als optische Zeichenerkennung, OCR für ”Optical Character Recognition”) bekannt, anhand derer automatisiert eine Texterkennung innerhalb von Bildern durchgeführt werden kann. Bei den Bildern handelt es sich z. B. um elektronisch eingescannte Dokumente, deren Inhalt weiter analysiert werden soll.
Bei den Dokumenten kann es sich um elektronische Dokumente, z. B. um elektronisch verarbeitete, vorverarbeitete oder verarbeitbare Dokumente handeln. Der Ansatz ist z. B. verwendbar bei Anwendungen, die ein Dokumentenmanagement bzw. eine Dokumentenarchivierung z. B. von Geschäftsdokumenten betreffen oder für andere Arten der Datenextraktion, z. B. eine Extraktion von Informationen aus abfotografierten Kassenbons und anderen Kleindokumenten.
Bekannte Ansätze führen die bildverarbeitenden Algorithmen auf einer zentralen Prozessoreinheit (CPU) aus. Hierdurch werden Ressourcen in der zentralen Prozessoreinheit gebunden, die dann nicht für andere Aufgaben bereitstehen. Insbesondere ist hierbei eine schnelle Bilderkennung, z. B. in Echtzeit oder nahezu in Echtzeit, nicht mehr möglich oder erfordert eine zentrale Prozessoreinheit mit erheblichen Leistungsreserven, was wiederum das Gerät zur Dokumenterfassung verteuert.
Ein weiterer Nachteil besteht darin, dass ein Benutzer, der mit einer Kamera eine Aufnahme macht und diese Aufnahme dann mit einer Bilderkennungssoftware weiterverarbeiten lassen will, die Aufnahme oft mehrfach durchführen muss bis ein für die Weiterverarbeitung ausreichend gutes Ergebnis (z. B. scharfes Bild, vollständiges Bild) zur Verfügung steht. Insbesondere ist es ein Nachteil, dass der Benutzer durch ein Betätigen eines Auslösers die Aufnahme verwackelt.
Die Aufgabe besteht darin, eine verbesserte und effizientere Erfassung und/oder Verarbeitung von elektronischen Dokumenten zu ermöglichen. Insbesondere ist es eine Aufgabe, die Erfassung eines Dokuments für einen Benutzer zu erleichtern bzw. sicherzustellen, dass der Benutzer schneller zu besseren Erkennungsergebnissen von elektronischen Dokumenten gelangt.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche gelöst. Bevorzugte Ausführungsformen sind insbesondere den abhängigen Ansprüchen entnehmbar.
Zur Lösung der Aufgabe wird ein Verfahren zur Erfassung eines Dokuments vorgeschlagen,

– bei dem mittels einer Kamera Bilddaten aufgenommen werden,
– bei dem basierend auf den aufgenommenen Bilddaten von einer ersten Verarbeitungseinheit gefilterte Aufnahmedaten bestimmt werden,
– bei dem basierend auf den gefilterten Aufnahmedaten von einer zweiten Verarbeitungseinheit eine Aufnahme der Kamera gespeichert wird, falls ein Stabilitätskriterium erfüllt ist.

Bei den Bilddaten kann es sich um hintereinander durchgeführte Aufnahmen, Bilder, um ein Video oder einen Bildstrom handeln. Das Dokument kann eine gedruckte oder elektronische Vorlage sein, die mittels der Kamera in Bilddaten umgewandelt wird. Die Aufnahme stellt somit eine digitalisierte Repräsentation des Dokuments dar, dass z. B. mit einem Dokumentmanagementsystem, umfassend insbesondere eine Zeichenerkennung (OCR), weiterverarbeitet werden kann.
Bei den Aufnahmedaten, insbesondere den gefilterten Aufnahmedaten, kann es sich um Daten betreffend den Inhalt der Aufnahme, z. B. Metadaten, und/oder um Bilddaten handeln. Insbesondere kann eine gefilterte Aufnahme Metadaten und/oder Bilddaten umfassen. Eine Filterung der Aufnahme kann insbesondere eine Transformation in Bilddaten oder sonstige Daten, z. B. Metadaten, umfassen.
Ein Vorteil besteht somit darin, dass ein Scannen von unterschiedlichen Dokumenten z. B. mit einem portablen Gerät (auch bezeichnet als ein mobiles Gerät oder Mobilgerät), z. B. einem Mobiltelefon oder einem sogenannten Smartphone, vereinfacht wird. Durch die verbesserte Verarbeitungsgeschwindigkeit erhält der Benutzer zeitnah Rückmeldung z. B. vor oder während des Scanvorgangs oder während bzw. nach der Erkennung des elektronischen Dokuments. Insbesondere kann die Aufnahme des Dokuments mittels der Kamera so unterstützt werden, dass Fehlbedienungen oder unnötige Wiederholungen von Aufnahmen reduziert oder verhindert werden.
Somit kann der Benutzer mit der Kamera des portablen Geräts z. B. freihändig ein Dokument aufnehmen; die schnelle Verarbeitung gemäß der vorliegenden Lösung ermöglicht die Erkennung z. B. der Dokumentränder in Echtzeit oder nahezu in Echtzeit. Die Aufnahme kann z. B. automatisch ausgelöst werden, wenn der Benutzer die Kamera für eine vorgegebene Zeitdauer ruhig hält. Hierdurch wird verhindert, dass der Benutzer manuell den Auslöser betätigen muss, dadurch verwackelt und somit die Aufnahme solange wiederholen muss, bis eine der Aufnahmen gut genug ist, um bei der Weiterverarbeitung, z. B. einer OCR-Verarbeitung, ausreichend gute Erkennungsergebnisse zu liefern.
Die Weiterverarbeitung umfasst vorzugsweise eine Zeichenerkennung (OCR). Beispielsweise kann mittels des portablen Geräts die Aufnahme des Dokuments und/oder die Weiterverarbeitung des Dokuments mittels Zeichenerkennung durchgeführt werden. Optional kann die Weiterverarbeitung auch von einer anderen Einheit, z. B. eine über ein Netzwerk angebundenen Komponente oder Struktur durchgeführt werden. Beispielsweise kann das von dem portablen Gerät aufgenommene Dokument an einen Server oder an eine Serverstruktur (umfassend mehrerer Rechner) übermittelt werden und dort weiterverarbeitet werden. Das Ergebnis der Weiterverarbeitung kann ganz oder teilweise an das portable Gerät übermittelt oder dem portablen Gerät, z. B. über eine Schnittstelle des Netzwerks, angeboten werden. Bei dem Netzwerk kann es sich z. B. um ein IP-Netzwerk, ein LAN, ein WAN, das Internet oder einen Teil des Internets (z. B. ein Intranet) handeln.
Die Kommunikation zwischen dem portablen Gerät und dem Netzwerk kann z. B. über eine drahtlose oder eine drahtgebundene Schnittstelle erfolgen. Bei der drahtlosen Schnittstelle kann es sich um eine WLAN, Bluetooth, Nahfeldkommunikations-Schnittstelle oder um eine sonstige Funkschnittstelle, z. B. eine Mobilfunkschnittstelle, handeln.
Eine Weiterbildung ist es, dass die erste Verarbeitungseinheit eine graphische Prozessoreinheit (GPU) umfasst.
Eine andere Weiterbildung ist es, dass die zweite Verarbeitungseinheit eine zentrale Prozessoreinheit (CPU) umfasst.
Somit kann die Verarbeitungsleistung eines Mobilgeräts auf die vorhandenen Verarbeitungseinheiten aufgeteilt werden und somit eine zeitnahe Rückmeldung an den Benutzer erreicht werden.
Insbesondere ist es eine Weiterbildung, dass die Kamera, die erste Verarbeitungseinheit und die zweite Verarbeitungseinheit Teil eines portablen Endgeräts, insbesondere eines Smartphones sind.
Auch ist es eine Weiterbildung, dass die Kamera die Bilddaten der ersten Verarbeitungseinheit in einer ersten Auflösung bereitstellt und von der zweiten Verarbeitungseinheit die Aufnahme in einer zweiten Auflösung gespeichert wird.
Beispielsweise kann die zweite Auflösung höher sein als die erste Auflösung.
Ferner ist es eine Weiterbildung, dass die erste Auflösung der Auflösung einer Anzeigeeinheit entspricht.
Bei der Anzeigeeinheit handelt es sich insbesondere um die Anzeigeeinheit des portablen Geräts.
Somit kann die Verarbeitung zumindest teilweise basierend auf der reduzierten zweiten Auflösung erfolgen, wobei zur Weiterverarbeitung, z. B. im Rahmen einer Zeichenerkennung, dann die Aufnahme mit der höheren, ggf. vollen, ersten Auflösung genutzt wird.
Eine nächste Weiterbildung besteht darin, dass anhand der ersten Verarbeitungseinheit mindestens einer der folgenden Schritte durchgeführt wird:

– Durchführen einer ersten Filterung gemäß einem Canny-Algorithmus;
– Übermitteln einer Textur, die mittels der Filterung gemäß dem Canny-Algorithmus ermittelt wurde, an die zweite Verarbeitungseinheit;
– Durchführen einer Hough-Transformation basierend aufgespeicherten Koordinaten, die von der zweiten Verarbeitungseinheit bereitgestellt werden;
– Durchführen einer zweiten Filterung basierend auf der Hough-Transformation und weiterleiten einer gefilterten Textur an die zweite Verarbeitungseinheit.

Insbesondere kann es sich um eine schwarz-weiße Textur oder um eine farbige Textur handeln.
Eine Ausgestaltung ist es, dass die gespeicherten Koordinaten von der zweiten Verarbeitungseinheit bestimmt werden, indem Bildpunkte ermittelt werden, die auf einer Kante oder im Wesentlichen auf einer Kante liegen und die Koordinaten dieser Bildpunkte gespeichert werden.
Eine alternative Ausführungsform besteht darin, dass anhand der zweiten Filterung diejenigen Bildpunkte in einem Hough-Raum herausgefiltert werden, wo nicht ausreichen viele Punkt auf einer Linie liegen.
Eine nächste Ausgestaltung ist es, dass anhand der gefilterten Textur von der zweiten Verarbeitungseinheit Dokumentgrenzen ermittelt werden und insbesondere in Form eines Rahmens den auf einer Anzeigeeinheit dargestellten Bilddaten überlagert werden.
Auch ist es eine Ausgestaltung, dass bestimmt wird, ob der Rahmen und/oder die Bilddaten stabil sind und, sofern dies der Fall ist, wird die Aufnahme der Kamera gespeichert.
Eine Weiterbildung besteht darin, dass bestimmt wird, ob der Rahmen und/oder die Bilddaten stabil sind, mittels mindestens einer der folgenden Ansätze:

– die Bilddaten werden über eine vorgegebene Zeitdauer analysiert und wenn deren Änderung geringer als ein vorgegebener Schwellwert ist, wird die Aufnahme gespeichert;
– der Rahmen wird über eine vorgegebene Zeitdauer analysiert und wenn dessen Änderung geringer als ein vorgegebener Schwellwert ist, wird die Aufnahme gespeichert;
– es wird die Aufnahme gespeichert, wenn ein geringes Verwackeln detektiert wird;
– es wird die Aufnahme gespeichert, wenn der Rahmen um ein Dokument oder um einen bestimmten Bereich des Dokuments verläuft.

Die vorstehenden Ansätze können einzeln oder in Kombinationen) miteinander realisiert werden.
Insbesondere kann ein Sensor vorgesehen sein, der eine Bewegung und somit ein Verwackeln des portablen Geräts feststellen kann. Beispielsweise kann eine Aufnahme dann gespeichert werden, wenn der Sensor eine Bewegung des portablen Geräts feststellt, die geringer als ein vorgegebener Schwellwert ist. Vorzugsweise kann zusätzlich die Bedingung geprüft werden, ob dann auch der Rahmen das Dokument um das Dokument verläuft oder um einen geeigneten Bereich des Dokuments verläuft. So kann sichergestellt werden, dass der Benutzer einerseits das portable Gerät möglichst ruhig hält und dass der Rahmen um das zu erfassende Dokument verläuft. Beides sind Voraussetzungen für eine hohe Zeichenerkennung im Rahmen einer nachgelagerten Dokumentenverarbeitung.
Eine zusätzliche Ausgestaltung ist es, dass ein transformiertes Bild bestimmt wird, indem anhand der Koordinaten des Rahmens eine perspektivische Transformation der Aufnahme durchgeführt wird.
Eine andere Ausgestaltung ist es, dass das transformierte Bild mittels einer Zeichenerkennung weiterverarbeitet wird.
Auch ist es eine Möglichkeit, dass die Zeichenerkennung zumindest teilweise auf der ersten Verarbeitungseinheit oder der zweiten Verarbeitungseinheit durchgeführt wird.
Auch ist es eine weitere Ausgestaltung, dass die Zeichenerkennung zumindest teilweise auf einer externen Verarbeitungseinheit, die zumindest vorübergehend über eine drahtlose oder drahtgebundene Kommunikationsverbindung gekoppelt ist, durchgeführt wird.
Insbesondere ist es eine Weiterbildung, dass die gespeicherte Aufnahme transformiert wird, z. B. mittels einer perspektivischen Transformation.
Optional kann die gespeicherte Aufnahme von einer Dokumentenerkennung verarbeitet werden.
Die vorstehenden Erläuterungen betreffend das Verfahren gelten für die anderen Anspruchskategorien entsprechend. Beispielsweise kann jede der Vorrichtungen in einer Komponente oder verteilt in mehreren Komponenten ausgeführt sein.
Zur Lösung der Aufgabe wird eine Vorrichtung zur Erfassung eines Dokuments vorgeschlagen

– aufweisend eine Kamera eine erste Verarbeitungseinheit und eine zweite Verarbeitungseinheit,
– wobei anhand der Kamera Bilddaten aufnehmbar sind,
– wobei anhand der ersten Verarbeitungseinheit basierend auf den aufgenommenen Bilddaten gefilterte Aufnahmedaten bestimmbar sind,
– wobei anhand der zweiten Verarbeitungseinheit basierend auf den gefilterten Aufnahmedaten eine Aufnahme der Kamera abspeicherbar ist, falls ein Stabilitätskriterium erfüllt ist.

Eine Weiterbildung ist es, dass die erste Verarbeitungseinheit eine graphische Prozessoreinheit umfasst und bei der die zweite Verarbeitungseinheit eine zentrale Prozessoreinheit umfasst.
Gemäß einer Ausgestaltung ist die Vorrichtung ein portables oder mobiles Gerät, insbesondere ein Tablet-Computer oder ein Smartphone, mit einer drahtlosen oder drahtgebundenen Kommunikationsschnittstelle.
Eine andere Ausgestaltung ist es, dass die erste Verarbeitungseinheit und/oder die zweite Verarbeitungseinheit eingerichtet ist, um basierend auf der Aufnahme eine Zeichenerkennung durchzuführen.
Auch ist es eine Ausgestaltung, dass die Vorrichtung eingerichtet ist, die Aufnahme an eine weitere Vorrichtung zu übertragen, wobei von der weiteren Vorrichtung eine Dokumentenverarbeitung basierend auf der Aufnahme durchführbar ist.
Bei der weiteren Vorrichtung kann es sich um eine über ein Netzwerk, z. B. das Internet, angebundene Komponente, z. B. einen Rechner oder mehrere Rechner, handeln.
Auch wird ein System vorgeschlagen umfassend mindestens eine der hierin beschriebenen Vorrichtungen.
Die hier vorgestellte Lösung umfasst ferner ein Computerprogrammprodukt, das direkt in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des hier beschriebenen Verfahrens durchzuführen.
Weiterhin wird das oben genannte Problem gelöst mittels eines computerlesbaren Speichermediums, z. B. eines beliebigen Speichers, umfassend von einem Computer ausführbare Anweisungen (z. B. in Form von Programmcode), die dazu geeignet sind, dass der Computer Schritte des hier beschriebenen Verfahrens durchführt.
Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusammenhang mit der folgenden schematischen Beschreibung von Ausführungsbeispielen, die im Zusammenhang mit dem nachfolgenden figurenbeschreibenden Teil näher erläutert werden. Dabei können zur Übersichtlichkeit gleiche oder gleichwirkende Elemente mit gleichen Bezugszeichen versehen sein.
Es zeigt:
1 ein schematisches Ablaufdiagramm, mit Schritten, die zumindest teilweise auf einem portablen Gerät, z. B. einem Smartphone, durchführbar sind und die effiziente Erfassung sowie Weiterverarbeitung eines Dokuments ermöglichen.
Die vorliegende Lösung verwendet insbesondere Algorithmen zur Kantendetektion und zur perspektivischen Entzerrung einer Aufnahme eines Dokuments. Es wird vorgeschlagen, die Bildverarbeitungsaufgaben zwischen zwei Verarbeitungseinheiten eines Geräts, z. B. einer zentralen Prozessoreinheit (CPU) und einer grafischen Prozessoreinheit (GPU), aufzuteilen. Bei dem Gerät kann es sich um ein portables oder mobiles Gerät (z. B. ein Smartphones, einen Tablet-Computer oder einen mobilen Computers) handeln. Vorzugsweise verfügt das Gerät über eine integrierte oder verbindbare Scanvorrichtung, z. B. eine Kamera.
Somit ist es möglich, dass z. B. die Kantendetektion eines weiterzuverarbeitenden Dokuments in Echtzeit durchgeführt werden kann und der Benutzer bei der Aufnahme des Dokuments mittels der Kamera des portablen Geräts in Echtzeit oder quasi in Echtzeit eine Rückmeldung erhält, wann die Aufnahme durchgeführt werden kann bzw. wann die Aufnahme erfolgt ist.
1 zeigt ein schematisches Ablaufdiagramm, mit Schritten, die zumindest teilweise auf einem portablen Gerät, z. B. einem Smartphone, mit einer Kamera 103, einer graphischen Prozessoreinheit (GPU) 101 und einer zentralen Prozessoreinheit (CPU) 102 durchführbar sind, wobei die GPU 101 und die CPU 102 beispielsweise über einen gemeinsamen Speicher 111 miteinander gekoppelt sind:

(1) Beispielsweise liefert die Kamera 103 fortlaufend Bilder (auch bezeichnet als eine Aufnahme, ein Video oder ein Bilderstrom bzw. Bilder-Stream).
ungen, Der Bilderstrom kann in unterschiedlichen Auflösz. B. in einer Auflösung der Anzeigeeinheit des portablen Geräts, bereitgestellt und weiterverarbeitet werden. Falls die Kamera eine höhere Auflösung bereitstellen kann ist es von Vorteil für den Bilderstrom eine Auflösung der Kamera zu wählen, die gleich oder geringer ist der Auflösung der Anzeigeeinheit.
Beispielsweise wird der Bilderstrom 105 in der Auflösung der Anzeigeeinheit genutzt und auf der Anzeigeeinheit dargestellt. Ein zu bestimmendes Rechteck kann zusammen mit dem Bilderstrom 105 auf der Anzeigeeinheit dargestellt werden (siehe hierzu Pfeil 120 sowie Block 106 und nachfolgende Beschreibung).
Weiterhin wird der Bilderstrom 110 in der Auflösung der Anzeigeeinheit (ggf. auch einer anderen vorzugsweise gegenüber der maximalen Auflösung der ung), Kamera reduzierten Auflösz. B. mit 640 mal 480 Bildpunkten, der GPU 101 bereitgestellt.
Beispielsweise kann basierend auf dem Bilderstrom ein (ggf. schwarz-weißes oder monochromes) Pixelbild gemäß [Canny1986] anhand der GPU 101 erzeugt werden (vergleiche Schritt 107). Nach Anwendung des Filters nach [Cannyl986] liegt eine schwarz-weiße Textur 113 vor, bei der die Pixel, die auf Kanten liegen, weiß eingefärbt sind.
(2) Diese Textur 113ann z. B. in einer reduzierten Auflösung ( kz. B. 640 mal 480 Bildpunkte) zur Verarbeitung an die CPU weitergeleitet werden.
(3) In einem Schritt 112 werden Bildpunkte (auch bezeichnet als Pixel) bestimmt, die auf einer Kante liegen und deren Koordinaten gespeichert.
(4) Die gespeicherten Koordinaten 114 werden zur Durchführung einer sogenannten Hough Transformation 108 nach [Hough1962] an die GPU 101 übermittelt.
Jeder Punkt in einem normalen Raum entspricht einer Linie in einem Hough-Raum. Die Linien werden auf eine Textur so übertragen, dass ein Bildpunkt umso heller wird, je mehr Linien durch diesen Bildpunkt verlaufen. Jeder Bildpunkt (also seine Koordinaten) in dem Hough-Raum entspricht dabei einer Linie in dem normalen Raum. Je mehr (Kanten-)Punkte auf der Linie in dem normalen Raum liegen, desto höher wird die Helligkeit dieses Bildpunkts.
(5) Es werden diejenigen Punkt in dem Hough-Raum herausgefiltert (vergleiche Filterung 109), wo nicht ausreichend viele Punkte auf der entsprechenden Linie liegen. Dies kann z. B. mittels eines Schwellwertvergleichs erfolgen, d. h. es kann bestimmt werden, ob mindestens eine bestimmte Anzahl Punkte auf der Linie liegen.
Aus dieser Filterung 109 ergibt sich eine Textur 115, die zur CPU 102 zur weiteren Verarbeitung übergeben wird.
(6) Von der CPU 102 werden in der erhaltenen Textur diejenigen Linien gesucht, die das Dokument begrenzen (vergleiche Schritt 116). Aus diesen Kanten wird ein Rechteck (auch bezeichnet als Rahmen) bestimmt (vergleiche Schritt 117) und Koordinaten des Rechtecks werden zwischengespeichert zur Verwendung z. B. einer nachfolgenden perspektivischen Entzerrung (siehe Pfeil 129).
(7) Es wird mittels eines geeigneten Algorithmus bestimmt, ob das Bild stabil ist (vergleiche Schritt 118).
Beispielsweise kann eine Stabilitätserkennung des Bildes anhand der durch den Algorithmus erhaltenen Koordinaten der Ecken des Dokuments durchgeführt werden. So kann das Bild als stabil erkannt werden, falls sich die Koordinaten der Ecken des Dokuments während einer bestimmten Zeit um weniger als einen vorgegebenen Schwellenwert bewegen. Alternativ oder zusätzlich können die Koordinaten der Ecken mit einem Filteralgorithmus verarbeitet werden, um bestimmte Eigenschaften hervorzuheben: So können mittels eines Tiefpass-Filters z. B. geringe schnelle Änderungen in Koordinaten reduziert oder beseitigt werden, die z. B. auf einer numerischen Instabilität der Filteralgorithmen basieren. Ferner ist es möglich, die Änderungen von Koordinaten durch ein Filter (z. B. ein Tiefpass-Filter) zu verarbeiten.
Dies ist von Vorteil, wenn der Benutzer das portable Gerät frei in der Hand hält und somit die einzelnen Aufnahmen des Bilderstroms durch die Bewegung der Hand variieren (wackeln). Eine ”verwackelte” Aufnahme kann zu einer schlechten Erkennungsleistung einer nachgeschalteten Dokumentenerkennung (z. B. in Form einer OCR-Verarbeitung) führen.
Beispielsweise wird der Bilderstrom über eine bestimmte Zeitdauer analysiert und diejenige Aufnahme zur weiteren Verarbeitung verwendet, die am wenigsten verwackelt ist. So kann automatisch ein Zeitpunkt aus einer Vielzahl von Zeitpunkten bestimmt werden, in dem der Benutzer die Kamera möglichst ruhig hält bzw. gehalten hat. So kann eine Gradienten-Auswertung in dem Bilderstrom durchgeführt werden derart, dass diejenige Aufnahme aus einer Menge von Aufnahmen ausgewählt wird, die eine geringe Veränderung (also einen kleinen Gradienten) aufweist. Die Menge von Aufnahmen kann während einer vorgegebenen Zeitdauer (einem Zeitfenster) gemacht werden.
Alternativ kann ein Verwackeln mittels eines geeigneten Sensors gemessen werden und (mindestens) eine Aufnahme des Bilderstroms abgespeichert werden, wenn das Verwackeln geringer ist als ein vorgegebener Schwellwert.
Ein zusätzliches Kriterium für eine geeignete Aufnahme ist, dass der Rahmen das aufgenommene Dokument bzw. den gewünschten aufgenommenen Bereich des Dokuments abdeckt (bzw. um dieses Dokument bzw. den Teil des Dokuments verläuft). So kann automatisch erkannt werden, sobald der Benutzer die Kamera so bewegt, dass die Kanten um das Dokument nicht mehr bestimmt ann der Benutzer werden können. In einem solchen Fall kz. B. darauf hingewiesen werden, die Kamera in eine bestimmte Richtung zu bewegen. Alternativ kann eine optische, akustische oder haptische Meldung ausgegeben werden, dass im Moment eine Aufnahme mit einer hohen Wahrscheinlichkeit nicht zu dem gewünschten Ergebnis führen würde.
Dieser Schritt des Ablaufs ermittelt den optimalen (stabilsten) Moment, um eine Aufnahme durchzuführen mit der ein optimales Ergebnis bei der Dokumentdetektion erzielt werden kann.
(8) Wird festgestellt (vergleiche Pfeil 123 für den Fall, dass die Aufnahme und/oder der Rahmen stabil ist/sind und Pfeil 122 für den Fall, dass die Aufnahme und/oder der Rahmen nicht stabil ist/sind), dass ein Bild stabil ist, also wenn z. B. ein Verwackeln gering und/oder der Rahmen stabil ist/sind, wird in einem Schritt 124 die Aufnahme mit einer vorgegebene Auflösung, z. B. mit der maximalen Auflösung der Kamera 103 (vergleiche Pfeil 104) abgespeichert.
Vorzugsweise arbeiten die vorherigen Schritte zumindest teilweise mit einer reduzierten Auflösung der Aufnahme bzw. des Bilderstroms, um die zu verarbeitende Datenmenge zu reduzieren. Damit ist die Verarbeitung schneller oder es kann auf leistungsschwächere und damit kostengünstigere Komponenten (GPU und/oder CPU) zurückgegriffen werden.
(9) Die unter Schritt (6) ermittelten Koordinaten 129 werden eingesetzt, um basierend auf der in Schritt 124 gespeicherten Aufnahme 125 eine perspektivische Transformation 126 des hochauflösenden Bildes durchzuführen.
(10) Das sich ergebende perspektivisch transformierte Bild 119 wird in einem vorgegebenen Dateiformat (z. B. als PNG-Datei) gespeichert und von einem Dokumentenmanagementsystem weiterverarbeitet (vergleiche Schritt 121). Das Dokumentenmanagementsystem kann Teil des portablen Geräts oder separat zu diesem ausgeführt sein.

Die vorliegende Lösung ermöglicht die verteilte Anwendung von Bilderkennungs-Algorithmen auf einer zentralen Prozessoreinheit und auf einer grafischen Prozessoreinheit. Dies stellt eine Voraussetzung für die Dokumentenerkennung mittels portabler Geräte dar. Insbesondere kann so die Dokumentenerkennung und/oder Dokumentenerfassung in Echtzeit oder nahezu in Echtzeit durchgeführt werden.
Damit können Dokumente mittels portabler Geräte schnell und problemlos in hoher Qualität für die weitere Dokumentenverarbeitung erfasst werden. Die ”mobile Erfassung” von Dokumenten stellt Eingangsdaten bereit, die wiederum gute OCR-Ergebnisse der Dokumentenverarbeitung ermöglichen. Dies reduziert den Aufwand für die Dokumentenerfassung erheblich und fördert die Benutzerakzeptanz, weil der Scanvorgang des Dokuments einfach und nahezu überall mit dem portablen Gerät, z. B. einem Smartphone mit Kamera, durchgeführt werden kann.
Obwohl die Erfindung im Detail durch das mindestens eine gezeigte Ausführungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht darauf eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.
Zitierte Druckschriften:

[Canny1986] "A Computational Approach to Edge Detection", IEEE, USA, 1986
[Hough1962] http://de.wikipedia.org/wiki/Hough-Transformation und US 3,069,654

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

[Canny1986] [0054]
[Cannyl986] [0054]

Claims

Verfahren zur Erfassung eines Dokuments, – bei dem mittels einer Kamera Bilddaten aufgenommen werden, – bei dem basierend auf den aufgenommenen Bilddaten von einer ersten Verarbeitungseinheit gefilterte Aufnahmedaten bestimmt werden, – bei dem basierend auf den gefilterten Aufnahmedaten von einer zweiten Verarbeitungseinheit eine Aufnahme der Kamera gespeichert wird, falls ein Stabilitätskriterium erfüllt ist.
Verfahren nach Anspruch 1, bei dem die erste Verarbeitungseinheit eine graphische Prozessoreinheit umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die zweite Verarbeitungseinheit eine zentrale Prozessoreinheit umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Kamera, die erste Verarbeitungseinheit und die zweite Verarbeitungseinheit Teil eines portablen Endgeräts, insbesondere eines Smartphones sind.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Kamera die Bilddaten der ersten Verarbeitungseinheit in einer ersten Auflösung bereitstellt und von der zweiten Verarbeitungseinheit die Aufnahme in einer zweiten Auflösung gespeichert wird.
Verfahren nach Anspruch 5, bei dem die zweite Auflösung höher ist als die erste Auflösung.
Verfahren nach einem der Ansprüche 5 oder 6, bei dem die erste Auflösung der Auflösung einer Anzeigeeinheit entspricht.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem anhand der ersten Verarbeitungseinheit mindestens einer der folgenden Schritte durchgeführt wird: – Durchführen einer ersten Filterung gemäß einem Canny-Algorithmus; – Übermitteln einer Textur, die mittels der Filterung gemäß dem Canny-Algorithmus ermittelt wurde, an die zweite Verarbeitungseinheit; – Durchführen einer Hough-Transformation basierend auf gespeicherten Koordinaten, die von der zweiten Verarbeitungseinheit bereitgestellt werden; – Durchführen einer zweiten Filterung basierend auf der Hough-Transformation und weiterleiten einer gefilterten Textur an die zweite Verarbeitungseinheit.
Verfahren nach Anspruch 8, bei dem die gespeicherten Koordinaten von der zweiten Verarbeitungseinheit bestimmt werden, indem Bildpunkte ermittelt werden, die auf oder im Wesentlichen auf einer Kante liegen und die Koordinaten dieser Bildpunkte gespeichert werden.
Verfahren nach einem der Ansprüche 8 oder 9, bei dem anhand der zweiten Filterung diejenigen Bildpunkte in einem Hough-Raum herausgefiltert werden, wo nicht ausreichen viele Punkt auf einer Linie liegen.
Verfahren nach einem der Ansprüche 8 bis 10, bei dem anhand der gefilterten Textur von der zweiten Verarbeitungseinheit Dokumentgrenzen ermittelt werden und insbesondere in Form eines Rahmens den auf einer Anzeigeeinheit dargestellten Bilddaten überlagert werden.
Verfahren nach Anspruch 11, bei dem bestimmt wird, ob der Rahmen und/oder die Bilddaten stabil sind und, sofern dies der Fall ist, wird die Aufnahme der Kamera gespeichert.
Verfahren nach Anspruch 12, bei dem bestimmt wird, ob der Rahmen und/oder die Bilddaten stabil sind, mittels mindestens einer der folgenden Ansätze: – die Bilddaten werden über eine vorgegebene Zeitdauer analysiert und wenn deren Änderung geringer als ein vorgegebener Schwellwert ist, wird die Aufnahme gespeichert; – der Rahmen wird über eine vorgegebene Zeitdauer analysiert und wenn dessen Änderung geringer als ein vorgegebener Schwellwert ist, wird die Aufnahme gespeichert; – es wird die Aufnahme gespeichert, wenn ein geringes Verwackeln detektiert wird; – es wird die Aufnahme gespeichert, wenn der Rahmen um ein Dokument oder um einen bestimmten Bereich des Dokuments verläuft.
Verfahren nach einem der Ansprüche 11 bis 13, bei dem ein transformiertes Bild bestimmt wird, indem anhand der Koordinaten des Rahmens eine perspektivische Transformation der Aufnahme durchgeführt wird.
Verfahren nach Anspruch 14, bei dem das transformierte Bild mittels einer Zeichenerkennung weiterverarbeitet wird.
Verfahren nach Anspruch 15, bei dem die Zeichenerkennung zumindest teilweise auf der ersten Verarbeitungseinheit oder der zweiten Verarbeitungseinheit durchgeführt wird.
Verfahren nach Anspruch 15, bei dem die Zeichenerkennung zumindest teilweise auf einer externen Verarbeitungseinheit, die zumindest vorübergehend über eine drahtlose oder drahtgebundene Kommunikationsverbindung gekoppelt ist, durchgeführt wird.
Vorrichtung zur Erfassung eines Dokuments – aufweisend eine Kamera eine erste Verarbeitungseinheit und eine zweite Verarbeitungseinheit, – wobei anhand der Kamera Bilddaten aufnehmbar sind, – wobei anhand der ersten Verarbeitungseinheit basierend auf den aufgenommenen Bilddaten gefilterte Aufnahmedaten bestimmbar sind, – wobei anhand der zweiten Verarbeitungseinheit basierend auf den gefilterten Aufnahmedaten eine Aufnahme der Kamera abspeicherbar ist, falls ein Stabilitätskriterium erfüllt ist.
Vorrichtung nach Anspruch 18, bei der die erste Verarbeitungseinheit eine graphische Prozessoreinheit umfasst und bei der die zweite Verarbeitungseinheit eine zentrale Prozessoreinheit umfasst.
Vorrichtung nach einem der Ansprüche 18 oder 19, wobei die Vorrichtung ein portables oder mobiles Gerät, insbesondere ein Tablet-Computer oder ein Smartphone, mit einer drahtlosen oder drahtgebundenen Kommunikationsschnittstelle ist.
Vorrichtung nach einem der Ansprüche 18 bis 20, bei der die erste Verarbeitungseinheit und/oder die zweite Verarbeitungseinheit eingerichtet ist, um basierend auf der Aufnahme eine Zeichenerkennung durchzuführen.
Vorrichtung nach einem der Ansprüche 18 bis 20, wobei die Vorrichtung eingerichtet ist, die Aufnahme an eine weitere Vorrichtung zu übertragen, wobei von der weiteren Vorrichtung eine Dokumentenverarbeitung basierend auf der Aufnahme durchführbar ist.
System umfassend mindestens eine Vorrichtung nach einem der Ansprüche 18 bis 22.
Computerprogrammprodukt, das in einen Speicher eines digitalen Computers ladbar ist, umfassend Programmcodeteile, die dazu geeignet sind, Schritte des Verfahrens nach einem der Ansprüche 1 bis 17 durchzuführen.
Computerlesbares Speichermedium umfassend von einem Computer ausführbare Anweisungen, die dazu geeignet sind, dass der Computer Schritte des Verfahrens nach einem der Ansprüche 1 bis 17 durchführt.