DE102007052622A1 - Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät - Google Patents

Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät Download PDF

Info

Publication number
DE102007052622A1
DE102007052622A1 DE102007052622A DE102007052622A DE102007052622A1 DE 102007052622 A1 DE102007052622 A1 DE 102007052622A1 DE 102007052622 A DE102007052622 A DE 102007052622A DE 102007052622 A DE102007052622 A DE 102007052622A DE 102007052622 A1 DE102007052622 A1 DE 102007052622A1
Authority
DE
Germany
Prior art keywords
pixel
list
value
pixel groups
letters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102007052622A
Other languages
English (en)
Inventor
Gerd Mosakowski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
T Mobile International AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by T Mobile International AG filed Critical T Mobile International AG
Priority to DE102007052622A priority Critical patent/DE102007052622A1/de
Priority to US12/740,047 priority patent/US8532389B2/en
Priority to MX2010004732A priority patent/MX2010004732A/es
Priority to CA2704830A priority patent/CA2704830C/en
Priority to BRPI0820570-1A priority patent/BRPI0820570A2/pt
Priority to RU2010122947/08A priority patent/RU2454718C2/ru
Priority to CN200880114728XA priority patent/CN101855640B/zh
Priority to EP08848083A priority patent/EP2208170A1/de
Priority to KR1020107012446A priority patent/KR101606469B1/ko
Priority to PCT/EP2008/009093 priority patent/WO2009059715A1/de
Publication of DE102007052622A1 publication Critical patent/DE102007052622A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

Eine robuste, wenig rechenintensive OCR wird dadurch erreicht, dass zunächst eine lernfähige pixelgruppenoptimierte Vorverarbeitung stattfindet, die das Bild nach Strichen durchsucht. Wesentlichstes Unterscheidungsmerkmal zu den bisher bekannten Verfahren ist, dass nun kein weiterer direkter Patternvergleich stattfindet, sondern versucht wird, die Striche möglichst optimal nachzuzeichnen. Aus der Bewegungsabfolge wird dann auf das entsprechende Zeichen geschlossen. Da diese Bewegungsabfolge sich gut skalieren und mit relativ wenig Aufwand beschreiben lässt, ist diese Technik gerade für den mobilen Einsatz geeignet. Die Bewegungsabfolge bekannter Zeichen ist in einem Suchwort hinterlegt, so dass aus der Bewegung direkt auf den Buchstaben geschlossen werden kann. Zusätzlich kann noch ein Wörterbuch/Lexikon eingesetzt werden. Werden Wörter anhand des Wörterbuches/Lexikons erkannt, können die erkannten Buchstaben für eine noch optimiertere Schrifterkennung herangezogen werden. Vorteil der Erfindung ist eine robustere OCR-Erfassung, die auch mit vergleichsweise wenig Rechenleistung auskommt. Die Robustheit bezieht sich insbesondere darauf, dass die Erkennung auch unter schlechten Bedingungen, insbesondere Lichtverhältnisse und überlagernde Störungen, besser als herkömmliche Systeme funktioniert.

Description

  • Die Erfindung betrifft ein Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät mit eingebauter Digitalkamera zur automatischen optischen Zeichenerkennung (OCR), nach dem Oberbegriff des Patentanspruchs 1 oder 2.
  • Es gibt eine Vielzahl von OCR-Systemen für PCs. Typischerweise wird ein Flachbett-Scanner zum Einlesen von Texten verwendet. Für den mobilen Einsatz gibt es Handscanner, die den eingescannten Text auf einem Display anzeigen, abspeichern oder auf einen Computer übertragen. Probleme gibt es immer dann, wenn die Vorlage schief eingescannt ist, oder nur Buchstaben der Fragmente zu erkennen sind (zum Beispiel beschriftete Flagge im Wind). Außerdem versagen solche Techniken, wenn kein direktes Einscannen möglich ist (z. B. Hinweisschilder am Straßenrand). Nach heutigem Stand der Technik könnte ein solches Bild mit einer hohen Auflösung aufgenommen werden, welches nachträglich gescannt werden kann. Jedoch findet in der Kamera selbst keine direkte OCR statt, da diese mit herkömmlichen Verfahren zu rechenintensiv ist.
  • Sollen längere Texte erkannt werden, ist es häufig notwendig, mehrere Bilder aufzunehmen und dann zusammenzufügen (360° Fotos zusammensetzen). Um eine ausreichende Qualität zu bekommen, muss der Vorgang in der Regel noch manuell nachgearbeitet werden.
  • Wesentliche Verfahren zur OCR arbeiten mit einem reinen Bitmuster-Vergleich „Pattern-Matching" oder wie bei der Handschrifterkennung mit der Beschreibung der Buchstaben durch Linien und Kreuzungspunkte. Pattern-Matching kann besonders dann gut eingesetzt werden, wenn es sich um normierte Buchstaben handelt (z. B. Kfz-Kennzeichen). Bei der Erkennung von Kennzeichen sind die zu erkennenden Zeichen auf eine kleine Anzahl beschränkt, die zudem normiert sind.
  • Weiterhin sind verschiedene Anwendungen im Bereich der Augment-Reality bekannt. Als Beispiel dafür bietet die Überlagerung einer Fotoaufnahme (Satelliten Foto) mit einer Straßenkarte, die die einzelnen Straßennamen anzeigt (www.clicktel.de).
  • Stand der Technik ist ein Verfahren der priorisierenden Pixelgruppen gemäß der DE 10113880 B4 oder der hierzu äquivalenten EP 1371229 B1 , welche die Merkmale nach dem Oberbegriff des Patentanspruchs 2 offenbaren.
  • Die DE 10025017 A1 offenbart ein Mobiltelefon, welches insbesondere für eine einfachere Anwendung und Nutzung von Zusatzdiensten und -funktionen, wie z. B. Kurznachrichtendienst, Bezahltransaktionen, Identitäts- oder Sicherheitsüberprüfungen etc. geeignet ist. Das Mobiltelefon besitzt eine integrierte Einrichtung zum Lesen von Zeichen, Symbolen Codes und/oder (Identitäts-) Merkmalen, welche als Scanner oder ein Barcodeleser oder ein Fingerbadruckleser in Form eines CCD-Sensors ist. Damit ist eine komfortable und schnelle Eingabe und Erfassung von Text, Symbolen oder sicherheitsrelevanten Merkmalen möglich.
  • Die DE 202005018376 U1 offenbart ein Mobiltelefon mit Tastatur, Bildschirm, Datenverarbeitungssystem und Lehrstelle optischem Abtastsystem, insbesondere Handscanner, sowie einem integrierten Übersetzungsprogramm. Über das optische Abtastsystem wird es möglich, in einer anderen Sprache vorhandene Zeichen und/oder Wörter einzuscannen. Mit der Auswahl der Sprache erfolgt die Übersetzung des Wortes oder der Wörter. Dadurch ist der Nutzer des Mobiltelefons in der Lage, ihm fremde Wörter und Texte zu lesen. Das können vorteilhafte Weise Speisekarten, Warnhinweise, Bedienvorschriften und Landkarten sowie Schilder sein. Darüber hinaus kann in der Nutzer auch selbst über die Tastatur des Mobiltelefons Wörter eingeben oder aus einer im Speicher des Datenverarbeitungssystems enthaltenen Enzyklopädie auswählen. Durch die Zusammenschaltung des Datenverarbeitungssystems mit dem Bildschirm und der Tastatur werden durch die Wahl der Sprache diese Wörter übersetzt und auf dem Bildschirm dargestellt.
  • Die DE 10163688 A1 offenbart ein Verfahren und ein System zur Verfolgung von Gütern, die mit einer optisch lesbaren, alphanumerischen Kennzeichnung versehen sind, sowie ein Erfassungsgerät hierfür. Die Kennzeichnung wird als Bild vom Erfassungsgerät erfasst und in Bilddaten umgewandelt. Diese werden vom Erfassungsgerät per Funk an einen Empfänger gesendet, der mit einem Computersystem verbunden ist, welcher die Bilddaten weiter auswertet. Alternativ werden die Bilddaten vor der Versendung an den Empfänger noch im Erfassungsgerät ausgewertet. Wie genau die Auswertung der Bilddaten erfolgt, ist nicht näher offenbart.
  • Die DE 10 2005 033 001 A1 offenbart bereits ein Verfahren zur Bildverarbeitung in mobilen Endgeräten z. B. Mobiltelefonen mit einer Kamera, welche digitale Bildinformationen aufnimmt und zum Teil dieser Bildinformationen mithilfe von Mustererkennungsverfahren, zum Beispiel Texterkennungsverfahren (OCR) analysiert werden. Wie genau diese Texterkennungsverfahren (OCR) arbeiten, ist jedoch in dieser Druckschrift nicht beschrieben.
  • Aufgabe der vorliegenden Erfindung ist es daher, ein gattungsgemäßes Verfahren zur Bildverarbeitung in mobilen Endgeräten mit digitaler Kamera bereitzustellen, welches wesentlichen exakter und schneller arbeitet.
  • Die Erfindung wird durch die Merkmale des unabhängigen Patentanspruches 1 oder 2 gekennzeichnet.
  • Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Patentansprüche.
  • Vorteil der Erfindung ist eine robustere OCR-Erfassung mit optionaler Übersetzung in realtime (Echtzeit), die auch mit vergleichsweise wenige Rechenleistung auskommt. Die Robustheit bezieht sich insbesondere darauf, dass die Erkennung auch unter schlechten Bedingungen (insbesondere Lichtverhältnisse, überlagernde Störungen) besser als herkömmliche Systeme funktioniert.
  • Dies wird zum einen dadurch erreicht, dass zunächst eine lernfähige pixelgruppenoptimierte Vorverarbeitung stattfindet, die das Bild nach Strichen durchsucht. Wesentlichstes Unterscheidungsmerkmal zu den bisher bekannten Verfahren ist, dass nun kein weiterer direkter Patternvergleich stattfindet, sondern versucht wird, die Striche möglichst optimal nachzuzeichnen. Aus der Bewegungsabfolge wird dann auf das entsprechende Zeichen geschlossen. Da diese Bewegungsabfolge sich gut skalieren und mit relativ wenig Aufwand beschreiben lässt, ist diese Technik gerade für den mobilen Einsatzgeeignet. Die Bewegungsabfolge bekannter Zeichen ist in einem Suchwort hinterlegt, so dass aus der Bewegung direkt auf den Buchstaben geschlossen werden kann. Zusätzlich kann noch ein Wörterbuch/Lexikon eingesetzt werden. Werden Wörter anhand des Wörterbuches/Lexikons erkannt, können die erkannten Buchstaben für eine noch optimiertere Schrifterkennung herangezogen werden.
  • Anwendungsszenarien sind Kamerahandys für Touristen im Ausland, insbesondere Verkehrsschilder, Menükarten, allgemeine Hinweisschilder lesen. Dabei kann der Inhalt gleich in eine 2. Sprache übersetzt werden. Dem Nutzer wird die Übersetzung auf dem Display angezeigt, oder über eine „Text to Speech-Applikation" (Sprachausgabe von Text)vorgelesen.
  • Die Robustheit der Erkennung basiert zunächst auf einer Normierung der Strichbreiten, bzw. Buchstabengrößen. Anschließend werden die Buchstaben nachgezeichnet, wobei dann im Rahmen der Nachzeichnung die eigentlichen Buchstaben erkannt werden. Die Robustheit der Erkennungsmethode ergibt sich aus der Kombination von verschiedenen Lösungsschritten. Durch die Normierung der Strichbreiten haben Schatteneffekte und schlechte Lichtverhältnisse kaum einen Einfluss auf die Erkennungsrate. Durch die Größen-Normierungen können die Effekte auf z. B. entfernten Schildern ausgeglichen werden. Durch das Nachzeichnen gelangt man durch einfache, wenig aufwändige, aber doch erweiterbare Lösungsbäume zum richtigen Buchstaben bzw. Ziffer. Um die Ergebnisse noch robuster zu machen, kann zusätzlich noch ein Wörterbuch eingesetzt werden. Durch Rückmeldungen von erkannten Wörtern können Lösungsbäume und Strichbreiten der Vorlage entsprechend optimiert werden.
  • Zur Lösung des Problems werden folgende Schritte durchlaufen.
  • Zunächst wird mit einem Bildaufnahmeelement (zum Beispiel CCD Kamera) das Bild in elektrische Signale umgewandelt. Diese Signale werden dann entsprechend dem Verfahren nach dem Patent DE 101 13 880 B4 in einem priorisierten Array abgelegt. Optional kann zusätzlich ein Positionsfaktor in die Priorisierung mit einfließen. Der Positionsfaktor ist umso größer, je näher die Pixelgruppe an dem Startpixel liegt. Das Startpixel befindet sich bei den westlichen Sprachen (englisch, deutsch, französisch) zunächst in der linken oberen Ecke des Arrays.
  • Im Unterschied zu dem Patent DE 101 13 880 B4 , das mit einer vorher festgelegten Form der Pixelgruppe arbeitet, können die Pixelgruppen hier auch während des Erkennungsvorgangs variieren. Ein Beispiel für eine Pixelgruppe ist eine einzeilige horizontale Anordnung von Pixeln, deren Länge abhängig von einem doppelten Wechsel der Helligkeit ist. Bei zu erkennenden dunklen Buchstaben auf einem hellen Hintergrund wäre dann der Abstand zwischen dem ersten hell dunkel Übergang und dem darauf folgenden dunkel hell Übergang eine Größe für eine angenommene Strichbreite ist. Pixelgruppen gleicher angenommenen Strichbreiten werden jeweils in einer separaten Liste zusammengetragen. Um die Robustheit des Verfahrens gegenüber Pixelfehlern zu erhöhen kann zusätzlich mit einem Tiefpassfilter gearbeitet werden. Bei diesem Filter wird jeweils die Summe aus n benachbarten Pixeln genommen um entsprechende hell dunkel, bzw. Dunkel hell Übergänge zu finden. Durch die Summenbildung werden evtl. Pixelfehler, bzw. Fehler durch starkes Rauschen stark vermindert.
  • Zur Erkennung des Buchstabens werden ähnliche Pixelgruppen in jeweils einer separaten Liste zusammengetragen. Jede so gewonnene Liste wird dabei so sortiert, dass die Pixelgruppen, die eine niedrigere Y-Position aufweisen absteigend sortiert sind. Liegen mehrere ähnliche Pixelgruppen auf gleichen Y-Positionen, so werden für diese neue Listen erzeugt. Aus diesen Listen wird nun versucht, entsprechende Vektoren abzuleiten. Dabei werden aus den jeweiligen Listen die Pixelgruppen mit dem niedrigsten und dem höchsten Y-Wert herausgesucht. Zwischen diesen Pixelgruppenpositionen wird nun eine Linie berechnet. Anschließend werden die Abweichungen der anderen Pixelgruppen zu dieser Linie bestimmt. Liegen alle Abweichungen unterhalb eines bestimmten Schwellwertes, so ist für diese Liste ein Beschreibungsvektor gefunden worden. Liegen die Abweichungen oberhalb eines Schwellwertes, wird die Liste geteilt, und es wird versucht, für jede Teilliste entsprechende Vektoren zu generieren. Dabei ist es sinnvoll, die Liste dort zu teilen, wo die größten Abweichungen zur berechneten Linie vorlagen. Auf diese Weise erhält man eine Anzahl von Vektoren. Sich berührende Vektoren werden in einer weiteren Vektorliste zusammengefasst, und den Y-Werten entsprechend sortiert. Diese Vektorliste beschreibt dann entsprechende Buchstaben. Die Vektorliste wird anschließend normiert (z. B. auf die maximale V-Differenz). Eine solche normierte Vektorliste kann dann einen Lösungsbaum durchlaufen, in dem die verschiedenen Buchstaben hinterlegt sind. Mit diesem Ansatz wird man zuerst nur einen Teil der Buchstaben erkennen. Jedoch bekommt man auf diese Weise erste Informationen über die zu erkennende Schrift. Bei großen Schriftzeichen wird man jeweils doppelte Buchstaben erhalten. Dies liegt daran, dass entsprechend der Linienbreite der Buchstaben einmal der hell-dunkel-, als auch in der dunkel-hell-Übergang als jeweils einzelner Buchstabe interpretiert wird. Dabei ist davon auszugehen, dass der Abstand dieser Doppelbuchstaben einigermaßen konstant ist. Dieser Umstand kann jedoch nunmehr dazu benutzt werden, die Form der benutzten Pixelgruppen entsprechend der Linienbreite zu optimieren. So sollte die Breite der verwendeten Pixelgruppe so gewählt werden, dass sie das dreifache der Linienbreite ist. Die optimale Höhe der Pixelgruppe ist abhängig von der Schrifthöhe. Mit den so optimierten Pixelgruppen wird nun das Bild weiter abgetastet. Durch die Vergrößerung der Pixelgruppen entstehen aufgrund der weniger benötigten internen Listen eine schnellere Verarbeitung, die zudem genauere Resultate liefert. Eine weitere Form der Optimierung ist es, die Ergebnisbäume zu optimieren. Da sich der Schrifttyp innerhalb eines Textes in der Regel nicht ändert, gibt es für jeden Text mit dieser Schriftart optimierte Ergebnisbäume. Geht man von 26 Buchstaben aus, ergeben sich aus Groß- und Kleinschreibung 52 verschiedene Buchstaben. Geht man von einem binären Baum von 128 Zeichen aus, reichen 7 Verzweigungen (2 hoch 7), um die Buchstaben zu bestimmen.
  • Für Maschinenschrift könnte man den gesamten Vorgang der Texterkennung noch weiter optimieren, indem man schon erkannte Buchstaben, oder sogar Silben als Pixelgruppenmaster abspeichert. Parallel dazu oben beschriebenen Verfahren könnten nun mit dem Pixelgruppenmaster z. B. Vokale einfach erkannt werden, da sie einen extrem hohen Pixelgruppenwert erzielen würden.
  • Als zusätzliche Option könnten Erkennungsfehler mit Wörterbüchern zum Teil erkannt und korrigiert werden. Die aus Ausgabe der erkannten Zeichen kann sowohl über ein Display, als auch über einen „Speech-to-Text-Programm" (Textausgabe von Sprache) realisiert werden.
  • Das beschriebene Verfahren beschreibt ein optimiertes Verfahren welches aus pixelbasierten Bildern Vektoren bildet, wobei jedes einzelne Pixel (bei einzeiliger, Pixelgruppe) nur einmal durchlaufen werden braucht. Bei bisher bekannten OCR Verfahren wird meist zur Erhöhung der Erkennungsrate vorher eine Kantenoptimierung durchgeführt, und erst anschließend mit dem Erkennungsverfahren begonnen. In dem oben beschriebenen Verfahren, geschieht dies in nur einem Schritt, so das es sowohl weniger Rechenintensiv als auch robuster ist.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • - DE 10113880 B4 [0006, 0019, 0020]
    • - EP 1371229 B1 [0006]
    • - DE 10025017 A1 [0007]
    • - DE 202005018376 U1 [0008]
    • - DE 10163688 A1 [0009]
    • - DE 102005033001 A1 [0010]
  • Zitierte Nicht-Patentliteratur
    • - www.clicktel.de [0005]

Claims (20)

  1. Verfahren zur OCR Erkennung das folgende Schritte durchläuft: a) Erkennung von Strichen durch Pixelgruppenorientierte Listenbildung, wobei die Listen jeweils einzelne Striche darstellen; b) Nachzeichnen der Buchstaben auf Basis der generierten Listen; c) Vergleich der Bewegungsfolge beim Nachzeichnen des Buchstabens mit normierten Referenzbuchstaben, abgelegt in einem Lösungsbaum.
  2. Verfahren zur Analyse von Bilddaten, die aus einem Array einzelner Bildpunkte (Pixel) bestehen, wobei jedes Pixel einen sich zeitlich verändernden Pixelwert aufweist, der Farb- oder Helligkeitsinformation des Pixels beschreibt, wobei die folgenden Schritte durchlaufen werden: a) Ermitteln eines Prioritätswertes für jedes Pixel des Arrays durch Festlegen des verwendeten Pixels als Bezugspixel und Berechnen eines Pixeldifferenzwertes anhand des jeweils momentanen Pixelwerts des Bezugspixels in Bezug auf die momentanen Pixelwerte einer zuvor festgelegten Gruppe von benachbarten Pixeln; b) Zusammenfassen der für die Berechnung des Prioritätswertes hinzugezogenen Pixel zu einer Pixelgruppe, c) Sortieren der Pixelgruppen anhand des Prioritätswertes des zugeordneten Bezugspixels und Ablegen in einem Prioritätenarray; d) Abspeichern und/oder Übertragen der Pixelgruppen entsprechend ihrer Priorität im Prioritätenarray, wobei zur Optimierung der Rechenleistung nur ein Teil der Pixelgruppen für die Listenbildung genutzt wird, dadurch gekennzeichnet, dass zusätzlich ein Positionsfaktor mit in den Prioritätswert einfließt, der umso größer ist, je näher die Pixelgruppe an einem je nach Sprache vordefinierten Startpixel liegt.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der Pixeldifferenzwert sich aus der Differenz des Pixelwerts eines betrachteten Pixels zum Pixelwert einiger seiner betrachteten Nachbarpixel der Pixelgruppe ergibt.
  4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass der Pixeldifferenzwert Rückschlüsse auf die Strichbreite zulässt.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet das aus ähnlichen Pixelgruppen Listen gebildet werden.
  6. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass nach den Schritten 1a) bis 1d) folgende Schritte durchlaufen werden: zunächst eine lernfähige pixelgruppenoptimierte Vorverarbeitung stattfindet, die das Bild nach Strichen durchsucht, wobei nachfolgend versucht wird, diese Striche möglichst optimal nachzuzeichnen, wobei aus der Bewegungsabfolge dann auf das entsprechende Zeichen über gespeicherte Suchwörter/Lösungsbäume geschlossen wird.
  7. Verfahren nach einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass nach den Schritten 1a) bis 1d) folgende Schritte durchlaufen werden: Es werden ähnliche Pixelgruppen in jeweils einer separaten Liste zusammengetragen und jede so gewonnene Liste dabei so sortiert wird, dass die Pixelgruppen, die eine niedrigere Y-Position aufweisen absteigend sortiert sind, wobei wenn mehrere ähnliche Pixelgruppen auf gleichen Y-Positionen liegen, für diese neue Listen erzeugt werden, wobei aus diesen Listen Vektoren abgeleitet und die Pixelgruppen mit dem niedrigsten und dem höchsten Y-Wert herausgesucht werden und wobei zwischen diesen Pixelgruppenpositionen eine Linie berechnet wird und wobei die Abweichungen der anderen Pixelgruppen zu dieser Linie bestimmt werden.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass falls alle Abweichungen unterhalb eines bestimmten Schwellwertes liegen, ist für diese Liste ein Beschreibungsvektor gefunden worden, falls aber die Abweichungen oberhalb eines Schwellwertes liegen, wird die Liste geteilt, und es wird versucht, für jede Teilliste entsprechende Vektoren zu generieren.
  9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Liste dort geteilt wird, wo die größten Abweichungen zur berechneten Linie vorlagen.
  10. Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass die Vektorliste anschließend normiert wird, z. B. auf die maximale Y-Differenz.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die normierte Vektorliste einen Lösungsbaum durchläuft, in dem die verschiedenen Buchstaben hinterlegt sind.
  12. Verfahren nach einem der Ansprüche 7 bis 11, dadurch gekennzeichnet, dass sich berührende Vektoren in einer weiteren Vektorliste zusammengefasst, und den Y-Werten entsprechend sortiert werden.
  13. Verfahren nach einem der Ansprüche 7 bis 12, dadurch gekennzeichnet, dass die Breite der verwendeten Pixelgruppe so gewählt wird, dass sie das dreifache der Linienbreite ist und die optimale Höhe der Pixelgruppe abhängig von der Schrifthöhe ist.
  14. Verfahren nach einem der Ansprüche 7 bis 13, dadurch gekennzeichnet, dass mit den so optimierten Pixelgruppen das Bild anschließend weiter abgetastet wird.
  15. Verfahren nach einem der Ansprüche 7 bis 14, dadurch gekennzeichnet, dass für jeden Text mit dieser Schriftart optimierte Ergebnisbäume erzeugt werden.
  16. Verfahren nach einem der Ansprüche 7 bis 15, dadurch gekennzeichnet, dass für Maschinenschrift schon erkannte Buchstaben, oder sogar Silben als Pixelgruppenmaster abspeichert werden.
  17. Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass ein Wörterbuch/Lexikon eingesetzt wird, anhand dessen die erkannten Buchstaben für eine noch optimiertere Schrifterkennung herangezogen werden.
  18. Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass die erkannten Wörter in eine wählbare Sprache übersetzt und optisch und/oder akustisch ausgegeben wird.
  19. Verfahren nach einem der Ansprüche 1 bis 18, dadurch gekennzeichnet, dass durch Rückmeldungen von erkannten Wörtern Lösungsbäume und Strichbreiten der Vorlage entsprechend optimiert werden.
  20. Verfahren nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet, dass die laufende Ermittlung und Ausgabe der nach Prioritäten sortierten Pixelgruppen bereits durch ein verwendetes bildaufnehmendes System, insbesondere ein in einem Mobiltelefon integrierter Scanner oder CCD-Kamera, erfolgt.
DE102007052622A 2007-11-05 2007-11-05 Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät Withdrawn DE102007052622A1 (de)

Priority Applications (10)

Application Number Priority Date Filing Date Title
DE102007052622A DE102007052622A1 (de) 2007-11-05 2007-11-05 Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät
US12/740,047 US8532389B2 (en) 2007-11-05 2008-10-28 Method for image analysis, especially for mobile stations
MX2010004732A MX2010004732A (es) 2007-11-05 2008-10-28 Metodo para el analisis de imagen, en particular para un aparato de radio movil.
CA2704830A CA2704830C (en) 2007-11-05 2008-10-28 Method for image analysis especially, for mobile stations
BRPI0820570-1A BRPI0820570A2 (pt) 2007-11-05 2008-10-28 Processo para a análise de imagens, especialmente aparelho rádio móvel
RU2010122947/08A RU2454718C2 (ru) 2007-11-05 2008-10-28 Способ анализа изображения, в частности, для мобильного устройства
CN200880114728XA CN101855640B (zh) 2007-11-05 2008-10-28 尤其是用于移动无线设备的图像分析方法
EP08848083A EP2208170A1 (de) 2007-11-05 2008-10-28 Verfahren zur bildanalyse, insbesondere für mobilfunkgerät
KR1020107012446A KR101606469B1 (ko) 2007-11-05 2008-10-28 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법
PCT/EP2008/009093 WO2009059715A1 (de) 2007-11-05 2008-10-28 Verfahren zur bildanalyse, insbesondere für mobilfunkgerät

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007052622A DE102007052622A1 (de) 2007-11-05 2007-11-05 Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät

Publications (1)

Publication Number Publication Date
DE102007052622A1 true DE102007052622A1 (de) 2009-05-07

Family

ID=40514367

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007052622A Withdrawn DE102007052622A1 (de) 2007-11-05 2007-11-05 Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät

Country Status (10)

Country Link
US (1) US8532389B2 (de)
EP (1) EP2208170A1 (de)
KR (1) KR101606469B1 (de)
CN (1) CN101855640B (de)
BR (1) BRPI0820570A2 (de)
CA (1) CA2704830C (de)
DE (1) DE102007052622A1 (de)
MX (1) MX2010004732A (de)
RU (1) RU2454718C2 (de)
WO (1) WO2009059715A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9028344B2 (en) * 2010-01-28 2015-05-12 Chsz, Llc Electronic golf assistant utilizing electronic storing
CN102364926A (zh) * 2011-10-21 2012-02-29 镇江科大船苑计算机网络工程有限公司 基于Android智能化信息转换方法
US8831381B2 (en) 2012-01-26 2014-09-09 Qualcomm Incorporated Detecting and correcting skew in regions of text in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
RU2587406C2 (ru) 2014-05-29 2016-06-20 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки визуального объекта и электронное устройство, используемое в нем
RU2582064C1 (ru) * 2014-12-16 2016-04-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов с использованием леса решений
RU2598300C2 (ru) 2015-01-27 2016-09-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы автоматического распознавания символов с использованием дерева решений

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10025017A1 (de) 1999-06-21 2000-12-28 Deutsche Telekom Mobil Mobiltelefon
DE10163688A1 (de) 2001-12-21 2003-07-03 Blg Complements Gmbh & Co Kg Verfahren und System zur Verfolgung von Gütern sowie Erfassungsgerät hierfür
DE10113880B4 (de) 2001-03-21 2004-04-29 T-Mobile Deutschland Gmbh Verfahren zur Komprimierung und Dekomprimierung von Videodaten
DE202005018376U1 (de) 2005-11-18 2006-02-02 Alcatech Service Und Vertrieb Gmbh & Co Kg Mobiles Gerät als mobiler Personalcomputer oder Mobiltelefon
DE102005033001A1 (de) 2005-07-14 2007-01-25 Siemens Ag Verfahren zur Optimierung von Kontrollvorgängen beim Einsatz mobiler Endgeräte

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5917668A (ja) * 1982-07-20 1984-01-28 Ricoh Co Ltd ストロ−ク抽出方法
JPS60217477A (ja) * 1984-04-12 1985-10-31 Toshiba Corp 手書き文字認識装置
DE3815869A1 (de) * 1987-05-08 1988-11-17 Ricoh Kk Verfahren zum extrahieren von merkmalsmengen eines zeichens
CN1075565A (zh) 1992-02-15 1993-08-25 曾怜玉 具有学习能力的文字识别方法
US5319721A (en) * 1992-04-14 1994-06-07 International Business Machines Corporation Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set
WO1994004993A1 (en) * 1992-08-18 1994-03-03 Perception Software Corporation A recognition system with an automated development tool
CN1029534C (zh) 1993-02-25 1995-08-16 清华大学 自由书写联机手写汉字识别方法及其系统
JP3260979B2 (ja) * 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5940534A (en) * 1995-07-17 1999-08-17 Nippon Telegraph And Telephone Corporation On-line handwritten character recognition using affine transformation to maximize overlapping of corresponding input and reference pattern strokes
US5796867A (en) * 1996-06-12 1998-08-18 Industrial Technology Research Institute Stroke-number-free and stroke-order-free on-line Chinese character recognition method
US6970599B2 (en) * 2002-07-25 2005-11-29 America Online, Inc. Chinese character handwriting recognition system
RU2249251C2 (ru) * 1999-06-21 2005-03-27 Де ла рю Жиори С.А. Автоматическое распознавание символов на структурированном фоне при помощи комбинирования моделей фона и символов
US6807309B1 (en) * 2000-12-27 2004-10-19 Canon Kabushiki Kaisha Linear list compression
US7359560B2 (en) 2001-03-21 2008-04-15 T-Mobile Deutschland Gmbh Method for compression and decompression of image data with use of priority values
RU2260280C2 (ru) * 2002-12-15 2005-09-20 Всероссийский научно-исследовательский институт консервной и овощесушильной промышленности (Государственное научное учреждение) Способ защиты вегетирующих пасленовых культур от вредных насекомых

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10025017A1 (de) 1999-06-21 2000-12-28 Deutsche Telekom Mobil Mobiltelefon
DE10113880B4 (de) 2001-03-21 2004-04-29 T-Mobile Deutschland Gmbh Verfahren zur Komprimierung und Dekomprimierung von Videodaten
EP1371229B1 (de) 2001-03-21 2006-05-24 T-Mobile Deutschland GmbH Verfahren zur komprimierung und dekomprimierung von videodaten
DE10163688A1 (de) 2001-12-21 2003-07-03 Blg Complements Gmbh & Co Kg Verfahren und System zur Verfolgung von Gütern sowie Erfassungsgerät hierfür
DE102005033001A1 (de) 2005-07-14 2007-01-25 Siemens Ag Verfahren zur Optimierung von Kontrollvorgängen beim Einsatz mobiler Endgeräte
DE202005018376U1 (de) 2005-11-18 2006-02-02 Alcatech Service Und Vertrieb Gmbh & Co Kg Mobiles Gerät als mobiler Personalcomputer oder Mobiltelefon

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
www.clicktel.de

Also Published As

Publication number Publication date
CN101855640B (zh) 2013-12-04
MX2010004732A (es) 2010-05-20
RU2010122947A (ru) 2011-12-20
BRPI0820570A2 (pt) 2015-06-16
CA2704830A1 (en) 2009-05-14
EP2208170A1 (de) 2010-07-21
RU2454718C2 (ru) 2012-06-27
CA2704830C (en) 2014-09-30
KR20100099154A (ko) 2010-09-10
KR101606469B1 (ko) 2016-03-25
US20100296729A1 (en) 2010-11-25
US8532389B2 (en) 2013-09-10
WO2009059715A1 (de) 2009-05-14
CN101855640A (zh) 2010-10-06

Similar Documents

Publication Publication Date Title
DE102007052622A1 (de) Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät
DE60303202T2 (de) System und verfahren zum identifizieren und extrahieren von zeichenketten aus erfassten bilddaten
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
DE60204005T2 (de) Verfahren und einrichtung zur erkennung eines handschriftlichen musters
DE102006059663B4 (de) Vorrichtung, Verfahren und Computerprogramm zum Identifizieren eines Verkehrszeichens in einem Bild
DE102009059264B4 (de) Verfahren zum schnellen Lokalisieren eines entschlüsselbaren Musters
DE60116442T2 (de) System zur Zuordnung von Schlüsselwörtern zu Dokumenten
Saha et al. A Hough transform based technique for text segmentation
DE10195928B4 (de) Abschätzen der Textfarbe und Segmentieren von Bildern
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
DE60109278T2 (de) Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera
DE102011079443A1 (de) Lerngewichtungen von Schriftarten für getippte Proben bei der Handschriftenschlüsselwortauffindung
DE19705757A1 (de) Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems
DE102011005579A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Speichermedium
DE19956158A1 (de) Bild-Binärisierungsverfahren auf Bereichsbasis
EP2082357B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung von schriftzeichen in einem bild
DE112021000371T5 (de) Digitale bildbearbeitung
DE202022002901U1 (de) Text-Bild-Layout Transformer (TILT)
EP3123393B1 (de) Verfahren zur optischen erkennung von zeichen
DE19726592C2 (de) Informationserkennungs-Vorrichtung
CN115565193A (zh) 问卷信息录入方法、装置、电子设备及存储介质
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
DE60225268T2 (de) Verfahren zum bestimmen von textfeldern in einem videobild

Legal Events

Date Code Title Description
R005 Application deemed withdrawn due to failure to request examination
R005 Application deemed withdrawn due to failure to request examination

Effective date: 20141106