DE19533585C1 - Character segmentation method - Google Patents

Character segmentation method

Info

Publication number
DE19533585C1
DE19533585C1 DE19533585A DE19533585A DE19533585C1 DE 19533585 C1 DE19533585 C1 DE 19533585C1 DE 19533585 A DE19533585 A DE 19533585A DE 19533585 A DE19533585 A DE 19533585A DE 19533585 C1 DE19533585 C1 DE 19533585C1
Authority
DE
Germany
Prior art keywords
crater
characters
melting
craters
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19533585A
Other languages
German (de)
Inventor
Peter Prof Dr Maas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MAASS, PETER, PROF. DR., 14129 BERLIN, DE BOEHM, M
Original Assignee
Peter Prof Dr Maas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peter Prof Dr Maas filed Critical Peter Prof Dr Maas
Priority to DE19533585A priority Critical patent/DE19533585C1/en
Application granted granted Critical
Publication of DE19533585C1 publication Critical patent/DE19533585C1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Segmentierung von Zeichen und ist anwendbar insbesondere zur Ergänzung der OCR (Optical Character Recognition). Ein bevorzugtes Anwendungsgebiet der Erfindung ist die automatische Attributierung von Dokumenten in Archivie­ rungssystemen.The invention relates to a method for segmentation of characters and is applicable especially to Supplement to OCR (Optical Character Recognition). A preferred field of application of the invention is automatic attribution of documents in archives systems.

Es ist bekannt, in Papierform vorliegende Texte, Bilder und Graphiken mittels sogenannter OCR-Programme über Scanner zu erfassen und im Speicher von Computern abzu­ legen.It is known, texts, images in paper form and graphics using so-called OCR programs Capture scanners and store them in the memory of computers lay.

Wesentliches Kriterium für die Anwendbarkeit in der täglichen Praxis ist die Erkennungsrate der OCR.Essential criterion for the applicability in the daily practice is the recognition rate of the OCR.

Im Betrieb oder bei der Errichtung von Betrieben entsteht eine Vielzahl technischer oder kaufmännischer Unterlagen, die innerhalb eines festgelegten Ordnungssystem registriert und abgelegt werden. Die Gesamtheit dieser Unterlagen enthält alle Daten und dient als Grundlage des Betriebes.In operation or when setting up operations a variety of technical or commercial arises Documents within a set  Classification system can be registered and filed. The All of these documents contain all data and serves as the basis of the company.

Eine wichtige Anforderung an die Dokumentation ist das rasche Auffinden der Dokumente. Dazu ist es notwendig, daß den Dokumenten bei der Einspeisung in das Dokumentensystem Attribute, wie etwa Kontonummer, Titel, Unterlagennummer oder ähnliches in einer geeigneten Systematik zugeordnet werden müssen. Da sich diese Attribute auf den Dokumenten befinden ist es von großem Vorteil, direkt beim Digitalisieren der Papierdokumente die entsprechenden Attribute automatisch herauszufiltern, zu bearbeiten, mit Hilfe eines Texterkennungsprogrammes zu deuten und in die Dokumentation zu integrieren.This is an important requirement for the documentation find documents quickly. For this it is necessary that the documents when fed into the Document system attributes, such as account number, Title, document number or similar in one appropriate systematics must be assigned. That I these attributes are located on the documents it is from great advantage, directly when digitizing the Paper documents the corresponding attributes automatically filter out, edit, with the help to interpret a text recognition program and into the Integrate documentation.

Dieser Ablauf zur automatischen Ablage von Papierdokumenten in das Dokumentensystem wird automatische Attributierung genannt und wie folgt vollzogen:
Nach dem Digitalisieren/Scannen der Dokumente werden diese zunächst ausgerichtet. Dies bedeutet, daß durch Scannen oder Kopieren entstandene eventuelle Schieflagen korrigiert werden.
This process for automatically storing paper documents in the document system is called automatic attribution and is carried out as follows:
After digitizing / scanning the documents, they are first aligned. This means that any misalignments caused by scanning or copying are corrected.

Da mehrere Formulare gleichen Formulartyps vorliegen, wird für jeden Formulartyp einmalig eine Vorlage mit allen notwendigen Informationen erstellt, die einem Formular gleichen Formulartyps automatisch zugeordnet wird. Erst dann können automatisch die entsprechenden Attribute aus dem Formular herausgeschnitten und dem Dokumentationssystem zugänglich gemacht werden.Since there are several forms of the same form type, template for each form type all the necessary information that one Form is automatically assigned to the same form type becomes. Only then can the corresponding automatically Cut attributes from the form and the Documentation system be made accessible.

Liegt ein Formular vor, für das noch keine Vorlage erstellt ist, wird dieses wie oben beschrieben ausgerichtet und eine weitere Vorlage erstellt. There is a form for which there is no template yet is created, this is as described above aligned and created another template.  

Nun erfolgt der Erkennungsprozeß der Attribute mit dem Ziel einer sehr hohen Erkennungsrate. Die bisher bekannten Methoden der Bildverarbeitung führen zu Erkennungsraten, die für eine effektive, automatische Attributierung nicht ausreichend sind.Now the recognition process of the attributes takes place with the Target a very high detection rate. The so far known methods of image processing lead to Detection rates necessary for effective, automatic Attribution are not sufficient.

Die US 4,635,290 beschreibt ein Verfahren, welches nur eine Segmentierung von Zeichen für Nichtproportionalschriften, d. h. nur für Fonts mit konstanter Zeichenbreite ermöglicht.US 4,635,290 describes a method which only a segmentation of characters for Non-proportional fonts, d. H. only for fonts with constant character width enabled.

Es fließen keinerlei Konturinfomationen zur Bestimmung der Segmentierungspositionen ein. Allein aus der Verteilungsfunktion (projection distribution) heraus - und nur unter Nutzung der Werte Null und größer Null - werden die Positionen (Trennstellen) zur Segmentierung ermittelt.No contour information flows for the determination of the segmentation positions. Alone from the Projection distribution function out and only using the values zero and greater than zero the positions (separation points) for segmentation determined.

Vollständige Verlaufungen, d. h. wenn durch Verlaufen der Tinte umschlossene Flächen vollständig verloren gehen, wie z. B. bei den Zeichen ′o′, ′e′ oder ′8′, werden nicht betrachtet.Complete histories, i.e. H. if by getting lost areas enclosed in the ink are completely lost go, such as B. at the characters 'o', 'e' or '8', are not considered.

Die einfache Wertschrankenarithmetik kann besonders bei längeren Wörtern zu großen Abweichungen führen, da die Intervalle mit jeder Operation stark anwachsen. Auch sind die verwendeten Konstanten sehr vom Schriftfont abhängig, und sie müßten daher für jede zu segmentierende Zeichenkette bestimmt werden. Dies schränkt das Verfahren auf Zeichenketten mit einer entsprechenden Mindestlänge ein.The simple value arithmetic can be particularly useful for longer words lead to large deviations because the Intervals increase rapidly with each operation. The constants used are also very different Font dependent, and they would therefore have to be for everyone segmenting character string can be determined. This limits the procedure to strings with a corresponding minimum length.

Nachteilig ist ebenfalls, daß keine Schriftaufwertung vorgenommen wird, z. B. wenn die spitzen Winkel im Zeichen ′N′ zu Rundungen verlaufen sind.Another disadvantage is that no font enhancement is made, e.g. B. if the acute angle in Characters 'N' have run to roundings.

In der Veröffentlichung Proc. of the IEEE, Vol. 80, No. 7, July 1992, pp. 1079-1092 wird ein Verfahren beschrieben, mit welchem Bereiche auf Abbildungen wie z. B. Gebäude, Personen oder Gegenstände erkannt werden sollen, wobei eine Kombination aus Schwellwert- und Quadtree-Segmentierung verwendet wird.In the publication Proc. of the IEEE, Vol. 80, No. July 7, 1992, pp. 1079-1092 becomes a procedure described with which areas on pictures how e.g. B. buildings, people or objects can be recognized should be, a combination of threshold and Quadtree segmentation is used.

Dieses Verfahren ist für die Segmentierung von Zeichen in einer Zeichenkette ungeeignet, insbesondere kann es nicht zur Trennung von zusammengelaufenen Zeichen (touching characters) verwendet werden.This procedure is for segmenting characters unsuitable in a string, in particular it can not to separate converged characters (touching characters) can be used.

Das Verfahren ist auf Grauwert- und Farbbilder und nicht auf Binärbilder ausgerichtet.The process is based on grayscale and color images and not aimed at binary images.

In der Veröffentlichung IEEE Trans. on PAMI, Vol. 16, No. 7, July 1994, pp. 689-700 wird ein Verfahren beschrieben, welches vor allem auf Handschriften spezialisiert ist und eine vereinfachte Schriftdickenanalyse zur Trennung von Zeichen benutzt. Es werden nur vertikale Verklebungen zwischen einzelnen Zeichen versucht aufzulösen, d. h. horizontale Verklebungen zwischen einzelnen Zeichen, z. B. zweier übereinander liegender Zeilen, und Verklebungen innerhalb von Zeichen, z. B. bei den Zeichen ′i′, ′a′ oder ′e′, werden nicht aufgelöst.In the publication IEEE Trans. On PAMI, Vol. 16, No. 7, July 1994, pp. 689-700 becomes a procedure described, which mainly on manuscripts is specialized and a simplified Font thickness analysis used to separate characters. There are only vertical bonds between individual Character tries to resolve, d. H. horizontal Bonding between individual characters, e.g. B. two lines on top of each other, and gluing within characters, e.g. B. at the characters 'i', 'a' or 'e', are not resolved.

Vollständige Verlaufungen, d. h. wenn durch Verlaufen der Tinte umschlossene Flächen vollständig verloren gehen, wie z. B. bei den Zeichen ′o′, ′e′ oder ′8′ werden nicht betrachtet.Complete histories, i.e. H. if by getting lost areas enclosed in the ink are completely lost go, such as B. at the characters 'o', 'e' or '8' are not considered.

Das Verfahren ist auch nicht für Proportionalschriften ausgelegt, da die Schriftbreite als Konstante einfließt und es können keine Zeichen getrennt werden, bei denen eine doppelte Verklebung, wie z. B. bei den Zeichen ′88′ möglich oder eine sehr dicke Verklebung, wie z. B. bei den Zeichen ′HH′ möglich, vorliegt.The procedure is also not for proportional fonts designed because the font width is included as a constant and no characters can be separated in which a double bond, such as. B. at the characters '88' possible or a very thick bond, such as. B. at the characters 'HH' possible.

Auch wird keine Schriftaufwertung vorgenommen, z. B. wenn die spitzen Winkel im Zeichen ′N′ zu Rundungen verlaufen sind.No font enhancement is made, e.g. B. if the acute angles in the character 'N' lead to rounding have passed.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zur Segmentierung von Zeichen zu schaffen, welches mit einfachen Mitteln realisierbar ist, die Fehlerursachen bei der OCR minimiert und eine effektive, automatische Attributierung ermöglicht.The invention is therefore based on the object Creating methods of segmenting characters which can be realized with simple means, the The causes of errors in OCR are minimized and one enables effective, automatic attribution.

Diese Aufgabe wird erfindungsgemäß gelöst durch die Merkmale im kennzeichnenden Teil des Anspruches 1 in Verbindung mit den Merkmalen im Oberbegriff.This object is achieved by the Features in the characterizing part of claim 1 in Connection with the features in the generic term.

Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen enthalten.Advantageous embodiments of the invention are in the Subclaims included.

Ein besonderer Vorteil der Erfindung besteht darin, daß Verklebungen innerhalb von Zeichen und/oder zwischen benachbarten Zeichen als eine der häufigsten Fehlerursachen bei der optischen Zeichenerkennung ganz oder zumindest teilweise aufgelöst werden können, indemA particular advantage of the invention is that Bonding within characters and / or between adjacent characters as one of the most common Causes of errors in optical character recognition entirely or can at least partially be resolved by

  • - dunkle Druckfarbenpixel mit einer hohen Temperatur und helle Papierpixel mit einer niedrigen Temperatur gleichgesetzt werden und- dark ink pixels with a high temperature and light paper pixels with a low one Temperature can be equated and
  • - die Ausbreitung der Wärmeverteilung als Kriterium für das Auslaufen der Druckfarbe rechentechnisch verarbeitet wird, wobei- The spread of heat distribution as a criterion computationally for the leakage of the printing ink is processed, whereby
  • - aus der vorhandenen Temperaturverteilung Rückschlüsse auf zuvor vorhandene Temperaturen gezogen werden
    und/oder
    - Conclusions about previously existing temperatures can be drawn from the existing temperature distribution
    and or
  • - Krater in Form von trichterförmigen Vertiefungen bei den Verklebungen innerhalb von Zeichen und/oder zwischen benachbarten Zeichen mit Methoden der Bildverarbeitung lokalisiert und gespeichert und nachfolgend- Craters in the form of funnel-shaped depressions when gluing within characters and / or between adjacent characters localized with image processing methods and saved and subsequently
  • - die Konturen der Krater durch Abschmelzen verändert werden, indem der Boden der Krater und/oder die Wände der Krater erweitert werden.- the contours of the craters by melting be changed by the bottom of the crater and / or the walls of the craters are expanded.

Die Erfindung soll nachstehend an Hand von Ausführungsbeispielen näher erläutert werden.The invention is based on Embodiments are explained in more detail.

Es zeigen:Show it:

Fig. 1 ein Beispiel des Auslaufens der Druckfarbe in Abhängigkeit von der Zeit; Figure 1 shows an example of ink leakage as a function of time.

Fig. 2 ein Text/Zahlenbeispiel zum Abschmelzen von Kratern; Fig. 2 is a text / numerical example for melting of craters;

Fig. 3 ein weiteres Textbeispiel zum Abschmelzen von Kratern. Fig. 3 shows another text example for melting craters.

Die größten Probleme bei der Erkennung von Schrifttypen werden durch die auftretenden Verklebungen erzeugt. Diese entstehen dadurch, daß bei dem Druckvorgang die Drückfarbe ausläuft und hierdurch nahe beieinanderliegende Schriftelemente verbunden werden. Der Vorgang des Auslaufens wird nun rückwärts in der Zeit betrachtet, um damit die Verklebungen zu reduzieren.The biggest problems with font recognition are generated by the sticking that occurs. These arise from the fact that the Press color runs out and thereby close adjacent text elements are connected. The process of phasing out is now going backwards in the Considered time to allow the gluing to to reduce.

Bei dieser Vorgehensweise findet die physikalische Analogie Anwendung, daß man ein schwarzes Pixel mit einer hohen und ein weißen Pixel mit einer niedrigen Temperatur identifiziert. Das Auslaufen der Druckfarbe entspricht dann der Ausbreitung der Wärmeverteilung. With this procedure, the physical Analogy application that you have a black pixel with a high and a white pixel with a low Temperature identified. Ink leakage then corresponds to the spread of the heat distribution.  

Dies kann nun vorwärts und rückwärts in der Zeit betrachtet und aus einer gegebenen Temperaturverteilung auf die zuvor vorhandenen Temperaturen geschlossen werden.This can now go back and forth in time considered and from a given temperature distribution inferred from the previously existing temperatures will.

Eine Simulation dieser Prozesse ist mittels der WärmeleitungsgleichungA simulation of these processes is possible using the Heat conduction equation

ut = c Δuu t = c Δu

oder mittels geeigneter modifizierter Diffusions­ gleichung, bei denen Gewichtsfaktoren in Abhängigkeit von der Größe der Gradienten z. B.or by means of suitable modified diffusions equation where weight factors are dependent on the size of the gradient z. B.

ut= exp (-|∇u|²/2σ) Δuu t = exp (- | ∇u | ² / 2σ) Δu

eingefügt werden, möglich. Bei einer Zeit t < 0 wird ein Auslaufen der Druckfarbe und bei einer Zeit t < 0 die Auflösung der Verklebungen simuliert.can be inserted. At a time t <0 the ink runs out and at a time t <0 simulates the dissolution of the bonds.

Diese Gleichungen können durch Einfügen von Gewichtsfaktoren weiter modifiziert und der jeweiligen Anwendung angepaßt werden.These equations can be created by inserting Weight factors further modified and the respective Application to be adjusted.

Wie aus Fig. 1 zu ersehen ist, läßt sich mittels der Wärmeleitungsgleichung die zeitliche Entwicklung des Auslaufens der Druckfarbe simulieren.As can be seen from FIG. 1, the thermal development equation can be used to simulate the temporal development of the runout of the printing ink.

A zeigt das Auslaufmodell bei einer Zeit t < 0
B zeigt das Original
und
in C und D ist das Ergebnis der Reduktion bei
t = -1 ZE (= Zeiteinheit) und t = -2 ZE dar­ gestellt.
A shows the phase-out model at a time t <0
B shows the original
and
in C and D is the result of the reduction at
t = -1 ZE (= time unit) and t = -2 ZE are shown.

Durch die zeitliche Rückentwicklung sind Verklebungen ganz oder zumindest teilweise gelöst.Due to the backward development in time there are bonds solved completely or at least partially.

Allerdings können Verklebungen, wie zu ersehen ist, nur dann vollständig gelöst werden, wenn gleichzeitig deutliche Veränderungen an den Buchstaben in Kauf genommen werden.However, as can be seen, gluing can only then be completely solved if at the same time significant changes to the letters in purchase be taken.

Eine weitere Erhöhung der Erkennungsrate durch Auflösung von Verklebungen, welche neben dem Auslaufen der Druckfarbe auch durch die Kontrasteinstellung und Interpolation durch den Scanner bedingt sein können, erfolgt durch die Erkennung und Bearbeitung von sogenannten Kratern.A further increase in the detection rate by Dissolution of bonds, which are next to the leak the ink also through the contrast setting and Interpolation can be caused by the scanner, is done by recognizing and editing so-called craters.

Betrachtet man die Verklebungen genauer, so ist zu sehen, daß sie nicht gleichmäßig vorliegen, sondern verstärkt an spitzwinkligen Zeichenkonturen wie z. B. bei den Buchstaben "N" und "W" gemäß Fig. 3 und zwischen dicht benachbarten Schriftelementen innerhalb eines oder verschiedener Buchstaben wie z. B. beim "i" in Fig. 2 oder beim "H", "N", "90" und "-N" in Fig. 3.If you take a closer look at the bonds, you can see that they are not present evenly, but increasingly on acute-angled contours of characters such. B. at the letters "N" and "W" according to FIG. 3 and between closely adjacent written elements within one or different letters such as. B. at "i" in Fig. 2 or at "H", "N", "90" and "-N" in Fig. 3rd

Es fällt jedoch auf, daß fast immer eine trichterförmige Vertiefung bestehen bleibt. Dies wird als Krater bezeichnet. Zur Beseitigung der beispielsweise aus dem Verlaufen der Druckfarbe resultierenden Fehler muß man diese zurückverfolgen. Es ist zu beachten, daß an einigen Stellen Verklebungsdicken durchtrennt werden müssen, die sogar die Schriftdicke überschreiten, d. h. nimmt man ein Abschmelzen von der Kontur aus vor, so muß an manchen Stellen bis zur doppelten Schriftdicke tief und an anderen Stellen der Kontur nicht abgeschmolzen werden. Es ist also ein Vorgehen nötig, das starke und genau lokalisierte Eingriffe vornehmen kann. However, it is striking that almost always one funnel-shaped depression remains. this will referred to as a crater. To eliminate the for example from the bleeding of the printing ink resulting errors must be traced back. It it should be noted that in some places Bonding thicknesses that have to be cut even exceed the font thickness, d. H. one takes one Melting off from the contour before, some must Make deep and on up to twice the font thickness other parts of the contour are not melted. So a procedure is necessary that is strong and precise can make localized interventions.  

Da die Krater sich stark in Form und Größe unterscheiden, ist eine variable Repräsentation der Krater notwendig. Dies kann erfolgen durch:Because the crater is strong in shape and size distinguish is a variable representation of the Crater necessary. This can be done by:

  • - Referenzpixel, Pixel des Kraters zur Lokalisierung des Kraters im Gesamtbild- Reference pixel, pixel of the crater for localization of the crater in the big picture
  • - Höhe, senkrechte Ausdehnung vom Kraterboden bis zum oberen Kraterrand in Pixel- Height, vertical extension from the crater floor to upper edge of the crater in pixels
  • - Abstände, für jede Höhe des Kraters der horizontale Abstand des linken und rechten Kraterrandes vom Referenzpixel- Distances, horizontal for each crater height Distance of the left and right rim of the crater from Reference pixel
  • - Konturinformationen, beispielsweise welches die steilere Seite des Kraters ist- Contour information, for example which the steeper side of the crater

Vom Referenzpixel ausgehend wird untersucht, ob sich dort ein Kraterboden befindet (geschlossener Boden und links und rechts eine Wand), dann wird Höhe für Höhe untersucht, ob links und rechts - im Rahmen von gesetzten Parametern - eine Kraterwand vorhanden ist.Starting from the reference pixel, it is examined whether there is a crater floor (closed floor and left and right a wall), then height by height examines whether left and right - within the framework of set parameters - there is a crater wall.

Ist keine Kraterwand vorhanden oder eine maximal zu untersuchende Höhe erreicht, wird abgebrochen. Die Repräsentation eines Kraters wird gespeichert.If there is no crater wall or a maximum of investigating height is reached, is canceled. The Representation of a crater is saved.

Vergleicht man die Krater untereinander, so erkennt man, daß je spitzer der Winkel der Kraterwände ist, um so tiefer am Kraterboden eingeschmolzen werden muß, um den Ausgangszustand herzustellen. Der Extremfall tritt bei eng parallel verlaufenden Schriftelementen, wie in der Zeichenfolge "HN", zwischen den Buchstaben, wie in Fig. 3 zu ersehen ist, auf.If you compare the craters with each other, you can see that the more acute the angle of the crater walls is, the deeper the bottom of the crater must be melted in order to restore the initial state. The extreme case occurs with closely parallel writing elements, as in the character string "HN", between the letters, as can be seen in FIG. 3.

Dementsprechend wird in Abhängigkeit der aufgenommenen Repräsentation der Krater (z. B. der Höhe) und einem der jeweiligen Schrift anzupassenden Parametersatz der Kraterboden eingeschmolzen. Anschließend werden die Wände des Kraters ausgeschmolzen. Beim Ein- wie auch Ausschmelzen findet die Kontur des Kraters Reachtung, indem beispielsweise an der steileren Kraterwandseite anders verfahren wird als an der gegenüberliegenden Seite. Die Schmelzprozesse werden durch folgende Gleichungen simuliert:Accordingly, depending on the recorded Representation of the crater (e.g. height) and one of the parameter set to be adapted to the respective font Melted crater floor. Then the The walls of the crater melted out. When entering as well  Melting takes into account the contour of the crater, for example on the steeper crater wall side the procedure is different from that of the opposite one Page. The melting processes are as follows Simulated equations:

Kraterbedingung: |f*DaϕK| < T,
Schmelzprozeß: f neu = (f-fχ U(K))+TxϕK′, mit ϕK′=A(K, fχ W(K)) (DaϕK).
Crater condition: | f * D a ϕ K | <T,
Melting process: f new = (ff χ U (K) ) + T x ϕ K ′ , with ϕ K ′ = A (K, f χ W (K) ) (D a ϕ K ).

Dabei bezeichnet f das Schriftbild, Da den Operator, der den Krater um den Faktor a vergrößert (a<1) beziehungsweise verkleinert (a<1) und ϕK die Kratermodellfunktion.Here, f denotes the typeface, D a the operator who enlarges the crater by a factor (a <1) or reduces it (a <1) and ϕ K the crater model function.

Die Kraterbedingung ist erfüllt, falls in der Schriftbildfunktion f ein Krater der Größe a und der Form ϕK gefunden wird (Pattern-matching). Die Bedingung ist bereits erfüllt, wenn die Kraterübereinstimmung größer als T ist.The crater condition is met if a crater of size a and shape ϕ K is found in the typeface function f (pattern matching). The condition is already met if the crater match is greater than T.

Das neue Schriftbild fneu entsteht dadurch, daß der gefundene Krater im Schriftbild durch den angepaßten Krater K′ ersetzt wird. Dabei ist der Anpassungsoperator a von dem Krater und der Umgebung U(K) im Schriftbild abhängig.The new typeface f new arises from the fact that the found crater in the typeface is replaced by the adapted crater K '. The adaptation operator a depends on the crater and the surroundings U (K) in the typeface.

Da die meisten handelsüblichen OCR-Programme keine Möglichkeit der Rückkopplung bieten, d. h. sie geben keine prozentuale Wahrscheinlichkeit an, mit der sie die einzelnen Zeichen erkannt haben, ist es im allgemeinen nicht möglich, nur an Zeichen mit unzureichender Erkennungswahrscheinlichkeit Änderungen vorzunehmen, die anderen Zeichen jedoch unverändert zu lassen. Bei jedem Verfahren müssen daher nicht nur die Anzahl der aufgrund der Bearbeitung nun richtig erkannten Zeichen betrachtet werden, sondern auch die Anzahl der Zeichen, die durch nie ganz auszuschließende Nebenwirkung nun falsch erkannt werden. Das Verhältnis aus diesen beiden Zahlen gibt Auskunft über die Gesamtverbesserung der Erkennungsrate.Because most commercial OCR programs don't Provide feedback; d. H. they give no percentage likelihood that they will have recognized individual characters, it is generally not possible, only on characters with insufficient Detection probability to make changes that  leave other characters unchanged. With everyone Therefore, not only the number of procedures characters recognized correctly due to the editing be considered, but also the number of characters, the side effect that can never be completely excluded are recognized incorrectly. The relationship between these two Figures provide information about the overall improvement of the Detection rate.

Claims (6)

1. Verfahren zur Segmentierung von Zeichen, wobei Papierdokumente durch Einscannen digitalisiert und nachfolgend gespeichert werden, dadurch gekennzeichnet, daß Verklebungen innerhalb von Zeichen und/oder zwischen benachbarten Zeichen ganz oder teilweise aufgelöst werden, indem
  • - dunkle Druckfarbenpixel mit einer hohen Temperatur und helle Papierpixel mit einer niedrigen Temperatur gleichgesetzt werden und
  • - die Ausbreitung der Wärmeverteilung als Kriterium für das Auslaufen der Druckfarbe rechentechnisch verarbeitet wird, wobei
  • - aus der vorhandenen Temperaturverteilung Rückschlüsse auf zuvor vorhandene Temperaturen gezogen werden und/oder
  • - Krater in Form von trichterförmigen Vertiefungen bei den Verklebungen innerhalb von Zeichen und/oder zwischen benachbarten Zeichen mit Methoden der Bildverarbeitung lokalisiert und gespeichert und nachfolgend
  • - die Konturen der Krater durch Abschmelzen verändert werden, indem der Boden der Krater und/oder die Wände der Krater erweitert werden.
1. A method for segmenting characters, wherein paper documents are digitized by scanning and subsequently saved, characterized in that adhesions within characters and / or between adjacent characters are completely or partially resolved by
  • - dark ink pixels with a high temperature and light paper pixels with a low temperature are equated and
  • - The spread of the heat distribution is processed as a criterion for the leakage of the printing ink, whereby
  • - conclusions about previously existing temperatures can be drawn from the existing temperature distribution and / or
  • - Craters in the form of funnel-shaped depressions in the gluing within characters and / or between adjacent characters using methods of image processing localized and stored and subsequently
  • - The contours of the craters are changed by melting, by expanding the bottom of the craters and / or the walls of the craters.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mittels der Wärmeleitungsgleichung ut= c Δuoder mittels geeigneter modifizierter Diffusions­ gleichung, bei denen Gewichtsfaktoren in Abhängig­ keit von der Größe der Gradienten z. B.ut= exp (-|∇u|²/2σ) Δueingefügt werden, wobei die Modifikation bewirkt, daß große Gradienten (= wesentliche Kanten) erhalten bleiben,
für t < 0 ein Auslaufen der Druckfarbe und
für t < 0 die Auflösung von Verklebungen simuliert
wird.
2. The method according to claim 1, characterized in that by means of the heat conduction equation u t = c Δu or by means of a suitable modified diffusion equation, in which weight factors as a function of the size of the gradients z. Bu t = exp (- | ∇u | ² / 2σ) Δue are inserted, the modification causing large gradients (= essential edges) to be retained,
for t <0 the ink runs out and
simulates the dissolution of bonds for t <0
becomes.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als Parameter der Krater jeweils ein Referenzpixel, die Höhe in Pixel als senkrechte Ausdehnung vom Kraterboden bis zum oberen Kraterrand und für jede Höhe jeweils der horizontale Abstand des linken und rechten Kraterrandes vom Referenzpixel erfaßt werden.3. The method according to claim 1, characterized, that as a parameter the crater in each case Reference pixel, the height in pixels as a vertical extension from the crater floor to the upper crater rim and the horizontal distance for each height of the left and right crater rim from Reference pixels are captured. 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß zusätzlich Konturinformationen erfaßt werden. 4. The method according to claim 3, characterized, that additional contour information is recorded.   5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Konturinformationen die Steilheit der Kraterwände charakterisieren.5. The method according to claim 4, characterized, that the contour information the steepness of the Characterize crater walls. 6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Abschmelzen der Krater durch Einschmelzen des Kraterbodens und/oder Ausschmelzen der Krater­ wände erfolgt, wobei die Schmelzprozesse durch fol­ gende Gleichungen simuliert werden: Kraterbedingung: |f*DaϕK|<T,
Schmelzprozeß: fneu = (f-fx U(K))+TxϕK′, mit ϕK′=A(K,fχ U(K)) (DaϕK),wobei
f das ursprüngliche Schriftbild,
fneu das neue Schriftbild,
Da der Operator,
ϕK die Kratermodellfunktion,
K der Krater,
K′ der angepaßte Krater und U(K) die Umgebung ist.
6. The method according to claim 1, characterized in that the melting of the craters takes place by melting the crater floor and / or melting the crater walls, the melting processes being simulated by the following equations: Crater condition: | f * D a ϕ K | <T ,
Melting process: f new = (ff x U (K) ) + T x ϕ K ′ , with ϕ K ′ = A (K, f χ U (K) ) (D a ϕ K ), whereby
f the original typeface,
f new the new typeface,
D a the operator,
ϕ K the crater model function,
K the crater,
K 'is the adapted crater and U (K) is the surrounding area.
DE19533585A 1995-09-01 1995-09-01 Character segmentation method Expired - Fee Related DE19533585C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19533585A DE19533585C1 (en) 1995-09-01 1995-09-01 Character segmentation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19533585A DE19533585C1 (en) 1995-09-01 1995-09-01 Character segmentation method

Publications (1)

Publication Number Publication Date
DE19533585C1 true DE19533585C1 (en) 1997-01-09

Family

ID=7771847

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19533585A Expired - Fee Related DE19533585C1 (en) 1995-09-01 1995-09-01 Character segmentation method

Country Status (1)

Country Link
DE (1) DE19533585C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19744743A1 (en) * 1997-10-10 1999-04-15 Daimler Chrysler Ag Automatic data collection and archiving of documents by scanning and OCR of paper originals

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IEEE Trans. on PAMI, Vol. 16, No. 7, July 1994, pp. 689-700 *
Proc. of the IEEE, Vol. 80, No. 7, July 1992, pp. 1079-1092 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19744743A1 (en) * 1997-10-10 1999-04-15 Daimler Chrysler Ag Automatic data collection and archiving of documents by scanning and OCR of paper originals

Similar Documents

Publication Publication Date Title
DE69724557T2 (en) document analysis
DE60129872T2 (en) Method for extracting titles from numerical images
DE4311172C2 (en) Method and device for identifying a skew angle of a document image
DE69723220T2 (en) Device and method for extracting table lines within normal document images
DE60303202T2 (en) SYSTEM AND METHOD FOR IDENTIFYING AND EXTRACTING CHARACTER CHARTS FROM RECORDED IMAGE DATA
DE69333694T2 (en) Method and arrangement for image processing
DE69724755T2 (en) Finding titles and photos in scanned document images
DE102017008430A1 (en) Methods and systems for generating virtual reality environments from electronic documents
DE102013210375A1 (en) FIND TEXT IN NATURAL SCENES
DE19956158A1 (en) Image binarisation method for scanned greytone images e.g. newspaper article, uses 2 different conversion methods for providing 2 binary images from scanned greytone image, combined to provide output binary image
DE3926327A1 (en) METHOD AND SYSTEM FOR RECOGNIZING CHARACTERS ON A MEDIUM
DE10197062T5 (en) Image extraction from complex scenes in digital videos
DE102007040070B4 (en) Image density conversion method, image enhancement processing device and program therefor
EP3029628A1 (en) Method for generating a training image
DE102008013789A1 (en) Apparatus, method and program for eliminating character disturbances
DE3312050A1 (en) METHOD FOR PRODUCING A PHOTOGRAPHIC MASK
EP1416441B1 (en) Method and apparatus for automatic image segmentation of a foreground-object
DE19533585C1 (en) Character segmentation method
DE102016101149A1 (en) A method for detecting smoke in an environmental area of a motor vehicle with the aid of a camera of the motor vehicle, driver assistance system and motor vehicle
EP3948649A1 (en) Masking of objects contained in an image
EP3767532A1 (en) Determination of distribution and / or sorting information for the automated distribution and / or sorting of a shipment
DE60008201T2 (en) Translation of data with electronic images
DE102018109680A1 (en) Method for distinguishing lane markings and curbs by parallel two-dimensional and three-dimensional evaluation; Control means; Driving assistance system; as well as computer program product
DE102018132627A1 (en) Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product
DE102020129164A1 (en) METHOD AND DEVICE FOR DISTINGUISHING DIFFERENT CONFIGURATION STATES OF AN OBJECT ON THE BASIS OF A PICTURED REPRESENTATION OF THE OBJECT

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: MAASS, PETER, PROF. DR., 14129 BERLIN, DE BOEHM, M

8381 Inventor (new situation)

Free format text: MAASS, PETER PROF. DR., 14129 BERLIN, DE

8339 Ceased/non-payment of the annual fee