DE10195927B4 - Verallgemeinerte Textlokalisation in Bildern - Google Patents

Verallgemeinerte Textlokalisation in Bildern Download PDF

Info

Publication number
DE10195927B4
DE10195927B4 DE10195927T DE10195927T DE10195927B4 DE 10195927 B4 DE10195927 B4 DE 10195927B4 DE 10195927 T DE10195927 T DE 10195927T DE 10195927 T DE10195927 T DE 10195927T DE 10195927 B4 DE10195927 B4 DE 10195927B4
Authority
DE
Germany
Prior art keywords
text
image
pixel
images
boxes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10195927T
Other languages
English (en)
Other versions
DE10195927T1 (de
Inventor
Rainer W. Santa Clara Lienhart
Axel San Jose Wernicke
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of DE10195927T1 publication Critical patent/DE10195927T1/de
Application granted granted Critical
Publication of DE10195927B4 publication Critical patent/DE10195927B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20008Globally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

Ein Verfahren zum Lokalisieren von Text in digitalen Bildern, umfassend:
Skalieren eines digitalen Bildes in Bilder mehrerer Auflösungen;
Klassifizieren, ob Pixel in den Bildern mehrerer Auflösungen Teil eines Textbereiches sind;
Zusammenfassen der klassifizierten Bilder mehrerer Auflösungen, um eine Salienzkarte zu erstellen;
Verwenden der Salienzkarte, um Ausgangs-Textbegrenzungsboxen zu erstellen, indem die Boxen ausgehend von mindestens ein Pixel enthaltenden Pixelrechtecken erweitert werden,
wobei Gruppen von mindestens einem an die Rechtecke angrenzenden Pixeln eingeschlossen werden, sofern die Gruppen eine bestimmte Beziehung zu einem ersten Schwellenwert aufweisen, und
Konsolidieren der Ausgangs-Textbegrenzungsboxen.

Description

  • Technisches Gebiet der Erfindung: Die vorliegende Erfindung betrifft allgemein die Lokalisierung und/oder Segmentierung von Text in Bildern.
  • Die bestehende Arbeit auf dem Gebiet der Texterkennung hat sich primär auf die optische Erkennung von Zeichen (als optische Zeichenerkennung (OCR) optical character recognition) bezeichnet, in gedruckten und handgeschriebenen Dokumenten konzentriert. Als Reaktion auf die große Nachfrage und den Markt für Dokumentenlesegeräte für Systeme zur Büro-Automatisierung. Diese Systeme sind bis zu einem hohen Grade ausgereift. Weitere Texterkennungsaufaben können in industriellen Anwendungen gefunden werden, von denen sich die meisten auf ein sehr enges Anwendungsgebiet konzentrieren. Ein Beispiel ist die automatische Erkennung von Fahrzeugkennzeichen.
  • Bezüglich des Auffindens von Text in und des Extrahierens von Text aus komplexen Bildern und Video wurden Vorschläge gemacht. Wie jedoch beim Lesen von deren Beschreibungen erkannt werden kann, sind sie jeweils in irgendeiner Hinsich nicht allgemein gehalten. Außerdem schließen einige ein Entfernen von lokalisiertem Text aus seinem Hintergrund nicht ein.
  • Ein Verfahren zum Auffinden von Text in Bildern ist n dem Artikel "Finding Text In Images" von Victor Wu et al., Proceedings of the second ACM international conference an Digital libraries, Philadelphia, Pennsylvania, US, ISBN-0-89791-868-1 offenbart.
  • Der Artikel "Automatic text detection and tracking in digital video" von Huiping Li et al., Image Processing, IEEE Transactions on, Vol. 9, Issue 1, Jan. 2000, S. 147-156 beschreibt ebenfalls ein Verfahren zur Texterkennung in digitalen Bildern.
  • Der Artikel "Video OCR for Digital News Archive" von Sato, T. et al., Content-Based Access of Image and Video Database, 1998 IEEE International Workshop, 3. Jan. 1998, Seiten 52-60 offenbart ebenfalls ein Verfahren zur Texterkennund in digitalen Bildern.
  • Aufgabe der Erfindung ist es, ein verbessertes Verfahren zur Textlokalisierung in digitalen Bildern bereitzustellen.
  • Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach Anspruch 1 gelöst.
  • Die Erfindung wird vollständiger anhand der folgenden ausführlichen Beschreibung und der beiliegenden Zeichnungen von Ausführungsformen der Erfindung deutlich, die jedoch nicht als Beschränkung der Erfindung auf diese bestimmten beschriebenen Ausführungsformen verstanden werden sollen, sondern nur der Erklärung und dem Verständnis dienen.
  • 1 zeigt ein Ablaufdiagramm, das verschiedene Funktionen darstellt, die in einigen Ausführungsformen der Erfindung ausgeführt werden.
  • 2 zeigt ein Ablaufdiagramm, das Bilder in verschiedenen Stufen der Lokalisierung bei einigen Ausführungsformen der Erfindung darstellt.
  • 3 veranschaulicht Beispiele von Ausgangs-Begrenzungsrahmen für ein Bild in einem Einzelbild, das Text und einen Hintergrund aufweist.
  • 4 veranschaulicht Beispiele der vertikalen und horizontalen Projektionsprofilierung.
  • 5 zeigt die auf einen Teil des Textes von 3 angewendete vertikale Segmentierung.
  • 6 zeigt die auf einen Teil des Textes aus 3 angewendete horizontale Segmentierung.
  • 7 zeigt ein Bild auf einer Website, das Text und einen Hintergrund enthält.
  • 8 zeigt zu einem Teil eine Blockdiagramm-Darstellung und zu einem Teil eine Flußdiagramm-Darstellung einer Farbabschätzung durch Quantisierung gemäß einigen Ausführungsformen der Erfindung.
  • 9 zeigt ein Ablaufschema, das die Beziehung zwischen Video-Überwachung und Textverfolgung gemäß einigen Ausführungsformen der Erfindung darstellt.
  • 10 zeigt eine Blockdarstellung eines Computersystems, das Funktionen gemäß einigen Ausführungsformen der Erfindung ausführen kann.
  • Detaillierte Beschreibung
  • 1. Einleitung
  • Verschiedene Ausführungsformen der vorliegenden Erfindung beinhalten Lokalisierung und/oder Segmentierung von Text in Bildern, wobei die Bilder unbewegt oder bewegt, wie z.B. in Videos oder auf Webseiten, sein können. Webseiten können Video- oder Nicht-Videobilder enthalten. Es ist nicht erforderlich, daß der Text in dem Bild eine bestimmte Position oder eine bestimmte Farbe hat. Außerdem kann der Hintergrund (auch als Nicht-Text bezeichnet) einen einfachen (z.B. einfarbigen) oder komplexen Hintergrund aufweisen.
  • Die effiziente Indizierung und Wiederauffindung von digitalem Video ist ein wesentlicher Aspekt von Multimedia-Datenbanken. Der Text in Videos ist ein leistungsfähiger, hochwertiger Index für die Wiederauffindung. Durch Auffinden, Extrahieren und Erkennen von Text kann ein solcher Index erstellt werden. Er ermöglicht es einem Benutzer komplexe Anfragen zu stellen, wie z.B. nach einer Liste aller Filme mit John Wayne oder aller Filme, die durch Steven Spielberg produziert wurden. Oder er kann verwendet werden, um zu einem Nachrichtenbeitrag über ein bestimmtes Thema zu springen, da die Untertitel in Nachrichtensendungen oft eine Zusammenfassung des zugrundeliegenden Nachrichtenbeitrages zur Verfügung stellen. Z.B. kann man nach dem Begriff "Finanznachrichten" suchen, um die Finanznachrichten des Tages zu erhalten. Der Index kann auch verwendet werden, um Sendezeit und -datum von Werbungen aufzuzeichnen, was denjenigen Personen hilft, die für ihre Kunden überprüfen, ob deren Werbungen in der abgesprochenen Zeit und auf dem abgesprochenen Fernsehkanal übertragen wurde. Viele andere nützliche hochentwickelte Anwendungen sind vorstellbar, wenn Text verläßlich und automatisch in digitalem Video erkannt werden kann. Segmentieren und Erkennen von Text in den Nicht-Textteilen von Webseiten ist ebenfalls eine wichtige Angelegenheit. Immer mehr Webseiten stellen Text in Bildern dar. Die bestehenden Algorithmen zur Textsegmentierung und Texterkennung können den Text nicht extrahieren. Daher können alle bestehenden Suchmaschinen den Inhalt von bilderreichen Webseiten nicht gut indizieren. Textsegmentierung und Texterkennung könnte ebenfalls bei der automatischen Konvertierung von Webseiten, die für große Monitore entwickelt wurden, auf kleine LCD-Anzeigen von Anwendungen helfen, da der Textinhalt in Bildern zurückgewonnen werden kann.
  • 2. Überblick
  • 1 zeigt ein Ablaufdiagramm, das nützlich ist, um einen Überblick bezüglich einiger Ausführungsformen der Erfindung zu geben. 1 enthält einen Textlokalisierungsblock 10 und einen Textsegmentierungsblock 14. Eine Bezugnahme in der Beschreibung auf "eine Ausführungsform", "einige Ausführungsformen" oder "andere Ausführungsformen" bedeutet, daß eine bestimmte Eigenschaft, Struktur oder Charakteristik, die in Verbindung mit den Ausführungsformen beschrieben wird, in mindestens einigen Ausführungsformen, jedoch nicht notwendigerweise in allen Ausführungsformen der Erfindung enthalten ist. Die verschiedenen Erwähnungen von "einer Ausführungsform" oder "einiger Ausführungsformen" beziehen sich notwendigerweise stets auf die gleichen Ausführungsformen.
  • 2.1. Textlokalisierung
  • Ein digitales Eingangssignal, (das üblicherweise ein Bild beinhaltet) wird durch den Merkmalextraktionsblock 20 des Textlokalisierungsblocks 10 empfangen. Bei einigen Ausführungsform wird jeder ASCII- oder ähnliche Text (z.B. HTML-Text) entfernt, bevor oder wenn das Eingangssignal durch den Merkmalsextraktionsblock 20 empfangen wird. Es ist zu beachten, daß eine Webseite eine Mehrzahl von Bildern enthalten kann, die jeweils als getrennte Bilder behandelt werden. Der Textlokalisierungsblock findet die Textstellen in Bildern und markiert diese durch enge Textbegrenzungsboxen. Bei einigen Ausführungsformen sollten diese Begrenzungsboxen jeweils nur eine Textzeile einer Textspalte umgrenzen. Wie jedoch unten beschrieben wird, ist eine Textspalte nicht auf ein einzelnes Zeichen beschränkt. Bei einigen Ausführungsformen umfaßt die Lokalisierung das folgende:
    • (1) Merkmalsextraktion (Block 20): Ein Merkmal wird aus dem Eingabebild extrahiert, was Merkmale erfaßt, die einzigartig für Text sind.
    • (2) Bereichs-Klassifikation (Block 22): Jedes Pixel in dem Bildmerkmal wird danach klassifiziert, ob es zu Text gehört oder nicht. Basierend auf dieser Information werden die Ausgangs-Textbegrenzungsboxen erstellt.
    • (3) Bereichskonsolidierung (Block 24): Die Textbegrenzungsboxen werden so verfeinert, daß jede nur eine Textzeile und -spalte enthält.
    • (4) Textverfolgung (Block 26): Wenn die Eingabe ein Video ist, wird dieser Block zu dem Ablauf hinzugefügt. Hier nutzen wir die zeitliche Redundanz des Video aus, um die Präzision der Textbegrenzungsboxen zu verbessern und um viele Falschmeldungen zu entfernen.
    • (5) Abschätzen des Texts und der dominanten Hintergrundfarbe (Block 28).
  • 2.2. Textsegmentierung: die Textsegmentierungsstufe (Block 14) entfernt den Hintergrund (Nicht-Text-Pixel) und erzeugt ein Ausgabesignal. Das Ausgabesignal auf Ausgang 44 ist eine Bildtext-Darstellung. Ein Beispiel für eine Bildtext-Darstellung ist eine Text-Bitmap. Die Text-Bitmap kann zum Beispiel einen schwarzen Text auf einem weißen Hintergrund enthalten, unabhängig von den Farben des ursprünglichen Textes und Hintergrundes. Die Bitmap kann von der Texterkennungssoftware verwendet werden, um den bestimmten Text zu identifizieren, der durch die Blöcke 10 und 14 lokalisiert und segmentiert wurde. Z.B. kann die Texterkennungssoftware eine Standard-OCR-Software sein, die schwarzen Text auf weißem Hintergrund erwartet, obwohl die Erfindung nicht auf die Erzeugung solch eines Ausgangssignals beschränkt ist.
  • Um die Segmentierung zu verbessern, wird jede Textbox auf eine Höhe von z.B. 100 Pixeln skaliert (Block 30). Als nächstes wird der Hintergrund entfernt (Blöcke 32 und 36). Die Suche nach Hintergrundpixeln beginnt am Rand der Textbegrenzungsbox. Im Falle von Video kann diesem die sub-pixel-genaue Ausrichtung der Bitmaps des gleichen Textes vorangehen (Block 34). Die verbleibenden Pixel können binär-gewandelt werden (Block 38). Wie erwähnt, können die resultierenden binären Bitmaps in eine Standard-OCR-Software eingegeben werden, um deren Inhalt z.B. in ASCII umzuschreiben.
  • Die Erfindung ist nicht auf die bestimmten Blöcke (10 und 14) von 1 beschränkt. In verschiedenen Ausführungsformen können Details dieser Blöcke (20 bis 38) abweichen und einige Blöcke können entfernt oder zusammengefügt werden oder eine andere Abfolge haben.
  • 3. Zusätzliche Überblicksinformation und Zusammenfassung
  • Einige Ausführungsformen des Textlokalisierungs- und Segmentierungssystems gehören zu einer Klasse von Top-Down Ansätzen. Potentielle Textzeilen werden im Falle von Video durch die Auswertung von dessen zeitlicher Redundanz (Abschnitt 5) verfeinert. Die Textsegmentierung kann, wie die Textlokalisierung auch, die zeitliche Redundanz von Video verwenden, um das Ergebnis der Segmentierung zu verbessern. Einige grundlegende Entscheidungen sind in einigen Ausführungsformen enthalten. Diese schließen ein:
    • (1) Nur horizontaler Text wird berücksichtigt, da dies für mehr als 99% aller künstlichen Textvorkommen zutrifft. Erfahrungen mit älteren Systemen, die jede Schreibrichtung berücksichtigen, legen nahe, daß die fehlenden 1% des Textvorkommens mit einer wesentlich höheren Rate von Falschmeldungen bezahlt würden. Solange es immer noch eine Herausforderung ist, mehr als 90% des Textes in Videos und Bildern korrekt zu segmentieren, kann nicht-horizontaler Text vernachlässigt werden.
    • (2) Nicht-Textbereiche sind wesentlich wahrscheinlicher als Textbereiche. Daher haben wir uns entschieden, den Rohtext-Detektor so kritisch wie möglich zu trainieren (trainiert für eine bestimmte Textgröße bei einer bestimmten Position). Die Unabhängigkeit von Skalierung und Position kann durch die Anwendung unseres Textdetektors auf alle Positionen bei allen Skalierungen erreicht werden.
  • Eine weitere Entscheidung ist die, daß das Auftragen von Text nur dann eine Rolle spielt, wenn dieser aus mehr als zwei Buchstaben oder Ziffern besteht.
  • Die Erfindung ist jedoch nicht auf die oben erwähnten bestimmten Details beschränkt. Es ist möglich, daß bei bestimmten Anwendungen bekannt ist, daß vertikaler Text verwendet wird; in diesem Falle kann die Erfindung angepaßt werden. Wenn außerdem weitere Informationen über das Bild bekannt sind, kann die bestimmte Ausführungsform der Erfindung modifiziert werden, um diese Kenntnis auszunutzen.
  • 4. Textlokalisierung
  • Es wird auf 2 Bezug genommen. Ein Bild 50 wird in eine Mehrzahl von Bildern verschiedener Größe 52, 54, 56, 58 und 60 skaliert (maßstbälich verkleinert und/oder vergrößert). Die Bilder können Standbilder oder Einzelbilder in einem Video sein. Obwohl fünf Bilder gezeigt sind, kann die Anzahl der Bilder größer oder kleiner als fünf sein. Die Kantenorientierung der Pixel in den Bildern wird bestimmt, um die Bildmerkmale 62, 64, 66, 68 und 70 (siehe Abschnitt 4.1) zu erzeugen. Ein Textadapter mit fester Skalierung wird angewendet, um die Pixel in den Kantenorientierungsbildern zu klassifizieren und um die Bilder 72, 74, 76, 78 und 80 (siehe Abschnitt 4.2) zu erzeugen. Die Bilder 72 bis 80 werden in eine Salienzkarte (Salienzkarte) 84 integriert, die einem Bild zugeordnet ist (siehe Abschnitt 4.3). Die Ausgangs-Textbegrenzungsboxen werden aus der Salienzkarte 84 erzeugt (siehe Abschnitt 4.4.1). Die Textbegrenzungsboxen und ein zugeordnetes Bild, welches gleich oder ähnlich zu dem Bild 50 ist, werden durch Block 86 dargestellt. Die Textbegrenzungsboxen von Block 86 werden überarbeitet (z.B. konsolidiert) (siehe Abschnitt 4.4.2), um überarbeitete Textbegrenzungsboxen zu erzeugen, wie durch Block 88 dargestellt, der ebenfalls das zu Block 86 zugeordnete Bild darstellt. Es ist zu beachten, daß die Textbegrenzungsboxen nicht Teil des Bildes sind, sondern dem Bild zugeordnet sind.
  • 4.1. Bildmerkmale
  • Das Auftreten künstlichen Texts wurde in der Forschungsgemeinschaft im allgemeinen als Bereiche hoher Kontraste und hoher Frequenzen beschrieben. Es gibt viele verschiedene Wege diese Merkmale zu verstärken. Ein Weg ist die Verwendung des Gradientbildes des RGB-(rot, grün, blau)Eingabebildes I(x, y) = (Ir(x, y), Ig(x, y), Ib(x, y)), um das komplexwertige Kantenorientierungsbild E zu berechnen. E ist wie folgt definiert: Ac(r, φ) sei die Winkelkoordinatendarstellung des kartesischen Ableitungsbildes ∇Ic(x, y) der Farbebene C. Dann ist E definiert als die kartesische Koordinatendarstellung von
    Figure 00090001
    Die Modulo-Funktion mit 180 Grad wird angewendet, um die Richtung in eine Orientierung zu konvertieren. E dient als unser Merkmal für die Textlokalisierung.
  • Ein anderer Weg ist die Verwendung der Richtungsableitung Dc x and Dc y des Bildbandes b, um die Richtungskantenstärke zu berechnen
    Figure 00090002
    wie auch dessen Gesamtkantenstärke
  • Figure 00090003
  • 4.2 Textdetektor mit fester Skalierung
  • Bei einigen Ausführungsformen wird ein Textdetektor mit fester Skalierung verwendet, um jedes Pixel in dem Kantenorientierungsbild E basierend auf dessen lokaler Nachbarschaft dahingehend zu klassifizieren, ob es Teil eines Textbereiches einer bestimmten Größe ist. Ist z.B. ein 20×10 Pixel großer Bereich in einem Kantenorientierungsbild E gegeben, so klassifiziert der Textdetektor mit fester Skalierung, ob der Bereich Text einer bestimmten Größe enthält. Es gibt viele verschiedene Verfahren, um einen Klassifizierer zu entwickeln. Beispiele beinhalten einen Bayes-Klassifizierer, einen gemischten Gauß-Klassifizierer und ein neuronales Vorwärtskopplungs-Netz (welches gute Verallgemeinerungsfähigkeiten aufweist. Für unsere Arbeit haben wir die Leistung eines Bayes-Klassifizierers unter Verwendung des Neymann-Pearson-Kriteriums mit der Leistung eines realwertigen und komplexwertigen neuronalen Vorwärtskopplungs-Netzes verglichen. Das komplexwertige neuronale Netz mit einer hyperbolischen Tangentenaktivierungsfunktion kann eine überragende Leistungsfähigkeit ermöglichen. In einigen Experimenten war bei einer vergleichbaren Trefferquote (90%) die Anzahl der falschen Treffer (0.07%) auf der Prüfmenge mehr als zweimal geringer als mit einem vergleichbaren realwertigen Netzwerk.
  • Netzwerkarchitektur. Verschiedene Netzwerkarchitekturen können verwendet werden. Bei einigen Ausführungsformen dienen 200 komplexwertige Neuronen, gespeist von einem 20×10-Kantenorientierungsbereich in E als Netzwerkeingabe. Die Größe des Aufnahmefeldes stellt einen guten Kompromiß zwischen der Leistungsfähigkeit und der rechnerischen Komplexität dar. Eine Eingabeschicht von 30×15 Neuronen erbrachte keine besseren Klassifizierungsergebnisse, war jedoch rechnerisch aufwändiger. Auf der anderen Seite führte die Verwendung einer Eingabeschicht mit weniger als zehn Reihen zu deutlich schlechteren Ergebnissen. Es ist zu beachten, daß die Anzahl der Zeilen des Aufnahmefeldes die Größe der detektierten Schriftfonts bestimmt, da alle Trainingstextmuster derart skaliert werden, daß die Schriftgröße gleich der Anzahl der Zeilen ist. Die Eingabeschicht ist wiederum mit einer verborgenen Schicht von zwei komplexwertigen Neuronen verbunden. Wiederum führt die Verwendung von mehr verborgenen Neuronen nicht zu einer Verbesserung der Leistungsfähigkeit, während die Verwendung von nur einem einzigen Neuron die Anzahl der Falschmeldungen um den Faktor drei erhöhte. Die verborgene Schicht wird zu einem realwertigen Ausgabeneuron vereinigt.
  • Netzwerktraining. Es gibt verschiedene Wege, um ein Netzwerktraining durchzuführen. Das folgende beschreibt einige Wege, jedoch ist die Erfindung nicht derart beschränkt. Die Trainings- und Prüftestmenge sollte so klein wie möglich und dennoch repräsentativ sein. Sie sollte alle üblichen Text-Muster und Nicht-Text-Muster enthalten. Theoretische Untersuchungen haben ergeben, daß neuronale Netzwerke am effektivsten sind, wenn das Verhältnis der Anzahl der Text- und Nicht-Text-Beispiele in der Trainingsmenge, dem Verhältnis der beiden Gruppen in der Anwendung entspricht. Eine Anzahl von Trainingsbeispielen, die diese Kriterien erfüllen, wird gewonnen. Während es einfach ist, Beispiele für verschiedene Arten von Text zu erhalten, kann es schwieriger sein, eine repräsentative Nicht-Text-Menge zu erhalten.
  • Eine Lösung für dieses Problem ist das sogenannte "Bootstrap"-Verfahren. Die Zusammensetzung einer Trainingsmenge kann die Leistungsfähigkeit eines Netzwerkes deutlich beeinflussen. Bei einigen Ausführungsformen wurde eine repräsentative Menge von 30180 Textmustern und 140436 Nicht-Textmustern gesammelt. Ursprünglich wurden 6000 Textmuster und 5000 Nicht-Text-Muster für das Training zufällig ausgewählt. Nur der Nicht-Text-Mustermenge war es erlaubt, um weitere 3000 Muster zu wachsen, die mit Hilfe des "Bootstrap"-Verfahrens gesammelt wurden. Dieses Verfahren beginnt mit einer anfänglichen Menge von Nicht-Text-Mustern, um das neuronale Netzwerk zu trainieren. Dann wird das trainierte Netzwerk durch die Verwendung einer Prüfmenge ausgewertet, die sich von der Trainingsmenge unterscheidet (hier: alle Muster abzüglich der Trainingsmenge). Einige der falsch klassifizierten Muster der Prüfmenge werden zufällig zu der Trainingsmenge hinzugefügt und ein neues, hoffentlich verbessertes neuronales Netzwerk wird mit dieser erweiterten und verbesserten Trainingsmenge trainiert. Das resultierende Netzwerk wird mit der Prüfmenge wieder ausgewertet und weiterhin falsch klassifizierte Nicht-Text-Muster werden der Trainingsmenge hinzugefügt. Dieser Zyklus des Trainierens und Hinzufügens von neuen Mustern wird wiederholt, bis die Anzahl der falsch klassifizierten Muster in der Prüfmenge sich nicht mehr verringert oder – wie in unserem Fall – 3000 Nicht-Text-Muster und (nur-Nicht-Text-Muster)- hinzugefügt wurden. Dieser iterative Trainingsprozeß garantiert eine diversifizierte Trainingsmustermenge.
  • Mit einem gut trainierten neuronalen Netz gleitet ein 20×10-Pixelfenster über das Kantenorientierungsbild E und wird bei jeder Position ausgewertet. Die Antwort des Netzwerkes wird in einem sogenannten Antwortbild gespeichert, indem der zugeordnete 20×10-Bereich in dem Antwortbild mit dem Ausgabewert des Netzwerkes dann, und nur dann gefüllt wird, wenn es thnetz = 0 übersteigt (zwischen –1 und 1). Da eine Schrittgröße von Eins für große Bilder oder hochaufgelöste Fernsehvideosequenzen (HDTV) rechnerisch untragbar sein kann, verwenden wir einen Schrittfaktor von 3 bzw. 2 in der X- bzw. Y-Richtung. Es kann sein, daß die Unterstichprobenentnahme keine Verringerung der Genauigkeit mit sich bringt, jedoch eine sechsfache Beschleunigung.
  • Bei anderen Ausführungsformen unter Verwendung eines realwertigen Netzes prüft eine logistische Aktivierungsfunktion bei jeder Fensterposition, ob die Ausgabe des neuronalen Netzwerkes thNetz = 0.85 (zwischen 0 und 1,0) übersteigt. Wenn dem so ist, kann eine Box von 20×10, die mit dem Ausgabewert des neuronalen Netzwerkes gefüllt ist, zu der entsprechenden Position im Antwortbild hinzugefügt werden.
  • 4.3. Integration der Skalierung
  • Bei einigen Ausführungsformen werden die Ergebnisse der groben Textauffindung mit fester Skalierung bei allen Skalierungen (Bilder 72-80) in eine Salienzkarte des Textes integriert, um die Ausgangs-Textbegrenzungsboxen wiederherzustellen (siehe 2, Block 82). In vielen Situationen identifizieren sich Textpositionen bei einer Mehrzahl von Skalierungen als korrekte Treffer, während Falschmeldungen bei einer Mehrzahl von Skalierungen schlechter übereinstimmen. Eine Salienzkarte kann erzeugt werden, indem eine Verläßlichkeit, Text zu sein, zurück auf die Originalskalierung des Bildes projiziert wird. (Ein Beispiel der Verläßlichkeit, Text zu sein, ist ein Aktivierungsniveau der Ausgabe des neuronalen Netzes). Die Salienzkarte kann mit Null initialisiert werden. Dann wird für jede gefundene Begrenzungsbox bei jeder Skalierung deren Verläßlichkeitswert, Text zu sein, zu der Salienzkarte über der Größe der Begrenzungsbox bei der Originalbildgröße hinzugefügt. In der Nähe eines bestimmten Bereichs kann es bei einer gegebenen Skalierung mehr als eine Begrenzungsbox geben. Bei einigen Ausführungsformen kann die Salienzkarte die Gesamtzahl aller Begrenzungsboxen von allen Bildskalierungen in der Nähe eines bestimmten Bereiches wiedergeben.
  • 4.4. Extraktion der Textbegrenzungsboxen
  • 4.4.1. Ausgangs-Textbegrenzungsboxen
  • Es gibt verschiedene Wege, um Textbegrenzungsboxen zu erzeugen. Im folgenden werden Verfahren für einige Ausführungsformen beschrieben, jedoch ist die Erfindung nicht auf diese Details beschränkt. Um einen anfänglichen Ausgangs-Satz von Textbegrenzungsboxen um stark herausragende Bereiche herum zu erstellen, beginnt der Algorithmus nach dem nächsten, noch nicht verarbeiteten Pixel in der Salienzkarte zu suchen, der einen Wert aufweist, der größer ist als ein vordefinierter Schwellenwert thkern. Die Wahl des Schwellenwertes wird durch das Ziel bestimmt, die Erstellung von Textboxen für Nicht-Text-Bereiche zu vermeiden. Nicht-Text-Bereiche sollten weniger ausgeprägt sein. Bei unserem Klassifizierer funktionierte ein Wert von thkern = 5,0 gut, jedoch kann es notwendig sein, diesen anzupassen (z.B. wenn ein neues neuronales Netzwerk trainiert wird). Ein anderer Wert als 5,0 kann verwendet werden. Wenn einmal ein Pixel, Kernpixel genannt, in der Salienzkarte gefunden wird, das einen Wert P(x, y) > thkern aufweist, wird dieses als ein Samen für eine neue Textbegrenzungsbox der Höhe und Breite 1 verwendet. Diese neue Textbox wird dann iterativ erweitert. Der folgende Pseudocode (als Pseudocode-Beispiel 1 bezeichnet) gibt ein Beispiel des anfänglichen Textbox-Erzeugungsalgorithmus.
  • Anfänglicher Textbox-Erzeugungsalgorithmus (Pseudocode-Beispiel 1):
    Figure 00140001
  • Die durchschnittliche Intensität der Pixel der angrenzenden Zeile über der gesamten Breite der Box in dem gesamten Kantenstärkebild wird als Kriterium für die Erweiterung in dieser Richtung genommen. Wenn die durchschnittliche Intensität größer als thBereich = 4,5 ist, wird die Zeile zu der Box hinzugefügt. Dieser Wert wird ein wenig kleiner als thKern gewählt, um nicht eine Textbox zu erhalten, die nur den Kern eines Textbereiches enthält, sondern eine Textbox, die alle Teile des Textes umfaßt. Als nächstes wird das gleiche Kriterium verwendet, um die Box nach links, unten und rechts zu erweitern. Die iterative Erweiterung der Box setzt sich fort, solange die Begrenzungsbox weiter wächst (siehe Pseudocode-Beispiel 1).
  • 3 zeigt Datum und Zeit in einem Bild in einem Videoeinzelbild 110 und Beispiele von Ausgangs-Begrenzungsboxen, obwohl die Erfindung nicht auf diese bestimmten Beispiele beschränkt ist. Der Hintergrund des Einzelbildes 110 könnte eine einzige Farbe sein (wie z.B. weiß, wie in der Darstellung) oder ein komplexerer Hintergrund mit verschiedenen Farben in verschiedenen Formen. Die Textbegrenzungsboxen sind als gestrichelte Linien dargestellt. Es könnte sich zusätzlicher Text im Bild 110 befinden.
  • 4.4.2 Überarbeitete Textbegrenzungsboxen
  • Die Asugangs-Textbegrenzungsboxen umrahmen den Text in dem Bild oft nicht optimal: In der Praxis enthalten einige Boxen keinen Text (Falschmeldungen); andere umrahmen mehr als eine Zeile und/oder Spalte des Textes und bei vielen macht der Hintergrund einen großen Teil der Pixel aus. Glücklicherweise können diese Unzulänglichkeiten durch eine iterative Nachbearbeitungsprozedur überwunden werden, welche die Informationen verwendet, die in den sogenannten Projektionsprofilen enthalten sind.
  • Ein Projektionsprofil eines Bildbereichs ist eine kompakte Darstellung der räumlichen Verteilung des Pixelinhalts und wurde erfolgreich bei der Dokumenttext Segmentierung angewendet. Während Histogramme nur die Frequenzverteilung einiger Bildmerkmale, wie z.B. der Pixelintensität, erfassen (jede räumliche Information geht verloren), bewahren die Intensitätsprojektionsprofile die grobe räumliche Verteilung auf Kosten einer noch stärkeren Zusammenfassung der Pixelinhalte. Ein horizontales/vertikales Projektionsprofil kann als der Vektor der Summen der Pixelintensitäten über jeder Spalte/Zeile definiert werden.
  • 4 zeigt ein Beispiel, bei dem die vertikalen und horizontalen Projektionsprofile als Balkendiagramme entlang der X- und Y-Achsen des Bildmerkmals dargestellt sind. Die oberen Begrenzungen der Textzeilen werden durch einen steilen Anstieg in dem vertikalen Projektionsprofil markiert, während die unteren Begrenzungen durch einen starken Abfall markiert sind. In ähnlicher Weise sind die rechten und linken Begrenzungen der Textobjekte durch steile Anstiege und Abfälle in dem horizontalen Projektionsprofil gekennzeichnet. Diese steilen Anstiege und Abfälle können als Positionen identifiziert werden, an denen der Profilgraph eine adaptiv eingestellte Schwellenwertlinie schneidet. Übergänge von unten nach oben sind durch eine lange Linie angekündigt und Übergänge von oben nach unten sind durch eine kurze Linie angekündigt (wie in 4 markiert).
  • Der Begriff "Textobjekt" wird folgendermaßen verwendet. Im Falle eines einzelnen Bildes ist ein Textobjekt eine Textbegrenzungsbox (einschließlich einem, die den Überarbeitungsprozeß durchlaufen hat. In dem Falle von Video, enthält ein Textobjekt eine Mehrzahl von Textbegrenzungsboxen (einschließlich derer, die den Überarbeitungsprozeß durchlaufen haben) von zeitlich verschiedenen Einzelbildern. Mit anderen Worten, im Falle von Video enthält das Textobjekt verschiedene Instanzen des gleichen Textes von verschiedenen Einzelbildern (Bildern).
  • Ein Beispiel eines vertikalen Segmentierungsalgorithmus ist in Pseudocodeform im Pseudocode-Beispiel 2 gegeben. Ein Beispiel eines horizontalen Segmentierungsalgorithmus ist in Pseudocodeform im Pseudocode-Beispiel 3 gegeben. Jedoch ist die Erfindung nicht auf die besonderen Details beschränkt, die in den Pseucodebeispielen 3 und 4 gezeigt sind. Es gibt andere Wege, Ausführungsformen der Erfindung zu implementieren. Es ist zu beachten, daß der Begriff "Segmentierung" in diesem Abschnitt in Verbindung mit der Überarbeitung der Ausgangs-Begrenzungsboxen verwendet wird und in Abschnitt 6 unter Bezug auf die Entfernung von Text aus dem Hintergrund verwendet wird.
  • Vertikaler Segmentierungsalgorithmus (Pseudocode-Beispiel 2):
    Figure 00160001
  • Figure 00170001
  • Horizontaler Segmentierungs Algorithmus (Pseudocode-Beispiel 3):
    Figure 00170002
  • Figure 00180001
  • Unter Bezug auf Pseudocode-Beispiel 2 arbeitet der vertikale Segmentierungsalgorithmus, der auf jede Textbox angewendet wird, in einigen Ausführungsformen wie folgt, obwohl die Erfindung nicht auf diese Details beschränkt ist. Die Box wird an der Oberseite und Unterseite erweitert (Zeile (1) und (2) im Pseudocode-Beispiel 2). Die Erweiterung ist deswegen wünschenswert, weil die korrekte Begrenzung außerhalb der gegenwärtigen Box liegen kann und daher die Asugangs-Begrenzungen versehentlich einen Teil des Textes abschneiden können. Um diese Begrenzungen korrekt wiederherzustellen, sollten einige Zeilen außerhalb der ursprünglichen Box in die Betrachtung einbezogen werden. Wir setzen die oberen und unteren Erweiterungen auf das Minimum der Hälfte der Höhe der ursprünglichen Textbox und der Hälfte der maximal möglichen Texthöhe. Während die Hälfte der Höhe der ursprünglichen Textbox eine gute Worst-Case-Abschätzung für die Unzulänglichkeit der anfänglichen vertikalen Begrenzung erscheint, wird die Beschränkung auf die Hälfte der maximal möglichen Texthöhe verwendet, weil die ursprüngliche Textbox mehr als eine Zeile des Textes enthalten könnte und daher die Hälfte der Höhe der Textbox größer als die maximal mögliche Texthöhe sein könnte.
  • Als nächstes wird das vertikale Projektionsprofil über die erweiterte Box des Bildmerkmals |E| berechnet, wie auch der Maximalwert und Minimalwert maxprofil und minprofil im Profil. Um zu bestimmen, ob ein einzelner Wert in dem Projektionsprofil zu einer Textzeile gehört, kann ein Schwellenwert schwelltext über schwelltext = minprofil + (maxprofil minprofil) × 0,175 berechnet werden. (Man beachte Zeile (4) im Pseudocode-Beispiel 2). Der Faktor 0,175 wurde empirisch gewählt und kann in anderen Ausführungsformen abweichen. Jede Zeile, die einen vertikalen Profilwert größer als schwelltext aufweist, wird als textenthaltend klassifiziert.
  • In den Zeilen (6) bis (8) des Pseudocode-Beispiels 3 beginnt der Algorithmus den ersten Übergang von oben nach unten zu suchen, wobei er von der Oberseite startet. Diese Zeile wird als potentielle obere Begrenzung der Textbox (Zeile 9) markiert. Dann wird der nächste Übergang von oben nach unten in dem Projektionsprofil gesucht (Zeile 13). Wenn dieser gefunden wird, wird eine neue Box mit dem aktuellen oberen und unteren Begrenzungen erstellt. Die Suche nach einem neuen Paar von Übergängen von oben nach unten und unten nach oben setzt sich fort, bis alle Elemente in dem Projektionsprofil bearbeitet wurden. Schließlich kann die ursprüngliche Textbox gelöscht werden. Die Textbox wird nun in deren Textzeilen geteilt. Siehe 5, in der die vertikale Segmentierung gezeigt wird, die auf einen Teil der Box aus 3 angewendet wird. Es ist zu beachten, daß die in 5 dargestellten Begrenzungsboxen weiter überarbeitet werden sollten. Der horizontale Segmentierungsalgorithmus (Pseudocode-Beispiel 3) wird in Analogie dazu angewendet, um sicherzustellen, daß Text innnerhalb einer Zeile, der nicht zusammengehört, getrennt wird. In einigen Ausführungsformen können jedoch zwei Unterschiede zwischen den Pseudocode-Beispielen 2 und 3 bestehen:
    • (1) ein Faktor von 0,25 wird statt 0,175 bei der Berechnung von schwelltext verwendet. Dieser Wert hat sich experimentell als geeigneter für die horizontale Segmentierung erwiesen.
    • (2) Ein Abstandsparameter wurde hinzugefügt. Im Gegensatz zu der vertikalen Segmentierung sollen Worte in der "gleichen" Spalte nicht wegen kleiner Abstände zwischen den einzelnen Wörtern getrennt werden. Daher wird der Abstandsparameter benötigt, um diese kleinen horizontalen Profilwerte wenn notwendig zu überbrücken. Wenn der Algorithmus bereits ein Paar von Übergängen von unten nach oben und oben nach unten gefunden hat und daher ein Paar potentieller linker und rechter Begrenzungen und wenn der Abstand zwischen den gefundenen Übergängen von oben nach unten und der aktuellen Spalte groß genug ist, wird der gefundene Übergang von unten nach oben in der aktuellen Spalte als linke Begrenzung eines neuen Textobjekts interpretiert, und eine neue Box wird aus dem vorher gefundenen Paar von Übergängen erzeugt. Die aktuelle Spalte wird als neue potentielle linke Begrenzung markiert. Wenn der Abstand nicht groß genug ist, interpretiert der Algorithmus das Tal in dem Profil als zu klein und ignoriert es entsprechend (löscht die bis dahin gefundene potentielle linke Begrenzung). Der Algorithmus fährt mit dem nächsten Wert in dem Profil fort. Die Erfindung ist nicht auf diese Details beschränkt.
  • 6 zeigt ein Beispiel des Ergebnis des horizontalen Segmentierungsalgorithmus. Es ist zu beachten, daß die Begrenzungsboxen bei komplexeren Layouts weiter bearbeitet werden sollten.
  • 7 zeigt den Text "DOW JONES Commodities trading is risking and is not for everyone" in einem Bild 120, das einen Hintergrund 124 enthält. Das Bild 120 befindet sich auf einer Webseite 126. Der Hintergrund 124 kann einfarbig oder ein komplexer Hintergrund sein (z.B. mit vielen Farben in verschiedenen Formen). Der vertikale Segmentierungsalgorithmus kann anfänglich die verschiedenen Textzeilen von "Commodities trading involves risk and is not for everyone" trennen. Der Grund dafür leuchtet ein, wenn man sich verdeutlicht, wie das vertikale Projektionsprofil für die betreffende Textbox aussieht. Die Textbox in der linken Spalte kann das vertikale Profil des kleineren Textes auf der rechten Seite überdecken, welches daher nicht in zwei Textzeilen getrennt werden konnte. Andererseits ist der Abstand zwischen diesen beiden Textspalten groß genug, um sie nach der Anwendung des horizontalen Segmentierungsalgorithmus zu trennen. Im Experiment stellt es sich heraus, daß fast jedes Layout in seine Textzeilen und Spalten getrennt werden kann, wenn einige Zyklen (oder Durchläufer) von vertikalen und horizontalen Segmentierungen auf diese Textboxen angewendet werden.
  • Da die Texthöhe in Bildern und in Videoeinzelbildern begrenzt ist, werden bei einigen Ausführungsformen Boxen mit Höhe < mintexthöhe = 8ptoder Höhe > maxtexthöhe = Bildhöhe/2als Nicht-Text-Bereich klassifiziert und daher verantworten. Da die horizontale Segmentierung außerdem sicherstellt, daß die Textboxen Textobjekte wie Wörter oder Textzeilen enthalten, sollte die Höhe der korrekt segmentierten Textboxen kleiner als ihre Breite sein. Dementsprechend können Boxen mit Höhe > Breiteebenfalls verworfen werden. Schließlich können Textboxen, die die gleiche obere und untere Begrenzung haben und sich nahe genug sind um sich zu berühren oder zu überlappen, zu einer Textbox zusammengefaßt werden. Dies verringert die Komplexität und kann später eine zeitlich stabilere Textverfolgung ermöglichen.
  • 4.4.3. Abschätzen der Textfarbe und Hintergrundfarbe
  • Bei einigen Ausführungsformen werden Abschätzungen der Textfarbe und Hintergrundfarbe für jede Textbegrenzungsbox gemacht. Die Abschätzungen können verwendet werden, um zu bestimmen, ob eine Textbegrenzungsbox normalen Text (dunklen Text auf hellem Hintergrund) oder inversen Text (hellen Text auf dunklem Hintergrund) enthält. Bilder sind üblicherweise farbenreich. Auch ein scheinbar einfarbiger Bereich, wie ein Zeichen in einem Videoeinzelbild besteht aus Pixeln vieler verschiedener, aber ähnlicher Farben. Dementsprechend kann die Komplexität der Farbverteilung in jeder Textbegrenzungsbox durch die Quantisierung der Farben in z.B. die vier dominantesten Farben reduziert werden. Eine Vielzahl von Vektor-Quantisierern kann verwendet werden. In unserer Arbeit verwendeten wir einen schnellen Vektor-Quantisierer, welcher leicht verfügbar ist.
  • Ein Textfarben-Histogramm stellt ein Maß für die Anzahl der quantisierten Farben zur Verfügung, die in einer Textbegrenzungsbox enthalten sind. Das Maß kann von einer Probe des Textes stammen, z.B. den vier zentralen Zeilen der Textbegrenzungsbox. Die durch das Textfarben-Histogramm gemessenen Farben würden üblicherweise auch etwas Hintergrund enthalten, der sich zwischen die Buchstaben und in einige Buchstaben mischt (z.B. "O"). Natürlich können andere Bereiche des Textes als die vier zentralen Zeilen für das Textfarben-Histogramm verwendet werden.
  • Ein Hintergrundfarben-Histogramm kann ein Maß für die Anzahl der quantisierten Farben zur Verfügung stellen, die in einem Teil des Hintergrundes enthalten sind. Z.B. können die Teile zwei Zeilen unmittelbar über und unter dem Textrahmen sein (insgesamt vier Zeilen). Es ist zu beachten, daß das Hintergrundfarben-Histogramm Komponenten von zwei Hintergrundfarben-Histogrammen enthalten kann (z.B. einen von über und den anderen von unter dem Text). Alternativ kann es nur ein Hintergrundfarben-Histogramm von über dem Text oder ein Farb-Histogramm von unter dem Text geben.
  • Bei einigen Ausführungsformen wird ein Differenzhistogramm zwischen dem Text und dem Hintergrund-Histogramm berechnet. Die maximale Farbe des Differenz-Histogramms entspricht sehr wahrscheinlich der Textfarbe und die minimale Farbe des Differenz-Histogramms der dominierenden Hintergrundfarbe. Diese Verfahrensart hat sich experimentell als sehr verläßlich für gleichmäßig gefärbten Text erwiesen. Na türlich kann sie für vielfarbigen Text versagen, der selten vorkommt.
  • Basierend auf der abgeschätzten Textfarbe und der dominantesten Hintergrundfarbe schätzen wir ab, ob ein Textbegrenzungsrahmen wie oben beschrieben, normalen Text oder inversen Text enthält. Wenn der Grauwert der Textfarbe geringer ist als der dominante Hintergrund, nehmen wir normalen Text an, anderenfalls inversen Text.
  • 8 zeigt eine Blockdarstellung der Verwendung von Vektorquantisierung und der Verwendung von Farb-Histogrammen, um die Farbe abzuschätzen, in Übereinstimmung mit einigen Ausführungsformen der Erfindung. Andere Ausführungsformen weisen andere Details auf. In 8 stellt Block 130 eine begrenzte Textbox und umliegenden Hintergrund dar, bevor er vektorquantisiert (VQ) wird. Block 134 stellt das begrenzte vektorquantisierte Textsignal und Hintergrund dar. Nach der VQ enthält das Textsignal einschließlich des Hintergrundes nur vier Farben. Ein Textfarben-Histogramm CHT – wird z.B. aus einem Streifen (z.B. vier zentrale Zeilen) durch das Zentrum des Textes erstellt. Obere und untere Farb-Histogramme CHU und CHL werden von einem Streifen (z.B. zwei Zeilen) über dem Text bzw. von einem Streifen (z.B. zwei Zeilen) unter dem Text erstellt. In dem Beispiel sind vier Farben erlaubt. Daher stellen die Farb-Histogramme die Menge jeder der Farben C1, C2, C3 und C4 dar, die in den Streifen nach der VQ enthalten sind. Ein Differenzfarb-Histogramm CHD wird erstellt, wobei CHD = CHT – CHU – CHL. Wie oben vorgeschlagen, können die Farbhistogramme CHU und CHL summiert werden, bevor sie von CHT abgezogen werden.
  • Es ist zu beachten, daß die abgeschätzten Farben, wie unten in den Abschnitten 6.2.2 und 6.3 beschrieben, verwendet werden können. Jedoch können in Abschnitt 5 bis Abschnitt 6.2.1 und dem ersten Teil von Abschnitt 6.2.2 Bilder mit Graufarben (wie in dem Bild 88 in 2) verwendet werden.
  • 5. Ausnutzen der Informationsredundanz in Videos
  • Video unterscheidet sich von Standbildern und Nicht-Video-Webseiten durch zeitliche Redundanz. Üblicherweise erscheint jede Textzeile über mehrere aufeinanderfolgende Einzelbilder. Diese zeitliche Redundanz kann ausgenutzt werden, um:
    • (1) die Chancen zur Lokalisierung von Text zu vergrößern, da der gleiche Text von Einzelbild zu Einzelbild unter wechselnden Bedingungen erscheint,
    • (2) Text-Falschmeldungen in einzelnen Einzelbildern zu entfernen, da diese üblicherweise nicht über der Zeit stabil sind,
    • (3) die Positionen von "unbeabsichtigt" verpaßten Textzeilen in einzelnen Einzelbildern zu interpolieren, und
    • (4) die Segmentierung des Textes durch zeitliche Integration der Bitmaps zu verbessern.
  • Jedoch kann die Ausnutzung dieser Redundanz rechnerisch aufwendig sein und die Anwendung unseres Textlokalisierungsschemas aus Abschnitt 4 kann untragbar sein. Um dies zu verstehen, nehme man an, daß der bildbasierte Textlokalisierer etwa 5 Sekunden pro MPEG-1-Videoeinzelbild benötigt. Die Verarbeitung von einer Minute Video könnte sich so auf zweieinhalb Stunden summieren! MPEG bezieht sich auf Moving Picture Experts Group. Gegenwärtige und vorgeschlagene MPEG-Formate beinhalten MPEG-1 ("Codierung von bewegten Bildern und zugeordneten Audiodaten für die digitale Speicherung von Medien bei bis zu 1,5 Mbits/s", ISO/IEC JTC 1 CD IS-11172 (1992)), MPEG-2 ("Allgemeine Codierung von bewegten Bildern und zugeordnetem Audio", ISO/IEC JTC 1 CD 13818 (1994) und MPEG-4 ("Audio-Bildcodierung mit sehr niedriger Bitrate") Status: Aufruf zu Vorschlägen 11.94, Entwurfspapier in 11.96). Es gibt verschiedene Versionen von MPEG-1 und MPEG-2. Verschiedene andere Formate als MPEG können verwendet werden.
  • 5.1 Textobjekte
  • Für den Fall der Standbilder sind alle lokalisierten Textbegrenzungsboxen im allgemeinen unabhängig und ohne Beziehung zueinander. Um die Redundanz, die in Video enthalten ist, auszunutzen, können Textbegrenzungsboxen des gleichen Inhaltes basierend auf den visuellen Inhalten der Textbegrenzungsboxen in aufeinanderfolgenden Einzelbildern zu einem Textobjekt zusammengefaßt werden. Im Falle von Video beschreibt ein Textobjekt eine Textzeile über die Zeit durch die Darstellung als Bildtext (z.B. Bitmaps), die Größe und Position in den verschiedenen Einzelbildern, und auch seinen zeitlichen Bereich des Auftretens. Komplette Textobjekte werden aus Videos in einem zweistufigen Vorgang extrahiert, um die rechnerische Komplexität zu verringern. Das folgende beschreibt die Operation in einigen Ausführungsformen, obwohl die Erfindung nicht derart beschränkt ist. In einer ersten Stufe wird ein Videosignal bei einer groben Zeitauflösung überwacht (siehe 9). Z.B. wird der in Abschnitt 4 beschriebene bildbasierte Textlokalisierer nur auf jedes zwanzigste Einzelbild (z.B. Einzelbilder F80, F100, F120 usw. in 9) angewendet. Wird Text gefunden (z.B. in Einzelbild F120) wird die zweite Stufe der Textverfolgung betreten. In dieser Stufe werden die in der Überwachungsstufe gefundenen Textzeilen zeitlich rückwärts (z.B. Einzelbild F119) und vorwärts (z.B. Einzelbild F121) bis zu deren ersten (z.B. Einzelbild F115) und letzten Erscheinen (z.B. Einzelbild F134) durchsucht. Diese Stufe verwendet eine Kombination von signaturbasierter Suche von Textzeilen und bildbasierter Textlokalisierung. Eine signaturbasierte Suche ist weniger rechenintensiv als eine bildbasierte Textlokalisierung (Abschnitt 4). Eine signaturbasierte Suche kann den Vergleich von Kanten oder Bereichen des Textes mit Dingen in anderen Einzelbildern enthalten. Sie könnte einen Kantenkartenvergleich beinhalten. Horizontale Profile könnten verglichen werden.
  • 5.5.1 Videoüberwachung für Textvorkommen
  • In einigen Ausführungsformen wird Video bei einer groben zeitlichen Auflösung auf Textvorkommen überwacht. Zu diesem Zweck könnte der bildbasierte Textlokalisierer nur auf eine gleichmäßig verteilte Untermenge der Videoeinzelbilder angewendet werden. Die Schrittgröße wird durch das Ziel bestimmt, keine Textzeile zu übersehen. Es kann jedoch unbedeutend sein, ob Textzeilen im Anfangsbereich, im Mittelbereich oder am Ende ihres zeitlichen Auftretens lokalisiert werden. In jedem Falle wird die Textverfolgungsstufe den tatsächlichen zeitlichen Bereich jeder Textzeile wiederherstellen.
  • Die maximal mögliche Schrittgröße kann durch die minimal angenommene zeitliche Dauer des Auftretens der Textzeilen gegeben werden, die wir als eine Sekunde annehmen. Untersuchungen des Sehvermögens zeigen, daß Menschen zwischen 2 und 3 Sekunden benötigen, um eine komplette Szene zu verarbeiten. Daher erscheint es vernünftig anzunehmen, daß Text für mindestens 2/3 einer Sekunde deutlich erscheinen sollte, um leicht lesbar zu sein. Für ein Video mit 30 bps (Bilder pro Sekunde) übersetzt sich dies in eine Schrittgröße von zwanzig Einzelbildern.
  • Wenn bei einigen Ausführungsformen der bildbasierte Textlokalisierer keine Textzeile in Einzelbildt findet, wird der Überwachungsprozeß mit Einzelbildt+20 fortgesetzt. Wenn jedoch mindestens eine Textzeile gefunden wird, kann der bildbasierte Textlokalisierer auf Einzelbildt-1 und Einzelbildt+1 angewendet werden. Als nächstes sucht der Algorithmus für jede der Textzeilen in Einzelbildt nach einer entsprechenden Textzeile in Einzelbildt-1 und Einzelbildt+1. Übereinstimmung zwischen zwei Textzeilen kann durch Bereichsüberlappung von mehr als 80% ihrer entsprechenden Begrenzungsboxen bei ihren Einzelbildpositionen definiert werden, obwohl andere Werte verwendet werden können. Wenn A und B die Punktmengen darstellen, die die Referenz- bzw. die zweite Begrenzungsbox beschreiben, kann die prozentuale Überlappung als Überlappung = |A∩B|/|A| definiert werden. In diesem Falle können dementsprechend zwei zugehörige Boxen nicht mehr als 20% in der Größe voneinander abweichen, wenn sie an derselben Position in aufeinanderfolgenden Einzelbildern auftreten und/oder dürfen nur leicht gegeneinander verschoben werden, wenn sie die gleiche Größe haben. Kleine Verschiebungen sind üblich bei nicht statischem Text. Wenn einander entsprechende Boxen in Einzelbildt-1 und Einzelbildt+1 für eine Textbox in Einzelbildt gefunden werden, wird ein neues Textobjekt erstellt (welches diese Textboxen enthält) und für die zeitliche Verfolgung markiert. Pseudocode-Beispiel 4 gibt eine Zusammenfassung des Videoüberwachungsvorganges wieder.
  • Videoüberwachungsalgorithmus für Textvorkommen (Pseudocode-Beispiel 4):
    Figure 00270001
  • 5.1.2 Textverfolgung
  • Bei einigen Ausführungsformen wird dann jedes Textobjekt, basierend auf den Inhalten der in der Videoüberwachungsstufe erstellten Textobjekte, auf alle Einzelbilder erweitert, die die betreffende Textzeile enthalten (dies verringert die Anzahl der Bitmaps, die auf den Leitern 44 in 1 bereitgestellt werden). Die Textverfolgung kann sowohl zeitlich vorwärts als auch zeitlich rückwärts durchgeführt werden. Jedoch beschränken wir unsere Beschreibung auf die Vorwärtsverfolgung, da die Rückwärtsverfolgung sich nicht von der Vorwärtsverfolgung unterscheidet, außer in der Richtung, in der man durch das Video geht. Die grundlegende Idee hinter unserem schnellen Textverfolger ist es, die Textzeile in dem aktuellen Videoeinzelbild zu nehmen, eine charakteristische Signatur zu berechnen, die es erlaubt diese Textzeile von anderen Textzeilen mit anderen Inhalten zu unterscheiden, und nach dem Bildbereich der gleichen Größe in dem nächsten Videoeinzelbild zu suchen, das am besten mit der Referenzsignatur übereinstimmt.
  • Das in Abschnitt 4.4.2 definierte vertikale und horizontale Projektionsprofil dient als kompakte und charakteristische Referenzsignatur, obwohl andere Signaturen verwendet werden können. Das Zentrum der Signatur kann als Zentrum der begrenzenden Textbox der zugeordneten Textzeile definiert werden. Die Ähnlichkeit zwischen zwei Signaturen kann durch die Überschneidung von Signaturen gemessen werden (z.B. durch die Summe des Minimums zwischen bestimmten Elementen in Signaturen). In den Fällen, in denen Signaturen sowohl ein interessierendes Objekt als auch einen wechselnden Hintergrund umfassen, können Signaturen oder Histogrammüberschneidungen die L-Normen leistungsmäßig übertreffen. Um die präzise Position einer Textzeile in dem nächsten Einzelbild zu finden, können alle Signaturen, deren Zentren in ein Suchfenster um das Zentrum der Referenzsignatur fallen, berechnet und mit der Referenzsignatur verglichen werden. Wenn der beste Treffer eine minimal erforderliche Ähnlichkeit übertrifft, kann die Textzeile als gefunden deklariert werden und zu dem Textobjekt hinzugefügt werden. Wenn der beste Treffer eine minimal erforderliche Ähnlichkeit nicht über trifft, wird eine signaturbasierte Auslassung deklariert. Die Größe des Suchradius hängt von der maximal angenommenen Geschwindigkeit des Textes ab. In unseren Experimenten nahmen wir an, daß der Text mindestens zwei Sekunden für eine Bewegung in dem Video von links nach rechts benötigt. Bei gegebener Bildgröße und der Wiedergabefrequenz des Videos ist dies direkt in den Suchradius in Pixeln zu übersetzen. Im Prinzip könnten wir die Position durch die bis dahin in den Textobjekten enthaltenen Informationen voraussagen, um den Suchraum einzugrenzen, jedoch braucht es dafür keinen rechnerischen Bedarf zu geben.
  • Es ist zu beachten, daß dieser signaturbasierte erschöpfende Suchalgorithmus dem Blockanpassungs-Algorithmus für die Bewegungsvoraussage ähneln kann, abgesehen davon, daß das Ähnlichkeitsmaß auf einer Signatur basiert, die aus einem Bildmerkmal des tatsächlichen Bildes abgeleitet ist.
  • Es kann passieren, daß die signaturbasierte Textzeilensuche eine langsam ausblendende Textzeile nicht erfaßt, da die Suche auf der Signatur der Textzeile in dem vorherigen Einzelbild basiert und nicht auf einer festen und hergeleiteten Haupt/Prototyp-Signatur. Die Änderungen von Einzelbild zu Einzelbild können zu klein sein, um erkennbar zu sein. Außerdem kann die signaturbasierte Textzeilensuche bei der Verfolgung von einzoomendem oder auszoomendem Text versagen. Um diese Beschränkungen zu überwinden, kann die signaturbasierte Suche bei jedem x-ten Einzelbild durch den bildbasierten Textlokalisierer ersetzt werden, um die Positionen und Größen der Textzeilen zu rekalibrieren. Neu erkannte Textboxen können hier jedoch verworfen werden.
  • Heuristisch stellte sich jedes fünfte Einzelbild als guter Kompromiß zwischen Geschwindigkeit und Verläßlichkeit heraus, jedoch können auch andere Intervalle verwendet werden. Wieder können bei einigen Ausführungsformen sich die Begrenzungsboxen einander entsprechenden Textzeilen um mindestens 80% überlappen.
  • Aufgrund von Mängeln in dem Videosignal, wie starkem Rauschen, begrenzter Bandbreite (z.B. ineinanderlaufende Farben), Textausschluss, Artefakten der Kompression, u.s.w., ist die ununterbrochene Erkennung von Textobjekten im strengen Sinne (z.B. bei jedem Einzelbild) oft nicht möglich oder praktikabel. Daher kann es sein, daß es keine gute Idee ist, die Verfolgung abzubrechen, wenn keine entsprechende Textzeile in dem nächsten Einzelbild gefunden werden kann. Vielmehr sollte die Verfolgung nur dann abgebrochen werden, wenn für eine bestimmte Anzahl von aufeinanderfolgenden Einzelbildern keine entsprechende Textzeile gefunden werden kann.
  • Dafür können zwei Schwellenwerte max signaturbasiert / Auslassung und max bildbasiert / Auslassung verwendet werden. Jedes Mal dann, wenn ein Textobjekt nicht bis zum nächsten Einzelbild erweitertet werden kann, wird der entsprechende Zähler um Eins inkrementiert. Der entsprechende Zähler wird immer dann auf Null gesetzt, wenn die zugehörige Suchmethode erfolgreich ist. Der Verfolgungsvorgang kann abgebrochen werden, sobald einer der beiden Zähler seinen Schwellenwert max signaturbasiert / Auslassung oder max bildbasiert / Auslassung übersteigt. In unseren Experimenten wurden die
  • Schwellenwerte für den bildbasierten Textlokalisierer auf maxbildbasiertAuslassung = 3 gesetzt, jedoch können auch andere Werte ver wendet werden. Diese Art von Auslassungen können durch sehr stark rauschbelastete Videoeinzelbilder oder zeitweilig ausgeschlossenen Text verursacht werden. Der Schwellenwert für die signaturbasierte Suche wurde auf maxsignaturbasiertAuslassung = 4 gesetzt, z.B. die Entfernung zwischen zwei vollständig lokalisierten Einzelbildern, jedoch können auch andere Werte verwendet werden. Ein Wert von 4 ermöglicht die Verfolgung von Textzeilen, wenn sich die signaturbasierte Suche sehr schwer gestaltet, wie z.B. für einzoomenden oder auszoomenden Text.
  • Das unten stehende Pseudocode-Beispiel 5 gibt eine Zusammenfassung des Videoüberwachungsvorgangs gemäß einiger Ausführungsformen der Erfindung wieder. Jedoch können andere Ausführungsformen der Erfindung mit anderen Details implementiert werden.
  • Vorwärts-Textverfolgungsalgorithmus eines gegebenen Textobjekts (Pseudocode-Beispiel 5):
    Figure 00310001
  • Figure 00320001
  • 5.1.3. Nachbearbeitung
  • Um ein Textobjekt für die Textsegmentierung vorzubereiten, kann es auf den Teil zugeschnitten werden, der mit hoher Verläßlichkeit erkannt worden ist. Dafür wird in manchen Ausführungsformen jedes Textobjekt zeitweise auf das erste und letzte Einzelbild zugeschnitten, in denen der bildbasierte Textlokalisierer die Textzeile erkannt hat. Als nächstes wird das Textobjekt verworfen, wenn es z.B.
    • (1) für weniger als eine Sekunde erscheint oder
    • (2) eine Auslassungsrate von mehr als 25% aufweist.
  • Andere Werte können verwendet werden. Die erste Bedingung folgt aus der Beobachtung, daß Textzeilen üblicherweise für mindestens eine Sekunde sichtbar sind und kürzere Textzeilen üblicherweise Falschmeldungen sind. Die zweite Bedingung entfernt Textobjekte, die aus instabiler Verfolgung resultieren und die eine nachfolgende Verarbeitung nicht behandeln kann. Instabile Verfolgung kann durch starke Artefakte der Kompression oder Nicht-Text verursacht werden.
  • Schließlich können bei einigen Ausführungsformen eine oder mehrere der folgenden globalen Merkmale für jedes Textobjekt bestimmt werden. Die jeweiligen Details können in verschiedenen Ausführungsformen abweichen.
  • (1) Textfarbe des Textobjekts
  • Unter der Annahme, daß die Textfarbe derselben Textzeile sich mit der Zeit nicht verändert, wird die Textfarbe eines Textobjektes als Median aller pro Einzelbild bestimmten Textfarben bestimmt (z.B. wie durch Abschnitt 4.4.3 erhalten). Als Textfarbe muß nicht der Median gewählt werden. Andere mittelnde oder nicht mittelnde Maße können verwendet werden.
  • (2) Textgröße
  • Die Größe der Textbegrenzungsbox kann fest sein oder sich mit der Zeit verändern. Wenn Sie fest ist, bestimmen wir ihre Breite und Höhe durch den Median über der Menge der Breiten und Höhen.
  • (3) Textposition
  • Die Textzeile kann in einer oder beiden Koordinaten statisch sein. Eine Textzeile wird als statisch in der X- und/oder Y-Richtung angesehen, wenn die mittlere Bewegung pro Einzelbild weniger als 0,75 Pixel beträgt. Die mittlere Bewegung wird auf der Grundlage der Differenz der Positionen zwischen dem ersten und dem letzten Textvorkommen dieser Textzeile, normiert mit der Anzahl der Einzelbilder, berechnet.
  • Wenn die Textzeile statisch ist, ersetzen wir alle Textbegrenzungsboxen durch die Median-Textbegrenzungsbox. Die Median-Textbegrenzungsbox ist die Box, deren linke/rechte/obere/untere Begrenzung der Median über alle linken/rechten/oberen/unteren Begrenzungen ist. Wenn die Position nur in einer Richtung, wie z.B. der X- oder Y-Achse, fest ist, werden die linke und rechte oder die obere und untere Begrenzung durch die jeweiligen Medianwerte ersetzt.
  • 6. Textsegmentierung
  • Die Textsegmentierung beinhaltet die Beseitigung des Hintergrundes von dem Text. Diese sollte nicht mit der Segmentierung aus Abschnitt 4.4.2 verwechselt werden.
  • 6.1 Auflösungseinstellungen (Man beachte Block 30 in 1)
  • Die Textsegmentierungsmaßnahmen können an umskalierten Bildern (durch z.B. kubische Interpolation) durchgeführt werden, so daß die Texthöhe des betrachteten Textobjekts eine feste Höhe von z.B. 100 Pixel aufweist, wobei das Sei tenverhältnis erhalten bleibt. Es gibt verschiedene Gründe für die Umskalierung:
  • (1) Auflösungsverbesserungen von kleinen Schriftgrößen, die wiederum zu besseren Segmentierungsergebnissen führen
  • Eines der Hauptprobleme der gegenwärtigen Textextraktion und Texterkennung in Videos ist deren sehr geringe Auflösung. Bei MPEG-1-kodierten Videos haben die einzelnen Zeichen oft eine geringere Höhe als 12 Pixel. Obwohl Text bei dieser Auflösung für Menschen immer noch erkennbar ist, macht diese es den heutigen Standard-OCR-Systemen schwer. Diese OCR-Systeme wurden entwickelt, um Text in Dokumenten zu erkennen, die bei einer Auflösung von mindestens 200 DPI bis 300 DPI gescannt wurden, was eine minimale Texthöhe von mindestens 40 Pixeln ergibt. Um mit Standard-OCR-Systemen gute Ergebnisse zu erzielen, ist es wünschenswert, die Auflösung der Textzeilen zu verbessern.
  • Die Verbesserung der sichtbaren Qualität von Textbitmaps ist ein anderer und noch wichtigerer Grund für die Hochskalierung kleiner Textbitmaps. Die höhere Auflösung ermöglicht eine sub-Pixel-genaue Textausrichtung (bezogen auf die ursprüngliche Auflösung) in Abschnitt 6.2.2.
  • (2) Rechnerische Einsparungen für große Schriftgrößen
  • Eine Texthöhe, die größer ist als die festgelegte Höhe (z.B. 100 Pixel) verbessert weder die Segmentierung noch die OCR-Leistung. Die Herabsetzung der Größe verringert die rechnerische Komplexität deutlich. Es ist zu beachten, daß ein Auftreten größerer Schriftgrößen sehr wahrscheinlich ist, da unser Ansatz tatsächlich vielfachauflösend (multi-resolution) ist und auf Webseiten und HDTV-Videosequenzen mit einer Auflösung bis zu 1920 mal 1280 Pixeln arbeitet. 100 Pixel sind nur 1/12 der Höhe des Einzelbildes.
  • 6.2. Entfernung der Hintergründe (einschließlich komplexer Hintergründe)
  • Wie erwähnt, können Hintergründe entfernt werden (man beachte Block 32 in 1). Ein komplexer Hintergrund hat größere Änderungen als ein einfacher Hintergrund. Jedoch ist die Erfindung nicht auf eine bestimmte Art von Hintergrund beschränkt (es kann ein komplexer oder einfacher Hintergrund sein). Wenn jedoch besondere Informationen über den Hintergrund des Bildes bekannt sind, so kann, wie oben erwähnt, eine Ausführungsform der Erfindung für die Verwendung dieser Informationen angepaßt werden.
  • 6.2.1 Bilder
  • Es wird angenommen, daß Textvorkommen einen Kontrast zu ihrem Hintergrund aufweisen, um leicht lesbar zu sein. Dieses Merkmal wird hier verwendet, um große Teile des komplexen Hintergrundes zu entfernen. In einigen Ausführungsformen arbeitet es wie folgt, obwohl die Erfindung nicht derart beschränkt ist. Die grundlegende Idee ist es, die Textbegrenzungsbox derart zu vergrößern, daß keine Textpixel auf den Rand fallen, und dann jedes Pixel auf der Begrenzung der Textbegrenzungsbox als Keim zu verwenden, um alle Pixel, die nicht mehr als SchwellenwertKeimfüllung davon abweichen, mit der Hintergrundfarbe zu füllen (man beachte, daß bei einigen Ausführungsformen die Änderung der gefüllten Pixel auf die Hintergrundfarbe zunächst nur vorgemerkt wird und nicht tatsächlich auf der Bitmap ausgeführt wird. Nachdem die Keimfüllung auf alle Pixel der Boxbegrenzung angewendet worden ist, kann die Ausführung vorgenommen werden). Die Hintergrundfarbe ist schwarz für inversen Text und weiß für normalen Text. Da die Pixel auf der Begrenzung nicht zu dem Text gehören und da der Text Kontrast zu seinem Hintergrund aufweist, wird der Keimfüllungs-Algorithmus niemals Pixel von Zeichen entfernen (Keimfüllungs-Algorithmen sind der Technik bekannt). Wir nennen diese neu konstruierte Bitmap Br(x, y).
  • In unseren Experimenten wurde die euklidische Distanz zwischen den RGB-Farben als Distanzfunktion verwendet, und der Keimfüllungs-Algorithmus verwendete eine Vierfach-Nach barschaft. Um sicherzustellen, daß alle Buchstaben vollständig in den Textbegrenzungsboxen enthalten sind, erweiterten wir diese außerdem horizontal um 20% und vertikal um 40%. Andere Werte können verwendet werden.
  • Nicht alle Hintergrundpixel müssen gelöscht werden, da die Größe der Bereiche, die durch den Keimfüllungs-Algorithmus gefüllt werden, durch die maximal erlaubte Farbdifferenz zwischen einem Pixel und seinem Rahmenpixel beschränkt ist. Die Größe der verbleibenden Farbbereiche kann verwendet werden, um die verbleibenden Bereiche des Hintergrundes mit der Hintergrundfarbe zu füllen. In einigen Ausführungsformen kann jedes Pixel ein Keim für den Keimfüllungs-Algorithmus sein. Der Achtfach-Nachbarschaft-Keimfüllungs-Algorithmus könnte dann hypothetisch auf Br(x, y) angewendet werden, um die Abmessungen des Bereiches zu bestimmen, der gefüllt werden könnte. Hintergrundbereiche sollten kleiner sein als Textzeichenbereiche. Daher werden alle Bereiche mit einer Höhe kleiner als minHöhe Pixel und einer Breite kleiner als minBreite , oder größer als maxBreite gelöscht (mit der Hintergrundfarbe belegt).
  • 6.2.2 Videobilder
  • Ein Video-Textobjekt unterscheidet sich von einem Einzelbild-Textobjekt in der Hinsicht, daß es eine Mehrzahl von Bildtextdarstellungen (z.B. Bitmaps) derselben Textzeile aufweist und nicht nur eine einzige. In einigen Ausführungsformen wird das folgende Verfahren angewendet, um diese Redundanz auszuwerten, um den komplexen Hintergrund, der die eigentlichen Zeichen umgibt, zu entfernen. Jedoch ist die Erfindung nicht auf diese Details beschränkt. Dieses Verfahren kann nicht nur auf statischen Text angewendet werden, sondern auch auf bewegten Text, weil wir das Problem der sub-pixel-genauen Textzeilenausrichtung gelöst haben.
  • Das Ursprungsbild kann in einem Graustufenformat wiedergeladen werden. Jedoch wird die vektorquantisierte Version verwendet, um zu bestimmen, welche Graustufenfarbe die glei che wie die abgeschätzte Textfarbe ist, wie unten beschrieben.
  • In einigen Ausführungformen funktioniert es wie folgt. Angenommen, man stapelt die verschiedenen Bitmaps eines Textobjekts so aufeinander, daß die Zeichen perfekt aufeinander ausgerichtet sind. Zu Text gehörige Pixel tendieren dazu, sich mit der Zeit nur leicht zu verändern, während nicht-Text Pixel (Hintergrund) sich meist dramatisch mit der Zeit verändern. Da die Textposition aufgrund der Ausrichtung feststeht, sollten sich diese Pixel nicht verändern (es ist zu beachten, daß obwohl der Text als statisch angenommen wird, kleine Änderungen von Einzelbild zu Einzelbild auftreten können). Hintergrundpixel verändern sich mit hoher Wahrscheinlichkeit aufgrund der Bewegung im Hintergrund oder Bewegung der Textzeilen. Wir leiten eine repräsentative Textzeilenbitmap für jedes Textobjekt ab. Bei einem gegebenen Stapel von perfekt ausgerichteten Bitmaps wird der Maximum-Minimum-Operator auf der Zeitskala auf die Graustufenbilder für normalen/inversen Text angewendet. Es ist zu beachten, daß es nicht notwendig ist, jede Bitmap eines Textobjektes zu verwenden, weil sich der Hintergrund üblicherweise zwischen zwei aufeinanderfolgenden Einzelbildern nicht signifikant ändert. Es zeigt sich, daß eine Auswahl von etwa vierzig zeitlich gleichverteilten Einzelbildern genug sein kann, um sehr gute Ergebnisse zu erhalten. Wenn z.B. 200 Einzelbilder vorhanden sind und 40 Einzelbilder ausgewählt sind, dann können die 40 Einzelbilder einen Abstand von fünf haben. Wenn 150 Einzelbilder vorhanden sind, können die 40 Einzelbilder einen Abstand von 15/4 haben, was bedeutet, daß der Abstand auf eine ganze Anzahl auf- oder abgerundet werden kann, oder daß der Abstand nicht konsistent ist, manchmal 3 aber meistens 4, um im Mittel 15/4 zu erhalten. Es ist außerdem zu beachten, daß einige Einzelbilder am Anfang und Ende eines Textobjektes übersprungen werden können, um eventuelle Probleme mit Einblendungs- oder Ausblendungseffekten zu vermeiden. Wie oben vorgeschlagen, wird alle paar Einzelbilder ein bildbasiertes Lokalisierungsverfahren verwendet, um zu vermeiden, daß die charakteristische Textfarbe langsam während der Einblendung oder Ausblendung geändert wird. Die Verfolgung durch die Signatur allein, könnte dazu führen, daß die Segmentierung unter solchen Umständen ruiniert wird.
  • Im folgenden wird beschrieben, wie die Bitmaps im wesentlichen perfekt ausgerichtet werden. Zuerst können in ähnlicher Weise bei Bildern und Webseiten alle Textbegrenzungsboxen eines Textobjektes um, z.B. 20% in horizontaler Richtung und 40% in vertikaler Richtung erweitert werden. Als nächstes können alle Bitmaps in Graustufenbilder konvertiert werden, da Graustufen stabiler gegen Farbkompressionsartefakte sind. Nahezu alle Videokompressions-Algorithmen stellen die Intensität bei höherer Auflösung als Farben dar, wie in dem bekannten 4:2:0 Abtastschema.
  • BO(x, y), ..., BN-1(x, y) sollen die N betrachteten Bitmaps bezeichnen und Br(x, y) die repräsentative Bitmap, die abgeleitet werden muß und auf Br 0(x, y) = B0(x, y) initialisiert wird. Z.B. könnte N = 40 sein, so daß 40 Bitmaps aus 40 Einzelbildern vorhanden sind. Dann können wir für jede Bitmap Bi(x, y), i ∊ {1, ..., 39) die beste Verschiebung (dx, dy) suchen, welche die Differenz zwischen Br(x, y) und Bi(x, y), bezogen auf die Textfarben, minimiert, z.B.
  • Figure 00380001
  • Der Grund dafür, daß diese Art von Blockanpassungssuche funktioniert, ist der, daß nur Pixel in der Textfarbe in Betracht gezogen werden, wobei die Textfarbe die abgeschätzte Textfarbe aus Abschnitt 4.4.3 sein kann. Es wird definiert, daß ein Pixel dann, und nur dann, die Textfarbe hat, wenn es nicht mehr als einen bestimmten Betrag von der aus dem Textobjekt bestimmten Textfarbe abweicht. Es ist zu beachten, daß dieser Abstand basierend auf den RGB-Werten berechnet wird. Bei jeder Iteration wird Br(x, y) mittels der vorhergehend angegebenen Gleichung aktualisiert, gemäß
    Br i(x, y) = max(Br i-1(x, y), Bi(x + dxt opt, y + dyt opt)) für normalen Text
    und gemäß
    Br i(x, y) = min(Br i-1(x, y), Bi(x + dxt opt, y + dyt opt)) für inversen Text.
  • Es ist zu beachten, daß wir nicht nach den perfekten Verschiebungen suchen müssen, wenn ein Textobjekt in Abschnitt 4.4.3 als statisch identifiziert worden ist. Statt dessen können die Verschiebungen zwischen den verschiedenen Bitmaps alle auf Null gesetzt werden.
  • Durch das Verfahren aus Abschnitt 6.2.2 kann der Hintergrund dazu neigen, für normalen Text heller und heller zu werden und für inversen Text dunkler und dunkler zu werden. Jedoch ist es möglich, daß das erste Einzelbild das hellste bzw. dunkelste ist.
  • 6.3. Binärisierung (Man beachte Block 38 in 1)
  • Die Textbitmaps Br i(x, y) sind nun für die Erkennung durch Standard-OCR-Engines vorbereitet. Hierzu können die Graustufenbilder in schwarz auf weißem Hintergrund konvertiert werden. Im folgenden wird eine Möglichkeit beschrieben, einen passenden Schwellenwert zu finden, der eine gute, wenn nicht sogar optimale Trennung zwischen Text und Hintergrund erlaubt. Aus Abschnitt 4.4.3 kennen wir die abgeschätzte Textfarbe, die dominante Hintergrundfarbe und wissen, ob wir es mit normalem Text oder inversem Text zu tun haben. Da der Großteil des Hintergrundes ohnehin in Abschnitt 6.2 entfernt wurde, haben wir uns entschieden, die Hintergrundfarbe für inversen Text auf schwarz zu setzen und für normalen Text auf weiß. Dann ist der Intensitätswert in der Mitte zwischen der Intensität der Textfarbe und der Hintergrundfarbe ein guter Binärisierungs-Schwellenwert. Jedes Pixel in der Textbitmap, das einen höheren Wert als der Binärisierungs-Schwellenwert hat, kann für normalen Text auf weiß gesetzt werden und für inversen Text auf schwarz. Jeder Pixel in der Textbitmap, der einen geringeren oder gleichen Wert hat wie der Binärisierungs-Schwellenwert, kann für normalen Text auf schwarz und für inversen Text auf weiß gesetzt werden. Schließlich ist es empfehlenswert, die binäre Bitmap durch Verwerfen von kleinen Bereichen (setzen auf die Hintergrundfarbe) zu bereinigen, so wie es in Abschnitt 6.2.1 beschrieben wurde.
  • Zusätzliche Informationen
  • Einige Ausführungsformen der vorliegenden Erfindung sind nicht nur dazu in der Lage, Textvorkommen zu lokalisieren und in große binäre Bilder zu segmentieren, sondern auch dazu, jedes Pixel innerhalb eines Bildes oder Videos zu kennzeichnen, je nachdem, ob es zu Text gehört oder nicht. Daher können unsere Textlokalisierungs- und Segmentierungsverfahren für objektbasierte Videocodierung verwendet werden. Es ist bekannt, daß objektbasierte Videocodierung eine wesentlich höhere Videoqualität bei einer festen Bitrate im Vergleich zu bestehenden Kompressionsverfahren erreicht. Jedoch ist in den meisten Fällen des Problem der automatischen Extraktion von Objekten noch nicht möglich. Unsere Textlokalisierung und Textsegmentierungs-Algorithmen lösen dieses Problem für Textvorkommen in Videos.
  • Einige Ausführungsformen der Erfindung beinhalten einen Vielfachauflösungs-Ansatz (multi-resolution-Proach), bei dem die Textlokalisierung und der Textsegmentierungs-Algorithmen erfolgreich von MPEG-1-Videosequenzen bis zu HDTV-MEPG-2-Videosequenzen (1980×1280) ohne jede Einstellung der Parameter erfolgreich arbeiten. Z.B. können die Zeichengrößen zwischen 8 Pixeln und der halben Höhe der Einzelbilder variieren.
  • 10 zeigt ein Computersystem 180 mit einem Prozessor 184 und einem Speicher 188. Der Speicher 188 stellt einen oder mehrere einer Mehrzahl von Speichereinrichtungsar ten dar, einschließlich RAM, Plattenlaufwerke, CD-ROMS und Videospeicher, um nur einige zu nennen. Der Speicher 188 enthält maschinenlesbare Medien, auf denen Anweisungen gespeichert werden, um die oben beschriebenen verschiedenen Funktionen auszuführen. Der Speicher 188 kann außerdem zu verarbeitende Daten (z.B. digitale Videosignale) speichern, wie auch Zwischenergebnisse und Endergebnisse der Verarbeitung. Es ist klar, daß 10 stark schematisiert ist und in der Praxis eine Mehrzahl von anderen gut bekannten Komponenten enthalten würde.
  • Der Begriff Einzelbild soll in einem weiten Sinne verstanden werden. Z.B. spielt es keine Rolle, ob diese verschachtelt (interleaved) sind oder nicht. In ähnlicher Weise sollen die Begriffe Bild und Video in einem weiten Sinne interpretiert werden. Kein besonderes Format ist erforderlich.
  • Wenn in der Beschreibung erklärt wird, daß eine Komponente, ein Merkmal, eine Struktur oder Charakteristik enthalten sein "kann" oder "könnte", so bedeutet dies, daß die jeweilige Komponente, das Merkmal, die Struktur oder Charakteristik nicht enthalten sein muß. Wenn sich die Beschreibung oder die Ansprüche auf "ein" Element beziehen, so bedeutet dies nicht, daß es nur eines dieser Elemente gibt. Wenn sich die Beschreibung oder die Ansprüche auf "ein zusätzliches" Element beziehen, so schließt dies nicht aus, daß es mehr als eines der zusätzlichen Elemente gibt.

Claims (12)

  1. Ein Verfahren zum Lokalisieren von Text in digitalen Bildern, umfassend: Skalieren eines digitalen Bildes in Bilder mehrerer Auflösungen; Klassifizieren, ob Pixel in den Bildern mehrerer Auflösungen Teil eines Textbereiches sind; Zusammenfassen der klassifizierten Bilder mehrerer Auflösungen, um eine Salienzkarte zu erstellen; Verwenden der Salienzkarte, um Ausgangs-Textbegrenzungsboxen zu erstellen, indem die Boxen ausgehend von mindestens ein Pixel enthaltenden Pixelrechtecken erweitert werden, wobei Gruppen von mindestens einem an die Rechtecke angrenzenden Pixeln eingeschlossen werden, sofern die Gruppen eine bestimmte Beziehung zu einem ersten Schwellenwert aufweisen, und Konsolidieren der Ausgangs-Textbegrenzungsboxen.
  2. Das Verfahren nach Anspruch 1, wobei die bestimmte Beziehung darin besteht, daß eine mittlere Intensität der Gruppe den ersten Schwellenwert übersteigt.
  3. Das Verfahren nach Anspruch 1, wobei die Gruppe eine an das Rechteck angrenzende Zeile oder Spalte enthält und das Rechteck als 1-Pixel-mal-1-Pixel-Rechteck startet.
  4. Das Verfahren nach Anspruch 1, wobei die Salienzkarte die gleiche Auflösung wie das digitale Bild hat, bevor es in eine Mehrzahl von Auflösungen skaliert wird.
  5. Das Verfahren nach Anspruch 1, wobei das digitale Bild Teil eines digitalen Videobildes ist und wobei beim Konsolidieren der Ausgangs-Textbegrenzungsboxen horizontale Projektionsprofile mit adaptiven Schwellenwerten und vertikalen Projektionsprofilen mit adaptiven Schwellenwerten erstellt werden.
  6. Das Verfahren nach Anspruch 5, wobei die adaptiven Schwellenwerte der horizontalen Projektionsprofile Funktionen der Minimalwerte und Maximalwerte der horizontalen Projektionsprofile sind, und wobei die adaptiven Schwellenwerte der vertikalen Projektionsprofile Funktionen der Minimalwerte und Maximalwerte der vertikalen Projektionsprofile sind.
  7. Das Verfahren nach Anspruch 1, wobei das Konsolidieren der anfänglichen Textbegrenzungsboxen das wiederholte Ausführen eines horizontalen Segmentierungsalgorithmus und eines vertikalen Segmentierungsalgorithmus einschließt.
  8. Das Verfahren nach Anspruch 6, wobei der horizontale Segmentierungsalgorithmus einschließt, daß eine Textbegrenzungsbox oben und unten um ein Minimum der Hälfte der Höhe der ursprünglichen Textbox und der Hälfte der maximal möglichen Texthöhe erweitert wird.
  9. Das Verfahren nach Anspruch 1, wobei eine Kantenorientierung berechnet wird, um Bildmerkmale in den mehreren Auflösungen zu identifizieren.
  10. Das Verfahren nach Anspruch 1, wobei außerdem eine signaturbasierte Verfolgung verwendet wird, um Einzelbilder in Vorwärts- und Rückwärtsrichtung zu identifizieren, die Text in einem Textobjekt enthalten, ausgehend von einem Einzelbild, in dem der Text durch ein bildbasiertes Verfahren identifiziert wurde.
  11. Das Verfahren nach Anspruch 1, wobei außerdem die Textfarbe in dem Bild abgeschätzt wird, indem Farb-Histogramme in den Text- und den Text umgebenden Nicht-Text-Bereichen erstellt werden.
  12. Eine Einrichtung, aufweisend: ein maschinenlesbares Medium mit darauf befindlichen Anweisungen, die einen Prozessor bei Ausführung dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
DE10195927T 2000-03-14 2001-02-23 Verallgemeinerte Textlokalisation in Bildern Expired - Fee Related DE10195927B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/524,797 2000-03-14
US09/524,797 US6470094B1 (en) 2000-03-14 2000-03-14 Generalized text localization in images
PCT/US2001/005757 WO2001069529A2 (en) 2000-03-14 2001-02-23 Generalized text localization in images

Publications (2)

Publication Number Publication Date
DE10195927T1 DE10195927T1 (de) 2003-05-08
DE10195927B4 true DE10195927B4 (de) 2008-04-10

Family

ID=24090703

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10195927T Expired - Fee Related DE10195927B4 (de) 2000-03-14 2001-02-23 Verallgemeinerte Textlokalisation in Bildern

Country Status (8)

Country Link
US (1) US6470094B1 (de)
CN (1) CN100514364C (de)
AU (1) AU2001238648A1 (de)
DE (1) DE10195927B4 (de)
GB (1) GB2377114B (de)
HK (2) HK1049536B (de)
TW (1) TWI223212B (de)
WO (1) WO2001069529A2 (de)

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1320382B1 (it) * 2000-05-29 2003-11-26 Olivetti Lexikon Spa Dispositivo e metodo per la stampa di immagini da video.
US7456902B2 (en) * 2000-12-04 2008-11-25 Jlb Ventures, Llc Method and system for identifying addressing data within a television presentation
US20030014445A1 (en) * 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
US8103104B2 (en) * 2002-01-11 2012-01-24 Hewlett-Packard Development Company, L.P. Text extraction and its application to compound document image compression
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US7590286B2 (en) * 2002-07-26 2009-09-15 National Institute Of Information And Communications Technology Incorporated Administrative Agency Image recognition apparatus and program for recognizing the substance of an image, particularly in a motion picture environment
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US20050047647A1 (en) * 2003-06-10 2005-03-03 Ueli Rutishauser System and method for attentional selection
US7409372B2 (en) * 2003-06-20 2008-08-05 Hewlett-Packard Development Company, L.P. Neural network trained with spatial errors
JP2005038263A (ja) * 2003-07-16 2005-02-10 Canon Inc 画像処理装置、画像処理方法、記録媒体及びプログラム
US7983446B2 (en) * 2003-07-18 2011-07-19 Lockheed Martin Corporation Method and apparatus for automatic object identification
US8098950B2 (en) * 2003-11-26 2012-01-17 General Electric Company Method and apparatus for segmentation-based image operations
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
KR100647284B1 (ko) * 2004-05-21 2006-11-23 삼성전자주식회사 영상의 문자 추출 장치 및 방법
JP4048188B2 (ja) * 2004-06-07 2008-02-13 株式会社インパルスジャパン Webページ翻訳装置及びwebページ翻訳方法
JP4709762B2 (ja) * 2004-07-09 2011-06-22 オリンパス株式会社 画像処理装置及び方法
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US20060045346A1 (en) 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
DE102005001224A1 (de) * 2004-09-03 2006-03-09 Betriebsforschungsinstitut VDEh - Institut für angewandte Forschung GmbH Verfahren zur Zuordnung eines digitalen Bildes in eine Klasse eines Klassifizierungssystems
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US7596265B2 (en) * 2004-09-23 2009-09-29 Hewlett-Packard Development Company, L.P. Segmenting pixels in an image based on orientation-dependent adaptive thresholds
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US9495385B2 (en) 2004-10-01 2016-11-15 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
JP4453016B2 (ja) * 2005-01-31 2010-04-21 株式会社カシオ日立モバイルコミュニケーションズ 携帯端末、文字読取方法および文字読取プログラム
US20060182339A1 (en) * 2005-02-17 2006-08-17 Connell Jonathan H Combining multiple cues in a visual object detection system
JP4393411B2 (ja) * 2005-03-29 2010-01-06 株式会社東芝 画像処理装置、画像処理プログラムおよび画像処理方法
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7630544B1 (en) 2005-04-06 2009-12-08 Seiko Epson Corporation System and method for locating a character set in a digital image
US20060239555A1 (en) * 2005-04-25 2006-10-26 Destiny Technology Corporation System and method for differentiating pictures and texts
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
US7930627B2 (en) * 2005-09-22 2011-04-19 Konica Minolta Systems Laboratory, Inc. Office document matching method and apparatus
US7567729B2 (en) * 2005-09-22 2009-07-28 Konica Minolta Systems Laboratory, Inc. Photo image matching method and apparatus
JP2007166287A (ja) * 2005-12-14 2007-06-28 Fuji Xerox Co Ltd 画像処理装置、および画像処理方法
US7966557B2 (en) * 2006-03-29 2011-06-21 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
US8098934B2 (en) 2006-06-29 2012-01-17 Google Inc. Using extracted image text
US8031940B2 (en) * 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
US7953295B2 (en) * 2006-06-29 2011-05-31 Google Inc. Enhancing text in images
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US7810026B1 (en) 2006-09-29 2010-10-05 Amazon Technologies, Inc. Optimizing typographical content for transmission and display
US8782551B1 (en) * 2006-10-04 2014-07-15 Google Inc. Adjusting margins in book page images
US7756356B2 (en) * 2007-03-08 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. System and method for factorizing light in a sequence of images
JP4821663B2 (ja) * 2007-03-12 2011-11-24 日本電気株式会社 文字ノイズ除去装置、文字ノイズ除去方法、文字ノイズ除去プログラム
US8023725B2 (en) * 2007-04-12 2011-09-20 Samsung Electronics Co., Ltd. Identification of a graphical symbol by identifying its constituent contiguous pixel groups as characters
US8929461B2 (en) * 2007-04-17 2015-01-06 Intel Corporation Method and apparatus for caption detection
JP5011508B2 (ja) * 2007-04-27 2012-08-29 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
US7912289B2 (en) 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US20080297657A1 (en) * 2007-06-04 2008-12-04 Richard Griffiths Method and system for processing text in a video stream
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
CN101349541B (zh) * 2007-07-20 2010-09-29 华硕电脑股份有限公司 特定图像找寻方法及影像偏位补偿方法
US20090041352A1 (en) * 2007-08-10 2009-02-12 Naoki Okamoto Image formation device, image formation method, and computer-readable recording medium recording image formation program
US7706613B2 (en) 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US8640024B2 (en) * 2007-10-30 2014-01-28 Adobe Systems Incorporated Visually distinct text formatting
US8611661B2 (en) * 2007-12-26 2013-12-17 Intel Corporation OCR multi-resolution method and apparatus
US8218890B2 (en) * 2008-01-22 2012-07-10 The Neat Company Method and apparatus for cropping images
CN101510260B (zh) * 2008-02-14 2012-02-22 富士通株式会社 字幕存在时间确定装置和方法
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8391638B2 (en) * 2008-06-04 2013-03-05 Microsoft Corporation Hybrid image format
JP4577419B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577421B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577420B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
KR20120049245A (ko) 2009-07-06 2012-05-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 오버레이 그래픽을 갖는 이미지의 리타겟팅
EP2275972B1 (de) 2009-07-06 2018-11-28 AO Kaspersky Lab System und Verfahren zur Identifizierung von textbasiertem Spam in Bildern
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
TR200907868A2 (tr) * 2009-10-16 2011-05-23 Vestel Elektron�K Sanay� Ve T�Caret Anon�M ��Rket�@ Siyah transparan bölgeler içeren otomatik test metodu
JP5840130B2 (ja) * 2009-12-31 2016-01-06 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited テキストを含む映像領域の前処理方法及びシステム
US10043193B2 (en) * 2010-01-20 2018-08-07 Excalibur Ip, Llc Image content based advertisement system
US8483513B2 (en) * 2010-01-22 2013-07-09 Corel Corporation, Inc. Method of content aware image resizing
EP2538839B1 (de) * 2010-02-23 2015-07-08 Loma Linda University Verfahren zur analyse eines medizinischen bildes
WO2012012915A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Co Detecting separator lines in a web page
US8542889B2 (en) * 2010-10-19 2013-09-24 Apple Inc. Systems, methods, and computer-readable media for capturing a signature for use in a document
US8989499B2 (en) * 2010-10-20 2015-03-24 Comcast Cable Communications, Llc Detection of transitions between text and non-text frames in a video stream
US8023697B1 (en) 2011-03-29 2011-09-20 Kaspersky Lab Zao System and method for identifying spam in rasterized images
US8712188B2 (en) * 2011-04-28 2014-04-29 Hewlett-Packard Development Company, L.P. System and method for document orientation detection
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
CN102496019A (zh) * 2011-12-08 2012-06-13 银江股份有限公司 一种车牌字符分割方法
US8850305B1 (en) * 2011-12-20 2014-09-30 Google Inc. Automatic detection and manipulation of calls to action in web pages
US8917910B2 (en) 2012-01-16 2014-12-23 Xerox Corporation Image segmentation based on approximation of segmentation similarity
US8704948B2 (en) * 2012-01-18 2014-04-22 Eldon Technology Limited Apparatus, systems and methods for presenting text identified in a video image
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
JP5730274B2 (ja) * 2012-11-27 2015-06-03 京セラドキュメントソリューションズ株式会社 画像処理装置
CN103854020B (zh) * 2012-11-29 2018-11-30 捷讯平和(北京)科技发展有限公司 文字识别方法及装置
US9569679B1 (en) * 2012-12-04 2017-02-14 A9.Com, Inc. Adaptive image sampling for text detection
US9215448B2 (en) * 2013-01-31 2015-12-15 Here Global B.V. Stereo panoramic images
US9213919B2 (en) * 2014-02-13 2015-12-15 Adobe Systems Incorporated Category histogram image representation
US10638194B2 (en) * 2014-05-06 2020-04-28 At&T Intellectual Property I, L.P. Embedding interactive objects into a video session
CN104298985A (zh) * 2014-08-11 2015-01-21 东莞中山大学研究院 一种基于迭代的图像文本区域检测方法
WO2016029399A1 (en) 2014-08-28 2016-03-03 Qualcomm Incorporated Object selection based on region of interest fusion
US10664647B2 (en) * 2014-10-28 2020-05-26 Kuang-Yao Lee Visual web page analysis system and method
US9582727B2 (en) 2015-01-16 2017-02-28 Sony Corporation Text recognition system with feature recognition and method of operation thereof
JP5992567B1 (ja) * 2015-03-20 2016-09-14 株式会社Pfu 日付識別装置
US9542751B2 (en) * 2015-05-08 2017-01-10 Qualcomm Incorporated Systems and methods for reducing a plurality of bounding regions
CN104978565B (zh) * 2015-05-11 2019-06-28 厦门翼歌软件科技有限公司 一种普适性的图像文字提取方法
CN104834930B (zh) * 2015-05-25 2018-07-24 中孚信息股份有限公司 一种用于多系统平台的图像汉字查找方法
US10043231B2 (en) * 2015-06-30 2018-08-07 Oath Inc. Methods and systems for detecting and recognizing text from images
US9865062B2 (en) 2016-02-12 2018-01-09 Qualcomm Incorporated Systems and methods for determining a region in an image
WO2017165538A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106960196B (zh) * 2017-03-29 2020-04-07 西安电子科技大学 基于模板匹配和svm的工业视频小数字识别方法
CN107862310B (zh) * 2017-09-17 2021-10-26 北京工业大学 一种基于块投影的藏文历史文献文本区域提取方法
US10679085B2 (en) * 2017-10-31 2020-06-09 University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
WO2019090506A1 (en) * 2017-11-08 2019-05-16 Intel Corporation Scene text detector for unconstrained environments
US11593552B2 (en) 2018-03-21 2023-02-28 Adobe Inc. Performing semantic segmentation of form images using deep learning
US10915788B2 (en) * 2018-09-06 2021-02-09 Sap Se Optical character recognition using end-to-end deep learning
CN109308465B (zh) * 2018-09-14 2020-01-17 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
WO2020061691A1 (en) * 2018-09-25 2020-04-02 Element Ai Inc. Automatically detecting and isolating objects in images
CN110032997B (zh) * 2019-01-07 2021-02-19 武汉大学 一种基于图像分割的自然场景文本定位方法
US11042734B2 (en) * 2019-08-13 2021-06-22 Adobe Inc. Electronic document segmentation using deep learning
CN110619333B (zh) * 2019-08-15 2022-06-14 平安国际智慧城市科技股份有限公司 一种文本行分割方法、文本行分割装置及电子设备
US11488406B2 (en) * 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111064977B (zh) * 2019-12-05 2021-12-03 任子行网络技术股份有限公司 网络综艺节目备案在线监控的方法、系统及可读存储介质
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
US11403100B2 (en) 2020-08-31 2022-08-02 Microsoft Technology Licensing, Llc Dual architecture function pointers having consistent reference addresses
US11231918B1 (en) 2020-08-31 2022-01-25 Microsoft Technologly Licensing, LLC Native emulation compatible application binary interface for supporting emulation of foreign code
US11042422B1 (en) 2020-08-31 2021-06-22 Microsoft Technology Licensing, Llc Hybrid binaries supporting code stream folding
US11494944B2 (en) 2020-11-18 2022-11-08 Disney Enterprises, Inc. Automatic low contrast detection
US11544828B2 (en) 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
CN112990197A (zh) * 2021-03-17 2021-06-18 浙江商汤科技开发有限公司 车牌识别方法及装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19507059A1 (de) * 1995-03-01 1997-01-09 Klaus Prof Dipl Ing Wevelsiep Verfahren zur omnidirektionalen Erfassung von OCR-Klarschrift auf Etiketten oder ähnlichen Datenträgern durch zufallsgesteuerte Suche und Dekodierung mit einem neuronalen Netzwerk

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5546474A (en) * 1993-12-21 1996-08-13 Hewlett-Packard Company Detection of photo regions in digital images
EP0720114B1 (de) * 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
CA2211258C (en) * 1995-01-31 2000-12-26 United Parcel Service Of America, Inc. Method and apparatus for separating foreground from background in images containing text
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19507059A1 (de) * 1995-03-01 1997-01-09 Klaus Prof Dipl Ing Wevelsiep Verfahren zur omnidirektionalen Erfassung von OCR-Klarschrift auf Etiketten oder ähnlichen Datenträgern durch zufallsgesteuerte Suche und Dekodierung mit einem neuronalen Netzwerk

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Huiping Li, Doermann D., Kia O. "Automatic text detection and tracking in digital video" Image Processing, IEEE Transactions on Vol.9, Issue 1, Jan.2000, S.147-156 *
Sato T., Kanade T., Hughes E.K., Smith M.A. "Video OCR for digital news archive" Content-Based Access of Image and Video Database, 1998, Proceedings, 1998 IEEE International Workshop on, 3.Jan. 1998, S.52-60 *
Victor Wu, R.Manmatha, Edward M.Riseman "Finding text in images" Proceedings of the second ACM in- ternational conference on Digital libraries, Philadelphia, Pennsylvania, Untited States, Pages: 3-2, 1997, ISBN 0-89791-868-1
Victor Wu, R.Manmatha, Edward M.Riseman "Finding text in images" Proceedings of the second ACM international conference on Digital libraries, Philadelphia, Pennsylvania, Untited States, Pages: 3-2, 1997, ISBN 0-89791-868-1 *

Also Published As

Publication number Publication date
CN100514364C (zh) 2009-07-15
GB2377114B (en) 2004-09-22
DE10195927T1 (de) 2003-05-08
WO2001069529A2 (en) 2001-09-20
GB2377114A (en) 2002-12-31
HK1049536B (zh) 2005-03-11
GB0223747D0 (en) 2002-11-20
US20020159636A1 (en) 2002-10-31
AU2001238648A1 (en) 2001-09-24
US6470094B1 (en) 2002-10-22
TWI223212B (en) 2004-11-01
GB2377114A8 (en) 2003-12-10
CN1418354A (zh) 2003-05-14
HK1049536A1 (en) 2003-05-16
HK1069913A1 (en) 2005-06-03
WO2001069529A3 (en) 2002-02-07

Similar Documents

Publication Publication Date Title
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
DE10195928B4 (de) Abschätzen der Textfarbe und Segmentieren von Bildern
Gllavata et al. A robust algorithm for text detection in images
DE69519980T2 (de) Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
DE69229468T2 (de) Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung
EP2089886B1 (de) Verfahren zur zeitlichen segmentierung eines videos in videobildfolgen und zur auswahl von keyframes für das auffinden von bildinhalten unter einbeziehung einer subshot-detektion
DE69511620T2 (de) Videoverarbeitungssystem
DE69226846T2 (de) Verfahren zur Bestimmung von Wortgrenzen im Text
DE60216547T2 (de) Videostrukturierung durch wahrscheinlichkeitstheoretische Zusammenführung von Videosegmenten
DE69229536T2 (de) Verfahren und Gerät zum Auswahl linguistisch bezeichnender Bilder in einem Dokumentbild ohne Dekodierung des Bildinhalts
DE60109278T2 (de) Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera
DE19953608B4 (de) Vorrichtung und Verfahren zum Erkennen eines Fonts eines Textes in einem Dokumentenverarbeitungssystem
DE102013210375A1 (de) Auffinden von text in natürlichen szenen
DE19960555A1 (de) Verfahren zum Auffinden und Lesen eines zweidimensionalen Strichcodes
DE4311172A1 (de) Verfahren und Einrichtung zum Korrigieren der Schräge eines Vorlagenbildes sowie Vorlagensegmentierungssystem
DE112009005002T5 (de) Techniken zum Erkennen von Videokopien
DE69732089T2 (de) Vorrichtung und verfahren zur zeitlichen und räumlichen integration und verwaltung einer vielzahl von videos sowie speichermedium zur speicherung eines programms dafür
DE102007052622A1 (de) Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät
DE69130535T2 (de) Schriftzeichenerkennungsverfahren und -vorrichtung zur lokalisierung und ermittlung vorbestimmter daten eines dokumentes
Anthimopoulos et al. A hybrid system for text detection in video frames
Gllavata et al. A text detection, localization and segmentation system for OCR in images
Ghorpade et al. Extracting text from video
Valio et al. Fast rotation-invariant video caption detection based on visual rhythm
DE60225268T2 (de) Verfahren zum bestimmen von textfeldern in einem videobild
Anthimopoulos et al. Detecting text in video frames

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law

Ref document number: 10195927

Country of ref document: DE

Date of ref document: 20030508

Kind code of ref document: P

8125 Change of the main classification

Ipc: G06K 960

8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee