-
Hintergrund
der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf ein Verarbeiten von Text,
welcher kodierte und nichtkodierte Texteinheiten umfaßt.
-
Ein
Bild eines Textes, wie eines auf einem Stück Papier kann in eine digitale
Darstellung durch eine Digitalisierung umgewandelt werden. Eine
digitale Darstellung von Text kann eine kodierte oder nichtkodierte
Darstellung sein.
-
Eine
kodierte Textdarstellung basiert auf Buchstaben bzw. Zeichen, d.h.
sie ist eine Darstellung, in welcher der Text als Buchstaben bzw.
Zeichen interpretiert wurde. Die Zeichen sind typischerweise durch
Zeichencodes dargestellt, wie Codes, die durch ASCII oder Unicode
Standard-Zeichenkodierstandards definiert sind, jedoch können sie
auch durch Zeichen- bzw. Buchstabennamen dargestellt sein. Die Gesamtheit
von Zeichen in jedem speziellen Kontext kann lediglich in beispielhafter
Weise Buchstaben, Ziffern, phonetische Symbole, Ideographien, Punktuationszeichnungen,
diakritische Zeichen, mathematische Symbole, technische Symbole, Pfeile,
Dingbats usw. umfassen. Ein Zeichen bzw. Charakter ist eine abstrakte
Einheit. Wie ein Zeichen visuell dargestellt ist bzw. wird, z.B.
als eine Glyphe auf einem Schirm oder einem Stück Papier ist allgemein durch
ein Font bzw. Schriftzeichen definiert, der bzw. das ein spezielles
Schriftbild definiert. In digitalen oder auf Computer ba sierenden
Anwendungen einer Typographie enthält ein digitaler Font, welcher nun
der Einfachheit halber als ein "Font" bezeichnet wird,
wie einer der PostScript® Fonts, die von Adobe Systems
Incorporated in San Jose, Kalifornien verfügbar sind, allgemein Instruktionen
bzw. Anweisungen (welche üblicherweise
gelesen und durch Wiedergabe- bzw. Renderprogramme interpretiert
werden, die auf Computerprozessoren ausgeführt werden) zum Rendern von
Zeichen in einem speziellen Schriftbild. Eine kodierte Darstellung
kann auch als eine auf einem Charakter bzw. Zeichen basierende Darstellung
bezeichnet werden.
-
Eine
nichtkodierte Darstellung von Text ist eine Bilddarstellung. Es
ist eine primitive Darstellung, in welcher der Text nicht in Zeichen
interpretiert ist. Statt dessen kann er als ein Feld von Bildelementen ("Bildpunkten") dargestellt werden.
Eine Bitmap ist eine primitive Darstellung, in welcher jeder Bildpunkt bzw.
jedes Pixel durch eine binäre
einstellige Zahl oder ein Bit in einem Raster dargestellt ist. Eine
Bildpunktmappe ist eine Rasterdarstellung, in welcher jeder Bildpunkt
durch mehr als ein Bit dargestellt ist. Eine Bilddarstellung einer
Textseite kann beispielsweise in lexikale Einheiten unterteilt werden,
von welchen jede eine kodierte als auch eine nichtkodierte Darstellung
besitzen kann, wie dies beschrieben werden wird.
-
Eine
Digitalisierung eines Bilds resultiert allgemein in einer primitiven
Darstellung, typischerweise einer Bitmap oder einer Bildpunktkarte.
Wenn das Bild Text enthält,
kann die primitive Darstellung interpretiert werden und in ein kodiertes
Format höheren Niveaus,
wie ASCII durch eine Verwendung eines optischen Charakter- bzw.
Zeichenerkennungsprogramms (OCR) umgewandelt werden. Ein auf Vertrauen
ba sierendes Erkennungssystem, wie jenes, das in dem ebenfalls besessenen
U.S. Patent Nr. 5,729,637 (das '637
Patent) beschrieben ist, verarbeitet ein Bild eines Textes, erkennt
Bitmapbilder als Zeichen und wandelt die erkannten Bitmaps in Codes um,
welche die entsprechenden Zeichen darstellen bzw. repräsentieren.
Einige Worte können
nur mit einem niedrigen Vertrauens- bzw. Zuverlässigkeitsniveau erkannt werden
oder gar nicht erkannt werden. Wenn das Bild angezeigt bzw. dargestellt
wird, werden Worte mit niedrigem Vertrauen bzw. niedriger Zuverlässigkeit
in ihrer ursprünglichen
Bitmapform angezeigt, während
Worte, die mit ausreichend hoher Zuverlässigkeit erkannt wurden, aus
einem Rendern ihrer Codes angezeigt werden.
-
Eine
digitale Darstellung eines Bilds, das sowohl kodierte als auch nichtkodierte
Einheiten enthält,
kann auf einer Rasterausgabevorrichtung, wie einer Computeranzeige
oder einem Drucker angezeigt werden. Diese Art von Anzeige, d.h.
eine, die sowohl ursprüngliche
als auch gerenderte Bitmaps enthält,
wird als eine Hybridanzeige bezeichnet. Die kodierten Einheiten
werden gerendert (d.h. gerastert), was in einer Vielzahl von Wegen
erreicht werden kann, wie durch ein Entnehmen einer Ausgabebitmap,
die in einem Speicher gespeichert ist, für einen Code oder durch ein
Berechnen einer Ausgabebitmap entsprechend einer Vektorbeschreibung,
die mit einem Code assoziiert ist. Das Ergebnis wird als eine gerenderte
Bitmap bezeichnet. Die nichtkodierten Einheiten werden in ihrer
ursprünglichen
Bitmapform angezeigt, welche als ursprüngliche Bitmaps bezeichnet
sind bzw. werden. Typischerweise werden Gesamtworte entweder gerendert
oder als ursprüngliche
Bitmaps zur Anzeige auf einer Rasterausgabevorrichtung belassen.
-
Die
ursprünglichen
und die gerenderten Bitmaps einer Hybriddarstellung tendieren typischerweise
dazu, daß sie
unterschiedliche optische Dichten aufweisen. Dieser Unterschied
in der optischen Dichte bewirkt, daß das Aussehen der ursprünglichen
und der gerenderten Bitmaps differieren. Der resultierenden Hybridanzeige
kann daher ein gleichmäßiges Aussehen
fehlen und sie kann ein nicht ästhetisch
angenehm sein.
-
Agazzi
O. E. et al.: "Using
OCR and Equalization to Downsample Documents", Proceedings of the IAPR International
Conference on Pattern Recognition, Jerusalem, Okt. 9–13, 1994.
Konferenz B: Pattern Recognition and Neural Networks, Los Alamitos, IEEE
Comp. Soc. Press, US, Band 2 Conf. 12. Oktober 1994, Seiten 305–309 offenbart
ein Verfahren gemäß dem Oberbegriff
von Anspruch 1.
-
Es
ist ein Ziel bzw. Gegenstand der Erfindung, ein Verfahren zum Bearbeiten
vom Text, ein Computerprogrammprodukt und ein System zum Bearbeiten
von Text zur Verfügung
zu stellen, die ein vereinfachtes Verarbeiten bzw. Bearbeiten von
Text zur Verfügung
stellen.
-
Dieses
Ziel wird durch ein Verfahren, das die in Anspruch 1 geoffenbarten
Merkmale aufweist, ein Computerprogrammprodukt, das die in Anspruch
10 geoffenbarten Merkmale aufweist, und ein System erfüllt bzw.
gelöst,
das die in Anspruch 19 geoffenbarten Merkmale aufweist. Bevorzugte
Ausbildungen sind in den abhängigen
Unteransprüchen
definiert.
-
Zusammenfassung
der Erfindung
-
Allgemein
liefert in einem Aspekt die Erfindung Techniken, welche als Verfahren,
Systeme oder Vorrichtungen, umfassend Computerprogrammprodukte und
Vorrichtungen, zum Verarbeiten von Text implementiert werden können, welcher
kodierte (auf Zeichen basierende) und nichtkodierte (auf Bild basierende)
Darstellungen von Text enthält.
Diese Techniken enthalten ein Ableiten eines Korrekturfaktors aus
einer kodierten Darstellung einer zweiten Texteinheit und einer
ursprünglichen
nichtkodierten Darstellung der zweiten Texteinheit, und ein Modifizieren
einer Darstellung einer ersten Texteinheit in Übereinstimmung mit dem Korrekturfaktor,
wobei eine übliche
bzw. gemeinsame Fontschriftart sowohl der ersten als auch zweiten
Einheit zugewiesen ist bzw. wird. In vorteilhafter Weise enthalten
Implementierungen eines oder mehrere folgenden Merkmale. Der Korrekturfaktor
wird durch ein Rendern einer kodierten Darstellung der zweiten Einheit
von Text in der Fontschriftart, um eine gerenderte Darstellung zu generieren
bzw. zu erzeugen, ein Berechnen eines Referenz- bzw. Bezugsverhältnisses
von der gerenderten Darstellung und einer optischen Dichte einer ursprünglichen
nichtkodierten Darstellung der zweiten Texteinheit, und ein Invertieren
des Bezugsverhältnisses
berechnet, um den Korrekturfaktor zu berechnen. Wo die erste Texteinheit
ein Wort umfaßt bzw.
enthält,
wird die optische Dichte des Worts durch ein Modifizieren einer
Bitmapdarstellung des Worts eingestellt, wo Bildpunkte zu der Bitmap
hinzugezählt
oder entfernt werden oder die Bitmaps bleibt entsprechend dem Wert
des Korrekturfaktors unverändert.
-
Allgemein
liefert in einem anderen Aspekt die Erfindung ein elektronisches
Dokument, das einen Text in einer Seitenbe schreibungssprache darstellt, wo
der Text eine erste Einheit und eine zweite Einheit aufweist, und
wo eine gemeinsame Fontschriftart sowohl der ersten als auch der
zweiten Texteinheit zugewiesen bzw. zugeordnet ist. Das elektronische
Dokument weist eine kodierte Darstellung der zweiten Texteinheit
in Zeichen bzw. Buchstaben der gemeinsamen Fontschriftart auf. Das
elektronische Dokument hat auch eine abschließende bzw. Endrasterdarstellung
der ersten Texteinheit, welche eine modifizierte Darstellung ist,
die aus einer ursprünglichen nichtkodierten
Darstellung der ersten Texteinheit gemäß einem Korrekturfaktor generiert
wurde, welcher aus einer nichtkodierten Darstellung der zweiten
Texteinheit und einer optischen Dichte einer gerenderten kodierten
Darstellung der zweiten Texteinheit berechnet wurde. Bevorzugte
Implementierungen beinhalten eines oder mehrere der folgenden Merkmale.
Die ursprüngliche
nichtkodierte Darstellung der ersten Texteinheit ist bzw. wird aus
einem gescanten Bild eines Abschnitts eines Papierdokuments, enthaltend die
erste Texteinheit abgeleitet.
-
Vorteile,
welche in Implementierungen der Erfindung gesehen werden können, enthalten
einen oder mehrere der folgenden Punkte. Die Erfindung erlaubt,
daß eine
Hybridanzeige gleichmäßig und ästhetisch
angenehm erscheint. Die Erfindung erleichtert ein visuelles Lesen
und ein Erkennen von Bitmapeinheiten, die auf einer Rasterausgabevorrichtung angezeigt
sind.
-
Die
Details von einer oder mehreren Ausbildung(en) der Erfindung sind
in den beiliegenden Zeichnungen und in der nachfolgenden Beschreibung
ausgeführt.
Andere Merkmale und Vorteile der Erfindung werden aus der Beschreibung,
den Zeichnungen und den Ansprüchen
ersichtlich werden.
-
Kurze Beschreibung
der Zeichnungen
-
1A ist
ein Flußdiagramm,
das ein Verfahren zum Modifizieren der optischen Dichten von ursprünglichen
Bitmaps zum Reduzieren ihrer Unterschiede zu den optischen Dichten
von gerenderten Bitmaps zeigt.
-
1B ist
ein Flußdiagramm
eines Bezugsverhältnis-Berechnungsschritts.
-
1C ist
ein "Flußdiagramm
eines Modifikationsschritts der optischen Dichte.
-
1D ist
ein Blockdiagramm, das eine Zuweisung eines Bezugsverhältnisses
illustriert.
-
1E ist
ein Flußdiagramm
eines Bitmapmodifikationsschritts.
-
1F ist
ein Diagramm, das eine Bitmapmodifikation illustriert.
-
2A ist
ein Beispiel einer Bitmapdarstellung von Text, von welcher eine
Hybridanzeige abgeleitet ist.
-
2B ist
ein Beispiel einer Hybridanzeige vor einer Modifikation.
-
2C ist
ein Beispiel der Hybridanzeige von 2B, die
in Übereinstimmung
mit einer Implementierung der Erfindung modifiziert ist.
-
Detaillierte
Beschreibung
-
2A zeigt
eine Bitmapdarstellung von Text, aus welcher eine Hybridanzeige
durch ein konventionelles OCR Verfahren abgeleitet ist. 2B und 2C zeigen
ein entsprechendes Paar von Hybriddarstellungen bzw. -anzeigen. 2B ist
eine Anzeige, die durch ein System der Art, die in den '637 Patent beschrieben
ist, generiert bzw. erzeugt ist, während 2C eine
Hybriddarstellung zeigt, in welcher nichtgerenderte Anzeigeelemente
modifiziert sind, um den visuellen Unterschied zwischen den ursprünglichen
Bitmaps und den gerenderten Bitmaps zu reduzieren.
-
1A illustriert
ein Verfahren 100 zum Modifizieren von ursprünglichen
Bitmaps, um die visuellen Unterschiede zu gerenderten Bitmaps in
einer Hybriddarstellung eines Textstücks zu reduzieren. Das Verfahren 100 kann
in ein Computerprogramm implementiert sein bzw. werden, wie einem
Modul in einem größeren System
zum Be- bzw. Verarbeiten und Anzeigen von elektronischen Dokumenten,
einem Plug-In-Modul, einem Modul in einer Treibersoftware für eine Ausgabevorrichtung,
einem Modul in einer Seitenbeschreibungssprache-Interpretationseinrichtung (wie einer
PostScript®-Sprachen-Interpretationseinrichtung),
in einer Ausgabevorrichtung, wie einem Drucker, oder ansonsten.
-
Das
Verfahren 100 hat zwei primäre Schritte: Berechnen eines
Referenz- bzw. Bezugsverhältnisses
für ein
Font bzw. eine Schriftfamilie (Schritt 104), und Modifizieren
der optischen Dichten von irgendwelchen Bitmaps, die mit dem Font
(Schritt 106) assoziiert sind. In diesem Kontext bezieht
sich eine Bezugnahme auf ein Font auch auf die Schriftart, die durch
den Font bzw. Schriftsatz definiert ist. Eingaben 102 zu
dem Verfahren umfassen bzw. enthalten eine Bitmapdarstellung eines
Textes und eine kodierte Darstellung von wenigstens einem Teil des
Textes. Diese Eingaben können
eine Hybriddatenstruktur der Art sein, wie sie in dem '637 Patent beschrieben
sind. Die Eingaben enthalten auch Information, die Buchstaben bzw.
Zeichen und Wörter
in der Seitenbitmap begrenzen bzw. bezeichnen, beispielsweise, indem eine
begrenzende bzw. Grenzbox um jedes Zeichen und Wort definiert wird.
Zusätzlich
enthalten die Eingaben Fontzuweisungen, d.h. ein Font (enthaltend Größe und Schriftart)
ist mit jedem der Zeichen des eingegebenen Textes assoziiert.
-
1B illustriert
ein Verfahren 110 zum Berechnen eines Referenzverhältnisses
(Schritt 104 von 1A). In
einer Implementierung wird die Berechnung auf dem Zeichen- bzw.
Charakterniveau ausgeführt.
Die optische Dichte einer Bitmap eines Zeichens ist die Anzahl von
Bildpunkten, die eingeschaltet sind, dividiert durch die Gesamtanzahl
von Bildpunkten, die zugewiesen sind, um das Zeichen darzustellen
(d.h. das Verhältnis
der Anzahl von Bildpunkten, die eingeschaltet sind, zu der Größe der begrenzenden
Box des Zeichens in Bildpunkten). Die notwendige Information für ursprüngliche
Bitmaps kann durch ein konventionelles OCR Verfahren zur Verfügung gestellt
werden, welches die Bildpunkte identifiziert, die zugewiesen sind,
um ein Zeichen darzustellen, und welche von jenen Bildpunkten eingeschaltet
sind. In einer Implementierung wird für jeden Font die Anzahl von
Bildpunkten, die in der Bitmap von jedem Zeichen eingeschaltet sind,
kodiert oder nichtkodiert, gemessen (Schritt 112). Dann wird
die gesamte optische Dichte der ursprünglichen Bitmaps von kodierten
Zeichen für
jeden Font berechnet (Schritt 114). Diese gesamte optische
Dichte ist das Verhältnis
von (i) der Summe von Bildpunkten, welche in den ursprünglichen
Bitmaps von allen kodierten Zeichen des Fonts eingeschaltet sind
zu (ii) der Summe der Größen (in
Bildpunkten) der begrenzenden Boxen von allen kodierten Zeichen
des Fonts. Als nächstes
wird die gesamte optische Dichte der gerenderten Bitmaps des Fonts
berechnet (Schritt 116). Ein digitaler Font, selbst einer,
welcher Zeichen in bezug auf Begrenzungen bzw. Konturen von mathematischen Kurven
definiert, kann optisch eine optische Dichte für jedes kodierte Zeichen zur
Verfügung
stellen. Für
jedes kodierte Zeichen des Fonts, der betrachtet bzw. berücksichtigt
ist, wird die optische Dichte mit der Gesamtanzahl von Bildpunkten multipliziert,
die zugewiesen sind, um das kodierte Zeichen darzustellen. Die resultierenden
Produkte werden summiert und durch die Summe der Bildpunkte in den
begrenzenden Boxen der kodierten Zeichen dividiert, um die gesamte
optische Dichte der gerenderten Bitmaps von kodierten Zeichen des Fonts
zu erhalten. Das Verhältnis
von (i) der gesamten optischen Dichte der ursprünglichen Bitmaps von kodierten
Zeichen zu (ii) der gesamten optischen Dichte der gerenderten Bitmaps
derselben Zeichen wird berechnet (Schritt 118). Dies ist
das Bezugsverhältnis
und es wird dem Font zugewiesen (Schritt 120).
-
1C illustriert
ein Verfahren 130 eines Modifizierens von Bitmaps, um optische
bzw. visuelle Unterschiede zu reduzieren (Schritt 106 von 1A).
In diesem Verfahren werden die ursprünglichen Bitmapworte modifiziert.
Das Verfahren bestimmt zuerst, ob das ursprüngliche Bitmapwort ein Font
aufweist, das dem Wort oder einem Großteil von Zeichen in demselben
Font zuweisbar ist (Schritt 132). Wenn die ursprünglichen
Bitmapworte einen Font aufweisen, der dem Wort zugewiesen ist oder eine
Mehrzahl von Zeichen in einem gegebenen Font aufweisen, dann wird
gesagt, daß das
Wort in diesem Font ist und das Bezugsverhältnis des Fonts dem Wort zugewiesen
wird (Schritt 134). Wenn das Wort keinen Font, der zu dem
Wort zugewiesen ist, oder eine Mehrzahl von Zeichen in demselben
Font aufweist, dann wird das Bezugsverhältnis eines benachbarten Worts
dem Wort zugewiesen (Schritt 136). In einer Implementierung
werden die drei vorhergehenden Worte und die drei dem in Frage stehenden Wort nachfolgenden
Worte verwendet, um ein Bezugsverhältnis dem in Frage stehenden
bzw. fraglichen Wort zuzuweisen. Diesen Worten werden Punkte entsprechend
ihrer Nähe
zu dem fraglichen Wort zugeteilt bzw. zugewiesen. Beispielsweise
wird, wie dies in 1D gezeigt ist, den zwei am
weitesten weg liegenden Worten (Wort 142) von dem in Frage
stehenden Wort (Wort 140) ein Punkt verliehen; den nächsten,
näher liegenden
zwei Worten werden zwei Punkte verliehen (Worte 144); und
den am nächsten
liegenden zwei Worten (Worte 148) werden drei Punkte verliehen.
Innerhalb dieser benachbarten Worte werden Fonts Punkte basierend
auf dem Ort der Worte zugewiesen, welche in dem Font sind. Der Font,
der eine einfache Mehrheit von Punkten aufweist, ist der eine, der
dem in Frage stehenden Wort zugewiesen ist. Beispielsweise, wenn
das in Frage stehende Wort das vierte einer Sequenz von sieben Worten
ist, und das erste und das siebente Wort in einem Font eins sind,
während
das zweite, dritte, vierte und sechste Wort in einem Font zwei sind,
dann hat Font eins zwei Punkte und Font zwei hat zehn Punkte. Folglich
würde Font
zwei dem in Frage stehenden Wort zugewiesen und die Fontattribute,
enthaltend das Bezugsverhältnis,
werden dem Wort zugewiesen.
-
Bevor
der Text angezeigt wird, werden die ursprünglichen Bitmapworte in Übereinstimmung
mit einem Korrekturfaktor modifiziert, welcher das Umgekehrte bzw.
Inverse des Bezugsverhältnisses
ist, das dem Wort zugewiesen ist (Schritt 138 von 1C). 1E illustriert
ein Verfahren 150 eines Modifizierens der ursprünglichen
Bitmapworte. Zuerst wird die Anzahl von Bildpunkten, die ein- und ausgeschaltet
sind, bestimmt. Die optische Dichte der ursprünglichen Bitmap des Worts wird
mit dem Korrekturfaktor des Worts multipliziert (Schritt 152). Diese
Tätigkeit
ergibt eine korri gierte optische Dichte. Der Unterschied zwischen
der korrigierten und der ursprünglichen
optischen Dichte wird dann genommen (Schritt 154). Dieser
Unterschied, multipliziert mit der Gesamtanzahl von Bildpunkten,
die verwendet werden, um das Wort darzustellen, ist die Anzahl von
Bildpunkten bzw. Pixeln, welche hinzugefügt oder entfernt werden müssen (Schritt 156).
Wenn die korrigierte optische Dichte größer als die nicht korrigierte
optische Dichte ist, dann werden die Bildpunkte zu der ursprünglichen
Bitmap hinzugefügt
(Schritt 160). Wenn die korrigierte optische Dichte kleiner
als die nicht korrigierte optische Dichte ist, dann werden die Bildpunkte
von der ursprünglichen
Bitmap entfernt (Schritt 162).
-
Dann
werden die Bildpunkte hinzugefügt oder
entfernt. 1F illustriert ein Verfahren
zum Hinzufügen
oder Entfernen von Bildpunkten von einer Bitmap eines Worts. Eine
eingrenzende Box 170 hat eine festgelegte Anzahl von Reihen 172 und Spalten 174.
Ein Lauf ist ein aufeinanderfolgender String von Bildpunkten in
einer Reihe (z.B. Lauf 180). Ein Lauf startet, wenn Bildpunkte,
welche aus sind (z.B. weiß),
zu Bildpunkten übergehen,
welche ein sind (z.B. schwarz, grau oder gefärbt) (176) oder, wenn
ein eingeschalteter Bildpunkt der erste Bildpunkt einer Reihe (178)
ist. Ein Lauf endet, wenn Bildpunkte, welche ein sind, zu Bildpunkten übergehen,
welche aus sind (182), oder wenn der letzte Bildpunkt einer
Reihe erreicht ist (184). Eine Reihe kann mehrere Läufe aufweisen
(z.B. gibt es drei Läufe bzw.
Durchgänge 180 in
der letzten Reihe). Die Anzahl von Bildpunkten, die ein- oder auszuschalten sind,
um die optische Dichte eines gegebenen Zeichens einzustellen, wird
durch die Gesamtanzahl von Läufen
dividiert. Die resultierende Anzahl von Bildpunkten, die pro Lauf
hinzuzufügen
oder zu entfernen sind, wird auf die nächste ganze Zahl gerundet.
Die ganzzahlige Anzahl von Bildpunkten wird zu jedem Lauf in der
begrenzenden Box hinzugefügt
oder von diesem entfernt, die die Einheit von Text darstellt. Das
Hinzuzählen
oder Entfernen von Bildpunkten tritt an abwechselnden Enden des
Laufs auf (d.h. linkem Ende, rechtem Ende, linkem Ende usw.). Zusätzlich wird
für Einstellungen,
welche Bildpunkte addieren, keine Addition über die begrenzende Box hinaus
getätigt.
Für Einstellungen,
welche Bildpunkte entfernen, wird kein Lauf vollständig entfernt.
-
Die
Erfindung kann in einer digitalen elektronischen Schaltung, oder
in Computerhardware, Firmware, Software oder in Kombinationen davon
implementiert sein. Vorrichtungen der Erfindung können in einem
Computerprogrammprodukt implementiert sein, das greifbar in einer
maschinenlesbaren Speichervorrichtung zur Ausführung durch einen programmierbaren
Prozessor ausgebildet bzw. verkörpert
ist; und Verfahrensschritte der Erfindung können durch einen programmierbaren
Prozessor ausgeführt werden,
der ein Programm von Instruktionen ausführt, um Funktionen der Erfindung
durch ein Bearbeiten von Eingabedaten und Generieren einer Ausgabe
auszuführen.
Die Erfindung kann in vorteilhafter Weise in einem oder mehreren
Computerprogramm(en) implementiert sein bzw. werden, welche(s) auf
einem programmierbaren System ausführbar ist bzw. sind, enthaltend
wenigstens einen programmierbaren Prozessor, der gekoppelt ist,
um Daten und Instruktionen von einem Datenspeichersystem zu empfangen
und Daten und Instruktionen zu diesem zu übertragen, wenigstens eine
Eingabevorrichtung und wenigstens eine Ausgabevorrichtung. Jedes
Computerprogramm kann in einer Hochniveauverfahren verfahrens- oder
objektorientierten Programmiersprache auf hohem Niveau oder in einer Assemblier-
oder Maschinensprache implementiert werden, wenn dies gewünscht ist;
und in jedem Fall kann die Sprache eine compilierte oder interpretierte Sprache
sein. Geeignete Prozessoren enthalten in beispielhafter Weise Mikroprozessoren
sowohl für allgemein
als auch spezielle Zwecke. Allgemein wird ein Prozessor Instruktionen
bzw. Anweisungen und Daten von einem Nur-Lesespeicher und/oder einem Direktzugriffsspeicher
erhalten. Allgemein wird ein Computer eine oder mehrere Massenspeichervorrichtungen
zum Speichern von Datenfiles bzw. Dateien enthalten, derartige Vorrichtungen
enthalten magnetische Disketten, wie innere bzw. interne Festplatten
und entfernbare Disketten; magneto-optische Disketten und optische
Disketten. Speichervorrichtungen, die für ein greifbares Verkörpern bzw.
Ausbilden von Computerprogramminstruktionen und Daten geeignet sind,
enthalten alle Formen von nicht flüchtigen Speichern, enthaltend
in beispielhafter Weise Halbleiterspeichervorrichtungen, wie EPROM,
EEPROM und Flashspeichervorrichtungen; magnetische Disketten, wie
interne Festplatten und entfernbare Disketten, magneto-optische
Disketten und CD-ROM Disketten. Irgendeine der Vorhergehenden kann
durch ASICs ergänzt
sein oder in diesen inkorporiert sein (application specific integrated
circuits, anwendungsspezifische, integrierte Schaltungen).
-
Die
Erfindung wurde in bezug auf spezielle Ausbildungen beschrieben.
Andere Ausbildungen sind innerhalb des Rahmens der folgenden Ansprüche. Beispielsweise
können
die Schritte der Erfindung in einer unterschiedlichen Reihenfolge
ausgeführt
werden und immer noch gewünschte
Ergebnisse ergeben. Die Erfindung kann über verschiedene Textbereiche,
wie Rahmen, einzelne Seiten oder mehrere Seiten ausgeführt werden.
In der Berechnung des Bezugsverhältnisses
können
die optischen Dichten von gerenderten Bitmaps von kodierten Gegen ständen gemessen
statt aus dem Kodierten berechnet werden, oder können vorab berechnet und gespeichert
werden. In dem Bitmapmodifikationsschritt können vertikale Läufe statt
horizontaler Läufe verwendet
werden, oder eine Kombination von beiden kann verwendet werden.
Bitmaps einer ersten Texteinheit können modifiziert werden, um
eine gewünschte
optische Dichte zu erzielen, statt daß sie modifiziert werden, um
mit der optischen Dichte einer zweiten Texteinheit übereinzustimmen.
Ein Bezugsverhältnis
kann für
individuelle Zeichen in einem Font berechnet werden, und Zeichen
können
individuell entsprechend ihren eigenen Bezugsverhältnissen modifiziert
werden. Bitmaps von nichtkodierten Worten statt Bitmaps von nichtkodierten
Zeichen können modifiziert
werden. Während
allgemein eine Hybridanzeige einer digitalen Darstellung eines Bilds
aus einer ursprünglichen
Rasterdarstellung generiert bzw. erzeugt wird, die aus einem einzigen
Quellenbild bzw. Bild einer einzigen Quelle abgeleitet ist, kann die
digitale Darstellung von mehreren Quellen abgeleitet sein, enthaltend
einige Quellen, welche ursprünglich
digital sind. Die Hybridanzeige kann aus einem einzigen elektronischen
Dokument in einem einzigen elektronischen File, enthaltend sowohl
kodierte als auch nichtkodierte Darstellungen von Zeichen oder aus
mehreren Dokumenten oder Files bzw. Dateien abgeleitet sein. Die
Erfindung kann in jeglichen Umständen
angewandt werden, wo eine Hybridanzeige aus einer Bitmap generiert
werden kann, die ein verdächtiges
Wort darstellt (oder einer anderen Einheit von Text) in welche Worte
(oder anderen Einheiten von Text) gemischt sind, die von einer Seitenbeschreibungssprache
gerendert ist. Die Erfindung kann unter Verwendung einer Vielzahl
von Seitenbeschreibungssprachen angewandt werden, enthaltend beispielsweise
PDF (Adobe®Portable
Document Format), PostScript, HyperTextMarkup Language (HTML), Rich Text
Format (RTF), Standard Generalized Markup Language (SGML) und eXtensible
Markup Language (XML). Für
einige Seitenbeschreibungssprachen, wie HTML stellt eine Spracherstreckung,
wie CSS (Cascading Style Sheets) die Funktionalität zur Verfügung, die
erforderlich ist, um Text und Graphiken präzise auf einer Seite zu positionieren.