DE60024392T2

DE60024392T2 - Verringerung des Erscheinungsunterschieds zwischen kodierten und nichkodierten Texteinheiten

Info

Publication number: DE60024392T2
Application number: DE60024392T
Authority: DE
Inventors: Shawn A. Santa Cruz Gaither; Maurice D. San Jose Fisher
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 1999-09-28
Filing date: 2000-09-27
Publication date: 2006-08-17
Anticipated expiration: 2020-09-28
Also published as: EP1093078A3; EP1093078A2; US6701023B1; DE60024392D1; EP1093078B1

Description

Hintergrund der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Verarbeiten von Text, welcher kodierte und nichtkodierte Texteinheiten umfaßt.
Ein Bild eines Textes, wie eines auf einem Stück Papier kann in eine digitale Darstellung durch eine Digitalisierung umgewandelt werden. Eine digitale Darstellung von Text kann eine kodierte oder nichtkodierte Darstellung sein.
Eine kodierte Textdarstellung basiert auf Buchstaben bzw. Zeichen, d.h. sie ist eine Darstellung, in welcher der Text als Buchstaben bzw. Zeichen interpretiert wurde. Die Zeichen sind typischerweise durch Zeichencodes dargestellt, wie Codes, die durch ASCII oder Unicode Standard-Zeichenkodierstandards definiert sind, jedoch können sie auch durch Zeichen- bzw. Buchstabennamen dargestellt sein. Die Gesamtheit von Zeichen in jedem speziellen Kontext kann lediglich in beispielhafter Weise Buchstaben, Ziffern, phonetische Symbole, Ideographien, Punktuationszeichnungen, diakritische Zeichen, mathematische Symbole, technische Symbole, Pfeile, Dingbats usw. umfassen. Ein Zeichen bzw. Charakter ist eine abstrakte Einheit. Wie ein Zeichen visuell dargestellt ist bzw. wird, z.B. als eine Glyphe auf einem Schirm oder einem Stück Papier ist allgemein durch ein Font bzw. Schriftzeichen definiert, der bzw. das ein spezielles Schriftbild definiert. In digitalen oder auf Computer ba sierenden Anwendungen einer Typographie enthält ein digitaler Font, welcher nun der Einfachheit halber als ein "Font" bezeichnet wird, wie einer der PostScript^® Fonts, die von Adobe Systems Incorporated in San Jose, Kalifornien verfügbar sind, allgemein Instruktionen bzw. Anweisungen (welche üblicherweise gelesen und durch Wiedergabe- bzw. Renderprogramme interpretiert werden, die auf Computerprozessoren ausgeführt werden) zum Rendern von Zeichen in einem speziellen Schriftbild. Eine kodierte Darstellung kann auch als eine auf einem Charakter bzw. Zeichen basierende Darstellung bezeichnet werden.
Eine nichtkodierte Darstellung von Text ist eine Bilddarstellung. Es ist eine primitive Darstellung, in welcher der Text nicht in Zeichen interpretiert ist. Statt dessen kann er als ein Feld von Bildelementen ("Bildpunkten") dargestellt werden. Eine Bitmap ist eine primitive Darstellung, in welcher jeder Bildpunkt bzw. jedes Pixel durch eine binäre einstellige Zahl oder ein Bit in einem Raster dargestellt ist. Eine Bildpunktmappe ist eine Rasterdarstellung, in welcher jeder Bildpunkt durch mehr als ein Bit dargestellt ist. Eine Bilddarstellung einer Textseite kann beispielsweise in lexikale Einheiten unterteilt werden, von welchen jede eine kodierte als auch eine nichtkodierte Darstellung besitzen kann, wie dies beschrieben werden wird.
Eine Digitalisierung eines Bilds resultiert allgemein in einer primitiven Darstellung, typischerweise einer Bitmap oder einer Bildpunktkarte. Wenn das Bild Text enthält, kann die primitive Darstellung interpretiert werden und in ein kodiertes Format höheren Niveaus, wie ASCII durch eine Verwendung eines optischen Charakter- bzw. Zeichenerkennungsprogramms (OCR) umgewandelt werden. Ein auf Vertrauen ba sierendes Erkennungssystem, wie jenes, das in dem ebenfalls besessenen U.S. Patent Nr. 5,729,637 (das '637 Patent) beschrieben ist, verarbeitet ein Bild eines Textes, erkennt Bitmapbilder als Zeichen und wandelt die erkannten Bitmaps in Codes um, welche die entsprechenden Zeichen darstellen bzw. repräsentieren. Einige Worte können nur mit einem niedrigen Vertrauens- bzw. Zuverlässigkeitsniveau erkannt werden oder gar nicht erkannt werden. Wenn das Bild angezeigt bzw. dargestellt wird, werden Worte mit niedrigem Vertrauen bzw. niedriger Zuverlässigkeit in ihrer ursprünglichen Bitmapform angezeigt, während Worte, die mit ausreichend hoher Zuverlässigkeit erkannt wurden, aus einem Rendern ihrer Codes angezeigt werden.
Eine digitale Darstellung eines Bilds, das sowohl kodierte als auch nichtkodierte Einheiten enthält, kann auf einer Rasterausgabevorrichtung, wie einer Computeranzeige oder einem Drucker angezeigt werden. Diese Art von Anzeige, d.h. eine, die sowohl ursprüngliche als auch gerenderte Bitmaps enthält, wird als eine Hybridanzeige bezeichnet. Die kodierten Einheiten werden gerendert (d.h. gerastert), was in einer Vielzahl von Wegen erreicht werden kann, wie durch ein Entnehmen einer Ausgabebitmap, die in einem Speicher gespeichert ist, für einen Code oder durch ein Berechnen einer Ausgabebitmap entsprechend einer Vektorbeschreibung, die mit einem Code assoziiert ist. Das Ergebnis wird als eine gerenderte Bitmap bezeichnet. Die nichtkodierten Einheiten werden in ihrer ursprünglichen Bitmapform angezeigt, welche als ursprüngliche Bitmaps bezeichnet sind bzw. werden. Typischerweise werden Gesamtworte entweder gerendert oder als ursprüngliche Bitmaps zur Anzeige auf einer Rasterausgabevorrichtung belassen.
Die ursprünglichen und die gerenderten Bitmaps einer Hybriddarstellung tendieren typischerweise dazu, daß sie unterschiedliche optische Dichten aufweisen. Dieser Unterschied in der optischen Dichte bewirkt, daß das Aussehen der ursprünglichen und der gerenderten Bitmaps differieren. Der resultierenden Hybridanzeige kann daher ein gleichmäßiges Aussehen fehlen und sie kann ein nicht ästhetisch angenehm sein.
Agazzi O. E. et al.: "Using OCR and Equalization to Downsample Documents", Proceedings of the IAPR International Conference on Pattern Recognition, Jerusalem, Okt. 9–13, 1994. Konferenz B: Pattern Recognition and Neural Networks, Los Alamitos, IEEE Comp. Soc. Press, US, Band 2 Conf. 12. Oktober 1994, Seiten 305–309 offenbart ein Verfahren gemäß dem Oberbegriff von Anspruch 1.
Es ist ein Ziel bzw. Gegenstand der Erfindung, ein Verfahren zum Bearbeiten vom Text, ein Computerprogrammprodukt und ein System zum Bearbeiten von Text zur Verfügung zu stellen, die ein vereinfachtes Verarbeiten bzw. Bearbeiten von Text zur Verfügung stellen.
Dieses Ziel wird durch ein Verfahren, das die in Anspruch 1 geoffenbarten Merkmale aufweist, ein Computerprogrammprodukt, das die in Anspruch 10 geoffenbarten Merkmale aufweist, und ein System erfüllt bzw. gelöst, das die in Anspruch 19 geoffenbarten Merkmale aufweist. Bevorzugte Ausbildungen sind in den abhängigen Unteransprüchen definiert.
Zusammenfassung der Erfindung
Allgemein liefert in einem Aspekt die Erfindung Techniken, welche als Verfahren, Systeme oder Vorrichtungen, umfassend Computerprogrammprodukte und Vorrichtungen, zum Verarbeiten von Text implementiert werden können, welcher kodierte (auf Zeichen basierende) und nichtkodierte (auf Bild basierende) Darstellungen von Text enthält. Diese Techniken enthalten ein Ableiten eines Korrekturfaktors aus einer kodierten Darstellung einer zweiten Texteinheit und einer ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit, und ein Modifizieren einer Darstellung einer ersten Texteinheit in Übereinstimmung mit dem Korrekturfaktor, wobei eine übliche bzw. gemeinsame Fontschriftart sowohl der ersten als auch zweiten Einheit zugewiesen ist bzw. wird. In vorteilhafter Weise enthalten Implementierungen eines oder mehrere folgenden Merkmale. Der Korrekturfaktor wird durch ein Rendern einer kodierten Darstellung der zweiten Einheit von Text in der Fontschriftart, um eine gerenderte Darstellung zu generieren bzw. zu erzeugen, ein Berechnen eines Referenz- bzw. Bezugsverhältnisses von der gerenderten Darstellung und einer optischen Dichte einer ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit, und ein Invertieren des Bezugsverhältnisses berechnet, um den Korrekturfaktor zu berechnen. Wo die erste Texteinheit ein Wort umfaßt bzw. enthält, wird die optische Dichte des Worts durch ein Modifizieren einer Bitmapdarstellung des Worts eingestellt, wo Bildpunkte zu der Bitmap hinzugezählt oder entfernt werden oder die Bitmaps bleibt entsprechend dem Wert des Korrekturfaktors unverändert.
Allgemein liefert in einem anderen Aspekt die Erfindung ein elektronisches Dokument, das einen Text in einer Seitenbe schreibungssprache darstellt, wo der Text eine erste Einheit und eine zweite Einheit aufweist, und wo eine gemeinsame Fontschriftart sowohl der ersten als auch der zweiten Texteinheit zugewiesen bzw. zugeordnet ist. Das elektronische Dokument weist eine kodierte Darstellung der zweiten Texteinheit in Zeichen bzw. Buchstaben der gemeinsamen Fontschriftart auf. Das elektronische Dokument hat auch eine abschließende bzw. Endrasterdarstellung der ersten Texteinheit, welche eine modifizierte Darstellung ist, die aus einer ursprünglichen nichtkodierten Darstellung der ersten Texteinheit gemäß einem Korrekturfaktor generiert wurde, welcher aus einer nichtkodierten Darstellung der zweiten Texteinheit und einer optischen Dichte einer gerenderten kodierten Darstellung der zweiten Texteinheit berechnet wurde. Bevorzugte Implementierungen beinhalten eines oder mehrere der folgenden Merkmale. Die ursprüngliche nichtkodierte Darstellung der ersten Texteinheit ist bzw. wird aus einem gescanten Bild eines Abschnitts eines Papierdokuments, enthaltend die erste Texteinheit abgeleitet.
Vorteile, welche in Implementierungen der Erfindung gesehen werden können, enthalten einen oder mehrere der folgenden Punkte. Die Erfindung erlaubt, daß eine Hybridanzeige gleichmäßig und ästhetisch angenehm erscheint. Die Erfindung erleichtert ein visuelles Lesen und ein Erkennen von Bitmapeinheiten, die auf einer Rasterausgabevorrichtung angezeigt sind.
Die Details von einer oder mehreren Ausbildung(en) der Erfindung sind in den beiliegenden Zeichnungen und in der nachfolgenden Beschreibung ausgeführt. Andere Merkmale und Vorteile der Erfindung werden aus der Beschreibung, den Zeichnungen und den Ansprüchen ersichtlich werden.
Kurze Beschreibung der Zeichnungen
1A ist ein Flußdiagramm, das ein Verfahren zum Modifizieren der optischen Dichten von ursprünglichen Bitmaps zum Reduzieren ihrer Unterschiede zu den optischen Dichten von gerenderten Bitmaps zeigt.
1B ist ein Flußdiagramm eines Bezugsverhältnis-Berechnungsschritts.
1C ist ein "Flußdiagramm eines Modifikationsschritts der optischen Dichte.
1D ist ein Blockdiagramm, das eine Zuweisung eines Bezugsverhältnisses illustriert.
1E ist ein Flußdiagramm eines Bitmapmodifikationsschritts.
1F ist ein Diagramm, das eine Bitmapmodifikation illustriert.
2A ist ein Beispiel einer Bitmapdarstellung von Text, von welcher eine Hybridanzeige abgeleitet ist.
2B ist ein Beispiel einer Hybridanzeige vor einer Modifikation.
2C ist ein Beispiel der Hybridanzeige von 2B, die in Übereinstimmung mit einer Implementierung der Erfindung modifiziert ist.
Detaillierte Beschreibung
2A zeigt eine Bitmapdarstellung von Text, aus welcher eine Hybridanzeige durch ein konventionelles OCR Verfahren abgeleitet ist. 2B und 2C zeigen ein entsprechendes Paar von Hybriddarstellungen bzw. -anzeigen. 2B ist eine Anzeige, die durch ein System der Art, die in den '637 Patent beschrieben ist, generiert bzw. erzeugt ist, während 2C eine Hybriddarstellung zeigt, in welcher nichtgerenderte Anzeigeelemente modifiziert sind, um den visuellen Unterschied zwischen den ursprünglichen Bitmaps und den gerenderten Bitmaps zu reduzieren.
1A illustriert ein Verfahren 100 zum Modifizieren von ursprünglichen Bitmaps, um die visuellen Unterschiede zu gerenderten Bitmaps in einer Hybriddarstellung eines Textstücks zu reduzieren. Das Verfahren 100 kann in ein Computerprogramm implementiert sein bzw. werden, wie einem Modul in einem größeren System zum Be- bzw. Verarbeiten und Anzeigen von elektronischen Dokumenten, einem Plug-In-Modul, einem Modul in einer Treibersoftware für eine Ausgabevorrichtung, einem Modul in einer Seitenbeschreibungssprache-Interpretationseinrichtung (wie einer PostScript^®-Sprachen-Interpretationseinrichtung), in einer Ausgabevorrichtung, wie einem Drucker, oder ansonsten.
Das Verfahren 100 hat zwei primäre Schritte: Berechnen eines Referenz- bzw. Bezugsverhältnisses für ein Font bzw. eine Schriftfamilie (Schritt 104), und Modifizieren der optischen Dichten von irgendwelchen Bitmaps, die mit dem Font (Schritt 106) assoziiert sind. In diesem Kontext bezieht sich eine Bezugnahme auf ein Font auch auf die Schriftart, die durch den Font bzw. Schriftsatz definiert ist. Eingaben 102 zu dem Verfahren umfassen bzw. enthalten eine Bitmapdarstellung eines Textes und eine kodierte Darstellung von wenigstens einem Teil des Textes. Diese Eingaben können eine Hybriddatenstruktur der Art sein, wie sie in dem '637 Patent beschrieben sind. Die Eingaben enthalten auch Information, die Buchstaben bzw. Zeichen und Wörter in der Seitenbitmap begrenzen bzw. bezeichnen, beispielsweise, indem eine begrenzende bzw. Grenzbox um jedes Zeichen und Wort definiert wird. Zusätzlich enthalten die Eingaben Fontzuweisungen, d.h. ein Font (enthaltend Größe und Schriftart) ist mit jedem der Zeichen des eingegebenen Textes assoziiert.
1B illustriert ein Verfahren 110 zum Berechnen eines Referenzverhältnisses (Schritt 104 von 1A). In einer Implementierung wird die Berechnung auf dem Zeichen- bzw. Charakterniveau ausgeführt. Die optische Dichte einer Bitmap eines Zeichens ist die Anzahl von Bildpunkten, die eingeschaltet sind, dividiert durch die Gesamtanzahl von Bildpunkten, die zugewiesen sind, um das Zeichen darzustellen (d.h. das Verhältnis der Anzahl von Bildpunkten, die eingeschaltet sind, zu der Größe der begrenzenden Box des Zeichens in Bildpunkten). Die notwendige Information für ursprüngliche Bitmaps kann durch ein konventionelles OCR Verfahren zur Verfügung gestellt werden, welches die Bildpunkte identifiziert, die zugewiesen sind, um ein Zeichen darzustellen, und welche von jenen Bildpunkten eingeschaltet sind. In einer Implementierung wird für jeden Font die Anzahl von Bildpunkten, die in der Bitmap von jedem Zeichen eingeschaltet sind, kodiert oder nichtkodiert, gemessen (Schritt 112). Dann wird die gesamte optische Dichte der ursprünglichen Bitmaps von kodierten Zeichen für jeden Font berechnet (Schritt 114). Diese gesamte optische Dichte ist das Verhältnis von (i) der Summe von Bildpunkten, welche in den ursprünglichen Bitmaps von allen kodierten Zeichen des Fonts eingeschaltet sind zu (ii) der Summe der Größen (in Bildpunkten) der begrenzenden Boxen von allen kodierten Zeichen des Fonts. Als nächstes wird die gesamte optische Dichte der gerenderten Bitmaps des Fonts berechnet (Schritt 116). Ein digitaler Font, selbst einer, welcher Zeichen in bezug auf Begrenzungen bzw. Konturen von mathematischen Kurven definiert, kann optisch eine optische Dichte für jedes kodierte Zeichen zur Verfügung stellen. Für jedes kodierte Zeichen des Fonts, der betrachtet bzw. berücksichtigt ist, wird die optische Dichte mit der Gesamtanzahl von Bildpunkten multipliziert, die zugewiesen sind, um das kodierte Zeichen darzustellen. Die resultierenden Produkte werden summiert und durch die Summe der Bildpunkte in den begrenzenden Boxen der kodierten Zeichen dividiert, um die gesamte optische Dichte der gerenderten Bitmaps von kodierten Zeichen des Fonts zu erhalten. Das Verhältnis von (i) der gesamten optischen Dichte der ursprünglichen Bitmaps von kodierten Zeichen zu (ii) der gesamten optischen Dichte der gerenderten Bitmaps derselben Zeichen wird berechnet (Schritt 118). Dies ist das Bezugsverhältnis und es wird dem Font zugewiesen (Schritt 120).
1C illustriert ein Verfahren 130 eines Modifizierens von Bitmaps, um optische bzw. visuelle Unterschiede zu reduzieren (Schritt 106 von 1A). In diesem Verfahren werden die ursprünglichen Bitmapworte modifiziert. Das Verfahren bestimmt zuerst, ob das ursprüngliche Bitmapwort ein Font aufweist, das dem Wort oder einem Großteil von Zeichen in demselben Font zuweisbar ist (Schritt 132). Wenn die ursprünglichen Bitmapworte einen Font aufweisen, der dem Wort zugewiesen ist oder eine Mehrzahl von Zeichen in einem gegebenen Font aufweisen, dann wird gesagt, daß das Wort in diesem Font ist und das Bezugsverhältnis des Fonts dem Wort zugewiesen wird (Schritt 134). Wenn das Wort keinen Font, der zu dem Wort zugewiesen ist, oder eine Mehrzahl von Zeichen in demselben Font aufweist, dann wird das Bezugsverhältnis eines benachbarten Worts dem Wort zugewiesen (Schritt 136). In einer Implementierung werden die drei vorhergehenden Worte und die drei dem in Frage stehenden Wort nachfolgenden Worte verwendet, um ein Bezugsverhältnis dem in Frage stehenden bzw. fraglichen Wort zuzuweisen. Diesen Worten werden Punkte entsprechend ihrer Nähe zu dem fraglichen Wort zugeteilt bzw. zugewiesen. Beispielsweise wird, wie dies in 1D gezeigt ist, den zwei am weitesten weg liegenden Worten (Wort 142) von dem in Frage stehenden Wort (Wort 140) ein Punkt verliehen; den nächsten, näher liegenden zwei Worten werden zwei Punkte verliehen (Worte 144); und den am nächsten liegenden zwei Worten (Worte 148) werden drei Punkte verliehen. Innerhalb dieser benachbarten Worte werden Fonts Punkte basierend auf dem Ort der Worte zugewiesen, welche in dem Font sind. Der Font, der eine einfache Mehrheit von Punkten aufweist, ist der eine, der dem in Frage stehenden Wort zugewiesen ist. Beispielsweise, wenn das in Frage stehende Wort das vierte einer Sequenz von sieben Worten ist, und das erste und das siebente Wort in einem Font eins sind, während das zweite, dritte, vierte und sechste Wort in einem Font zwei sind, dann hat Font eins zwei Punkte und Font zwei hat zehn Punkte. Folglich würde Font zwei dem in Frage stehenden Wort zugewiesen und die Fontattribute, enthaltend das Bezugsverhältnis, werden dem Wort zugewiesen.
Bevor der Text angezeigt wird, werden die ursprünglichen Bitmapworte in Übereinstimmung mit einem Korrekturfaktor modifiziert, welcher das Umgekehrte bzw. Inverse des Bezugsverhältnisses ist, das dem Wort zugewiesen ist (Schritt 138 von 1C). 1E illustriert ein Verfahren 150 eines Modifizierens der ursprünglichen Bitmapworte. Zuerst wird die Anzahl von Bildpunkten, die ein- und ausgeschaltet sind, bestimmt. Die optische Dichte der ursprünglichen Bitmap des Worts wird mit dem Korrekturfaktor des Worts multipliziert (Schritt 152). Diese Tätigkeit ergibt eine korri gierte optische Dichte. Der Unterschied zwischen der korrigierten und der ursprünglichen optischen Dichte wird dann genommen (Schritt 154). Dieser Unterschied, multipliziert mit der Gesamtanzahl von Bildpunkten, die verwendet werden, um das Wort darzustellen, ist die Anzahl von Bildpunkten bzw. Pixeln, welche hinzugefügt oder entfernt werden müssen (Schritt 156). Wenn die korrigierte optische Dichte größer als die nicht korrigierte optische Dichte ist, dann werden die Bildpunkte zu der ursprünglichen Bitmap hinzugefügt (Schritt 160). Wenn die korrigierte optische Dichte kleiner als die nicht korrigierte optische Dichte ist, dann werden die Bildpunkte von der ursprünglichen Bitmap entfernt (Schritt 162).
Dann werden die Bildpunkte hinzugefügt oder entfernt. 1F illustriert ein Verfahren zum Hinzufügen oder Entfernen von Bildpunkten von einer Bitmap eines Worts. Eine eingrenzende Box 170 hat eine festgelegte Anzahl von Reihen 172 und Spalten 174. Ein Lauf ist ein aufeinanderfolgender String von Bildpunkten in einer Reihe (z.B. Lauf 180). Ein Lauf startet, wenn Bildpunkte, welche aus sind (z.B. weiß), zu Bildpunkten übergehen, welche ein sind (z.B. schwarz, grau oder gefärbt) (176) oder, wenn ein eingeschalteter Bildpunkt der erste Bildpunkt einer Reihe (178) ist. Ein Lauf endet, wenn Bildpunkte, welche ein sind, zu Bildpunkten übergehen, welche aus sind (182), oder wenn der letzte Bildpunkt einer Reihe erreicht ist (184). Eine Reihe kann mehrere Läufe aufweisen (z.B. gibt es drei Läufe bzw. Durchgänge 180 in der letzten Reihe). Die Anzahl von Bildpunkten, die ein- oder auszuschalten sind, um die optische Dichte eines gegebenen Zeichens einzustellen, wird durch die Gesamtanzahl von Läufen dividiert. Die resultierende Anzahl von Bildpunkten, die pro Lauf hinzuzufügen oder zu entfernen sind, wird auf die nächste ganze Zahl gerundet. Die ganzzahlige Anzahl von Bildpunkten wird zu jedem Lauf in der begrenzenden Box hinzugefügt oder von diesem entfernt, die die Einheit von Text darstellt. Das Hinzuzählen oder Entfernen von Bildpunkten tritt an abwechselnden Enden des Laufs auf (d.h. linkem Ende, rechtem Ende, linkem Ende usw.). Zusätzlich wird für Einstellungen, welche Bildpunkte addieren, keine Addition über die begrenzende Box hinaus getätigt. Für Einstellungen, welche Bildpunkte entfernen, wird kein Lauf vollständig entfernt.
Die Erfindung kann in einer digitalen elektronischen Schaltung, oder in Computerhardware, Firmware, Software oder in Kombinationen davon implementiert sein. Vorrichtungen der Erfindung können in einem Computerprogrammprodukt implementiert sein, das greifbar in einer maschinenlesbaren Speichervorrichtung zur Ausführung durch einen programmierbaren Prozessor ausgebildet bzw. verkörpert ist; und Verfahrensschritte der Erfindung können durch einen programmierbaren Prozessor ausgeführt werden, der ein Programm von Instruktionen ausführt, um Funktionen der Erfindung durch ein Bearbeiten von Eingabedaten und Generieren einer Ausgabe auszuführen. Die Erfindung kann in vorteilhafter Weise in einem oder mehreren Computerprogramm(en) implementiert sein bzw. werden, welche(s) auf einem programmierbaren System ausführbar ist bzw. sind, enthaltend wenigstens einen programmierbaren Prozessor, der gekoppelt ist, um Daten und Instruktionen von einem Datenspeichersystem zu empfangen und Daten und Instruktionen zu diesem zu übertragen, wenigstens eine Eingabevorrichtung und wenigstens eine Ausgabevorrichtung. Jedes Computerprogramm kann in einer Hochniveauverfahren verfahrens- oder objektorientierten Programmiersprache auf hohem Niveau oder in einer Assemblier- oder Maschinensprache implementiert werden, wenn dies gewünscht ist; und in jedem Fall kann die Sprache eine compilierte oder interpretierte Sprache sein. Geeignete Prozessoren enthalten in beispielhafter Weise Mikroprozessoren sowohl für allgemein als auch spezielle Zwecke. Allgemein wird ein Prozessor Instruktionen bzw. Anweisungen und Daten von einem Nur-Lesespeicher und/oder einem Direktzugriffsspeicher erhalten. Allgemein wird ein Computer eine oder mehrere Massenspeichervorrichtungen zum Speichern von Datenfiles bzw. Dateien enthalten, derartige Vorrichtungen enthalten magnetische Disketten, wie innere bzw. interne Festplatten und entfernbare Disketten; magneto-optische Disketten und optische Disketten. Speichervorrichtungen, die für ein greifbares Verkörpern bzw. Ausbilden von Computerprogramminstruktionen und Daten geeignet sind, enthalten alle Formen von nicht flüchtigen Speichern, enthaltend in beispielhafter Weise Halbleiterspeichervorrichtungen, wie EPROM, EEPROM und Flashspeichervorrichtungen; magnetische Disketten, wie interne Festplatten und entfernbare Disketten, magneto-optische Disketten und CD-ROM Disketten. Irgendeine der Vorhergehenden kann durch ASICs ergänzt sein oder in diesen inkorporiert sein (application specific integrated circuits, anwendungsspezifische, integrierte Schaltungen).
Die Erfindung wurde in bezug auf spezielle Ausbildungen beschrieben. Andere Ausbildungen sind innerhalb des Rahmens der folgenden Ansprüche. Beispielsweise können die Schritte der Erfindung in einer unterschiedlichen Reihenfolge ausgeführt werden und immer noch gewünschte Ergebnisse ergeben. Die Erfindung kann über verschiedene Textbereiche, wie Rahmen, einzelne Seiten oder mehrere Seiten ausgeführt werden. In der Berechnung des Bezugsverhältnisses können die optischen Dichten von gerenderten Bitmaps von kodierten Gegen ständen gemessen statt aus dem Kodierten berechnet werden, oder können vorab berechnet und gespeichert werden. In dem Bitmapmodifikationsschritt können vertikale Läufe statt horizontaler Läufe verwendet werden, oder eine Kombination von beiden kann verwendet werden. Bitmaps einer ersten Texteinheit können modifiziert werden, um eine gewünschte optische Dichte zu erzielen, statt daß sie modifiziert werden, um mit der optischen Dichte einer zweiten Texteinheit übereinzustimmen. Ein Bezugsverhältnis kann für individuelle Zeichen in einem Font berechnet werden, und Zeichen können individuell entsprechend ihren eigenen Bezugsverhältnissen modifiziert werden. Bitmaps von nichtkodierten Worten statt Bitmaps von nichtkodierten Zeichen können modifiziert werden. Während allgemein eine Hybridanzeige einer digitalen Darstellung eines Bilds aus einer ursprünglichen Rasterdarstellung generiert bzw. erzeugt wird, die aus einem einzigen Quellenbild bzw. Bild einer einzigen Quelle abgeleitet ist, kann die digitale Darstellung von mehreren Quellen abgeleitet sein, enthaltend einige Quellen, welche ursprünglich digital sind. Die Hybridanzeige kann aus einem einzigen elektronischen Dokument in einem einzigen elektronischen File, enthaltend sowohl kodierte als auch nichtkodierte Darstellungen von Zeichen oder aus mehreren Dokumenten oder Files bzw. Dateien abgeleitet sein. Die Erfindung kann in jeglichen Umständen angewandt werden, wo eine Hybridanzeige aus einer Bitmap generiert werden kann, die ein verdächtiges Wort darstellt (oder einer anderen Einheit von Text) in welche Worte (oder anderen Einheiten von Text) gemischt sind, die von einer Seitenbeschreibungssprache gerendert ist. Die Erfindung kann unter Verwendung einer Vielzahl von Seitenbeschreibungssprachen angewandt werden, enthaltend beispielsweise PDF (Adobe^®Portable Document Format), PostScript, HyperTextMarkup Language (HTML), Rich Text Format (RTF), Standard Generalized Markup Language (SGML) und eXtensible Markup Language (XML). Für einige Seitenbeschreibungssprachen, wie HTML stellt eine Spracherstreckung, wie CSS (Cascading Style Sheets) die Funktionalität zur Verfügung, die erforderlich ist, um Text und Graphiken präzise auf einer Seite zu positionieren.

Claims

Verfahren zum Be- bzw. Verarbeiten von Text, umfassend eine erste Texteinheit und eine zweite Texteinheit, wobei das Verfahren umfaßt: Her- und Ableiten eines Korrekturfaktors für die erste Texteinheit, wobei der Korrekturfaktor von einer kodierten Darstellung der zweiten Texteinheit und einer ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit her- bzw. abgeleitet ist; und Modifizieren einer Darstellung der ersten Texteinheit in Übereinstimmung mit dem Korrekturfaktor; dadurch gekennzeichnet, daß: eine übliche bzw. gemeinsame Fontschriftart sowohl der ersten Texteinheit als auch der zweiten Texteinheit zugewiesen wird; die erste Texteinheit eine nichtkodierte Darstellung eines ersten Textworts umfaßt und die zweite Texteinheit eine kodierte Darstellung eines zweiten Textworts umfaßt; und die Modifikation einen Unterschied bzw. Differenz zwischen einer optischen Dichte der ersten Texteinheit und einer gewünschten optischen Dichte reduziert, die von der zweiten Texteinheit her- bzw. abgeleitet wird, wenn sie durch eine Ausgabevorrichtung reproduziert wird; wobei die nichtkodierte Darstellung des ersten Worts ein Bitmap ist und wobei ein Modifizieren des Aussehens der ersten Texteinheit weiters umfaßt: ein Einstellen bzw. Anpassen der optischen Dichte des ersten Worts durch ein Modifizieren der Bitmapdarstellung des ersten Worts, wobei Bildpunkte bzw. Pixel zu der Bitmap addiert werden oder von dieser entfernt werden, oder die Bitmap unverändert gelassen wird, und zwar gemäß dem Wert des Korrekturfaktors.
Verfahren nach Anspruch 1, wobei: der Korrekturfaktor durch ein Rendern bzw. Wiedergeben der Darstellung der zweiten Texteinheit in der Fontschriftart, um eine gerenderte Darstellung zu generieren bzw. zu erzeugen, und ein Berechnen eines Bezugs- bzw. Referenzverhältnisses einer optischen Dichte von der gerenderten Darstellung und der ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit berechnet wird.
Verfahren nach Anspruch 1, weiters umfassend: ein Anzeigen bzw. Darstellen der modifizierten Darstellung der ersten Texteinheit und einer nichtmodifizierten Darstellung einer zweiten Texteinheit gemeinsam auf einer Rasterausgabevorrichtung.
Verfahren nach Anspruch 3, wobei die Rasterausgabevorrichtung ein Drucker, eine Rasterabtastanzeigevorrichtung oder eine digitale Setzmaschine ist.
Verfahren nach Anspruch 1, weiters umfassend: ein Speichern des Textes, beinhaltend die modifizierte Darstellung der ersten Texteinheit und eine nichtmodifizierte Darstellung einer zweiten Texteinheit, gemeinsam in einem elektronischen Dokument.
Verfahren nach Anspruch 5, wobei das elektronische Dokument in einer Sprache dargestellt wird, umfassend eine Seitenbeschreibungssprache, die aus einer Gruppe, beinhaltend PDF, PostScript, RTF, HTML, SGML und XML, gewählt wird.
Verfahren nach Anspruch 1, wobei ein Her- bzw. Ableiten eines Korrekturfaktors umfaßt: ein Berechnen eines Referenzverhältnisses für die Fontschriftart als das Verhältnis von (i) der gesamten optischen Dichte einer ursprünglichen nichtkodierten Darstellung einer Gruppe von Buchstaben bzw. Zeichen aus dem Text zu (ii) der gesamten optischen Dichte von gerenderten Bitmaps für eine kodierte Darstellung von Buchstaben bzw. Zeichen derselben Gruppe, die von der Fontschriftart gerendert werden; und Zuweisen des Umgekehrten des Referenzverhältnisses als den Korrekturfaktor für Texteinheiten in der Fontschriftart.
Verfahren nach Anspruch 1, wobei die Anzahl von Bildpunkten bzw. Pixel, die addiert oder entfernt werden, auf dem Produkt des Korrekturfaktors, der zugewiesen ist, und der Anzahl von Bildpunkten in der Bitmap des Worts basiert.
Verfahren nach Anspruch 8, wobei ein Addieren oder Entfernen von Bildpunkten weiters umfaßt: ein Berechnen einer Anzahl von. Bildpunkten, die für jeden Lauf in der Bitmap zu addieren bzw. hinzuzufügen oder zu entfernen sind, durch ein Teilen bzw. Unterteilen der Anzahl von Bildpunkten, die hinzuzufügen oder zu entfernen sind, durch eine Gesamtanzahl von Läufen bzw. Runs in der Bitmap; und ein Hinzufügen bzw. Addieren oder Entfernen der Anzahl von Bildpunkten, die für jeden Lauf am Ende von jedem Lauf hinzuzufügen oder zu entfernen sind.
Computerprogrammprodukt, das Instruktionen besitzt, die bearbeitbar sind, um einen Computer zu veranlassen, Text mit einer ersten Texteinheit und einer zweiten Texteinheit zu ver- bzw. bearbeiten, wobei das Computerprogrammprodukt greifbar bzw. zugreifbar auf einem computerlesbaren Medium gespeichert ist, wobei das Produkt Instruktionen umfaßt, die abarbeitbar sind, um einen Prozessor zu veranlassen zum: Her- bzw. Ableiten eines Korrekturfaktors für eine erste Texteinheit, wobei der Korrekturfaktor von einer kodierten Darstellung der zweiten Texteinheit und einer ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit her- bzw. abgeleitet ist; und Modifizieren einer Darstellung der ersten Texteinheit in Übereinstimmung mit dem Korrekturfaktor, dadurch gekennzeichnet, daß: eine übliche bzw. gemeinsame Fontschriftart sowohl zu der ersten Texteinheit als auch der zweiten Texteinheit zugewiesen ist, die erste Texteinheit eine nichtkodierte Darstellung eines ersten Textworts umfaßt, und die zweite Texteinheit eine kodierte Darstellung eines zweiten Textworts umfaßt, und die Modifikation einen Unterschied bzw. Differenz zwischen einer optischen Dichte der ersten Texteinheit und einer gewünschten optischen Dichte reduziert, die von der zweiten Texteinheit abgeleitet ist, wenn sie durch eine Ausgabevorrichtung reproduziert wird, und wobei die nichtkodierte Darstellung des ersten Worts eine Bitmap ist und wobei die Instruktionen, die ausführbar sind, um den Computer zu veranlassen, das Aussehen der ersten Texteinheit zu modifizieren, Instruktionen umfaßt, um: die optische Dichte des ersten Worts durch ein Modifizieren der Bitmapdarstellung des ersten Worts zu modifizieren bzw. anzupassen, wobei Bildpunkte bzw. Pixel zu der Bitmap addiert bzw. hinzugefügt oder von dieser entfernt werden oder die Bitmap unverändert bleibt, und zwar gemäß dem Wert des Korrekturfaktors.
Produkt nach Anspruch 10, weiters umfassend Instruktionen, um: den Korrekturfaktor durch ein Rendern bzw. Wiedergeben der Darstellung der zweiten Texteinheit in der Fontschriftart, um eine gerenderte Darstellung zu generieren bzw. zu erzeugen, und ein Berechnen eines Bezugsverhältnisses von der gerenderten Darstellung und einer optischen Dichte der ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit zu berechnen.
Produkt nach Anspruch 10, weiters umfassend Instruktionen, um: die modifizierte Darstellung der ersten Texteinheit und eine nichtmodifizierte Darstellung einer zweiten Texteinheit gemeinsam auf einer Rasterausgabevorrichtung anzuzeigen.
Produkt nach Anspruch 12, wobei die Rasterausgabevorrichtung ein Drucker, eine Rasterabtastanzeigevorrichtung oder eine digitale Setzmaschine ist.
Produkt nach Anspruch 10, weiters umfassend Instruktionen, um: den Text, beinhaltend die modifizierte Darstellung der ersten Texteinheit und eine nichtmodifizierte Darstellung einer zweiten Texteinheit gemeinsam in einem elektro nischen Dokument zu speichern.
Produkt nach Anspruch 14, wobei das elektronische Dokument in einer Sprache dargestellt ist, umfassend eine Seitenbeschreibungssprache, die aus einer Gruppe, beinhaltend PDF, PostScript, RTF, HTML, SGML und XML gewählt ist.
Produkt nach Anspruch 10, wobei die Instruktionen, die ausführbar sind, um einen Computer zu veranlassen, einen Korrekturfaktor her- bzw. abzuleiten, Instruktionen umfassen, um: ein Bezugsverhältnis für die Fontschriftart als das Verhältnis von (i) der gesamten optischen Dichte einer ursprünglichen nichtkodierten Darstellung einer Gruppe von Buchstaben bzw. Zeichen von dem Text zu (ii) der gesamten optischen Dichte von gerenderten Bitmaps für eine kodierte Darstellung derselben Gruppe von Buchstaben bzw. Zeichen zu berechnen, die von der Fontschriftart gerendert sind, und das Umgekehrte des Bezugsverhältnisses als den Korrekturfaktor für Texteinheiten in der Fontschriftart zuzuweisen.
Produkt nach Anspruch 10, wobei die Anzahl von Bildpunkten bzw. Pixel, die hinzugefügt bzw. addiert oder entfernt ist, auf dem Produkt des Korrekturfaktors, der dem Wort zugewiesen ist, und der Anzahl von Bildpunkten bzw. Pixel in der Bitmap des Worts basiert.
Produkt nach Anspruch 17, weiters umfassend Instruktionen, um: eine Anzahl von Bildpunkten, die für jeden Lauf in der Bitmap hinzuzufügen bzw. zu addieren oder zu entfernen sind, durch ein Dividieren der Anzahl von Bildpunkten, die hinzuzufügen bzw. zu addieren oder zu entfernen sind, durch eine Gesamtanzahl von Läufen bzw. Runs in der Bitmap zu berechnen; und die Anzahl von Bildpunkten, die für jeden Lauf hinzuzufügen oder zu entfernen sind, am Ende von jedem Lauf zu addieren, hinzuzufügen oder zu entfernen.
System zum Be- bzw. Verarbeiten von Text, der eine erste Texteinheit und eine zweite Texteinheit aufweist, umfassend: Mittel zum Her- bzw. Ableiten eines Korrekturfaktors für die erste Texteinheit, wobei der Korrekturfaktor von einer kodierten Darstellung der zweiten Texteinheit und einer ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit her- bzw. abgeleitet ist; und Mittel zum Modifizieren einer Darstellung der ersten Texteinheit in Übereinstimmung mit dem Korrekturfaktor, dadurch gekennzeichnet, daß: eine übliche bzw. gemeinsame Fontschriftart sowohl zu der ersten Texteinheit als auch der zweiten Texteinheit zugewiesen ist, die erste Texteinheit eine nichtkodierte Darstellung eines ersten Textworts umfaßt und die zweite Texteinheit eine kodierte Darstellung eines zweiten Textworts umfaßt; und die Modifikation einen Unterschied bzw. Differenz zwischen einer optischen Dichte der ersten Texteinheit und einer gewünschten optischen Dichte reduziert, die von der zweiten Texteinheit her- bzw. abgeleitet ist, wenn sie durch eine Ausgabevorrichtung reproduziert wird, wobei das System weiters umfaßt: Mittel zum Einstellen bzw. Anpassen der optischen Dichte des ersten Worts durch ein Modifizieren einer Bitmapdarstellung des ersten Worts, wobei Bildpunkte bzw. Pixel zu der Bitmap addiert bzw. hinzugefügt oder von dieser entfernt sind oder die Bitmap unverändert bleibt, und zwar gemäß dem Wert des Korrekturfaktors.
System nach Anspruch 19, weiters umfassend: Mittel zum Berechnen des Korrekturfaktors durch ein Rendern bzw. Wiedergeben der Darstellung der zweiten Texteinheit in der Fontschriftart, um eine gerenderte Darstellung zu generieren bzw. zu erzeugen, und Berechnen eines Referenzverhältnisses von der gerenderten Darstellung und einer optischen Dichte der ursprünglichen nichtkodierten Darstellung der zweiten Texteinheit.
System nach Anspruch 19, weiters umfassend: Mittel zum Anzeigen der modifizierten Darstellung der ersten Texteinheit und einer nichtmodifizierten Darstellung einer zweiten Texteinheit gemeinsam auf einer Rasterausgabevorrichtung.
System nach Anspruch 19, weiters umfassend: Mittel zum Speichern des Texts, beinhaltend die modifizierte Darstellung der ersten Texteinheit und eine nichtmodifizierte Darstellung einer zweiten Texteinheit, gemeinsam in einem elektronischen Dokument.
System nach Anspruch 19, weiters umfassend: Mittel zum Berechnen eines Bezugsverhältnisses für die Fontschriftart als das Verhältnis von (i) der gesamten optischen Dichte einer ursprünglichen nichtkodierten Darstellung einer Gruppe von Buchstaben bzw. Zeichen aus dem Text zu (ii) der gesamten optischen Dichte von gerenderten Bitmaps für eine kodierte Darstellung derselben Gruppe von Buchstaben bzw. Zeichen, die von der Fontschriftart gerendert sind; und Mittel zum Zuweisen des Umgekehrten des Referenzverhältnisses als den Korrekturfaktor für Texteinheiten in der Fontschriftart.