DE69722971T2

DE69722971T2 - Automatisches sprachenerkennungssystem für die mehrsprachige optische zeichenerkennung

Info

Publication number: DE69722971T2
Application number: DE69722971T
Authority: DE
Inventors: R. Bokser; Chan Choy; Tapas Kanungo; K. Pon; Jun Yang
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 1997-09-15
Filing date: 1997-11-20
Publication date: 2003-12-04
Anticipated expiration: 2017-11-21
Also published as: EP1016033B1; CN1122243C; CN1276077A; EA001689B1; EP1016033A1; US6047251A; DE69722971D1; ATE243342T1; WO1999014708A1; EA200000321A1; AU5424498A

Description

Bereich der Erfindung

Die Erfindung betrifft im Allgemeinen die Unterscheidung zwischen mehreren Sprachen in Kommunikationen, und insbesondere die automatische Erkennung von verschiedenen Sprachen in einem mehrsprachigen Dokument für Zwecke optischer Zeichenerkennung (OCR) und dergleichen.

Hintergrund der Erfindung

Allgemein ausgedrückt umfaßt optische Zeichenerkennung das Unterteilen eines Bildes eines Dokumentes in einzelne Symbole und Gruppen von Symbolen, und Vergleichen der Bilder der Symbole mit Musterinformation, welche repräsentativ für verschiedene Zeichen bezogen auf die Buchstaben eines Alphabetes, Nummern und dergleichen, sind. Um die Genauigkeit des Erkennungsvorganges zu erhöhen, setzen OCR-Maschinen Techniken ein, die auf den Charakteristiken einer besonderen Sprache basieren. Beispielsweise kann die Sprachinformation dazu eingesetzt werden, geeignete Klassifizierer, Wörterbücher, Bigramm- und Trigrammsymbolwahrscheinlichkeiten auszuwählen, sowie sprachspezifische Formate von Daten, Nummern etc. zu erkennen.
Wenn in der Vergangenheit ein OCR-System in der Lage war, Text in verschiedenen Sprachen zu erkennen, mußte der Benutzer die Sprache des Textes in einem eingescannten Bild von Hand spezifizieren, um das OCR-System in die Lage zu versetzen, die Symbole und Worte in dem Dokumentbild exakt zu erkennen. Für ein Einsprachendokument war diese Aufgabe relativ einfach. Für eine optimale OCR-Verarbeitung von mehrsprachigen Seiten mußten jedoch verschiedene Zonen, welche Text in verschiedenen jeweiligen Sprachen enthielten, abgegrenzt werden und jede Zone mit der korrekten Sprachenmarke identifiziert werden. Die Notwendigkeit für ein solches manuelles Einschreiten kann arbeitsintensiv sein, was in höheren Kosten resultiert und den gesamten Bild-Zu-Text- Umwandlungsvorgang erheblich verlangsamt.
Da Unternehmen weiterhin global anwachsen, werden mehrsprachige Dokumente immer üblicher. Beispiele solcher Dokumente umfassen Benutzerhandbücher, welche auf mehrere Länder abzielen und welche daher mehrere Sprachen auf einer Seite haben können, und Reisebroschüren, welche genaue Mengen von Information in einer Vielzahl von mehrsprachigen Darstellungen bereitstellen. In diesen Arten von Dokumenten kann der gleiche Typ von Information in verschiedenen Sprachen beschrieben sein sowohl in verschiedenen Paragraphen als auch Spalten oder Seiten. Anderer Beispiele von mehrsprachigen Dokumenten umfassen Magazine von Fluggesellschaften, welche Information für internationale Touristen und Geschäftsreisende bereitstellen, internationale Geschäftskorrespondenz, welche einen Kopf in der Sprache des Ursprungslandes und einen Hauptanteil in der Sprache des Ziellandes aufweist, und Einwanderungsdokumente, welche Anleitungen in verschiedenen Sprachen umfassen. Daher ergibt sich eine wachsende Notwendigkeit für die Fähigkeit, automatisch zwischen verschiedenen Sprachen in einem einzelnen Dokument zu unterscheiden und diese zu identifizieren.
In der Vergangenheit haben Versuche einer automatischen Sprachidentifikation einen von zwei allgemeinen Ansätzen eingesetzt. In einem Ansatz beruht die Sprachidentifikation auf Merkmalen, welche aus Bildern von Wortgruppierungen extrahiert sind. Beispiele für diesen Ansatz sind z. B. beschrieben in T. Nakayama und A. L. Spitz, "European Language Determination From Image", Proc of Int. Conf. on Document Analysis and Recognition, Tsukuba, Japan, 1993; P. Sibun und A. L. Spitz, "Language Determination: Natural Language Processing From Scanned Document Images", Proc. Of Conf. On App. Natural Language Processing, Stuttgart, Deutschland, 1994; und A. L. Spitz, "Script and Language Determination from Document Images", Proc. Of Symp. On Document Analysis and Information Retrieval, Las Vegas, Nevada, 1994. Techniken des in diesen Referenzen beschriebenen Typs benötigen einen erheblichen Umfang von Text in der betreffenden Sprache, damit die Identifikation verläßlich ist. Wenn die Textsprache relativ häufig wechselt, z. B. von Zeile zu Zeile, ist es nicht möglich, genügend statistische, merkmalsbasierte Hinweise zu erhalten, um eine Sprache von der anderen zu unterscheiden.
Ein zweiter Ansatz zur Sprachidentifikation nutzt eine Worthäufigkeit und Bigrammwahrscheinlichkeiten. Beispiele dieses Ansatzes sind beschrieben in H. S. Baird, D. Gilbert, und D. J. Ittner, "A Family Of European Page Readers", Proc. Of Int. Conf. on Pattern Recognition, Jerusalem, Israel, 1994; und D. Lee, C. Nohl und H. Baird, "Language Identification in Complex, Unoriented, And Degraded Document Images", Proc. Of IAPR Workshop on Document Analysis Systems, Malvern, PA, 1996. Dieser Ansatz ist nur auf Dokumente des Typs anwendbar, bei dem jede Seite Text in einer einzigen Sprache umfaßt. Er stellt nicht die Möglichkeit bereit, zwischen zwei verschiedenen Sprachen auf der gleichen Seite zu unterscheiden, wenn zuvor keine manuelle Untergliederung vollzogen wurde.
Desweiteren erfordert er Dokumentbilder mit relativ hoher Wiedergabetreue, um vertrauenswürdige Übergangswahrscheinlichkeiten für die Sprachmodelle zu erzielen.
Es ist daher wünschenswert, ein System zur automatischen Unterscheidung zwischen und Identifizierung von mehreren Sprachen bereitzustellen, welches keine vorhergehende, manuelle Eingabe erfordert, und welche in der Lage ist, ein Bild in homogene Sprachregionen zu unterteilen, um verläßlich eine Mehrzahl von verschiedenen Sprachen auf einer einzelnen Seite zu identifizieren, und dadurch zu ermöglichen, daß optische Zeichenerkennung mit höherer Geschwindigkeit und Genauigkeit durchgeführt werden kann.

Zusammenfassung der Erfindung

In Verfolgung der vorhergehenden Aufgaben setzt die vorliegende Erfindung einen wörterbuchbasierenden Ansatz ein, um verschiedene Bereiche eines Dokumentbildes in homogene Sprachbereiche zu unterteilen. Das Unterteilen des Dokumentes kann durchgeführt werden mittels eines Oben-nach-unten-Ansatzes, eines Unten-nach-oben-Ansatzes oder einer Verknüpfung der beiden. In dem Oben-nach- unten-Ansatz wird das Dokument in Zonen und Wortgruppierungen untergliedert mittels geeigneter geometrischer Eigenschaften. Innerhalb jeder Zone werden die Wortgruppierungen verglichen mit Wörterbüchern, welche zu jeder der verschiedenen in Betracht kommenden Sprachen zugeordnet sind, um einen Vertrauensfaktor für jede Sprache definieren. Die Sprache mit dem höchsten Vertrauensfaktor wird anfänglich als die Sprache der Zone identifiziert. Jede Zone ist in lokale Bereiche geteilt, von denen jeder ein einzelnes Wort oder eine Gruppierung von Worten, wie eine Zeile, umfaßt. Die Sprache für jeden lokalen Bereich wird identifiziert mittels eines wörterbuchbasierenden Vertrauensfaktors für Wörter dieses Bereichs. Die lokalen Bereiche werden dann getrennt gemäß der zu jedem von ihnen zugeordneten Sprache.
In dem Unten-nach-oben-Ansatz wird das Dokumentbild in einzelne Wortgruppierungen zergliedert und ein Vertrauensfaktor wird für jedes Wort für jede in Betracht kommende Sprache bestimmt. Das Dokumentbild wird geteilt in lokale Bereiche, welche wiederum ein einzelnes Wort oder eine Gruppierung von Worten, wie eine Zeile, umfassen. Die Sprache für jeden lokalen Bereich wird identifiziert mittels eines wörterbuchbasierenden Vertrauensfaktors für die Wörter dieser Region. Die lokalen Bereiche, welche eine gemeinsame Sprache aufweisen, werden dann gruppiert gemäß der jeder von ihnen zugeordneten Sprache, um homogene Sprachbereiche zu erzielen.
In dem verknüpften Ansatz wird das Dokumentbild zuerst in eine oder mehrere Zonen untergliedert, und eine Sprache wird für jede Zone identifiziert. Daran anschließend wird der Oben-nach-unten-Ansatz ausgeführt, und die Zonensprache wird eingesetzt in der Bestimmung der Gruppierungen von lokalen Bereichen, um die homogenen Sprachbereiche zu bilden. Weitere Merkmale der Erfindung und dadurch erreichte Vorteile werden im Anschluß im einzelnen beschrieben unter Bezugnahme von beispielhaften Ausführungsformen, welche in den begleitenden Zeichnungen veranschaulicht sind.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist ein Blockdiagramm eines Computersystems des Typs, bei dem die vorliegende Erfindung eingesetzt werden kann;
Fig. 2 ist ein Blockdiagramm, welches die allgemeinen Schritte veranschaulicht, welche ausgeführt werden in der optischen Zeichenerkennung eines Dokumentes;
Fig. 3 ist eine schematische Wiedergabe eines mehrsprachigen Dokuments;
Fig. 4 ist ein Flußdiagramm eines Gesamtvorgangs einer ersten Ausführungsform der vorliegenden Erfindung;
Fig. 5 ist ein Flußdiagramm der Unterroutine zum Bestimmen einer Wort-Sprache-Vertrauensstatistik;
Fig. 6 ist ein Flußdiagramm der Unterroutine zum Definieren einer Bereichs-Sprache-Vertrauensstatistik
Fig. 7 ist ein Flußdiagramm der Unterroutine zum Zusammenfassen von Bereichen in Unterzonen;
Fig. 8 ist ein Flußdiagramm des Gesamtvorgangs einer zweiten Ausführungsform der vorliegenden Erfindung;
Fig. 9 ist ein Flußdiagramm der Unterroutine zum Definieren einer Zonensprache;
Fig. 10 ist ein Flußdiagramm der Unterroutine zum Definieren einer Bereichssprache; und
Fig. 11 ist ein Flußdiagramm der Unterroutine zum Unterteilen von Bereichen in Unterzonen.
Um ein Verständnis der vorliegenden Erfindung zu erleichtern, ist sie im Anschluß unter besonderer Bezugnahme auf die optische Zeichenerkennung einer Dokumentseite, welche Text in mehreren Sprachen umfaßt, beschrieben. Während die vorliegende Erfindung besonders geeignet ist für eine solche Anwendung, wird angemerkt, daß sie nicht auf diesen speziellen Einsatztyp beschränkt sein soll. Vielmehr können die Prinzipien, welche der Erfindung unterliegen, in einer Vielzahl verschiedener Zusammenhänge eingesetzt werden, wo immer wünschenswerterweise die Notwendigkeit besteht, zwischen verschiedenen Sprachen zu unterscheiden und diese zu identifizieren.
Die automatische Identifikation von Sprachen, oder allgemeiner, optische Zeichenerkennung, kann auf einer Vielzahl von Computersystemen ausgeführt werden. Während die speziellen Hardwarekomponenten eines Computersystems nicht Teil der Erfindung selbst bilden, sind sie hierin kurz beschrieben, um ein tieferes Verständnis der Art und Weise zu geben, auf die die Merkmale der Erfindung mit den Komponenten eines Computersystems zusammenwirken, um die gewünschten Ergebnisse zu erzielen.
Bezugnehmend auf Fig. 1 umfaßt ein beispielhaftes Computersystem einen Computer 10 mit einer Vielzahl von externen, daran angeschlossenen Peripherievorrichtungen 12. Der Computer 10 umfaßt eine zentrale Prozeßeinheit (CPU) 14 und dazu zugeordneten Speicher. Dieser Speicher umfaßt im Allgemeinen einen Haupt- oder Arbeitsspeicher, welcher typischerweise in der Form eines flüchtigen Speichers (Random Access Memory, RAM) 16, eines statischen Speichers, der einen Nur-Lese-Speicher (Read Only Memory, ROM) 18 umfassen kann, und einer Permanent- Speichervorrichtung, wie einer magnetischen oder optischen Scheibe 20 ausgeführt. Die CPU kommuniziert mit jeder dieser Formen von Speicher durch einen internen Bus 22. Die Peripherievorrichtungen 12 umfassen eine Dateneingabevorrichtung, wie eine Tastatur 24, und eine Zeige- oder Cursorsteuervorrichtung 26, wie eine Maus, ein Stift oder dergleichen. Eine Anzeigevorrichtung 28, wie ein Kathodenstrahlröhrenmonitor oder ein LCD- Bildschirm, stellen eine visuelle Anzeige der Information bereit, welche innerhalb des Computers verarbeitet wird, z. B. eines Bildes eines Dokumentes, welches einer optischen Zeichenerkennung unterzogen wird. Ein Ausdruck der Information kann durch einen Drucker 30 bereitgestellt werden oder eine ähnliche Vorrichtung. Kommunikationen mit anderen Computern können durch ein Modem 32 geführt werden und/oder eine Netzwerkschnittstellenkarte 34. Ein Scanner 36 kann eingesetzt werden, um einen Ausdruck eines Dokumentes in ein elektronisches Format, welches zu speichern, zu manipulieren und innerhalb des Computers zu verarbeiten ist, zu konvertieren. Jede dieser externen Peripherievorrichtungen tauscht Daten mit der CPU 14 mittels einem oder mehrerer Eingabe/Ausgabe-Anschlüsse 38 an dem Computer aus.
Bei einem Arbeitsvorgang kann der Benutzer ein Dokument über den Scanner 36 einscannen, woraufhin ein Datenfile, welches das Bild des Dokumentes beschreibt, in dem Hauptspeicher 16 gespeichert wird. Das gescannte Dokument kann auch auf dem Monitor 28 dargestellt werden. Während die Inhalte der Bilddatei in dem Hauptspeicher 16 gespeichert werden, kann optische Zeichenerkennungsverarbeitung an ihnen durchgeführt werden, um Zeichendaten für den Text-Anteil des Bildes zu entwickeln. Das Ergebnis der optischen Zeichenerkennung ist die Erzeugung einer separaten Datendatei wie einer ASCII-Datei. Eine oder beide der Bilddatei und der Zeichendatendatei kann in der Permanentspeichervorrichtung 20 gespeichert werden und/oder zu einem weiteren Computer über das Modem 32 oder ein Netzwerk übertragen werden.
Fig. 2 veranschaulicht die grundlegenden Schritte, welche durch die CPU des Computers während eines typischen optische Zeichenerkennungsvorganges durchgeführt werden. Bezugnehmend hierauf wird zuerst das Bild des Dokumentes in den Computer als Schritt 40 importiert, z. B. mittels des Scanners 36 oder indem es über ein Kommunikationsnetzwerk heruntergeladen wird. In einem optionalen Vorverarbeitungsschritt 42 wird das Bild des Dokumentes um eine Verkippung korrigiert und auf andere Weise gefiltert, um Artefakte zu entfernen, die mit dem Zeichenerkennungsvorgang wechselwirken könnten. Wenn beispielsweise ein fehlerhafter Scanner eine vertikale Linie entlang des Bildes einfügt, kann diese Linie detektiert werden und geeignet vor einer weiteren Verarbeitung entfernt werden. Daran anschließend wird das Dokumentbild in eine Anzahl von Zonen in Schritt 44 untergliedert. Ein Beispiel einer solchen Untergliederung ist in Fig. 3 veranschaulicht. In dem Beispiel dieser Figur umfaßt eine Seite 46 drei Textspalten, welche jede aus zwei Absätzen bestehen. Wenn das Dokument eine mehrsprachige Benutzeranleitung ist, kann z. B. jede Spalte oder jeder einzelne Absatz Text in einer unterschiedlichen Sprache umfassen. Die Untergliederung des Bildes kann zum Unterteilen des Dokumentes in drei Zonen 48a, 48b und 48c führen, welche jeweils zu den drei Spalten korrespondieren. Abhängig von dem Grad der gewünschten Genauigkeit kann das Dokument feiner in kleinere Zonen unterteilt werden. Beispielsweise kann jeder Absatz oder sogar jede Zeile oder Halbzeile eine unterschiedliche Zone bilden. Allgemein kann eine Zone jeder Teil des Dokumentes sein, welcher zwei oder mehr Wortgruppierungen umfaßt.
Die Vorverarbeitungsschritte zum Korrigieren einer Verkippung und zum Entfernen von Artefakten wie auch die Untergliederung des Dokumentes können ausgeführt werden in Übereinstimmung mit jeder beliebigen einer Vielzahl von wohlbekannten Techniken. Beispiele solcher Techniken sind beschrieben in "Document Image Analysis", von L.O'Gorman und R. Kasturi, IEEE Comp. Soc. Press, 1995, insbesondere Kapitel 4.
Sobald das Dokument in Segmente unterteilt wurde, werden die einzelnen Wortgruppierungen, d. h. Gruppierungen von Zeichensymbolen, welche einzelne Worte zu bilden scheinen; identifiziert mittels wiederum herkömmlichen optische Zeichenerkennungstechniken. Für jede Wortgruppierung werden eine oder mehrere Annahmen für die möglichen Zeichenketten, welche die Wortgruppierung bilden, in Schritt 50 erzeugt mittels eines Symbolklassifizierers. Detaillierte Informationen hinsichtlich solcher Klassifizierer und ihrer Wirkungsweise kann gefunden werden in "Pattern Classification and Scene Analysis" von Duda und Hart, Wiley & Sons, 1973. Das Ergebnis des ursprünglichen OCR- Schrittes 50 ist eine Abschätzung der Zeichen in jeder der einzelnen Wortgruppierungen. Jede Wortabschätzung oder Annahme kann eine zugeordnete Erkennungswahrscheinlichkeit aufweisen, welche die Wahrscheinlichkeit angibt, daß die Schätzung richtig ist, relativ zu anderen Wortschätzungen für die selbe Wortgruppierung.
Allgemein ausgedrückt setzt optische Zeichenerkennung einen Klassifizierer ein, der Muster oder Symbole erkennt, welche zu den Zeichen eines Alphabetes, Nummern, Satzzeichen, etc. entspricht. Wenn die spezifische Sprache eines Dokumentes, welches verarbeitet wird, bekannt ist, kann der Klassifizierer auf diese Sprache zugeschnitten werden. In dem Beispiel aus Fig. 3 sind jedoch mehrere Sprachen vorhanden, welche nicht a priori bekannt sein können. In diesem Fall ist der Zeichenklassifizierer, welcher für die Erzeugung der ursprünglichen Wortannahme eingesetzt wird, vorzugsweise einer, der typisch für alle möglichen Sprachen, die zu erkennen sind, ist. Wenn z. B. die optische Zeichenerkennungstechnik dafür entwickelt ist, die verschiedenen romanischen Sprachen zu identifizieren und zwischen diesen zu unterscheiden, kann der typische Symbolklassifizierer derart ausgelegt sein, alle oder die meisten der Symbole in diesen Sprachen zu erkennen. Als Alternative zu dem Einsatz von typischen Klassifizierern ist es möglich, einen Klassifizierer einzusetzen, der spezifisch für eine Sprache ist, aber welcher mit Nachverarbeitungsfähigkeiten erweitert ist, um Symbole zu erkennen, welche nicht in dieser Sprache auftreten können.
Sobald die Worte ursprünglich abgeschätzt wurden, ist die dem Text in jeder der Zonen zugeordnete Sprache identifiziert in Schritt 52, wie in genaueren Einzelheiten im Anschluß beschrieben. Als ein Ergebnis kann dann eine aggressivere optische Zeichenerkennung, welche einen höheren Grad an Genauigkeit ermöglicht, durchgeführt werden in Schritt 54 mit dem Einsatz von Klassifizierern, die spezifisch für jede identifizierte Sprache sind. Das Endprodukt dieser Verarbeitung ist ein Datenfile 56, welches die einzelnen Zeichen des Textes in dem Originalbild, wie einer ASCII-Datei, wiedergibt.
Allgemein setzt die vorliegende Erfindung einen wörterbuchbasierten Ansatz ein, bei dem ein Wörterbuch von in einer speziellen Sprache gefundenen Wörtern verwendet wird, um Text in dieser Sprache zu identifizieren. Für jede mögliche, zu identifizierende Sprache wird ein Wörterbuch angelegt für die Wörter in dieser Sprache. Daher kann, wenn z. B. auf römischen Alphabeten basierende Sprachen zu identifizieren sind, ein Wörterbuch eingerichtet werden für jede der folgenden Sprachen: Amerikanisches Englisch, britisches Englisch, französisch, italienisch, deutsch, schwedisch, norwegisch, finnisch, dänisch, portugiesisch, brasilianisches portugiesisch, spanisch und holländisch. Jedes Wörterbuch kann ein Teilwörterbuch sein, welches nur die gebräuchlichsten Wörter in der Sprache umfaßt, oder ein Gesamtwörterbuch, welches einen vollständigeren Umfang von Wörtern aus dieser Sprache umfaßt. Das Wörterbuch kann auch statistische Information über die Wörter umfassen, z. B. die Häufigkeit, mit der sie gewöhnlich in der Sprache auftreten. Als eine Alternative zu dem Einsatz eines separaten Wörterbuches für jede mögliche Sprache ist es möglich, ein einzelnes Wörterbuch einzusetzen, welches alle Wörter für die verschiedenen, möglichen Sprachen umfaßt. In diesem Fall gibt jeder Eintrag in dem Wörterbuch Daten zurück, welche die Sprachen angeben, in denen dieses Wort auftritt.
In einer Ausführungsform der Erfindung wird eine Vertrauensstatistik für jede mögliche Sprache berechnet für jede der Zonen 48a bis 48c des Dokumentes. In einer relativ einfachen Implementierung der Erfindung kann die Vertrauensstatistik berechnet werden durch Zählen der Anzahl von Wörtern in der Zone, die in jedem der jeweiligen Wörterbücher gefunden sind. Andere kompliziertere Ansätze können auch eingesetzt werden, um die Vertrauensstatistik zu berechnen, wie im Anschluß detailliert beschrieben. Die Sprache mit der höchsten Vertrauensstatistik wird bestätigt und als eine ursprüngliche Schätzung der Sprache für die Zone eingesetzt.
Abhängig davon, wie fein sie ausgeführt ist, kann es der Fall sein, daß die Zonenuntergliederung nicht in Zonen resultiert, die jede nur eine Sprache umfassen. In dem Beispiel von Fig. 3 kann z. B. jeder der zwei Absätze in den jeweiligen Zonen 48a bis 48c in einer verschiedenen Sprache sein. Daher wird, nachdem die ursprüngliche Zonensprache identifiziert wurde, jede der Zonen weiter in lokale Bereiche geteilt. Ein lokaler Bereich kann so klein wie eine einzelne Wortgruppierung sein. Bevorzugter besteht ein lokaler Bereich jedoch aus einer logischen Gruppe von Wörtern, wie einer oder mehrere Zeilen des Dokumentes. Die Sprache für jeden Bereich wird identifiziert mittels einer wörterbuchbasierten Vertrauenstatistik für den Bereich. Aufeinanderfolgende Bereiche mit der gleichen Sprachidentität werden dann zusammengefügt. Für jeden gegebenen Bereich wird, wenn keine der möglichen Sprachen eine hohe Sprachvertrauensstatistik aufweist, die dieser Region zugeordnete Zonensprache als eine Standardbereichssprachenidentität eingesetzt.
Das vorhergehende Verfahren zum Untergliedern eines Dokumentes in homogene Sprachbereiche kann in Übereinstimmung mit der Erfindung auf verschiedene Arten implementiert sein. Ausführungsformen der Erfindung, welche diese verschiedenen Ansätze wiedergeben, sind im einzelnen in den Flußdiagrammen der Fig. 4 bis 11 veranschaulicht. Allgemein ausgedrückt können die verschiedenen Ansätze klassifiziert werden als ein Unten- nach-oben-Ansatz, ein Oben-nach-unten-Ansatz und ein Mischansatz, welcher Konzepte von jedem der beiden anderen Ansätze einsetzt. Fig. 4 gibt einen Gesamtspracherkennungsvorgang in Übereinstimmung mit dem Oben-nach-unten-Ansatz wieder. In Schritt 100 wird das Dokument gescannt oder ein Bild des Dokumentes wird auf andere Weise importiert in den flüchtigen Speicher 16 des Computers. Eine vorläufige Verarbeitung kann an dem Bild ausgeführt werden, z. B. um eine Verkippung zu korrigieren, so daß die Zeilen des Textes in einer horizontalen Richtung orientiert sind, und um auf andere Weise offensichtliche Artefakte herauszufiltern. In Schritt 102 wird das Bild des Dokumentes in Wortgruppierungen und logische Bereiche untergliedert, basierend auf geometrischen Eigenschaften des Bildes, mittels herkömmlicher Techniken. Um ein Verständnis der Erfindung zu erleichtern, wird das folgende Beispiel beschrieben, bei dem jeder lokale Bereich eine Zeile des Textes in dem Dokument umfaßt. Es soll jedoch angemerkt werden, daß ein lokaler Bereich von jeder beliebigen Größe sein kann, sogar so klein wie ein einzelnes Wort.
Sobald die Untergliederung des Dokumentes in Wörter und lokale Bereiche abgeschlossen wurde, wird eine Routine 106 ausgeführt, um eine Sprachenvertrauensstatistik für jedes der Wörter zu definieren. Daran anschließend wird in Schritt 108 der erste Bereich ausgewählt und eine weitere Routine 110 wird ausgeführt, um Sprachvertrauensstatistiken für diesen Bereich zu bestimmen. Eine Bestimmung wird in Schritt 112 durchgeführt, ob weitere Bereiche in dem Dokument verbleiben, und falls dem so ist, werden die Schritte 108 und 110 wiederholt, um die Sprachvertrauensstatistiken für jeden Bereich zu bestimmen. Nachdem die Vertrauensstatistiken für jeden Bereich bestimmt sind, werden benachbarte Bereiche, z. B. aufeinanderfolgende Zeilen, welche einen ausreichend hohen Vertrauensgrad für eine gegebene Sprache aufweisen, in Unterzonen zusammengefaßt in einer Routine 114. Nachdem alle Bereiche auf diese Art verarbeitet wurden, endet der Vorgang mit Schritt 118. Das Ergebnis dieses Vorgangs ist ein geordnetes Set von Unterzonen, welche jeweils eine homogene Sprachenidentität aufweisen.
Die Routine, die in Schritt 106 ausgeführt wird, um Sprachvertrauensstatistiken für jedes der Wörter zu definieren, wird im Detail in dem Flußdiagramm aus Fig. 5 veranschaulicht. In Schritt 124 wird eine erste Wortgruppierung in der Zone ausgewählt, und eine erste mögliche Sprache l wird in Schritt 128 gewählt. In Schritt 130 wird eine Statistik w(l) berechnet, welche einen Grad des Vertrauens angibt, ob das ausgewählte Wort in der gewählten Sprache enthalten ist. In einer Ausführungsform kann die Statistik einfach eine Eins oder eine Null sein in Abhängigkeit davon, ob das Wort in dem Wörterbuch für die Sprache gefunden ist. Andere, kompliziertere Ansätze können auch eingesetzt werden. Beispielsweise kann die Vertrauensstatistik w(l) für jedes Wort in Übereinstimmung mit der Länge des Wortes gewichtet werden. Dieser Ansatz ist besonders nützlich für Sprachen, die relativ lange, einzigartige Wörter aufweisen, wie deutsch oder norwegisch. Ein weiterer Faktor, der eingesetzt werden kann, ist, den für jedes Wort berechneten Wert als eine Funktion der Erkennungswahrscheinlichkeit zu gewichten, welche den einzelnen Buchstaben der Wortgruppierung zugeordnet ist, wie durch den Klassifizierer bestimmt. Mit diesem Ansatz werden Wortschätzungen, welche eine relativ geringe Erkennungswahrscheinlichkeit aufweisen, die Sprachvertrauensstatistik nicht so stark beeinflussen wie diejenigen, welche positiver identifziert sind. Zusätzlich zu der Angabe, ob ein ausgewähltes Wort in dem Wörterbuch gefunden ist, kann die Vertrauensstatistik auch andere Faktoren in Betracht ziehen. Beispielsweise kann es wünschenswert sein, eine n-gramm-Information oder eine Wort-Häufigkeits-Information zum Gewichten der Vertrauensstatistik einzusetzen, d. h., sie ist ein Faktor, wie wahrscheinlich die Wortkette in der Wortgruppierung auftritt in der gewählten Sprache.
In Schritt 140 wird eine Feststellung getroffen, ob weitere Sprachen zum Verarbeiten für das ausgewählte Wort verbleiben. Trifft dies zu, werden die Schritte 128 und 130 wiederholt, bis das Wort mit dem Wörterbuch für jede der möglichen Sprachen verglichen wurde, und eine Vertrauensstatistik für jede Sprache berechnet ist. Nachdem alle Sprachen geprüft wurden und der Vertrauensfaktor berechnet wurde, wird das nächste Wort gewählt und die Schritte 124 bis 140 werden wiederholt. Sobald eine Vertrauensstatistik für jedes Wort berechnet ist, relativ zu jeder der möglichen Sprachen, kehrt die Unterroutine zu dem Hauptprozeß zurück.
Die Unterroutine, welche in Schritt 110 ausgeführt wird, um eine Sprachvertrauensstatistik für einen Bereich zu bestimmen, wird im Detail in dem Flußdiagramm von Fig. 6 veranschaulicht. Hierauf bezugnehmend wird in Schritt 142 eine erste mögliche Sprache l ausgewählt, und eine Sprachvertrauensstatistik für den Bereiche r(l) wird initialisiert, z. B. auf Null zurückgesetzt, in Schritt 144. Das erste Wort in dem Bereich wird in Schritt 146 ausgewählt, und der Bereichsvertrauensfaktor für die ausgewählte Sprache, r(l), wird in Schritt 148 aktualisiert. Beispielsweise kann der Bereichsvertrauensfaktor in einem Akkumulator gespeichert werden. Die Aktualisierung des Faktors kann durch Hinzufügen der Sprachvertrauensstatistik w(l) für das Wort zu dem in dem Akkumulator gespeicherten Wert ausgeführt werden.
Der Prozeß fährt dann mit Schritt 150 fort, um zu bestimmen, ob weitere Wörter in dem Bereich zu überprüfen verbleiben. Schritte 146 und 158 werden für jedes Wort in dem Bereich wiederholt, um eine Vertrauensstatistik r(l) zu erhalten, welche bezogen ist auf die Wörter in dem Bereich, welche in dem Wörterbuch für die ausgewählte Sprache l gefunden sind. Nachdem alle Wörter geprüft wurden, wird der aktualisierte Wert für r(l) als der Vertrauensfaktor für die ausgewählte Sprache in dem Bereich gespeichert. In Schritt 152 wird eine Bestimmung durchgeführt, ob weitere Sprachen verbleiben, welche für die Zone zu verarbeiten sind. Trifft dies zu, werden die Schritte 142 bis 150 wiederholt, bis jedes der Wörter in der Zone gegen das Wörterbuch für jede der möglichen Sprachen verglichen wurde. Als ein Ergebnis dieses Vorgangs ist ein Vertrauensfaktor r(l) für jede Sprache in dem Bereich bestimmt. Nachdem alle Sprachen geprüft wurden und die Vertrauensfaktoren bestimmt wurden, kehrt die Unterroutine zu dem Hauptprozeß zurück.
Die Unterroutine, welche in Schritt 114 ausgeführt wird, um Bereiche in sprachhomogene Zonen zusammenzufassen, wird im einzelnen in dem Flußdiagramm von Fig. 7 veranschaulicht. In Schritt 154 wird das Set von Unterzonen Z' ursprünglich als ein leeres oder Null-Set definiert. Eine temporäre Variable u für die aktuelle Unterzone wird ebenfalls anfangs auf einen Nullwert gesetzt in Schritt 156 und die Sprache für die aktuelle Unterzone, wird ursprünglich auf einen Standardsprachwert gesetzt in Schritt 158. Der erste Bereich r wird dann ausgewählt in Schritt 160 und eine Bestimmung wird durchgeführt in Schritt 162, ob die Sprachvertrauensfaktoren r(l) für die ausgewählte Region angeben, daß die aktuelle Unterzonensprache uL wahrscheinlich die Sprache des Bereichs 9, ist. Mit anderen Worten sind die Vertrauensfaktoren für jede der möglichen Sprachen verglichen und eine Bestimmung wird durchgeführt, ob der Sprachvertrauensfaktor r(l) für die Sprache der aktuellen Unterzone der höchste, oder wenigstens ausreichend hoch relativ zu den anderen Vertrauensfaktoren für die Region, ist, Trifft dies zu, wird der ausgewählte Bereich r an das Set von Bereichen R(u) für die aktuelle Unterzone angehängt in Schritt 164.
Wenn die aktuelle Unterzonensprache uL nicht die wahrscheinlichste Sprache für den Bereich ist, d. h. der Vertrauensfaktor r(l) für die Unterzonensprache nicht ausreichend hoch ist unter den Vertrauensfaktoren für den interessierenden Bereich, wird in Schritt 166 eine Bestimmung durchgeführt, ob der höchste Vertrauensfaktor r(l)max für den Bereich größer ist als ein Grenzwert Th. Wenn dem so ist, kann eine neue Unterzone begonnen werden. Daher wird in Schritt 168 die Unterzonensprache uL geändert, um die Sprache des höchsten Vertrauens für den ausgewählten Bereich zu sein. Daran anschließend wird in Schritt 170 die zuletzt aufgetretene Unterzone u an das Set von Unterzonen Z' angehängt und die aktuelle Unterzonenvariable u wird in Schritt 172 initialisiert, um die neue Unterzone zu beginnen. Daran anschließend wird der aktuell ausgewählte Bereich r an die neue aktuelle Unterzone in Schritt 164 angehängt.
Wenn in Schritt 166 der höchste Vertrauensfaktor für den Bereich nicht den Grenzwert überschreitet, gibt es eine geringere Wahrscheinlichkeit, daß eine neue Unterzone beginnt. In dem in der Ausführungsform veranschaulichten Flußdiagramm wird der ausgewählte Bereich zu dem Set von Bereichen R(u) in der aktuellen Unterzone hinzugefügt. Alternativ kann der Bereich zeitweise zur Seite gelegt werden, während der nächste Bereich untersucht wird. Wenn die Vertrauensfaktoren für den nächsten Bereich angeben, daß eine neue Unterzone begonnen werden soll, kann der vorhergehende Bereich erneut untersucht werden, um zu sehen, ob er in der neuen Unterzone inbegriffen sein soll. Somit kann in einem Übergangsgebiet zwischen zwei Unterzonen ein Vorschau-Vorgang eingesetzt werden, um zu bestimmen, welche der zwei Unterzonen eine zugeordnete Sprache aufweist, die derjenigen des Übergangsbereiches am nächsten kommt.
Das Verfahren in den Schritten 160 bis 172 wird für jeden Bereich r wiederholt, um ein Set von Unterzonen Z' zu definieren. Jede Unterzone umfaßt einen oder mehrere aufeinanderfolgende Bereiche, welche als Text in der gleichen Sprache umfassend identifiziert wurden. Demnach umfaßt in dem Fall, bei dem jeder Bereich eine Textzeile ist, eine Unterzone aufeinanderfolgende Textzeilen. Wenn die nächste darauffolgende Zeile als eine unterschiedliche Sprache aufweisend aufgefunden wird, z. B. der Anfang eines neuen Absatzes, wird eine neue Unterzone eingerichtet.
In dem zuvorgehenden Beispiel der Erfindung wird jede Wortgruppierung eingesetzt und eine gleiche Gewichtung gegeben beim Bestimmen des Vertrauensbereichsfaktors für die jeweiligen Sprachwörterbücher. In einigen Fällen kann es wünschenswert sein, selektiver in den Werten zu sein, welche zu jeweiligen verschiedenen Wörtern gegeben sind, um eine höhere Genauigkeit zu erzielen. Beispielsweise können Wortgruppierungen, welche nur aus einem einzigen Buchstaben bestehen, aus der Betrachtung entfernt werden, um der Tatsache Rechnung zu tragen, daß sie Rauschen anstatt von substantiellem Gehalt wiedergeben können.
In dem Unten-nach-oben-Ansatz der vorhergehenden Ausführungsform beginnt die Analyse des Dokumentbildes, um verschiedene Sprachregionen herauszugliedern, mit dem kleinsten gemeinsamen Element, nämlich der Wortgruppierung. In einem alternativen Oben-nach-unten- Ansatz kann zuerst die Sprache für eine größere Zone eingerichtet werden, gefolgt von einer Unterteilung in kleinere sprachhomogene Bereiche. Ein Flußdiagramm, welches den Gesamtvorgang für diese Ausführungsform der Erfindung angibt, ist in Fig. 8 dargestellt. Darauf bezugnehmend wird in Schritt 200 ein Bild des Dokumentes in den flüchtigen Speicher 16 des Computers importiert und eine vorläufige Verarbeitung wird wiederum an dem Bild durchgeführt, um Verkippung zu korrigieren und offensichtliche Artefakte herauszufiltern. In Schritt 202 wird das Bild des Dokumentes in Zonen, Bereiche und Wortgruppierungen untergliedert basierend auf geometrischen Eigenschaften des Bildes. In dem Beispiel von Fig. 3 können die drei vertikalen Spalten des Textes einfach identifiziert werden basierend auf den dicken weißen Streifen, welche sie trennen, um separate Zonen zu definieren. Innerhalb jeder Spalte werden einzelne Textteile identifiziert durch die horizontalen, weißen Streifen zwischen ihnen, welche verschiedene Bereiche abgrenzen. Auf ähnliche Weise wird innerhalb jeder Zeile die einzelne Wortgruppierung identifiziert durch die relativen Abstände zwischen Symbolen. Während das Beispiel aus Fig. 3 mehrere Zonen angibt, ist es möglich, daß die gesamte Seite eine einzelne Zone umfassen kann.
Sobald die Untergliederung des Dokumentes abgeschlossen wurde, wird eine Zone in Schritt 204 ausgewählt. Eine Routine wird dann ausgeführt, um eine Sprache für die Zone zu definieren. Daran anschließend wird in Schritt 208 der erste Bereich ausgewählt, und eine weitere Routine 210 wird ausgeführt, um Sprachvertrauensstatistiken für diesen Bereich zu bestimmen. Eine Bestimmung wird in Schritt 212 durchgeführt, ob zusätzliche Bereiche in der Zone verbleiben, und wenn dem so ist, werden die Schritte 208 und 210 wiederholt, um die Sprachvertrauensstatistiken für jeden Bereich zu bestimmen. Nachdem die Vertrauensstatistiken für jeden Bereich bestimmt sind, werden Bereiche mit einem ähnlichen Vertrauensgrad für eine gegebene Sprache von anderen Bereichen, welche nicht dieser Sprache zugeordnet sind, abgetrennt, um homogene Unterzonen zu bilden in einer Routine 214. In Schritt 216 wird eine Bestimmung durchgeführt, ob weitere zu verarbeitende Zonen verbleiben. Wenn dem so ist, werden die Schritte 204 bis 214 wiederholt für jede weitere Zone. Nachdem alle Zonen auf diese Weise verarbeitet wurden, endet der Vorgang bei Schritt 218. Das Ergebnis dieses Vorgangs ist ein geordnetes Set von sprachhomogenen Unterzonen innerhalb jeder Zone.
Die Routine, welche in Schritt 206 ausgeführt wird, um die Zonensprache zu definieren, ist in Einzelheiten in dem Flußdiagramm von Fig. 9 dargestellt. In Schritt 224 wird eine erste mögliche Sprache l ausgewählt und eine Statistik für diese Sprache, z(l), wird in Schritt 226 initialisiert. Das erste Wort in der Zone wird in Schritt 228 ausgewählt und in Schritt 230 wird eine Vertrauensstatistik w(l) berechnet für das Wort in Abhängigkeit davon, ob die Buchstabenkette in dieser Wortgruppierung in dem Wörterbuch für die ausgewählte Sprache l gefunden werden kann. Die Sprachstatistik z(l) wird dann aktualisiert in Schritt 232 in Übereinstimmung mit dem bestimmten Vertrauenswert. Beispielsweise kann die Sprachstatistik z(l) eine Akkumulierung von einzelnen Vertrauensfaktoren w(l) für die Wörter in der Zone sein, relativ zu der ausgewählten Sprache. Der Vorgang fährt dann mit Schritt 234 fort, um zu bestimmen, ob weitere Wörter in der Zone zu überprüfen verbleiben.
Die Schritte 228 bis 232 werden für jedes Wort in der Zone wiederholt, um den endgültigen Wert von z(l) für die ausgewählte Sprache zu erhalten. In einer relativ einfachen Implementierung kann die Statistik eine Abzählung der Anzahl von Wörtern in der Zone sein, welche in dem Wörterbuch für die ausgewählte Sprache l aufgefunden werden. Wenn alle Wörter überprüft wurden, wird eine Bestimmung in Schritt 236 durchgeführt, ob weitere Sprachen zum Verarbeiten für die Zone verbleiben. Wenn dem so ist, werden die Schritte 224 bis 234 wiederholt, bis jedes der Wörter in der Zone gegen das Wörterbuch verglichen wurden für jede der möglichen Sprachen. Sobald alle Sprachen auf diese Weise untersucht wurden, wird die Zonensprache z L in Schritt 240 ausgewählt basierend auf der Sprachstatistik z(l), welche den höchsten Vertrauenswert wiedergab. In der oben beschriebenen einfachen Implementierung wird die Sprache mit der höchsten Häufigkeit von Wörtern in der Zone, d. h. die Sprache, deren Wörterbuch die höchste Zählung erzeugt, abschließend als die Zonensprache zL für diese Zone ausgewählt. Nachdem all die Sprachen überprüft wurden und die Zonensprache identifiziert wurde, kehrt die Unterroutine zu dem Hauptprozeß zurück. Die Unterroutine, welche in Schritt 210 ausgeführt wird, um die Bereichssprache zu definieren, ist im einzelnen in dem Flußdiagramm von Fig. 10 veranschaulicht. Hierauf bezugnehmend wird die Bereichssprache rL ursprünglich auf die zuvor bestimmte Zonensprache zL in Schritt 242 gesetzt. Dann wird in einem Vorgang, welcher ähnlich zu demjenigen ist, der in den Schritten 224 bis 236 des Flußdiagramms aus Fig. 9 ausgeführt wird, jedes Wort in einem Bereich untersucht, um seinen Vertrauenswert r(l) für eine ausgewählte Sprache l zu bestimmen.
Sobald ein Vertrauenswert für jeden Bereich bestimmt ist, kehrt der Vorgang zu der Hauptroutine zurück. Daran anschließend werden die Bereiche in homogene Sprachunterzonen in der Unterroutine 214 zusammengefaßt. Dies kann beispielsweise in einer Weise erfolgen, welche ähnlich dem Zusammenfassvorgang ist, welcher in dem Flußdiagramm aus Fig. 7 gezeigt ist. In dieser Ausführungsform wird die Zonensprache zL jedoch in der Bestimmung der Unterzonen eingesetzt. Fig. 11 veranschaulicht diesen Unterschied. Hierauf bezugnehmend wird in Schritt 266, wenn eine Bestimmung durchgeführt ist, daß der Vertrauenswert r(l) für einen Bereich nicht ausreichend hoch ist, um zu einer neuen Unterzone überzugehen, die Unterzonensprache uL für eine neue Unterzone auf die Zonensprache zL als einen Standardwert gesetzt in Schritt 267. Mit anderen Worten, wenn eine Unsicherheit über die vorherrschende Sprache in einem Bereich existiert, wird eine Annahme gemacht, daß er in der vorherrschenden Sprache der Zone, in der dieser Bereich auftritt, ist, und er wird in eine Unterzone, welche dieser Sprache zugeordnet ist, gruppiert. Demnach ermöglicht die ursprüngliche Bestimmung einer Zonensprache dem Zusammenfassvorgang, ein konservativeres Kriterium einzusetzen in Verbindung damit, ob zu einer Unterzone weitergeschaltet wird, wenn ein geringer Vertrauenswert angetroffen wird.
Eine dritte Ausführungsform der Erfindung, welche als Mischansatz bezeichnet wird, setzt die Techniken, welche in jeder der ersteren beiden Ausführungsformen ausgeführt werden, ein. Insbesondere wird in dieser Ausführungsform eine Zonensprache zuerst bestimmt für jede der Zonen des Dokumentes, wie in dem Oben-nach-unten-Ansatz. Daran anschließend fährt der Vorgang in der Weise des Unten- nach-oben-Ansatzes fort, um einen Vertrauensfaktor für jedes Wort und dann eine Bereichssprache für jeden Bereich zu bestimmen. In diesem Fall kann wie in dem Oben-nach-unten-Ansatz die Zonensprache eingesetzt werden, um das Zusammenfassen von Bereichen in Unterzonen zu unterstützen.
Es wird von dem Fachmann erkannt werden, daß die vorliegende Erfindung in anderen spezifischen Ausprägungen ausgeführt sein kann, ohne von deren grundlegenden Charakteristiken abzuweichen. Beispielsweise wird in den spezifischen Implementierungen, welche in dem begleitenden Flußdiagramm veranschaulicht sind, eine Vertrauensstatistik für jedes Wort in einer Zone berechnet für jede der möglichen Sprachen. Daran anschließend werden alle der berechneten Vertrauen eingesetzt bei der Bestimmung der Zonensprache und der Bereichssprache. In einer optimierten Implementierung kann es jedoch nicht nötig sein, eine Vertrauensstatistik für jedes Wort oder für jede Sprache zu berechnen.
Vielmehr kann die Berechnung, wenn die Vertrauensstatistik für eine Sprache ausreichend hoch ist, um verläßlich festzustellen, daß die korrekte Sprache für ein Wort identifiziert wurde, an diesem Punkt beendet werden ohne Vertrauenswerte für andere Sprachen zu berechnen. In ähnlicher Weise kann, wenn genügend Wörter in einer Zone oder einem Bereich bestimmt worden sind, alle von der gleichen Sprache zu sein, dann die Sprache dieser Zone oder dieses Bereiches ausgewählt werden, ohne jedes verbleibende Wort zu überprüfen. Die vorliegend offenbarten Ausführungsformen sind daher in allen Bezügen als veranschaulichend anzusehen, nicht als beschränkend. Der Umfang der Erfindung ist angegeben durch die angehängten Ansprüche statt der zuvorgehenden Beschreibung, und alle Änderungen, die innerhalb des Gedankens oder dessen Bereichs von Äquivalenten kommen, werden als hierin inbegriffen angesehen.

Claims

1. Verfahren zur automatischen Bestimmung einer oder mehrerer Sprachen, welche zu Text in einem Dokument zugeordnet sind, umfassend die Schritte:

Untergliedern (102) des Dokumentes in eine Mehrzahl von Wortgruppierungen;

Bilden wenigstens einer Annahme für die Buchstaben in den Wortgruppierungen.;

Bestimmen (106) eines Vertrauensfaktors für jede Wort- Annahme, wobei der Vertrauensfaktor angibt, ob das Wort in jeder der mehreren Sprachen enthalten ist;

Definieren einer Mehrzahl von Bereichen in dem Dokument, wobei jeder Bereich wenigstens ein Wort umfasst;

Bestimmen (110) eines Sprach-Vertrauensfaktors für jeden Bereich basierend auf den Vertrauensfaktoren, welche den Worten in dem Bereich zugeordnet sind; und

Zusammenfassen (114) von Bereichen, welche relativ hohe Vertrauensfaktoren für eine bestimmte Sprache aufweisen, um eine Unterzone zu bilden, welche mit der bestimmten Sprache identifiziert ist.

2. Verfahren zur automatischen Bestimmung einer oder mehrerer Sprachen, welche zu Text in einem Dokument zugeordnet sind, umfassend die Schritte:

Untergliedern (202) des Dokumentes in eine Mehrzahl von Zonen, welche Bereiche von Wortgruppierungen umfassen;

Bilden wenigstens einer Annahme der Buchstaben in den Wortgruppierungen;

Definieren eines Wörterbuches für jede von mehreren Sprachen;

Bestimmen, und zwar für jedes angenommene Wort, welche der Wörterbücher die Annahme für das Wort enthalten und Bestimmen (106) eines Vertrauenswertes für jede Sprache;

Identifizieren (206) einer Zonensprache für jede Zone, basierend auf den Vertrauenswerten, welche den Worten in der Zone zugeordnet sind;

Identifizieren (110; 210) einer Bereichssprache für jeden Bereich, basierend auf den Vertrauenswerten, welche den Worten in dem Bereich zugeordnet sind;

Zuordnen der Zonensprache als die Bereichssprache, wenn die Vertrauenswerte, welche den Worten in dem Bereich zugeordnet sind, nicht ausreichend groß sind; und

Zusammenfassen (114; 214) von Bereichen in einer Zone, welche die selbe Bereichssprache aufweisen, um eine Unterzone zu bilden, welche mit einer speziellen Sprache identifiziert ist.

3. Verfahren gemäß einem der Ansprüche 1 oder 2, wobei die Vertrauensfaktoren für angenommene Worte gewichtet werden in Übereinstimmung mit der Häufigkeit, mit der die angenommenen Worte in den jeweiligen Sprachen auftreten.

4. Verfahren gemäß einem der Ansprüche 1 bis 3, wobei eine Annahme nur für Worte gebildet wird, welche eine vorbestimmte Mindestbuchstabenanzahl größer als eins aufweisen.

5. Verfahren gemäß einem der Ansprüche 1 bis 4, ferner. umfassend den Schritt des Gewichtens der Vertrauenswerte in Übereinstimmung mit den Längen der angenommenen Worte.

6. Verfahren gemäß einem der Ansprüche 1 bis 5, ferner umfassend die Schritte des Bestimmens einer Erkennungswahrscheinlichkeit für jede Annahme, und Gewichten der Vertrauenswerte in Übereinstimmung mit den Erkennungswahrscheinlichkeiten.

7. Verfahren gemäß einem der Ansprüche 1 bis 6, wobei die Anfangsannahme gebildet ist mittels eines Klassifizierers, der typisch für jede der mehreren Sprachen ist.

8. Verfahren zum automatischen Untergliedern eines Dokumentes in homogene Sprach-Unterzonen, umfassend die Schritte:

Definieren (202) wenigstens einer Zone in dem Dokument, welche eine Mehrzahl von Worten umfasst;

Bestimmen eines Vertrauensfaktors für jedes Wort in der Zone, wobei der Vertrauensfaktor angibt, ob das Wort in jeder von mehreren Sprachen enthalten ist;

Identifizieren (206) einer Zonensprache für die Zone basierend auf den Vertrauensfaktoren in Übereinstimmung mit den Worten in der Zone;

Auswählen (208) eines lokalen Bereiches in der Zone, welcher wenigstens ein Wort umfasst;

Identifizieren (210) einer Bereichssprache für den lokalen Bereich basierend auf dem Vertrauensfaktor, welcher den Worten in dem Bereich zugeordnet ist;

Bestimmen, ob die Bereichssprache die gleiche ist wie die Zonensprache; und

Aussondern (214) des lokalen Bereiches aus anderen Bereichen in der Zone, wenn seine Bereichssprache nicht die gleiche ist, wie die Zonensprache.

9. Verfahren gemäß einem der Ansprüche 1 oder 8, ferner umfassend den Schritt des Definierens eines Wörterbuches für jede der mehreren Sprachen.

10. Computerlesbares Medium, welches ein Computerprogramm zum Ausführen des Verfahrens gemäß einem der Ansprüche 1 bis 9 trägt.