-
Die vorliegende Erfindung betrifft allgemein die Erkennung von handgeschriebenen Wörtern in Dokumentenbildern, ohne dass einzelne Buchstaben, die die Wärter oder den vollständigen Text bilden, erfasst oder erkannt werden müssen. Die vorliegende Erfindung betrifft insbesondere ein System und ein Verfahren zum Gewichten von Schriftarten zum Trainieren eines Wahrscheinlichkeitsmodells, in welchem Proben synthetisierter Trainingswortbilder bzw. Übungswortbilder verwendet werden, und die vorliegende Erfindung findet Anwendung in der Dokumentenklassifizierung, der Dokumentenverarbeitung, der Dokumentenanalyse, dem Sortieren von Dokumenten, der Dokumentenerkennung, der Handschriftwortauffindung, und in anderen zugehörigen Bereichen.
-
Der Text von elektronisch codierten Dokumenten liegt typischerweise in zwei unterschiedlichen Formaten vor, d. h. in einem Bit-Format bzw. Bildpunktformat und in einem Zeichenformat. In dem zuerst genannten Format ist der Text als ein Array aus Bildpunkten festgelegt, die der visuellen Erscheinung der Seite entsprechen. Ein binäres Bild ist eines, in welchem ein vorgegebenes Pixel entweder Ein (typischerweise schwarz) oder Aus (typischerweise weiß) ist. Ein Pixel kann als ein Bit in einer größeren Datenstruktur dargestellt werden. Ein Graustufenbild ist ein Bild, in welchem jedes Pixel eine von mehreren Schattierungen eines Grautons, der von weiß bis schwarz reicht, annehmen kann. Ein n-Bit-Pixel repräsentiert 2N Schattierungen eines Grautons. In einem Bitmap-Bild besitzt jedes Pixel in dem Bild die gleiche Bedeutung und es kann nahezu jede Art von Bild (Text, Liniengraphiken und zusammenhängende Bilder) auf diese Weise dargestellt werden. In einem Zeichencodeformat ist der Text als eine Folge aus Zeichencodierungen dargestellt, wobei die häufigste Art ASCII-Codierungen sind. Ein Zeichen ist typischerweise durch 8 Bits dargestellt.
-
Es gibt viele Anwendungen, in denen es wünschenswert ist, dass Text aus einem Dokument oder einem Teil davon entnommen wird, wobei der Text im Bitmap-Format bzw. Bildpunktformat vorliegt. Beispielsweise ist ein Dokument häufig lediglich in einer gedruckten Version verfügbar. Im Falle eines Postbüros treffen beispielsweise Dokumente, etwa Briefe, in einem nicht-strukturierten Format ein und werden für die einfachere Verarbeitung in eine Reihe von vordefinierten Kategorien eingruppiert. Die manuelle Klassifizierung ist ein zeitraubender Vorgang, wobei es häufig erforderlich ist, dass eine Person einen signifikanten Teil des Dokuments durchliest, um sich darüber klar zu werden, wie das Dokument einzustufen ist. Es wurden Verfahren entwickelt, um diesen Vorgang zu automatisieren. Im Falle von getipptem Text beinhaltet beispielsweise die standardmäßige Vorgehensweise das Ausführen einer optischen Zeichenerkennung (OCR) an jedem Brief und das Erzeugen einer Darstellung des Dokuments, beispielsweise als eine Ansammlung von Wörtern (BoW), wobei ein Histogramm aus Worthäufigkeiten erzeugt wird. Die Klassifizierung des Briefes kann dann auf der Grundlage des BoW-Histogramms ausgeführt werden.
-
Jedoch liegt ein wesentlicher Anteil des Briefeingangs in einem Postbüro bzw. einer Posteingangsstelle typischerweise in handgeschriebener Form vor. Um den handgeschriebenen Text zu handhaben, besteht eine Vorgehensweise darin, die OCR-Maschine durch eine Handschriftserkennungs-(HWR)Maschine zu ersetzen. Diese Vorgehensweise besitzt jedoch zumindest zwei wesentliche Nachteile: (i) die Fehlerrate von HWR-Maschinen ist wesentlich höher als jene von OCR-Maschinen und (ii) die Verarbeitungszeit, d. h., die Zeit, die erforderlich ist, um eine vollständige Umwandlung einer Seite zu erhalten, ist ebenfalls sehr lang (mehrere Sekunden pro Seite). Wenn eine große Anzahl an Dokumenten zu verarbeiten ist, wie dies in einem Postbüro der Fall ist, ist dies keine akzeptable Alternative für handgeschriebene Briefe.
-
Es wurden „Wortauffindungsverfahren” entwickelt, um die Problematik für das Klassifizieren handgeschriebener Dokumente zu lösen. Derartige Verfahren funktionieren derart, dass ein spezielles Schlüsselwort in einem handgeschriebenen Dokument erkannt wird, ohne dass eine vollständige Transkription ausgeführt wird. Beispielsweise kann eine Firma, die mit Verträgen zu tun hat, es wünschenswert finden, Dokumente zu erkennen, die Schlüsselwörter wie „Beendigung” oder „Löschung” enthalten, so dass derartige Dokumente sofort weiter verarbeitet werden. Andere Firmen können den Wunsch haben, Dokumente entsprechend einem Themengebiet zur Bearbeitung durch unterschiedliche Gruppen innerhalb der Firma zu charakterisieren.
-
In aktuellen Wortauffindungsverfahren werden Handschriftenproben des Schlüsselwortes manuell aus beispielhaften Dokumenten herausgelöst und verwendet, um ein Modell zu trainieren, das dann in der Lage ist, das Schlüsselwort in relativ guter Genauigkeit zu erkennen, wenn dieses in dem Dokumententext auftritt.
-
Die manuelle Auswahl von Handschriftenproben kann jedoch zeitaufwendig sein. Es wurde daher vorgeschlagen, statistische Modelle darin zu üben, dass diese Schlüsselwörter in handgeschriebenen Dokumenten unter Anwendung von Wortbildern, die automatisch von Computerschriftarten zusammengesetzt sind, als Trainingsproben aufzufinden. Jedoch gibt es viele verfügbare Computerschriftarten und das Auswählen eines geeigneten Satzes aus Schriftarten, mit denen ein Schlüsselwortmodell zu trainieren ist, kann daher zeitaufwendig sein.
-
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Auswahl von Gewichtungen bzw. Gewichten für eine Gruppe aus Computerschriftarten anzugeben, wobei die zuvor genannten Probleme sowie auch andere Probleme behoben werden.
-
Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein Verfahren das Empfangen eines Schlüsselwortes, und es wird für jede einer Gruppe aus typographischen Schriftarten ein Wortbild auf der Grundlage des Schlüsselwortes synthetisiert. Ein Schlüsselwortmodell wird sodann trainiert auf der Grundlage der synthetisierten Wortbilder und der entsprechenden Schriftartgewichtungen. Unter Anwendung des trainierten Schlüsselwortmodells werden Handschriftenwortbilder einer Ansammlung aus Handschriftenwortbildern, die mit dem Schlüsselwort übereinstimmen, erkannt. Ein oder mehrere der Schritte des Verfahrens werden mittels eines Computerprozessors ausgeführt.
-
Gemäß einem weiteren Aspekt der vorliegenden Erfindung umfasst: ein computerimplementiertes Verarbeitungssystem einen Synthesizer, der ein Wortbild in jeder Schriftart einer Gruppe aus Schriftarten auf der Grundlage eines empfangenen Schlüsselworts synthetisiert; ein Schlüsselwortmodell, das in einem Speicher gespeichert ist, und das mittels Deskriptoren trainiert wird, die aus den synthetisierten Wortbildern und den erzeugten Schriftartgewichtungen extrahiert werden, wobei das Verarbeitungssystem ferner eine Bewertungskomponente umfasst, die Handschriftenwortbilder einer Sammlung aus Handschriftenwortbildern gegenüber dem Schlüsselwortmodell gewichtet bzw. bewertet, und die auf der Grundlage der Bewertungen ein übereinstimmendes Handschriftenwortbild oder Wortbilder erkennt. Der Schriftartgewichtungsgenerator und/oder Synthesizer und/oder die Bewertungskomponente können in einem Computerprozessor implementiert sein.
-
Gemäß einem weiteren Aspekt umfasst ein computerimplementiertes Verfahren zur Wortauffindung das Empfangen eines Schlüsselworts, das in einer Ansammlung aus Handschriftenwortbildern, die von einem oder mehreren Dokumenten extrahiert sind, zu suchen ist. Für jede einer Gruppe aus Schriftarten wird ein synthetisiertes Wortbild automatisch auf der Grundlage des Schlüsselwortes erzeugt. Das Schlüsselwort wird mit einem semikontinuierlichen versteckten Markov-Modell modelliert, das Gewichte bzw. Gewichtungen berücksichtigt, die jeder der Schriftarten zugeordnet sind, wobei die Gewichte erlernt werden, indem eine Ähnlichkeit zwischen einer gewichteten Verteilung von Deskriptoren synthetisierter Trainingswortbilder und einer Verteilung von Deskriptoren von Handschriftentrainingswortbildern maximiert wird, wobei jeder Deskriptor auf der Grundlage von Merkmalen beruht, de aus einem entsprechenden synthetisierten oder handgeschriebenen Trainingswortbild ermittelt sind. Mit dem Modell werden übereinstimmende Wortbilder in der Ansammlung aus Handschriftenwortbildern erkannt. Es wird eine Aufzeichnung der übereinstimmenden Wortbilder ausgegeben.
-
1 ist ein Flussdiagramm, das ein anschauliches Verfahren zum Trainieren eines Schlüsselwortmodells unter Anwendung von Gewichten für eine Gruppe aus Schriftarten und für das Verwenden des trainierten Schlüsselwortmodells zur Identifizierung von handgeschriebenen Wortbilder darstellt, die mit einem eingegebenen Schlüsselwort in Dokumentenbildern übereinstimmen;
-
2 ist ein schematisches Funktionsschaltbild einer Computervorrichtung, de ein System beherbergt, um ein Schlüsselwortmodell unter Anwendung von Gewichten für eine Gruppe aus typographischen Schriftarten zu verwenden und um das trainierte Schlüsselwortmodell zum Erkennen von Handschriftenwortbildern, die mit einem eingegebenen Schlüsselwort übereinstimmen, zu verwenden;
-
3 ist ein Flussdiagramm, das ein Verfahren zeigt, um Schriftartgewichte bzw. Gewichtungen in einer Ausführungsform des Verfahrens aus 1 zu erzeugen;
-
4 zeigt graphisch Schritte des anschaulichen Verfahrens aus 1;
-
5 zeigt eine anschauliche Liste aus Schriftartgewichten für eine Gruppe aus Schriftarten; und
-
6 zeigt das Herauslösen bzw. das Ermitteln von Merkmalen aus synthetisierten und handgeschriebenen Wortbildern.
-
Aspekte der vorliegenden Erfindung betreffen ein System und Verfahren zum Zuordnen von Gewichten bzw. Gewichtungen zu einer Gruppe aus typographischen Schriftarten, die in einem Wortauffindungsverfahren verwendet werden können, wie es etwa in der US-Anmeldung 2010/0067793 beschrieben ist. Anstelle einer Gruppe der besten Schriftarten auszuwählen, erlernt das anschauliche Verfahren eine Gewichtung für jede einer Gruppe aus Schriftarten. Jedes Gewicht gibt an, ob die entsprechende Schriftart repräsentativ ist für einen betrachteten handgeschriebenen Auszug. In der anschaulichen Ausführungsform werden diese Gewichtungen erlernt, indem die Ähnlichkeit zwischen einer gewichteten Verteilung von Wortbildern, – die unter Anwendung einer gegebenen Schriftart synthetisiert wurden, wobei die Gewichte der Verteilung durch Merkmale dargestellt ist, die aus jedem Wortbild herausgelöst werden, – und einer Verteilung von handgeschriebenen Wortbildern, wie sie durch ihre entsprechenden Merkmale dargestellt sind. Diese Gewichte bzw. Gewichtungen können dann verwendet werden, um merkmalsbasierte Deskriptoren zum Trainieren von Wortbildern zu gewichten, die in den unterschiedlichen Schriftarten erzeugt werden, wenn ein spezielles Schlüsselwortmodell erlernt wird.
-
Jede der synthetisierten Schriftarten bzw. Zeichensätze umfasst eine Gruppe aus Zeichen (Buchstaben, Zahlen, Satzzeichen, etc.) in einem vorbestimmten Stil. Jedes Zeichen in der synthetisierten Schriftart kann in einem Computerspeicher als eine Anordnung von Pixel (für eine vorgegebene Schriftartgröße) gespeichert werden. Die den synthetisierten Schriftarten bzw. Zeichensätzen zugeordneten Gewichte in der Gruppe aus Schriftarten betonen die relative Wirksamkeit jeder Schriftart beim Simulieren von handgeschriebenen Wörtern in Dokumenten und somit die relative Nützlichkeit der Schriftart beim Erzeugen eines Modells für die Verwendung durch einen Kategorisierer, um ein ausgewähltes Schlüsselwort in handgeschriebenen Dokumenten aufzufinden auf der Grundlage einer Gruppe aus Wortbildern des Schlüsselwortes, die unter Anwendung der synthetisierten Schriftarten erzeugt sind.
-
In einer anschaulichen Ausführungsform werden die Schriftartgewichtungen bzw. Gewichte vor dem Auswählen von Schlüsselwörtern erzeugt.
-
Im hierin verwendeten Sinne sind handgeschriebene Dokumente bzw. Handschriftendokumente solche, die in ihrer Ursprungsform manuell erstellt wurden unter Anwendung einer Schreibeinrichtung, etwa eines Stiftes, eines Bleistiftes und dergleichen. Typische handgeschriebene Dokumente umfassen Briefe, ausgefüllte Formulare, Rechnungen, Rezepte, Kombinationen und Teile davon, und dergleichen.
-
Getippte Dokumente sind solche, die in ihrer Ursprungsform unter Anwendung von erzeugten Schriftarten bzw. Zeichensätzen erstellt wurden, etwa mittels einer Computertastatur, einem Tastfeld, einer Schreibmaschine und dergleichen, oder die automatisch durch einen Computer auf der Grundlage gespeicherter Information erzeugt wurden. Zu beachten ist, dass sowohl handgeschriebene als auch getippte Dokumente eingescannt oder anderweitig in eine digitale Form ungewandelt werden können, beispielsweise in eine Bildpunktdarstellung bzw. Bitmap, um weiter verarbeitet zu werden.
-
In diversen Aspekten sind ein System und ein Verfahren offenbart, um Schriftartgewichte zu erlernen, die beim Auffinden eines Schlüsselwortes in einer Ansammlung aus Handschriftendokumentenbildern verwendet werden können. Die Schlüsselwörter werden ausgewählt, um die Kategorisierung des Dokuments zu ermöglichen. Im hierin verwendeten Sinne ist ein Schlüsselwort als eine beliebige Abfragezeichenfolge zu verstehen, die eine Gruppe aus Zeichen in ausgewählter Reihenfolge, etwa ein Wort, eine kurze Phrase, Zahlen, und dergleichen enthält, wobei nach dieser Reihenfolge zu suchen ist und diese zu identifizieren ist, wenn diese in einem Dokumentenbild vorhanden ist. Die zu erkennenden Schlüsselwörter sind generell bekannte Wörter in einer speziellen natürlichen Sprache, etwa englisch oder französisch, wobei dies aber nicht notwendig ist. Ein Schlüsselwort kann beispielsweise ein Name einer Person, einer Firma oder eines Produkts sein, es kann ein Wort sein, das mit hoher Wahrscheinlichkeit in interessierenden Dokumenten vorhanden ist, oder dergleichen. Die Arten von Abfragezeichenfolgen, nach denen gesucht werden kann, sind lediglich durch den Zeichensatz begrenzt, der zum Eingeben einer getippten Abfragenzeichenfolge, nach der zu suchen ist, benutzt werden kann. Beispielsweise wird auf einer alphanumerischen Tastatur die Abfragezeichenfolge aus einem Zeichensatz erzeugt, der 26 Buchstaben des Alphabets sowohl in Großschreibung als auch in Kleinschreibung, die Ziffern 0 bis 9 und andere Symbole, etwa Satzzeichen, sowie Symbole, etwa Dollarzeichen, und &-Zeichen enthält. Alle Zeichen in dem Zeichensatz können automatisch in einer Vielzahl unterschiedlicher Schriftarten erzeugt werden.
-
Beispielsweise ist es für einen vorgegebenen Bereich von Handschriftendokumenten eine Zielsetzung des anschaulichen Verfahrens, jegliches Auftreten eines speziellen Schlüsselwortes herauszufinden. Die Dokumente in dem Bereich sind in einer Gruppe aus Wortbildern (oder Wortbildhypothesen) vorsegmentiert. Das Verfahren kann alle diese Bilder gemäß ihrer Wahrscheinlichkeit, dass sie das spezifizierte Schlüsselwort enthalten, bewerten.
-
Die anschauliche Ausführungsform wird im Zusammenhang mit binären Bilden erläutert. In diesem Zusammenhang ist der Begriff „Bild” eine Darstellung einer zweidimensionalen Datenstruktur, die aus Pixel, d. h. Bildpunkten aufgebaut ist. Ein binäres Bild ist ein Bild, in welchem ein vorgegebenes Pixel entweder „ein” (aktiv) oder „aus (inaktiv) ist. Pixel sind generell als aktiv zu betrachten, wenn sie schwarz sind, und sie sind als inaktiv zu betrachten, wenn sie weiß sind. Es sollte beachtet werden, dass die Zuordnung von schwarz als „ein” und weiß als „aus” die Tatsache widerspiegelt, dass die meisten interessierenden Dokumente einen schwarzen Vordergrund und einen weißen Hintergrund besitzen. Zu beachten ist, dass das anschauliche Verfahren nicht auf schwarz-weiß Bilder beschränkt ist, sondern dass das vorliegende Verfahren für Bilder einer beliebigen geeigneten Farbseparation oder Separationen geeignet ist. Die Negativbilder können vor dem Verarbeiten bei Bedarf in Positivbilder umgewandelt werden.
-
Ein Dokumentenbild ist generell ein Bild einer physikalischen Seite eines Dokuments, obwohl ein Dokumentenbild mehrere Seiten oder einen Teil einer Seite umfassen kann. Ein Dokumentbild kann erzeugt werden, indem ein Bild einer physikalischen Dokumentenseite eingelesen oder anderweitig aufgenommen wird.
-
Handgeschriebene Wortbilder bzw. Handschriftenwortbilder (oder genauer gesagt „Worthypothesen”) sind generell Bilder einzelner oder manchmal mehrerer Wörter und/oder Zahlen, mit handgeschriebenem Text, die aus einem Dokumentenbild herausgelöst sind. Jedes handgeschriebene Wortbild bzw. Handschriftenwortbild umfasst eine Zeichenkette mit einer Gruppe aus Zeichen, etwa Buchstaben und/oder Zahlen, die ausreichend eng zusammenstehen, so dass das Wortbild von anderen Wortbildern in dem Dokument unterschieden werden kann. Unter „Worthypothesen” ist gemeint, dass die Wortbilder von Bildern aus handgeschriebenen Dokumenten abgeleitet sind. Da jedoch der Vorgang des Herauslösens der Bilder vollständig automatisiert sein kann, ist zu beachten, dass nicht sichergestellt werden kann, dass jedes extrahierte Bild tatsächlich ein Bild eines handgeschriebenen Wortes ist, wobei dieses dennoch während der Bearbeitung als ein handgeschriebenes Wort behandelt wird. Die handgeschriebenen Dokumente, von denen die handgeschriebenen Wortbilder erhalten werden, sind häufig in Schreibschrift und werden manuell unter Anwendung eines Füllers oder eines Bleistifts oder anderer Schreibutensilien erzeugt, d. h. ohne die Verwendung einer mechanischen Einrichtung, etwa einer Schreibmaschine, einer Textverarbeitung oder einem Computer. Zu beachten ist, dass einige geschriebene Dokumente, die zu durchsuchen sind, sowohl handgeschriebene Wörter als auch getippte Wörter enthalten können, die dann beide gleichzeitig abgefragt werden.
-
Im hierin verwendeten Sinne bezeichnet ein „Trainingswortbild” ein Wortbild, das in einer Trainingsphase bzw. Übungsphase verwendet wird, um Schriftartgewichte zu erzeugen und diese können „handgeschrieben” oder „synthetisiert” sein; ein „Schlüsselwortbild” bezeichnet ein synthetisiertes Wortbild in einer gegebenen Schriftart eines ausgewählten Schlüsselwortes, das bei der Erzeugung eines Schlüsselwortmodells verwendet wird; und ein „handgeschriebenes Kandidatenwortbild bzw. Handschriftenkandidatenwortbild” oder einfach „ein Kandidatenwortbild” bezeichnet ein Handschriftenwortbild, das mit dem Schlüsselwortmodell getestet wird. Zu beachten ist, dass die handgeschriebenen Trainingswortbilder und Kandidatenwortbilder aus der gleichen Ansammlung von Handschriftenwortbildern genommen werden können, wobei dies jedoch nicht notwendigerweise der Fall ist. In einer Ausführungsform sind zumindest einige der Kandidatenwortbilder nicht unter den handgeschriebenen Trainingswortbildern. Die Schlüsselwortbilder, die beim Einüben eines Schlüsselwortmodells verwendet werden, können aus der Gruppe synthetisierter Trainingswortbilder stammen, aber dies muss nicht der Fall sein, und in einer Ausführungsform ist keines der Schlüsselwortbilder in der Gruppe aus synthetisierten Trainingswortbildern.
-
Im hierin verwendeten Sinne beruht ein „Deskriptor” für ein gegebenes Wortbild (handgeschrieben oder synthetisiert) auf Information, die aus dem Wortbild extrahiert wird. Jeder Deskriptor kann ein einzelnes Histogramm oder eine Sequenz aus Histrogrammen sein, wobei jedes Histogramm aus Merkmalen auf unterer Ebene erzeugt wird, die von einem entsprechenden Bereich des jeweiligen Wortbildes ermittelt werden. Die beispielhaften Histogramme sind jeweils beispielsweise ein Histogramm orientierter Gradienten (HOG), obwohl andere Merkmale auf tieferer Ebene, etwa Graustufen, ebenfalls anwendbar sind. In der anschaulichen Ausführungsform wird eine Sequenz aus Deskriptoren für jedes Wortbild ermittelt bzw. extrahiert.
-
Die Begriffe „Optimierung”, „Maximierung”, „Minimierung” und ähnliche Ausdrücke, wie sie hierin verwendet werden, sind in breiter Weise zu verstehen, wie sie auch der Fachmann auf diesem Gebiet verstehen würde. Beispielsweise sollen diese Begriffe nicht als einschränkend auf den absoluten globalen optimalen Wert, den absoluten globalen minimalen Wert usw. verstanden werden. Beispielsweise ist bei einer Maximierung einer Funktion ein iterativer Maximierungsalgorithmus anwendbar, der bei einem Abbruchskriterium vor dem Erreichen eines tatsächlichen Maximums anhält. Auch soll unter dem optimalen oder maximalen Wert auch ein optimaler lokaler Wert oder lokaler maximaler Wert verstanden werden.
-
1 zeigt Schritte eines anschaulichen automatisierten Verfahrens zum Erkennen von handschriftlichem Text, der einem Schlüsselwort in Bildern von handgeschriebenen Dokumenten entspricht. Das Verfahren wird mit einem Verfahren 10 implementiert, wie es in 2 gezeigt ist, das anschließend detaillierter beschrieben ist. Das Verfahren setzt voraus, dass eine Ansammlung von handgeschriebenen Kandidatenwortbildern aus einem oder mehreren Dokumenten herausgelöst ist. Ein Verfahren zum Extrahieren dieser Wortbilder ist nachfolgend beschrieben. Es ist jedoch zu beachten, dass die Wortbilder nach der Eingabe der Abfrage eines Anwenders beispielsweise aus einem speziellen Dokument oder speziellen Dokumenten herausgelöst werden können, die von einem Anwender angegeben werden, oder von dem bzw. denen bekannt ist, dass sie von dem gleichen Anwender oder einer Gruppe von Anwendern mit einem ähnlichen Schreibstil erstellt wurden.
-
Das Verfahren beginnt bei S100.
-
Bei S102 wird eine Gruppe aus computererzeugten Schriftarten ausgewählt.
-
Bei S104 wird ein Gewicht bzw. Gewichtung für jede Schriftart bzw. jeden Zeichensatz in der Gruppe aus Schriftarten bestimmt. Die Gewichte der Schriftarten werden so gewählt, dass eine Ähnlichkeit zwischen einer gewichteten Verteilung von Deskriptoren synthetisierter Trainingswortbilder und einer Verteilung von Deskriptoren handgeschriebener Trainingswortbilder optimiert wird. Das Verfahren zum Erzeugen der Schriftartgewichte ist nachfolgend detaillierter mit Bezug zu 3 erläutert.
-
Bei S106 wird ein ausgewähltes Schlüsselwort Kw, das in einer Ansammlung aus handschriftlichen Kandidatenwortbildern zu suchen ist, beispielsweise von einem Anwender eingegeben, indem das Schlüsselwort in eine Eingabeeinrichtung, etwa eine Tastatur, eingetippt wird. Beispielsweise tippt der Anwender bzw. Nutzer das Wort Resiliation (franz. für Löschung) auf einer Tastatur 12 ein, wie dies in 4 gezeigt ist. Alternativ können die Schlüsselwörter automatisch erzeugt werden, beispielsweise aus getippten Dokumenten, die manuell interessierenden Klassen zugeordnet wurden.
-
Bei S108 werden unter Vorgabe eines getippten oder anderweitig ausgewählten Schlüsselwortes Kw mehrere synthetisierte Schlüsselwörter 14 des Schlüsselwortes erzeugt, indem lediglich die Schriftart variiert wird. Insbesondere wird eine Gruppe aus computererzeugten Schlüsselwörtern 14 für das ausgewählte Schlüsselwort automatisch erstellt, wobei unterschiedliche Computerschreibstile verwendet werden. Wie beispielsweise in 4 gezeigt ist, wurde das Wort Resiliation (Löschung in franz.) in fünf unterschiedlichen Schriftarten erzeugt, um eine Gruppe aus erzeugten getippten Schriftartbildern 14 bereitzustellen, obwohl auch weniger oder mehr Schriftarten verwendet werden können. In der anschaulichen Ausführungsform kann eine größere Anzahl an Schriftarten verwendet werden, etwa mindestens 10 oder mindestens 20 und in einigen Ausführungsformen werden bis zu 100 oder mehr Schriftarten verwendet. In einer Ausführungsform werden weitere Beispiele erzeugt, die das Schlüsselwort nicht exakt wiedergeben. Derartige „verrauschte” Schlüsselwortbeispiele können übliche falsche Schreibweisen oder Variationen von Schreibweisen des Schlüsselwortes umfassen, die durch Hinzufügen eines oder mehrerer Buchstaben, das Löschen eines oder mehrerer Buchstaben oder das Austauschen eines oder mehrerer Buchstaben erhalten werden. Beispielsweise kann zusätzlich zu dem Erzeugen des Worts Resiliation in mehreren unterschiedlichen Schriftarten das Wort Resilliation mit Doppel-II mit mehreren Schriftarten erzeugt werden.
-
Bei S110 wird ein Modell 16 im Hinblick auf Deskriptoren trainiert, die aus den Schlüsselwortbildern 14 ermittelt werden, die wiederum bei S108 und den zuvor erzeugten Schriftartgewichten generiert werden. Im Hinblick auf die synthetisierten Trainingswortbilder, die bei S104 erzeugt werden, gilt, dass die Deskriptoren jeweils durch Herauslösen von Merkmalen aus Bereichen eines entsprechenden Schlüsselwortbilds erzeugt werden. Die herausgelösten Deskriptoren werden dann verwendet, um das Modell 16 einzuüben bzw. zu trainieren. Ein einzelnes Modell kann mit allen Schlüsselwortbilddeskriptoren trainiert werden oder ein separates Modell kann für jedes Schlüsselwortbild eingeübt werden.
-
Bei S112 wird eine Sammlung von handgeschriebenen Kandidatenwortbildern, die aus einem Dokument oder einer Ansammlung aus Dokumenten ermittelt wurden, bewertet auf der Grundlage der Deskriptoren der jeweiligen Kandidatenwortbilder 22 und dem trainierten Modell 16.
-
Auf der Grundlage der Bewertungen wird eine Bestimmung durchgeführt, ob jedes Kandidatenwortbild eine Wahrscheinlichkeit besitzt, dass es dem eingegebenen Schlüsselwort entspricht (S114). Beispielsweise werden die Kandidatenwortbilder in der Versammlung bewertet unter Anwendung des Modells und es wird ein bewertungsabhängiges Resultat zurückgegeben, etwa die N als höchstes bewerteten Kandidatenwortbilder, oder Kandidatenwortbilder mit einer Bewertung, die größer ist als ein vorgegebener Schwellwert. Diese Kandidatenwortbilder mit höherer Bewertung werden dann als Schlüsselwortübereinstimmungen bezeichnet.
-
Bei S116 wird Information, die auf dem oder den übereinstimmenden Wortbildern (Schlüsselwortübereinstimmungen) beruht, ausgegeben, beispielsweise auf eine Anzeige, oder die Information wird in einen Speicher geschrieben. Die ausgegebene Information kann jegliche Information enthalten, die das übereinstimmende Wortbild oder das Dokument bzw. die Dokumente 18 angibt, die ein oder mehrere der übereinstimmenden Wortbilder enthalten. Die Information kann beispielsweise eine Dokumentenbezeichnung oder eine Wortbildbezeichnung, eine Anzeige des Wortbildes oder dergleichen, enthalten.
-
In einer Ausführungsform werden bei S118 gekennzeichnete Dokumente 20 oder relevante Teile davon für einen Betrachter angezeigt, wobei die übereinstimmenden Wortbilder 22 markiert sind, wie dies beispielsweise in 4 gezeigt ist. Die die Wortbilder überprüfende Person kann beispielsweise ein oder mehrere Dokumente 20 zurückweisen, wenn das markierte Wortbild 22 gemäß der Ansicht des Betrachters nicht mit der getippten Anfrage Kw übereinstimmt.
-
Alternativ oder zusätzlich kann bei S120 eine Verarbeitung ausgeführt werden, in der gekennzeichnete Dokumente 20 unterschiedlich zu ungekennzeichneten Dokumenten bearbeitet werden. Z. B. werden gekennzeichnete Dokumente mit Vorrang bearbeitet. Oder gekennzeichnete Dokumente werden in einer Datenbank entsprechend ihren Schlüsselwortmarkierungen mit einem Index versehen.
-
In einer noch weiteren Ausführungsform werden die übereinstimmenden Wortbilder 22 selbst als Trainingsbeispiele verwendet, um ein Wortauffindungssystem zu trainieren, d. h. das Verfahren wird angewendet, um handgeschriebene Trainingsproben zu ermitteln, die bei der Erzeugung eines Codierungsbuches verwendet werden können.
-
Im Schritt S124 endet das Verfahren.
-
In der anschaulichen Ausführungsform gibt bei S106 der Anwender eine Suchanfrage nach einem einzelnen Wort ein. Wenn ein Anwender mehr als ein Wort als das Schlüsselwort im Schritt S104 eingibt, werden diese Eingaben in zwei oder mehr Schlüsselwörter und ein Modell 16, das für jeweils jedes Schlüsselwort trainiert ist, bei S106 aufgeteilt. Bei S112 werden lediglich Dokumente, die Beispiele jedes der ausgewählten Schlüsselwörter enthalten, gekennzeichnet, wobei optional eine weitere Beschränkung dahingehend eingeführt werden kann, dass diese in unmittelbarerer Nähe zu dem Dokument 20 angeordnet sind. In einer weiteren Ausführungsform wird der Anwender aufgefordert, ein einzelnes Wort der Anfrage, das zuerst zu suchen ist, auszuwählen.
-
Das anschauliche Verfahren kann einige oder alle der folgenden Kriterien verwenden:
- 1. Eine robuste Wortbildnormierung: Wortbilder (handgeschrieben oder synthetisiert) werden im Hinblick auf Versatz, Neigung und Texthöhe normiert.
- 2. Robuste Merkmalsextraktion: ein Wortbild (handgeschrieben oder synthetisiert) wird durch eine Sequenz aus Merkmalsvektoren beschrieben. Ein gleitendes Fenster wird von links nach rechts verschoben und es wird ein einzelner Merkmalsvektor aus jedem Fenster extrahiert. Es werden beispielsweise 128-dimensionale Histogramme orientierter Gradienten-(HOG)Merkmale verwendet. Diese haben sich als robuster erwiesen als die standardmäßigen Merkmale, die in der Handschriftenliteratur verwendet werden. Ein Deskriptor, der ein Wortbild 14, 22 beschreibt, kann von einigen 10 bis 100 derartiger HOG-Vektoren enthalten.
- 3. Robuste statistische Modellierung: um zu ermöglichen, dass das anschauliche Schlüsselwort 116 im Hinblick auf eine relativ kleine Anzahl an synthetisierten Wortbilddeskriptoren eingeübt werden kann, ist ein statistisches Modell wünschenswert, das robust ist im Hinblick auf eine Überanpassung. In der anschaulichen Ausführungsform wird ein semikontinuierliches verstecktes Markov-Modell (SC-HMM) verwendet. In einem SC-HMM sind die Emissionswahrscheinlichkeiten Gaußsche-Mischmodelle (GMM) und die gleiche Ansammlung an Gauß-Verteilungen wird für die unterschiedlichen Zustände der unterschiedlichen Schlüsselwortmodelle gemeinsam verwendet. Diese Ansammlung an Gauß-Verteilungen wird typischerweise in einer nicht weiter überwachten Weise aus den Deskriptoren erlernt, die aus einer großen Menge von handgeschriebenen Trainingsproben ermittelt wurden.
-
2 zeigt ein anschauliches computerimplementiertes Wortauffindungssystem 10, das zum Ausführen des anschaulichen Verfahrens geeignet ist, das in den 1 und 3 gezeigt ist. Das anschauliche System 10 ist in einem oder mehreren Rechnergeräten 24 implementiert und kann in Form von Hardware oder einer Kombination aus Hardware und Software eingerichtet sein. Das anschauliche System 10 umfasst Softwarebefehle, die in einem Hauptspeicher 26 des Rechnergeräts 24 abgelegt sind, wobei diese Befehle von einem zugehörigen Prozessor 28 abgearbeitet wird.
-
Ein oder mehrere Dokumente 18, die von dem System 10 verarbeitet werden, werden von einer geeigneten Quelle 30 derartiger Dokumente, etwa einem Abtaster, einer Kamera, einem Datenspeichergerät, und dergleichen, empfangen. Jedes Dokument 18 umfasst eine oder mehrere digitale Seiten, wobei jede Seite ein oder mehrere Bilder, etwa binäre Bilder, enthält. In einem Aspekt der anschaulichen Ausführungsform enthalten die zu verarbeitenden Dokumente 18 eingescannte Bilder physikalischer Dokumente, die Text enthalten, der handgeschrieben sein kann (beispielsweise in Handschrift), etwa jegliche Korrespondenz und dergleichen. Während der Verarbeitung werden Dokumentenbilder 18 und Handschriftenwortbilder 22, die daraus ermittelt sind, in einem Datenspeicher 32 abgelegt, der in dem System 10 integriert ist oder anderweitig von dem System 10 ansprechbar ist. Der Datenspeicher 32 kann auch eine Gruppe aus Computer erzeugbaren Schriftarten bzw. Zeichensätzen 34 enthalten. Alternativ wird auf diese Schriftarten von einer externen Quelle aus zugegriffen. Ein Bereich 35 eines oder mehrerer digitaler Dokumente, die ähnlich zu dem Dokument 18 sind und/oder dieses enthalten, und der zum Einlernen von Gewichten für die Gruppe aus Schriftarten 34 zu verwenden ist, wird von einer Dokumentenquelle, etwa einer Quelle 30 erhalten, und kann in dem Speicher 32 zumindest während des Schrittes S104 zur Erzeugung von Schriftartgewichten gespeichert werden.
-
Das System 10 umfasst diverse Verarbeitungsdokumente, die in Hardware und/oder Software implementiert sind. Zu diesen Komponenten gehören ggf. ein Dokumentensegmentierer 36, der ein Dokumentenbild 18 verarbeitet, um eine Sammlung von Handschriftenwortbildern 22 zu erkennen, wobei dies allgemein durch Erkennen von Anhäufungen von aktiven Pixeln erfolgt, die von inaktiven Pixeln umgeben sind. Der Segmentierer 36 arbeitet derart, dass die individuellen Zeichen, die das Handschriftenwortbild bilden, nicht berücksichtigt werden. Ein Handschriftenwortbild 22 kann somit ein beliebiges Objekt umfassen, das als eine diskrete Einheit durch die speziell verwendete Segmentierungstechnik erkannt werden kann. Obwohl generell die herausgelösten Wortbilder ganze Wörter sind, kann das System auch Teile von Wörtern oder mehrere Wörter als Wortbilder erkennen, wenn der Abstand zwischen den Objekten über oder unter einem vorgegebenen Schwellwert liegt.
-
Ein Schriftartgewichtungsgenerator 38 erzeugt ein Gewicht bzw. eine Gewichtung für jede Schriftart (oder zumindest für einige der Schriftarten) aus der Gruppe von Schriftarten 34, auf die das System zugreifen kann, wie dies nachfolgend mit Bezug zu 3 beschrieben ist. Der Schriftartengewichtungsgenerator kann ein probabilistisches Modell bzw. ein Wahrscheinlichkeitsmodell enthalten.
-
Ein Anwendereingabegerät 12, etwa eine Tastatur, eine Tastaturfläche, eine Zeigerkugel, ein berührungsempfindlicher Bildschirm, ein Stimmenerkennungseingabegerät, und dergleichen, das mit dem System 10 in Verbindung steht, ermöglicht es einem Anwender, ein ausgewähltes Schlüsselwort Kw oder eine Gruppe aus zwei oder mehr Schlüsselwörtern einzugeben.
-
Ein Wortbildsynthesizer 40 empfängt als Eingabe ein Schlüsselwort Kw von dem Anwendereingabegerät 12 und erzeugt auf der Grundlage des Schlüsselwortes mehrere Schlüsselwortbilder 14 unter Anwendung der unterschiedlichen typographischen Schriftarten bzw. Zeichensätzen. Der gleiche Synthesizer 40 kann verwendet werden, um synthetisierte Trainingswortbilder in diversen Schriftarten für eine Gruppe aus Trainingswörtern zu synthetisieren, die beim Erzeugen der Schriftartgewichtung zu verwenden sind.
-
Ein Merkmalsextraktor
42 extrahiert Merkmale aus dem synthetisierten Schlüsselwort und den Trainingswortbildern
14 und erzeugt einen Deskriptor auf dieser Grundlage für jedes synthetisierte Wortbild. In der anschaulichen Ausführungsform werden die Merkmale aus Bereichen herausgelöst, die durch ein gleitendes Fenster erzeugt werden, das schrittweise über das synthetisierte Wortbild verfahren wird (siehe Beispielsweise
US 2009/0060396 ;
2009/0060335 ;
2009/0180695 ;
2010/0008581 und
2010/0067793 ).
-
Der gleiche Merkmalsextraktor 42 kann verwendet werden, um Merkmale von Handschriftenwortbildern 22 in der Ansammlung herauszulösen, die als Handschriftentrainingswortbilder und Kandidatenwortbilder zu verwenden sind. Alternativ können die Dokumente in der Ansammlung 35 durch ein separates System (nicht gezeigt) vorverarbeitet werden und die extrahierten Merkmale/Deskriptoren der extrahierten Wortbilder 22 können in dem Datenspeicher 32 abgelegt werden.
-
Es wird ein statistisches Modell 16 mit den Deskriptoren, die aus den synthetisierten Schlüsselwortbildern 14 extrahiert wurden, für ein gegebenes Schlüsselwort Kw und für die Gruppe aus berechneten Schriftartgewichten ωi eingelernt. Die Deskriptoren und die Schriftartgewichte können in dem Speicher 32 abgelegt werden. Die gleichen Schriftartgewichte ωi können nachfolgend für ein weiteres Schlüsselwort verwendet werden.
-
Eine Bewertungskomponente 46 bewertet die Handschriftenkandidatenwortbilder 22 in der Ansammlung auf der Grundlage des trainierten Modells 16. Eine Kennzeichnungskomponente 48 kennzeichnet Kandidatenhandschriftenwortbilder und/oder jene Dokumente 18 mit hoher Bewertung, die die Handschriftenwortbilder mit hoher Bewertung enthalten, und die als Übereinstimmung mit dem Schlüsselwort erkannt wurden, beispielsweise erfolgt die Kennzeichnung mit XML-Markierungen, die auch die Lage der übereinstimmenden Wortbilder 22 in dem Dokument angeben (4). Die gekennzeichneten Dokumente 20 können dann von dem System 10 ausgegeben werden. In einer Ausführungsform werden die gekennzeichneten Dokumente 20 an eine Anzeige 50 ausgegeben, die mit dem Gerät des Anwenders in Verbindung steht, wobei die Anzeige die gekennzeichneten Dokumente oder relevante Bereiche davon darstellt. Die gezeigte Anzeige 50 kann eine Flüssigkristallanzeige (LCD), eine Plasmaanzeige, eine Kathodenstrahlröhren-(CRT)Anzeige, eine Projektionsanzeige oder dergleichen sein. Das Dokument kann markiert werden, wie in 4 gezeigt ist, oder kann anderweitig modifiziert werden, um eine mögliche Übereinstimmung für das Schlüsselwort anzugeben, das von dem System 10 erkannt wurde, beispielsweise um eine Verifizierung durch den Anwender unter Anwendung des Anwendereingabegeräts 12 zu ermöglichen.
-
Alternativ können die gekennzeichneten Dokumente 20 automatisch für eine weitere Bearbeitung, etwa eine OCR-Erkennung, für eine kennzeichnungsbasierte Klassifizierung oder dergleichen ausgegeben werden.
-
Jede der Verarbeitungskomponenten 36, 38, 40, 42, 46, 48 des Systems 10 kann in Form von Hardware oder einer Kombination aus Hardware und Software implementiert sein. In der anschaulichen Ausführungsform sind die Verarbeitungskomponenten 36, 38, 40, 42, 46, 48 in Form von Softwarebefehlen vorgesehen, die in dem Hauptspeicher 26 des Rechnergeräts 24 gespeichert sind, um das mit Bezug zu 1 beschriebene anschauliche Verfahren auszuführen. Die Komponenten 36, 38, 40, 42, 46, 48 können permanent in der Rechnereinrichtung 24 abgelegt sein oder können für dieses auf andere Weise verfügbar sein. Obwohl das System 10 so gezeigt ist, dass es sechs Verarbeitungskomponenten 36, 38, 40, 42, 46, 48 aufweist, sollte beachtet werden, dass zwei oder mehr Komponenten kombiniert werden können oder dass eine Komponente in zwei oder mehr Komponenten unterteilt werden kann.
-
Die Rechnereinrichtung 24 umfasst ggf. ein oder mehrere Eingabe/Ausgabe-„I/O”-Geräte 62 für die Kommunikation mit der Tastatur 12 und der Anzeige 50 sowie mit der Dokumentenquelle 30, wobei dies entweder direkt stattfinden kann, wie dies gezeigt ist, oder über ein oder mehrere Computernetzwerke erfolgen kann. In einer Ausführungsform sind die Anzeige 50 und die Tastatur 12 ein Teil einer Computereinrichtung eines Anwenders (nicht gezeigt), die mit dem Host-Computer 24 über eine verdrahtete oder drahtlose Verbindung, etwa ein LAN oder ein WLAN, beispielsweise das Internet, verbunden ist. In anderen Ausführungsformen ist das System 10 permanent in der Recheneinrichtung des Anwenders vorgesehen. Die Dokumentenquelle 30 kann in ähnlicher Weise angeschlossen sein.
-
Die diversen Komponenten 26, 28, 32, 62 des Computers 24 können alle jeweils mittels eines Datensteuerbusses 68 verbunden sein.
-
Das System 10 kann in einer beliebigen geeigneten Rechnereinrichtung oder Einrichtung 24 implementiert sein, die in der Lage sind, Daten zu verarbeiten, etwa in Form von Computer für Allgemeinzwecke, beispielsweise Tischrechner oder tragbare Rechner oder PDA oder dergleichen oder es kann eine spezielle Rechnereinrichtung vorgesehen sein, etwa ein netzgestützter Server-Rechner, ein Netzwerkrechner und dergleichen. Der digitale Prozessor 28 kann auf diverse Weisen eingerichtet werden, etwa durch einen Einzelkernprozessor, einen Doppelkernprozessor (oder generell durch einen Mehrfachkernprozessor), einen digitalen Prozessor und einen damit zusammenarbeitenden mathematischen Co-Prozessor, eine digitale Steuerung oder dergleichen.
-
Die permanenten Speicher 26, 32 können Speicher mit wahlfreiem Zugriff (RAM), Nur-Lese-Speicher (ROM), eine Festplatte, eine optische Diskette usw. sein, wobei diese alle physikalisch in der Recheneinrichtung 24 angeordnet sein können, oder wobei auf Teile davon durch das Rechnergerät beispielsweise über ein lokales Netzwerk oder das Internet zugegriffen werden kann. Der Datenspeicher 32 kann ein Teil des Hauptspeichers 26 oder kann ein separater Speicher dazu sein. Der Datenspeicher 32 kann Daten speichern, wozu ein Dokument 18, extrahierte Wortbilder 22, synthetisierte Wortbilder 14, optional das trainierte Modell 16, Schriftartgewichtungsfaktoren und dergleichen gehören.
-
Es werden nun weitere Details des anschaulichen Systems und Verfahrens beschrieben.
-
Auswahl von Schriftarten bzw. Zeichensätzen für die Synthese von Trainingswortbildern und Schlüsselwortbildern (S102)
-
Es kann eine große Vielzahl an Schriftarten in der Gruppe 34 aus Schriftarten enthalten sein, ohne dass ihre Auswahl eine spezielle Bedeutung zugeordnet wird, da Schriftarten bzw. Zeichensätze, die weniger repräsentativ für handschriftliche Texte sind, automatisch kleinere Gewichtungsfaktoren bzw. Gewichte in dem anschaulichen Verfahren zugeordnet erhalten. Somit kann beispielsweise die Gruppe aus Schriftarten Schriftarten enthalten, die „computertypisch” aussehen (etwa Times New Roman, Arial, Courier) sowie „handschiftenartige” Schriftarten (etwa Kunstler Script, French Script, Lucida Handwriting). Zusätzlich zum Auswählen aus den Schriftarten, die konventioneller Weise in computerimplementierten Textverarbeitungssoftwarepaketen bereitgestellt werden, können Schriftarten auch von anderen Quellen, etwa Internetseiten erhalten werden.
-
Die gleiche Gruppe aus Schriftarten wird zum Erzeugen der synthetisierten Trainingswortbilder zum Erzeugen von Schriftartgewichten und zum Erzeugen der Schlüsselwortbilder verwendet.
-
Erlernen der Schriftartgewichte (S104)
-
Wie zuvor angemerkt ist, werden in dem anschaulichen System und dem Verfahren Schriftarten nicht in binärer Weise (d. h. ja oder nein) ausgewählt. Stattdessen wird eine kontinuierliche Gewichtung ωi der typographischen Schriftart zugeordnet. Mit kontinuierlichem Gewicht bzw. Gewichtung ist gemeint, dass die Gewichtung über einen Bereich von Werten variieren kann. In einer Ausführungsform werden die Gewichte so normiert, dass alle Schriftartgewichtungen sich zu einem ausgewählten Wert, beispielsweise 1 aufsummieren, d. h. jedes Gewicht ist ein positiver Wert kleiner als 1 und mindestens einige (oder alle) Gewichtungsfaktoren sind größer als 0. Es können jedoch auch andere Gewichtungsschemata angewendet werden. Ein Ziel der Lernphase (S104) besteht darin, eine Gruppe aus Gewichten derart einzulernen, dass die gewichtete Verteilung der merkmalsbasierten Deskriptoren synthetisierter Trainingswortbilder (möglichst gut) mit der Verteilung jener Bilder aus einer Gruppe aus Handschriftentrainingswortbildern übereinstimmt. Die Erzeugung von Gewichten ωi kann vor der Eingabe eines oder mehrerer der ausgewählten Schlüsselwörter ausgeführt werden, da dies unabhängig von den ausgewählten Schlüsselwörtern ist.
-
Das Einlernen der Schriftartengwichte kann wiederholt werden, wenn sich der Stil der Handschrift, die in den abzufragenden handschriftlichen Dokumenten verwendet wird, ändert.
-
Der Schritt S104 des Verfahrens kann so voranschreiten, wie dies in 3 gezeigt ist. Bei S202 werden Handschriften- und Trainingswortbilder 22 aus dem Bereich 35 der handschriftlichen Dokumente extrahiert. In der anschaulichen Ausführungsform wird der Bereich der Dokumente 35, der beim Trainieren verwendet wird, so ausgewählt, dass dieser repräsentativ ist für die Art von Dokumenten, die später mit Schlüsselwörtern abzufragen sind. Wenn beispielsweise die abzufragenden bzw. die zu untersuchenden Dokumente Briefe sind, die von einer speziellen Firma erhalten werden, können die Trainingsdokumente ebenfalls Briefe oder Teile davon an die gleiche Firma sein. Auf diese Weise kann erwartet werden, dass es eine gewisse Überlappung in den verwendeten Wörtern gibt, obwohl dies nicht eine Voraussetzung ist. In einigen Ausführungsformen werden die Trainingswortbilder aus der gleichen Menge aus Dokumenten entnommen, die nachfolgend mit einem Schlüsselwort zu untersuchen sind. Zur Bereitstellung einer repräsentativen Probe aus Schreibstilen und verwendeten Wörtern sind beispielsweise zumindest 50 oder mindestens 100 Dokumente vorgesehen, die zufällig aus dem Bereich 37 ausgewählt sind und für jedes Dokument werden alle oder zumindest ein Teil der Wortbilder herausgelöst, um beispielsweise eine Trainingsmenge von mindestens 1000 oder mindestens 10000 Handschriftentrainingswortbildern 22 zu erstellen. Jedoch kann das Verfahren auch mit einer kleineren Anzahl an Handschriftentrainingswortbildern, etwa aus einer Menge an Dokumenten ausgeführt werden, die von der gleichen Person geschrieben wurden, es kann auch ein einzelnes oder wenige Dokumente ausreichend sein, die zu untersuchen sind, oder es kann sogar ein Paragraph eines Dokuments ausreichen, das zu untersuchen ist.
-
Im Schritt 104 wird ein Deskriptor (oder eine Gruppe aus Deskriptoren) jedes extrahierten Handschriftentrainingswortbildes 22 auf der Grundlage von Merkmalen auf tieferer Ebene erzeugt, die aus dem Wortbild ermittelt werden, wie dies auch nachfolgend detaillierter beschrieben ist. In der anschaulichen Ausführungsform wird jeder Deskriptor aus einer Gruppe von Histogrammen aus orientierten Gradienten-(HOG)Vektoren abgeleitet (beispielsweise kann jeder HOG-Vektor ein 128 dimensionaler Vektor sein). Für jedes Wort wird eine Gruppe dieser Vektoren der Reihe nach ermittelt. Der Wortbilddeskriptor kann eine Verkettung dieser Vektoren umfassen oder die Verkettung kann in ihrer Dimensionszahl reduziert werden. In anderen Ausführungsformen wird jeder Vektor als ein separater Deskriptor für das Trainingswortbild 22 behandelt.
-
Im Schritt S206 wird für jede typographische Schriftart in der Gruppe 34 aus typographischen Schriftarten eine Gruppe aus synthetisierten Trainingswortbildern 14 synthetisiert. In der anschaulichen Ausführungsform sind die eigentlichen Wörter, die den Handschriftentrainingswortbildern 22 entsprechen, aus denen die Deskriptoren im Schritt S204 extrahiert wurden, nicht bekannt. Daher werden für gewöhnlich für die synthetisierten Trainingswortbilder 14 übliche Wörter in der geeigneten möglichen Sprache (beispielsweise eine von der erwartet wird, dass sie in der Dokumentensammlung 35 am häufigsten vertreten ist) ausgewählt. Wenn beispielsweise die natürliche Sprache Englisch ist, werden einige 100 der häufigsten Wörter in Englisch ausgewählt und die synthetisierten Trainingswortbilder 14 werden für jedes dieser Wörter in jeder typographischen Schriftart synthetisiert. In einer Ausführungsform werden die üblichsten Wörter aus einer Menge getippter Dokumente der gleichen Art wie die Menge der handschriftlichen Dokumente ermittelt. Wenn beispielsweise die Menge der handschriftlichen Dokumente Briefe an eine Firma enthält, dann wird eine Gruppe getippter Briefe an die gleiche Firma mit OCR verarbeitet und es wird ein Histogramm aus Worthäufigkeiten für die getippten Dokumente der Ansammlung erzeugt. Aus diesem Histogramm werden die häufigsten Wörter ermittelt. Es sollte beachtet werden, dass die am meisten verwendeten Wörter auch aus einer allgemeineren Dokumentenansammlung, etwa aus Internetseiten, Bildern und dergleichen bestimmt werden können, und Bespiele derartiger Listen, wie sie hierin verwendet werden können, sind im Internet gut verfügbar.
-
Im Schritt S208 wird jede Schriftart und für jedes synthetisierte Trainingswortbild 14 ein Deskriptor (oder eine Gruppe aus Deskriptoren), etwa ein HOG-Vektor, in im Wesentlichen der gleichen Weise extrahiert, die dies für die Handschriftenwortbilder 22 der Fall ist.
-
Die Schritte S202 bis S208 können Vorverarbeitungsschritte sein, die an beliebiger Stelle ausgeführt werden, und die Handschriftentrainingswortbilder 22 (und/oder die daraus ermittelten Deskriptoren), die aus den Dokumenten extrahiert werden, können in einem Speicher abgelegt werden, etwa dem Speicher 32. Weitere Details im Hinblick auf das Extrahieren von Wortbildern und das Erzeugen von merkmalsbasierten Deskriptoren aus extrahierten Handschriftenwortbildern und aus synthetisierten Wortbildern sind nachfolgend angegeben.
-
Das Erlernen der Schriftartengewichte, das von dem Schriftartengewichtungsgenerator 38 ausgeführt wird, kann in zwei Unterschritte aufgeteilt werden: S210, das Erlernen der Handschriften- und Schriftartenverteilungen und S212, das Anpassen der Statistiken dieser Verteilungen, um Schriftartengewichte zu erkennen. S210 kann zwei Unterschritte umfassen: S210A, das Trainieren eines ersten probabilistischen Modells (beispielsweise ein Gaußsches-Mischmodell) im Hinblick auf die Deskriptoren, die aus den Handschriftentrainingswortbildern herausgelöst wurden, und S210B, wobei für jede Schriftart ein probabilistisches Modell (beispielsweise ein Gaußsches-Mischmodell) auf der Grundlage der Deskriptoren eingelernt wird, die aus dem synthetisierten Trainingswortbildern herausgelöst wurden.
-
Das Erlernen der Handschriften- und Schriftartenverteilungen (S210)
-
Es sei F die Anzahl an Schriftarten in der Gruppe 34 aus Schriftarten.
-
Es q eine (erste) Wahrscheinlichkeitsverteilung für die Handschriftenwortdeskriptoren (beispielsweise HOG-Vektoren) und es sei pi eine Wahrscheinlichkeitsverteilung der Deskriptoren, die für die typographische Schriftart i herausgelöst wurden, wobei i den Index der Schriftart (1 ≤ i ≤ F) darstellt. In einer Ausführungsform sind q und die pi durch entsprechende Gaußsche-Mischmodelle (GMM) dargestellt, obwohl auch andere Wahrscheinlichkeitsmodelle hierin mit eingeschlossen sind. Jedes Gaußsche-Mischmodell beruht auf der gleichen Ansammlung aus N Gauß-Verteilungen (Gauß-Funktionen), wobei N beispielsweise ungefähr 50 bis 1000, etwa ungefähr 500, betragen kann. Die GMM werden wie folgt trainiert:
Bei S210A wird eine erste Wahrscheinlichkeitsverteilung (GMM) q mit N-Gauß-Verteilungen an Hand der großen Menge aus HOG-Deskriptoren trainiert, die aus den Handschriftentrainingswortbildern extrahiert werden, die wiederum aus der Zielgruppe 35 im Schritt S204 extrahiert werden.
-
Es sei q = Σ N / n=1πiqi , wobei die π's die Mischungsgewichte und die qi's die Gaußschen Funktionen sind.
-
Zur Abschätzung von q kann ein Kriterium zum Abschätzung der größten Wahrscheinlichkeit (MLE) Anwendung finden. Weitere Details über Abschätzungen mit größter Wahrscheinlichkeit, wie sei auf Gaußsche-Mischmodelle angewendet werden können, können gefunden werden in J. Bilmes, „Eine einfache Einführung in den EM-Algorithmus und eine Anwendung auf eine Parameterabschätzung für Gaußsche-Mischmodelle und versteckte Markov-Modelle, „UC Berkeley, TR-97-021, 1998.
-
Im Schritt S210b wird für jede typographische Schriftart in der Gruppe 34 ein einzelnes GMM pi beispielsweise durch MLE oder durch eine maximale a posteriori (MAP) Anpassung des Handschriften-GMM q unter Anwendung der HOG-Deskriptoren der synthetisierten Trainingswortbilder in der betrachteten Schriftart trainiert. In dem MAP-Falle besitzt jedes der Schriftarten-GMM's strukturbedingt N-Gauß-Verteilungen.
-
Es sei
pi = Σ N / n=1πi,npi,n , wobei die π
i,n die Mischgewichtungsfaktoren und die p
i,n die Gauß-Verteilungen sind. Weitere Details über eine maximale a posteriori-Abschätzung, wie sie auch auf Gaußsche-Mischmodelle angewendet werden kann, sind enthalten in
"Maximale a posteriori Abschätzung für multivariable Gaußsche-Mischbeobachtungen von Markov-Ketten", von J.-L. Gauvain und C. H. Lee, IEEE Trans. und Speech and Audio-Prozessen, 2 (2): 291–298, April 1994.
-
Obwohl in der anschaulichen Ausführungsform das Erlernen der Schriftarten-GMM's pi durch Anpassung an das Handschriften-GMM q erfolgt, ist dies jedoch nicht wesentlich. Jedoch besteht ein Vorteil dieses Verfahrens darin, dass das Trainieren der Schriftartengewichte in rascher Weise möglich ist.
-
Anpassung bzw. Übereinstimmung der Verteilungen von Handschriftenwortdeskriptoren und synthetisierten Wortdeskriptoren zur Erzeugung von Schriftartengewichten (S212).
-
Dieser Schritt zielt darauf ab, dass eine optimale Gruppe aus Schriftartengewichte ermittelt wird, indem eine gewichtete Mischung der GMM pi für die Schriftarten i = 1 bis F ermittelt wird, die am besten das GMM für das Hanschriften-GMM q darstellt.
-
Die optimale Gruppe aus Schriftartengewichten ω
i = {ω
1, ..., ω
F} kann durch Maximieren der Ähnlichkeit (oder Minimieren des Abstandes/der Divergenz, die für die Zwecke der vorliegenden Anmeldung als gleich betrachtet werden können) zwischen q und einem Mischmodell:
Σ F / i=1ωipi (d. h. eine Mischung aus GMM's) erhalten werden. Beispielsweise kann die Kullback-Leibler-Divergenz angewendet werden, um die Ähnlichkeit zweier Verteilungen zu ermitteln. Dies kann durch Maximieren der Erwartung E(ω) über alle Schriftartengewichte ω
i bewerkstelligt werden:
wobei x eine Zufallsvariable kennzeichnet, die ihren Wert in den Raum der Deskriptorenmerkmale annimmt.
-
Dies kann ausgeführt werden unter der Nebenbedingung: Σ F / i=1ωi = 1 , so dass alle Mischgewichte eine Summe 1 (oder eine andere normierte Zahl) ergeben.
-
Da die direkte Maximierung von E(ω) schwierig sein kann, wird eine punktweise Vorgehensweise angestrebt. Es sei X = {xt, t = 1...T} eine Menge aus Deskriptoren, die aus der großen Anzahl an Handschriftentrainingswortbildern in der trainierenden Bildansammlung herausgelöst wurden. Es sei angenommen, dass die xt's abhängig von q ermittelt wurden gemäß dem Gesetz der großen Zahlen (Konvergenz des Deskriptormittelwertes bei dem erwarteten Wert, wenn T anwächst), so dass sich ergibt: E(ω) ≈ E(ω, X) = 1 / TΣ T / t=1log(Σ F / i=1ωipi(x) (Gleichung 2)
-
Gleichung 2 ist somit ein Maß der Wahrscheinlichkeit, dass die Deskriptoren in der Gesamtheit der Handschriftentrainingswörter durch das Mischmodell erzeugt wurden. Die Aufgabe besteht darin, die Werte von ωi, die diese Funktion maximal machen, zu finden. E(ω, X) ist eine konvexe Funktion in ω und wird iterativ mittels eines standardmäßigen Erwartungs-Maximierungs-(EM)Algorithmus wie folgt maximiert:
-
E-Schritt:
-
Die Wahrscheinlichkeit γ
t(i) der vorgegebenen aktuellen Abschätzungen für die Gewichte ω, dass der Deskriptor x
t ein Handschriftenwortbild durch eine Schriftart i erzeugt ist (wobei dies 1 über alle i summiert ergibt), wird berechnet durch:
-
M-Schritt:
-
-
ωi = 1 / TΣ T / t=1γt(i) (Gleichung 4)
-
Die Konvergenz an eine geeignete Lösung kann typischerweise mit einer relativ kleinen Anzahl an Iterationsschritten erreicht werden, beispielsweise unter Anwendung von Gleichungen 3 und 4 mit ein bis zwei Schritten.
-
Obwohl die anschauliche Optimierung auf EM beruht, können andere komplexe Optimierungstechniken, etwa Gradienten-Abfall-basierte Techniken, alternativ eingesetzt werden.
-
Der anschauliche E-Schritt aus Gleichung 3 ergibt eine weiche Zuordnung zu den Gewichtsfaktoren. Alternativ kann ein Erwartungsschritt, der eine harte Zuordnung ergibt, verwendet werden, wobei im Wesentlichen jeder Schriftart eine 0 oder eine 1 für die Wahrscheinlichkeit zugeordnet wird, dass ein Probendeskriptor xi mit dieser Schriftart erzeugt wurde. Beispielsweise wird für jeden Handschriftenwortbilddeskriptor xi der Deskriptor im Hinblick auf jedes der Schriftarten-GMS pi bewertet. Die Schriftart i mit der höchsten Bewertung im Hinblick auf sein GMM pi wird ermittelt und der Deskriptor wird dieser Schriftart zugeordnet. Ein Histogramm aus Zählereignissen kann erzeugt werden, in der die Anzahl an Handschriftenwortbilddeskriptoren, die jeder Schriftart zugeordnet sind, aufgezeichnet wird. Die Histogrammeinträge können dann so normiert werden, dass die Einträge sich zu 1 summieren. Die summierten Zählwerte können als die Schriftartengewichte ωi ausgegeben werden.
-
Sobald die Gewichte ωi bestimmt sind, können diese im Schritt S110 zum Trainieren eines Schlüsselwortmodells verwendet werden. In einigen Ausführungsformen werden die Gewichte eingestellt, anstatt dass sie direkt in den Schritt S110 eingespeist werden. Wenn beispielsweise bestimmt wird, dass einige der Schriftarten sehr kleine Gewichte besitzen, beispielsweise weniger als 10% des mittleren Schriftartengewichts oder Schriftarten mit einem Gewicht von weniger als einem Schwellwert, etwa 0,01, vorhanden sind, dann werden die niedrigsten gewichteten Schriftarten aus der Ansammlung aus Schriftarten entfernt (was äquivalent ist einer Zuordnung des Gewichts 0) und die Gewichte der verbleibenden Schriftarten werden proportional eingestellt, so dass die Summe 1 ergibt. In anderen Ausführungsformen werden lediglich die Gewichte der höher gewichteten Schriftarten beibehalten, etwa der oberen 100 Schriftarten. Wenn beispielsweise Schriftartgewichte, wie sie in 5 gezeigt sind, erzeugt wurden (wobei lediglich einige Schriftarten beispielhaft gezeigt sind), dann kann das Schriftartengewicht für die Schriftart Courier New auf Null gesetzt werden, oder die Schriftart Courier New kann aus der Ansammlung aus Schriftarten entfernt werden und die verbleibenden Schriftartgewichtungen werden proportional so eingestellt, dass sie die Summe 1 ergeben.
-
Optionale Verfahren zum Reduzieren der Rechneranforderungen für die Gleichungen 3 und 4
-
Zu beachten ist, dass das Berechnen von T × F × N Wahrscheinlichkeitswerten pi,n(xt) rechentechnisch hohe Anforderungen für eine hohe Anzahl an T-Deskriptoren (beispielsweise T = 1,000,000), eine große Anzahl F an Schriftarten (beispielsweise F = 100) und eine große Anzahl N an Gauß-Verteilungen (beispielsweise N = 512) erfordern kann. Um die Berechnung zu beschleunigen, kann ein Verfahren angewendet werden, das durch die Spracherkennungsliteratur gefördert wurde (siehe D. Reynolds, T. Quatieri und R. Dunn „Sprecherverifizierung unter Anwendung angepasster Gaußscher-Mischmodelle). Digitale Signalverarbeitung 10:19, 41, (2000)). Diese Technik beruht auf zwei Feststellungen:
- 1. Wenn ein GMM q mit einer großen Anzahl an Gauß-Verteilungen N im Hinblick auf einen Deskriptor xi bewertet wird, tragen nur wenige Gauß-Funktionen wesentlich zu dem Wahrscheinlichkeitswert bei.
- 2. Die Gauß-Verteilungen eines angepassten GMM behalten eine Zuordnung zu der Mischung aus Gauß-Verteilungen in einem GMM, aus welchem sie angepasst wurden. Wenn daher qn(xt) groß ist, sollten die pi,n(xt) Werte ebenfalls groß sein. Somit kann ein schneller Bewertungsalgorithmus für ein gegebenes xt wie folgt angegeben werden:
- 1. Berechne qn(xt) für n = 1...N (N-Gaußsche-Berechnungen). Dann behalte die M-Gauß-Verteilungen mit der höchsten Wahrscheinlichkeit (M kann beispielsweise zwischen 1 und 10 liegen, beispielsweise mindestens 2, beispielsweise M = 5). Es sei dann lt die Menge an Indizies dieser Gauß-Verteilungen.
- 2. Für jede Schriftart(F × M Gauß-Berechnungen).
-
Somit wird die Gesamtzahl an Gauß-Berechnungen von T × F × N auf T × (N + F × M) reduziert. Für F = 100 und M = 5 führt dies zu einer Verringerung der Berechnungen um einen Faktor von 50.
-
Anwendung der Schriftartgewichte zum Einlernen von Schlüsselwortmodellen (S108, S110)
-
Dies beinhaltet das Trainieren eines Modells 16 mit einem speziellen Schlüsselwort Kw, nachdem eine Ansammlung aus Handschriftenwortbildern unter Anwendung der Schriftartengewichte, die im Schritt S104 gelehrt wurden, zu ermitteln ist. Zunächst wird im Schritt S108 eine Gruppe aus F synthetisierten Wortbildern (1 pro Schriftart) für das Schlüsselwort Kw erzeugt (wie im Schritt 206). Anschließend wird ein Deskriptor (beispielsweise eine HOG-Sequenz) für jedes synthetisierte Wortbild extrahiert (wie in S208).
-
Es können diverse Arten von Modellen 16 auf Deskriptoren der extrahierten Merkmale der Schlüsselwortbilder hin trainiert werden, etwa versteckte Markov-Modelle (HMM), Stützvektormaschinen, neuronale Netzwerke oder dergleichen. In der anschaulichen Ausführungsform wird ein semikontinuierliches verstecktes Markov-Modell (SC-HMM) angewendet. Seine Besonderheit besteht darin, dass gewisse Parameter des Modells (etwa Mittelwerte und Kovarianzmatrizen) auf ein universelles Hintergrundmodell (UBM) beschränkt sind, was eine Möglichkeit der Modellierung des Vokabulars der Handschriftdaten ist. In dem vorliegenden Falle kann das UBM das bereits erzeugte Gaußsche-Mischmodell sein, das für die Handschriftentrainingswortdeskriptoren aufgebaut wurde. Das universale Hintergrundmodell (UBM) kann somit beispielsweise ungefähr 512 Gauß-Verteilungen entsprechen, die unter Anwendung einer großen Anzahl (beispielsweise 1 Million) an HOG-Vektoren für Handschriftentrainingswörter trainiert wurden, die wiederum zuverlässig aus einer Gruppe aus Dokumenten extrahiert wurden. Das SC-HMM wird über diesen UBM trainiert und kann ungefähr 10 Zustände pro Zeichen des Schlüsselworts anwenden.
-
In einem SC-HMM wird die gleiche Ansammlung an Gauß-Verteilungen (Gaußsche-Funktionen), die für die UBM verwendet wird, auch gemeinsam für alle Zustände aller trainierenden Proben verwendet. In dem HMM ist jeder Trainingsdeskriptor durch Wahrscheinlichkeiten für eine Gruppe aus Zuständen (oder Muster) dargestellt, wobei jeder Zustand durch Gauß-Verteilungen aus der Ansammlung modelliert ist (jeweils mit einem mittleren Vektor und einer Kovarianzmatrix). Die Wahrscheinlichkeit des Emittierens eines Deskriptors Xμ in einen vorgegebenen Zustand hängt von den Mischgewichten λkw des SC-HMM ab, wobei dies die einzigen wort- und zustandsspezifischen Parameter sind. Selbst wenn ein Trainieren mit synthetisierten Wortbildern erfolgt, müssen die optimalen Parameter des Modells dem Handschriftenvokabular „entsprechen”. Dies ermöglicht eine bessere Möglichkeit des Verknüpfens von getippten und handschriftlichen Texten.
-
Es sei {X
u, u = 1...F} die Gruppe aus Deskriptoren (beispielsweise HOG-Vektoren), die aus dem synthetisierten Schlüsselwortbildern für jede der Schriftartengröße F herausgelöst wurden. Das Schlüsselwortmodel p
kw kann ein SC-HMM mit einem Parameter λ
kw sein. Das SC-HMM kann auf die Deskriptoren trainiert werden, wie dies in der
US-Veröffentlichungsschrift 2010/0067793 beschrieben ist. Um die Parameter λ
kw einzulernen, kann ein Kriterium mit gewichteter maximaler Wahrscheinlichkeitsabschätzung (MLE) angewendet werden. Dies kann erreicht werden durch Maximieren über die λ
kw:
Σ F / u=1ωulogp(Xu|λkw) (Gleichung 5) wobei ω
u das Gewicht für die Schriftart ist, die mit dem Index u versehen ist (das gleich sein kann wie ω
i, was zuvor beschrieben ist, oder es kann eine verarbeitete Teilmenge davon sein, wie dies zuvor erläutert ist) und somit sind die Gewichtungen schlüsselwortunabhängig.
-
Die anschauliche Ausführungsform kann damit implementiert werden, ohne dass eine manuelle Kennzeichnung von Handschriftenwortbildern erforderlich ist.
-
Rechnungsaufwand
-
Die Gaußverteilungen des Handschriften-GMM q sind die gleichen, wie jene, die in der Ansammmlung aus Gauß-Verteilungen des beispielhaften SC-HMM verwendet werden. Somit erfordert der Algorithmus keinen zusätzlichen Aufwand.
-
Das Synthetisieren von Wortbildern (S106), die Merkmalsextraktion (S208) und das GMM MAP-Training S212) kann als Ganzes eine Zeitdauer in der Größenordnung von 15 Sekunden pro Schriftart erfordern. Schließlich kann das Erwärmen der Schriftartgewichte für F = 100 ungefähr einige Minuten beanspruchen.
-
Extrahieren von Wortbildern (S202)
-
Techniken zum Extrahieren von Wortbildern
22 sind beispielsweise in den oben genannten US-Veröffentlichungsschriften beschrieben:
2009/0060396 ;
2009/0060335 ;
2009/0180695 ;
2010/0008581 ; und
2010/0067793 . Kurz gesagt, ein Segmetierungsalgorithmus extrahiert Teilbilder, die potentiell Wörter darstellen, wobei bekannte Techniken auf der Grundlage von Projektionsprofilen und der Cluster-Bildung von Spaltabständen angewendet werden.
-
Wie in 6 gezeigt ist, werden die extrahierten Wortbilder 22 in Bezug auf Versatz, Neigung und Texthöhe normiert. Die extrahierten Wortbilder werden generell auf eine festgelegte Höhe h normiert. Dies kann die Normierung der Oberlänge, des Hauptkörpers und der Unterlänge des Wortbildes auf eine entsprechende Höhe h' entsprechend einer festgelegten Anzahl an Pixel, etwa jeweils 18 Pixel, mit einschließen, so dass ein Wortbild jeweils Oberlängengebiete und Unterlängengebiete mit einer Höhe von 54 Pixel aufweist. Da die Höhe des Hauptkörpers ungefähr proportional zur Breite der einzelnen Zeichen in der Zeichenkette ist, hilft die Normierung, um Wortbilder mit einer Länge zu erzeugen die ungefähr proportional zur Anzahl der Zeichen der Zeichenkette ist.
-
Die synthetisierten Wortbilder 14 in den diversen Schriftarten werden in ähnlicher Weise auf eine festgelegte Höhe h normiert.
-
Extraktion von Wortbilddeskriptoren (S108, S204, S208)
-
Beim Erzeugen eines Deskriptors, etwa eines HOG, werden Merkmale auf tieferer Ebene zunächst aus Bereichen des Wortbildes extrahiert. Der gleiche Extrahierungsprozess kann für Wortbilder 22 in der Trainingsgruppe, für Wortbilder 22 aus den abzusuchenden Dokumenten und für die synthetisierten Trainings- und Schlüsselwortbilder 14 verwendet werden. Wie in 6 gezeigt ist, werden die Bereiche erzeugt, indem ein gleitendes Fenster 70 mit fixierter Höhe h und Breite w über das normierte Bild in einer einzelnen Dimension x in der Richtung des Pfeiles A bewegt wird, die generell der Richtung entspricht, in der das Wort geschrieben/synthetisiert wurde. Das Fenster 70 wird horizontal in Schritten mit regelmäßigem Abstand verschoben, etwa in einem Abstand von 1 oder mehreren Pixeln, oder es wird mit einem variablen Intervall verschoben, so dass mehrere Bereiche aus jedem Wortbild 14, 22, extrahiert werden.
-
Ein Vorteil dieses Vorgehens mit gleitendem Fenster besteht darin, dass diese Vorgehensweise die links-rechts-Natur des Schreibens beibehält. Es ist zu beachten, dass für Skripten, die eine vertikale anstelle einer horizontalen Ausrichtung von Seiten verwenden, etwa chinesisch, dies in vertikaler anstatt in horizontaler Richtung erfolgen kann, d. h. entlang der gleichen Achse wie die schrittweise Verschiebung.
-
Für jeden Bereich werden ein oder mehrere Merkmale (lokale Erscheinungsdeskriptoren) extrahiert. Diese Merkmale können für das Fenster als Ganzes oder für Bereiche davon extrahiert werden. Es sind diverse Verfahren zum Extrahieren von Merkmalen beispielsweise beschrieben in der
US-Offenlegungsschrift 2009/0060396 ; in der
Offenlegungsschrift 2009/0060335 ; in der
Offenlegungsschrift 2009/0180695 ; in der
Offenlegungsschrift 2010/008581 ; und in der
Offenlegungsschrift 2010/0067793 .
-
Beispielsweise werden Merkmale für Schlüsselpunkte, Zellen, Gradientenorientierungen von Pixeln oder dergleichen ermittelt, die dann verkettet werden können, um einen Merkmalsvektor oder ein Histrogramm zu erzeugen, das das Fensterbild (Bereich) als Ganzes repräsentiert. Die Dimensionszahl des Vektors kann beispielsweise unter Anwendung einer Hauptkomponentenanalyse (PCA) verringert werden.
-
Das Bewerten von Kandidatenwortbilder (S112)
-
Wie zuvor angemerkt ist, wird zur Durchsuchung bzw. Abfrage eines Dokuments oder einer Ansammlung von Dokumenten eine Gruppe aus Wortbildern 22 aus dem Dokument bzw. den Dokumenten mit dem Segmentierer 36 extrahiert, und für jedes extrahierte Wortbild wird ein Gruppe aus Deskriptoren durch den Extraktor 42 erzeugt. Zum Bewerten eines Wortbildes 22 im Hinblick auf ein Schlüsselwort Kw werden die Deskriptoren des Wortbildes gegenüber dem entsprechenden Schlüsselwortmodell 16 bewertet. Beispielsweise wird ein Verhältnis (oder eine andere Funktion) der Wahrscheinlichkeit des Deskriptors, der aus dem Schlüsselwortmodell 16 resultiert, gegenüber der Wahrscheinlichkeit berechnet, dass der Deskriptor aus einem Hintergrundmodell, etwa q, kommt.
-
Die Bewertung einer Probe
22 kann durch ein Wahrscheinlichkeitsverhältnis erhalten werden, wie dies beispielsweise in dem
US-Veröffentlichungsschriften 2009/0180695 und
2010/0067793 beschrieben ist, wobei dies über einen Vorgang geschieht, der als Bewertungsnormierung bezeichnet wird. In diesem Sinne sind die SC-HMM's attraktive Modelle, da das gleiche Hintergrund-UBM für die Bewertungsmanier verwendet werden kann, so dass nur ein geringer zusätzlicher Rechnungsaufwand entsteht. Das Anwenden eines GMM-Hintergrundmodells funktioniert in der Praxis sehr gut, da es sowohl die Verteilung von Wortbildmustern und von Schreibstilen modelliert wird. Wenn daher das Schlüsselwort sehr häufig ein Muster enthält (beispielsweise wenn es häufig Buchstaben enthält), dann besteht eine hohe Wahrscheinlichkeit, dass viele Kandidatenwortbilder mit einem normalen HMM mit hoher Bewertung auftreten. Wenn jedoch die GMM-Modelle die Verteilungen von Muster, die in einem Wortbild ermittelt werden, modelliert, dann erhält auch ein Wortbild, das häufige Muster enthält, eine hohe Bewertung in dem GMM-Hintergrundmodell, das in das SC-HMM faktorisiert wird.
-
Erkennung von übereinstimmenden Wortbildern (S114)
-
Die im Schritt S112 ermittelten Ergebnisse können auf diverse Arten dargestellt werden. In einer Ausführungsform werden die Wortbilder 22 gemäß ihren Bewertungen eingestuft, wobei die oberen K Bilder als Übereinstimmung für das Schlüsselwort betrachtet werden. Der Wert von K wird so gewählt, dass er für die Größe der Ansammlung an Proben 22 geeignet ist. In einer großen Ansammlung kann K entsprechend groß sein, beispielsweise ungefähr 25, wohingegen für eine Ansammlung, die aus einem einzelnen Dokument herausgelöst wurde, K ungefähr so klein wie 1 ist. In einer weiteren Ausführungsform werden die Wortbilder mit Bewertungen, die größer als ein vorgegebener Schwellwert sind, als Übereinstimmungen betrachtet. In einer noch anderen Ausführungsform wird zumindest das am Höchsten eingestufte Wortbild als Übereinstimmung betrachtet. Das übereinstimmende Wortbild oder die Wortbilder werden ausgegeben, beispielsweise an eine Anzeige, so dass sie für einen Anwender sichtbar sind, oder diese werden in eine Speichereinrichtung ausgegeben, die innerhalb des Computers oder außerhalb vorhanden ist. Alternativ oder zusätzlich können übereinstimmende Wortbilder und/oder die diese Wortbilder enthaltenden Dokumente für die weitere Bearbeitung gekennzeichnet werden.
-
In einer weiteren Ausführungsform werden weniger als alle der Handschriftenwortbilder in der Ansammlung bewertet. Wenn beispielsweise der Anwender wünscht, dass ein Dokument erkannt wird, das von einer gewissen Person geschrieben wurde, und den Namen der Person als Schlüsselwort eingibt, kann dann, wenn das System ein Kandidatenwortbild erkennt, das den Schwellenbewertungswert, der als Übereinstimmung betrachtet wird, erfüllt, das Verarbeiten weiterer Wortbilder angehalten werden. Beispielsweise werden das Dokument oder ein Teil davon, das den Namen enthält, dem Anwender für eine Verifizierung angezeigt. Wenn dieses Wortbild nicht als eine korrekte Übereinstimmung betrachtet wird, wird die Verarbeitung weiterer Wortbildproben 22 fortgesetzt.
-
In einer weiteren Ausführungsform wird ein Dokument dann gekennzeichnet, wenn es eine Schwellwertwahrscheinlichkeit besitzt, dass es eines oder mehrere Schlüsselwörter aus einer eingespeisten Gruppe aus Schlüsselwörtern enthält.
-
Die in den 1, 3 und 4 dargestellten Verfahren sind in einem nicht-flüchtigen Computerprogrammprodukt oder einem Produkt implementiert, das auf einem Computer ausgeführt wird. Das Computerprogrammprodukt kann ein gegenständiges computerlesbares Speichermedium sein, auf dem ein Steuerprogramm aufgezeichnet ist, etwa eine Diskette, ein Plattenlaufwerk oder dergleichen.
-
Alternativ kann das Verfahren in einem temporären Medium implementiert sein, etwa einer übertragbaren Trägerwelle, in der das Steuerprogramm als ein Datensignal unter Anwendung von Übertragungsmedien, etwa akustischen Wellen oder Lichtwellen implementiert ist, wie sie etwa während einer Funkkommunikation oder Infrarotdatenkommunikation und dergleichen erzeugt werden.
-
Eine Übungsgruppe bzw. Trainingsgruppe kann in einer vollständig automatisierten Weise und in relativ kurzer Zeit erhalten werden. Das Wortfindungssystem ermöglicht somit, dass nach einem beliebigen Wort in einer Handschriftendokumentensammlung gesucht werden kann, ohne dass ein einzelnes Trainingsbeispiel bereitgestellt wird.
-
Ein weiterer Vorteil besteht darin, dass das System/Verfahren das Abfragen bzw. das Durchsuchen nach einem beliebigen Wort ermöglichen.
-
Die gewichtete Gruppe aus Schriftdaten kann in einem Verfahren ermittelt werden, um eine Kategorisierungseinheit zum Zuordnen von Handschriftendokumenten zu einer aus einer Gruppe aus vorbestimmten Klassen zu trainieren auf der Grundlage einer Erkennung gewisser Schlüsselwörter in den Dokumenten. Ein Verfahren zum Kategorisieren handgeschriebener Dokumente mit einem derartigen Kategoresierer in Gruppen bzw. Kategorien auf der Grundlage von Häufigkeiten erkannter Schlüsselwörter und ein Computerprogrammprodukt, das Befehle zum Ausführen der anschaulichen Verfahren beinhaltet, werden ebenfalls hierin bereitgestellt. Aspekte der anschaulichen Ausführungsform betreffen auch eine Vorrichtung zum Trainieren eines Kategorisierers bzw. einer Kategorierungseinheit und eines Kategoriesierungssystems unter Anwendung des trainierten Kategorisierers, der in einem Verfahren zum Kategorisieren handgeschriebener Dokumente verwendet wird auf der Grundlage des Auffindens handgeschriebener Schlüsselwörter in Dokumentenbilder. Das anschauliche Verfahren zum Trainieren eines Kategorisierers beruht auf einer Ansammlung sowohl handgeschriebener als auch getippter Trainingsdokumente, die jeweils manuell mit einer Kennzeichnung entsprechend einem aus einer beschränkten Menge aus Kategorien gekennzeichnet sind.
-
Zu speziellen Anwendungen des anschaulichen Systems und Verfahrens gehören:
- 1. Auffinden seltener Schlüsselwörter, etwa spezifischer Personennamen oder Adressen.
- 2. Auffinden von handgeschriebenen Beispielen in einem Textkörper, der dann als eine Trainingsgruppe für ein Wortauffindungssystem verwendet werden kann. Dies kann zu einem verbesserten Wortauffindungssystem führen, ohne dass der Aufwand anfällt, der für gewöhnlich bei der Sammlung tatsächlicher Handschriftenproben auftritt, da diese nur unter großem Aufwand zu sammeln sind. Das anschauliche Verfahren kann somit als eine Vorstufe dienen, um eine Trainingsgruppe in einer halbautomatisierten Weise zu ermitteln. Die abgerufenen Handschriftenproben können manuell geprüft und die korrekt abgerufenen Proben können dann verwendet werden, um ein besseres Modell zum Auffinden des entsprechenden Wortes zu trainieren.
- 3. Abfragen von Dokumenten in mehreren Sprachen. Dies kann erreicht werden, indem zuerst das Schlüsselwort Kw in eine Anzahl von Sprachen übersetzt wird, wodurch Wortbilder 14 für jedes übersetzte Wort erzeugt werden, und indem eine Suche in einer Ansammlung aus mehrsprachigen Dokumenten ausgeführt wird. Diese Ausführungsform ist besonders vorteilhaft für Organisationen, die in Ländern mit mehreren offiziellen Sprachen (Schweiz, Belgien, Indien, etc.) arbeiten, oder für internationale Institutionen (etwa das EU-Parlament).
- 4. Im Zusammenhang mit einem digitalen Postbüro bzw. einer Poststelle wird beispielsweise das Verfahren für die automatisierte Dokumentenweiterleitung zu einer speziellen Abteilung und/oder zur automatischen Dokumenteneinstufung verwendet.
- 5. Meinungsbildung: Beispielsweise zum Zählen der Anzahl eintreffender Briefe, die mit der „globalen Erwärmung” befasst sind.
-
Ohne den Schutzbereich der anschaulichen Ausführungsform einschränken zu wollen, erläutert das folgende Beispiel eine Anwendung des Systems und des Verfahrens.
-
Beispiel
-
A) Experimenteller Aufbau
-
Eine Datenbank bestehend aus einer Gruppe aus 600 eingescannten Briefen, die in französisch an eine französische Firma geschrieben wurde, wurde zum Bewerten des Verfahrens verwendet. Die Datenbank enthielt eine beträchtliche Variabilität im Hinblick auf die Schreibstile, Fehler und andere Anomalien, etwa Rechtschreibfehler. Das Auftreten einer Gruppe von 10 Schlüsselwörtern in der Datenbank wurde für den Bewertungsprozess als Maß verwendet. Alle Schlüsselwörter waren als übliche Wörter in der Datenmenge bekannt (wozu Monsieur, Madame, Kontrat, Resiliation, Resillier, Satutation, Demande, Abonnement, und Veuillez gehören).
-
Die Leistungsfähigkeit des Erkennens wurde im Hinblick auf das Durchschnitts-Genauigkeitsmaß (AP) bewertet, wobei dies in der Informationsverarbeitung üblich ist. AP kennzeichnet die Durchschnittsgenauigkeit einer Wiederaufruf-Präzisionsdarstellung. In den folgenden Beispielen wurde synthetisierte Trainingsbeispiele 14 für jedes der Schüsselwörter in jeder Schriftart aus einer Gruppe aus Schriftarten bestimmt und es wurde eine mittlere Präzision für die 10 Schlüsselwörter ermittelt.
-
Es wurde ein Segmentierungsprozess mit den eingescannten Briefen ausgeführt, um eine Gruppe aus Handschriftenwortbildern 22 zu erhalten. Es sind ungefähr 300 derartige Wortbilder pro Seite. Für jedes Wortbild wurde eine Sequenz von 128-dimensionalen HOG-Merkmalen extrahiert, wie dies zuvor beschrieben ist, um einen Deskriptor (HOG-Vektor) zu erzeugen.
-
Das GMM q, das die Verteilung von Handschriftentrainingswortdeskriptoren modelliert, besitzt N = 512 Gauß-Verteilungen. Dieses GMM wurde mit einer Gruppe aus ungefähr 100 der handschriftlichen Seiten trainiert. Diese 100 Seiten wurden für Bewertungszwecke nicht verwendet. Lediglich die verbleibenden 500 Seiten wurden für diesen Zweck angewendet.
-
Es wurde eine Gruppe aus 100 Schriftarten erzeugt. Neun dieser Schriftarten waren die gleichen, wie sie von dem heuristischen Verfahren der
US-Offenlegungsschrift 2010/0067793 ausgewählt waren. Die 91 anderen Schriftarten stammen aus der „Handschriften”-Unterkatergorie von
www.dafont.com. Für jede Schriftart wurden Wortbilder für die 2000 häufigsten Wörter in Englisch erzeugt. Eine Sequenz aus HOG-Merkmalen wurde für jedes synthetisierte Wortbild extrahiert und es eine MAT-Anpassung angewendet, um die Schriftarten-GMM's p
i einzulernen.
-
Alle Schlüsselwort-SC-HMM's wurden überlagert zu den Handschriften GGM q trainiert und es wurden 10 Zustände pro Zeichen verwendet.
-
In einem ersten Experiment wurden lediglich 9 Schriftarten, die von dem heuristischen Verfahren der
US 2010/0067793 ausgewählt sind, verwendet. Somit sollte der anschauliche Algorithmus lernen, wie diese neuen Schriftarten am besten zu gewichten sind. Die Ergebnisse sind in der Tabelle 1 gezeigt. Tabelle 1 Vergleich des heuristischen Verfahrens von
US 2010/0067793 (Stand der Technik) mit dem anschaulichen Verfahren (auf 9 Schriftarten beschränkt)
Schlüsselwort | Bekanntes Verfahren mit Präzision (in %) | Vorliegendes Verfahren Durchschnittspräzision (in %) |
Monsieur | 40.1 | 40.3 |
Madame | 55.8 | 55.8 |
Kontrat | 39.5 | 37.4 |
Resiliation | 45.4 | 44.6 |
Salutation | 27.4 | 27.0 |
Resilier | 21.1 | 21.1 |
Demande | 56.0 | 55.7 |
Abonnement | 79.5 | 79.4 |
Veuillez | 41.1 | 40.1 |
... | ... | ... |
mittlere Durchschnittspräzision | 48.5 | 47.9 |
-
Man erkennt, dass das vorliegende Verfahren mit jenem aus der
US 2010/0067793 im Wesentlichen gleich aufliegt. Dies ist ein signifikantes Ergebnis, da in dem bekannten Verfahren die neun Schriftarten ausgewählt wurden, um die Testgenauigkeit für die Schlüsselwörter auf diesen Datensatz zu maximieren, während die Gewichte, die durch das vorliegende Verfahren berechnet sind, schlüsselwortunabhängig sind. Dies führt zu einem ungebührlichen Vorteil für die Vorgehensweise der
US 2010/0067793 , wobei, wie dies zuvor erläutert ist, das vorliegende Verfahren jedoch rechentechnisch wesentlich weniger aufwendig ist.
-
In einem zweiten Experiment wurden die gesamte Gruppe aus 100 Schriftarten und ihre Gewichtungen, die unter Anwendung der obigen Gleichungen 3 und 4 wie zuvor beschrieben berechnet wurden, berücksichtigt. Unter Auswahl der besten Kombination aus Schriftarten mit dem heuristischen Verfahren von
US 2010/0066793 wäre ein Aufwand von mehreren Tagen an CPU-Rechenzeit erforderlich, und wäre daher nicht praktikabel. Im Gegensatz dazu kann das vorliegende Verfahren effizient innerhalb von Minuten trainiert werden. Die Ergebnisse des vorliegenden Verfahrens sind in der Tabelle 2 gezeigt. Man erkennt, dass die Effizienz des anschaulichen Verfahrens es ermöglicht, dass das System eine wesentlich größere Anzahl an Schriftarten handhabt. Die mittlere Zunahme der Durchschnittsgenauigkeit beginnend von 9 Schriftarten bis 100 Schriftarten beträgt +8,5%, was eine signifikante Leistung darstellt. Tabelle 2 Suchergebnisse mit 100 Schriftarten
Schlüsselwort | Durchschnittliche Präzision des vorliegenden Verfahrens
(in %) |
Monsieur | 51.8 |
Madame | 59.1 |
Kontrat | 68.0 |
Resiliation | 50.9 |
Salutation | 27.2 |
Resilier | 26.4 |
Demande | 61.7 |
Abonnement | 83.0 |
Veuillz | 51.6 |
... | ... |
Mittlere Durchschnittspräzision | 56.4 |
-
Man erkennt, dass das anschauliche Verfahren eine gute Durchschnittspräzision liefert.
-
Schließlich sei zum Vergleich angemerkt, dass die Genauigkeit (mittlere Durchschnittspräzision) eines „Abfrage-durch-Beispiel-(QBE)Systems (unter Anwendung eines einzelnen Handschriftenbeispiels anstelle der synthetisierten Trainingsbeispiele) mit diesem Datensatz 32,3% beträgt, was deutlich unterhalb der 56,4% liegt, die mit dem erfindungsgemäßen System unter Anwendung 100 synthetisierter Schriftarten erhalten werden. Dies zeigt, dass das vorliegende Verfahren vorteilhaft ist im Hinblick auf eine QBE-Vorgehensweise.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 2009/0060396 [0053, 0100, 0105]
- US 2009/0060335 [0053, 0100, 0105]
- US 2009/0180695 [0053, 0100, 0105, 0108]
- US 2010/0008581 [0053, 0100]
- US 2010/0067793 [0053, 0096, 0100, 0105, 0108, 0123, 0125, 0125, 0126, 0126]
- US 2010/008581 [0105]
- US 2010/0066793 [0127]
-
Zitierte Nicht-Patentliteratur
-
- J. Bilmes, „Eine einfache Einführung in den EM-Algorithmus und eine Anwendung auf eine Parameterabschätzung für Gaußsche-Mischmodelle und versteckte Markov-Modelle, „UC Berkeley, TR-97-021, 1998 [0077]
- ”Maximale a posteriori Abschätzung für multivariable Gaußsche-Mischbeobachtungen von Markov-Ketten”, von J.-L. Gauvain und C. H. Lee, IEEE Trans. und Speech and Audio-Prozessen, 2 (2): 291–298, April 1994 [0079]
- D. Reynolds, T. Quatieri und R. Dunn „Sprecherverifizierung unter Anwendung angepasster Gaußscher-Mischmodelle). Digitale Signalverarbeitung 10:19, 41, (2000) [0091]
- www.dafont.com [0123]