DE202022106040U1

DE202022106040U1 - Handschrifterkennungssystem auf der Grundlage eines neuronalen Netzwerks

Info

Publication number: DE202022106040U1
Application number: DE202022106040.1U
Authority: DE
Original assignee: Sunia Pte Ltd; Sunia PteLtd
Current assignee: Sunia Pte Ltd; Sunia PteLtd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2022-11-08
Anticipated expiration: 2032-10-27
Also published as: TWM654255U; JP3244068U

Abstract

Auf einem neuronalen Netzwerk basierendes Erkennungssystem für handschriftlichen Text, wobei das System eine zentrale Verarbeitungseinheit und einen Hauptspeicher umfasst, wobei der Hauptspeicher dazu dient, Software zu speichern, und die zentrale Verarbeitungseinheit dazu dient, verwendete Prozesse auszuführen, wobei das System ferner umfasst:
einen Stricheingabeprozessor zum Empfang von Spuren aus Online-Handschrifttexten, wobei die Handschrifttexte entsprechend als Zeichenketten existieren; die Spuren in mehrere Striche unterteilt werden; in einer Trainingsphase und einer Vorhersagephase eines neuronalen Netzwerks durch den Stricheingabeprozessor die Striche vorverarbeitet werden; in der Trainingsphase diese Striche einer Zeichenkette entsprechen, welche eine bekannte Zeichenkette darstellt, wobei jede Zeichenkette aus mindestens einem Zeichen besteht, wobei die Handschriftspur und die entsprechende Zeichenkette als Zeichenkettenprobe gebildet werden;
eine mit dem Stricheingabeprozessor verbundene Zeichenfolgendatenbank zur Speicherung einer großen Menge der Spuren, wobei in der Trainingsphase die Zeichenfolgendatenbank zum Abspeichern der Spuren und entsprechenden Zeichenfolgen dient, welche als Zeichenfolgenmuster gebildet werden;
ein neuronales Worterkennungsnetzwerk mit einem Kodierer, einem Dekodierer, einer Eingangsschnittstelle im Kodierer und einer Ausgangsschnittstelle im Dekodierer, wobei die Eingabeschnittstelle mit der Zeichenfolgendatenbank zum Empfang der Striche von Spuren in Verbindung steht, wobei der Kodierer dazu dient, eine Kontextmatrix aus den Strichen und einem vom Dekodierer verwendeten Anfangszustand zu finden; der Dekodierer die Kontextmatrix und die Anfangszustände empfängt; ferner die Ausgangsschnittstelle zur Ausgabe von Teilen der prädizierten Zeichenketten und Konfidenzen dieser Teile dient, indem am Ausgang des Dekodierers die prädizierte Zeichenkette teilweise ausgegeben wird, also bei jeder Operation des Dekodierers, wobei nur ein Teil der vorhergesagten Zeichenkette und ihre Konfidenz ausgegeben werden, und dann dieser Teil und die Konfidenz an den Eingang des Dekodierers zurückübertragen werden, um einen weiteren Teil der Zeichenkette und deren Konfidenz zu erzeugen; dieser weitere Teil den früheren Teil der in die Dekodierer eingegebenen Zeichenkette enthält; und diese Prozesse erneut durchgeführt werden, bis ein eingestellter Zustand erreicht wird;
wobei in der Trainingsphase jeder Strich der Spur von der Eingabeschnittstelle in das neuronale Texterkennungsnetzwerk eingegeben wird und die der Spur entsprechenden Zeichenfolgen als vorhergesagte Ausgabe des neuronalen Texterkennungsnetzwerks verwendet werden; und
einen Nachprozessor, der mit der Zeichenfolgedatenbank und der Ausgangsschnittstelle des neuronalen Texterkennungsnetzwerks verbunden ist, wobei die Zeichenfolgen in der Kandidateneinheit in dem Nachprozessor normalisiert werden, um als Ausgaben des neuronalen Texterkennungsnetzwerks verwendet zu werden.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf Texterkennung, insbesondere auf ein Erkennungssystem für handschriftlichen Text auf der Grundlage eines neuronalen Netzwerks.
HINTERGRUND DER ERFINDUNG
Bei der Online-Handschrifterkennung handelt es sich um eine Technologie, welche Striche handschriftlicher Texte in Zeichenfolgen umwandelt. Im Vergleich zur Erkennung von gedruckten Texten ist es bei handschriftlichen Texten notwendig, Schreibgewohnheiten zu berücksichtigen und der Vorgang somit schwieriger. Im Vergleich zur Offline-Handschrifterkennung besteht dabei der Vorteil darin, dass Nachrichten über die zeitliche Abfolge von Strichen abgegeben werden, weniger Hintergrundrauschen enthalten ist und somit eine höhere Genauigkeit ermöglicht wird.
Es gibt zwei Möglichkeiten der handschriftlichen Texterkennung. Eine basiert auf Trennung und Dekodierung, zuerst werden die Striche nach der Schreibreihenfolge getrennt, dann wird ein dynamischer Klassifikator verwendet, um eine optimale Strichtrennung und ein entsprechendes Erkennungsergebnis zu bestimmen. Diese Methode wird in MyScript und Google verwendet. Der Vorteil dieses Verfahrens besteht darin, dass eine genaue Zuordnung der Striche und des den Strichen entsprechenden Zeichen ausgegeben werden kann. Ein weiteres Verfahren basiert auf einem neuralen Zirkulationsnetz in zwei Richtungen und einer konnektionistischen zeitlichen Klassifikation (CTC). Diese Methode ist von Samsung und Google mehr und mehr angepasst worden. Der Vorteil dieses Verfahrens besteht darin, dass es leicht ausgeführbar ist, weil beim Training von Modellen ein End-to-End-Training verwendet wird.
Dennoch sind im oben erwähnten Stand der Technik die Erkennungsraten niedrig und viele weltweit verwendete natürliche Sprachen können nicht genau erkannt werden (einschließlich der Sprachen, die von rechts nach links geschrieben werden). In unregelmäßiger Reihenfolge geschriebenen Texte können dabei auch oft nicht erkannt werden.
KURZFASSUNG DER ERFINDUNG
Dementsprechend ist es die Aufgabe dieser Erfindung, ein Erkennungssystem für handschriftliche Texte bereitzustellen, welches ein neuronales Netzwerk zur Grundlage hat und in der Erfindung selbst höhere Konfidenzraten bereitstellt. Die häufig verwendeten natürlichen Sprachen können mit einer höheren Genauigkeit erkannt werden (ohne Unterschied, ob sie von rechts nach links und von links nach rechts geschrieben werden). Die Zuordnungsbeziehungen zwischen Eingabestrichen und Zeichenfolgen können in der Erfindung bereitgestellt werden. Zudem kann die Erfindung beliebige Strichfolgen mit unregelmäßigen schriftlichen Befehlen unterstützen. Im realen Gebrauch kann die Erfindung mit einem Texterkennungsbereich ausgestattet werden, um die Anwendung eines offenen oder geschlossenen Korpus zu unterstützen. Die Erfindung könnte auch bei der Handschrifterkennung auf Mobiltelefonen oder Tablet-Computern verwendet werden.
Figurenliste

1 zeigt eine schematische Ansicht der Elementstruktur dieser Erfindung.
2 zeigt eine schematische Ansicht der Anwendung in der Trainingsphase für diese Erfindung.
3 zeigt ein Blockdiagramm, welches einen Auszug aus Ziffernkette gemäß der vorliegenden Erfindung.
4 zeigt eine schematische Ansicht der Anwendung in der Vorhersagephase für diese Erfindung.
5 zeigt die Hardware-Struktur der Erfindung.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Bezugnehmend auf die 1 bis 5 ist das erfindungsgemäße System dargestellt. Das System der vorliegenden Erfindung enthält eine zentrale Verarbeitungseinheit 100 und einen Hauptspeicher 200, wie in 5 gezeigt. Der Hauptspeicher 200 dient zur Speicherung von Software, welche in der vorliegenden Erfindung notwendig ist. Die zentrale Verarbeitungseinheit 100 dient zur Durchführung der verwendeten Prozesse in der vorliegenden Erfindung. Das System umfasst ferner die folgenden Elemente.
In der Erfindung befindet sich eine Sequenz an Abtastpunkten (einschließlich x-Koordinaten, y-Koordinaten und Strichende-Tokens), welche die Striche von handschriftlichen Texten ausdrücken, während deren Ausgaben eine Reihe von Zeichenketten darstellen, welche den Strichen entsprechen.
Ein Stricheingabeprozessor 10 dient zum Empfang von Spuren 80 aus den Online-Handschrifttexten, wobei die Handschrifttexte aus den entsprechenden Zeichenketten bestehen, wobei die Spuren 80 in mehrere Striche 81 unterteilbar sind. In der Trainings- und Vorhersagephase eines neuronalen Netzes verarbeitet der Stricheingabeprozessor 10 die Striche 81 vor. Beim Training entsprechen diese Striche 81 bekannten Zeichenketten 90. Jede dieser Zeichenketten 90 wird durch mindestens ein Zeichen 91 gebildet. Die Handschriftspur 80 und die entsprechende Zeichenkette 90 werden als Zeichenkettenprobe 100 (siehe 3) gebildet.
Die Vorverarbeitung des Stricheingabeprozessors 10 umfasst die folgenden Wege.
Bestimmung eines äußeren rechteckigen Rahmens jedes Striches 81, welcher einen minimalen rechteckigen Rahmen zur Umfassung des Striches 81 darstellt. Basis der linken Seite des Rahmens jedes Strichs 81 bildet eine Sequenz aus Rahmen aller Striche 81 entsprechend der linken Seite, welche die Rahmen der Striche 81 bestimmt.
Wenn die Länge eines Striches 81 ungefähr gleich einer Breite eines Rahmens ist, welcher den Strich 81 enthält, wird eine Breite des Rahmens als eine Größe des Striches 81 verwendet, andernfalls entspricht die Höhe des Rahmens einer Größe des Striches. Ein Verhältnis dieser Größen wird als Schätzung der Zeilenhöhe der durch die Zeichenkette gebildeten Zeile verwendet.
Jeder Strich 81 wird durch eine Vielzahl von Abtastpunkten 83 gebildet. Wenn ein Abstand eines Abtastpunktes 83 zu einem früheren Abtastpunkt 83 kleiner als eine vorbestimmte Zeit der Schätzlinienhöhe ist, wird der Abtastpunkt 83 entfernt. Wenn drei fortlaufende Abtastpunkte 83 nahe einer geraden Linie verbunden werden, dann wird der mittlere 83 der drei Abtastpunkte 83 entfernt. Als Ergebnis dessen wird die Zahl der Abtastpunkte 83 stark reduziert.
Normierung der Koordinaten: Die Koordinaten jedes Abtastpunktes 83 werden durch die geschätzte Linienhöhe dividiert.
In der Trainingsphase werden alle Striche 81 der Spuren 80 durch den Stricheingabeprozessor 10 vorverarbeitet, welche als Eingaben eines neuronalen Netzwerks verwendet werden. Die den Spuren 80 entsprechenden Zeichenkettem 90 werden als Ausgaben des neuronalen Netzwerks in der Trainingsphase verwendet.
Eine Zeichenkettendatenbank 20 ist mit dem Stricheingabeprozessor 10 verbunden, um eine große Menge an Spuren 80 zu speichern. In der Trainingsphase dient die Zeichenkettendatenbank 20 dazu, die Spuren 80 und deren entsprechende Zeichenketten 90 zu speichern, welche als Zeichenkettenproben 100 gebildet und mittels den Strichen 81 durch mehrere Abtastpunkte 83 ausgedrückt werden.
Dabei wird ein erster Abtastpunkt 83 jedes Striches 81 durch eine Koordinate (0,0) ausgedrückt, und jeder der anderen Abtastpunkte 83 wird durch einen Verschiebungsvektor relativ zu einem früheren Abtastpunkt 83 dargestellt. Ein letzter Abtastpunkt 83 jedes Striches 81 wird mit einem End-Token abgeschlossen.
Die Anzahl der Zeichenkettenproben wird durch Datenerweiterung erhöht, wobei in der Erfindung eine Generatoreinheit für Zeichenkettenproben 30 enthalten ist, welche mit einer Korpus- und Handschriftprobendatenbank 35 sowie dem Stricheingabeprozessor 10 in Verbindung steht. Die Korpus- und Handschriftenprobendatenbank 35 speichert verschiedene Zeichen, Wörter und Muster von Strichen 81 in Bezug auf spezifische Sprachen. Die Generatoreinheit für Zeichenkettenabtastwerte 30 wählt eine große Menge von Zeichenfolgen 90 und die entsprechenden Striche 81 aus der Korpus- und Datenbank für Handschriftabtastwerte 35 aus und erzeugt entsprechende Handschriftspuren 80 von Zeichenketten 90, um eine Vielzahl von Zeichenkettenabtastwerten 100 zu bilden, welche durch den Stricheingabeprozessor 10 verarbeitet und dann in der Zeichenketttendatenbank 20 zur Verwendung beim Training von neuronalen Netzwerken gespeichert werden.
Es gibt mehrere Möglichkeiten zur Erzeugung von Handschriftspuren 80 durch die Generatoreinheit für Zeichenkettenproben 30, einschließlich der folgender Vorgehensweisen:

(1) Die Verwendung des Textsatzverfahrens gibt die Zeichenketten 90 wieder und zeichnet Positionen jeder Zeichenkette/jedes Wortes der Zeichenkette 90 auf; dann erfolgt die Auffindung von Strichen 81 der Zeichenkette/des Wortes aus der Korpus- und Handschriftprobendatenbank 35 zur Erfassung der normalisierten Strichfolge und Abschätzung der Zeilenhöhe, welche dann in den Stricheingabeprozessor 10 zur erneuten Abtastung und Normalisierung der Koordinate eingegeben werden, um dann die entsprechende Zeichenkettenprobe 100 zu erhalten.

Außerdem können die Zeichen, Wörter, Zeilen usw. in der Zeichenfolge 90 klassifiziert werden, um dann die Striche 81 der Zeichen, Wörter, Zeilen der gleichen Klassifizierung mit einer affinen Transformation durchzuführen, wodurch eine große Vielfalt unterschiedlicher Spuren 80 erfasst wird. Somit werden mehr Zeichenkettenabtastwerte 100 zur Verwendung beim Training des neuronalen Netzwerks miteinbezogen.

(2) Für Zeilen, die aus Texten mit Zeichenketten 90 darin bestehen, um in Tokens umgewandelt werden, wird ein Übersetzungsmodell für eine Zeichenkette in entsprechende Handschriftspuren antrainiert, damit eben jene entsprechenden Zeichenkettenproben 100 erzeugt werden.

Die Generatoreinheit für Zeichenkettenproben 30 speichert die Zeichenkettenproben 100 in der Zeichenkettendatenbank 20.
Ein neuronales Worterkennungsnetzwerk 40 enthält einen Kodierer 40, einen Dekodierer 42, eine Eingangsschnittstelle 43 im Kodierer 41 und eine Ausgangsschnittstelle 44 im DeKodierer 42. Die Eingangsschnittstelle 43 ist mit der Zeichenfolgendatenbank 20 zum Empfang der Striche 81 aus den Handschriftspur 80 der Zeichenketten verbunden. Der Kodierer 41 dient dazu, eine Kontextmatrix aus den Strichen 81 und einem vom Dekodierer 42 verwendeten Anfangszustand zu finden. Der Dekodierer 42 empfängt die Kontextmatrix und die Anfangszustände. Weiterhin dient die Ausgangsschnittstelle 44 zur Ausgabe von Teilen der prädizierten Zeichenketten und Konfidenzen dieser Teile, indem im Ausgang des Dekodierers 43 die prädizierte Zeichenkette stückweise, also bei jeder Operation, ausgegeben wird. Dem Dekodierer 43 wird nur ein Teil der vorhergesagten Zeichenkette und deren Konfidenzen ausgegeben und dann werden dieser Teil und die Konfidenz zurück zum Eingang des Dekodierers 43 übertragen, um einen weiteren Teil der Zeichenkette und deren Konfidenz zu erzeugen. Dieser weitere Teil enthält den früheren Teil der Zeichenkette, welche in die Dekodierer eingegeben wird. Dann werden diese Prozesse erneut durchgeführt, bis eine festgelegte Bedingung erreicht ist, wobei die Bedingung eine Betriebszeit sein kann oder das Erreichen einer festgelegten Konfidenz.
Der Prozess wird immer wieder durchgeführt, und mehrere erzeugte Zeichenketten 90 und entsprechende Konfidenzen werden erfasst und in einer Ausgabekandidateneinheit 70 gespeichert, welche zuvor von der Ausgabeschnittstelle 44 ausgegeben werden.
Unter Bezugnahme auf 2 wird in der Trainingsphase jeder Strich 81 der Spur 80 in das neuronale Texterkennungsnetz 40 von der Eingabeschnittstelle 43 eingegeben. Die der Spur 80 entsprechenden Zeichenfolgen 90 werden als vorhergesagte Ausgabe des verwendeten neuronalen Netzwerks zur Texterkennung 40 genutzt.
Ein Nachprozessor 50 ist mit der Zeichenfolgendatenbank 20 und der Ausgabeschnittstelle 44 des neuronalen Texterkennungsnetzwerks 40 verbunden. Die Zeichenfolgen 90 in der Kandidateneinheit 70 werden in dem Nachprozessor 50 normalisiert, um als Ausgaben der Texterkennung für das neuronale Netzwerk 40 Verwendung zu finden. Der Weg der Normalisierung umfasst die folgenden Schritte.
(1) Eine NFKD (Normalisierungsform KD) in Unicode wird ausgeführt, um dabei hauptsächlich die selben Zeichen, welche durch verschiedene unterschiedliche Formen ausgedrückt werden, als dieselben Programmcodes zhu normalisieren.
(2) Die durch Unicode ausgedrückte Reihenfolge der Zeichenfolgen wird von der logischen Reihenfolge in eine visuelle Reihenfolge (von links nach rechts) geändert, um so zu bewirken, dass alle Texte in den Zeichenfolgen über die selbe Reihenfolge verfügen (z.B. von links nach rechts). Im vorhergesagten Zustand kann ersehen werden, dass das vorhergesagte Ergebnis ebenfalls normalisiert ist. Daher sollte die erkannte Zeichenkette 90 mit NKFC-Normalisierung von Unicode ausgeführt werden. Die Reihenfolge der Codes von Unicode sollte dabei von der visuellen Reihenfolge zurück in die logische Reihenfolge umwandelbar sein.
In der Erfindung umfasst der Kodierer 41 ein mehrschichtiges zweidirektionales neurales LSTM-(langes Kurzzeitgedächtnis)-Zirkulationsnetz (CNN) und dazu ein vollständig verbundenes neurales Netz (FNN). Die in den Kodierer 41 eingegebenen Striche 81 sollen in das mehrschichtige zweidirektionale LSTM CNN eingegeben werden. Die Ausgabe des CNNs stellt eine Kontextmatrix (welche eine Matrix darstellt, die sich auf die Texte bezieht) dar. Die Kontextmatrix wird mit globaler durchschnittlicher Bündelung ausgeführt und dann in das FNN eingegeben. Die Ausgabe des FNNs ist eine Anfangsstufe, welche in den Dekodierer 42 eingegeben wird.
Eingaben des Dekodierers 42 enthalten ein Eingabezeichen, einen Dekodierungszustand, einen konvergierenden Vektor und die Kontextmatrix. Der Dekodierer 42 führt eine rekursive Operation durch. In deren erster Stufe sind die Anfangsdaten für das eingegebene Zeichen Standarddaten, deren Anfangswerte des Konvergenzvektors den Nullvektor bilden. Der Anfangswert des Dekodierungszustands ist die Anfangsstufenausgabe des Kodierers 41 und die Kontextmatrix, welche von dem Kodierer 41 ausgegebn wird. Ausgaben des Dekodierers 42 sind ein neues Zeichen (in der Zeichenkette ist dieses ein neues Zeichen neben dem in den Dekodierer eingegebenen Zeichen) und dessen Konfidenz, ein neuer Dekodierzustand und ein neuer Konvergenzvektor. Das neue Zeichen wird als neue Eingabezeicheneingabe für den Deckodierer verwendet. Das neue Zeichen, des neuen Dekodierzustands und der neue Konvergenzvektor sind rekursiv zum Eingang des Dekodierers 42, um eine erneute Dekodierung zu ermöglichen. Die Dekodieroperation wird erneut durchgeführt, bis eine eingestellte Bedingung erreicht ist, wobei die eingestellte Bedingung beispielsweise entsprechend als Konfidenz, Betriebszeit oder Anzahl der Zeichen usw. eingestellt werden kann. In der Erfindung bezieht sich die Dimension des Konvergenzvektors darauf, die Anzahl derjenigen Abtastpunkte 83 zur Aufzeichnung zu erfassen, welche den Abtastpunkten entsprechende Ausgangszeichen besitzen. Der Anfangswert für jede Dimension im Konvergenzvektor wird auf null gesetzt. Wenn Zeichen gefunden wurden, werden deren Werte für den diesem Zeichen entsprechenden Konvergenzvektor auf eins gesetzt. Daher können durch die Konvergenzmatrix alle Abtastpunkte 83 gefunden werden und kein weiteres Zeichen wird bei der Erkennung durch das neuronale Netzwerk erzeugt.
Im Dekodierer 42 kann eine Verlustfunktion definiert werden, welche eine lineare Kombination mehrerer oben definierter Funktionen darstellt. Im Betrieb muss eine sinnvolle Verlustfunktion vor allem dafür definiert werden, um die Kreuzentropie der vertraulichen Verteilung zu kalibrieren und die Kovalenz des Konvergenzvektors so anzupassen, dass am Ende der Operation der Wert der Komponenten des Konvergenzvektors eins ergibt. Wenn der Strich 81 eines Zeichens dekodiert wird, dient die Verlustfunktion dazu, den Wert der Komponente des Konvergierungsvektors entsprechend dem Strich 81 auf eins zu bringen. Daher wird in der Vorhersagephase durch Veränderung der Werte des Konvergierungsvektors der Strich, welcher dem Ausgabezeichen entspricht, durch den Eingabeprozessor 10 bestimmt.
In der Vorhersagephase verwendet der Dekodierer 42 eine Strahlsuche, um eine Kandidatenleitung nach der anderen aufzubauen. Jede Kandidatenzeile enthält die Zeichenkette, die Konfidenz, den Dekodierungszustand, den Konvergenzvektor und einen prädiktiven Analysestapel, welche zuvor aufgezeichnet werden. Der prädiktive Analysestapel ist ein Stapel, der eine Reihe von Grammatiksymbolen in dem prädiktiven Analyseverfahren enthält. Die Grammatiksymbole beziehen sich auf die Grammatikstruktur der vorherzusagenden Zeichenkette. Wenn einige Kandidatenzeichen für ein nächstes Zeichen in der Zeichenfolge 90 bereitgestellt werden sollen, werden auch Konfidenzen erzeugt, die jedem Kandidatenzeichen entsprechen. Wenn es erforderlich ist, Beziehungen zwischen einem Strich 81 und einem verwandten Zeichen in der Zeichenkette 90 auszugeben, wird auch eine Historie des Konvergierungsvektors erzeugt und aufgezeichnet. Nach der rekursiven Operation führt der Dekodierer 42 die folgenden Operationen an der unvollständigen Kandidatenzeichenfolge 90 durch:

(1) Betreib des Dekodieres 42 zur Erfassung von Kandidatenzeichen für ein nächstes Zeichen in der Zeichenfolge 90 und einer entsprechenden Konfidenz für jedes Kandidatenzeichen sowie jede Aktualisierung des Dekodierungszustands und Konvergenzvektors.
(2) Wenn Kandidatenzeichen für ein nächstes Zeichen einer von der Ausgangsschnittstelle 44 ausgegebenen Zeichenfolge 90 weiter an eine Konfidenzanpassungseinheit 60 ausgegeben werden, welche zwischen der Ausgangsschnittstelle 44 und einem Nachprozessor 50 installiert steht, steigt die Wahrscheinlichkeit jedes Zeichens in der Zeichenkette 90, um die Konfidenz eines nächsten Zeichens einzustellen, welches von dem Dekodierer erzeugt werden soll.
(3) Für jedes Kandidatenzeichen für das nächste Zeichen werden die Konfidenz der Kombination des Kandidatenzeichens mit der aktuell erzeugten Zeichenkette 90 und der prädiktive Analysestapel berechnet.
1. (a) Wenn das Kandidatenzeichen ein Endsymbol ist und der Vorhersageanalysestapel null sein sollte (keine Komponente darin), wird davon ausgegangen, dass die aktuelle Zeichenkette 90 eine vollständige Zeichenkette ist.
2. (b) wenn sich das Kandidatenzeichen nicht als Endsymbol und der Vorhersageanalysestapel als nicht fehlerhaft herausstellen sollten, dann wird davon ausgegangen, dass die aktuelle Zeichenkette 90 unvollständig ist. In dem Falle wird diese aktuell erzeugte Zeichenkette 90 im nächsten Prozess verwendet, d.h. zur Rückkoppelung an den Dekodierer 42 für den weiteren Betrieb.

Zu Beginn einer nächsten Dekodierungsoperation behält der Dekodierer 42 nur einige Kandidatenzeilen (die ein Teil der Zeichenkette 90 sind) mit höheren Konfidenzen. Wenn die vom Dekodierer 42 ausgegebenen Kandidatenzeilen eine festgelegte Anzahl erreicht haben, hält der Dekodierer 42 an. Zu diesem Zeitpunkt sind die Kandidatenzeilen mögliche Zeichenfolgen 90. Die Zeichenfolgen 90 und die Konfidenzen davon werden für den endgültigen Kandidaten 70 gespeichert, welche dann von der Ausgangsschnittstelle 44 ausgegeben werden.
Unter Bezugnahme auf 4 werden in der Vorhersagephase die zu erkennenden Striche 81 einer Zeichenkettenhandschriftspur 80 durch den Stricheingabeprozessor 10 verarbeitet. Dann werden die verarbeiteten Daten in das neuronale Texterkennungsnetz 40 aus der Kettendatenbank 20 für eine Quittierung angegeben. Das Erkennungsergebnis wird durch den Nachprozessor 50 verarbeitet und dann werden die Ergebnisse in der endgültigen Kandidateneinheit 70 gespeichert, welche mögliche Zeichenketten 90 der Zeichenkettenhandschriftspur 80 und deren Konfidenzen enthält.
Bei der obigen Beschreibung der Erfindung ist es offensichtlich, dass dieselbe auf viele Arten variiert werden kann. Solche Variationen sind nicht als Abweichung vom Geist und Umfang der Erfindung anzusehen und alle solche Modifikationen, die für einen Fachmann offensichtlich wären, sollen im Umfang der folgenden Ansprüche enthalten sein.
Die Erfindung betrifft somit ein auf einem neuronalen Netzwerk basierendes Handschrifterkennungssystem, das einen Stricheingabeprozessor zum Empfang von Spuren aus Online-Handschrifttexten, eine Zeichenfolgendatenbank zur Speicherung großer Mengen an Spuren, ein neuronales Worterkennungsnetz und einen Nachprozessor umfasst, der mit der String-Datenbank und der Ausgangsschnittstelle des neuronalen Texterkennungsnetzwerks verbunden ist, sodass das auf einem neuronalen Netzwerk basierende Handschrifterkennungssystem höhere Verlässlichkeitsraten bietet.

Claims

Auf einem neuronalen Netzwerk basierendes Erkennungssystem für handschriftlichen Text, wobei das System eine zentrale Verarbeitungseinheit und einen Hauptspeicher umfasst, wobei der Hauptspeicher dazu dient, Software zu speichern, und die zentrale Verarbeitungseinheit dazu dient, verwendete Prozesse auszuführen, wobei das System ferner umfasst: einen Stricheingabeprozessor zum Empfang von Spuren aus Online-Handschrifttexten, wobei die Handschrifttexte entsprechend als Zeichenketten existieren; die Spuren in mehrere Striche unterteilt werden; in einer Trainingsphase und einer Vorhersagephase eines neuronalen Netzwerks durch den Stricheingabeprozessor die Striche vorverarbeitet werden; in der Trainingsphase diese Striche einer Zeichenkette entsprechen, welche eine bekannte Zeichenkette darstellt, wobei jede Zeichenkette aus mindestens einem Zeichen besteht, wobei die Handschriftspur und die entsprechende Zeichenkette als Zeichenkettenprobe gebildet werden; eine mit dem Stricheingabeprozessor verbundene Zeichenfolgendatenbank zur Speicherung einer großen Menge der Spuren, wobei in der Trainingsphase die Zeichenfolgendatenbank zum Abspeichern der Spuren und entsprechenden Zeichenfolgen dient, welche als Zeichenfolgenmuster gebildet werden; ein neuronales Worterkennungsnetzwerk mit einem Kodierer, einem Dekodierer, einer Eingangsschnittstelle im Kodierer und einer Ausgangsschnittstelle im Dekodierer, wobei die Eingabeschnittstelle mit der Zeichenfolgendatenbank zum Empfang der Striche von Spuren in Verbindung steht, wobei der Kodierer dazu dient, eine Kontextmatrix aus den Strichen und einem vom Dekodierer verwendeten Anfangszustand zu finden; der Dekodierer die Kontextmatrix und die Anfangszustände empfängt; ferner die Ausgangsschnittstelle zur Ausgabe von Teilen der prädizierten Zeichenketten und Konfidenzen dieser Teile dient, indem am Ausgang des Dekodierers die prädizierte Zeichenkette teilweise ausgegeben wird, also bei jeder Operation des Dekodierers, wobei nur ein Teil der vorhergesagten Zeichenkette und ihre Konfidenz ausgegeben werden, und dann dieser Teil und die Konfidenz an den Eingang des Dekodierers zurückübertragen werden, um einen weiteren Teil der Zeichenkette und deren Konfidenz zu erzeugen; dieser weitere Teil den früheren Teil der in die Dekodierer eingegebenen Zeichenkette enthält; und diese Prozesse erneut durchgeführt werden, bis ein eingestellter Zustand erreicht wird; wobei in der Trainingsphase jeder Strich der Spur von der Eingabeschnittstelle in das neuronale Texterkennungsnetzwerk eingegeben wird und die der Spur entsprechenden Zeichenfolgen als vorhergesagte Ausgabe des neuronalen Texterkennungsnetzwerks verwendet werden; und einen Nachprozessor, der mit der Zeichenfolgedatenbank und der Ausgangsschnittstelle des neuronalen Texterkennungsnetzwerks verbunden ist, wobei die Zeichenfolgen in der Kandidateneinheit in dem Nachprozessor normalisiert werden, um als Ausgaben des neuronalen Texterkennungsnetzwerks verwendet zu werden.
System nach Anspruch 1, wobei die Vorverarbeitung des Stricheingabeprozessors die folgenden Möglichkeiten umfasst: Bestimmung eines äußeren rechteckigen Rahmens jedes Strichs, welcher ein minimaler rechteckiger Rahmen zur Aufnahme des Striches darstellt; die linke Seite des Rahmens jedes Striches, wobei eine Sequenz für Rahmen aller Striche entsprechend der linken Seite der Rahmen der Striche bestimmt wird; wenn eine Länge eines Strichs ungefähr gleich einer Breite eines Rahmens ist, welcher den Strich enthält, wird eine Breite des Rahmens als eine Größe des Striches verwendet, ansonsten wird eine Höhe des Rahmens als eine Größe des Strichs verwendet, wobei ein festgelegtes Verhältnis dieser Größen als Schätzung der Zeilenhöhe der durch die Zeichenkette gebildeten Zeile verwendet wird; jeder Strich wird durch eine Vielzahl von Abtastpunkten gebildet; wenn ein Abstand eines Abtastpunkts zu einem früheren Abtastpunkt kleiner als eine vorbestimmte Zeit der Schätzlinienhöhe ist, wird der Abtastpunkt entfernt; wenn drei fortlaufende Abtastpunkte verbunden werden, um nahe einer geraden Linie zu liegen, dann wird ein mittlerer Abtastpunkt der drei Abtastpunkte entfernt; als Ergebnis wird die Anzahl der Abtastpunkte stark reduziert; und Normalisierung der Koordinaten; wobei die Koordinaten jedes Abtastpunktes durch die geschätzte Linienhöhe dividiert werden.
System nach Anspruch 1, ferner umfassend: eine Generatoreinheit für Zeichenfolgenabtastwerte, welche mit einer Korpus- und Handschriftabtastwertdatenbank und dem Stricheingabeprozessor in Verbindung steht, so dass die Korpus- und Handschriftmusterdatenbank verschiedene Zeichen, Wörter und Muster von Strichen in Bezug auf spezifische Sprachen speichert; die Generatoreinheit für Zeichenfolgemuster wählt eine große Menge von Zeichenfolgen und die entsprechenden Striche aus der Korpus- und Handschriftmusterdatenbank aus; und erzeugt entsprechende Handschriftspuren von Zeichenfolgen, um eine große Menge von Zeichenfolgenabtastwerten zu bilden, welche von dem Stricheingabeprozessor verarbeitet und dann in der Zeichenfolgendatenbank zur Verwendung beim Training von neuronalen Netzwerken gespeichert werden.
System nach Anspruch 1, wobei die Generatoreinheit für Zeichenketten ausgebildet ist, um die Handschriftspuren zu erzeugen, indem: durch ein Textsatzverfahren die Zeichenketten gerendert und die Positionen jeder Zeichenkette/jedes Wortes der Zeichenkette aufgezeichnet werden; dann folgt die Auffindung von Strichen der Zeichenfolge/des Wortes aus der Korpus- und Handschriftprobendatenbank zur Erfassung der normalisierten Strichfolge und Schätzung der Zeilenhöhe, welche dann in den Stricheingabeprozessor zum erneuten Abtasten und Normalisieren der Koordinaten eingegeben werden, um entsprechende Zeichenfolgenprobe zu erfassen; wobei die Zeichen, Wörter, Zeilen usw. in der Zeichenfolge klassifiziert und dann die Striche der Zeichen, Wörter, Zeilen der gleichen Klassifizierung mit einer affinen Transformation durchgeführt werden, um eine große Vielfalt unterschiedlicher Spuren und somit mehr Zeichenfolgen zu erhalten und gleichzeitig Proben zur Verwendung beim Training des neuronalen Netzes zu erfassen.
System nach Anspruch 3, wobei die Generatoreinheit für Zeichenketten ausgebildet ist, um die Handschriftspuren zu erzeugen, indem: für Zeilen, die durch in Tokens umgewandelte Texte mit darin enthaltenen Zeichenketten gebildet werden, ein Übersetzungsmodell für eine Zeichenkette in entsprechende Handschriftspuren trainiert wird, um entsprechende Zeichenkettenproben zu erzeugen; die Generatoreinheit für Zeichenproben speichert die Zeichenproben in der Zeichenprobendatenbank.
System nach Anspruch 1, wobei der Nachprozessor ausgebildet ist, eine NFKD (Normalisierungsform KD) in Unicode auszuführen, wobei hauptsächlich dieselben Zeichen durch verschiedene unterschiedliche Formen ausgedrückt werden, welche als dieselben Programmcodes normalisiert werden.
System nach Anspruch 1, wobei der Nachprozessor ausgebildet ist, die folgenden Operationen auszuführen: die durch Unicode ausgedrückte Reihenfolge von Zeichen wird aus der logischen Reihenfolge in eine visuelle Reihenfolge geändert, um zu bewirken, dass alle Texte in den Zeichenfolgen über die selbe Reihenfolge verfügen; im vorhergesagten Zustand kann ersehen werden, dass das vorhergesagte Ergebnis auch normalisiert ist; daher wird eine erkannte Zeichenfolge mit NKFC-Normalisierung von Unicode durchgeführt und die Reihenfolge der Codes von Unicode wird von der visuellen Reihenfolge zurück in die logische Reihenfolge konvertiert.
System nach Anspruch 1, wobei der Kodierer ein mehrschichtiges zweidirektionales neurales LSTM-(langes Kurzzeitgedächtnis)-Zirkulationsnetz (CNN) und ein vollständig verbundenes neurales Netz (FNN) umfasst; die in den Kodierer eingegebenen Striche sind in das mehrschichtige zweidirektionale LSTM CNN einzugeben; die Ausgabe des CNNs zeigt eine Kontextmatrix, die Kontextmatrix wird mit globaler durchschnittlicher Bündelung durchgeführt und dann in das FNN eingegeben; Die Ausgabe des FNNs ist ein Anfangszustand, der wiederum in den Dekodierer eingegeben wird.
System nach Anspruch 8, wobei jeder Strich durch mehrere Abtastpunkte ausgedrückt wird; und Eingaben des Dekodierers ein Eingabezeichen, einen Decodierungszustand, einen konvergierenden Vektor und die Kontextmatrix umfassen; der Dekodierer führt eine rekursive Operation durch, in der ersten Stufe sind die Anfangsdaten für das Eingabezeichen Standarddaten, der Anfangswert des konvergierenden Vektors ist ein Nullvektor, der Anfangswert des Dekodierungszustands ist die Anfangsstufenausgabe von dem Codierer, und die Kontextmatrix wird von dem Codierer ausgegeben; Ausgänge des Dekodierers bestehen aus einem neuen Zeichen und dessen Konfidenz, einem neuen Dekodierzustand und eines neuen konvergierenden Vektors, wobei dieses neue Zeichen in der Zeichenkette neben dem in den Dekodierer eingegebenen Zeichen existiert; das neue Zeichen wird als neue Eingabezeicheneingabe in dem Dekodierer verwendet; das neue Zeichen, der neue Dekodierungszustand und der neue Konvergenzvektor sind rekursiv zum Eingang des Dekodierers, um erneute Dekodierung zu ermöglichen; die Dekodierungsoperation wird erneut durchgeführt, bis eine voreingestellte Bedingung erreicht wird; die Dimension des Konvergenzvektors steht in Beziehung zu der Anzahl der Abtastpunkte für die Aufzeichnung, welche über den Abtastpunkten entsprechende Ausgabezeichen verfügen; der Anfangswert für jede Dimension im Konvergenzvektor wird auf null gesetzt; wenn Zeichen gefunden wurden, dann werden die Werte in dem diesem Zeichen entsprechenden Konvergenzvektor auf eins gesetzt; und daher werden durch die Konvergenzmatrix alle Abtastpunkte gefunden und kein weiteres Zeichen bei der Erkennung des neuronalen Netzes erzeugt.
System nach Anspruch 9, wobei eine Verlustfunktion in dem Dekodierer zur Kalibrierung der Kreuzentropie einer vertraulichen Verteilung und zur Anpassung der Kovalenz eines Konvergenzvektors definiert ist, so dass am Ende der Operation der Wert der Komponenten des konvergierenden Vektors gleich eins ist; wenn der Strich eines Zeichens dekodiert wird, dient die Verlustfunktion dazu, dass der Wert der Komponente des Konvergenzvektors, welcher dem Strich entspricht, gleich eins ist.
System nach Anspruch 9, wobei der Dekodierer ausgebildet ist, in der Vorhersagephase eine Strahlsuche zu verwenden, um eine Kandidatenleitung nach der anderen aufzubauen; jede Kandidatenzeile enthält die Zeichenkette, die Konfidnez, den Dekodierungszustand, den Konvergenzvektor und einen prädiktiven Analysestapel, welche alle aufgezeichnet werden; der prädiktive Analysestapel ist ein Stapel, der eine Reihe von Grammatiksymbolen in dem prädiktiven Analyseverfahren enthält; die Grammatiksymbole beziehen sich auf die Grammatikstruktur der vorherzusagenden Zeichenkette; und wenn einige Kandidatenzeichen für ein nächstes Zeichen in der Zeichenfolge bereitgestellt werden müssen, werden auch Konfidenzen erzeugt, welche jedem Kandidatenzeichen entsprechen; wenn es erforderlich ist, Beziehungen zwischen einem Strich und einem verwandten Zeichen in der Zeichenkette auszugeben, wird auch eine Historie des Konvergierungsvektors erzeugt und aufgezeichnet.
System nach Anspruch 11, wobei der Dekodierer ausgebildet ist, nach der rekursiven Operation die folgenden Anwendungen an der unvollständigen Kandidatenzeichenkette durchzuführen: (1) Betrieb des Dekodierers zur Erfassung von Kandidatenzeichen für ein nachkommendes Zeichen in der Zeichenfolge sowie einer entsprechenden Konfidenz für jedes Kandidatenzeichen und Aktualisierung des Dekodierungszustands einschliesslich Konvergenzvektors; (2) wenn Kandidatenzeichen für ein nächstes Zeichen einer von der Ausgangsschnittstelle ausgegebenen Zeichenfolge weiter an eine Konfidenzanpassungseinheit ausgegeben werden, welche zwischen der Ausgangsschnittstelle und einem Nachprozessor installiert ist; eine n-Gramm-Berechnung wird verwendet, um die Wahrscheinlichkeit jedes Zeichens in der Zeichenkette zu erhalten, um so die Konfidenz eines nächsten Zeichens einzustellen, welches von dem Dekodierer zu erzeugen ist; (3) für jedes Kandidatenzeichen für das nächste Zeichen wird die Konfidenz der Kombination des Kandidatenzeichens mit der aktuell erzeugten Zeichenkette und der prädiktive Analysestapel berechnet; (a) wenn das Kandidatenzeichen ein Endsymbol ist und der Vorhersageanalysestapel null ist (keine Komponente darin), wird davon ausgegangen, dass die aktuelle Zeichenkette eine vollständige Zeichenkette ist; und (b) wenn das Kandidatenzeichen kein Endsymbol und der Vorhersageanalysestapel nicht fehlerhaft ist, dann wird davon ausgegangen, dass die aktuelle Zeichenkette unvollständig ist; dann wird diese aktuell erzeugte Zeichenkette im nächsten Prozess verwendet, d.h. für den weiteren Betrieb an den Dekodierer zurückgeführt; wobei zu Beginn einer nächsten Dekodieroperation der Dekodierer nur einige Kandidatenzeilen mit höheren Konfidenzen behält; wenn die vom Dekodierer ausgegebenen Kandidatenzeilen eine festgelegte Anzahl erreicht haben, stoppt der Dekodierer; zu diesem Zeitpunkt sind die Kandidatenzeilen mögliche Zeichenfolgen; Drei Zeichenketten und deren Konfidenzen werden für den endgültigen Kandidaten gespeichert, welche dann von der Ausgabeschnittstelle ausgegeben werden.
System nach Anspruch 1, wobei im Vorhersagezustand die zu erkennenden Striche einer Zeichenkettenhandschriftspur durch den Stricheingabeprozessor verarbeitet werden; dann werden die verarbeiteten Daten aus der String-Datenbank zur Erkennung in das neuronale Texterkennungsnetz eingegeben; das Erkennungsergebnis wird durch den Nachprozessor verarbeitet und dann werden die Ergebnisse in der endgültigen Kandidateneinheit gespeichert, welche mögliche Zeichenketten der Zeichenketten-Handschriftspur und deren Konfidenzen enthält.