JP3244068U6

JP3244068U6 - ニューラルネットワークに基づく手書き文字識別システム

Info

Publication number: JP3244068U6
Application number: JP2023002914U
Authority: JP
Inventors: 庄建明; 陳頌光
Original assignee: Sunia Pte Ltd
Current assignee: Sunia Pte Ltd
Priority date: 2022-10-26
Filing date: 2023-08-10
Publication date: 2023-10-06
Anticipated expiration: 2033-08-10

Abstract

【課題】右から左に書く言語を含めて高い識別率を有し、適当な書き順の識別をサポートするニューラルネットワークに基づく手書き文字識別システムを提供する。
【解決手段】手書き文字識別システムは、オンラインで手書きされた文字列手書き軌跡を受信すると共にプリプロセスを行うために用いられている手書き筆跡入力プロセッサと、手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースと、エンコーダ、デコーダ、入力インターフェース、及び出力インターフェースを含む文字識別ニューラルネットワークと、を備えている。文字列データベースの文字列手書き軌跡中の各手書き筆跡はエンコーダー及びデコーダに入力されて複数回識別され、可能性のある複数の文字列を獲得する。識別した文字列は出力インターフェースを経由してポストプロセッサに出力されて正規化される。
【選択図】図１

Description

本考案は、文字識別システムに関し、より詳しくは、ニューラルネットワークに基づく手書き文字識別システムに関する。

オンライン手書き文字行識別（online handwritten Chinese character recognition）技術は１行の手書き文字の動的筆跡を文字列に変換する技術である。活字体識別技術と比べ、手書き識別は人それぞれ違う書き方の癖を考慮する必要があるため、より困難である。オフライン手書き識別と比べ、オンライン手書き識別では時系列情報をさらに有し、背景ノイズが少ないため、より高い精度を達成できる。

従来技術には高い識別率を有する２種類のオンライン手書き識別方法があり、１つは分割デコードメカニズムに基づいて、まず筆画順序に対し分割し、動的計画法を応用して分類器により最適な分割方式及び対応する識別結果を選択する。MyScript社及び初期のGoogle社ではこの方法を採用し、その利点は精確な対応関係を出力できる点である。２つ目の方法は、明示的に分割せず、一般的に双方向循環ニューラルネットワーク及びCTC（Connectionist Temporal Classification）デコーダに基づいている。この方法を採用する企業としてSamsung社及びGoogle社があり、この方法の利点は容易に実施できるため、エンドツーエンド・トレーニング（end-to-end training）方式を使用して関連するモデルをトレーニングできる点である。

しかしながら、前述した従来の文字識別技術では、その識別率は高くなく、世界中のメジャーな自然言語（右から左に書く言語を含む）を高い精度で識別することはできず、或いは適当な書き順で書いた文字を識別できなかった。

本考案者らは、鋭意検討を重ねた結果、新規のニューラルネットワークに基づく手書き文字識別システムの構成を採用することによって、上記目的が達成されることを見出し、本考案を完成させるに至った。

本考案は、上記問題点に鑑みて本考案者の鋭意研究により成されたものであり、その目的は、ニューラルネットワークに基づく手書き文字識別システムを提供することにある。

上記課題を解決するために、本考案のある態様のニューラルネットワークに基づく手書き文字識別システムは、プロセッサ及びメモリーを備え、前記プロセッサはシステムに必要な操作を実行するために用いられ、前記メモリーは前記システムのコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられている。前記システムは、
オンラインで手書きされた文字列手書き軌跡を受信するために用いられている手書き筆跡入力プロセッサであって、前記文字列手書き軌跡は複数の手書き筆跡に分解され、ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサは前記文字列手書き軌跡の各手書き筆跡に対しプリプロセスを実行し、トレーニング段階において、前記文字列手書き軌跡のこれら手書き筆跡は既知の文字列に対応し、少なくとも１つの文字で構成され、前記文字列手書き軌跡及びその対応する文字列により文字列サンプルが形成される手書き筆跡入力プロセッサと、
前記手書き筆跡入力プロセッサに接続され、前記手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースであって、トレーニング段階において、前記文字列データベースは前記文字列手書き軌跡及びそれが対応する文字列で形成されている文字列サンプルを保存する文字列データベースと、
エンコーダーと、デコーダと、前記エンコーダーに位置している入力インターフェースと、前記デコーダに位置している出力インターフェースと、を含む文字識別ニューラルネットワークであって、前記入力インターフェースは前記文字列データベースに接続され、前記文字列手書き軌跡の各手書き筆跡を受信するために用いられ、前記エンコーダーは各手書き筆跡中からコンテキストマトリクス及び前記デコーダが使用する初期状態を探し出し、前記デコーダは前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェースから事前出力された文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダに回帰入力して識別し、これを数回反復した後、可能性のある複数の文字列及び対応する信頼度を獲得すると共に結果候補セットに保存し、前記結果候補セットは前記出力インターフェースを経由して外部に向けて出力し、トレーニング段階において、前記文字列手書き軌跡の各手書き筆跡は前記入力インターフェースを経由して前記文字識別ニューラルネットワークに入力され、前記文字列手書き軌跡が対応する文字列は前記文字識別ニューラルネットワークの事前出力とする文字識別ニューラルネットワークと、
前記文字列データベース及び前記文字識別ニューラルネットワークの前記出力インターフェースに接続され、前記文字識別ニューラルネットワークの前記出力インターフェースが出力した前記結果候補セットの文字列は前記ポストプロセッサにより正規化（Normalization）され、前記文字識別ニューラルネットワークの出力とするポストプロセッサと、を更に備えている。

本考案によれば、より高い識別率を有し、世界中のメジャーな自然言語（右から左に書く言語を含む）をより精確に識別可能であり、入力筆画と出力文字との間の対応関係を提供する。適当な書き順の識別をサポートする。本考案は実際の応用時には必要な文字識別範囲を配置してオープンまたはクローズな辞典への応用をサポートする。本考案は一般的な携帯電話やタブレット端末の即時手書き文字識別にも応用可能である。

本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムの要部を示す概略構成図である。本考案のトレーニング段階の応用を示す概略図である。本考案の文字列サンプルを示すブロック図である。本考案の予測段階の応用を示す概略図である。本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムのハードウェア構造を示す概略構成図である。

以下、考案の実施の形態を通じて本考案を説明するが、以下の実施形態は実用新案登録請求の範囲にかかる考案を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが考案の解決手段に必須であるとは限らない。

まず、本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システム１は、主にプロセッサ２及びメモリー６を含んで構成されている（図５参照）。前記プロセッサ２はシステム１に必要な操作を実行するために用いられている。前記メモリー６は前記システム１のコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられている。全ての操作結果及び関連するデータは前記メモリー６に保存されている。

本考案のニューラルネットワークに基づく手書き文字識別システム（図１乃至図５参照）は、文字識別が１つのSeq2Seq（sequence to sequence）としてモデルが構築されるという問題があり、前記問題の入力は１列のサンプリング点（x座標、y座標、及び手書き筆跡終了標記を含む）であり、出力は１列の文字であり、両者の長さは全て非固定値である。本考案は注意機構に基づいたエンコーダー-デコーダフレームワークを採用してこの問題を解決している。

本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムには、以下の構成が主に含まれる。

＜手書き筆跡入力プロセッサ１０＞
オンラインで手書きされた文字列手書き軌跡８０を受信するために用いられ、前記文字列手書き軌跡８０は複数の手書き筆跡８１に分解される。ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサ１０は前記文字列手書き軌跡８０の各手書き筆跡８１に対しプリプロセスを実行する。トレーニング段階において、前記文字列手書き軌跡８０のこれら手書き筆跡８１は既知の文字列９０に対応し、少なくとも１つの文字９１で構成され、前記文字列手書き軌跡８０及びその対応する文字列９０により文字列サンプル１００が形成されている（図３参照）。前記手書き筆跡入力プロセッサ１０のプリプロセス方式は以下の通りである。

＜手書き筆跡順序の正規化＞
各手書き筆跡８１に対しバウンディングボックスを確定し、前記バウンディングボックスは前記手書き筆跡８１の最小ボックスを収容可能である。各手書き筆跡８１のバウンディングボックスの左側の位置を基準とし、全ての手書き筆跡８１に対し左から右にかけて並べ替えることが所謂正規化である。

＜行の高さを推定＞
１つの手書き筆跡８１の長さがそのバウンディングボックスの幅に近似している場合、そのバウンディングボックスの幅を手書き筆跡の尺度とし、そうでなければ前記バウンディングボックスの高さを手書き筆跡の尺度とする。これら手書き筆跡の尺度のある分位数を行の高さとして推定する。

＜再サンプリングを実行＞
各手書き筆跡８１は複数のサンプリング点８３で表示し、サンプリング点８３に対し、前記サンプリング点８３と１つ前のサンプリング点８３との距離が行の高さの推定の幾らかの倍数である場合、前記サンプリング点８３を削除する。前記サンプリング点８３及びその前方及び後方にあるサンプリング点８３に対し、三点の間の夾角が平角（１８０度）に接近している場合、前記サンプリング点８３を削除する。こうすることで、サンプリング点８３の数量を大量に削減できる。

＜座標の正規化＞
各サンプリング点８３の座標を行の高さの推定で除算する。

トレーニング段階において、前記文字列手書き軌跡８０の各手書き筆跡８１は前記手書き筆跡入力プロセッサ１０によりプリプロセスを実行してニューラルネットワークの入力として用い、前記文字列手書き軌跡８０が対応する文字列９０はニューラルネットワークの事前出力とする。

＜文字列データベース２０＞
前記手書き筆跡入力プロセッサ１０に接続され、前記手書き筆跡入力プロセッサ１０が処理した多量の文字列手書き軌跡８０を保存するために用いられている。トレーニング段階において、前記文字列データベース２０は前記文字列手書き軌跡８０及びそれに対応する文字列９０で形成されている文字列サンプル１００を保存する。各前記文字列手書き軌跡８０の各手書き筆跡８１は複数のサンプリング点８３で表示する。各手書き筆跡８１の１個目のサンプリング点８３は座標（0,0）で表示し、残りのサンプリング点８３は１つ前のサンプリング点８３に対する変位ベクトルを応用して表示し、各手書き筆跡８１の最後のサンプリング点８３は終了標記を有している。

システム全体の一般化識別能力を高めるため、データ拡張法を使用して文字列サンプル１００の数量を増加させる。本考案は、コーパス及び手書きサンプルライブラリ３５及び前記手書き筆跡入力プロセッサ１０に接続されている文字列サンプル生成ユニット３０を更に備え、前記コーパス及び手書きサンプルライブラリ３５には特定の言語の各種文字及び単語、並びにそれらに対応する手書き筆跡８１のサンプルが保存されている。前記文字列サンプル生成ユニット３０は前記コーパス及び手書きサンプルライブラリ３５中から多量の文字列９０及びそれらに対応する手書き筆跡８１を抽出し、これら文字列９０に対しそれらに対応する文字列手書き軌跡８０を合成して多量の文字列サンプル１００を形成し、且つ前記手書き筆跡入力プロセッサ１０により処理した後に前記文字列データベース２０に保存し、ニューラルネットワークのトレーニングに用いる。前記文字列サンプル生成ユニット３０が前記文字列手書き軌跡８０を合成する方式は以下のステップを含む。
（１）テキスト組版アルゴリズムを利用して前記文字列９０をレンダリング（render）し、文字列９０中の各文字/単語の位置を記録した後、前記コーパス及び手書きサンプルライブラリ３５から各文字/単語の手書き筆跡８１を検索すると共に対応する位置に配置し、これら文字/単語の各手書き筆跡８１の正規化された手書き筆跡順序及び行の高さの推定を獲得し、前記手書き筆跡入力プロセッサ１０に入力して再サンプリング及び座標の正規化を行って対応する文字列サンプル１００を獲得する。

前記文字列９０中の文字、単語、及び行等のレベルを分類し、それらに対応する手書き筆跡８１に対しランダムアフィン変換（Affine transformation）を実行して対応する文字列手書き軌跡８０の多様性を更に高め、ニューラルネットワークのトレーニングに用いる更に多くの文字列サンプル１００を獲得する。
（２）注記を有するテキスト行サンプルを利用してSeq2Seq翻訳モデルをトレーニングし、前記注記は前記テキスト行サンプルの対応する文字列９０を示し、前記Seq2Seq翻訳モデルは文字列９０を対応する文字列手書き軌跡８０に変換し、対応する文字列サンプル１００を生成するために用いられている。

前記文字列サンプル生成ユニット３０は獲得した文字列サンプル１００を前記文字列データベース２０に保存する。

＜文字識別ニューラルネットワーク４０＞
エンコーダー４１と、デコーダ４２と、前記エンコーダー４１に位置している入力インターフェース４３と、前記デコーダ４２に位置している出力インターフェース４４と、を含んで構成されている。前記入力インターフェース４３は前記文字列データベース２０に接続され、前記文字列手書き軌跡８０の各手書き筆跡８１を受信するために用いられている。前記エンコーダー４１は各手書き筆跡８１中からコンテキストマトリクス及び前記デコーダ４２が使用する初期状態を探し出すために用いられ、前記デコーダ４２は前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェース４４から事前出力される文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダ４２に回帰入力して識別を行う。これを数回反復した後、可能性のある複数の文字列９０及び対応する信頼度を獲得すると共に、結果候補セット７０に保存する。前記結果候補セット７０は前記出力インターフェース４４により外部に向けて出力する。

図２に示す如く、トレーニング段階において、前記文字列手書き軌跡８０の各手書き筆跡８１は前記入力インターフェース４３により前記文字識別ニューラルネットワーク４０に入力し、前記文字列手書き軌跡８０が対応する文字列９０は前記文字識別ニューラルネットワーク４０の事前出力とする。

＜ポストプロセッサ５０＞
前記文字列データベース２０及び前記文字識別ニューラルネットワーク４０の前記出力インターフェース４４に接続されている。前記文字識別ニューラルネットワーク４０の前記出力インターフェース４４が出力した前記結果候補セット７０の文字列９０は前記ポストプロセッサ５０により正規化（Normalization）され、前記文字識別ニューラルネットワーク４０の出力とする。正規化の方式は以下の通りである。
（１）UnicodeのNFKD形式（Normalization Form KD）で正規化する。主に異なる形式の同じ文字を表現し、同じプログラムコードとして正規化する。
（２）Unicodeの符号位置の順序を正常な論理的順序から視覚的順序（左から右）に変換することで、並べた入力と略位置を揃える。予測段階において、予期可能な識別結果は通常正規化されているため、識別した文字列９０に対しUnicodeのNFKCにより正規化を行う必要があり、Unicodeの符号位置の順序を視覚的順序から論理的順序に変換して戻す。

例えば、文字列９０中の異なる配列順序を有する部分の文字を同じ配列順序を有するように整理する。こうすることで、ニューラルネットワークのトレーニングを行う際に識別が容易になる。

前記エンコーダー４１は多層双方向LSTM（Long Short-Term Memory）循環ニューラルネットワーク、及び全結合ニューラルネットワーク（Fully-connect Neural Network、FNN）を含む。前記エンコーダー４１に入力する各手書き筆跡８１は多層双方向LSTM（Long Short-Term Memory）循環ニューラルネットワークに進入し、前記多層双方向LSTM循環ニューラルネットワークの出力はコンテキストマトリクス（context matrix）である。前記コンテキストマトリクスに対しグローバル平均プーリング（Global Average Pooling）を実行した後、前記全結合ニューラルネットワーク（Fully-connect Neural Network、FNN）を経由し、前記全結合ニューラルネットワークの出力は前記デコーダ４２に入力するための初期状態である。

前記デコーダ４２の入力は、入力文字と、デコード状態と、収斂ベクトルと、前記コンテキストマトリクスと、を含む。前記デコーダ４２は複数ステップのデコードを実行し、最初のステップのデコードを行う際に、前記入力文字の初期値は１つのビルトインの開始符号であり、前記収斂ベクトルの初期値は零ベクトルであり、前記デコード状態の初期値は前記エンコーダー４１が出力する前記初期状態であり、前記コンテキストマトリクスは前記エンコーダー４１により出力される。前記デコーダ４２の出力は次の文字及びその信頼度（Confidence）分布、新しいデコード状態、及び新しい収斂ベクトルであり、前記次の文字は新しい入力文字とし、新しいデコード状態及び新しい収斂ベクトルと共に前記デコーダ４２に回帰入力し、次のステップのデコードを実行する。前記デコーダ４２は上述した方式を応用して複数ステップのデコードを反復して実行する。前記収斂ベクトルの次元は各サンプリング点８３を示し、その作用はどのサンプリング点８３が対応する出力文字を既に有しているかを記録し、各次元の初期座標は0である。対応する出力文字が存在する場合、前記サンプリング点８３に対応する次元座標は1に設定する。こうすることにより、前記収斂ベクトルを応用して字の欠乏また過多の状況を減少させている。

前記デコーダ４２は複数の関数の線型結合である損失関数（loss function）を定義し、計算時には必要に応じて意義のある損失関数を定義する。前記損失関数は信頼度分布の交差エントロピー（cross-entropy）を較正し、前記収斂ベクトルの終了時に全て1の平均二乗誤差をガイドするために用いられている。既知のある文字が手書き筆跡８１に対応する場合（例えば、データに文字レベル注記がある、または合成である）、１つの文字をデコードするように更にガイドすると、前記収斂ベクトルが手書き筆跡８１に関する点に対応する分量が1増大する。こうすることで、予測段階において、前記収斂ベクトルの変化により出力された各文字がどの手書き筆跡８１にそれぞれ対応するか判断する。

予測段階において、前記デコーダ４２はビームサーチ（Beam Search）方式で候補行を徐々に構成し、且つ未完成の各候補行に対し、その文字列、信頼度、デコード状態、収斂ベクトル、及び予測分析スタック（predictive analysis stack）を記録する。前記予測分析スタックは予測分析法（predictive analytics）の文法記号列を含むスタックである。文字レベルの候補を出力する必要がある場合、各文字の若干の他の候補文字及び対応する信頼度を更に記録する。手書き筆跡８１と文字との対応関係を出力する必要がある場合、歴史的収斂ベクトルを更に記録する。前記デコーダ４２はデコードの各ステップにおいて、未完成の各候補行に対し以下のステップを実行する。
（１）前記デコーダ４２を起動して次の文字の候補リスト及び対応する信頼度を獲得し、同時にデコード状態及び収斂ベクトルを更新する。
（２）前記出力インターフェース４４により次の文字の各候補を前記出力インターフェース４４と前記ポストプロセッサ５０との間に結合されている信頼度調整ユニット６０に出力し、前記信頼度調整ユニット６０はn-gram方式により獲得する文字列の可能性を計算し、次の文字の各候補の信頼度を調整する。
（３）次の文字の各候補に対し、元の文字列との結合後の信頼度及び予測分析スタックを計算する。
（ａ）前記候補が終了記号であり、且つ前記予測分析スタックがブランクである場合、完成した１行の候補行を獲得する。
（ｂ）前記候補が終了記号ではなく、且つ前記予測分析スタックが間違い状態にない場合、未完成の１行の候補行を獲得し、次のステップのデコード時に処理を行うために用いる。毎回次のステップのデコードの開始時には、前記デコーダ４２が信頼度が最も高い若干の候補行のみを保留する。既に完成した候補行の数量が既定値に達した場合、デコードを停止し、この際完成した候補行は可能性のある若干の文字列９０であり、これら文字列９０及びその信頼度を前記結果候補セット７０に保存し、前記出力インターフェース４４により外部に向けて出力する。

予測段階において（図４参照）、識別したい文字列手書き軌跡８０の各手書き筆跡８１を前記手書き筆跡入力プロセッサ１０により処理した後、前記文字列データベース２０により前記文字識別ニューラルネットワーク４０に入力して識別を行い、識別結果を前記ポストプロセッサ５０により処理した後に得られる前記結果候補セット７０は、前記文字列手書き軌跡８０に対応する可能性のある若干の文字列９０及びその信頼度を含む。

本考案は、その精神又は主要な特徴から逸脱することなく、他のいろいろな形態で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本考案の範囲は実用新案登録請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、実用新案登録請求の範囲の均等範囲に属する変形や変更は、すべて本考案の範囲内のものである。

１手書き文字識別システム
２プロセッサ
６メモリー
１０手書き筆跡入力プロセッサ
２０文字列データベース
３０文字列サンプル生成ユニット
３５手書きサンプルライブラリ
４１エンコーダー
４２デコーダ
４３入力インターフェース
４４出力インターフェース
５０ポストプロセッサ
６０信頼度調整ユニット
７０結果候補セット
８０文字列手書き軌跡
８１手書き筆跡
８３サンプリング点
９０文字列
１００文字列サンプル

Claims

プロセッサ及びメモリーを備え、前記プロセッサはシステムに必要な操作を実行するために用いられ、前記メモリーは前記システムのコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられているニューラルネットワークに基づく手書き文字識別システムであって、
オンラインで手書きされた文字列手書き軌跡を受信するために用いられている手書き筆跡入力プロセッサであって、前記文字列手書き軌跡は複数の手書き筆跡に分解され、ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサは前記文字列手書き軌跡の各手書き筆跡に対しプリプロセスを実行し、トレーニング段階において、前記文字列手書き軌跡のこれら手書き筆跡は既知の文字列に対応し、少なくとも１つの文字で構成され、前記文字列手書き軌跡及びその対応する文字列により文字列サンプルが形成される手書き筆跡入力プロセッサと、
前記手書き筆跡入力プロセッサに接続され、前記手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースであって、トレーニング段階において、前記文字列データベースは前記文字列手書き軌跡及びそれが対応する文字列で形成されている文字列サンプルを保存する文字列データベースと、
エンコーダーと、デコーダと、前記エンコーダーに位置している入力インターフェースと、前記デコーダに位置している出力インターフェースと、を含む文字識別ニューラルネットワークであって、前記入力インターフェースは前記文字列データベースに接続され、前記文字列手書き軌跡の各手書き筆跡を受信するために用いられ、前記エンコーダーは各手書き筆跡中からコンテキストマトリクス及び前記デコーダが使用する初期状態を探し出し、前記デコーダは前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェースから事前出力された文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダに回帰入力して識別し、これを数回反復した後、可能性のある複数の文字列及び対応する信頼度を獲得すると共に結果候補セットに保存し、前記結果候補セットは前記出力インターフェースを経由して外部に向けて出力し、トレーニング段階において、前記文字列手書き軌跡の各手書き筆跡は前記入力インターフェースを経由して前記文字識別ニューラルネットワークに入力され、前記文字列手書き軌跡が対応する文字列は前記文字識別ニューラルネットワークの事前出力とする文字識別ニューラルネットワークと、
前記文字列データベース及び前記文字識別ニューラルネットワークの前記出力インターフェースに接続され、前記文字識別ニューラルネットワークの前記出力インターフェースが出力した前記結果候補セットの文字列はポストプロセッサにより正規化（Normalization）され、前記文字識別ニューラルネットワークの出力とするポストプロセッサと、を更に備えていることを特徴とするニューラルネットワークに基づく手書き文字識別システム。
前記手書き筆跡入力プロセッサのプリプロセス方式は、手書き筆跡順序を正規化し、行の高さを推定し、再度サンプリングを行い、最後に座標の正規化を行い、各サンプリング点の座標は行の高さで除算して推定することを特徴とする請求項１に記載のニューラルネットワークに基づく手書き文字識別システム。
コーパス及び手書きサンプルライブラリ及び前記手書き筆跡入力プロセッサに接続されている文字列サンプル生成ユニットを更に備え、前記コーパス及び手書きサンプルライブラリには特定の言語の各種文字及び単語並びにそれらが対応する手書き筆跡のサンプルが保存され、前記文字列サンプル生成ユニットは前記コーパス及び手書きサンプルライブラリ中から多量の文字列及びそれらが対応する手書き筆跡を抽出し、これら文字列に対しそれらが対応する文字列手書き軌跡と合成して多量の文字列サンプルを形成し、且つ前記手書き筆跡入力プロセッサにより処理した後に前記文字列データベースに保存し、ニューラルネットワークのトレーニングに使用することを特徴とする請求項１に記載のニューラルネットワークに基づく手書き文字識別システム。
前記文字列サンプル生成ユニットが前記文字列手書き軌跡を合成する方式は、テキスト組版アルゴリズムを利用して前記文字列をレンダリング（render）し、且つ文字列中の各文字/単語の位置を記録した後、前記コーパス及び手書きサンプルライブラリから各文字/単語の手書き筆跡を検索すると共に対応する位置に配置することで、これら文字/単語中の各手書き筆跡の正規化された手書き筆跡順序及び行の高さの推定を獲得し、前記手書き筆跡入力プロセッサに入力して再度サンプリング及び座標の正規化を行って対応する文字列サンプルを獲得し、
前記文字列中の文字、単語、及び行等のレベルを分類し、それらが対応する手書き筆跡に対しランダムアフィン変換（Affine transformation）を行って対応する文字列手書き軌跡の多様性を更に高めることを特徴とする請求項３に記載のニューラルネットワークに基づく手書き文字識別システム。
前記文字列サンプル生成ユニットが前記文字列手書き軌跡を合成する方式は、注記を有するテキスト行サンプルを利用してSeq2Seq翻訳モデルをトレーニングし、前記注記は前記テキスト行サンプル中で対応する文字列を示し、前記Seq2Seq翻訳モデルは文字列を対応する文字列手書き軌跡に変換し、対応する文字列サンプルを生成するために用いられていることを特徴とする請求項３に記載のニューラルネットワークに基づく手書き文字識別システム。
前記ポストプロセッサが正規化を行う方式は、UnicodeのNFKD形式（Normalization Form KD）で正規化を行い、主に異なる形式の同じ文字として表現し、同じプログラムコードとして正規化することを特徴とする請求項１に記載のニューラルネットワークに基づく手書き文字識別システム。
前記ポストプロセッサが正規化を行う方式は、Unicodeの符号位置の順序を正常な論理的順序から視覚的順序に変換することで、並べた入力と略位置を揃え、識別した文字列に対しUnicodeのNFKC正規化を行うと共に、Unicodeの符号位置の順序を視覚的順序から論理的順序に変換して戻すことを特徴とする請求項１に記載のニューラルネットワークに基づく手書き文字識別システム。
前記エンコーダーは多層双方向LSTM（Long Short-Term Memory）循環ニューラルネットワーク、及び全結合ニューラルネットワーク（Fully-connect Neural Network、FNN）を含み、前記エンコーダーに入力する各手書き筆跡は多層双方向LSTM（Long Short-Term Memory）循環ニューラルネットワークに進入し、前記多層双方向LSTM循環ニューラルネットワークの出力はコンテキストマトリクス（context matrix）であり、前記コンテキストマトリクスに対しグローバル平均プーリング（Global Average Pooling）を行った後、前記全結合ニューラルネットワーク（Fully-connect Neural Network、FNN）を経由し、前記全結合ニューラルネットワークの出力は前記デコーダに入力するための初期状態であることを特徴とする請求項１に記載のニューラルネットワークに基づく手書き文字識別システム。
各前記文字列手書き軌跡の各手書き筆跡は複数のサンプリング点により表示され、各手書き筆跡の１個目のサンプリング点は座標（0,0）で表示し、残りのサンプリング点は１つ前のサンプリング点に対する変位ベクトルを応用して表示し、各手書き筆跡の最後のサンプリング点は終了標記を有し、
前記デコーダの入力は、入力文字と、デコード状態と、収斂ベクトルと、前記コンテキストマトリクスと、を含み、前記デコーダは複数ステップのデコードを行い、最初のステップのデコードを行う際に、前記入力文字の初期値はビルトインの１つの開始符号であり、前記収斂ベクトルの初期値は零ベクトルであり、前記デコード状態の初期値は前記エンコーダーが出力する前記初期状態であり、前記コンテキストマトリクスは前記エンコーダーにより出力され、前記デコーダの出力は次の文字及びその信頼度（Confidence）分布、新しいデコード状態、及び新しい収斂ベクトルであり、前記次の文字は新しい入力文字とし、新しいデコード状態及び新しい収斂ベクトルは共に前記デコーダに回帰入力され、次のステップのデコードを行い、前記デコーダは上述した方式を応用して複数ステップのデコードを反復して実行し、前記収斂ベクトルの次元は各サンプリング点を示し、その作用はどのサンプリング点が既に有している対応する出力文字を記録し、各次元の初期座標は0であり、対応する出力文字が存在する場合、前記サンプリング点に対応する次元座標を1に設定することを特徴とする請求項８に記載のニューラルネットワークに基づく手書き文字識別システム。
前記デコーダ中に複数の関数の線型結合である損失関数（loss function）を定義し、計算時には必要に応じて意義のある損失関数を定義し、前記損失関数は信頼度分布の交差エントロピー（cross-entropy）を較正し、前記収斂ベクトルの終了時に全て1の平均二乗誤差をガイドするために用いられ、既知のある文字が手書き筆跡に対応する場合、１つの文字をデコードするように更にガイドすると、前記収斂ベクトルが手書き筆跡に関する点に対応する分量が1増大し、予測段階において前記収斂ベクトルの変化により出力された各文字がどの手書き筆跡にそれぞれ対応するか判断することを特徴とする請求項９に記載のニューラルネットワークに基づく手書き文字識別システム。
予測段階において、前記デコーダはビームサーチ（Beam Search）方式で候補行を徐々に構成し、且つ未完成の各候補行に対し、その文字列、信頼度、デコード状態、収斂ベクトル、及び予測分析スタック（predictive analysis stack）を記録し、前記予測分析スタックは予測分析法（predictive analytics）の文法記号列を含むスタックであり、文字レベルの候補を出力する必要がある場合、各文字の若干の他の候補文字及び対応する信頼度を更に記録し、手書き筆跡と文字との対応関係を出力する必要がある場合、歴史的収斂ベクトルを更に記録することを特徴とする請求項９に記載のニューラルネットワークに基づく手書き文字識別システム。
前記デコーダは各ステップのデコードにおいて未完成の各候補行に対し、
（１）前記デコーダを応用して次の文字の候補リスト及び対応する信頼度を獲得し、同時にデコード状態及び収斂ベクトルを更新するステップと、
（２）次の文字の各候補を前記出力インターフェースを経由して前記出力インターフェースと前記ポストプロセッサとの間に結合されている信頼度調整ユニットに出力し、前記信頼度調整ユニットはn-gram方式を応用して獲得する文字列の可能性を計算し、次の文字の各候補の信頼度を調整するステップと、
（３）次の文字の各候補に対し、元の文字列との結合後の信頼度及び予測分析スタックを計算するステップと、
（ａ）前記候補が終了記号であり、且つ前記予測分析スタックがブランクである場合、完成した１行の候補行を獲得するステップと、
（ｂ）前記候補が終了記号ではなく、且つ前記予測分析スタックが間違い状態にない場合、未完成の１行の候補行を獲得し、次のステップのデコード時に処理を行うために用いられるステップと、を実行し、
毎回次のステップのデコードの開始時には、前記デコーダは信頼度が最も高い若干の候補行のみを保留し、既に完成した候補行の数量が既定値に達した場合、デコードを停止し、この際完成した候補行は可能性のある若干の文字列であり、これら文字列及びその信頼度を前記結果候補セットに保存し、前記出力インターフェースにより外部に向けて出力することを特徴とする請求項１１に記載のニューラルネットワークに基づく手書き文字識別システム。