JP3244068U6 - ニューラルネットワークに基づく手書き文字識別システム - Google Patents

ニューラルネットワークに基づく手書き文字識別システム Download PDF

Info

Publication number
JP3244068U6
JP3244068U6 JP2023002914U JP2023002914U JP3244068U6 JP 3244068 U6 JP3244068 U6 JP 3244068U6 JP 2023002914 U JP2023002914 U JP 2023002914U JP 2023002914 U JP2023002914 U JP 2023002914U JP 3244068 U6 JP3244068 U6 JP 3244068U6
Authority
JP
Japan
Prior art keywords
handwritten
character
character string
neural network
handwriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023002914U
Other languages
English (en)
Other versions
JP3244068U (ja
Inventor
庄建明
陳頌光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunia Pte Ltd
Original Assignee
Sunia Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE202022106040.1U external-priority patent/DE202022106040U1/de
Application filed by Sunia Pte Ltd filed Critical Sunia Pte Ltd
Application granted granted Critical
Publication of JP3244068U6 publication Critical patent/JP3244068U6/ja
Publication of JP3244068U publication Critical patent/JP3244068U/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】右から左に書く言語を含めて高い識別率を有し、適当な書き順の識別をサポートするニューラルネットワークに基づく手書き文字識別システムを提供する。
【解決手段】手書き文字識別システムは、オンラインで手書きされた文字列手書き軌跡を受信すると共にプリプロセスを行うために用いられている手書き筆跡入力プロセッサと、手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースと、エンコーダ、デコーダ、入力インターフェース、及び出力インターフェースを含む文字識別ニューラルネットワークと、を備えている。文字列データベースの文字列手書き軌跡中の各手書き筆跡はエンコーダー及びデコーダに入力されて複数回識別され、可能性のある複数の文字列を獲得する。識別した文字列は出力インターフェースを経由してポストプロセッサに出力されて正規化される。
【選択図】図1

Description

本考案は、文字識別システムに関し、より詳しくは、ニューラルネットワークに基づく手書き文字識別システムに関する。
オンライン手書き文字行識別(online handwritten Chinese character recognition)技術は1行の手書き文字の動的筆跡を文字列に変換する技術である。活字体識別技術と比べ、手書き識別は人それぞれ違う書き方の癖を考慮する必要があるため、より困難である。オフライン手書き識別と比べ、オンライン手書き識別では時系列情報をさらに有し、背景ノイズが少ないため、より高い精度を達成できる。
従来技術には高い識別率を有する2種類のオンライン手書き識別方法があり、1つは分割デコードメカニズムに基づいて、まず筆画順序に対し分割し、動的計画法を応用して分類器により最適な分割方式及び対応する識別結果を選択する。MyScript社及び初期のGoogle社ではこの方法を採用し、その利点は精確な対応関係を出力できる点である。2つ目の方法は、明示的に分割せず、一般的に双方向循環ニューラルネットワーク及びCTC(Connectionist Temporal Classification)デコーダに基づいている。この方法を採用する企業としてSamsung社及びGoogle社があり、この方法の利点は容易に実施できるため、エンドツーエンド・トレーニング(end-to-end training)方式を使用して関連するモデルをトレーニングできる点である。
しかしながら、前述した従来の文字識別技術では、その識別率は高くなく、世界中のメジャーな自然言語(右から左に書く言語を含む)を高い精度で識別することはできず、或いは適当な書き順で書いた文字を識別できなかった。
本考案者らは、鋭意検討を重ねた結果、新規のニューラルネットワークに基づく手書き文字識別システムの構成を採用することによって、上記目的が達成されることを見出し、本考案を完成させるに至った。
本考案は、上記問題点に鑑みて本考案者の鋭意研究により成されたものであり、その目的は、ニューラルネットワークに基づく手書き文字識別システムを提供することにある。
上記課題を解決するために、本考案のある態様のニューラルネットワークに基づく手書き文字識別システムは、プロセッサ及びメモリーを備え、前記プロセッサはシステムに必要な操作を実行するために用いられ、前記メモリーは前記システムのコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられている。前記システムは、
オンラインで手書きされた文字列手書き軌跡を受信するために用いられている手書き筆跡入力プロセッサであって、前記文字列手書き軌跡は複数の手書き筆跡に分解され、ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサは前記文字列手書き軌跡の各手書き筆跡に対しプリプロセスを実行し、トレーニング段階において、前記文字列手書き軌跡のこれら手書き筆跡は既知の文字列に対応し、少なくとも1つの文字で構成され、前記文字列手書き軌跡及びその対応する文字列により文字列サンプルが形成される手書き筆跡入力プロセッサと、
前記手書き筆跡入力プロセッサに接続され、前記手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースであって、トレーニング段階において、前記文字列データベースは前記文字列手書き軌跡及びそれが対応する文字列で形成されている文字列サンプルを保存する文字列データベースと、
エンコーダーと、デコーダと、前記エンコーダーに位置している入力インターフェースと、前記デコーダに位置している出力インターフェースと、を含む文字識別ニューラルネットワークであって、前記入力インターフェースは前記文字列データベースに接続され、前記文字列手書き軌跡の各手書き筆跡を受信するために用いられ、前記エンコーダーは各手書き筆跡中からコンテキストマトリクス及び前記デコーダが使用する初期状態を探し出し、前記デコーダは前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェースから事前出力された文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダに回帰入力して識別し、これを数回反復した後、可能性のある複数の文字列及び対応する信頼度を獲得すると共に結果候補セットに保存し、前記結果候補セットは前記出力インターフェースを経由して外部に向けて出力し、トレーニング段階において、前記文字列手書き軌跡の各手書き筆跡は前記入力インターフェースを経由して前記文字識別ニューラルネットワークに入力され、前記文字列手書き軌跡が対応する文字列は前記文字識別ニューラルネットワークの事前出力とする文字識別ニューラルネットワークと、
前記文字列データベース及び前記文字識別ニューラルネットワークの前記出力インターフェースに接続され、前記文字識別ニューラルネットワークの前記出力インターフェースが出力した前記結果候補セットの文字列は前記ポストプロセッサにより正規化(Normalization)され、前記文字識別ニューラルネットワークの出力とするポストプロセッサと、を更に備えている。
本考案によれば、より高い識別率を有し、世界中のメジャーな自然言語(右から左に書く言語を含む)をより精確に識別可能であり、入力筆画と出力文字との間の対応関係を提供する。適当な書き順の識別をサポートする。本考案は実際の応用時には必要な文字識別範囲を配置してオープンまたはクローズな辞典への応用をサポートする。本考案は一般的な携帯電話やタブレット端末の即時手書き文字識別にも応用可能である。
本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムの要部を示す概略構成図である。 本考案のトレーニング段階の応用を示す概略図である。 本考案の文字列サンプルを示すブロック図である。 本考案の予測段階の応用を示す概略図である。 本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムのハードウェア構造を示す概略構成図である。
以下、考案の実施の形態を通じて本考案を説明するが、以下の実施形態は実用新案登録請求の範囲にかかる考案を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが考案の解決手段に必須であるとは限らない。
まず、本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システム1は、主にプロセッサ2及びメモリー6を含んで構成されている(図5参照)。前記プロセッサ2はシステム1に必要な操作を実行するために用いられている。前記メモリー6は前記システム1のコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられている。全ての操作結果及び関連するデータは前記メモリー6に保存されている。
本考案のニューラルネットワークに基づく手書き文字識別システム(図1乃至図5参照)は、文字識別が1つのSeq2Seq(sequence to sequence)としてモデルが構築されるという問題があり、前記問題の入力は1列のサンプリング点(x座標、y座標、及び手書き筆跡終了標記を含む)であり、出力は1列の文字であり、両者の長さは全て非固定値である。本考案は注意機構に基づいたエンコーダー-デコーダフレームワークを採用してこの問題を解決している。
本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムには、以下の構成が主に含まれる。
<手書き筆跡入力プロセッサ10>
オンラインで手書きされた文字列手書き軌跡80を受信するために用いられ、前記文字列手書き軌跡80は複数の手書き筆跡81に分解される。ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサ10は前記文字列手書き軌跡80の各手書き筆跡81に対しプリプロセスを実行する。トレーニング段階において、前記文字列手書き軌跡80のこれら手書き筆跡81は既知の文字列90に対応し、少なくとも1つの文字91で構成され、前記文字列手書き軌跡80及びその対応する文字列90により文字列サンプル100が形成されている(図3参照) 。前記手書き筆跡入力プロセッサ10のプリプロセス方式は以下の通りである。
<手書き筆跡順序の正規化>
各手書き筆跡81に対しバウンディングボックスを確定し、前記バウンディングボックスは前記手書き筆跡81の最小ボックスを収容可能である。各手書き筆跡81のバウンディングボックスの左側の位置を基準とし、全ての手書き筆跡81に対し左から右にかけて並べ替えることが所謂正規化である。
<行の高さを推定>
1つの手書き筆跡81の長さがそのバウンディングボックスの幅に近似している場合、そのバウンディングボックスの幅を手書き筆跡の尺度とし、そうでなければ前記バウンディングボックスの高さを手書き筆跡の尺度とする。これら手書き筆跡の尺度のある分位数を行の高さとして推定する。
<再サンプリングを実行>
各手書き筆跡81は複数のサンプリング点83で表示し、サンプリング点83に対し、前記サンプリング点83と1つ前のサンプリング点83との距離が行の高さの推定の幾らかの倍数である場合、前記サンプリング点83を削除する。前記サンプリング点83及びその前方及び後方にあるサンプリング点83に対し、三点の間の夾角が平角(180度)に接近している場合、前記サンプリング点83を削除する。こうすることで、サンプリング点83の数量を大量に削減できる。
<座標の正規化>
各サンプリング点83の座標を行の高さの推定で除算する。
トレーニング段階において、前記文字列手書き軌跡80の各手書き筆跡81は前記手書き筆跡入力プロセッサ10によりプリプロセスを実行してニューラルネットワークの入力として用い、前記文字列手書き軌跡80が対応する文字列90はニューラルネットワークの事前出力とする。
<文字列データベース20>
前記手書き筆跡入力プロセッサ10に接続され、前記手書き筆跡入力プロセッサ10が処理した多量の文字列手書き軌跡80を保存するために用いられている。トレーニング段階において、前記文字列データベース20は前記文字列手書き軌跡80及びそれに対応する文字列90で形成されている文字列サンプル100を保存する。各前記文字列手書き軌跡80の各手書き筆跡81は複数のサンプリング点83で表示する。各手書き筆跡81の1個目のサンプリング点83は座標(0,0)で表示し、残りのサンプリング点83は1つ前のサンプリング点83に対する変位ベクトルを応用して表示し、各手書き筆跡81の最後のサンプリング点83は終了標記を有している。
システム全体の一般化識別能力を高めるため、データ拡張法を使用して文字列サンプル100の数量を増加させる。本考案は、コーパス及び手書きサンプルライブラリ35及び前記手書き筆跡入力プロセッサ10に接続されている文字列サンプル生成ユニット30を更に備え、前記コーパス及び手書きサンプルライブラリ35には特定の言語の各種文字及び単語、並びにそれらに対応する手書き筆跡81のサンプルが保存されている。前記文字列サンプル生成ユニット30は前記コーパス及び手書きサンプルライブラリ35中から多量の文字列90及びそれらに対応する手書き筆跡81を抽出し、これら文字列90に対しそれらに対応する文字列手書き軌跡80を合成して多量の文字列サンプル100を形成し、且つ前記手書き筆跡入力プロセッサ10により処理した後に前記文字列データベース20に保存し、ニューラルネットワークのトレーニングに用いる。前記文字列サンプル生成ユニット30が前記文字列手書き軌跡80を合成する方式は以下のステップを含む。
(1)テキスト組版アルゴリズムを利用して前記文字列90をレンダリング(render)し、文字列90中の各文字/単語の位置を記録した後、前記コーパス及び手書きサンプルライブラリ35から各文字/単語の手書き筆跡81を検索すると共に対応する位置に配置し、これら文字/単語の各手書き筆跡81の正規化された手書き筆跡順序及び行の高さの推定を獲得し、前記手書き筆跡入力プロセッサ10に入力して再サンプリング及び座標の正規化を行って対応する文字列サンプル100を獲得する。
前記文字列90中の文字、単語、及び行等のレベルを分類し、それらに対応する手書き筆跡81に対しランダムアフィン変換(Affine transformation)を実行して対応する文字列手書き軌跡80の多様性を更に高め、ニューラルネットワークのトレーニングに用いる更に多くの文字列サンプル100を獲得する。
(2)注記を有するテキスト行サンプルを利用してSeq2Seq翻訳モデルをトレーニングし、前記注記は前記テキスト行サンプルの対応する文字列90を示し、前記Seq2Seq翻訳モデルは文字列90を対応する文字列手書き軌跡80に変換し、対応する文字列サンプル100を生成するために用いられている。
前記文字列サンプル生成ユニット30は獲得した文字列サンプル100を前記文字列データベース20に保存する。
<文字識別ニューラルネットワーク40>
エンコーダー41と、デコーダ42と、前記エンコーダー41に位置している入力インターフェース43と、前記デコーダ42に位置している出力インターフェース44と、を含んで構成されている。前記入力インターフェース43は前記文字列データベース20に接続され、前記文字列手書き軌跡80の各手書き筆跡81を受信するために用いられている。前記エンコーダー41は各手書き筆跡81中からコンテキストマトリクス及び前記デコーダ42が使用する初期状態を探し出すために用いられ、前記デコーダ42は前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェース44から事前出力される文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダ42に回帰入力して識別を行う。これを数回反復した後、可能性のある複数の文字列90及び対応する信頼度を獲得すると共に、結果候補セット70に保存する。前記結果候補セット70は前記出力インターフェース44により外部に向けて出力する。
図2に示す如く、トレーニング段階において、前記文字列手書き軌跡80の各手書き筆跡81は前記入力インターフェース43により前記文字識別ニューラルネットワーク40に入力し、前記文字列手書き軌跡80が対応する文字列90は前記文字識別ニューラルネットワーク40の事前出力とする。
<ポストプロセッサ50>
前記文字列データベース20及び前記文字識別ニューラルネットワーク40の前記出力インターフェース44に接続されている。前記文字識別ニューラルネットワーク40の前記出力インターフェース44が出力した前記結果候補セット70の文字列90は前記ポストプロセッサ50により正規化(Normalization)され、前記文字識別ニューラルネットワーク40の出力とする。正規化の方式は以下の通りである。
(1)UnicodeのNFKD形式(Normalization Form KD)で正規化する。主に異なる形式の同じ文字を表現し、同じプログラムコードとして正規化する。
(2)Unicodeの符号位置の順序を正常な論理的順序から視覚的順序(左から右)に変換することで、並べた入力と略位置を揃える。予測段階において、予期可能な識別結果は通常正規化されているため、識別した文字列90に対しUnicodeのNFKCにより正規化を行う必要があり、Unicodeの符号位置の順序を視覚的順序から論理的順序に変換して戻す。
例えば、文字列90中の異なる配列順序を有する部分の文字を同じ配列順序を有するように整理する。こうすることで、ニューラルネットワークのトレーニングを行う際に識別が容易になる。
前記エンコーダー41は多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワーク、及び全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を含む。前記エンコーダー41に入力する各手書き筆跡81は多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワークに進入し、前記多層双方向LSTM循環ニューラルネットワークの出力はコンテキストマトリクス(context matrix)である。前記コンテキストマトリクスに対しグローバル平均プーリング(Global Average Pooling)を実行した後、前記全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を経由し、前記全結合ニューラルネットワークの出力は前記デコーダ42に入力するための初期状態である。
前記デコーダ42の入力は、入力文字と、デコード状態と、収斂ベクトルと、前記コンテキストマトリクスと、を含む。前記デコーダ42は複数ステップのデコードを実行し、最初のステップのデコードを行う際に、前記入力文字の初期値は1つのビルトインの開始符号であり、前記収斂ベクトルの初期値は零ベクトルであり、前記デコード状態の初期値は前記エンコーダー41が出力する前記初期状態であり、前記コンテキストマトリクスは前記エンコーダー41により出力される。前記デコーダ42の出力は次の文字及びその信頼度(Confidence)分布、新しいデコード状態、及び新しい収斂ベクトルであり、前記次の文字は新しい入力文字とし、新しいデコード状態及び新しい収斂ベクトルと共に前記デコーダ42に回帰入力し、次のステップのデコードを実行する。前記デコーダ42は上述した方式を応用して複数ステップのデコードを反復して実行する。前記収斂ベクトルの次元は各サンプリング点83を示し、その作用はどのサンプリング点83が対応する出力文字を既に有しているかを記録し、各次元の初期座標は0である。対応する出力文字が存在する場合、前記サンプリング点83に対応する次元座標は1に設定する。こうすることにより、前記収斂ベクトルを応用して字の欠乏また過多の状況を減少させている。
前記デコーダ42は複数の関数の線型結合である損失関数(loss function)を定義し、計算時には必要に応じて意義のある損失関数を定義する。前記損失関数は信頼度分布の交差エントロピー(cross-entropy)を較正し、前記収斂ベクトルの終了時に全て1の平均二乗誤差をガイドするために用いられている。既知のある文字が手書き筆跡81に対応する場合(例えば、データに文字レベル注記がある、または合成である)、1つの文字をデコードするように更にガイドすると、前記収斂ベクトルが手書き筆跡81に関する点に対応する分量が1増大する。こうすることで、予測段階において、前記収斂ベクトルの変化により出力された各文字がどの手書き筆跡81にそれぞれ対応するか判断する。
予測段階において、前記デコーダ42はビームサーチ(Beam Search)方式で候補行を徐々に構成し、且つ未完成の各候補行に対し、その文字列、信頼度、デコード状態、収斂ベクトル、及び予測分析スタック(predictive analysis stack)を記録する。前記予測分析スタックは予測分析法(predictive analytics)の文法記号列を含むスタックである。文字レベルの候補を出力する必要がある場合、各文字の若干の他の候補文字及び対応する信頼度を更に記録する。手書き筆跡81と文字との対応関係を出力する必要がある場合、歴史的収斂ベクトルを更に記録する。前記デコーダ42はデコードの各ステップにおいて、未完成の各候補行に対し以下のステップを実行する。
(1)前記デコーダ42を起動して次の文字の候補リスト及び対応する信頼度を獲得し、同時にデコード状態及び収斂ベクトルを更新する。
(2)前記出力インターフェース44により次の文字の各候補を前記出力インターフェース44と前記ポストプロセッサ50との間に結合されている信頼度調整ユニット60に出力し、前記信頼度調整ユニット60はn-gram方式により獲得する文字列の可能性を計算し、次の文字の各候補の信頼度を調整する。
(3)次の文字の各候補に対し、元の文字列との結合後の信頼度及び予測分析スタックを計算する。
(a)前記候補が終了記号であり、且つ前記予測分析スタックがブランクである場合、完成した1行の候補行を獲得する。
(b)前記候補が終了記号ではなく、且つ前記予測分析スタックが間違い状態にない場合、未完成の1行の候補行を獲得し、次のステップのデコード時に処理を行うために用いる。毎回次のステップのデコードの開始時には、前記デコーダ42が信頼度が最も高い若干の候補行のみを保留する。既に完成した候補行の数量が既定値に達した場合、デコードを停止し、この際完成した候補行は可能性のある若干の文字列90であり、これら文字列90及びその信頼度を前記結果候補セット70に保存し、前記出力インターフェース44により外部に向けて出力する。
予測段階において(図4参照)、識別したい文字列手書き軌跡80の各手書き筆跡81を前記手書き筆跡入力プロセッサ10により処理した後、前記文字列データベース20により前記文字識別ニューラルネットワーク40に入力して識別を行い、識別結果を前記ポストプロセッサ50により処理した後に得られる前記結果候補セット70は、前記文字列手書き軌跡80に対応する可能性のある若干の文字列90及びその信頼度を含む。
本考案は、その精神又は主要な特徴から逸脱することなく、他のいろいろな形態で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本考案の範囲は実用新案登録請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、実用新案登録請求の範囲の均等範囲に属する変形や変更は、すべて本考案の範囲内のものである。
1 手書き文字識別システム
2 プロセッサ
6 メモリー
10 手書き筆跡入力プロセッサ
20 文字列データベース
30 文字列サンプル生成ユニット
35 手書きサンプルライブラリ
41 エンコーダー
42 デコーダ
43 入力インターフェース
44 出力インターフェース
50 ポストプロセッサ
60 信頼度調整ユニット
70 結果候補セット
80 文字列手書き軌跡
81 手書き筆跡
83 サンプリング点
90 文字列
100 文字列サンプル

Claims (12)

  1. プロセッサ及びメモリーを備え、前記プロセッサはシステムに必要な操作を実行するために用いられ、前記メモリーは前記システムのコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられているニューラルネットワークに基づく手書き文字識別システムであって、
    オンラインで手書きされた文字列手書き軌跡を受信するために用いられている手書き筆跡入力プロセッサであって、前記文字列手書き軌跡は複数の手書き筆跡に分解され、ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサは前記文字列手書き軌跡の各手書き筆跡に対しプリプロセスを実行し、トレーニング段階において、前記文字列手書き軌跡のこれら手書き筆跡は既知の文字列に対応し、少なくとも1つの文字で構成され、前記文字列手書き軌跡及びその対応する文字列により文字列サンプルが形成される手書き筆跡入力プロセッサと、
    前記手書き筆跡入力プロセッサに接続され、前記手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースであって、トレーニング段階において、前記文字列データベースは前記文字列手書き軌跡及びそれが対応する文字列で形成されている文字列サンプルを保存する文字列データベースと、
    エンコーダーと、デコーダと、前記エンコーダーに位置している入力インターフェースと、前記デコーダに位置している出力インターフェースと、を含む文字識別ニューラルネットワークであって、前記入力インターフェースは前記文字列データベースに接続され、前記文字列手書き軌跡の各手書き筆跡を受信するために用いられ、前記エンコーダーは各手書き筆跡中からコンテキストマトリクス及び前記デコーダが使用する初期状態を探し出し、前記デコーダは前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェースから事前出力された文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダに回帰入力して識別し、これを数回反復した後、可能性のある複数の文字列及び対応する信頼度を獲得すると共に結果候補セットに保存し、前記結果候補セットは前記出力インターフェースを経由して外部に向けて出力し、トレーニング段階において、前記文字列手書き軌跡の各手書き筆跡は前記入力インターフェースを経由して前記文字識別ニューラルネットワークに入力され、前記文字列手書き軌跡が対応する文字列は前記文字識別ニューラルネットワークの事前出力とする文字識別ニューラルネットワークと、
    前記文字列データベース及び前記文字識別ニューラルネットワークの前記出力インターフェースに接続され、前記文字識別ニューラルネットワークの前記出力インターフェースが出力した前記結果候補セットの文字列はポストプロセッサにより正規化(Normalization)され、前記文字識別ニューラルネットワークの出力とするポストプロセッサと、を更に備えていることを特徴とするニューラルネットワークに基づく手書き文字識別システム。
  2. 前記手書き筆跡入力プロセッサのプリプロセス方式は、手書き筆跡順序を正規化し、行の高さを推定し、再度サンプリングを行い、最後に座標の正規化を行い、各サンプリング点の座標は行の高さで除算して推定することを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。
  3. コーパス及び手書きサンプルライブラリ及び前記手書き筆跡入力プロセッサに接続されている文字列サンプル生成ユニットを更に備え、前記コーパス及び手書きサンプルライブラリには特定の言語の各種文字及び単語並びにそれらが対応する手書き筆跡のサンプルが保存され、前記文字列サンプル生成ユニットは前記コーパス及び手書きサンプルライブラリ中から多量の文字列及びそれらが対応する手書き筆跡を抽出し、これら文字列に対しそれらが対応する文字列手書き軌跡と合成して多量の文字列サンプルを形成し、且つ前記手書き筆跡入力プロセッサにより処理した後に前記文字列データベースに保存し、ニューラルネットワークのトレーニングに使用することを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。
  4. 前記文字列サンプル生成ユニットが前記文字列手書き軌跡を合成する方式は、テキスト組版アルゴリズムを利用して前記文字列をレンダリング(render)し、且つ文字列中の各文字/単語の位置を記録した後、前記コーパス及び手書きサンプルライブラリから各文字/単語の手書き筆跡を検索すると共に対応する位置に配置することで、これら文字/単語中の各手書き筆跡の正規化された手書き筆跡順序及び行の高さの推定を獲得し、前記手書き筆跡入力プロセッサに入力して再度サンプリング及び座標の正規化を行って対応する文字列サンプルを獲得し、
    前記文字列中の文字、単語、及び行等のレベルを分類し、それらが対応する手書き筆跡に対しランダムアフィン変換(Affine transformation)を行って対応する文字列手書き軌跡の多様性を更に高めることを特徴とする請求項3に記載のニューラルネットワークに基づく手書き文字識別システム。
  5. 前記文字列サンプル生成ユニットが前記文字列手書き軌跡を合成する方式は、注記を有するテキスト行サンプルを利用してSeq2Seq翻訳モデルをトレーニングし、前記注記は前記テキスト行サンプル中で対応する文字列を示し、前記Seq2Seq翻訳モデルは文字列を対応する文字列手書き軌跡に変換し、対応する文字列サンプルを生成するために用いられていることを特徴とする請求項3に記載のニューラルネットワークに基づく手書き文字識別システム。
  6. 前記ポストプロセッサが正規化を行う方式は、UnicodeのNFKD形式(Normalization Form KD)で正規化を行い、主に異なる形式の同じ文字として表現し、同じプログラムコードとして正規化することを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。
  7. 前記ポストプロセッサが正規化を行う方式は、Unicodeの符号位置の順序を正常な論理的順序から視覚的順序に変換することで、並べた入力と略位置を揃え、識別した文字列に対しUnicodeのNFKC正規化を行うと共に、Unicodeの符号位置の順序を視覚的順序から論理的順序に変換して戻すことを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。
  8. 前記エンコーダーは多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワーク、及び全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を含み、前記エンコーダーに入力する各手書き筆跡は多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワークに進入し、前記多層双方向LSTM循環ニューラルネットワークの出力はコンテキストマトリクス(context matrix)であり、前記コンテキストマトリクスに対しグローバル平均プーリング(Global Average Pooling)を行った後、前記全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を経由し、前記全結合ニューラルネットワークの出力は前記デコーダに入力するための初期状態であることを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。
  9. 各前記文字列手書き軌跡の各手書き筆跡は複数のサンプリング点により表示され、各手書き筆跡の1個目のサンプリング点は座標(0,0)で表示し、残りのサンプリング点は1つ前のサンプリング点に対する変位ベクトルを応用して表示し、各手書き筆跡の最後のサンプリング点は終了標記を有し、
    前記デコーダの入力は、入力文字と、デコード状態と、収斂ベクトルと、前記コンテキストマトリクスと、を含み、前記デコーダは複数ステップのデコードを行い、最初のステップのデコードを行う際に、前記入力文字の初期値はビルトインの1つの開始符号であり、前記収斂ベクトルの初期値は零ベクトルであり、前記デコード状態の初期値は前記エンコーダーが出力する前記初期状態であり、前記コンテキストマトリクスは前記エンコーダーにより出力され、前記デコーダの出力は次の文字及びその信頼度(Confidence)分布、新しいデコード状態、及び新しい収斂ベクトルであり、前記次の文字は新しい入力文字とし、新しいデコード状態及び新しい収斂ベクトルは共に前記デコーダに回帰入力され、次のステップのデコードを行い、前記デコーダは上述した方式を応用して複数ステップのデコードを反復して実行し、前記収斂ベクトルの次元は各サンプリング点を示し、その作用はどのサンプリング点が既に有している対応する出力文字を記録し、各次元の初期座標は0であり、対応する出力文字が存在する場合、前記サンプリング点に対応する次元座標を1に設定することを特徴とする請求項8に記載のニューラルネットワークに基づく手書き文字識別システム。
  10. 前記デコーダ中に複数の関数の線型結合である損失関数(loss function)を定義し、計算時には必要に応じて意義のある損失関数を定義し、前記損失関数は信頼度分布の交差エントロピー(cross-entropy)を較正し、前記収斂ベクトルの終了時に全て1の平均二乗誤差をガイドするために用いられ、既知のある文字が手書き筆跡に対応する場合、1つの文字をデコードするように更にガイドすると、前記収斂ベクトルが手書き筆跡に関する点に対応する分量が1増大し、予測段階において前記収斂ベクトルの変化により出力された各文字がどの手書き筆跡にそれぞれ対応するか判断することを特徴とする請求項9に記載のニューラルネットワークに基づく手書き文字識別システム。
  11. 予測段階において、前記デコーダはビームサーチ(Beam Search)方式で候補行を徐々に構成し、且つ未完成の各候補行に対し、その文字列、信頼度、デコード状態、収斂ベクトル、及び予測分析スタック(predictive analysis stack)を記録し、前記予測分析スタックは予測分析法(predictive analytics)の文法記号列を含むスタックであり、文字レベルの候補を出力する必要がある場合、各文字の若干の他の候補文字及び対応する信頼度を更に記録し、手書き筆跡と文字との対応関係を出力する必要がある場合、歴史的収斂ベクトルを更に記録することを特徴とする請求項9に記載のニューラルネットワークに基づく手書き文字識別システム。
  12. 前記デコーダは各ステップのデコードにおいて未完成の各候補行に対し、
    (1)前記デコーダを応用して次の文字の候補リスト及び対応する信頼度を獲得し、同時にデコード状態及び収斂ベクトルを更新するステップと、
    (2)次の文字の各候補を前記出力インターフェースを経由して前記出力インターフェースと前記ポストプロセッサとの間に結合されている信頼度調整ユニットに出力し、前記信頼度調整ユニットはn-gram方式を応用して獲得する文字列の可能性を計算し、次の文字の各候補の信頼度を調整するステップと、
    (3)次の文字の各候補に対し、元の文字列との結合後の信頼度及び予測分析スタックを計算するステップと、
    (a)前記候補が終了記号であり、且つ前記予測分析スタックがブランクである場合、完成した1行の候補行を獲得するステップと、
    (b)前記候補が終了記号ではなく、且つ前記予測分析スタックが間違い状態にない場合、未完成の1行の候補行を獲得し、次のステップのデコード時に処理を行うために用いられるステップと、を実行し、
    毎回次のステップのデコードの開始時には、前記デコーダは信頼度が最も高い若干の候補行のみを保留し、既に完成した候補行の数量が既定値に達した場合、デコードを停止し、この際完成した候補行は可能性のある若干の文字列であり、これら文字列及びその信頼度を前記結果候補セットに保存し、前記出力インターフェースにより外部に向けて出力することを特徴とする請求項11に記載のニューラルネットワークに基づく手書き文字識別システム。
JP2023002914U 2022-10-26 2023-08-10 ニューラルネットワークに基づく手書き文字識別システム Active JP3244068U (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE202022106040.1 2022-10-26
DE202022106040.1U DE202022106040U1 (de) 2022-10-26 2022-10-26 Handschrifterkennungssystem auf der Grundlage eines neuronalen Netzwerks
DE202022106460 2022-10-26

Publications (2)

Publication Number Publication Date
JP3244068U6 true JP3244068U6 (ja) 2023-10-06
JP3244068U JP3244068U (ja) 2023-10-06

Family

ID=84192324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023002914U Active JP3244068U (ja) 2022-10-26 2023-08-10 ニューラルネットワークに基づく手書き文字識別システム

Country Status (2)

Country Link
JP (1) JP3244068U (ja)
DE (1) DE202022106040U1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240087349A1 (en) * 2022-09-14 2024-03-14 Jianming Zhuang Handwriting text recognition system based on neural network

Similar Documents

Publication Publication Date Title
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
US20200402500A1 (en) Method and device for generating speech recognition model and storage medium
CN109933801B (zh) 基于预测位置注意力的双向lstm命名实体识别方法
Zhang et al. A gru-based encoder-decoder approach with attention for online handwritten mathematical expression recognition
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
Truong et al. Improvement of end-to-end offline handwritten mathematical expression recognition by weakly supervised learning
CN114787914A (zh) 用异步解码器流式传输端到端语音识别的系统和方法
WO2021127817A1 (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
Wang et al. Stroke constrained attention network for online handwritten mathematical expression recognition
Abdelaziz et al. A large vocabulary system for Arabic online handwriting recognition
JP3244068U6 (ja) ニューラルネットワークに基づく手書き文字識別システム
JP3244068U (ja) ニューラルネットワークに基づく手書き文字識別システム
Mabona et al. Neural generative rhetorical structure parsing
Dreuw et al. RWTH OCR: A large vocabulary optical character recognition system for Arabic scripts
Jain et al. Unconstrained OCR for Urdu using deep CNN-RNN hybrid networks
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN116564289A (zh) 利用生成性对抗学习的针对数字视频的可视化语音识别
Ngo et al. Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition
CN111046751A (zh) 公式识别方法和装置
CN117195877B (zh) 一种电子病历的词向量生成方法、系统、设备及存储介质
CN111833848B (zh) 用于识别语音的方法、装置、电子设备和存储介质
Wolf et al. Self-training of handwritten word recognition for synthetic-to-real adaptation
Hamdani et al. Improvement of context dependent modeling for Arabic handwriting recognition
Yin et al. Spatial temporal enhanced network for continuous sign language recognition
CN115098722B (zh) 文本和图像的匹配方法、装置、电子设备和存储介质