JP7311341B2

JP7311341B2 - ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法

Info

Publication number: JP7311341B2
Application number: JP2019132445A
Authority: JP
Inventors: チョウドゥリ、アリンダム; ヴィグ、ロベケシュ
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-07-19
Filing date: 2019-07-18
Publication date: 2023-07-19
Anticipated expiration: 2039-07-18
Also published as: EP3598339A1; US10839246B2; CN110738090A; CA3050025A1; CN110738090B; CA3050025C; AU2019206010A1; JP2020017274A; US20200026951A1; AU2019206010B2

Description

優先権の主張
本出願は、２０１８年７月１９日に出願されたインド特許出願第２０１８２１０２６９３４号からの優先権を主張するものである。先述の出願の内容全体は参照により本明細書に組み込まれる。

本明細書における開示は、一般的に、オフラインモードでの手書きテキスト認識に関し、より詳細には、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法に関する。

走査済み手書きテキスト画像からのオフライン手書きテキスト認識（ＨＴＲ）は、現在のデジタル世界において大量の手書き走査文書または報告書をデジタル化しようとする企業にとって重要な問題である。オフライン手書きテキスト認識（ＨＴＲ）は、テキスト画像に加えてストローク情報および軌道のような属性を利用するオンラインモードと比較してかなり困難であるの対し、オフラインモードは、特徴抽出に利用可能な文書／報告書のテキスト画像のみを有する。

技術的に、手書きテキスト認識（ＨＴＲ）は、シーケンスマッチング問題として明確に表されている。この場合、文書または報告書のテキスト行などの入力データから抽出された特徴のシーケンスは、主に隠れマルコフモデル（ＨＭＭ）を使用して、入力データに相当するテキストからの文字で構成される出力シーケンスにマッチさせる。しかしながら、隠れマルコフモデル（ＨＭＭ）は、それぞれの観察が現状のみに頼るマルコフ仮定により、入力テキストシーケンスにおけるコンテキスト情報を活用できない。回帰ニューラルネットワーク（ＲＮＮ）によって、隠し状態におけるコンテキスト情報を符号化する、入力テキストシーケンスにおけるコンテキスト情報を使用するこの問題が対処された。それにもかかわらず、回帰ニューラルネットワーク（ＲＮＮ）の使用は、ＲＮＮ目的関数がそれぞれの時間ステップにおける別個のトレーニング信号を必要とするため、あるシーケンスにおける個々の特性がセグメント化される場合があるシナリオに限定される。

ＨＭＭとＲＮＮとを組み合わせるハイブリッドアーキテクチャに基づくさまざまな改善されたシステムおよびモデルが当技術分野において利用可能である。ＲＮＮと組み合わせたコネクショニスト時系列分類法（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）（ＣＴＣ）の使用は、効果的な解決策であることが証明され、この場合、コネクショニスト時系列分類法（ＣＴＣ）によって、ネットワークは、入力シーケンスを出力ラベルのシーケンスに直接マッピングすることによって、セグメント化入力の必要性をなくすことができる。しかしながら、ＲＮＮ－ＣＴＣモデルの性能は、ＲＮＮに対する入力シーケンスを構成するために走査済み手書きテキスト画像からの手作業による特徴の使用に依然限定されている。

多次元の回帰ニューラルネットワーク（ＭＤＲＮＮ）は、２つの軸に沿って入力テキスト画像を処理することによって両方向における長期依存性を学習する多次元ＲＮＮ層の階層を使用する手書きテキスト認識（ＨＴＲ）用の第１のエンドツーエンドモデルとして知られている。多次元回帰ニューラルネットワーク（ＭＤＲＮＮ）において、特性の空間構造は、水平軸に沿ってシーケンス情報を符号化する間に垂直軸に合わせてキャプチャされる。しかしながら、同じ視覚的特徴を抽出する標準的な畳み込み演算と比較して、定式化は計算上費用が高い。畳み込みニューラルネットワーク（ＣＮＮ）と深層１次元ＲＮＮ－ＣＴＣモデルとを組み合わせる合成アーキテクチャによって標準的な手書きテキスト認識（ＨＴＲ）のベンチマークに対してより良い性能がもたらされるが、より良い精度、より少ないメモリ消費、およびより少ない計算数の手書きテキスト認識（ＨＴＲ）の効率的なやり方は、常に改善すべき部分である。

本開示の実施形態は、従来のシステムにおける発明者によって認識される上述した技術的な問題の１つまたは複数に対する解決策として、技術的な改善点を提示する。

一態様において、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムであって、１つまたは複数のハードウェアプロセッサに動作可能に結合されて１つまたは複数のハードウェアプロセッサによって実行するように構成される命令を記憶する１つまたは複数の内部データ記憶デバイスを備え、該命令は、走査済み手書きテキスト入力画像を受信するように、走査済み手書きテキスト入力画像から１つまたは複数の部分画像を、１つまたは複数の部分画像のそれぞれが走査済み手書きテキスト入力画像に存在する手書きテキスト行を含んで得るように、および１つまたは複数の部分画像を、一定の高さおよび可変の幅を有し、かつそのアスペクト比を維持する１つまたは複数のスケーリングされた部分画像にスケーリングするように構成される画像前処理モジュールと、画像前処理モジュールに動作可能に結合され、かつ畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって１つまたは複数のスケーリングされた部分画像のそれぞれを１つまたは複数の機能マップに変えるように構成される特徴抽出モジュールであって、１つまたは複数の機能マップは対応する部分画像の視覚的特徴を含有する、特徴抽出モジュールと、特徴抽出モジュールに動作可能に結合され、かつ１つまたは複数の機能マップに含まれる列を深さ方向に分離し、かつ対応する部分画像の１つまたは複数の機能マップの各列を連結することによって１つまたは複数の機能マップを特徴ベクトルのシーケンスに変換するように構成されるマップ－シーケンスモジュールと、マップ－シーケンスモジュールに動作可能に結合され、かつ回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して、特徴ベクトルのそれぞれのシーケンスと関連付けられる視覚的特徴をマッピングすることによって、１つまたは複数の文字セットを生成するように構成されるシーケンス学習モジュールであって、１つまたは複数の文字セットは対応する部分画像に対して認識される機械可読テキストであり、ＲＮＮベースのエンコーダユニットおよびデコーダユニットのエンコーダユニットは、特徴ベクトルのそれぞれのシーケンスに対してコンテキストベクトルを生成するように構成され、ＲＮＮベースのエンコーダユニットおよびデコーダユニットのデコーダユニットは、対応する部分画像に対する文字セットを生成するために特徴ベクトルのそれぞれのシーケンスに対するコンテキストベクトルにわたって条件付き確率分布を適用するように構成される、シーケンス学習モジュールと、シーケンス学習モジュールに動作可能に結合され、かつ手書きテキスト出力ファイルを生成するために対応する部分画像のそれぞれに対して文字セットを組み合わせるように構成される画像後処理モジュールであって、手書きテキスト出力ファイルは走査済み手書きテキスト入力画像の認識されたテキストバージョンである、画像後処理モジュールと、に含まれる、システムが提供される。

別の態様では、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのプロセッサ実施方法であって、画像前処理モジュールによって受信した走査済み手書きテキスト入力画像を前処理するステップであって、前処理するステップは、受信した走査済み手書きテキスト入力画像から１つまたは複数の部分画像を、それぞれの部分画像が走査済み手書きテキスト入力画像に存在する手書きテキスト行を含んで得ること、および１つまたは複数の部分画像を、一定の高さおよび可変の幅を有し、かつそのアスペクト比を維持する１つまたは複数のスケーリングされた部分画像にスケーリングすることを含む、前処理するステップと、特徴抽出モジュールによって、畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって１つまたは複数のスケーリングされた部分画像のそれぞれを１つまたは複数の機能マップに変えるステップであって、１つまたは複数の機能マップは対応する部分画像の視覚的特徴を含有する、変えるステップと、マップ－シーケンスモジュールによって、１つまたは複数の機能マップに含まれる列を深さ方向に分離し、かつ対応する部分画像の１つまたは複数の機能マップの各列を連結することによって１つまたは複数の機能マップを特徴ベクトルのシーケンスに変換するステップと、シーケンス学習モジュールによって、回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して、特徴ベクトルのそれぞれのシーケンスと関連付けられる視覚的特徴をマッピングすることによって、１つまたは複数の文字セットを生成するステップであって、１つまたは複数の文字セットは対応する部分画像に対して認識される機械可読テキストであり、ＲＮＮベースのエンコーダユニットおよびデコーダユニットのエンコーダユニットは、特徴ベクトルのそれぞれのシーケンスに対してコンテキストベクトルを生成するように構成され、ＲＮＮベースのエンコーダユニットおよびデコーダユニットのデコーダユニットは、対応する部分画像に対する文字セットを生成するために特徴ベクトルのそれぞれのシーケンスに対するコンテキストベクトルにわたって条件付き確率分布を適用するように構成される、生成するステップと、画像後処理モジュールによって文字セットを後処理するステップであって、後処理するステップは、手書きテキスト出力ファイルを生成するために対応する部分画像のそれぞれに対して文字セットを組み合わせることを含み、手書きテキスト出力ファイルは走査済み手書きテキスト入力画像の認識されたテキストバージョンである、後処理するステップと、を含む、プロセッサ実施方法が提供される。

さらに別の態様では、コンピュータ可読プログラムが具現化されている非一時的なコンピュータ可読媒体を含むコンピュータプログラム製品であって、コンピュータ可読プログラムは、コンピューティングデバイス上で実行される時、コンピューティングデバイスに、画像前処理モジュールによって受信した走査済み手書きテキスト入力画像を前処理することであって、前処理することは、受信した走査済み手書きテキスト入力画像から１つまたは複数の部分画像を、それぞれの部分画像が走査済み手書きテキスト入力画像に存在する手書きテキスト行を含んで得ること、および１つまたは複数の部分画像を、一定の高さおよび可変の幅を有し、かつそのアスペクト比を維持する１つまたは複数のスケーリングされた部分画像にスケーリングすることを含む、前処理することと、畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって、特徴抽出モジュールによる１つまたは複数のスケーリングされた部分画像のそれぞれを１つまたは複数の機能マップに変えることであって、１つまたは複数の機能マップは対応する部分画像の視覚的特徴を含有する、変えることと、１つまたは複数の機能マップに含まれる列を深さ方向に分離し、かつ対応する部分画像の１つまたは複数の機能マップの各列を連結することによって、マップ－シーケンスモジュールによる１つまたは複数の機能マップを特徴ベクトルのシーケンスに変換することと、回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して、特徴ベクトルのそれぞれのシーケンスと関連付けられる視覚的特徴をマッピングすることによって、シーケンス学習モジュールによって１つまたは複数の文字セットを生成することであって、１つまたは複数の文字セットは対応する部分画像に対して認識される機械可読テキストであり、ＲＮＮベースのエンコーダユニットおよびデコーダユニットのエンコーダユニットは、特徴ベクトルのそれぞれのシーケンスに対してコンテキストベクトルを生成するように構成され、ＲＮＮベースのエンコーダユニットおよびデコーダユニットのデコーダユニットは、対応する部分画像に対する文字セットを生成するために特徴ベクトルのそれぞれのシーケンスに対するコンテキストベクトルにわたって条件付き確率分布を適用するように構成される、生成することと、画像後処理モジュールによって文字セットを後処理することであって、後処理することは、手書きテキスト出力ファイルを生成するために対応する部分画像のそれぞれに対して文字セットを組み合わせることを含み、手書きテキスト出力ファイルは走査済み手書きテキスト入力画像の認識されたテキストバージョンである、後処理することと、を行わせる、コンピュータプログラム製品が提供される。

本開示の一実施形態では、画像前処理モジュールは、左側および右側両方における対応する背景画素を有するバッチに含まれる１つまたは複数の部分画像をパディングしてバッチにおける最も幅広い部分画像の幅をマッチさせることによって寸法の一様性を維持するためのミニバッチトレーニング技法を採用するように、およびランダムな歪みを１つまたは複数の部分画像に取り込んで１つまたは複数の部分画像における変形を生じさせるように、さらに構成される。

本開示の一実施形態では、ＣＮＮは、ＬｅａｋｙＲｅＬＵ活性化によって連続的に積み重ねられる７つの畳み込み層を含む。畳み込み層のＬｅａｋｙＲｅＬＵ活性化は、内部共変量シフトを防止し、かつ次の畳み込み層に伝わる前にトレーニングを加速するためのバッチ正規化、および、１つまたは複数の部分画像の次元性を低減するために畳み込み層の少なくともいくつかの活性化に対して行うプーリング演算機構を行うことによって構成される。

本開示の一実施形態では、エンコーダユニットは２つの長・短期記憶（ＬＳＴＭ）セルを組み合わせることによって形成される双方向ネットワークであり、デコーダユニットは単一のＬＳＴＭセルを有する一方向ネットワークである。

本開示の一実施形態では、エンコーダユニットおよびデコーダユニットは、ＬＳＴＭセルのそれぞれにおける２５６の隠れユニットを有する２つの回帰層を含む。

本開示の一実施形態では、ＲＮＮベースのエンコーダユニットおよびデコーダユニットは、残差接続によって含まれている回帰ユニットを通した後続の回帰層への勾配流を促進すること、深さ方向接続に従ってドロップアウト機構を採用することによって長期依存性を捕らえるために回帰接続を修正することなくエンコーダユニットを規則化すること、層正規化によってミニバッチトレーニングによる共変量シフトを防止するために神経細胞を活性化すること、および、注意機構を通して、デコーダユニットの隠れ状態をエンコーダユニットの隠れ状態と合わせることによって構成される。

前述の全般的な説明、および以下の詳細な説明が両方共、例示であり説明するためだけのものであり、特許請求される本開示の実施形態を制限するものではないことは理解されたい。

本開示に組み込まれかつこの一部を構成する添付の図面は、例示の実施形態を示し、この説明と共に、開示された原理を説明する役割を果たす。

本開示の一実施形態による、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムの例示のブロック図である。本開示の一実施形態による、図１のシステムに含まれる機能モジュールの例示のアーキテクチャを示す図である。本開示の一実施形態による、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのプロセッサ実施方法のフロー図である。本開示の一実施形態による、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのプロセッサ実施方法のフロー図である。本開示の一実施形態による、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのプロセッサ実施方法のフロー図である。本開示の一実施形態による、畳み込みニューラルネットワーク（ＣＮＮ）を使用する走査済み手書きテキスト入力画像のそれぞれの部分画像の機能マップからの特徴ベクトルのシーケンスの生成を示す図形表現である。本開示の一実施形態による、注意と共に回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して走査済み手書きテキスト入力画像のそれぞれの部分画像に対する手書きテキストの認識を示す図形表現である。

例示の実施形態について、添付の図面を参照して説明する。図では、参照番号の最上位桁（複数可）は、参照番号が最初に現れる図を特定している。好都合であれば、同じ参照番号は、同じまたは同様の部分を指すために図面全体を通して使用される。開示された原理の例および特徴が本明細書に説明されているが、開示された実施形態の趣旨および範囲から逸脱することなく、修正、適合、および他の実装が可能である。以下の詳細な説明が単に例示とみなされ、その真の範囲および趣旨は（明細書に含まれる時）特許請求の範囲によって指示されていることが意図される。

文字、テキスト、およびシーケンスのような術語は、変換前また後の走査済み手書きテキスト入力画像に存在するテキストを指示するために文脈によって区別なく使用される。出力シーケンスは変換後の認識されたテキストを指す。

オフライン手書きテキスト認識（ＨＴＲ）は、数十年間の主要な研究課題となっており、手書き文書に記憶されたデータを抽出し、かつ現代のＡＩシステムを使用してそれを利用することからロック解除できる潜在的価値により近年活性化している。多次元長・短期記憶（ＬＳＴＭ）セルなどの深層回帰ニューラルネットワーク（ＲＮＮ）モデルは、マルコフ仮定という難点があるため、ＲＮＮの表現力を欠如している従来の隠れマルコフモデルベースのアプローチに対して、効率的な手書きテキスト認識に対する優れた性能を生み出すことが証明された。エンドツーエンド手書きテキスト認識のための開示されたシステムおよび方法は、深層畳み込みニューラルネットワーク（ＣＮＮ）をＲＮＮベースのエンコーダユニットおよびデコーダユニットと組み合わせて、手書きテキスト画像を走査済み手書きテキスト入力画像に存在するテキストに対応する文字シーケンスにマッピングする。深層ＣＮＮは手書きテキスト画像から特徴を抽出するために使用されるのに対し、ＲＮＮベースのエンコーダユニットおよびデコーダユニットは変換されたテキストを文字セットとして生成するために使用される。

ここで図面、より詳細には、同様の参照符号が図全体を通して一貫して対応する特徴を示す図１～図５を参照すると、好ましい実施形態が示されており、これらの実施形態は、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のための以下の例示のシステムおよび方法の文脈の中で説明される。

図１は、本開示の一実施形態による、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステム１００の例示のブロック図を示す。一実施形態では、システム１００は、１つまたは複数のプロセッサ１０４、通信インターフェースデバイス（複数可）または入力／出力（Ｉ／Ｏ）インターフェース（複数可）１０６、および、１つまたは複数のプロセッサ１０４に動作可能に結合される１つまたは複数のデータ記憶デバイスもしくはメモリ１０２を含む。ハードウェアプロセッサである１つまたは複数のプロセッサ１０４は、１つまたは複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、状態機械、グラフィックスコントローラ、論理回路、および／または動作命令に基づいて信号を操作する任意のデバイスとして実装可能である。いくつかある能力の中でも特に、プロセッサ（複数可）は、メモリに記憶されたコンピュータ可読命令をフェッチしかつ実行するように構成される。一実施形態では、システム１００は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、およびネットワーククラウドなどのさまざまなコンピューティングシステムにおいて実装可能である。

Ｉ／Ｏインターフェースデバイス（複数可）１０６は、さまざまなソフトウェアおよびハードウェアインターフェース、例えば、ウェブインターフェースおよびグラフィカルユーザインターフェースなどを含むことができ、例えば、ＬＡＮ、ケーブルなどの有線ネットワーク、およびＷＬＡＮ、セルラー、または衛星などの無線ネットワークを含む、多種多様のネットワークＮ／Ｗおよびプロトコル型内の多重通信を促進することができる。一実施形態では、Ｉ／Ｏインターフェースデバイス（複数可）は、いくつかのデバイスを互いにまたは別のサーバに接続するための１つまたは複数のポートを含むことができる。

メモリ１０２は、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）およびダイナミックランダムアクセスメモリ（ＤＲＡＭ）などの揮発性メモリ、および／または、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光ディスク、および磁気テープなどの不揮発性メモリを含む、当技術分野で既知の任意のコンピュータ可読媒体を含むことができる。一実施形態では、システム１００の１つまたは複数のモジュール（図２の１０２Ａ～１０２Ｅ）はメモリ１０２に記憶可能である。

図２は、本開示の一実施形態による、図１のシステム１００に含まれる機能モジュールの例示のアーキテクチャを示す。一実施形態では、機能モジュールは、画像前処理モジュール１０２Ａ、特徴抽出モジュール１０２Ｂ、マップ－シーケンスモジュール１０２Ｃ、シーケンス学習モジュール１０２Ｄ、および画像後処理モジュール（１０２Ｅ）を含む。

図３Ａ～図３Ｃは、本開示の一実施形態による、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのプロセッサ実施方法３００のフロー図を示す。一実施形態では、１つまたは複数のプロセッサ１０４に動作可能に結合される１つまたは複数のデータ記憶デバイスもしくはメモリ１０２は、１つまたは複数のプロセッサ１０４によって方法３００のステップを実行するように構成される命令を記憶するように構成される。方法３００のステップについてここで、図１のシステム１００のコンポーネント、および図２の例示のアーキテクチャの機能モジュールを参照して詳細に説明する。プロセスのステップ、方法のステップ、または技法などは順番に説明可能であるが、このようなプロセッサ、方法、および技法は、交互に働くように構成されてよい。換言すれば、説明され得るステップのいずれのシーケンスまたは順序も、ステップがその順序で行われるべきであるという要件を必ずしも指示しているわけではない。本明細書に説明されるプロセスのステップは、実際的な任意の順序で行われてよい。さらに、いくつかのステップは同時に行われてよい。

本開示の一実施形態によると、画像前処理モジュール（図２の１０２Ａ）は、ステップ３０２において、受信した走査済み手書きテキスト入力画像を前処理するように構成される。前処理するステップ３０２は、ステップ３０２ａにおいて受信した走査済み手書きテキスト入力画像から１つまたは複数の部分画像を、それぞれの部分画像が走査済み手書きテキスト入力画像に存在する手書きテキスト行を含んで得ることと、さらに、ステップ３０２ｂにおいて、１つまたは複数の部分画像を、一定の高さおよび可変の幅を有し、かつアスペクト比を維持する１つまたは複数のスケーリングされた部分画像にスケーリングすることとを含む。

一実施形態では、受信した走査済み手書きテキスト入力画像は、スキャナ、多機能周辺（ＭＦＰ）デバイス、および画像複写デバイスなどの標準的な走査装置によって走査または処理されてよい、ファイルまたは文書であってよい。受信した走査済み手書きテキスト入力画像は、認識される、またはデジタルまたは機械可読テキストに変換される少なくとも１つの手書きテキスト行を含むことができる。受信した走査済み手書きテキスト入力画像は、画像前処理モジュール（図２の１０２Ａ）によって、ステップ３０２ａにおける１つまたは複数の部分画像に分割され、それぞれの部分画像は、走査済み手書きテキスト入力画像に存在する手書きテキスト行を含む。一実施形態では、それぞれの部分画像に含まれる手書きテキスト行は完全な文であってもなくてもよい。

一実施形態では、１つまたは複数の部分画像は、一定の高さおよび可変の幅を有し、かつアスペクト比を維持するように、画像前処理モジュール（図２の１０２Ａ）によってステップ３０２ｂにおいてスケーリングまたはダウンサンプリングされる。一実施形態では、それぞれの部分画像は、２５６の輝度レベルを有する単一チャネルを含有し、一定の高さは１２８画素から３２画素に及んでよい。しかしながら、それぞれの部分画像の幅は、表１に示されるようにシステム１００の計算数およびメモリ要件を低減するために対応する部分画像のアスペクト比を維持するように調節される。

一実施形態では、前処理するステップ３０２は、左側および右側両方における対応する背景画素を有するバッチに含まれる１つまたは複数の部分画像をパディングしてバッチにおける最も幅広い部分画像の幅をマッチさせることによって寸法の一様性を維持するためのミニバッチトレーニング技法を採用することと、ランダムな歪みを１つまたは複数の部分画像に取り込んで１つまたは複数の部分画像における変形を生じさせることとをさらに含む。一実施形態では、平行移動、回転、傾斜、およびスケーリングを含む４つの変換動作のセットを行うことによって、ミニバッチトレーニング技法を採用する間に、ランダムな歪みがバッチにおけるそれぞれの部分画像に取り込まれる。４つの変換動作のセットを行っている間のパラメータは、ガウス分布を使用して独立してサンプリングされる。例えば、回転動作に対するパラメータは角度の量である。同様に、スケーリング動作に対するパラメータは解像度である。一実施形態では、システム１００が、繰り返す度に以前に見られなかった部分画像のセットを処理することができるように１つまたは複数の部分画像に対して行って変形を生成するために、４つの変換動作のセットから、少なくとも１つが行われてもよいし行われなくてもよい。

本開示の一実施形態によると、特徴抽出モジュール（図２の１０２Ｂ）は、ステップ３０４において、畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって、１つまたは複数のスケーリングされた部分画像のそれぞれを１つまたは複数の機能マップに変えるように構成され、この場合、１つまたは複数の機能マップは対応する部分画像の視覚的特徴を含有する。

一実施形態では、畳み込みニューラルネットワーク（ＣＮＮ）は、完全に接続された層のない標準的な畳み込みニューラルネットワーク（ＣＮＮ）であってよい。ＣＮＮは、基本的な非線形変換のセットを自動的に学習することによって、１つまたは複数の機能マップの形式のそれぞれのスケーリングされた部分画像から豊富な視覚的特徴を抽出するために使用される。抽出された豊富な視覚的特徴は、対応する部分画像における局所的な属性を符号化しつつ、対応する部分画像に存在する物体の空間的構成を保持することができる。

一実施形態では、ＣＮＮは、ＬｅａｋｙＲｅＬＵ活性化によって連続的に積み重ねられた７つの畳み込み層を含む。一実施形態では、ＣＮＮの最初の６つの層は、１画素の幅で入力されるパディングによる３×３画素のカーネルサイズを含み、７番目の層は、入力されたパディングのない、２×２画素のカーネルサイズを含む。カーネルのストライドは、ＣＮＮにおける７つの畳み込み層の垂直方向および水平方向両方において１画素である。

一実施形態では、７つの畳み込み層のｌｅａｋｙＲｅＬＵ活性化は、内部共変量シフトを防止し、かつ後続の畳み込み層に伝わる前にトレーニングを加速するためのバッチ正規化、および、１つまたは複数の部分画像の次元性を低減するための畳み込み層の活性化に対するプーリング演算機構を行うことによって構成される。

一実施形態では、プーリング演算機構は、合計４つの最大プーリング層を含み、このうちの２つは、それぞれの部分画像に存在する手書きテキストの水平方向空間分布を保持するために２×１のカーネルサイズを有し、残りの２つの最大プーリング層は、標準的な２×２の重なり合わないカーネルサイズを有する。表２は、ＣＮＮにおけるそれぞれの畳み込み層のネットワーク構成を示す。

表２によると、第１の畳み込み層は１６の畳み込みフィルタを含有し、第２の畳み込み層は３２の畳み込みフィルタを含有し、第３および第４の畳み込み層はそれぞれ、６４の畳み込みフィルタを含有し、第５、第６、および第７の畳み込み層はそれぞれ、１２８の畳み込みフィルタを含有する。第１の畳み込み層および第２の畳み込み層は、２×２の重なり合わないカーネルサイズの最大プーリング層を含むのに対し、第５の畳み込み層および第６の畳み込み層は、２×１のカーネルサイズの最大プーリング層を含む。

一実施形態では、受信した走査済み手書きテキスト入力画像のそれぞれの部分画像は、特徴抽出モジュール（図２の１０２Ｂ）に送られる前に画像前処理モジュール（図２の１０２Ａ）によって反転させることで、それぞれの部分画像の前景は、容易に学習するために畳み込みニューラルネットワーク（ＣＮＮ）活性化のために暗い背景に対してより高い輝度で構成される。

本開示の一実施形態によると、マップ－シーケンスモジュール（図２の１０２Ｃ）は、ステップ３０６において、１つまたは複数の機能マップに含まれる列を深さ方向に分離し、かつ対応する部分画像の１つまたは複数の機能マップの各列を連結することによって１つまたは複数の機能マップを特徴ベクトルのシーケンスに変換するように構成される。

一実施形態では、特徴ベクトルのシーケンスは、１つまたは複数の機能マップの各列を連結することによって構成される。一実施形態では、ｉ番目の特徴ベクトルは、１つまたは複数の機能マップのｉ番目の列を連結することによって構成される。ステップ３０４においてＣＮＮによって行われる畳み込み演算の並進不変性により、それぞれの列は、図４に示されるように、左から右に移動する（受容野と称される）縦縞を表す。ステップ３０２におけるそれぞれの部分画像のスケーリングにより、画像前処理モジュール（図２の１０２Ａ）によって、特徴ベクトルのシーケンスは、それぞれの特徴ベクトルのシーケンス長に制限を加えることのない独自の次元を含む。

本開示の一実施形態によると、シーケンス学習モジュール（図２の１０２Ｄ）は、ステップ３０８において、回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して、特徴ベクトルのそれぞれのシーケンスと関連付けられる視覚的特徴をマッピングすることによって、１つまたは複数の文字セットを生成するように構成される。１つまたは複数の文字セットは対応する部分画像に対して認識される機械可読テキストである。ＲＮＮベースのエンコーダユニットおよびデコーダユニットのエンコーダユニットは、特徴ベクトルのそれぞれのシーケンスに対してコンテキストベクトルを生成するように構成される。ＲＮＮベースのエンコーダユニットおよびデコーダユニットのデコーダユニットは、対応する部分画像に対する文字セットを生成するために特徴ベクトルのそれぞれのシーケンスに対するコンテキストベクトルにわたって条件付き確率分布を適用するように構成される。

一実施形態では、ＲＮＮベースのエンコーダユニットおよびデコーダユニットは両方共、別個の回帰ニューラルネットワークの機能を果たす。エンコーダユニットは、ステップ３０６において得られるそれぞれの部分画像の特徴ベクトルのシーケンスの理解に基づいてコンテキストベクトルの形式のコンパクト表現を構成し、デコーダユニットは、同コンパクト表現に対して条件付き確率分布を適用することによって対応する部分画像に対してデジタル化された文字または機械可読テキストのセットを生成する。

一実施形態では、エンコーダユニットは、入力として、Ｔ_Sはシーケンス長である、Ｘ＝（ｘ₁、…、ｘ_Ts）である、それぞれの部分画像の特徴ベクトルのシーケンスを取り、かつ、シーケンス全体を代表する、対応する部分画像に対するコンテキストベクトルｃを生成することで、それぞれの時間ステップｔにおいて、隠れ状態はｈ_t＝ｇ（ｘ_t、ｈ_t-1）となり、最後に、ｃ＝ｓ（ｈ₁、…、ｈ_Ts）となる。式中、ｇおよびｓはある非線形関数である。

一実施形態では、長・短期記憶（ＬＳＴＭ）セルは、メモリセルｃ∈Rⁿの存在により長期依存性を学習するためにエンコーダユニットにおいて使用される。一実施形態では、単一の長・短期記憶（ＬＳＴＭ）セルは、最終セル状態が特徴ベクトルのシーケンスの関連コンポーネントのみを符号化するやり方で情報を選択的に蓄積しかつ廃棄することによって、それぞれの時間ステップにおいてセル状態ｃ_tを修正する４つのゲート、ｆｏｒｇｅｔｆ、ｉｎｐｕｔｉ、ｕｐｄａｔｅｕ、およびｏｕｔｐｕｔｏから成る。それぞれの時間ステップｔにおいて、セルおよび隠れ状態は、以下のように更新される。
ｃ_t＝ｆ_t゜ｃ_t-1＋ｉ_t゜ｕ_t、および
ｈ_t＝ｏ_t゜ｔａｎｈ（ｃ_t）、ここで
ｆ_t＝σ（Ｗ^fｘ_t＋Ｕ^fｈ_t-1）
ｉ_t＝σ（Ｗⁱｘ_t＋Ｕⁱｈ_t-1）
ｕ_t＝ｔａｎｈ（Ｗ^uｘ_t＋Ｕ^uｈ_t-1）
ｏ_t＝σ（Ｗ^oｘ_t＋Ｕ^oｈ_t-1）
式中、σ（）およびｔａｎｈ（）は、要素ごとのシグモイドおよび双曲線正接演算を表し、ＷおよびＵは、線形変換のパラメータである。最終セル状態Ｃ_Tsは、対応する部分画像に対するコンテキストベクトルとして使用される。

一実施形態では、エンコーダユニットは双方向ネットワークである。ＬＳＴＭセルが一方向のものであり、過去のコンテキストを学習できるだけであるため、双方向ネットワークは、特徴ベクトルのシーケンスにおける前方依存性および後方依存性両方を用いるために、２つのＬＳＴＭセルを組み合わせることによって形成される。双方向ネットワークは、図５に示されるように、特徴ベクトルのシーケンスを相対する方向に処理する。

一実施形態では、エンコーダユニットによって生成されるコンテキストベクトルＣ_Tsは、対応する部分画像に対するデコーダユニットへの入力として提供される。デコーダユニットは単一のＬＳＴＭセルを有する一方向ネットワークである。

一実施形態では、Ｗ^aが変換行列ｃ₁である、アフィン変換、ｃ₁＝Ｗ^aＣ_Tsは、デコーダユニットのセル状態を初期化するために使用される。デコーダユニットは、ｃ₁、および自身の以前の予測｛ｙ₁、…、ｙ_t-1｝が条件付けられている、それぞれの時間ステップｔにおける出力シーケンスのトークンｙ_tを生成する。デコーダユニットは、Ｔ_dはシーケンス長である、出力シーケンスｙ＝｛ｙ₁、…、ｙ_Td｝にわたる条件付き確率分布

を学習する。デコーダユニットを使用して、それぞれの条件付きは、ｐ（ｙ_t｜｛ｙ_t、…、ｙ_t-1｝、ｃ１＝ｓｏｆｔｍａｘ（ｇ（ｙ_t-1、ｈ_t-1、ｃ₁））としてモデリングされ、ここで、ｇは非線形関数であり、ｈ_t-1はデコーダユニットの隠れ状態である。

一実施形態では、エンコーダユニットおよびデコーダユニットの両方は、それぞれが、ＬＳＴＭセルのそれぞれにおいて２５６の隠れユニットを有する２つの回帰層を含み、学習能力を高めるために２つの層の深さまで拡張する。

一実施形態では、ＲＮＮベースのエンコーダユニットおよびデコーダユニットは、含まれている回帰ユニットを通して後続の回帰層への勾配流を促進するように残差接続によって構成される。深さ方向接続に従ってドロップアウト機構を採用して、長期依存性を捕らえるために回帰接続を修正することなくエンコーダユニットを規則化する。層正規化は、ミニバッチトレーニングによる共変量シフトを防止するように神経細胞を活性化するために採用される。また、注意機構は、デコーダユニットの隠れ状態をエンコーダユニットの隠れ状態と合わせるために採用される。

一実施形態では、ドロップアウト機構は、長期依存性を捕らえるようにＲＮＮベースのエンコーダユニットおよびデコーダユニットの容量を保持するために採用される。一実施形態では、層正規化は、隠れ状態ダイナミックスを安定化させるようにＲＮＮベースのエンコーダユニットおよびデコーダユニットにおける回帰活性化のために、および、システム１００のトレーニング中の良好な収束のために採用される。線形変換Ｗ∈R^256xNは、ロジットを生成するためにデコーダユニットに対して適用され、ここで、Ｎは出力される語彙サイズである。Ｓｏｆｔｍａｘ演算は、それぞれの時間ステップにおける出力される語彙にわたる確率分布を定義するためにロジットに対して行われる。一実施形態では、出力される語彙サイズは、スペース、アスタリスクなどの特殊文字と併せた言語に存在する文字数である。一実施形態では、英語の手書きテキスト認識に対する出力される語彙サイズは、２６の文字および５３の特殊文字を含む７９である。

一実施形態では、Ｂａｈｄａｎａｕ注意機構などの注意機構は、特徴ベクトルのシーケンスに対して、エンコーダユニットによって生成される注釈のシーケンス

の類似性に基づいてそれぞれの時間ステップにおいてコンテキストベクトルが修正されることにより、ＲＮＮベースのエンコーダユニットおよびデコーダユニットへの拡張として採用される。一実施形態では、注意機構は、エンコーダユニットとデコーダユニットとの間のリンクを形成するコンテキストベクトルが特に長いシーケンスに対して基本的な情報を忘れる傾向がある場合があるという事実により使用される。一実施形態では、長いシーケンスは２つ以上の手書きテキスト文を含有する場合がある。ｉ番目のデコーダ時間ステップにおけるコンテキストベクトルは以下によって与えられる。

ここで、ａは、特徴抽出モジュール（図２の１０２Ｂ）のＣＮＮ、および、シーケンス学習モジュール（図２の１０２Ｄ）のＲＮＮベースのエンコーダユニットおよびデコーダユニットと共にトレーニングされるフィードフォワードネットワークである。

従って、コンテキストベクトルは入力された注釈の加重和として修正され、ここで、重みによって、位置iにおけるデコーダユニットの出力が特徴ベクトルのシーケンスの位置ｊの周りのシーケンス特徴ベクトルからの特徴ベクトルとどれほど類似しているかが測定される。Ｌｕｏｎｇ注意機構において使用される注意入力送り（ａｔｔｅｎｔｉｏｎｉｎｐｕｔｆｅｅｄｉｎｇ）アプローチはまた、以前の時間ステップからのコンテキストベクトルがシステム１００の予測容量をさらに増大させるために現在の時間ステップの入力と連結されることにより採用される。

一実施形態では、システム１００は、出力シーケンスにおけるそれぞれの予測された文字に対して独立して算出される累積カテゴリクロスエントロピ（ＣＥ）損失を最小化することによってトレーニングされる。出力シーケンスｙ＝｛ｙ₁、…、ｙ_Td｝に対して、

として定義され、ここで、ｐ（ｙ_t）は時間ステップｔにおけるｔｒｕｅクラスの確率である。

一実施形態では、それぞれの時間ステップにおけるデコーダユニットへの入力は、シーケンス終了＜ｅｏｓ＞が発せられるまで、以前のステップからのｇｏｌｄ予測に対応する、学習可能な埋め込み層からの埋め込みベクトルである。勾配降下は、通時的誤差逆伝搬法（ＢＰＴＴ）の使用後に、ＣＮＮ内に誤差逆伝搬法を行ってネットワークの重みおよびバイアスを更新して、ＲＮＮベースのエンコーダユニットおよびデコーダユニットにわたって行われる。

一実施形態では、ＣＥ損失から生じるクラスの不均衡問題に対処するために最終ＣＥ損失におけるそれぞれのインスタンスの貢献度に適した重みを割り当てることによる焦点損失技法が採用される。最終ＣＥ損失は、ＦＬ（ｐ）＝－（１－ｐ）^γｌｏｇ（ｐ）として定義され、ここで、ｐはｔｒｕｅクラスの確率であり、γは調整可能な焦点パラメータである。

一実施形態では、システム１００の推論は、そのインスタンスにおける出力として、それぞれの時間ステップにおけるｓｏｆｔｍａｘ分布からの最も高い確率を有するクラスを発する貪欲復号（ＧｒｅｅｄｙＤｅｃｏｄｉｎｇ）（ＧＤ）を使用して導出される。貪欲復号は、最良のシーケンスが、必ずしも真でない場合がある、それぞれの時間ステップにおける最も可能性の高いトークンで構成されるという根本的な仮定によって動作する。

一実施形態では、ビームサーチ復号アルゴリズムを使用して、ビームとして既知の仮説のセットにわたって、同時分布を最大化することによって最良のシーケンスを見つける。同時分布は下記により与えられる。
ｐ（ｙ₁、ｙ₂、…、ｙ_Td）＝ｐ（ｙ₁）×ｐ（ｙ₂｜ｙ₁）×ｐ（ｙ₃｜｛ｙ₁、ｙ₂｝）×…×ｐ（ｙ_Td｜｛ｙ₁、ｙ₂、…、ｙ_Td-1｝）

ビームサーチ復号アルゴリズムは、ｔｏｐ－Ｋクラスを選択する。ここで、Ｋは第１の時間ステップにおけるビームサイズであり、次の時間ステップにおけるそれらのそれぞれに対して個々に出力分布を得る。Ｋ×Ｎ仮説のうち、Ｎは出力される語彙サイズであり、ｔｏｐ－Ｋクラスは、積ｐ（ｙ₁）×ｐ（ｙ₂｜ｙ₁）に基づいて選定される。上記のプロセスは、ビームにおける全てのＫの光線が＜ｅｏｓ＞トークンを発するまで繰り返される。デコーダユニットの最終出力は、ビームにおける最も高い値のｐ（ｙ₁、ｙ₂、…、ｙ_Td）を有する光線である。ビームサイズは出力される語彙サイズに相当するものとして定義される。

本開示の一実施形態によると、画像後処理モジュール（図２の１０２Ｅ）は、ステップ３１０において、文字セットを後処理するように構成される。後処理するステップ３１０は、手書きテキスト出力ファイルを生成するために対応する部分画像のそれぞれに対して文字セットを組み合わせることを含み、手書きテキスト出力ファイルは走査済み手書きテキスト入力画像の認識されたテキストバージョンである。

一実施形態では、画像後処理モジュール（図２の１０２Ｅ）は、文字セットが、手書きテキスト出力ファイルを生成するためにＲＮＮベースのエンコーダユニットおよびデコーダユニットによってそれぞれの部分画像に対して認識される順序で文字セットを組み合わせるように構成される。

本開示の一実施形態によると、特徴抽出モジュール（図２の１０２Ｂ）およびシーケンス学習モジュール（図２の１０２Ｄ）は両方共、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のための開示されたシステム１００におけるコネクショニストコンポーネント（Ｃｏｎｎｅｃｔｉｏｎｉｓｔｃｏｍｐｏｎｅｎｔ）の機能を果たす。

本開示によると、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法は、理解を容易にするために単一の走査済み手書きテキスト画像に対する手書きテキスト認識によって説明される。しかしながら、開示されたシステムおよび方法は、複数の走査済み手書きテキスト画像に対する手書きテキストを認識できる。

実験結果
ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のための開示されたシステムおよび方法は、走査済み手書きテキスト入力画像のテキスト行全てに対する平均として判断される性能測定基準として誤字率（ＣＥＲ）およびワード誤り率（ＷＥＲ）を使用して、ＩＡＭ手書きデータベースｖ３：０（英語）、およびＮｖｉｄｉａＴｅｓｌａＫ４０ＧＰＵにおけるＲＩＭＥＳデータベース（フランス語）などの公的に入手可能であるデータセットにおいて評価される。ミニバッチ勾配降下は、トレーニングを加速させるために採用され、以下のように算出される、シーケンス損失の単純な拡張であるバッチ損失が最適化される。

式中、Ｍはバッチサイズであり、ｙ_itはバッチのｉ番目のインスタンスのｔ番目の時間ステップを表す。実験について、バッチサイズは１６に設定される。Ａｄａｍアルゴリズムは０：００１の学習率による最適化プログラムとして使用される。開示されたシステム１００は、テスト検証精度を取得するまでトレーニングされ、３０エポック後に達成される。

表３は、開示されたシステム１００における、層正規化（ＬＮ）、焦点損失技法、およびビームサーチ復号アルゴリズムの効果を示す。ＬＮによって、システム１００の基本モデルの性能はおよそ３％改善された。焦点損失技法の使用によって、また、システム１００の精度が１～３％増大したが、貪欲復号を、システム１００の精度を４～５％高めるビームサーチ復号アルゴリズムと置き換えることによって、主要な改善が達成される。

表４は、既存のシステムおよび方法論との、開示されたシステム１００および方法３００の誤字率（ＣＥＲ）およびワード誤り率（ＷＥＲ）に関する精度ついての比較を示す。表５は、既存のＣＮＮ－１ＤＲＮＮ－ＣＴＣモデルとの、開示されたシステムおよび方法の最大ＧＰＵメモリ消費およびトレーニング可能パラメータ数に関する効率についての比較を示す。

開示されたシステムおよび方法のワードレベル精度は、既存のシステムおよび方法論に対して改善されているが、文字レベル精度は比較するとわずかに低い。

本開示によると、ネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法は、入力された部分画像を、１２８画素から３２画素に及ぶ一定の高さを維持する一方、幅は対応する部分画像のアスペクト比を維持するように調節される、スケーリングされたまたはダウンサンプリングされたバージョンとして取ることによって、計算数が少なくなりかつメモリ要件が少なくなった手書きテキスト認識が達成される。実験結果によって、全体的な精度を損なうことなく、それぞれの部分画像の元のサイズのほぼ１６分の１までダウンサンプリングすることによって、計算の６１％の低減、およびメモリ消費の１７％の低減が達成される。

本開示の一実施形態によると、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のための開示されたシステムおよび方法によって、注意機構を有する、ＲＮＮベースのエンコーダユニットおよびデコーダユニットを使用する手書きテキスト認識における精度の、既存のＣＮＮ－１ＤＲＮＮ－ＣＴＣモデルに対する大幅な改善が達成される。実験結果によって、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のための開示されたシステムおよび方法は、利用可能なデータセットのＩＡＭおよびＲＩＭＥＳに対して精度がそれぞれ、３：５％および１：１％優れていた。

本開示によると、ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法は、走査済み手書きテキスト入力画像を使用して効率的なオフライン手書きテキスト認識を行うための完全なエンドツーエンド解決策をもたらす。

保護の範囲がこのようなプログラムまで拡張され、メッセージを有するコンピュータ可読手段に加えて、このようなコンピュータ可読記憶手段が、プログラムが、サーバもしくはモバイルデバイス、または任意の適したプログラマブルデバイス上で実行している時、方法の１つまたは複数のステップの実施のためのプログラムコード手段を含有することは、理解されたい。ハードウェアデバイスは、例えば、サーバもしくはパーソナルコンピュータなどのような任意の種類のコンピュータ、またはこれらの組み合わせなどを含む、プログラム可能である任意の種類のデバイスとすることができる。デバイスはまた、例えば、特定用途向け集積回路（ＡＳＩＣ）のようなハードウェア手段、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または例えば、ＡＳＩＣおよびＦＰＧＡといったハードウェア手段およびソフトウェア手段の組み合わせ、または、ソフトウェアモジュールが位置している、少なくとも１つのマイクロプロセッサおよび少なくとも１つのメモリとすることが可能な手段を含んでよい。よって、手段は、ハードウェア手段およびソフトウェア手段両方を含むことができる。本明細書に説明される方法の実施形態は、ハードウェアおよびソフトウェアにおいて実装可能である。デバイスはソフトウェア手段も含んでよい。代替的には、実施形態は、例えば、複数のＣＰＵを使用して種々のハードウェアデバイス上で実施されてよい。

本明細書における実施形態は、ハードウェア要素およびソフトウェア要素を含むことができる。ソフトウェアで実装される実施形態は、限定ではないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書に説明されるさまざまなモジュールによって行われる機能は、他のモジュールまたは他のモジュールの組み合わせで実装されてよい。この説明の目的で、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによるまたはこれに関連して使用するためのプログラムを、含む、記憶する、通信する、伝える、または転送することができる任意の装置とすることができる。

例証のステップは、示される例示の実施形態を説明するために述べられたものであり、進展中の技術的進歩が特定の機能が行われるやり方を変更することが予期されるものとする。これらの例は、本明細書において限定ではなく例証の目的で提示されている。さらに、機能的構築ブロックの境界は、説明の便宜上、本明細書に任意に定義されている。代替の境界は、特定の機能およびその関係性が適切に行われる限り定義され得る。（本明細書に説明されるものの等価例、拡張例、変形例、逸脱例などを含む）代替例は、本明細書に含有される教示に基づいて当業者には明らかになるであろう。このような代替例は、開示される実施形態の範囲および趣旨の範囲内にある。また、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｉｎｇ）」、および「含む（ｉｎｃｌｕｄｉｎｇ）」という語、ならびに他の類似の形は、これらの語のうちのいずれか１つに続く項目（単数または複数）が、このような項目（単数または複数）の網羅的なリストであること、すなわち、リストされた項目（単数または複数）のみに限定することを意味していないという点で意味的に等価であり、オープンエンドであることが意図される。また、本明細書において、および添付の特許請求の範囲において使用されるように（明細書に含まれる時）、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、別段文脈において明確に決定づけられていない限り、複数の参照記号を含むことにも留意されなくてはならない。

さらには、１つまたは複数のコンピュータ可読記憶媒体は、本開示と合致する実施形態を実装する際に用いられてよい。コンピュータ可読記憶媒体は、プロセッサによって可読の情報またはデータが記憶可能である任意のタイプの物理メモリを指す。よって、コンピュータ可読記憶媒体は、本明細書に説明される実施形態と合致するステップまたは段階をプロセッサ（複数可）に行わせるための命令を含んだ、１つまたは複数のプロセッサによって実行するための命令を記憶することができる。「コンピュータ可読媒体」という用語は、有形の品目を含み、かつ搬送波および過渡信号を含まない、すなわち、非一時的であると理解されるべきである。例として、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、および任意の他の既知の物理記憶媒体が挙げられる。

本開示および例は、単に例示とみなされ、開示される実施形態の真の範囲および趣旨は、以下の特許請求の範囲によって指示されていることが意図される。

Claims

ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステム（１００）であって、
１つまたは複数のハードウェアプロセッサ（１０４）に動作可能に結合されて前記１つまたは複数のハードウェアプロセッサによって実行するように構成される命令を記憶する１つまたは複数の内部データ記憶デバイス（１０２）を備え、前記命令は、
走査済み手書きテキスト入力画像を受信するように、前記走査済み手書きテキスト入力画像から１つまたは複数の部分画像を、前記１つまたは複数の部分画像のそれぞれが前記走査済み手書きテキスト入力画像に存在する手書きテキスト行を含んで得るように、および前記１つまたは複数の部分画像を、一定の高さおよび可変の幅を有し、かつそのアスペクト比を維持する１つまたは複数のスケーリングされた部分画像にスケーリングするように構成される画像前処理モジュール（１０２Ａ）と、
前記画像前処理モジュール（１０２Ａ）に動作可能に結合され、かつ畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって前記１つまたは複数のスケーリングされた部分画像のそれぞれを１つまたは複数の機能マップに変えるように構成される特徴抽出モジュール（１０２Ｂ）であって、前記１つまたは複数の機能マップは対応する部分画像の視覚的特徴を含有し、前記ＣＮＮは、ｌｅａｋｙＲｅＬＵ活性化によって連続的に積み重ねられる複数の畳み込み層を含み、前記畳み込み層のｌｅａｋｙＲｅＬＵ活性化は、
内部共変量シフトを防止し、かつ次の畳み込み層に伝わる前にトレーニングを加速するためのバッチ正規化、および、
前記１つまたは複数の部分画像の次元性を低減するために前記畳み込み層の少なくともいくつかの活性化に対して行うプーリング演算機構
を行うことによって構成される、特徴抽出モジュール（１０２Ｂ）と、
前記特徴抽出モジュール（１０２Ｂ）に動作可能に結合され、かつ前記１つまたは複数の機能マップに含まれる列を深さ方向に分離し、かつ対応する前記部分画像の前記１つまたは複数の機能マップの各列を連結することによって前記１つまたは複数の機能マップを特徴ベクトルのシーケンスに変換するように構成されるマップ－シーケンスモジュール（１０２Ｃ）と、
前記マップ－シーケンスモジュール（１０２Ｃ）に動作可能に結合され、かつ回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して、特徴ベクトルのそれぞれのシーケンスと関連付けられる前記視覚的特徴をマッピングすることによって、１つまたは複数の文字セットを生成するように構成されるシーケンス学習モジュール（１０２Ｄ）であって、前記１つまたは複数の文字セットは前記対応する部分画像に対して認識される機械可読テキストであり、前記ＲＮＮベースのエンコーダユニットおよびデコーダユニットのエンコーダユニットは、特徴ベクトルのそれぞれのシーケンスに対してコンテキストベクトルを生成するように構成され、前記ＲＮＮベースのエンコーダユニットおよびデコーダユニットのデコーダユニットは、前記対応する部分画像に対する文字セットを生成するために特徴ベクトルのそれぞれのシーケンスに対するコンテキストベクトルにわたって条件付き確率分布を適用するように構成され前記ＲＮＮベースのエンコーダユニットおよびデコーダユニットは、
残差接続によって含まれている回帰ユニットを通した後続の回帰層への勾配流を促進すること、
深さ方向接続に従ってドロップアウト機構を採用することによって長期依存性を捕らえるために回帰接続を修正することなく前記ＲＮＮベースのエンコーダユニットを規則化すること、
層正規化によってミニバッチトレーニングによる共変量シフトを防止するために神経細胞を活性化すること、および、
注意機構を通して、前記デコーダユニットの隠れ状態を前記エンコーダユニットの隠れ状態と合わせること
によって構成される、シーケンス学習モジュール（１０２Ｄ）と、
前記シーケンス学習モジュール（１０２Ｄ）に動作可能に結合され、かつ手書きテキスト出力ファイルを生成するために前記対応する部分画像のそれぞれに対して前記文字セットを組み合わせるように構成される画像後処理モジュール（１０２Ｅ）であって、前記手書きテキスト出力ファイルは前記走査済み手書きテキスト入力画像の認識されたテキストバージョンである、画像後処理モジュール（１０２Ｅ）と、に含まれる、システム。
前記画像前処理モジュールは、左側および右側両方における対応する背景画素を有するバッチに含まれる前記１つまたは複数の部分画像をパディングして前記バッチにおける最も幅広い部分画像の幅をマッチさせることによって寸法の一様性を維持するためのミニバッチトレーニング技法を採用するように、およびランダムな歪みを前記１つまたは複数の部分画像に取り込んで前記１つまたは複数の部分画像における変形を生じさせるように、さらに構成される、請求項１に記載のシステム。
前記ＣＮＮは、ｌｅａｋｙＲｅＬＵ活性化によって連続的に積み重ねられる７つの畳み込み層を含む、請求項１に記載のシステム。
前記エンコーダユニットは２つの長・短期記憶（ＬＳＴＭ）セルを組み合わせることによって形成される双方向ネットワークであり、前記デコーダユニットは単一のＬＳＴＭセルを有する一方向ネットワークである、請求項１に記載のシステム。
前記エンコーダユニットおよび前記デコーダユニットは、前記ＬＳＴＭセルのそれぞれにおける２５６の隠れユニットを有する２つの回帰層を含む、請求項４に記載のシステム。
ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのプロセッサ実施方法（３００）であって、
画像前処理モジュールによって、受信した走査済み手書きテキスト入力画像を前処理するステップ（３０２）であって、前記前処理するステップは、
前記受信した走査済み手書きテキスト入力画像から１つまたは複数の部分画像を、それぞれの部分画像が前記走査済み手書きテキスト入力画像に存在する手書きテキスト行を含んで得ること（３０２ａ）、および
前記１つまたは複数の部分画像を、一定の高さおよび可変の幅を有し、かつそのアスペクト比を維持する１つまたは複数のスケーリングされた部分画像にスケーリングすること（３０２ｂ）を含む、前処理するステップと、
特徴抽出モジュールによって、畳み込みニューラルネットワーク（ＣＮＮ）を適用することによって前記１つまたは複数のスケーリングされた部分画像のそれぞれを１つまたは複数の機能マップに変えるステップであって、前記１つまたは複数の機能マップは対応する部分画像の視覚的特徴を含有し、前記ＣＮＮは、ｌｅａｋｙＲｅＬＵ活性化によって連続的に積み重ねられる複数の畳み込み層を含み、前記畳み込み層のｌｅａｋｙＲｅＬＵ活性化は、
内部共変量シフトを防止し、かつ次の畳み込み層に伝わる前にトレーニングを加速するためのバッチ正規化、および、
前記１つまたは複数の部分画像の次元性を低減するために前記畳み込み層の少なくともいくつかの活性化に対して行うプーリング演算機構
を行うことによって構成される、変えるステップ（３０４）と、
マップ－シーケンスモジュールによって、前記１つまたは複数の機能マップに含まれる列を深さ方向に分離し、かつ対応する前記部分画像の前記１つまたは複数の機能マップの各列を連結することによって前記１つまたは複数の機能マップを特徴ベクトルのシーケンスに変換するステップ（３０６）と、
シーケンス学習モジュールによって、回帰ニューラルネットワーク（ＲＮＮ）ベースのエンコーダユニットおよびデコーダユニットを使用して、特徴ベクトルのそれぞれのシーケンスと関連付けられる前記視覚的特徴をマッピングすることによって、１つまたは複数の文字セットを生成するステップであって、前記１つまたは複数の文字セットは前記対応する部分画像に対して認識される機械可読テキストであり、前記ＲＮＮベースのエンコーダユニットおよびデコーダユニットのエンコーダユニットは、特徴ベクトルのそれぞれのシーケンスに対してコンテキストベクトルを生成するように構成され、前記ＲＮＮベースのエンコーダユニットおよびデコーダユニットのデコーダユニットは、前記対応する部分画像に対する文字セットを生成するために特徴ベクトルのそれぞれのシーケンスに対する前記コンテキストベクトルにわたって条件付き確率分布を適用するように構成され前記ＲＮＮベースのエンコーダユニットおよびデコーダユニットは、
残差接続によって含まれている回帰ユニットを通した後続の回帰層への勾配流を促進すること、
深さ方向接続に従ってドロップアウト機構を採用することによって長期依存性を捕らえるために回帰接続を修正することなく前記ＲＮＮベースのエンコーダユニットを規則化すること、
層正規化によってミニバッチトレーニングによる共変量シフトを防止するために神経細胞を活性化すること、および、
注意機構を通して、前記デコーダユニットの隠れ状態を前記エンコーダユニットの隠れ状態と合わせること
によって構成される、生成するステップ（３０８）と、
画像後処理モジュールによって前記文字セットを後処理するステップであって、前記後処理するステップは、手書きテキスト出力ファイルを生成するために前記対応する部分画像のそれぞれに対して前記文字セットを組み合わせることを含み、前記手書きテキスト出力ファイルは前記走査済み手書きテキスト入力画像の認識されたテキストバージョンである、後処理するステップ（３１０）と、を含む、プロセッサ実施方法。
前記前処理するステップは、左側および右側両方における対応する背景画素を有するバッチに含まれる前記１つまたは複数の部分画像をパディングして前記バッチにおける最も幅広い部分画像の幅をマッチさせることによって寸法の一様性を維持するためのミニバッチトレーニング技法を採用することと、ランダムな歪みを前記１つまたは複数の部分画像に取り込んで前記１つまたは複数の部分画像における変形を生じさせることと、をさらに含む、請求項６に記載の方法。
前記ＣＮＮは、ｌｅａｋｙＲｅＬＵ活性化によって連続的に積み重ねられる７つの畳み込み層である、請求項６に記載の方法。