JP5992206B2

JP5992206B2 - パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法

Info

Publication number: JP5992206B2
Application number: JP2012120684A
Authority: JP
Inventors: 浜村　倫行; 倫行浜村; 英朴; 入江　文平; 文平入江; 匡哉前田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-05-28
Filing date: 2012-05-28
Publication date: 2016-09-14
Anticipated expiration: 2032-05-28
Also published as: JP2013246677A

Description

本発明の実施形態は、パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法に関する。

たとえば、パターン認識装置は、パターン画像と正解のパターンを示す情報とを対応づけた学習用データを用いて辞書を更新することにより認識精度を向上できる。パターンの一例としての文字を認識するための辞書の学習方法としては、文字画像と文字画像が示す文字（正解となる文字）を示す情報とを対応付けた学習用データを準備し、その学習用データを元に辞書データを更新する方法がある。文字画像と正解の文字とを対応付ける方法としては、人が個々の文字画像に対して文字情報を指定する方法がある。しかし、人が直接的に個々の文字画像と正解の文字とを対応づける方法は、多大な手間と時間とが掛かるという課題がある。

特開平７−１９１７９６号公報特許第３０５１６２８号公報

上記の課題を解決するために、パターン認識用辞書の学習を効率よく行えるパターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法を提供することを目的とする。

実施形態によれば、パターン認識用辞書の学習装置は、生成部と、特徴抽出部と、設定部と、更新部とを有する。生成部は、入力者が入力したパターンが記載されているらしい認識対象の画像におけるパターン領域候補を生成する。特徴抽出部は、生成部により生成したパターン領域候補における特徴量を算出する。設定部は、パターンを入力した入力者の視線位置に基づいて生成部により生成したパターン領域候補に入力者が入力したパターンが記載されている確率を設定する。更新部は、設定部により設定された確率と特徴抽出部により算出した特徴量とに基づいてパターン認識用辞書を更新する。

図１は、本実施形態に係る区分装置としての紙葉類処理装置の構成例を概略的に示すブロック図である。図２は、本実施形態に係るビデオコーディング装置としてのＶＣＤの動作例を説明するためのフローチャートである。図３は、本実施形態に係るビデオコーディング装置としてのＶＣＤに供給される認識対象とする画像の例を示す図である。図４は、本実施形態に係る認識対象とする画像の表示画面における、視線位置、および、入力タイミングを示す図である。図５は、本実施形態に係るＶＣＤで作成される学習用データのファイルの構成例を示す図である。図６は、本実施形態に係る学習部の構成例を示すブロック図である。図７は、本実施形態に係る認識対象の画像における仮説の例を示す図である。図８は、本実施形態に係る各仮説に対する事前確率を示す図である。図９は、本実施形態に係る各仮説に対する事後確率を示す図である。図１０は、本実施形態に係る学習部による学習処理の動作例を説明するためのフローチャートである。

以下、本実施形態について図面を参照して説明する。
本実施形態に係る学習装置は、パターン認識用辞書を更新するものである。ここで、認識対象となるパターンは、例えば、文字、記号或いはコードなどの情報であり、パターン認識用辞書は、それらのパターンを認識するための辞書データを記憶する記憶部である。本実施形態では、パターン認識用辞書としての文字認識用辞書を用いた文字認識処理を行う区分装置について説明するものとする。

本実施形態に係る区分装置は、文字認識用辞書の学習装置、パターン認識装置およびコーディング装置などの機能を含むシステムである。本実施形態に係る区分装置は、紙葉類あるいは物品などの区分対象物に文字で記載されている区分情報に基づいて、区分対象物を区分処理する。区分装置は、紙葉類あるいは物品などの区分対象物に記載された区分情報としての文字を認識する文字認識機能を有する。区分装置は、文字認識処理による認識結果として得られる区分情報あるいは後述するビデオコーディング処理により入力される区分情報によって、紙葉類あるいは物品などの区分対象物を区分する。

本実施形態に係る区分装置は、区分機本体における文字認識用辞書を用いた文字認識処理で認識できなかった区分情報としての文字情報を人が入力するビデオコーディングシステム（以降、ＶＣＳと略称する）を有する。ＶＣＳは、複数のコーディング装置を有する。各コーディング装置は、区分機本体の文字認識処理で認識できなかった区分情報を含む画像を表示画面に表示し、その表示画面を見た人物が当該文字画像に含まれる文字情報としての区分情報を入力する。また、本実施形態に係るコーディング装置は、人物が入力した文字情報としての区分情報を区分機本体に返すだけでなく、区分情報を含む画像と人物が入力した文字情報と文字情報の入力時に当該人物が見ていた位置情報とを含むデータを文字認識用辞書の更新用データ（学習用データ）として区分機本体などに設けた学習部などの文字認識用辞書の学習装置へ供給する機能を有する。

本実施形態に係る区分装置は、ＶＣＳから供給される学習用データに基づいて文字認識用辞書を更新（学習処理）する学習部を有する。学習部は、学習用データに含まれる人物が入力した文字情報と文字情報の入力時に当該人物が見ていた位置情報とを参照して、文字認識用辞書に記憶されている各文字の辞書データを更新する。学習部は、区分機本体における文字認識処理に用いる辞書を更新するものであれば良く、区分装置とは別に設けた学習装置であっても良い。

なお、本実施形態に係る区分装置は、郵便物などの紙葉類を区分する紙葉類処理装置（例えば郵便区分装置）、梱包品や貨物（たとえば、小包、宅配便）などの物品を区分する物品区分装置、あるいは、物品に付与されたタグなどに記載された区分情報により物品を仕分けする物品仕分け装置などが想定される。以下の説明では、区分装置の一例として、文字で記載された区分情報としての住所情報により紙葉類を区分する紙葉類処理装置を想定して説明するものとする。

図１は、本実施形態に係るパターン認識用辞書の学習装置、パターン認識装置およびコーディング装置などの機能を有する区分装置としての紙葉類処理装置の構成例を概略的に示すブロック図である。
紙葉類処理装置１は、たとえば、郵便物あるいは帳票等の紙葉類に記載された住所などの文字で表現された区分情報を文字認識し、その文字認識の結果に基づいて当該紙葉類を区分処理する。図１に示す構成例おいて、紙葉類処理装置１は、区分機本体３及びビデオコーディングシステム（以降、ＶＣＳと略称する）４などから構成される。区分機本体３及びＶＣＳ４は、互いに通信可能なように接続されている。

まず、区分機本体３について説明する。
図１に示す紙葉類処理装置の区分機本体３は、紙葉類を区分情報としての住所情報により区分処理するものである。区分機本体３は、文字認識部及び住所認識部を有する。区分機本体３の文字認識部は、文字認識用の辞書を参照して、スキャナにより読み取った紙葉類の画像における住所情報らしい各文字を認識する。区分機本体３の住所判定部は、文字認識部による文字認識の結果と住所データベースに記憶されている住所情報とを参照して、紙葉類に記載されている住所情報を判定する。紙葉類処理装置の区分機本体３は、住所情報が認識（特定）できなかった紙葉類の画像をＶＣＳ４へ送る。ＶＣＳ４は、紙葉類の画像における住所情報をオペレータにより入力され、その入力結果を区分機本体４へ返す。区分機本体４は、ＶＣＳ４で入力された住所情報に基づいて住所情報が認識できなかった紙葉類を区分処理する機能も有する。

区分機本体３は、オペレーションパネル１０、供給部１１、主搬送路１２、バーコードリーダ（以下、ＢＣＲ）１３、スキャナ１４、バーコードライタ（以下、ＢＣＷ）１５、区分部１６、制御部１７、文字認識部１８、辞書１８a、住所識別部１９、住所データベース（以下、住所ＤＢ）１９ａ及び学習部２０などを備える。

制御部１７は、紙葉類処理装置１の各部の動作を統合的に制御する。制御部１７は、ＣＰＵ、バッファメモリ、プログラムメモリ、及び不揮発性メモリなどを備える。ＣＰＵは、種々の演算処理を行う。バッファメモリは、ＣＰＵにより行われる演算の結果を一時的に記憶する。プログラムメモリ及び不揮発性メモリは、ＣＰＵが実行する種々のプログラム及び制御データなどを記憶する。制御部１７は、ＣＰＵによりプログラムメモリに記憶されているプログラムを実行することにより、種々の処理を行うことができる。

オペレーションパネル１０は、オペレータ（操作員）が処理モードを指定したり、処理開始を指定したり、紙葉類処理装置１の動作状態などを表示したりする。
供給部１１は、紙葉類処理装置１に取り込む紙葉類をストックする。供給部１１は、重ねられた状態の紙葉類をまとめて受け入れる。供給部１１は、紙葉類を１つずつ主搬送路１２へ供給する。たとえば、供給部１１は、分離ローラを備え、分離ローラは、供給部１１に紙葉類が投入された場合、投入された紙葉類の集積方向の下端に接する。分離ローラは、回転することにより、供給部１１にセットされた紙葉類を集積方向の下端から１枚ずつ主搬送路１２へ一定のピッチで供給する。

主搬送路１２は、紙葉類を紙葉類処理装置１内の各部に搬送する搬送部である。主搬送路１２は、搬送ベルト及び駆動プーリなどを備える。主搬送路１２は、駆動モータにより駆動プーリを駆動する。搬送ベルトは、駆動プーリにより動作する。主搬送路１２上には、バーコードリーダ１３、スキャナ１４、バーコードライタ１５、および、区分部１６などが設けられている。

ＢＣＲ１３は、主搬送路１２上を搬送される紙葉類に印字されているＩＤバーコードあるいは宛先バーコードなどのバーコードを読取るものである。ＢＣＲ１３は、バーコードの画像を読取る読取部と、読取画像におけるバーコードを認識する認識部を有する。読取部は、バーコードを読み取ると、当該バーコードの画像を認識部へ供給する。認識部は、供給された当該バーコード画像を処理し、当該バーコードに含まれるデータを認識する。認識されたデータは、制御部１７へ供給される。

スキャナ１４は、主搬送路１２により搬送される紙葉類から画像を取得する。スキャナ１４は、例えば、照明と光学センサとを備える。照明は、主搬送路１２により搬送される紙葉類１に対して光を照射する。光学センサは、ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ（ＣＣＤ）などの受光素子と光学系（レンズ）とを備える。光学センサは、紙葉類で反射した反射光を光学系により受光し、ＣＣＤに結像させ、電気信号（画像）を取得する。スキャナ１４は、主搬送路１２により搬送される紙葉類１から連続して画像を取得することにより、紙葉類の全体の画像を取得する。スキャナ１４は、取得した画像を文字認識部１８に供給する。なお、スキャナ１４は、ビデオカメラなどにより構成しても良い。

文字認識部１８は、スキャナ１４により読み取った紙葉類の画像に含まれるパターンとしての文字を認識するパターン認識部として機能する。文字認識部１８は、スキャナ１４により読取った紙葉類の画像から住所情報を構成する各文字らしい文字画像の領域（文字候補領域）を抽出する。文字認識部１８は、抽出した文字候補領域の画像における各文字を文字認識用の辞書１８ａに記憶された辞書データを参照して認識する。たとえば、文字認識部１８は、文字候補領域における文字（パターン）としての特徴パラメータと辞書に辞書データとして記憶されている各文字の特徴パラメータ（各文字の辞書パターン）との類似度を算出し、算出した類似度により文字認識結果を判定する。

辞書１８ａは、各文字の特徴をデータ化した特徴パラメータなどの辞書データを記憶する。辞書１８ａは、文字認識部１８による文字認識処理（ＯＣＲ処理）に使用される。たとえば、辞書１８ａは、各文字の特徴を示す辞書データとして、各文字の特徴パラメータを記憶する。ここで、文字の特徴パラメータとは、文字の画像における特徴を数値化したものである。たとえば、辞書１８ａに辞書データとして文字の特徴パラメータは、文字の画像をぼかした後の輝度勾配情報を１２８次元ベクトルとして抽出したものなどであっても良い。また、辞書１８ａに辞書データとして記憶する文字の特徴パラメータは、平均ｍ、共分散行列Σを有するガウス分布であっても良い。

文字認識部１８は、認識対象とする紙葉類の画像から１つの文字が記載されている領域らしい領域を文字候補領域として抽出する。文字候補領域の抽出方法は、特定の方法に限定されない。１つの文字が記載されているらしい文字候補領域を抽出すると、文字認識部１８は、文字候補領域における文字らしいパターンの特徴パラメータを抽出する。特徴パラメータを抽出すると、文字認識部１８は、抽出した特徴パラメータと辞書１８ａに格納されている各文字の特徴パラメータとを比較して、文字候補領域に記載されている文字が比較した文字である確率（或いは類似度）を計算する。

たとえば、文字認識部１８は、抽出した特徴パラメータと辞書１８ａに格納されている「あ」の特徴パラメータとを比較して、文字候補領域に記載されている文字が「あ」である確率（或いは類似度）を計算する。さらに、文字認識部１８は、「い」、「う」、・・・などの各文字について、順に類似度（確率）を計算する。

文字認識部１８は、計算した各文字に対する類似度（確率）から文字候補領域に含まれる文字を特定する。たとえば、文字認識部１８は、計算した確率が所定のしきい値を超えた文字を認識結果とする。所定のしきい値を超える文字が複数存在する場合、文字認識部１８は、それらの文字を確率の大きい順に文字認識結果として住所判定部１９へ出力する。また、所定のしきい値を超える文字が複数存在する場合、文字認識部１８は、それらの文字のうち確率の大きい順に所定数の文字を認識結果として住所判定部１９へ出力するようにしても良い。また、文字を一意に特定する場合、所定のしきい値を超える文字が複数存在すれば、文字認識部１８は、それらの文字のうち確率が最も大きい１つの文字を文字認識結果として住所判定部１９へ出力するようにしても良い。

また、紙葉類処理装置では、文字認識部１８は、住所判定を前提する処理であるため、しきい値と比較せずに文字認識結果を出力するようにしても良い。たとえば、文字認識部１８は、全ての文字について計算した確率の大きい順に、所定数の文字を文字認識結果としても良い。この場合、文字認識部１８は、確率の大きい順に所定数の文字を文字認識結果として住所判定部１９へ出力する。また、文字認識部１８は、文字候補領域の文字を一意に特定するようにしても良い。文字を一意に特定する場合、文字認識部１８は、最も確率の大きい文字を文字候補領域に対する文字認識結果として出力すればよい。文字認識部１８は、抽出された画像に記載されている全ての文字画像について同様に認識処理を行い、抽出された画像に記載されている全ての文字を認識する。なお、文字認識部１８における文字認識処理は、辞書１８aに登録した辞書データを用いた文字認識であれば任意の方法でよく、上記の処理例に限定されるものではない。

住所判定部１９は、文字認識部１８による各文字の認識結果に基づいて、各文字の組み合わせからなる住所情報を認識する。住所判定部１９は、文字認識部１８による文字認識結果と住所ＤＢ１９ａに記憶されている住所情報とを比較することにより、紙葉類に記載されている住所情報を特定（認識）する。たとえば、文字認識部１８による文字認識結果として各文字候補領域について複数の文字候補が得られた場合、住所判定部１９は、得られた文字候補の組合せと辞書１８ａに記憶された住所情報とを比較して住所情報を特定する。住所情報が特定（認識）できた場合、住所判定部１９は、特定した住所情報を制御部１７へ供給する。住所情報が特定（認識）できなかった場合、住所判定部１９は、紙葉類の画像、および、文字認識結果を含むビデオコーディング用の情報（コーディングデータ）を画像蓄積分配装置２１へ送信する。

住所ＤＢ１９ａは、認識対象となる住所情報を記憶する。本実施形態では、住所ＤＢ１９ａに登録される住所情報は、複数階層のデータにより構成される情報であるものとする。住所ＤＢ１９ａは、たとえば、紙葉類（たとえば、郵便物）の処理対象となる地域に存在する全ての住所情報がツリー構造（階層構造）により格納されている。住所ＤＢ１９ａは、更新可能とすることもできる。また、住所ＤＢ１９ａは、住所判定部１９がアクセスできる記憶装置であれば良い。たとえば、住所ＤＢ１９ａは、区分機本体３の外に設けても良い。

ＢＣＷ１５は、必要に応じて紙葉類にＩＤバーコード、あるいは、宛先バーコードを印刷する。たとえば、ＢＣＷ１５は、住所判定部１９により住所情報が認識できた紙葉類に対し、認識結果としての住所情報をバーコード化した宛先バーコードを印刷する。また、ＢＣＷ１５は、住所判定部１９により住所情報が認識できなかった紙葉類に対し、制御部１７から与えられる識別情報（ＩＤコード）をバーコード化したＩＤバーコードを印刷する。つまり、ＢＣＷ１５は、住所情報が認識できた紙葉類にはその認識結果を宛先バーコードとして印刷し、住所情報が認識できなかった紙葉類にはＩＤバーコードを印刷する。すなわち、宛先バーコードは、住所情報そのものを示すバーコードであり、ＩＤバーコードは、当該紙葉類を識別するための識別情報を示すバーコードである。ＩＤバーコードで示す紙葉類の識別情報は、ＶＣＳ４において打鍵入力された住所情報と紙葉類とを対応づけるための情報である。言い換えると、ＩＤバーコードが印刷された紙葉類は、ＶＣＳ４による処理対象となる紙葉類である。

ＢＣＷ１５の紙葉類の搬送方向の下流側には、紙葉類が住所情報に応じて区分される区分部１６が設けられている。この区分部１６は、複数の段、複数の列に区画された複数の区分ポケット（図示しない）から構成されている。各ポケットは、区分先ごとに対応して設定されており、住所情報あるいは機械コードに基づいて、紙葉類が住所情報に対応したポケットに順次集積される。

また、区分部１６には、区分先が認識できなかった紙葉類が集積されるＶＣＳ排除ポケット（図示しない）が設けられている。このＶＣＳ排除ポケットに集積された紙葉類は、住所情報がＶＣＳ４にて入力された後に、供給部１１に再供給される。供給部１１に再供給された紙葉類は、当該紙葉類に印刷されたＩＤコードとＶＣＳ４にて入力された住所情報とに基づいて再区分される。制御部１７は、区分情報としての住所情報に基づいて紙葉類を区分部１６の各ポケットに区分する。

学習部２０は、文字認識用の辞書１８aあるいは住所判定用の住所ＤＢ１９ａに対する学習機能を司るものである。学習部２０は、ＶＣＳ４において、オペレータが入力する文字情報および住所情報などを含む情報に基づいて辞書１８ａに記憶されている辞書データあるいは住所ＤＢ１９ａに記憶されている住所データを更新する。学習部２０については、後で詳細に説明する。なお、本実施形態においては、主に、学習部２０が文字認識用辞書１８ａを更新する処理例について説明する。ただし、認識対象を文字単位から、単語などの文字列単位にすることで文字列を認識するための辞書なども同様な処理方法で学習処理が行える。

次に、ＶＣＳ４について説明する。
ＶＣＳ４は、画像蓄積分配装置２１および複数のビデオコーディングディスク（以降、ＶＣＤと略称する）２２などから構成されている。画像蓄積分配装置２１は、制御部、記憶部、および各種インターフェースなどを有するコンピュータで実現される。ＶＣＤ２２は、たとえば、表示部、入力部、制御部、記憶部、および各種インターフェースなどを有するコンピュータで実現される。

画像蓄積分配装置２１には、区分機本体３と各ＶＣＤ２２とが接続される。画像蓄積分配装置２１は、区分機本体３内の文字認識部１８及び住所判定部１９により住所情報が認識できなかった紙葉類の画像を含むビデオコーディング用の情報（コーディングデータ）を区分機本体３から受信する。画像蓄積装置２１は、各ＶＣＤ２２の稼働状況などを監視し、各ＶＣＤ２２の稼働状況などに応じて区分機本体３から受信した紙葉類の画像を含むコーディングデータを各ＶＣＤ２２へ配信する。

各ＶＣＤ２２は、画像蓄積装置２１から配信されたコーディングデータに含まれる紙葉類の画像を表示部２７に表示し、オペレータに正しい住所情報（文字情報）の入力を促す。ＶＣＤ２２は、紙葉類の画像を表示部２７に表示した状態において、オペレータが入力した住所情報として文字情報を含む入力情報を画像蓄積分配装置２１へ返す。画像蓄積分配装置２１は、各ＶＣＤ２２から取得した入力情報を区分機本体３へ返す処理を行なう。

図１に示す構成例において、ＶＣＤ２２は、ＣＰＵ２３、不揮発性メモリ２４、ＲＡＭ２５、ＲＯＭ２６、表示部２７、入力部２８、及び、視線検出部２９などを有する。
ＣＰＵ２３は、ＶＣＤ２２全体の制御を司る制御部として機能する。ＣＰＵ２３は、ＲＯＭ２６あるいは不揮発性メモリ２４に記憶されている制御プログラム及び制御データに基づいて種々の処理を行う。たとえば、ＣＰＵ２３は、オペレーティングシステムのプログラムを実行することにより、ＶＣＤ２２の基本的な動作制御を行う。なお、各種の機能のうちの一部は、ハードウェア回路により実現されるものであっても良い。

不揮発性メモリ２４は、例えば、ＥＥＰＲＯＭ、フラッシュＲＯＭ、ＨＤＤ（ハードディスクドライブ）、あるいは、ＳＳＤ（Solid State Disk）などのデータの書き込み及び書換えが可能な不揮発性のメモリにより構成される。不揮発性メモリ２４は、ＶＣＤ２２の運用用途に応じて制御プログラム、制御データ、および、種々のデータを格納する。たとえば、不揮発性メモリ２４は、画像蓄積分配装置２１から供給されるビデオコーディング用の画像（文字画像を含む画像）を含むコーディングデータを保存する。また、不揮発性メモリ２４は、オペレータが入力する入力情報および後述する視線位置情報などを記憶するようにしても良い。

ＲＡＭ２５は、揮発性のメモリである。ＲＡＭ２５は、ＣＰＵ２３の処理中のデータなどを一時的に格納する。たとえば、ＲＡＭ２５は、表示用の画像データを格納したり、オペレータが入力する入力情報および視線位置情報などを格納したりする。ＲＯＭ２６は、予め制御用のプログラム及び制御データなどが記憶される書換え不可の不揮発性メモリである。

表示部２７は、液晶ディスプレイなどにより構成される。たとえば、表示部２７は、画像蓄積分配装置２１から供給されるビデオコーディング用の画像（たとえば、紙葉類の画像）などを表示する。表示部２７には、ビデオコーディング用の画像としての紙葉類の画像（認識対象となる文字を含む画像）だけでなく、区分機本体３側で認識できた範囲の情報も表示するようにしても良い。入力部２８は、表示部２７に表示された画像に含まれる住所情報としての文字情報をオペレータが入力するためのデバイスである。たとえば、入力部２８は、キーボードおよびポインティングデバイスなどにより構成される。

視線検出部２９は、オペレータの視線位置を検出するものである。視線検出部２９は、ビデオコーディングの対象となる紙葉類の画像を表示した状態の表示部２７の表示画面上においてオペレータが注視している位置（視線位置）を検出する。視線検出部２９は、表示部２７の表示画面上におけるオペレータの視線位置を検出できるものであれば良い。

たとえば、視線検出部２９は、２台のカメラと処理ユニットとにより構成される。２台のカメラは、一定の距離離れて設置され、それぞれがオペレータの瞳を含む画像を撮影する。各カメラは、撮影したオペレータの瞳の画像を含む画像を処理ユニットへ送信する。各カメラから画像を受信した処理ユニットは、２つのカメラが撮影した２つの画像の差異によりオペレータの眼球の形状を推定し、虹彩中心における眼球との接平面を推定する。処理ユニットは、推定した接平面からの法線を計算し、オペレータの視線方向を検出する。さらに、処理ユニットは、オペレータの眼球の位置を推定する。処理ユニットは、オペレータの眼球の位置及び視線方向により表示部２７の表示画面上におけるどの位置にオペレータの視線位置があるか推定する。

なお、視線検出部２９は、上記した構成に限定されるものでは無い。たとえば、視線検出部２９は、複数のカメラにより構成し、視線位置を検出する演算処理をＣＰＵ２３などの別の処理部が行うようにしても良い。この場合、視線検出部２９としてのカメラは、画像から視線位置を検出する処理機能を有するＣＰＵ２３などの処理部へ撮影した画像を出力する。また、視線検出部２９は、カメラを有する構成に限定されるものでもなく、オペレータが装着する機器により表示画面上の視線位置を検出するものであっても良い。

また、視線検出部２９は、所定間隔ごとに、オペレータの視線位置を検出する。視線検出部２９は、所定間隔ごとに検出するオペレータの視線位置を示す情報を時間情報に対応づけた視線位置情報としてＣＰＵ２３へ送信する。たとえば、視線検出部２９は、１秒間に約１０〜３０回程度の周期で、オペレータの視線位置を検出し、検出したオペレータの視線位置と当該視線位置を検出した時間とを示す視線位置情報をＣＰＵ２３へ送信するようにしても良い。

次に、ＶＣＤ２２の動作例について説明する。
図２は、本実施形態に係るＶＣＤ２２の動作例を示すフローチャートである。
画像蓄積分配装置２１は、区分機本体３の住所判定部１９が住所を読み取れなかった紙葉類の画像を含むコーディング用のデータを区分機本体３から順次受信する。たとえば、コーディング用のデータには、紙葉類の画像と当該紙葉類のＩＤとを含むデータである。また、コーディング用のデータには、さらに、文字認識部１８および住所判定部１９による処理結果（たとえば、認識できた文字を示す情報など）を含めても良い。画像蓄積分配装置２１は、住所判定部１９から供給されたコーディング用のデータを蓄積する。画像蓄積分配装置２１は、蓄積したコーディング用のデータを各ＶＣＤ２２の動作状況に応じて各ＶＣＤ２２へ分配する。

ＶＣＤ２２は、画像蓄積分配装置２１から配信される紙葉類の画像を含むコーディング用のデータを取得する（ステップ１１）。即ち、ＶＣＤ２２は、画像蓄積分配装置２１を介して、住所判定部１９が住所を特定できなかった紙葉類の画像（認識対象となる文字を含む画像）を含むコーディング用のデータを区分機本体３から取得する。

図３は、ＶＣＤ２２に供給されるコーディング用のデータに含まれる紙葉類の画像の例を示す図である。以下の説明においては、ＶＣＤ２２が受信するコーディング用のデータに含まれる紙葉類の画像が、一例として図３に示すような画像である場合を想定するものとする。
紙葉類の画像を含むコーディング用のデータを取得すると、ＣＰＵ２３は、受信したコーディング用のデータに含まれる紙葉類の画像を表示部２７に表示する（ステップ１２）。紙葉類の画像は、文字（パターン）認識の対象となる文字を含む画像である。紙葉類の画像を表示部２７に表示した状態において、ＣＰＵ２３は、オペレータによる入力部２８への入力を受け付ける。

また、表示部２７に紙葉類の画像を表示した状態において、視線検出部２９は、表示部２７の表示画面上におけるオペレータの視線位置を検出し、検出した視線位置と当該視線位置を検出した時刻と含む情報を視線位置情報としてＣＰＵ２３へ出力する（ステップＳ１３、Ｓ１４）。すなわち、視線検出部２９は、オペレータの視線位置を特定するための情報（例えば、カメラが撮影するオペレータの瞳を含む画像）を取得し（ステップ１３）、取得した情報（カメラが撮影した画像）からオペレータの視線位置を検出する（ステップＳ１４）。

たとえば、視線検出部２９は、複数（例えば２台）のカメラにより表示部２７の表示画面を見ているオペレータの瞳を含む画像を撮影する。複数のカメラでオペレータの瞳を撮影すると、視線検出部２９は、処理ユニットにより複数のカメラが撮影した複数の画像の差異に基づいてオペレータの眼球の形状を推定し、虹彩中心における眼球との接平面を推定する。接平面と推定すると、視線検出部２９の処理ユニットは、接平面からの法線を計算し、オペレータの視線方向を計算する。視線検出部２９の処理ユニットは、計算した視線方向に基づいてオペレータが表示部２７の表示画面上どこを見ているか、即ち、オペレータの視線位置、を検出する。

なお、上記ステップ１３及びステップ１４は、文字の入力作業を行っているオペレータの認識対象の画像における視線位置を検出できる処理であれば良く、上述した方法に限定されるものではない。たとえば、視線位置を検出する処理としては、オペレータが装着した機器からの情報に基づいて表示画面上におけるオペレータの視線位置を検出する方法を適用しても良いし、瞳の方向別のパターンとのマッチングに基づいて特定される視線方向から表示画面上の視線位置を検出する方法などを適用しても良い。

視線検出部２９が視線位置を検出すると、ＣＰＵ２３は、視線検出部２９が検出した視線位置を示す情報とその視線位置を検出した時刻とを対応づけて不揮発性メモリ２４に格納する（ステップ１５）。表示部２７の表示画面における視線位置を示す情報とその視線位置であった時刻を示す情報とは、当該紙葉類の画像をコーディングした際の視線位置情報として不揮発性メモリ２４に保持される。この結果、不揮発性メモリ２４には、時系列の視線位置情報が格納される。なお、ＣＰＵ２３は、視線位置情報をＲＡＭ２５に格納してもよい。

視線位置情報を不揮発性メモリ２４に格納する処理と並行して、ＣＰＵ２３は、オペレータがキーボードなどの入力部２８により入力した文字を示す情報を入力文字情報として不揮発性メモリ２４に格納する処理を行う（ステップＳ１６、Ｓ１７）。すなわち、ＣＰＵ２３は、キーボードあるいはポインティングデバイスなどの入力部２８において入力された情報を検知する（ステップ１６）。入力部２８により文字（住所）が入力されると（ステップ１６、ＹＥＳ）、ＣＰＵ２３は、入力された文字（又は単語）とその入力時刻とを対応づけた情報を文字入力情報として不揮発性メモリ２４に保存する（ステップ１７）。

ＣＰＵ２３は、視線位置情報と文字入力情報とを１つの紙葉類の画像から得られた文字認識用辞書１８ａの学習用データとして不揮発性メモリ２４に記憶する。すなわち、不揮発性メモリ２４は、視線位置情報を時系列の位置情報として記憶し、入力された文字情報を入力時刻と対応づけて記憶する。このように不揮発性メモリ２４に記憶した時系列の視線位置情報と時刻に対応づけた入力文字情報とを含む学習用データによれば、各文字を入力した時にオペレータが見ていた位置（視線位置）、あるいは、各文字を入力する少し前にオペレータが見ていた位置（視線位置）が容易に特定できる。

また、ＣＰＵ２３は、入力部２８による入力に応じて文字入力処理が終了したか否かを判断する（ステップＳ１８）。たとえば、ＣＰＵ２３は、入力部２８により文字入力完了の指示が入力された場合に表示部２７に表示した紙葉類の画像に対するコーディング処理としての文字（住所）入力処理が終了したものと判断するようにすれば良い。

表示部２７に表示している画像に対する文字入力処理（コーディング処理）が終了でなければ（ステップＳ１８、ＮＯ）、ＣＰＵ２３は、ステップ１３へ戻り、上述した処理を繰り返す。たとえば、ＣＰＵ２３は、文字入力処理が終了するまでの間、オペレータの視線位置を所定のタイミング（たとえば、１秒間に１０〜３０回程度）で検出できるようステップＳ１３-Ｓ１４の視線位置検出処理を繰り返し実行する。また、ＣＰＵ２３は、文字入力処理が終了するまで、文字の入力に応じてステップＳ１７の処理としての文字入力情報の保存処理を行う。

また、表示部２７に表示した紙葉類の画像に対する文字入力処理（コーディング処理）が終了した場合（ステップＳ１８、ＹＥＳ）、ＣＰＵ２３は、入力された文字からなる入力情報を当該紙葉類の画像に対する住所情報とする。ＣＰＵ２３は、入力された文字からなる住所情報に当該紙葉類を特定するための情報（当該紙葉類のＩＤ）に対応づけたコーディング結果を示す情報を画像蓄積分配装置２１を介して区分機本体３へ送信する（ステップＳ１９）。

また、文字入力処理が終了した場合（ステップＳ１８、ＹＥＳ）、ＣＰＵ２３は、不揮発性メモリ２４に記憶した視線位置情報と入力文字情報とを文字認識用辞書１８ａの学習用データとして画像蓄積分配装置２１を介して区分機本体３の学習部２０へ供給する（ステップＳ２０）。ＣＰＵ２３は、１件分の住所情報のコーディング処理（文字入力処理）が完了するごとに１件分の学習用データを学習部２０へ転送するようにしても良いし、所定のタイミングで不揮発性メモリに蓄積した学習用データを学習部２０へ転送するようにしても良いし、所定件数分の学習用データをまとめて学習部２０へ転送するようにしても良い。

次に、視線位置と入力文字との関係について説明する。
図４は、表示部２７が表示する図３に示すような紙葉類の画像を見て文字（住所）情報を入力するオペレータの視線位置と文字を入力するタイミングとの例を示す図である。
図４上にある線ｌは、オペレータの視線位置の動きを時系列で示すものである。図４に示す例において、オペレータの視線位置は、線ｌで示すように、紙葉類の画像における「s t o c k H o l m」上に集中している。図４に示す点ａは、オペレータが入力部２８により入力文字として「Ｈ」を入力した時刻における視線位置を示している。ＶＣＤ２２は、上述したように、時系列の視線位置情報と時刻情報に対応づけて入力文字情報とにより、各文字（たとえば、「ｋ」、「ｏ」など）が入力された時刻での視線位置を示す情報も有している。また、入力文字は、住所情報としても格納されている。このため、ＶＣＤ２２は、当該紙葉類の画像に記載されている住所情報も得ることができる。

文字入力処理（コーディング処理）が終了したと判断した場合、ＣＰＵ２３は、不揮発性メモリ２４又はＲＡＭ２５に格納されている打鍵入力された文字情報としての住所情報を読み込む。ＣＰＵ２３は、画像蓄積分配装置２１を通じて、読み込んだ住所情報を当該紙葉類の識別情報（ＩＤコード）と対応づけて区分機本体３へ送信する。これにより、区分機本体３では、各紙葉類の住所情報として、紙葉類に付与したＩＤバーコードに対応するＶＣＳで打鍵入力された住所情報を取得できる。

また、ＣＰＵ２３は、画像蓄積分配装置２１を通じて、不揮発性メモリ２４に格納されている当該紙葉類の画像、各時刻における視線位置を示す視線位置情報、および、入力文字と入力時刻と対応づけた入力文字情報を学習用データとして区分機本体３へ送信する。学習用データは、文字認識用辞書１８ａを更新するための情報であるため、学習部２０が学習処理を実行するまでに供給すればよい。つまり、学習用データは、文字入力処理が終了するごとに区分機本体３へ送信しなくても良く、任意のタイミングで区分機本体３へ送信するようにしても良い。

次に、ＶＣＳ４で作成される学習用データについて説明する。
図５は、ＶＣＤ２２が作成する学習用データの構成例である。
学習用データは、紙葉類の画像データ（図５に示す例では、ＸＸＸ．ＪＰＧ）、各時刻の視線位置を示す視線位置情報、および、入力文字と入力時刻とを対応づけた入力文字情報を有する。図５に示す例では、ａ時刻でのオペレータの視線位置が表示画面における座標（ｘ１００、ｙ１００）の位置となっていることを示している。また、図５に示す例は、ｂ時刻で文字情報「Ｈ」が入力されたこと（言い換えると、文字「Ｈ」が入力された時刻が「ｂ」であること）を示している。

図５に示す例では、ａ時刻では文字入力されておらず、ｂ時刻では文字として「Ｈ」が入力されていることを示す。さらに、文字「Ｈ」が入力されたｂ時刻での視線位置は、視線位置情報により表示画面上の座標（ｘ２００、ｙ２００）であると特定できる。すなわち、図５に示すような学習用データには、時系列の視線位置、および、入力文字と入力時刻とを対応づけた情報が含まれる。このため、図５に示すような学習用データによれば、オペレータがどの文字を入力した時にどの位置を見ていたかが特定できる。

次に、学習部２０について説明する。
ここでは、学習部２０がＶＣＳ（ＶＣＤ）から供給された学習用データを用いて文字認識用の辞書１８ａを更新する処理（学習機能）について説明するものとする。ただし、後述する学習処理は、パターン認識用の辞書学習に適用できるものである。たとえば、後述する学習処理は、文字単体だけでなく、単語についても適用できるため、住所ＤＢ１９ａにおける住所情報の更新に適用しても良い。また、後述する学習処理は、文字或いは単語だけでなく、生体認証処理あるいは特定の物体の検出処理などの他のパターン認識に用いられる辞書の学習処理に適用しても良い。

すなわち、学習部２０は、ＶＣＳ４から供給される学習用データを使って辞書１８ａを更新する。学習部２０は、紙葉類の画像において文字が書かれていると推定される部分画像（文字領域候補）を特定する。学習部２０は、特定した各部分画像に対してオペレータが入力した入力文字が当該部分画像に書かれている確率（存在する確率）を計算する。つまり、学習部２０は、認証対象の画像におけるどの部分に、入力文字か書かれている可能性が高いか又は低いか計算する。学習部２０は、部分画像から抽出される特徴量と入力文字が部分画像に存在する確率とに基づいて辞書１８ａを更新する。

図６は、学習装置としての学習部２０の構成例を示す図である。
図６に示す構成例において、学習部２０は、データ格納部３１、仮説生成部３２、仮説事前確率設定部３３、仮説事後確率設定部３４、特徴抽出部３６及び更新部３７などを備える。学習部２０は、プロセッサが制御プログラムを実行することにより上述した各部の処理を含む種々の処理機能を実現する。たとえば、学習部２０は、プロセッサとメモリとインターフェースとを有するコンピュータにより実現できる。

データ格納部３１は、ＶＣＳ４から供給される学習用データを格納する。データ格納部３１は、ＶＣＳ４から供給される学習用データを不揮発性のメモリに保存する構成を有する。データ格納部３１は、学習用データとして、例えば、認識対象とする画像の画像データ、視線位置情報、および、入力文字情報を含む情報を保存する。データ格納部３１に記憶された学習用データは、適宜読出し可能である。データ格納部３１に記憶された学習用データは、仮説生成部３２、仮説事前確率設定部３３などに供給される。

仮説生成部３２は、文字の認識対象とする画像（紙葉類の画像）において、ＶＣＳ４で入力された文字（正解文字）が記載されているらしい領域を仮説として生成する。仮説生成部３２は、入力された１つの文字（正解文字）に対し、当該文字の記載領域らしい部分画像（文字領域候補）を認識対象とする画像から生成する。生成された部分画像としての文字領域候補は、仮説とも称する。たとえば、仮説生成部３２は、認識対象の画像において、文字らしい連結画素成分に対する外接矩形の領域を仮説としての部分画像（文字領域候補）として抽出する。仮説としての部分画像（文字領域候補）を抽出する方法は、特定の方法に限定されない。

また、仮説生成部３２は、視線位置情報を参照して仮説としての文字領域候補を絞り込むようにしても良い。つまり、仮説生成部３２は、学習用データに含まれる視線位置情報を参照して学習対象となる文字（入力された正解文字）が書かれている可能性の高い仮説（文字領域候補）を絞り込むようにしても良い。この場合、仮説生成部３２は、当該文字が入力された時刻での視線位置（あるいは当該文字を入力する前の時刻での視線位置）の周辺に存在する文字領域候補を仮説として選択する。たとえば、「Ｈ」が書かれている仮説を生成する場合、仮説生成部３２は、文字領域候補のうち文字「Ｈ」が入力された時刻での視線位置の周辺にある文字領域候補を仮説として選択（生成）するようにしても良い。また、仮説生成部３２は、文字の特徴などに基づいて文字ごとに仮説を生成してもよいし、文字とは独立に仮説を生成してもよい。仮説を生成する方法は、特定の方法に限定されるものではない。

仮説事前確率設定部３３は、仮説生成部３２で仮説として生成した文字領域候補に、当該文字が書かかれている確率を計算する。この確率は、事前確率とも称する。また、当該文字が書かれている仮説は、正解仮説とも称する。仮説事前確率設定部３３は、各仮説（文字領域候補）における特徴量を用いずに確率を計算する。
仮説事前確率設定部３３は、たとえば、オペレータがある文字を入力した時刻でのオペレータの視線位置を基に、各仮説が正解仮説である確率（事前確率）を計算する。オペレータは、表示部２７に表示された認識対象の画像（紙葉類の画像）を見ながら文字を入力する。このため、オペレータが文字を入力した時刻に視線があった位置（文字入力時の視線位置）の周辺にある仮説が正解仮説である確率が高い。すなわち、文字の入力時刻に視線があった位置の周辺にある仮説は正解仮説である可能性が高く、当該視線位置より遠くにある仮説は正解仮説である確率は低い。

また、オペレータは、表示部２７に表示されている画像を見てから少し時間が経過した後に文字を入力することもある。つまり、オペレータが表示された文字を見てから実際に文字を入力するまでにはタイムラグがある可能性がある。このような場合を想定すれば、文字の入力時刻の少し前に視線があった位置（文字入力直前の視線位置）の周辺の仮説は正解仮説である確率が高いとしてもよい。なお、事前確率の決定方法は、特定の方法に制限されるものではない。たとえば、仮説に対する事前確率の決定方法は、オペレータごとに変えてもよい。オペレータの癖（各オペレータが文字を入力する時の視線位置の傾向）などを反映した事前確率の決定方法を採用すれば、精度の高い事前確率を算出できる。

仮説事後確率設定部３４は、仮説生成部３２が生成したある文字に対する各仮説について、事前確率と各仮説としての文字領域候補における特徴パラメータ（特徴量）とを用いて、当該文字が各仮説に記載されている確率（各仮説が正解仮説である確率）を計算する。この確率は、事後確率とも称する。

仮説事後確率設定部３４は、後述する特徴抽出部３６から各仮説としての文字領域候補における文字の特徴量（特徴パラメータ）を取得する。仮説事後確率設定部３４は、たとえば、各仮説における文字の特徴パラメータと辞書１８ａに格納されている入力文字の特徴パラメータとを比較することにより、各仮説における文字と入力文字（正解の文字）との類似度（現在の辞書１８ａで仮説が正解である確率）を計算する。仮説事後確率設定部３４は、各仮説の特徴パラメータと辞書１８ａの入力文字の特徴パラメータとにより計算した類似度（現在の辞書１８ａで仮説が正解である確率）と仮説事前設定部３３で計算した事前確率とを使って各仮説が正解仮説である確率（事後確率）を計算する。

たとえば、仮説事後確率設定部３４は、各仮説における文字が入力文字の特徴量とオペレータの視線位置に基づく事前確率とから各仮説が正解仮説である確率（事後確率）を計算する。事後確率を計算する方法は、特定の方法に限定されない。学習部２０では、事前確率と類似度とから計算される事後確率を用いることにより、視線位置から計算される事前確率よりも、正確に正解仮説を推定することができる。

特徴抽出部３６は、仮説としての部分画像（文字候補領域）から特徴パラメータを抽出する。特徴抽出部３６で抽出される特徴パラメータは、辞書１８ａで使用される特徴パラメータと比較されるデータである。たとえば、特徴抽出部３６は、特徴パラメータとして、仮説としての部分画像をぼかした後の輝度勾配情報を１２８次元ベクトルとして特徴を抽出しても良い。また、特徴抽出部３６は、画素の濃度値を特徴パラメータとしてもよいし、さらに高次の情報を特徴として用いてもよい。特徴パラメータの抽出方法は、特定の方法に限定されない。

更新部３７は、事後確率及び仮説の特徴パラメータ（文字領域候補における文字の特徴パラメータ）に基づいて辞書１８ａに記憶されている辞書データを更新（学習）する。更新部３７は、事後確率の小さい仮説の特徴パラメータが大きく反映されず、事後確率の大きい仮説の特徴パラメータが大きく反映されるように、辞書１８ａを更新する。また、更新部３７は、古い学習用データから得られる情報よりも新しい学習用データから得られる情報をより大きく反映させるようにしてもよい。辞書１８ａへの更新方法は、特定の方法に限定されない。更新方法の具体例については、後述する。

次に、学習部２０における辞書１８ａの学習処理に用いられるアルゴリズムの例について説明する。
まず、学習部２０は、データ格納部３１から学習用データを読み出す。ここでは、具体例として、学習用データに含まれる認識対象の画像が、図３に示す紙葉類の画像であることを想定して説明するものとする。図３に示す紙葉類の画像では、「ＴａｒｏＴｏｓｈｉｂｅＴＯＳＨＩＢＥｖａｇｅｎ１５１ｓｔｏｃｋＨｏｌｍＳＷＥＤＥＮ」と記載されている。図３に示す画像を含む学習用データには、入力文字として、「ｓ」「ｔ」「ｏ」「ｃ」「ｋ」「Ｈ」「ｏ」「ｌ」「ｍ」が含まれる。また、図３に示す画像を含む学習用データには、視線位置情報として、図４に示すような視線位置を示す情報が含まれる。図４に示す視線位置は、「ｓｔｏｃｋＨｏｌｍ」と記載されている位置に集中している。図４における点ａは、文字「Ｈ」が入力された時刻におけるオペレータの視線位置である。

仮説生成部３２は、データ格納部３１から学習用データを取得する。学習用データを取得すると、仮説生成部３２は、入力された１つの文字（正解文字）に対して、当該文字が記載されていると推定される仮説としての領域（部分画像）を画像データから１つ又は複数生成する。たとえば、仮説生成部３２は、「Ｈ」が書かれていると推定される仮説を生成することを想定する。仮説生成部３２は、文字「Ｈ」が入力された時点での視線位置（図４中に示す「×」印）の周辺における文字候補領域を仮説として選択する。

図７は、仮説生成部３２が生成する仮説の例を示す。
仮説４１〜５１は、文字「Ｈ」が含まれると推定される文字候補領域としての仮説の例である。各仮説４１〜５１は、連結画素の成分に対する外接矩形を基準として生成される文字候補領域のうち視線位置を参照して選択された仮説（文字候補領域）の例である。また、仮説生成部３２は、連結画素成分の外接矩形のうち隣接する矩形を組み合わせて１つの文字領域候補（仮説）を生成しても良い。たとえば、仮説４５及び仮説４８は、複数の仮説を含む。仮説４５及び仮説４８は、複数の外接矩形が１つの文字を含む領域である可能性を考慮した仮説である。複数の外接矩形からなる仮説は、隣接する矩形間の距離および隣接する各矩形の相対的な大きさなどに応じて組み合わせることができる。なお、生成する仮説（文字候補領域）は、必ずしも矩形に限定されるものではない。
仮説生成部３２は、生成した仮説を仮説事前確率設定部３３及び特徴抽出部３６へ送信する。

仮説事前確率設定部３３は、仮説生成部３２から各入力文字に対する仮説を受信する。仮説事前確率設定部３３は、視線位置情報により各仮説に対する事前確率を計算する。仮説事前確率設定部３３は、オペレータが文字を入力した時（直前）の視線位置に基づいて、各仮説が正解仮説であるらしい確率を計算する。

ここで、入力文字をｃ、仮説をｈｉ（ｉ＝１からＮ、Ｎはｃに対する仮説の数）とすると、事前確率は、Ｐ（ｈｉ｜ｃ）と表現される。この場合、事前確率は、以下の式を満たす。

ここでは、仮説中に正解仮説が存在しない場合を考慮し、「存在しない」という仮説が存在するものとする。そのため、数式１は、常に満たされる。

図８は、入力文字を「Ｈ」とした場合に、各仮説４１〜５１に対する事前確率を示した図である。図８に示す例では、仮説４１〜５１は、順に０．１％、０．２％、０．５％、１％、３％、５％、１５％、３０％、４０％、０．１％、０．１％と設定されている。従って、文字「Ｈ」を入力した時刻での視線位置（図８に示す「×」印）の周辺にある仮説（図８に示した例では、仮説４８及び仮説４９など）は、高い事前確率が設定される。また、当該視線位置の少し前の位置の仮説（図８に示す例では、仮説４７及び仮説４６など）も、他の仮説に比べて相対的に大きい確率が設定される。

逆に、当該視線位置よりも後の仮説（図８に示す例では、仮説５０及び仮説５１）は、当該視線位置に近い仮説であるにもかかわらず、低い確率が設定されている。これは、オペレータが、文字入力時の視線位置よりも後の文字を見ている確率が低い（つまり、オペレータは、画像における文字を見ながら、あるいは、既に見ていた文字を入力すると考えられる）からである。また、仮説４１〜５１がどれも正解仮説でない確率（つまり、正解仮説が「存在しない」という仮説の確率）は、５％に設定されている。したがって、図８に示す仮説の例は、数式１を満たす。
仮説事前確率設定部３３は、各仮説に対して計算した事前確率を仮説事後確率生成部３４へ送信する。

また、特徴抽出部３６は、仮説生成部３２から受信した各仮説に対して特徴パラメータ（特徴量）Ｘを抽出する。ここで、Ｘは、入力文字ｃに対する各仮説から抽出されるＮ個の特徴の全てを表す。即ち、仮説ｈｉから抽出される文字としての特徴をｘｉとすると、Ｘ＝（ｘ１、ｘ２、・・・ｘＮ）である。前述の通り、特徴ｘｉは、辞書１８ａに格納されている辞書データとしての特徴パラメータと比較されるデータである。
特徴抽出部３６は、各仮説としての文字領域候補から抽出した文字としての特徴Ｘは、仮説事後確率設定部３４及び更新部３７へ送信される。

各仮説の事前確率及び特徴Ｘを受信した仮説事後確率設定部３４は、事前確率及び特徴Ｘから事後確率を計算する。事後確率は、Ｐ（ｈｉ｜Ｘ，ｃ）で表される。事後確率は、以下の式を満たす。

事後確率は、ベイズの定理を用いて、以下の通り変形できる。

ここで、各仮説に対する特徴ｘ１、ｘ２・・・ｘＮは互いに独立であると近似する。また、仮説ｈｉが正解仮説である確率は、ｉ番目の特徴ｘｉに影響を受けるものとする。そのため、ｋ≠ｉであれば、以下のように近似できる。

したがって、数式３の右辺の分子の第１因子は、以下の通り近似変形できる。

数式５を数式３の分子の第１因子及び分母のΣの中の第１因子に代入し、分母分子を約分することで以下の式が導出される。

ここで、数式６における

または、

は、辞書１８ａに格納されている辞書データを用いて計算できる。したがって、仮説事後確率設定部３４は、数式６により事後確率を計算することができる。ただし、事後確率の計算方法は上述した方法などの特定の方法に限定されるものではない。

図９は、入力文字「Ｈ」に対する事後確率の計算結果を示す図である。図９に示す例では、正解仮説である仮説４７は、９０％という確率が設定されている。図８及び図９を比較すると、図９に示す仮説４７の事後確率は、図８に示す事前確率よりも高い値となっている。仮説事後確率設定部３４は、仮説から抽出された特徴パラメータと辞書１８ａに保存されている辞書データとを比較すること及び文字を入力した時の視線位置を参照することで、正解仮説には事前確率よりも高い事後確率を設定する。

また、図９に示す例において、正解仮説である仮説４７以外の各仮説には、図８に示す事前確率よりも、低い事後確率が設定されている。すなわち、仮説事後確率設定部３４は、事前確率が設定された各仮説に対して、正解仮説には高い確信度を与え（事後確率を高くし）、正解仮説以外の仮説は確信度を低くする（事後確率を低くする）。
仮説事後確率設定部３４は、入力文字ごとに各仮説に対して計算した事後確率を学習部としての更新部３７へ送信する。

更新部３７は、仮説事後確率設定部３４から学習用データを元に計算した事後確率を取得し、特徴抽出部３６から各仮説の特徴パラメータを取得する。事後確率及び特徴パラメータＸを受信すると、更新部３７は、入力文字に対する取得した事後確率と特徴パラメータＸとを用いて辞書１８ａに記憶されている辞書データを更新する。ここでは、例として、辞書１８ａは、辞書データとして文字ごとの特徴パラメータのガウス分布が記憶されている場合を想定する。文字の特徴パラメータとしてのガウス分布のパラメータは、平均ｍ及び共分散行列Σであるものとする。この場合、更新部３７は、平均ｍ及び共分散行列Σを以下の式で計算する。

ここで、特徴パラメータＸｃは、入力文字ｃに対応する全ての仮説から抽出された特徴の集合である。また、特徴パラメータｘｉは、仮説ｈｉから抽出される特徴である。また、ｗｉは、仮説ｈｉが正解仮説である事後確率である。即ち、数式９は、ｗｉを特徴の「重み」として、重み付き平均を計算する。また、数式１０は、ｗｉを特徴の重みとして、重み付き共分散行列を計算する。平均ｍ及び共分散行列Σの計算を終えると、更新部３７は、辞書１８ａに格納されている、入力文字ｃに対する特徴パラメータとしてのガウス分布のパラメータを計算した平均ｍ及び共分散行列Σに更新する。

更新部３７は、各仮説に対する事後確率と特徴パラメータとを取得した各入力文字について、数式９及び数式１０により平均ｍ及び共分散行列Σを計算する。更新部３７は、各入力文字ｃに対する特徴パラメータのガウス分布のパラメータを計算した平均ｍ及び共分散行列Σに更新する。

なお、更新部３７は、１つの入力文字に対する各仮説の事後確率と特徴パラメータとを取得するごとに辞書１８ａを更新するようにしても良いし、１つの学習用データに含まれる全ての入力文字に対する各仮説の事後確率と特徴パラメータとを取得するごとに辞書１８の更新を行うようにしても良い。また、更新部３７は、定期的あるいは任意のタイミングでデータ格納部３１に格納した全ての学習用データに含まれる全ての入力文字について各仮説の事後確率と特徴パラメータとを取得する場合に辞書１８ａを更新するようにしても良い。この場合、学習部２０は、データ格納部３１に格納した全ての学習用データに含まれる全ての入力文字について各仮説の事後確率と特徴パラメータとを取得するまで上述の処理を繰り返した後、更新部３７による辞書１８ａの更新を行うようにすれば良い。更新部３７は、過去にＶＣＳ４で入力された情報（入力文字情報と視線位置情報）に基づいて作成された学習用データを利用して辞書１８ａを更新する。

更新部３７は、たとえば、以下の更新式により辞書１８ａに記憶した辞書データを更新する。

ここで、ｍ_ｏｌｄ、Σ_ｏｌｄは、辞書１８ａに辞書データとして格納されている入力文字ｃに対する特徴量としてのガウス分布のパラメータである。ｍ_ｎｅｗ及びΣ_ｎｅｗは、更新後のガウス分布のパラメータである。また、ｗ_ｏｌｄは、更新前のパラメータの「重み」である。「重み」は、任意の値でよい。たとえば、「重み」が大きい値である場合、現在のパラメータが重視され、辞書１８ａの変化は緩やかになる。一方、「重み」が小さい値である場合、現在のパラメータは重視されず、辞書１８ａの変化は急激になる。

また、辞書１８ａに記憶されている辞書データとしての文字の特徴パラメータが更新されると、仮説事後確率設定部３４で計算される事後確率の精度が上昇する。したがって、学習部２０は、更新後の辞書１８ａを用いて再度同一の学習用データを用いて学習処理を行うと、さらに辞書１８ａの精度を高めることができる。なお、学習処理は、上述した処理方法などの特定の方法に限定されるものではない。
また、仮説生成部３２、仮説事前確率設定部３３、仮説事後確率設定部３４、特徴抽出部３６及び更新部３７は、プロセッサがプログラムを実行することにより実現されるものとするが、一部又は全部をハードウェアで実現しても良い。

次に、学習部２０による学習処理の流れについて説明する。
図１０は、学習部２０による辞書１８ａの学習処理の流れを説明するためのフローチャートである。
まず、学習部２０は、データ格納部３１から学習用データを読み出す（ステップ２１）。読み出された学習用データは、仮説生成部３２へ送信される。
学習用データを受信すると、仮説生成部３２は、視線情報から、ある入力文字ｃに対する仮説を生成する（ステップ２２）。たとえば、仮説生成部３２は、認識対象の画像における連結画素成分に対する外接矩形を元に文字領域らしい領域を抽出する。また、仮説生成部３２は、文字領域らしい領域から当該文字を入力した時の視線位置に基づいて仮説とする文字領域を選択しても良い。仮説生成部３２は、生成した仮説を仮説事前確率設定部３３及び特徴抽出部３６へ送信する。

仮説生成部３２により生成された仮説を受信すると、仮説事前確率設定部３３は、視線位置情報に基づいて各仮説が正解仮説である確率、即ち、事前確率を計算する（ステップ２３）。たとえば、仮説事前確率設定部３３は、当該文字を入力した時（あるいは、当該文字を入力する直前）の視線位置に近いほど確率が大きくなるように、各仮説の事前確率を設定する。仮説事前確率設定部３３は、各仮説に設定した事前確率を仮説事後確率設定部３４へ送信する。

また、仮説生成部３２が生成した仮説を受信した特徴抽出部３６は、各仮説の特徴パラメータを抽出する（ステップ２４）。ここでいう特徴パラメータとは、辞書１８ａに辞書データとして記憶されている各文字の特徴パラメータと比較されるものである。各仮説の特徴パラメータを抽出すると、特徴抽出部３７は、各仮説の特徴パラメータを事後確率設定部３４及び更新部３７へ送信する。なお、ステップ２３とステップ２４は、逆の順序で行ってもよいし、並行して行ってもよい。

文字に対する各仮説について事前確率設定部３３からの事前確率及び特徴抽出部３６からの特徴パラメータを取得すると、事後確率設定部３４は、取得した事前確率及び特徴パラメータから文字に対する各仮説の事後確率を計算する（ステップ２５）。仮説事後確率設定部３４は、計算した各仮説の事後確率を更新部３７へ送信する。
文字に対する各仮説の事後確率と特徴パラメータとを取得すると、更新部３７は、辞書１８ａに記憶されている当該文字の辞書データを更新する（ステップＳ２６）。たとえば、更新部３７は、事後確率を重みとして特徴パラメータを用いて辞書１８ａに記憶されている当該文字の辞書データ（特徴パラメータ）を更新する。

なお、更新部３７は、１つの文字に対する各仮説の事後確率と特徴パラメータとを取得ごとに辞書１８ａを更新するようにしても良いし、学習用データ単位で各文字に対する各仮説の事後確率と特徴パラメータとを取得した後に辞書１８ａを更新するようにしても良いし、データ格納部３１に記憶している全ての学習用データに含まれる各文字に対する各仮説の事後確率と特徴パラメータとを取得した後に辞書１８ａを更新するようにしても良い。

以上の流れにより、学習部は、オペレータの入力した文字と文字入力作業中のオペレータの視線位置に基づいて、当該文字の記載領域と特徴パラメータとを高確率で特定する。学習部は、入力文字について当該文字の記載領域である確率と当該記載領域から得られる特徴パラメータとを基に辞書に記憶されて当該文字の辞書データを更新する。これにより、本実施形態に係る学習部によれば、人が直接的に正解文字と正解文字が記載されている確率とを指定することなく、認識対象の画像における正解文字と正解文字が記載されている確率とから辞書を効率的に学習させることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下、本願の出願当初の特許請求の範囲の記載を付記する。
［１］
入力者が入力したパターンが記載されているらしい認識対象の画像におけるパターン領域候補を生成する生成部と、
前記生成部により生成したパターン領域候補における特徴量を算出する特徴抽出部と、
前記パターンを入力した前記入力者の視線位置に基づいて、前記生成部により生成したパターン領域候補に前記入力者が入力したパターンが記載されている確率を設定する設定部と、
前記設定部により設定された確率と前記特徴抽出部により算出した特徴量とに基づいてパターン認識用辞書を更新する更新部と、
を有するパターン認識用辞書の学習装置。
［２］
前記設定部は、
前記入力者の視線位置に基づいて前記生成部で生成したパターン領域候補に前記入力者が入力したパターンが記載されている事前確率を設定する事前確率設定部と、
前記事前確率と前記特徴抽出部で抽出された前記パターン領域候補における特徴量とに基づいて前記パターン領域候補に対して事後確率を設定する事後確率設定部と、を備え、
前記更新部は、前記パターン領域候補に対する前記事後確率と前記特徴量とに基づいてパターン認識用辞書を更新する、
前記［１］に記載のパターン認識用辞書の学習装置。
［３］
前記生成部は、前記パターンを入力した前記入力者の視線位置に基づいて複数のパターン領域候補からパターン領域候補を選択する、
前記［１］又は［２］の何れかに記載のパターン認識用辞書の学習装置。
［４］
前記事前確率設定部は、前記入力者が前記パターンを入力した時刻における前記入力者の視線位置に基づいて各文字領域候補に対する事前確率を設定する、
前記［２］に記載のパターン認識用辞書の学習装置。
［５］
前記事前確率設定部は、前記入力者が前記パターンを入力した時よりも前の時刻における前記入力者の視線位置に基づいてパターン領域候補に対する事前確率を設定する、
前記［２］又は［４］の何れかに記載のパターン認識用辞書の学習装置。
［６］
前記事後確率設定部は、前記事前確率と前記パターン領域候補における特徴量と前記パターン認識用辞書に記憶されているパターンの特徴量との類似性とに基づいて前記パターン領域候補に対して事後確率を設定する、
前記［２］、［４］又は［５］の何れかに記載のパターン認識用辞書の学習装置。
［７］
前記パターンは、文字である、
前記［２］、［４］、［５］又は［６］の何れかに記載のパターン認識用辞書の学習装置。
［８］
認識の対象となるパターンを含む画像を表示する表示部と、
前記表示部に表示した画像に含まれるパターンを入力者が入力するための入力部と、
前記表示部の表示画面上における前記入力者の視線位置を検出する視線検出部と、
を有するコーディング装置。
［９］
さらに、前記入力部により入力されたパターンを示す情報と前記パターンを入力した前記入力者の視線位置を示す情報とを含むパターン認識用辞書の学習用データを生成するデータ生成部を有する、
前記［８］に記載のコーディング装置。
［１０］
パターン認識用の辞書データを記憶した記憶部と、
認識対象とするパターンを含む画像を取得する画像取得部と、
前記画像取得部により取得した画像に含まれるパターンを前記記憶部が記憶する辞書データを用いて認識するパターン認識部と、
前記パターン認識部によりパターンが認識できなかった画像を表示する表示部と、
前記表示部に表示した画像に含まれるパターンを入力者が入力するための入力部と、
前記表示部の表示画面上における前記入力者の視線位置を検出する視線検出部と、
前記入力部により入力されたパターンが記載されているらしい前記画像におけるパターン領域候補を生成する生成部と、
前記生成部により生成したパターン領域候補における特徴量を算出する特徴抽出部と、
前記生成部により生成したパターン領域候補に前記入力部により入力されたパターンが記載されている確率を前記視線検出部が検出した視線位置に基づいて設定する設定部と、
前記設定部により設定された確率と前記特徴抽出部により算出した特徴量とに基づいて前記記憶部に記憶した辞書データを更新する更新部と、
を有するパターン認識装置。
［１１］
区分対象物を区分情報に基づいて区分する区分装置であって、
区分対象物における区分情報の記載領域の画像を読取る画像読取部と、
区分対象物の区分情報となりうるパターンを認識するための辞書データを記憶した記憶部と、
前記画像読取部により読み取った画像に含まれるパターンを前記記憶部が記憶する辞書データを用いて認識するパターン認識部と、
前記パターン認識部による認識結果として得られたパターンからなる区分情報に基づいて区分対象物を区分する区分部と、
前記パターン認識部により区分情報を構成するパターンが認識できなかった区分対象物の読取画像を表示する表示部と、
前記表示部に表示した区分対象物の読取画像に含まれる区分情報を構成するパターンを入力者が入力するための入力部と、
前記表示部の表示画面上における前記入力者の視線位置を検出する視線検出部と、
前記入力部により入力されたパターンが記載されているらしい前記区分対象物の画像におけるパターン領域候補を生成する生成部と、
前記生成部により生成したパターン領域候補における特徴量を算出する特徴抽出部と、
前記生成部により生成したパターン領域候補に前記入力部により入力されたパターンが記載されている確率を前記視線検出部が検出した視線位置に基づいて設定する設定部と、
前記設定部により設定された確率と前記特徴抽出部により算出した特徴量とに基づいて前記記憶部に記憶した辞書データを更新する更新部と、
を有する区分装置。
［１２］
認識対象の画像において入力者が入力したパターンが記載されているらしいパターン領域候補を生成し、
前記生成したパターン領域候補における特徴量を算出し、
前記生成した各パターン領域候補に前記入力者が入力したパターンが記載されている確率を前記入力者の視線位置に用いて設定し、
前記設定された確率と前記算出した特徴量とに基づいてパターン認識用の辞書を更新する、
を有するパターン認識用辞書の学習方法。

１…紙葉類処理装置、３…区分機本体、４…ＶＣＳ、１０…オペレーションパネル、１１…供給部、１２…主搬送路、１３…ＢＣＲ、１４…スキャナ、１５…ＢＣＷ、１６…区分機、１７…制御部、１８…文字認識部、１８ａ…辞書、１９…住所判定部、１９ａ…住所ＤＢ、２０…学習部、２１…画像蓄積分配装置、２２…ＶＣＤ、２３…ＣＰＵ、２４…不揮発性メモリ、２５…ＲＡＭ、２６…ＲＯＭ、２７…表示部、２８…入力部、２９…視線検出部、３１…データ格納部、３２…仮説生成部、３３…仮説事前確率設定部、３４…仮説事後確率設定部、３６…特徴抽出部、３７…更新部。

Claims

入力者が入力したパターンが記載されているらしい認識対象の画像におけるパターン領域候補を生成する生成部と、
前記生成部により生成したパターン領域候補における特徴量を算出する特徴抽出部と、
前記パターンを入力した前記入力者の視線位置に基づいて、前記生成部により生成したパターン領域候補に前記入力者が入力したパターンが記載されている確率を設定する設定部と、
前記設定部により設定された確率と前記特徴抽出部により算出した特徴量とに基づいてパターン認識用辞書を更新する更新部と、
を有するパターン認識用辞書の学習装置。
前記設定部は、
前記入力者の視線位置に基づいて前記生成部で生成したパターン領域候補に前記入力者が入力したパターンが記載されている事前確率を設定する事前確率設定部と、
前記事前確率と前記特徴抽出部で抽出された前記パターン領域候補における特徴量とに基づいて前記パターン領域候補に対して事後確率を設定する事後確率設定部と、を備え、
前記更新部は、前記パターン領域候補に対する前記事後確率と前記特徴量とに基づいてパターン認識用辞書を更新する、
前記請求項１に記載のパターン認識用辞書の学習装置。
前記生成部は、前記パターンを入力した前記入力者の視線位置に基づいて複数のパターン領域候補からパターン領域候補を選択する、
前記請求項１又は２の何れか１項に記載のパターン認識用辞書の学習装置。
前記事前確率設定部は、前記入力者が前記パターンを入力した時刻における前記入力者の視線位置に基づいて各文字領域候補に対する事前確率を設定する、
前記請求項２に記載のパターン認識用辞書の学習装置。
前記事前確率設定部は、前記入力者が前記パターンを入力した時よりも前の時刻における前記入力者の視線位置に基づいてパターン領域候補に対する事前確率を設定する、
前記請求項２又は４の何れか１項に記載のパターン認識用辞書の学習装置。
前記事後確率設定部は、前記事前確率と前記パターン領域候補における特徴量と前記パターン認識用辞書に記憶されているパターンの特徴量との類似性とに基づいて前記パターン領域候補に対して事後確率を設定する、
前記請求項２、４又は５の何れか１項に記載のパターン認識用辞書の学習装置。
前記パターンは、文字である、
前記請求項１乃至６の何れか１項に記載のパターン認識用辞書の学習装置。
認識の対象となるパターンを含む画像を表示する表示部と、
前記表示部に表示した画像に含まれるパターンを入力者が入力するための入力部と、
前記表示部の表示画面上における前記入力者の視線位置を検出する視線検出部と、
前記入力部により入力されたパターンを示す情報と前記視線検出部が検出した前記パターンを入力した前記入力者の視線位置を示す情報とを含むパターン認識用辞書の学習用データを生成するデータ生成部と、
を有するコーディング装置。
パターン認識用の辞書データを記憶した記憶部と、
認識対象とするパターンを含む画像を取得する画像取得部と、
前記画像取得部により取得した画像に含まれるパターンを前記記憶部が記憶する辞書データを用いて認識するパターン認識部と、
前記パターン認識部によりパターンが認識できなかった画像を表示する表示部と、
前記表示部に表示した画像に含まれるパターンを入力者が入力するための入力部と、
前記表示部の表示画面上における前記入力者の視線位置を検出する視線検出部と、
前記入力部により入力されたパターンが記載されているらしい前記画像におけるパターン領域候補を生成する生成部と、
前記生成部により生成したパターン領域候補における特徴量を算出する特徴抽出部と、
前記生成部により生成したパターン領域候補に前記入力部により入力されたパターンが記載されている確率を前記視線検出部が検出した視線位置に基づいて設定する設定部と、
前記設定部により設定された確率と前記特徴抽出部により算出した特徴量とに基づいて前記記憶部に記憶した辞書データを更新する更新部と、
を有するパターン認識装置。
区分対象物を区分情報に基づいて区分する区分装置であって、
区分対象物における区分情報の記載領域の画像を読取る画像読取部と、
区分対象物の区分情報となりうるパターンを認識するための辞書データを記憶した記憶部と、
前記画像読取部により読み取った画像に含まれるパターンを前記記憶部が記憶する辞書データを用いて認識するパターン認識部と、
前記パターン認識部による認識結果として得られたパターンからなる区分情報に基づいて区分対象物を区分する区分部と、
前記パターン認識部により区分情報を構成するパターンが認識できなかった区分対象物の読取画像を表示する表示部と、
前記表示部に表示した区分対象物の読取画像に含まれる区分情報を構成するパターンを入力者が入力するための入力部と、
前記表示部の表示画面上における前記入力者の視線位置を検出する視線検出部と、
前記入力部により入力されたパターンが記載されているらしい前記区分対象物の画像におけるパターン領域候補を生成する生成部と、
前記生成部により生成したパターン領域候補における特徴量を算出する特徴抽出部と、
前記生成部により生成したパターン領域候補に前記入力部により入力されたパターンが記載されている確率を前記視線検出部が検出した視線位置に基づいて設定する設定部と、
前記設定部により設定された確率と前記特徴抽出部により算出した特徴量とに基づいて前記記憶部に記憶した辞書データを更新する更新部と、
を有する区分装置。
認識対象の画像において入力者が入力したパターンが記載されているらしいパターン領域候補を生成し、
前記生成したパターン領域候補における特徴量を算出し、
前記生成した各パターン領域候補に前記入力者が入力したパターンが記載されている確率を前記入力者の視線位置に用いて設定し、
前記設定された確率と前記算出した特徴量とに基づいてパターン認識用の辞書を更新する、
を有するパターン認識用辞書の学習方法。