JP6260350B2

JP6260350B2 - 画像処理装置及び画像処理プログラム

Info

Publication number: JP6260350B2
Application number: JP2014041101A
Authority: JP
Inventors: 木村　俊一; 俊一木村; 久保田　聡; 聡久保田; 拓也桜井; 瑛一田中
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2014-03-04
Filing date: 2014-03-04
Publication date: 2018-01-17
Anticipated expiration: 2034-03-04
Also published as: JP2015166940A

Description

本発明は、画像処理装置及び画像処理プログラムに関する。

特許文献１には、誤認した文字を認識できるようにするための文字の追加登録を合理的に制御することを目的とし、追加登録判定部は、誤認文字の切り出し情報又は候補文字の誤認される確率の大小の一方又は両方を用いて、誤認文字パターン辞書又はコンフュージョンテーブルのいずれに追加登録すべきか判断し、テーブル追加登録部と辞書追加登録部により追加登録を行わせることが開示されている。

特許文献２には、パターンの特徴ベクトル空間においてカテゴリ毎に定義された確率密度関数の値に基づいて認識を行うパターン認識装置、方法、プログラム及び記録媒体に関し、ユーザーが独自の業務環境により細やかに適応して認識辞書をカスタマイズすることを目的とし、ある環境において取得された画像に対して基本辞書を用いて文字認識を行う文字認識手段と、認識結果を出力すると共に、認識結果を修正する入力が行われる入出力手段と、修正結果から１文字毎の特徴ベクトルと修正入力による正解カテゴリの平均ベクトルの差分を検出し、全体の差分ベクトルの集合から自己相関行列とその固有値・固有ベクトルを求めてファイルに保存する差分分布算出手段と、同じ環境で文字認識する際にファイルと基本辞書とからある環境に適応した辞書ファイルを生成する認識辞書生成手段とを備えるよう構成することが開示されている。

特許文献３には、対象とするデータの属する分類が不明となることを防止するようにした情報処理装置を提供することを課題とし、情報処理装置の第１のフィルタリング処理手段は、対象とするデータをたたみ込み処理によってフィルタリング処理を行い、第１の非線形関数処理手段は、前記第１のフィルタリング処理手段による処理結果を非線形関数で処理し、第１の線形和算出手段は、前記第１の非線形関数処理手段からの複数の出力の重み付け線形和を算出し、強調手段は、前記第１の線形和算出手段による算出結果を強調し、正規化手段は、前記強調手段による強調結果を正規化することが開示されている。

特許文献４には、画像内に存在する文字画像を切り出す位置を決定する場合にあって、切り出す位置の候補の評価値が特異の値となった場合に、その特異な評価値だけによって切り出す位置が決定されてしまうことを防ぐようにした画像処理装置を提供することを課題とし、画像処理装置の第１の計算手段は、画像内に存在する１つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算し、第２の計算手段は、前記第１の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数によって、前記１つの文字画像を切り出す位置の候補の評価値を計算し、切出位置決定手段は、前記第２の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定することが開示されている。

特許文献５には、画像内に存在する文字を切り出す位置を決定する場合にあって、文字数による影響を抑制するようにした画像処理装置を提供することを課題とし、画像処理装置の設定手段は、画像から文字を切り出す位置の候補を設定し、評価値決定手段は、前記設定手段によって設定された位置の候補によって切り出される画像の文字らしさを評価した値を決定し、重み決定手段は、前記設定手段によって設定された位置の候補によって定められる距離に基づいて、重みを決定し、算出手段は、前記重み決定手段によって決定された重みに基づいて、前記評価値決定手段によって決定された評価値の重み付き和を算出し、切り出し手段は、前記算出手段によって算出された値に基づいて、前記画像から文字を切り出すことが開示されている。

特許文献６には、画像から文字を認識する場合にあって、各文字画像の１つだけの文字認識結果によって認識文字列を決定してしまうことを防止するようにした画像処理装置を提供することを課題とし、画像処理装置の切出位置抽出手段は、画像から文字画像を切り出す位置を抽出し、文字候補抽出手段は、抽出位置によって分けられた文字画像に対して文字認識を行った結果である複数の文字候補を抽出し、グラフ生成手段は、複数の文字候補の各々をノードとし、隣接する文字画像のノード間にリンクを構築することによってグラフを生成し、リンク値生成手段は、前記リンクによって接続されたノードの文字候補間の関係による文字列らしさを表す値に基づいて、リンク値を生成し、パス選択手段は、リンク値に基づいて、グラフ内のパスを選択し、出力手段は、前記パス選択手段によって選択されたパス内の文字候補列を文字認識結果として出力することが開示されている。

特開平０５−０６２０２０号公報特開２００３−１５０９０５号公報特開２０１１−１１３１２５号公報特開２０１２−００８９０９号公報特開２０１２−１１８６４９号公報特開２０１２−１１８６５０号公報

本発明は、操作者は文字切り出し位置を確認又は指定することなしに、文字認識用辞書を作成できるようにした画像処理装置及び画像処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、前記切り出し候補を対象として、文字認識を行う文字認識手段と、前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段を具備し、前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定することを特徴とする画像処理装置である。

請求項２の発明は、画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、前記切り出し候補を対象として、文字認識を行う文字認識手段と、前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する切り出し候補の対応関係を作成する作成手段と、前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる切り出し候補を決定する決定手段と、文字認識用辞書の要素として、前記決定手段によって決定された切り出し候補の単文字画像と該切り出し候補に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段を具備し、前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定することを特徴とする画像処理装置である。

請求項３の発明は、前記作成手段が作成する認識結果を要素とする文字列のデータ構造は、トレリス構造であって、前記位置決定手段は、ダイナミックプログラミング又はビタビ法を用いて、トレリス構造の中から、正解文字列に合致するパターンを抽出することを特徴とする請求項１に記載の画像処理装置である。

請求項４の発明は、前記文字認識手段は、認識結果を、認識確度が閾値より高い又は以上の文字に限定することを特徴とする請求項１から３のいずれか一項に記載の画像処理装置である。

請求項５の発明は、前記文字認識手段による認識結果を表示する表示手段と、前記表示手段による表示を見た操作者の操作による前記正解文字列を受け付ける受付手段をさらに具備することを特徴とする請求項１から４のいずれか一項に記載の画像処理装置である。

請求項６の発明は、コンピュータを、画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、前記切り出し候補を対象として、文字認識を行う文字認識手段と、前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段として機能させ、前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定することを特徴とする画像処理プログラムである。

請求項７の発明は、コンピュータを、画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、前記切り出し候補を対象として、文字認識を行う文字認識手段と、前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する切り出し候補の対応関係を作成する作成手段と、前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる切り出し候補を決定する決定手段と、文字認識用辞書の要素として、前記決定手段によって決定された切り出し候補の単文字画像と該切り出し候補に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段として機能させ、前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定することを特徴とする画像処理プログラムである。

請求項１の画像処理装置によれば、操作者は文字切り出し位置を確認又は指定することなしに、文字認識用辞書を作成できる。また、認識結果を限定することができる。

請求項２の画像処理装置によれば、操作者は文字切り出し位置を確認又は指定することなしに、文字認識用辞書を作成できる。また、認識結果を限定することができる。

請求項３の画像処理装置によれば、本構成を有していない場合に比較して、全ての文字列パターンを作成することなしに、処理を行うことができる。

請求項４の画像処理装置によれば、認識結果を限定することができる。

請求項５の画像処理装置によれば、操作者の操作による正解文字列を受け付けることができる。

請求項６の画像処理プログラムによれば、操作者は文字切り出し位置を確認又は指定することなしに、文字認識用辞書を作成できる。また、認識結果を限定することができる。

請求項７の画像処理プログラムによれば、操作者は文字切り出し位置を確認又は指定することなしに、文字認識用辞書を作成できる。また、認識結果を限定することができる。

第１の実施の形態の構成例についての概念的なモジュール構成図である。文字認識器の処理例を示す説明図である。文字学習器の処理例を示す説明図である。学習用データの例を示す説明図である。統合処理、分離処理の例を示す説明図である。対象とする画像の例を示す説明図である。文字切り出しの例を示す説明図である。文字切り出し位置のパターン例を示す説明図である。分割した画像の例を示す説明図である。各文字分割位置に対応する複数の文字候補の例を示す説明図である。文字列パターンテーブルのデータ構造例を示す説明図である。切り出し結果の例を示す説明図である。文字切り出し候補位置の例を示す説明図である。文字列内の文字切り出し候補パスの例を示す説明図である。始点から終点に向かうグラフの例を示す説明図である。文字列内の文字切り出し候補パスの例を示す説明図である。文字の切り出し結果の例を示す説明図である。第３の実施の形態の構成例についての概念的なモジュール構成図である。文字列内の文字切り出し候補パスの例を示す説明図である。文字列内の文字切り出し候補パスの例を示す説明図である。第４の実施の形態の構成例についての概念的なモジュール構成図である。文字認識結果の例を示す説明図である。文字認識結果の例に認識確度閾値を用いた例を示す説明図である。第５の実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する画像処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。文字認識における認識辞書の学習用データを生成する画像処理装置がある。
図２は、文字認識器２１０の処理例を示す説明図である。文字認識器２１０は、認識辞書２２０を有している。文字認識器２１０は、画像２０５を受け付け、文字コード２９５を出力する。つまり、文字認識器２１０は、文字が記入された画像２０５を入力して、文字コード２９５を出力する機能を持つ。例えば、図２の例に示すように、「あ」という文字が書かれた画像２０５を入力して、「あ」という文字に対応する文字コード２９５「０×３０４２」を出力する。
文字認識器２１０の内部では、認識辞書２２０を保持している。文字認識器２１０はこの認識辞書２２０を用いて認識を行う。認識辞書２２０の中には、「あ」という文字がどのような特徴を持っているかという情報を保持している。文字認識器２１０は、画像２０５の持つ特徴が最も合致する文字を選択して、その文字コード２９５を出力する。

次に、認識辞書３２０（認識辞書２２０）を学習させる場合について説明する。図３は、文字学習器３１０の処理例を示す説明図である。文字学習器３１０は、認識辞書３２０を有している。文字学習器３１０は、画像３０５、文字コード３０８を受け付ける。認識辞書３２０を学習させる場合、図３の例に示すように、「あ」が記載された文字画像（画像３０５）と、「あ」という文字に対応する文字コード３０８「０×３０４２」のペアを入力する。このような文字画像（画像３０５）と文字コード３０８のペアを多く入力することで、文字学習器３１０は認識辞書３２０を学習する。
具体的な文字認識器２１０や文字学習器３１０として、特許文献３等を挙げることができる。これに限らず、上記は一般の文字認識器、文字学習器でも同様である。
上記のように学習を行う場合、学習用データ、すなわち、文字が一つだけ記載された文字画像（以降、単文字画像ともいう）と、文字コードのペアを大量に準備する必要がある。図４は学習用データの例である。文字「あ」について、文字画像・文字コードペア４０２、文字画像・文字コードペア４０４等があり、文字「い」について、文字画像・文字コードペア４０６、文字画像・文字コードペア４０８等があり、文字「う」について、文字画像・文字コードペア４１０、文字画像・文字コードペア４１２等があるように、各文字について、単文字画像と文字コードの対応付けされたデータが必要である。

単文字画像と文字コードの対応付けされたデータを作成するのに、文字画像の統合処理、分離処理が一般的に行われている。文字切り出し処理は、誤って文字を切り出してしまうことがある。その場合、ユーザーの指定による統合処理、分離処理が必要である。図５は、統合処理、分離処理の例を示す説明図である。
図５（ａ）に示す例は、ユーザーが統合処理を指定するものである。「認」という文字に対して、文字切り出し処理が「言」と「忍」とを誤って分離してしまった場合、この２つの文字画像を１つの単文字画像とするために、ユーザーの指示によって統合する。そして、統合後の文字に対し、「認」の文字コードを指定する。
図５（ｂ）に示す例は、ユーザーが分離処理を指定するものである。「認識」という文字列に対して、文字切り出し処理が単文字画像「認識」と誤って統合してしまった場合、この１つの単文字画像を２つの単文字画像とするために、ユーザーの指示によって分離する。そして、分離後の個々の単文字画像に対し、「認」「識」の文字コードを指定する。

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
＜第１の実施の形態＞
図１は、第１の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、全ての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

第１の実施の形態である画像処理装置１００は、文字認識用辞書の要素である学習用データを生成するものであって、図１の例に示すように、文字切り出し候補決定モジュール１１０、単文字認識モジュール１２０、文字列出力パターン作成モジュール１３０、文字切り出し位置決定モジュール１４０、文字画像切り出しモジュール１５０を有している。

文字切り出し候補決定モジュール１１０は、単文字認識モジュール１２０と接続されている。文字切り出し候補決定モジュール１１０は、画像１０５を受け付け、単文字認識モジュール１２０に文字切り出しパターンに対応する画像１１５を渡す。文字切り出し候補決定モジュール１１０は、画像から単文字画像の候補である切り出し候補を決定する。ここで、画像には、文字列（１文字以上の文字の連なり、したがって、文字列として１文字の場合を含む）の画像が含まれている。より具体的には、正解文字列１３８が記載された文字列画像である。画像１０５を受け付けるとは、例えば、スキャナ、カメラ等で画像を読み込むこと、ファックス等で通信回線を介して外部機器から画像を受信すること、ハードディスク（コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む）等に記憶されている画像を読み出すこと等が含まれる。画像は、２値画像、多値画像（カラー画像を含む）であってもよい。受け付ける画像は、１枚であってもよいし、複数枚であってもよい。また、画像の内容として、文字列画像が含まれていればよく、その文字は活字文字であってもよいし、手書き文字であってもよい。また、文字の種類（ひらがな、カタカナ、漢字、英数字等）も問わない。

また、文字切り出し候補決定モジュール１１０による切り出し処理は、既存の切り出し方法を用いればよい。例えば、画像１０５として、図６の例に示す画像６００が入力されるとする。文字切り出し候補決定モジュール１１０では、画像１０５の中で、文字らしき塊を分割する。ここでは、切り出した結果が文字そのものであってもよいし、扁と旁等に分割されていてもよい。例えば、図７のように、画像６００は、文字分割画像７１０、７２０、７３０に分割される。
図７の例に示す分割の例では、図８の例に示すように、４つのパターンで文字の切り出し位置を決定することができる。例えば、パターンＡでは、図９の例に示す３つの文字画像に分割されることとなる。また、パターンＢでは、文字分割画像７１０と文字分割画像７２０を１つの文字画像として、２つの文字画像に分割し、パターンＣでは、文字分割画像７１０と文字分割画像７２０と文字分割画像７３０を１つの文字画像として分割し、パターンＤでは、文字分割画像７２０と文字分割画像７３０を１つの文字画像として、２つの文字画像に分割する。

単文字認識モジュール１２０は、文字切り出し候補決定モジュール１１０、文字列出力パターン作成モジュール１３０と接続されている。単文字認識モジュール１２０は、文字切り出し候補決定モジュール１１０より文字切り出しパターンに対応する画像１１５を受け取り、文字列出力パターン作成モジュール１３０に各文字の認識候補１２５を渡す。単文字認識モジュール１２０は、文字切り出し候補決定モジュール１１０によって決定された切り出し候補を対象として、文字認識を行う。ここでの文字認識は、対象としている画像には１つの文字が含まれていると仮定した文字認識を行う（いわゆる単文字認識）。したがって、文字認識結果は、１つの文字コードとなる。つまり、２文字以上の文字列となることはない。ただし、文字認識候補として複数あってもよい。
前述の例を用いて説明する。単文字認識モジュール１２０では、上記の４パターン全てに対して、文字認識を行う。このとき、文字認識候補を複数出力する。例えば、パターンＡの一番左側の画像である図９（ａ）の例に示す文字分割画像７１０に対して、「言」「官」等の文字認識候補が出力される。
このように、画像１０５に対して、全文字切り出しパターンと各文字切り出し位置に対応する文字認識候補を出力する。各文字分割位置に対応する文字認識候補を図１０に示す。図１０に示す例では、一番左が文字分割位置に対応する文字画像であり、その右が第１文字認識候補、第２文字認識候補である。例えば、文字画像１０１０に対しては、第１文字認識候補「言」の文字コード、第２文字認識候補「官」の文字コードが対応している。例えば、これらを文字列パターンテーブル１１００として生成する。図１１は、文字列パターンテーブル１１００のデータ構造例を示す説明図である。文字列パターンテーブル１１００は、ＩＤ欄１１１０、文字切り出し画像数欄１１２０、文字切り出し画像（１）欄１１３０、文字認識候補数欄１１４０、第１文字画像認識候補（１）欄１１５０、第２文字画像認識候補（１）欄１１６０等を有している。ＩＤ欄１１１０は、文字切り出しのパターンを、本実施の形態で一意に識別するための情報（ＩＤ：ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）を記憶している。文字切り出し画像数欄１１２０は、文字切り出し画像数を記憶している。文字切り出し画像（１）欄１１３０は、文字切り出し画像（１）を記憶している。文字認識候補数欄１１４０は、文字認識候補数を記憶している。第１文字画像認識候補（１）欄１１５０は、第１文字画像認識候補（１）を記憶している。第２文字画像認識候補（１）欄１１６０は、第２文字画像認識候補（１）を記憶している。文字切り出し画像数欄１１２０に記憶された数をＮとすると、文字切り出し画像（１）欄１１３０の欄がＮ個続き、文字認識候補数欄１１４０に記憶された数をＭとすると、第１文字画像認識候補（１）欄１１５０の欄がＭ個、第２文字画像認識候補（１）欄１１６０の欄がＭ個続き、以下、同様に第Ｎ文字画像認識候補の欄の組が続く。
この文字列パターンテーブル１１００が各文字の認識候補１２５として、文字列出力パターン作成モジュール１３０に渡される。

文字列出力パターン作成モジュール１３０は、単文字認識モジュール１２０、文字切り出し位置決定モジュール１４０と接続されている。文字列出力パターン作成モジュール１３０は、単文字認識モジュール１２０より各文字の認識候補１２５を受け取り、文字切り出し位置決定モジュール１４０に文字列と、その文字列に対応する文字切り出し位置１３５を渡す。文字列出力パターン作成モジュール１３０は、単文字認識モジュール１２０による認識結果を要素とする文字列と、その認識結果に対応する文字切り出し位置の対応関係を作成する。
前述の例を用いて説明する。文字列出力パターン作成モジュール１３０では、文字列候補を作成する。
例えば、パターンＡに対して、あり得る文字列パターンは、下記の８通りとなる。
（Ａ１）言忍識
（Ａ２）言忍繊
（Ａ３）言志識
（Ａ４）言志繊
（Ａ５）官忍識
（Ａ６）官忍繊
（Ａ７）官志識
（Ａ８）官志繊
パターンＢでは、下記の４通りである。
（Ｂ１）認識
（Ｂ２）認繊
（Ｂ３）誌識
（Ｂ４）誌繊
パターンＣでは、下記の２通りである。
（Ｃ１）認
（Ｃ１）語
パターンＤでは、下記の４通りである。
（Ｄ１）言織
（Ｄ２）言繊
（Ｄ３）官織
（Ｄ４）官繊
文字切り出し候補が十分多くて、かつ、単文字認識候補が十分多ければ、全ての文字列パターンの中に、正解文字列が含まれる可能性は高まる。

文字切り出し位置決定モジュール１４０は、文字列出力パターン作成モジュール１３０、文字画像切り出しモジュール１５０と接続されている。文字切り出し位置決定モジュール１４０は、正解文字列１３８を受け付け、文字列出力パターン作成モジュール１３０より文字列と、その文字列に対応する文字切り出し位置１３５を受け取り、文字画像切り出しモジュール１５０へ文字切り出し位置１４５を渡す。文字切り出し位置決定モジュール１４０は、正解文字列１３８と文字列出力パターン作成モジュール１３０によって作成された文字列とを比較して、その正解文字列となる文字切り出し位置を決定する。正解文字列１３８は、画像１０５におけるものである。操作者の操作で入力されたものであってもよい。
文字切り出し位置決定モジュール１４０では、正解文字列１３８を入力し、正解文字列１３８と一致する文字列パターンを検索する。そして、その文字列パターンに対応する文字切り出し位置１４５を決定する。
前述の例では、正解文字列１３８は、「認識」である。（Ａ１）から（Ｄ４）までの文字列パターンの中から、「認識」となるものを抽出する。
「認識」という文字列パターンを出力したときの、文字分割位置のパターンは、「パターンＢ」であることが分かる。もちろんのことながら、各文字列パターンに対して、文字分割位置のパターンを対応させておけばよい。

文字画像切り出しモジュール１５０は、文字切り出し位置決定モジュール１４０と接続されている。文字画像切り出しモジュール１５０は、画像１０５を受け付け、文字切り出し位置決定モジュール１４０より文字切り出し位置１４５を受け取り、単文字画像１５５を出力する。文字画像切り出しモジュール１５０は、文字切り出し位置決定モジュール１４０によって決定された文字切り出し位置１４５に基づいて画像１０５から単文字画像１５５を切り出し、文字認識用辞書の要素として、その単文字画像１５５とその単文字画像１５５の文字切り出し位置１４５に対応している認識結果又は正解文字列１３８内の文字を対応付ける。もちろんのことながら、「単文字画像の文字切り出し位置に対応している認識結果」と「正解文字列内の文字」は、同じものである。
文字画像切り出しモジュール１５０では、文字切り出し位置１４５を用いて、画像１０５から単文字画像１５５を切り出す。こうして切り出された単文字画像１５５と、それに対応する文字コードを、認識辞書の学習用データとして使うことができる。
前述の例では、パターンＢとなるような文字分割位置で、単文字画像１５５を切り出せばよい。図１２は、切り出し結果の例を示す説明図である。切り出した結果は、単文字画像１２１０と単文字画像１２２０になる。単文字画像１２１０は、図７の例に示した文字分割画像７１０と文字分割画像７２０を組み合わせたものであり、単文字画像１２２０は、文字分割画像７３０と同じである。このようにして、文字画像切り出しモジュール１５０では、一文字単位で文字を切り出すことを行って、単文字画像１２１０に文字コード「認」を対応付け、単文字画像１２２０に文字コード「識」を対応付けて、それぞれ単文字画像１５５として出力する。ここで対応付ける文字コードは、正解文字列１３８から抽出したものであってもよいし、正解文字列１３８と合致する単文字認識モジュール１２０による認識結果であってもよい。

前述の説明では、文字切り出し位置を用いた例で説明したが、その文字切り出し位置で切り出した「切り出し候補（単文字画像）」を用いてもよい。つまり、文字列出力パターン作成モジュール１３０は、単文字認識モジュール１２０による認識結果を要素とする文字列と、その認識結果に対応する切り出し候補の対応関係を作成する。文字切り出し位置決定モジュール１４０は、画像１０５の正解文字列と文字列出力パターン作成モジュール１３０によって作成された文字列とを比較して、その正解文字列となる切り出し候補を決定する。そして、文字画像切り出しモジュール１５０は、文字認識用辞書の要素として、文字切り出し位置決定モジュール１４０によって決定された切り出し候補の単文字画像と、その切り出し候補（単文字画像）に対応している認識結果又は正解文字列内の文字を対応付ける。この場合、文字列出力パターン作成モジュール１３０は、文字切り出し位置に換えて、認識結果と切り出し候補（単文字画像）の対応テーブルを作成する。文字切り出し位置決定モジュール１４０も、文字切り出し位置に換えて、正解文字列となる切り出し候補（単文字画像）を決定する。そして、文字画像切り出しモジュール１５０は、画像１０５から切り出すことはせずに、文字切り出し候補決定モジュール１１０によって切り出された切り出し候補（単文字画像）を用いる。以下、後述する実施の形態においても同様である。

＜第２の実施の形態＞
第１の実施の形態では、文字列出力パターン作成モジュール１３０では、全ての文字列パターンを作成した例を示したが、第２の実施の形態では、全てを作成する必要はない例を示す。
第２の実施の形態は、第１の実施の形態における文字列出力パターン作成モジュール１３０が作成する認識結果を要素とする文字列のデータ構造を、トレリス構造として、文字切り出し位置決定モジュール１４０は、ダイナミックプログラミング又はビタビ法を用いて、トレリス構造の中から、正解文字列に合致するパターンを抽出するものである。

特許文献４、特許文献５、特許文献６に記載したような方法によって、あり得る文字列パターンをトレリス（又はラティス）構造として表現することも可能である。
図１３は、文字切り出し候補位置の例を示す説明図である。画像「化学」を単文字画像候補１３１０、単文字画像候補１３２０、単文字画像候補１３３０に分割した例を示している。つまり、始点１３０５と文字切り出し候補位置（１）１３１５によって単文字画像候補１３１０が生成され、文字切り出し候補位置（１）１３１５と文字切り出し候補位置（２）１３２５によって単文字画像候補１３２０が生成され、文字切り出し候補位置（２）１３２５と終点１３３５によって単文字画像候補１３３０が生成される。この図１３に示す例のような文字切り出し位置候補がある画像に対して、文字列の左端（始点１３０５）から右端（終点１３３５）につなげるパスを考える。図１４の例に示すように、あらゆる文字切り出しパターンを通って、始点１３０５から終点１３３５につながるパスの全体を形成することができる。図１４は、文字列内の文字切り出し候補パスの例を示す説明図である。単文字画像候補１４１０の文字コードは、始点１３０５から文字切り出し候補位置（１）１３１５までの単文字画像の文字コードであり、単文字画像候補１４２０の文字コードは、文字切り出し候補位置（１）１３１５から文字切り出し候補位置（２）１３２５までの単文字画像の文字コードであり、単文字画像候補１４３０の文字コードは、始点１３０５から文字切り出し候補位置（２）１３２５までの単文字画像の文字コードであり、単文字画像候補１４４０の文字コードは、始点１３０５から終点１３３５までの単文字画像の文字コードであり、単文字画像候補１４５０の文字コードは、文字切り出し候補位置（１）１３１５から終点１３３５までの単文字画像の文字コードであり、単文字画像候補１４６０の文字コードは、文字切り出し候補位置（２）１３２５から終点１３３５までの単文字画像の文字コードである。このように、図１３に示す例は、グラフ構造で表すことができる。

各文字切り出し位置に対して、第１の実施の形態のように複数の文字候補を割り当てる。始点１３０５から終点１３３５に向かう全てのパスの中で、正解文字列と合致するパスを決定すればよい。
図１４に示す例において、始点１３０５から終点１３３５に向かうパスを全て抽出することができている。
図１４に示す例において、「イ」（単文字画像候補１４１０）のように文字が切り出されている場合を考える。この切り出しパターンに対して、複数の文字候補を得ることができる。他の切り出し文字に対しても同様である。全ての文字候補を、ノードとして考える。図１４の例に示す各文字「イ」（単文字画像候補１４１０）とか、「ヒ」（単文字画像候補１４２０）とか、「化」（単文字画像候補１４３０）とか、それぞれに対し複数のノードが存在していることになる。ノードとノードを間を結ぶ線をリンクと呼ぶこととする。

図１５は、始点から終点に向かうグラフの例を示す説明図である。図１５の例に示すように、始点ノードから、終点ノードに向かうグラフを考える。ノードはそれぞれ、左右のノードと接続されている。このグラフにおいて、始点ノードから終点ノードに向かうパスを決定すれば、認識結果が決定されることになる。
各ノードにおいて、左側に向かうリンクを一つに限定していけばよい。限定の方法は、「正解文字列」に合致するリンクのみを限定する。
今、始点ノードからノードｘ，ｙ，ｚまでのパスが確定しているとする。この場合、始点ノードからノードｘ，ｙ，ｚまでのパスに対応する文字列も決定していることになる。次に、例えば、ノードＸに左側に向かうリンクを一つに限定する。
ノードＸには、ノードｘ，ｙ，ｚからのリンクがある。これらを一つずつ試す。例えば、ｘ−Ｘのリンクとする。この場合に、始点からノードＸまでのパスに対応する文字列が決定される。この文字列が、「正解文字列」の一部になっているかどうかを検証する。
ノードｘ，ｙ，ｚからのパスのうち、正解文字列の一部になっているものが一つだけあれば、そのノードに向かうリンクを採用する。
ノードｘ，ｙ，ｚからのパスのうち、正解文字列の一部になっているものが複数あれば、最も正解文字列との合致文字数が多いリンクを採用する。
このようにすることによって、全ての文字列パターンを生成することなく、ノードを決定できる。ノードを決定できれば、そのノードに対応する文字切り出し位置（文字分割位置）も決定できる。
図１６は、文字列内の文字切り出し候補パスの例を示す説明図である。例えば、図１６の例に示す太線のように、始点１３０５から終点１３３５までのノードを決定できれば（始点１３０５、文字切り出し候補位置（２）１３２５、終点１３３５の各ノードを通るパス）、文字分割位置を、図１７の例に示すように、単文字画像候補１４３０と単文字画像候補１４６０に決定できて、文字を一文字毎に切り取ることができる。
以上のような方法をダイナミックプログラミング又はビタビ法という。

＜第３の実施の形態＞
図１８は、第３の実施の形態の構成例についての概念的なモジュール構成図である。
第１の実施の形態、第２の実施の形態では、文字列出力パターンの中に正解文字列１３８を含ませるためには、各文字切り出し候補に対する文字認識候補として、非常に多くの文字候補数を出力する必要がある。
単文字認識モジュール１２０では複数の候補を出力するが、その候補の１００番目の候補として、やっと正解文字列１３８に存在する文字が出現するとする。
そのような場合に対しても、文字画像を切り出すことができるようにするためには、各文字切り出し位置に対して、１００個のノードを生成しなければならない（第２の実施の形態の場合）。第１の実施の形態の場合は、極めて多くの文字列パターンを生成しなければならなくなる。
例えば、図１９の例に示すように、単文字認識モジュール１２０に正解文字列１３８を入れない場合には、各文字切り出し位置に対応する文字候補が複数ある。例えば、始点１３０５から終点１３３５のパスにあるものは、単文字画像候補１４４０Ａの文字コード、・・・、単文字画像候補１４４０Ｚの文字コードのように複数あることになる。この文字候補（文字コード）の一つ一つがノードとなるため、パスを設定する処理量が多い。図２０の例に示されるように、各文字切り出し位置に対応する文字候補（つまり、単文字認識モジュール１８２０による認識結果）を２個（この場合は、単文字認識モジュール１８２０に入力される正解文字列１８３８は「化学」（文字コード列）であるため、「化」と「学」のみ）に限定することによって、評価を行うパスの数が減少して、処理量を減らすことができる。

画像処理装置１８００は、文字切り出し候補決定モジュール１１０、単文字認識モジュール１８２０、文字列出力パターン作成モジュール１３０、文字切り出し位置決定モジュール１４０、文字画像切り出しモジュール１５０を有している。なお、第１の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
文字切り出し候補決定モジュール１１０は、単文字認識モジュール１８２０と接続されている。文字切り出し候補決定モジュール１１０は、画像１０５を受け付け、単文字認識モジュール１８２０に文字切り出しパターンに対応する画像１１５を渡す。
単文字認識モジュール１８２０は、文字切り出し候補決定モジュール１１０、文字列出力パターン作成モジュール１３０と接続されている。単文字認識モジュール１８２０は、正解文字列１８３８を受け付け、文字切り出し候補決定モジュール１１０より文字切り出しパターンに対応する画像１１５を受け取り、文字列出力パターン作成モジュール１３０に各文字の認識候補１２５を渡す。単文字認識モジュール１８２０は、認識結果を、正解文字列１８３８に存在する文字に限定する。具体的には、単文字認識モジュール１８２０に対して、正解文字列１８３８を与える。そして、正解文字列１８３８に存在する文字だけを単文字認識モジュール１８２０から出力するようにする。
例えば、正解文字列１８３８が「認識」の場合、単文字認識モジュール１８２０では、「認」と「識」のみを出力するようにする。もちろんのことながら、その正解文字列１８３８内の文字が、文字認識候補に含まれていない場合は、出力なしとする。
このようにすることで、ノード数（第２の実施の形態に適用する場合）の数や、文字列パターン数（第１の実施の形態に適用する場合）を減らすこととなる。

文字列出力パターン作成モジュール１３０は、単文字認識モジュール１８２０、文字切り出し位置決定モジュール１４０と接続されている。文字列出力パターン作成モジュール１３０は、単文字認識モジュール１８２０より各文字の認識候補１２５を受け取り、文字切り出し位置決定モジュール１４０に文字列と、その文字列に対応する文字切り出し位置１３５を渡す。
文字切り出し位置決定モジュール１４０は、文字列出力パターン作成モジュール１３０、文字画像切り出しモジュール１５０と接続されている。文字切り出し位置決定モジュール１４０は、正解文字列１８３８を受け付け、文字列出力パターン作成モジュール１３０より文字列と、その文字列に対応する文字切り出し位置１３５を受け取り、文字画像切り出しモジュール１５０へ文字切り出し位置１４５を渡す。
文字画像切り出しモジュール１５０は、文字切り出し位置決定モジュール１４０と接続されている。文字画像切り出しモジュール１５０は、画像１０５を受け付け、文字切り出し位置決定モジュール１４０より文字切り出し位置１４５を受け取り、単文字画像１５５を出力する。

第３の実施の形態では、単文字認識モジュール１８２０からのパターンが少ないため、正解文字列１８３８と合致するパスのパターンが多くなってしまう場合がある。
複数のパスで正解文字列１８３８と合致する場合には、最も文字列として妥当なパスを選択すればよい。
正解文字列１８３８と合致するパスが複数ある場合には、複数のパスの中から、パスの評価値を算出して、最大評価値となるパスを選択すればよい。
そのような方式として、例えば、特許文献４、特許文献５、特許文献６を用いればよい。

＜第４の実施の形態＞
図２１は、第４の実施の形態の構成例についての概念的なモジュール構成図である。
画像処理装置２１００は、文字切り出し候補決定モジュール１１０、単文字認識モジュール２１２０、文字列出力パターン作成モジュール１３０、文字切り出し位置決定モジュール１４０、文字画像切り出しモジュール１５０を有している。第３の実施の形態に、さらに認識確度閾値２１３８を与え、単文字認識モジュール２１２０は、その認識確度閾値２１３８と正解文字列１８３８を用いて、各文字の認識候補１２５を出力する。
文字切り出し候補決定モジュール１１０は、単文字認識モジュール２１２０と接続されている。文字切り出し候補決定モジュール１１０は、画像１０５を受け付け、単文字認識モジュール２１２０に文字切り出しパターンに対応する画像１１５を渡す。

単文字認識モジュール２１２０は、文字切り出し候補決定モジュール１１０、文字列出力パターン作成モジュール１３０と接続されている。単文字認識モジュール２１２０は、認識確度閾値２１３８、正解文字列１８３８を受け付け、文字切り出し候補決定モジュール１１０より文字切り出しパターンに対応する画像１１５を受け取り、文字列出力パターン作成モジュール１３０に各文字の認識候補１２５を渡す。単文字認識モジュール２１２０は、認識結果を、認識確度が閾値より高い又は以上の文字に限定する。つまり、ここで与えられた認識確度閾値２１３８を超える又は以上の場合のみ、各文字の認識候補１２５を出力する。つまり、単文字認識モジュール２１２０は、切り出し位置を誤っている場合、又は、もともと汚い文字で書かれている場合等に、認識確度が高くないのに（文字認識結果が誤っている可能性が高いのに）、正確な認識結果としてしまう場合があり、これらは、学習データに含めないようにしている。
例えば、第３の実施の形態では、全ての文字分割位置に対して、文字候補が、「認」と「識」の２種類だけとなる。図２２の例に示すような文字認識結果となる。このように、文字画像候補に対して、文字認識結果が「認」と「識」の２種類だけとなる場合には、文字認識結果が正解文字列と一致、すなわち、「認識」となる文字分割パターンが多く存在してしまうことになる。このようなパターンの中から、予め極端に文字切り出し位置が失敗した場合等を取り除くことで、最終的な文字切り出し位置精度を高め、かつ、文字列パターン数を減らすこととなる。
例えば、認識確度が低い文字候補を除いた結果が図２３の例に示すようになり、あり得る文字列パターン数を削減できる。図２３に示す例では、認識確度閾値２１３８以上の認識確度が無い場合を「×」と記載している。

文字列出力パターン作成モジュール１３０は、単文字認識モジュール２１２０、文字切り出し位置決定モジュール１４０と接続されている。文字列出力パターン作成モジュール１３０は、単文字認識モジュール２１２０より各文字の認識候補１２５を受け取り、文字切り出し位置決定モジュール１４０に文字列と、その文字列に対応する文字切り出し位置１３５を渡す。
文字切り出し位置決定モジュール１４０は、文字列出力パターン作成モジュール１３０、文字画像切り出しモジュール１５０と接続されている。文字切り出し位置決定モジュール１４０は、正解文字列１８３８を受け付け、文字列出力パターン作成モジュール１３０より文字列と、その文字列に対応する文字切り出し位置１３５を受け取り、文字画像切り出しモジュール１５０へ文字切り出し位置１４５を渡す。
文字画像切り出しモジュール１５０は、文字切り出し位置決定モジュール１４０と接続されている。文字画像切り出しモジュール１５０は、画像１０５を受け付け、文字切り出し位置決定モジュール１４０より文字切り出し位置１４５を受け取り、単文字画像１５５を出力する。
なお、図２１に示す例では、正解文字列１８３８と認識確度閾値２１３８を用いているが、認識確度閾値２１３８だけでもよい。つまり、第１の実施の形態、第２の実施の形態に認識確度閾値２１３８を与えるようにしてもよい。この場合、認識確度閾値２１３８以上の認識確度を持つ文字認識結果を用いることとなる。

＜第５の実施の形態＞
図２４は、第５の実施の形態の構成例についての概念的なモジュール構成図である。第５の実施の形態では、以上に述べた第１〜第４の実施の形態を用いて、実際の運用として学習用の文字画像切り出しを行う例を示す。
画像処理装置２４００は、スキャナ２４１０、文字認識モジュール２４２０、認識結果表示モジュール２４３０、修正文字列受付モジュール２４４０、学習用画像作成モジュール２４５０、文字認識学習モジュール２４６０を有している。
スキャナ２４１０は、紙文書２４０５を受け付け、文字認識モジュール２４２０、学習用画像作成モジュール２４５０と接続されている。スキャナ２４１０は、文字（手書き文字、活字文字等）が記載された紙文書２４０５をスキャナ２４１０で電子化する。ここで、電子化とはビットマップの画像情報となっていることを示す。スキャナ２４１０の他にカメラであってもよい。
文字認識モジュール２４２０は、スキャナ２４１０、認識結果表示モジュール２４３０と接続されている。文字認識モジュール２４２０は、電子化された画像データを文字認識する。

認識結果表示モジュール２４３０は、文字認識モジュール２４２０と接続されている。認識結果表示モジュール２４３０は、文字認識モジュール２４２０による文字認識結果を、画像処理装置２４００の液晶ディスプレイ等の表示装置に表示する。
修正文字列受付モジュール２４４０は、学習用画像作成モジュール２４５０と接続されている。修正文字列受付モジュール２４４０は、認識結果表示モジュール２４３０による表示を見た操作者の操作によって、正解文字列（前述の正解文字列１３８、正解文字列１８３８）を受け付ける。つまり、表示装置に表示された文字認識結果が誤っていた場合、操作者は、画像処理装置２４００のキーボード（タッチパネル等であってもよい）を用いて、正しい結果になるように修正を行う。この修正結果を、正解文字列（前述の正解文字列１３８、正解文字列１８３８）とする。
学習用画像作成モジュール２４５０は、スキャナ２４１０、修正文字列受付モジュール２４４０、文字認識学習モジュール２４６０と接続されている。学習用画像作成モジュール２４５０は、修正文字列受付モジュール２４４０が受け付けた正解文字列と電子化された画像データを入力して、学習用画像を作成する。学習用画像作成モジュール２４５０として、前述の第１〜４の実施の形態を用いる。
文字認識学習モジュール２４６０は、学習用画像作成モジュール２４５０と接続されており、認識辞書２４６５を出力する。文字認識学習モジュール２４６０は、作成した結果の学習用画像と文字コードのペアを用いて、文字認識学習を行う。文字認識学習の結果、認識辞書２４６５が出力される。
この場合にあっては、操作者の操作は、正解文字列の入力であって、図５を用いて前述した統合処理、分離処理の確認、指示は不要である。

図２５を参照して、本実施の形態の画像処理装置のハードウェア構成例について説明する。図２５に示す構成は、例えばパーソナルコンピュータ（ＰＣ）などによって構成されるものであり、スキャナ等のデータ読み取り部２５１７と、プリンタなどのデータ出力部２５１８を備えたハードウェア構成例を示している。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２５０１は、前述の実施の形態において説明した各種のモジュール、すなわち、文字切り出し候補決定モジュール１１０、単文字認識モジュール１２０、文字列出力パターン作成モジュール１３０、文字切り出し位置決定モジュール１４０、文字画像切り出しモジュール１５０、単文字認識モジュール１８２０、単文字認識モジュール２１２０、スキャナ２４１０、文字認識モジュール２４２０、認識結果表示モジュール２４３０、修正文字列受付モジュール２４４０、学習用画像作成モジュール２４５０、文字認識学習モジュール２４６０等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２５０２は、ＣＰＵ２５０１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２５０３は、ＣＰＵ２５０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス２５０４により相互に接続されている。

ホストバス２５０４は、ブリッジ２５０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス２５０６に接続されている。

キーボード２５０８、マウス等のポインティングデバイス２５０９は、操作者により操作される入力デバイスである。ディスプレイ２５１０は、液晶表示装置又はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などがあり、各種情報をテキストやイメージ情報として表示する。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）２５１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ２５０１によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、画像１０５、文字切り出しパターンに対応する画像１１５、各文字の認識候補１２５、文字列と、その文字列に対応する文字切り出し位置１３５、文字切り出し位置１４５、正解文字列１３８、単文字画像１５５、正解文字列１８３８、認識確度閾値２１３８、認識辞書２４６５などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ２５１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体２５１３に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース２５０７、外部バス２５０６、ブリッジ２５０５、及びホストバス２５０４を介して接続されているＲＡＭ２５０３に供給する。リムーバブル記録媒体２５１３も、ハードディスクと同様のデータ記録領域として利用可能である。

接続ポート２５１４は、外部接続機器２５１５を接続するポートであり、ＵＳＢ、ＩＥＥＥ１３９４等の接続部を持つ。接続ポート２５１４は、インタフェース２５０７、及び外部バス２５０６、ブリッジ２５０５、ホストバス２５０４等を介してＣＰＵ２５０１等に接続されている。通信部２５１６は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部２５１７は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部２５１８は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。

なお、図２５に示す画像処理装置のハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図２５に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図２５に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい（未満）」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい（未満）」、「以上」、「以下」としてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。

１００…画像処理装置
１０５…画像
１１０…文字切り出し候補決定モジュール
１１５…文字切り出しパターンに対応する画像
１２０…単文字認識モジュール
１２５…各文字の認識候補
１３０…文字列出力パターン作成モジュール
１３５…文字列と、その文字列に対応する文字切り出し位置
１３８…正解文字列
１４０…文字切り出し位置決定モジュール
１４５…文字切り出し位置
１５０…文字画像切り出しモジュール
１５５…単文字画像
１８００…画像処理装置
１８２０…単文字認識モジュール
１８３８…正解文字列
２１００…画像処理装置
２１２０…単文字認識モジュール
２１３８…認識確度閾値
２４００…画像処理装置
２４０５…紙文書
２４１０…スキャナ
２４２０…文字認識モジュール
２４３０…認識結果表示モジュール
２４４０…修正文字列受付モジュール
２４５０…学習用画像作成モジュール
２４６０…文字認識学習モジュール
２４６５…認識辞書

Claims

画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、
前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
を具備し、
前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定する
ことを特徴とする画像処理装置。
画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する切り出し候補の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる切り出し候補を決定する決定手段と、
文字認識用辞書の要素として、前記決定手段によって決定された切り出し候補の単文字画像と該切り出し候補に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
を具備し、
前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定する
ことを特徴とする画像処理装置。
前記作成手段が作成する認識結果を要素とする文字列のデータ構造は、トレリス構造であって、
前記位置決定手段は、ダイナミックプログラミング又はビタビ法を用いて、トレリス構造の中から、正解文字列に合致するパターンを抽出する
ことを特徴とする請求項１に記載の画像処理装置。
前記文字認識手段は、認識結果を、認識確度が閾値より高い又は以上の文字に限定する
ことを特徴とする請求項１から３のいずれか一項に記載の画像処理装置。
前記文字認識手段による認識結果を表示する表示手段と、
前記表示手段による表示を見た操作者の操作による前記正解文字列を受け付ける受付手段
をさらに具備することを特徴とする請求項１から４のいずれか一項に記載の画像処理装置。
コンピュータを、
画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する文字切り出し位置の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる文字切り出し位置を決定する位置決定手段と、
前記位置決定手段によって決定された文字切り出し位置に基づいて前記画像から単文字画像を切り出し、文字認識用辞書の要素として、該単文字画像と該単文字画像の文字切り出し位置に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
として機能させ、
前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定する
ことを特徴とする画像処理プログラム。
コンピュータを、
画像から単文字画像の候補である切り出し候補を決定する候補決定手段と、
前記切り出し候補を対象として、文字認識を行う文字認識手段と、
前記文字認識手段による認識結果を要素とする文字列と、該認識結果に対応する切り出し候補の対応関係を作成する作成手段と、
前記画像の正解文字列と前記作成手段によって作成された文字列とを比較して、該正解文字列となる切り出し候補を決定する決定手段と、
文字認識用辞書の要素として、前記決定手段によって決定された切り出し候補の単文字画像と該切り出し候補に対応している認識結果又は前記正解文字列内の文字を対応付ける対応付手段
として機能させ、
前記文字認識手段は、認識結果を、前記正解文字列に存在する文字に限定する
ことを特徴とする画像処理プログラム。