JP2017146841A

JP2017146841A - 文字認識装置、文字認識方法、およびプログラム

Info

Publication number: JP2017146841A
Application number: JP2016029068A
Authority: JP
Inventors: 篤弘吉田; Atsuhiro Yoshida
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2016-02-18
Filing date: 2016-02-18
Publication date: 2017-08-24
Anticipated expiration: 2036-02-18
Also published as: JP6523988B2

Abstract

【課題】文書内でのフォント変更点を精度よく検出し、使用されているフォントに適した辞書を用いて文字の認識を行える文字認識装置、文字認識方法、プログラムを提供する。
【解決手段】実施形態の文字認識装置は、認識用データベースと、文字認識部と、フォント選択部と、選択再考判断部とを持つ。文字認識部は、文字画像の列を取得し、辞書データを参照しながら文字画像の認識処理を行うとともに、辞書データと文字画像との間の合致度を表すスコアを出力する。フォント選択部は、文字認識部が参照する辞書データのフォント種別を設定する。選択再考判断部は、文字認識部が文字画像の認識処理を順次行った際に、スコアが低下した区間を検出するとともに、ルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、フォント変更点以後についてフォント選択部がフォント種別を再設定するよう制御する。
【選択図】図１

Description

本発明の実施形態は、文字認識装置、文字認識方法、およびプログラムに関する。

光学的に読み取った文字を自動的に認識する文字認識技術が広く活用されている。文字認識処理は、手書き文字認識と活字文字認識に大別される。ここで、活字文字認識には、活字によって印刷された文字だけではなく、電子データによるフォントに基づいて印刷された文字の認識も含まれる。文字認識処理は、入力された文字の画像と、辞書に含まれている文字のデータとを照合し、そのマッチングの度合いを示すスコア（あるいは距離）を評価することによって行う。辞書に含まれている文字のデータは、文字の形態そのものや、認識における特徴を表す情報である。したがって、例えばある文字（たとえば「あ」という文字）について、フォントごとに辞書に含まれている文字のデータは異なる。活字文字認識処理では、フォント別に予め準備した辞書データを用いて、文字の認識が行われる。

従来技術において、数文字分の辞書データと入力データとの間の最小距離値の平均値を計算し、その平均値が最小となるフォントを選択する技術があった。しかし、必ずしも選択されたその数文字がフォント切り替えの単位とは一致していない可能性があった。
また、従来技術において、辞書と入力された文字との間の距離が所定の閾値を超えた回数をカウントし、そのカウント値に基づいて辞書を切り替える技術があった。しかし、そのカウント値に基づいて辞書を切り替える箇所が、フォント切り替えの場所には一致しない場合もあった。
また、従来技術においては、一文字単位で使用フォントの判断を行うなど、フォントを判定する処理が冗長となる可能性があった。
また、従来技術において、最も適合するフォントデータ（辞書）を判定し、その結果として選択されたフォントデータを用いて文字認識を行う技術があった。しかし、文章の途中でフォントが切り変わる場合には、選択された文章の全体において最適であるとは限らない可能性もあった。

特開平５−１５９１０７号公報特開２００６−０９２１３８号公報特開平１−１８００８３号公報特開昭６３−２３８６８８号公報特開平３−０６８０９２号公報

本発明が解決しようとする課題は、文書内でのフォント変更点を精度よく検出し、使用されているフォントに適した辞書を用いて文字の認識を行うことができる文字認識装置、文字認識方法、およびプログラムを提供することである。

実施形態の文字認識装置は、認識用データベースと、文字認識部と、フォント選択部と、選択再考判断部とを持つ。認識用データベースは、フォント種別ごとの文字認識用の辞書データを保持する。文字認識部は、文字画像の列を取得し、前記認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する。フォント選択部は、前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識部が参照する前記辞書データのフォント種別を設定する。選択再考判断部は、前記文字認識部が前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択部が前記フォント種別を再設定するよう制御する。

第１の実施形態の文字認識装置の概略機能構成を示すブロック図。第１の実施形態の文字認識装置が備える作業用のデータ記憶領域の構成例を示す概略図。第１の実施形態の文字認識装置による文字認識処理の手順を示すフローチャート。第１の実施形態の文字認識装置による処理中での、作業用のデータ記憶領域に書き込まれている内容を示す概略図。第１の実施形態の選択再考判断部によって算出される総合スコアを説明するための概略図。第１の実施形態の選択再考判断部によって算出される総合スコアの具体例を説明するための概略図。第１の実施形態の選択再考判断部が、フォント変更点候補が、実際にフォント変更点であるか否かを判定する処理を説明するための概略図。第１の実施形態のフォント選択部がフォントを識別し、特定する処理を説明するための概略図。第１の実施形態のフォント選択部がフォントを識別する処理を説明するための概略図。第２の実施形態の文字認識装置の概略機能構成を示すブロック図。第２の実施形態の選択再考判断部によるフォント変更点推定の処理を説明するための概略図。

以下、実施形態の文字認識装置、文字認識方法、およびプログラムを、図面を参照して説明する。

（第１の実施形態）
図１は、本実施形態による文字認識装置の概略機能構成を示すブロック図である。同図に示すように、文字認識装置１は、画像入力部２１と、画像処理部２２と、文字抽出部２３と、認識用データベース３０と、文字認識部３１と、フォント選択部３３と、選択再考判断部３５と、出力部４１とを持つ。

画像入力部２１は、外部から画像を取得する。この画像は、文字認識の対象となる文字の列を含む。例えば、画像入力部２１は、ガラス面等に置かれた紙の文書を光学的に読み取ることによって、二次元の画像を取得する。画像入力部２１が、複数枚の紙を読みと位置に順次供給するためのフィーダーを備えていてもよい。また、例えば、画像入力部２１は、外部から供給される画像ファイルを取得するようにしてもよい。ここで、外部から供給される画像ファイルは、例えば、ＰＤＦ形式、ＪＰＥＧ形式、ＰＮＧ形式、ＴＩＦＦ形式等の、適切な形式で画像の情報を保持する。なお、「ＰＤＦ」はPortable Document Formatの略である。また、「ＪＰＥＧ」は、Joint Photographic Experts Groupの略である。また、「ＰＮＧ」は、Portable Network Graphicsの略である。また、「ＴＩＦＦ」は、Tagged Image File Formatの略である。

画像処理部２２は、画像入力部２１が取得した画像に適切な前処理を施すことにより、文字認識可能な状態にする。前処理の一例は、画像の二値化である。画像処理部２２は、画像を、地の色（例えば、白）と文字の色（例えば、黒）とに二値化する。画像処理部２２は、二値化の処理以外に、文字領域のサイズの正規化や、画像上のノイズの除去や、文字の線のスムージング等の処理を、適宜、必要に応じて行う。なお、画像処理部２２が行うこれらの処理自体は、既存技術を用いて行うことが可能である。
文字抽出部２３は、画像処理部２２で処理した画像から、個々の文字の部分を抽出して、文字ごとに切り分ける。文字抽出部２３が受け取る画像は文字列を含んでいるものであり、文字抽出部２３は、その文字列に含まれている各文字の画像を切り出し、文字列内の文字の配列順にしたがって切り出した各文字の画像を保存する。なお、文字の抽出、切り出しの処理自体は、方法などは既存技術を用いて行うことができる。

認識用データベース３０は、文字認識に用いるための辞書データを保持する。辞書データは、各文字の画像の情報または各文字の認識のための特徴量の情報、あるいはそれら両方を含む。認識用データベース３０は、フォント種別ごと且つ文字種別ごとに、辞書データを保持する。ここで、フォント種別とは、フォントファミリーと文字装飾属性との組み合わせによって識別される種別である。フォントファミリーとは、大別すると、例えば、ゴシック体、明朝体、教科書体等の区別である。フォントファミリーは、上記大別したグループ（例えばゴシック体）の中でも、さらにその字体によって細かく区別したり、またフォントを作るメーカーによっても細かく区別したりできる。文字装飾属性とは、例えば斜字体（斜めの字として表される）やボールド体（太い線で表される）といったものであり、これらの属性を有するか否かによって、フォントをさらに識別してもよい。例えば、数種類から数百種類程度のフォント種別に対応した辞書データを、認識用データベースが保持するようにしてよい。

文字認識部３１は、認識用データベース３０を参照しながら、文字抽出部２３によって抽出された文字の認識を行う。なお、文字認識部３１は、後述するフォント選択部３３によって選択されたフォント種別の辞書データを認識用データベース３０から読み出して、文字認識処理に使用する。具体的には、文字認識部３１は、文字抽出部２３から渡される１文字分の画像データを基に、文字種別ごとのスコアを算出する。スコアは、辞書データと文字画像との間の合致度を表す数値である。そして、文字認識部３１は、スコアの最も高い文字種別を、その画像の認識結果として出力する。文字認識部３１は、認識結果としてスコアが最も高かった文字の文字コード（ＡＳＣＩＩコードやＪＩＳコード等）の情報を出力する。なお文字認識処理の過程において、確からしさの順に並んだ、文字コードとそのスコアとのペアの列が得られる。本実施形態では、スコアは１０００点満点の数値として表される。
なお、入力された画像データと辞書データとを比較することによってその画像データに含まれる文字を特定する（文字認識する）処理自体としては、既存の技術を用いることができる。

フォント選択部３３は、文字抽出部２３によって抽出された文字と、認識用データベース３０に記録されている辞書データとを比較することによって、文字のフォント種別を特定する。また、フォント選択部３３は、フォント種別を特定した結果にしたがって、文字認識部３１が認識処理の際に用いるフォントを設定する。なお、フォント選択部３３は、選択再考判断部３５からの制御によって、フォントを再選択する場合がある。即ち、既に認識処理用のフォントが既に設定されている状態で、フォント選択部３３がフォントを再設定する場合がある。
なお、フォント選択部３３がフォントを選択する処理の詳細については、後述する。

選択再考判断部３５は、文字認識部３１からの結果を各文字ごとに受け取り、認識処理におけるスコアの状況から対象フォントに変更があったか否かを判断する。具体的には、選択再考判断部３５は、文字認識部３１から認識処理の結果であるスコアのデータを受け取り、スコアの系列に基づいて認識処理中の文字列の途中でフォントが変更されたか否かを判断する。つまり、選択再考判断部３５は、文字認識部３１が文字画像の認識処理を順次行った際に、文字画像の列内においてスコアが低下した区間を検出する。そして、選択再考判断部３５は、ルールに基づいて当該区間または当該区間近傍におけるフォントが変更された位置を推定する。これにより、選択再考判断部３５は、認識処理において設定したフォントの種別を変更すべきであるか否かを判断する。また、選択再考判断部３５は、フォントが変更されたと判定するときには、文字列中のどの文字の位置からフォントが変更されたかを特定する。フォントが変更された位置を「フォント変更点」と呼ぶ場合がある。フォントが変更されたと判定した場合には、選択再考判断部３５は、フォントを選択し直すようフォント選択部３３を制御する。

印刷された文書等において１文字ごとにフォントが変化することは通常なく、一度選択されたフォントは少なくともある程度の長さにおいて固定的に使われる。選択再考判断部３５は、そういった文書の特性に基づいた判断を行うものである。選択再考判断部３５は、内部にルールベースを備えており、そのルールベースは、上記の文書の特性に基づき、フォントが変更される点（位置）についての知識を保持している。選択再考判断部３５は、ルールベースに記憶されているルール（知識）に基づいて、フォント選択を再考すべきであるか否かを判断する。その処理の詳細については後述する。

出力部４１は、文字認識部３１による認識処理の結果を外部に出力する。出力部４１は、認識結果である文字コードの列を少なくとも出力する。また、出力部４１が、認識結果の文字のスコアの値を併せて出力するようにしてもよい。また、出力部４１が、認識結果として選ばれなかった文字のうち比較的スコアが高かった文字のコードや、各文字のスコアの値を併せて出力するようにしてもよい。出力部４１が出力するデータの内容や形式は、適宜定めてよい。

図２は、文字認識装置１が文字列の文字認識処理を行う際の、作業用のデータ記憶領域の構成例を示す概略図である。図示するデータは、処理中において、半導体メモリや磁気ハードディスク装置等に一時的に記録される。図示するデータは、２次元の表形式のデータであり、横方向が文字列中の文字の位置に対応する。このデータは、文字カウントと、入力文字画像と、スコアと、採用されたフォントと、認識結果の各項目を有している。

文字カウントは、画像入力部２１が取得した画像（文書等の画像）の先頭からの文字数のカウントである。文字カウントの値は、１から始まる整数である。同図に示すデータの範囲には、文字カウントとして９９から１１９までが含まれている。入力画像とスコアと採用されたフォントと認識結果の各データは、この文字カウントに関連付けて保持されている。
入力文字画像は、文字抽出部２３によって抽出された各文字の画像のデータである。この入力文字画像が、文字認識部３１による認識処理の対象である。

スコアは、認識処理の結果として得られるスコアのデータである。このスコアのデータとして、最終的に認識結果として決定された文字に対するスコア（最高スコア）だけでなく、他の文字に対するスコアを保持するようにしてもよい。また、さらに、複数のフォント種別によってスコアを算出した場合には、フォント種別と文字種別の組み合わせに関連付けて複数のスコアの値を保持するようにしてもよい。
採用されたフォントは、当該文字に対して、フォント選択部３３が選択したフォントの種別を識別するデータを保持する。なお、フォント選択部３３がフォントの選択の再設定を行った場合には、当該文字に対して、採用されたフォントのデータも書き換えられる。
認識結果は、認識された文字の種別を保持する。具体的には、認識結果として、文字コードが保持される。なお、例えばフォントの再選択の結果として認識処理を複数回行った場合には、この認識結果が書き換えられる場合もある。

現在ポイントは、文字認識装置１における処理において、現在認識の対象となっている文字の位置を指す指標情報である。文字認識部３１が１文字ずつ認識処理を行うにつれて、現在ポイントは１つずつ前へ（同図における左から右へ）進んでいく。ただし、フォントの再選択等によって、現在ポイントが後ろへ（同図における左側へ）戻る場合もあり得る。

同図に示す例では、文字カウントの値は、９７から、１ずつ増分して、１１９までである。文字カウントの値が９６以下および１２０以上の部分については、図示を省略している。また、これらの文字カウントに対応する入力文字画像は、それぞれ、「し」、「か」、「し」、「彼」、「は」、・・・（以下省略）という文字の画像である。なお、私用されているフォントは途中で変更されている場合がある。スコアのデータの具体例は、図において省略されている。採用されたフォントは、文字カウントが９９から１０８までの範囲において「Ａ」という識別データで表されるものである。なお、文字カウントが１０９以上の部分は、現在ポイントよりも後の部分であり、採用されるフォントはみていであるため「−」と示されている。認識結果は、各文字画像に対応する認識結果である。ここでは、文字カウント９９の位置から、順次、「し」、「か」、「し」、「彼」、「は」、「、」、「素」、「晴」、「５」、「レ」という認識結果が格納されている。なお、認識結果には認識誤りが含まれる場合もある。

図３は、文字認識装置１による文字認識処理の手順を示すフローチャートである。以下、このフローチャートに沿って、文字認識装置１による処理の全体的な流れを説明する。

まずステップＳ１において、文字認識装置１は、現在ポイントを初期化する。具体的には、文字認識装置１は、現在ポイントを、認識処理の対象の文字の列の先頭にセットする。

次にステップＳ２において、フォント選択部３３は、フォントを選択し、設定する。具体的には、ステップＳ１からステップＳ２に移ってきた場合には、フォント選択部３３は、予め定められたデフォルトのフォントを選択し、設定する。また、Ｓ９からステップＳ２に移ってきた場合には、フォント選択部３３は、フォント変更位置（フォント変更位置については、後述する）以後の文字の画像に基づいて、ステップＳ８の処理（後述する）の結果として識別されたフォントを選択し、設定する。
なお、ステップＳ１からステップＳ２に移ってきた場合においても、フォント選択部３３が、現在ポイントから後の数文字分の文字の画像に基づいて、フォントを識別し、選択するようにしてもよい。
なお、フォント選択部３３がフォントを選択する処理の詳細については、後述する。

次にステップＳ３において、文字認識部３１は、現在ポイントの文字の認識処理を行う。具体的には、文字認識部３１は、現在選択されているフォントの辞書データを用いて、現在ポイントの文字画像の、各文字に対するスコアを算出する。そして、最もスコアの高い文字を認識結果として決定する。このとき、文字認識部３１は、算出したスコアの情報を作業用のデータ記憶領域（図２参照）に書き込んでおく。

次にステップＳ４において、選択再考判断部３５は、現在ポイントまでの所定の長さの文字列のスコアに基づいて、当該所定の長さの文字列についての総合スコアを算出する。ここで、「所定の長さ」は複数であってもよい。ここで算出される総合スコアは、当該所定の長さの文字列に関して、現在選択されているフォントが妥当なフォントであるか否かを評価するための数値である。この総合スコアが所定の基準値以上であれば、現在選択されているフォントは妥当なフォントであると推定できる。逆に、この総合スコアがその基準値未満であれば、現在選択されているフォントが妥当ではないかもしれないと推定できる。なお、総合スコアについて、絶対的なスコアに基づく算出方法と、直前のスコアとの比較による相対的なスコアに基づく算出方法とがある。これらの総合スコアの算出のしかたについては、後で詳述する。

次にステップＳ５において、選択再考判断部３５は、ステップＳ４で算出した総合スコアが、基準値以上であったかいなかを判断する。前述の通り、「所定の長さ」が複数である場合には、総合スコアも複数算出される。算出されたすべての総合スコアが基準値以上であった場合、即ち現在選択されているフォントが妥当であると推定される場合（ステップＳ５：ＹＥＳ）、次にステップＳ１０に進む。１個以上の総合スコアが基準値未満であった場合、即ち現在選択されているフォントを再考すべきであるかもしれない場合（ステップＳ５：ＮＯ）、次にステップＳ６に進む。

次にステップＳ６に進んだ場合、同ステップにおいて、選択再考判断部３５は、フォントが変更された位置を検出する。このとき、選択再考判断部３５は、知識に基づいて、フォント変更位置を検出する。本実施形態における知識は、「フォント変更位置は、単語の区切りの位置に限定される」というものである。言い換えれば、単語の途中ではフォントは変更されないという知識である。そのため、選択再考判断部３５は、単語辞書データを内部に備えており、この単語辞書データを参照しながら、作業用のデータ記憶領域との照合を行い、フォント変更位置を検出する。
なお、選択再考判断部３５が、形態素解析処理エンジンを備えるようにしてもよい。この場合、選択再考判断部３５は、現在ポイントまでの文字の列（認識結果の文字の列）について、形態素解析処理を行う。そして、形態素解析処理の結果として、認識対象の文字列の中の形態素の区切りの位置を、単語の区切りの位置として扱う。なお、形態素と単語とをほぼ同一のものとみなしても、本実施形態では差し支えない。
なお、フォント変更位置を検出する処理については、後でもより詳細に説明する。
このように、選択再考判断部３５は、文字認識部３１によって算出された一連の文字に関するスコアと、知識とに基づいて、フォント変更位置を検出（推定）する。

次にステップＳ７において、選択再考判断部３５は、ステップＳ６の処理においてフォント変更位置を検出できたか否かを判定する。フォント変更位置が検出されていた場合には次に変更後のフォントを識別するために、ここで処理を分岐する。フォント変更位置が検出できた場合（ステップＳ７：ＹＥＳ）には、次のステップＳ８へ進む。フォント変更位置が検出できなかった場合（ステップＳ７：ＮＯ）には、次に、ステップＳ１０へ飛ぶ。

次にステップＳ８に進んだ場合、同ステップにおいて、フォント選択部３３は、フォント変更位置以後の文字画像の列に基づいて、使用されているフォントを識別する。具体的には、フォント選択部３３は、フォント変更選択位置以後、且つ現在ポイントまでの文字画像の列について、各フォントの辞書データでスコアを計算する。そして、当該列に関して、最もスコアの高いフォントが、当該列において使用されていると判断する。

次にステップＳ９において、文字認識装置１は、現在ポイントを、フォント変更位置に設定する。これにより、ステップＳ６で検出されたフォント変更位置から、ステップＳ８で識別されたフォントの辞書データを用いて、文字認識処理をし直すこととなる。本ステップの処理の終了後は、ステップＳ２に戻る。

ステップＳ５から、あるいはステップＳ７から、ステップＳ１０に進んだ場合の処理は、次に述べるとおりである。
ステップＳ１０において、文字認識装置１は、現在ポイントを、次の文字に進める。
次にステップＳ１１において、文字認識装置１は、文字認識処理の対象である入力文字画像がすべて終了したか否かを判定する。終了した場合（ステップＳ１１：ＹＥＳ）、文字認識装置１は、このフローチャート全体の処理を終了する。終了していない場合、即ち、未処理の入力文字画像が残っている場合（ステップＳ１１：ＮＯ）、次の文字を処理するために、ステップＳ３に戻る。
以上で、文字認識装置１の全体の処理手順の説明を終わる。

次に、選択再考判断の処理の詳細について説明する。選択再考判断は、前述の通り、フォントの選択をし直すべきであるかどうかを判断するとともに、フォント変更点を推定する処理である。

図４は、文字認識装置１による処理途中のある状態における、作業用のデータ記憶領域に書き込まれている内容を示す概略図である。作業用のデータ記憶領域の構成自体は、既に説明した通りである。同図において、現在ポイントは、文字カウント「１０８」の位置を指している。また、現在選択されているフォントは「Ａ」であり、文字カウント「９９」から「１０８」までの各位置において、フォント「Ａ」の辞書データで算出したスコアが書き込まれている。具体的には、文字カウント「９９」においてスコアは９５０であり、以下、各位置でのスコアは、９３３、９４８、９２３、９１０、９０１、７７７、７９１、７６０、７５０である。文字カウント「１０９」以後の位置では、まだスコアが算出されていない。同図に示す範囲内において、文字カウント「９９」から「１０４」までにおいてはスコアの値はそれぞれ、１０００点満点中の９００点以上である。一方で、文字カウント「１０５」以後「１０８」までにおいて、スコアの値はそれぞれ８００点未満である。このように、認識対象の文字の列の中のある部分列において、不連続性をもってスコアの値が変わってしまうことは、入力文字画像で使用されているフォントが変わった場合に起こり得る。同図に示す例では、文字カウント「１０５」の位置以後においてスコアが低くなっている。このとき、選択再考判断部３５は、文字カウント「１０５」の位置以後でフォントが変化したかどうかを、次に述べる処理で判定する。また、選択再考判断部３５は、フォントが変化した点（位置）を推定する。既に述べたとおり、選択再考判断部３５は、その判断のために、文字列の中における所定区間の総合スコアを計算する。これは、図３におけるステップＳ４で計算される総合スコアである。

図５は、選択再考判断部３５によって算出される総合スコアを説明するための概略図である。同図において、各々の丸印が認識処理の対象の文字に対応する。そして、同図では、文字の位置を相対値で示している。即ち、現在ポイントの位置をゼロとし、文字の列の前方（同図においては左側）を負として、文字の列の後方（同図においては右側）を負とする。また、各位置におけるスコアを、この相対値を用いて表す。即ち、相対位置「０」におけるスコアはＳ_０であり、相対位置「−１」におけるスコアはＳ_−１であり、また、他の位置についても同様である。

ここで、選択再考判断部３５は、現在ポイントを含む直近のｎ個の文字の列の総合スコアを算出する。そのｎ個の文字とは、同図において、相対位置が、「−ｎ＋１」から「０」までの文字である。ただし、ｎがとり得る範囲は、Ｎ_ｍｉｎ≦ｎ≦Ｎ_ｍａｘである。Ｎ_ｍｉｎおよびＮ_ｍａｘは、適宜定められる整数値である。例えば、Ｎ_ｍｉｎおよびＮ_ｍａｘの値を、文字認識装置１の設定値として定められるようにする。一例として、Ｎ_ｍｉｎ＝１，Ｎ_ｍａｘ＝６とするが、これらの値には限られない。選択再考判断部３５は、上記のｎ個の文字の列の総合スコアを、各々の文字のスコアの値Ｓ_−ｎ＋１，Ｓ_−ｎ＋２，・・・，Ｓ_０に基づいて算出する。上記ｎ個に含まれる各々の文字のスコアの値が高いほど、そのｎ個の総合スコアの値が高くなるようにする。

選択再考判断部３５が算出する総合スコアとして、絶対総合スコアまたは相対総合スコアのいずれかを用いる。これらのいずれを用いるかについては、適宜定める。
絶対総合スコアは、上記ｎ個の文字のスコアだけによって定まる絶対的な値である。一例として、選択再考判断部３５は、絶対総合スコアとして、これらｎ個のスコアの平均値を用いる。つまり、このとき、絶対総合スコアは、
（Ｓ_−ｎ＋１＋Ｓ_−ｎ＋２＋・・・＋Ｓ_０）／ｎ
という式で計算される。
相対総合スコアは、上記ｎ個の文字のスコアが、その直前の所定の長さの文字の列のスコアと比べてどの程度高いか或は低いかを表す相対的な値である。一例として、選択再考判断部３５は、これらｎ個のスコアの平均値から、それらｎ個の文字の列の直前のＮ_０個のスコアの平均値を減じた値を用いる。なお、Ｎ_０は、適宜定められる整数値である。一例として、Ｎ_０＝Ｎ_ｍａｘとしてよいが、その値には限定されない。つまり、このとき、相対総合スコアは、
｛（Ｓ_−ｎ＋１＋Ｓ_−ｎ＋２＋・・・＋Ｓ_０）／ｎ｝−｛（Ｓ_{−ｎ−Ｎ０＋１}＋Ｓ_{−ｎ−Ｎ０＋２}＋・・・＋Ｓ_−ｎ）｝／Ｎ_０｝
という式で計算される。

ｎが複数の値をとり得るとき、選択再考判断部３５は、その各々のｎの値について、総合スコアを計算する。上で例示したＮ_ｍｉｎ＝１，Ｎ_ｍａｘ＝６の場合、ｎは、ｎ＝１，２，３，４，５，６の６通りの値をとり得る。

図６は、上で説明した総合スコアの具体例を説明するための概略図である。同図に示す例では、ｎ＝４であり、Ｎ_０＝４である。同図において示す、９４８，９２３，９１０，９０１，７７７，７９１，７６０，７５０という値は、各々の位置について算出されたスコアである。
図示する例において、選択再考判断部３５は、絶対総合スコアを次のように計算する。即ち、
（Ｓ_−３＋Ｓ_−２＋Ｓ_−１＋Ｓ_０）／ｎ
＝（７７７＋７９１＋７６０＋７５０）／４
＝７６９．５０
である。
また、図示する例において、選択再考判断部３５は、相対総合スコアを次のように計算する。即ち、
｛（Ｓ_−３＋Ｓ_−２＋Ｓ_−１＋Ｓ_０）／ｎ｝−｛（Ｓ_−７＋Ｓ_−６＋Ｓ_−５＋Ｓ_−４）｝／Ｎ_０｝
＝｛（７７７＋７９１＋７６０＋７５０）／４｝−｛（９４８＋９２３＋９１０＋９０１）／４｝
＝−１５１．００
である。

既に述べたように、選択再考判断部３５によって算出される総合スコア（絶対総合スコアまたは相対総合スコア）が所定の基準値未満である場合には、そのｎ個の文字の列の先頭の位置が、フォント変更点である可能性がある（図３のステップＳ５における分岐）。つまり、その位置は、フォント変更点の候補である。なお、ｎが複数の値をとり得る場合には、フォント変更点の候補が複数存在する場合があり得る。

ここで、総合スコアについての基準値は、適宜、設定可能とする。
絶対総合スコアについての基準値は、一例として、７９０点とする。
相対総合スコアについての基準値は、一例として、−１００点とする。
なお、ここに例示した値以外を基準値として用いてもよい。

図７は、選択再考判断部３５が、上記のフォント変更点の候補のそれぞれが、実際にフォント変更点であるか否かを判定する処理を説明するための概略図である。前述の通り、選択再考判断部３５は、フォント変更点を推定するために、「フォントが変更されるのは単語の区切りにおいてである」という知識に基づいた処理を行う。選択再考判断部３５は、単語辞書データを記憶する手段を内部に備え、その単語辞書データを参照しながらフォント変更点を推定する。同図の（ａ）および（ｂ）のそれぞれは、選択再考判断部３５が前述の総合スコアに基づいて求めたフォント変更点候補の具体例を示す。同図（ａ）は、フォント変更点が「素晴らしい」の中の「素」である場合の例を示す。このとき、この「素」とその直前の「、」（読点）の間で異なるフォントが用いられている可能性がある。同図（ｂ）は、フォント変更点が「素晴らしい」の中の「し」である場合の例を示す。このとき、この「し」とその直前の「ら」との間で異なるフォントが用いられている可能性がある。

選択再考判断部３５は、これらのフォント変更点候補のそれぞれについて、単語辞書データを参照しながら処理を行う。単語辞書データは、予め作成されているものであり、例えば「しかし」、「彼」、「は」、「素晴らしい」、「出来」などといった単語を含んでいる。よって、選択再考判断部３５は、同図（ａ）の例におけるフォント変更点候補が、「は」という単語と「素晴らしい」という単語の区切りにあることから、このフォント変更点候補は真にフォント変更点であると判定する。一方、選択再考判断部３５は、同図（ｂ）の例におけるフォント変更点候補は、「素晴ら」という文字列と「しい」という文字列を区切る位置にあることから、このフォント変更点候補は真のフォント変更点ではないと判定する。その前提として、「素晴ら」という文字列や「しい」という文字列は、単語辞書データには登録されていない。

選択再考判断部３５が形態素解析処理エンジンを備える場合には、選択再考判断部３５は対象の文字列について形態素解析処理を行う。そして、フォント変更点候補が形態素の区切りに位置している場合には、選択再考判断部３５は、そのフォント変更点候補が真のフォント変更点であると判定する。また、フォント変更点候補が形態素の区切りではない場合には、選択再考判断部３５は、そのフォント変更点候補は真のフォント変更点ではないと判定する。なお、形態素解析処理自体は、既存の技術を用いて行える。

次に、フォント選択部３３による処理の詳細について説明する。
フォント選択部３３は、所定の長さの文字画像の列に基づいて、それらの文字画像で使用されているフォント種別を識別するものである。フォント選択部３３は、図３のステップＳ２でフォントを選択する処理を行う。

図８は、フォント選択部３３がフォントを識別し、特定する処理を説明するための概略図である。同図（ａ）に示す「しかし彼は」文字画像の列は、フォント選択部３３がフォントの識別処理を行う対象の文字画像である。フォント選択部３３は、まず、これらの文字画像の一つ一つについてフォントを特定する。図示する例では、先頭の「し」のフォントをまず特定する。そのため、フォント選択部３３は、この文字画像に関する複数の候補文字を選択する。同図（ｂ）は、選択された文字候補を示すものであり、平仮名の「し」や、片仮名の「レ」や、英字（大文字）の「Ｌ」などが文字候補に含まれている。これらの文字候補を選択するために、フォント選択部３３は、候補文字特定用辞書を使用する。候補文字特定用辞書は、認識用データベース３０に記憶されており、各フォントに共通の特徴量を持つ辞書データである。つまり、候補文字特定用辞書は、フォント種別に依存しない辞書データである。候補文字特定用辞書は、複数のフォント種別における各文字の共通の特徴量等の情報を含むものであり、予め認識用データベース３０に書き込んでおく。現段階ではフォントが特定できていないため、フォント選択部３３は、この候補文字特定用辞書を用いることによって、複数の候補文字を特定する。フォント種別に共通の特徴量を用いることにより、対象画像から得られた文字形状から候補を絞り込むことは可能である。また、取得した文字候補の類似文字を予め候補文字特定用辞書に登録しておくことにより、その類似文字を候補文字の集合に含めることも可能である。

同図（ｂ）に示す候補文字が得られると、次にフォント選択部３３は、それらの候補文字のそれぞれについて、フォント別の辞書データを参照し、処理対象の文字のスコアを算出する。同図（ｃ）は、処理対象の文字画像について、候補文字ごと、且つフォント種別ごとに算出されたスコアの例を示す。同図（ｃ）の表において、各行はフォント種別に対応し、各列は文字種別（候補文字）に対応する。この表に示すスコアの値の中で、最も高いのは、フォント種別「フォントＡ」における文字「し」のスコア９６０である。よって、フォント選択部３３は、この文字画像のフォントが「フォントＡ」であることを特定する。また、フォント選択部３３は、フォント識別の対象である他の文字についても、同様の処理を行い、各文字のフォントを特定する。

図９は、フォント選択部３３がフォントを識別する処理を説明するための概略図であり、複数の文字画像に対して行ったフォント識別の結果を示している。同図に示す通り、左側から「し」、「か」、「し」、「彼」、「は」の各文字画像に対する識別結果は、それぞれ、「フォントＡ」、「フォントＢ」、「フォントＡ」、「フォントＡ」、「フォントＡ」である。このように、フォント選択部３３は、フォント選択の確度を高めるため、数文字に渡ってフォントを特定する処理を繰り返し、最も可能性の高いフォントを選択する。フォント選択部３３は、複数の文字それぞれについて特定されたフォントに基づき、例えば単純な多数決で全体のフォントを特定する。図示する例では、「フォントＡ」が選択される。

なお、このとき、文字種別ごとに重み（フォント選択用スコア）を予め設定しておいて、重み付きの多数決によって全体のフォントを特定するようにしてもよい。フォント選択用スコアとしては、字形が単純な文字（例えば、加算記号「＋」やコロン「：」などといった記号類）に対して低い値（重みが小さい値）を設定する。逆に字形が複雑な文字（例えば、漢字等）に対して高い値（重みが大きい値）を設定する。

なお、図８で説明した候補文字特定用辞書による候補文字の絞り込み抽出を行わず、最初からフォント種別ごとの辞書データを使用して、スコアの高いフォントを選択するようにしてもよい。また、その他、類似の方法によってフォント選択部３３がフォントを選択するようにしてもよい。

以上説明したように、第１の実施形態では、選択再考判断部３５が、文字認識部３１から出力されたスコアのデータに基づいて途中でのフォントの変更の可能性を検出し、ルールにも基づいてフォントが変更された位置を推定する。これにより、選択再考判断部３５が、認識処理において設定したフォントの種別を変更すべきであるか否かを判断する。よって、第１の実施形態では、フォントが変更された位置を精度よく検出することができる。
また、第１の実施形態では、選択再考判断部３５が、単語の区切りのみがフォントの区切りになり得るというルール（知識）に基づいて、フォントが変更された位置を推定する。これにより、単語の途中でフォントが変更されたという判断を行うことなく、フォントが変更された位置を精度よく検出することができる。
そして、これらにより、文字認識の精度が向上する。

（第２の実施形態）
次に、第２の実施形態について説明する。なお、前述の実施形態と同様の事項については説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図１０は、本実施形態による文字認識装置の概略機能構成を示すブロック図である。同図に示すように、文字認識装置２は、画像入力部２１と、画像処理部２２と、文字抽出部２３と、認識用データベース３０と、文字認識部３１と、フォント選択部３３と、選択再考判断部３６と、出力部４１とを持つ。即ち、文字認識装置２は、第１の実施形態における選択再考判断部３５に代えて、選択再考判断部３６を持つ。

文字認識装置２による処理手順の全体は、図３を参照しながら説明した文字認識装置１のそれとほぼ同様である。ただし、同図のステップＳ６において用いる知識が、第１の実施形態において用いる知識と異なる。以下で、選択再考判断部３６の処理について説明する。本実施形態における選択再考判断部３６は、下記の２つのルールを、知識として利用する。なお、これらのルールは、第１の実施形態で既に述べたルールベースに格納されている。
（ルール１）一対の括弧等で区切られた一連の文字の列は、特有のフォントで印字されている場合がある。
（ルール２）通貨記号で始まる一連の数字列（ただし、コンマ（comma）やピリオド（period）を含んでもよい）は、特有のフォントで印字されている場合がある。

上記のルール１における「括弧等」とは、鉤括弧（一重または二重の鉤括弧）や、丸括弧や、角括弧や、波括弧（カーリーブレース）や、山括弧等を含むが、これらに限定されない。これらの括弧は、文書内において、左右の対（ただし、縦書き文書の場合には上下の対）で使用される。これら対を成す括弧等を、便宜上、「囲み記号」と呼ぶ。囲み記号は、文字列を左右から（ただし、縦書き文書の場合には上下から）囲むための記号である。囲みの最初に位置する記号を、「開く囲み記号」（open parenthesis）とも呼ぶ。また、囲みの最後に位置する記号を、「閉じる囲み記号」（closed parenthesis）とも呼ぶ。つまり、ルール１は、入力された列内で一対の囲み記号に囲まれた文字列について、当該文字列の前の文字列および後の文字列とはフォント種別が変更されるというルールである。
上記のルール２における「通貨記号」とは、円を表す記号「￥」や、ドルを表す記号「＄」や、その他の通貨を表す記号を含む。なお、通貨記号と、その通貨記号に後続する数字の列とを合わせて、便宜上「数字列」と呼ぶ。つまり、ルール２は、列内における数字列は、当該数字列の前の文字列および後の文字列とは、フォント種別が変更されるというルールである。

なお、上記の括弧等あるいは通貨記号として、いわゆる全角文字が用いられる場合と、いわゆる半角文字が用いられる場合とがある。これらの文字が全角であるか半角であるかに依らず、選択再考判断部３６はルール１またはルール２を適用しながらフォント変更点を推測する。

図１１は、選択再考判断部３６によるフォント変更点推定の処理を説明するための概略図である。同図（ａ）〜（ｃ）のそれぞれは、認識処理の対象である文字画像の列を示す。また、同図では、認識処理における現在ポイントを示すとともに、現在ポイントを基準とした相対位置を各文字画像の上に付している。

同図（ａ）の例では、現在ポイント（相対位置が「０」）の文字は「い」であり、相対位置「−５」における文字は左二重鍵括弧であり、相対位置「＋４」における文字は右二重鍵括弧である。なお、現在位置に基づいた部分文字列の総合ポイントは既に計算されている（総合ポイントの計算は、第１の実施形態と同様）。これにより、選択再考判断部３６は、フォント変更点の候補を既に求めている。相対位置「−５」の文字がフォント変更点候補である場合、上記のルール１にしたがって、選択再考判断部３６は、このフォント変更点候補が真のフォント変更点であると判定する。即ち、相対位置「−６」と相対位置「−５」とで、異なるフォントが用いられていると判定する。一方、相対位置「−２」の文字がフォント変更点候補である場合、上記のルール１によれば、選択再考判断部３６は、このフォント変更点候補は真のフォント変更点ではないと判定する。即ち、相対位置「−３」と相対位置「−２」とでは異なるフォントは用いられないという知識（ルール１）を利用した判定を行う。

同図（ｂ）の例では、現在ポイント（相対位置が「０」）の文字は「べ」であり、相対位置「−１２」における文字は左二重鍵括弧であり、相対位置「＋３」における文字は右二重鍵括弧である。ここでも同様に、選択再考判断部３６は、フォント変更点の候補を既に求めている。相対位置「−５」の文字がフォント変更点候補である場合、上記のルール１によれば、選択再考判断部３６は、このフォント変更点候補は真のフォント変更点ではないと判定する。即ち、相対位置「−６」と相対位置「−５」とでは異なるフォントは用いられないという知識を利用した判定を行う。一方、相対位置「−２」の文字がフォント変更点候補である場合、上記のルール１にしたがって、選択再考判断部３６は、このフォント変更点候補が真のフォント変更点であると判定する。即ち、相対位置「−３」と相対位置「−２」とで、異なるフォントが用いられていると判定する。

同図（ｃ）の例では、現在ポイント（相対位置が「０」）の文字は数字の「５」であり、相対位置「−５」における文字は通貨記号「＄」である。また、相対位置「−５」から「０」までの文字の列は、通貨記号で始まる一連の数字列である。相対位置「−５」の文字がフォント変更点候補である場合、上記のルール２により、選択再考判断部３６は、このフォント変更点候補は真のフォント変更点であると判定する。即ち、相対位置「−６」と相対位置「−５」とでは異なるフォントが用いられていると判定する。一方、相対位置「−３」の文字がフォント変更点候補である場合、上記のルール２にしたがえば、選択再考判断部３６は、このフォント変更点候補は真のフォント変更点ではないと判定する。その理由は、相対位置「−３」は、ルール２で規定する「通貨記号で始まる一連の数字列」の途中であるためである。即ち、選択再考判断部３６は、このような一連の途中ではフォントは変更されないという知識を利用した判定を行っている。

以上のように、選択再考判断部３６は、ルール１とルール２とを併用して、フォント変更点を推定する処理を行う。なお、選択再考判断部３６が、ルール１とルール２のいずれか一方のみを用いるようにしてもよい。また、ルールベースにさらにその他のルールを予め格納しておき、選択再考判断部３６が、当該その他のルールを併用してフォント変更点を推定するようにしてもよい。また、選択再考判断部３６が、第１の実施形態で説明した「フォント変更位置は、単語の区切りの位置である」というルール（知識）と、本実施形態で説明しているルールとを併用するようにしてもよい。

以上説明したように、第２の実施形態では、選択再考判断部３６が、囲み記号（左右一対の括弧等）で囲まれた文字列のフォントは、その前後の文字列と異なるフォントである（場合がある）というルールに基づいて、フォントが変更された位置を推定する。これにより、フォント変更点を推定する精度が向上する。
また、第２の実施形態では、選択再考判断部３６が、数字列（数字のみの列や、数字とピリオドとコンマのみからなる列や、これらの列の先頭に通貨記号が存在するもの等）のフォントは、その前後の文字列と異なるフォントである（場合がある）というルールに基づいて、フォントが変更された位置を推定する。これにより、フォント変更点を推定する精度が向上する。
さらに第２の実施形態では、第１の実施形態で説明した、単語の区切りの位置のみがフォント変更点になり得るという知識を併用することもできる。これにより、フォント変更点を推定する精度が向上する。

上記各実施形態では、選択再考判断部がフォント変更点を推定する際に用いる知識（ルール）を複数説明したが、さらに、次のようなルールを用いてもよい。例えば、通貨記号の有無に依らず、一連の数字列の前後が区切りであり、その区切りの箇所においてフォントは変更されるというルールを用いてもよい。また、例えば、日本語の文の中における一連の英字列の前後が区切りであり、その区切りの箇所においてフォントは変更されるというルールを用いてもよい。

また、上記各実施形態では、図３に示したフローチャートにしたがって、文字認識部と選択再考判断部とフォント選択部とに順次制御が渡り、シーケンシャルに処理を行う場合を説明したが、例えば、文字認識部と選択再考判断部とフォント選択部の機能を複数のプロセッサーに割り当てて、少なくとも一部機能を並列に処理するようにしてもよい。これにより、適切なフォントを選択しながら、文字認識処理をより高速に実行できる。

また、上記各実施形態では、１件の入力画像について、ワンパス（one-pass）で文字認識部の処理と選択再考判断部の処理とフォント選択部の処理とを行ったが、例えば、フォントを識別する処理のパスと、そのパスで特定されたフォントに基づく文字認識の処理のパスとを、ツーパス（two-pass）方式で実行するようにしてもよい。

また、上記各実施形態における画像処理部の機能を文字認識装置の外部に設けるようにしてもよい。この場合、文字認識装置は、前処理済みの画像を入力する。さらに、上記各実施形態における文字抽出部の機能を文字認識装置の外部に設けるようにしてもよい。この場合、文字認識装置は、切り出された文字画像の、順序付けられた列を入力する。

以上説明した少なくともひとつの実施形態によれば、文字認識部から出力されたスコアのデータに基づいて途中でのフォントの変更の可能性を検出し、ルールベースに記憶されたルールにも基づいてフォントが変更された位置を推定し、認識処理において設定したフォントの種別を変更すべきであるか否かを判断する選択再考判断部を持つことにより、フォントが変更された位置（フォント変更点）を精度よく検出することができる。これにより、文字認識の精度向上につながる。

なお、上述した各実施形態における文字認識装置の少なくとも一部の機能をコンピューターで実現するようにしても良い。その場合、機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１，２…文字認識装置、２１…画像入力部、２２…画像処理部、２３…文字抽出部、３０…認識用データベース、３１…文字認識部、３３…フォント選択部、３５，３６…選択再考判断部、４１…出力部

Claims

フォント種別ごとの文字認識用の辞書データを保持する認識用データベースと、
文字画像の列を取得し、前記認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する文字認識部と、
前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識部が参照する前記辞書データのフォント種別を設定するフォント選択部と、
前記文字認識部が前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択部が前記フォント種別を再設定するよう制御する選択再考判断部と、
を備える文字認識装置。
前記選択再考判断部は、前記列内での単語の区切り位置のみにおいてフォント種別が変更されるという前記ルールに基づいて、前記フォント変更点を推定する、
請求項１に記載の文字認識装置。
前記選択再考判断部は、前記列内で一対の囲み記号に囲まれた文字列は、当該文字列の前の文字列および後の文字列とは、フォント種別が変更されるという前記ルールに基づいて、前記フォント変更点を推定する、
請求項１または２に記載の文字認識装置。
前記選択再考判断部は、前記列内における数字列は、当該数字列の前の文字列および後の文字列とは、フォント種別が変更されるという前記ルールに基づいて、前記フォント変更点を推定する、
請求項１から３までのいずれか一項に記載の文字認識装置。
文字画像の列を取得し、フォント種別ごとの文字認識用の辞書データを保持する認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する文字認識過程と、
前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識過程で参照する前記辞書データのフォント種別を設定するフォント選択過程と、
前記文字認識過程で前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択過程が前記フォント種別を再設定するよう制御する選択再考判断過程と、
を含む文字認識方法。
コンピューターを
フォント種別ごとの文字認識用の辞書データを保持する認識用データベースと、
文字画像の列を取得し、前記認識用データベース内の前記辞書データを参照しながら前記文字画像の認識処理を行うとともに、認識処理の際の前記辞書データと前記文字画像との間の合致度を表すスコアを出力する文字認識部と、
前記文字画像と前記認識用データベース内の前記フォント種別ごとの前記辞書データに基づいて前記文字画像のフォント種別を特定することによって、前記文字認識部が参照する前記辞書データのフォント種別を設定するフォント選択部と、
前記文字認識部が前記文字画像の列に含まれる前記文字画像の認識処理を順次行った際に、前記スコアが低下した前記列内の区間を検出するとともに、ルールベース内に記憶されているルールに基づいて当該区間または当該区間近傍におけるフォント変更点を推定し、前記フォント変更点以後について前記フォント選択部が前記フォント種別を再設定するよう制御する選択再考判断部、
として機能させるためのプログラム。