JP2016062412A

JP2016062412A - 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム

Info

Publication number: JP2016062412A
Application number: JP2014191131A
Authority: JP
Inventors: 哲嗣松谷; Tetsuji Matsutani
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2014-09-19
Filing date: 2014-09-19
Publication date: 2016-04-25
Anticipated expiration: 2034-09-19
Also published as: JP6387761B2

Abstract

【課題】文字コード毎にフォントサイズを求めるテーブルを設けることなく、画像データから文字画像のフォントサイズを的確に検出する。
【解決手段】画像データ中の１文字の画像毎に外接矩形を検出すると共に（ステップＳ１１）、画像データを複数の塊に区分し、仮判定領域として設定する（ステップＳ１２）。各仮判定領域単位で構成要素である個々の文字の画像の外接矩形の高さに関する度数分布を作成し（ステップＳ１３）、有効な外接矩形の高さが２種類以上ある仮判定領域を正規判定領域とみなす（ステップＳ１４でＹＥＳ、ステップＳ１７）。正規判定領域とみなされなかった仮判定領域について（ステップＳ１４でＮＯ）、正規判定領域の条件を満たすまで隣接する他の判定領域と統合し（ステップＳ１６）、正規判定領域毎に、その中の文字画像の外接矩形のうち最大の高さを代表値としてフォントサイズを決定する（ステップＳ１８）。
【選択図】図３

Description

本発明は、文字認識において、そのフォントサイズをより正確に検出するための技術に関する。

ＯＣＲ（Optical Character Recognitionの略、光学的文字認識）とは、原稿をスキャナーやデジタルカメラ等によって光学的に読み取って得られた画像データを、予め記憶しているパターンと照合するなどして、コンピューター上で編集できる形式（文字コード列）に変換する技術をいう。
原稿上には様々なフォントサイズの文字が記載されるが、一般的なＯＣＲ処理では文字コード列を作成するだけであり、フォントサイズの検出までは行わない。

ＯＣＲ処理の結果をＰＤＦ形式に変換して、そのＰＤＦ形式での文字画像上に透明なテキストレイヤーが埋め込むような場合（レイヤーテキスト付ＰＤＦ）には、フォントサイズを検出しなくても文字画像が原稿通りに再現されているので、見た目には特に問題がない。
ところが、例えば、マイクロソフト社のＷｏｒｄやＥｘｃｅｌなどのアプリケーションでは、ＯＣＲ処理により読み取られたテキストデータがテキストボックスやセルの形でそのまま表示されるので、個々の文字のフォントサイズを正しく認識しなければ、原画像との間に違和感が生じる。

また、このような編集可能なアプリケーションにあっては、個々の文字のフォントサイズもコンピューター上で取り扱う際の大切な情報の１つであり、得られたデータの利用価値を高めるためには、できるだけ正確に個々の文字のフォントサイズを検出するのが望ましい。
原稿上に記載された文字のフォントサイズを検出する従来の技術として、例えば、行毎の文字列の画像の外接矩形を抽出し、当該外接矩形の高さを基準にしてフォントサイズを検出する方法がある（以下、「第１の従来技術」という。）。

また、例えば、文字毎に当該文字の画像の外接矩形の大きさと実際のフォントサイズの比率を記憶したテーブル（「フォントサイズ変換テーブル」という。）を用意しておき、認識した文字の文字コードに基づき当該フォントサイズ変換テーブルから対応する比率を抽出して、その文字画像の外接矩形の大きさに抽出した比率を乗じて適正なフォントサイズに変換するような方法もある（特許文献１参照。以下、「第２の従来技術」という。）。

特開２０１１−２４８４１５号公報特開平５−２３３８７３号公報

しかしながら、第１の従来技術では、当該文字列の画像に含まれる文字種によって、フォントサイズがばらつくという問題がある。
例えば、アルファベットのフォントサイズを検出する際において、大文字もしくは「ｂ、ｄ、ｆ、ｈ、ｉ、ｋ、ｌ」等の背の高い小文字の画像の外接矩形の高さを標準とすると、これらの標準の文字と、「ｇ、ｊ、ｐ、ｑ、ｙ」等の下方に突出する部分を持つ特定の小文字とが混在する文字列の場合に、当該文字列の画像全体の外接矩形が個々の文字の画像の外接矩形よりも高くなるため、文字列中の文字の画像のフォントサイズを実際よりも大き目に検出してしまうという問題がある。また、反対に、当該文字列が、「ａ、ｃ、ｅ、ｍ、ｎ、ｏ、ｒ、ｓ、ｕ、ｖ、ｗ、ｘ、ｚ」等のように上記標準の文字よりも背の低い小文字のみからなるような場合には、当該文字列の画像全体の外接矩形が標準の文字の外接矩形よりも低くなるため、文字列中の文字の画像のフォントサイズを実際よりも小さ目に検出してしまうという問題がある。

第２の従来技術では、ＯＣＲの結果認識された文字コードを参照し、当該文字コードに対応して設けられたフォントサイズ変換テーブルを用いてフォントサイズを決定するので、フォントサイズの正確度は高いが、その一方で様々な言語、文字種、フォント毎にフォントサイズ変換テーブルを準備しなければならないため、膨大な労力と費用がかかり、かつ当該フォントサイズ変換テーブルを記憶するために大きな記憶領域が必要になるためコストが嵩むという問題がある。

本発明は、上述のような事情に鑑みてなされたものであって、フォント毎のフォントサイズ変換テーブルのような膨大なデータを用いることなく、画像データから文字コードのフォントサイズを適切に検出することができる画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラムを提供することを目的とする。

上記目的を達成するため、本発明の第１の態様は、原稿の画像データから文字コードを生成すると共に、フォントサイズ決定手段により各文字コードに対応するフォントサイズを検出する画像処理システムであって、前記フォントサイズ決定手段は、前記画像データ中の１文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得部と、前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定部と、前記仮設定された各判定領域について、異なる２種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定部と、前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定部と、前記決定部により正規な判定領域として決定されなかった判定領域を拡大する領域拡大部と、前記領域拡大部により拡大された新たな判定領域に対して、前記判定部、前記決定部及び前記領域拡大部による一連の処理を繰り返し実行させて判定領域を調整する調整部と、正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出部とを備えることを特徴とする。

ここで、前記領域拡大部は、前記決定部において正規な判定領域とされなかった判定領域について、当該判定領域に隣接する他の判定領域と統合することにより判定領域を拡大することが望ましい。
ここで、前記領域拡大部は、前記判定部において正規な判定領域とされなかった判定領域内に含まれる文字画像の外接矩形サイズの代表値と、当該判定領域に隣接する他の判定領域内の複数の文字画像の外接矩形サイズの代表値との差異が、第１の範囲よりも大きくなる場合には、当該隣接する他の判定領域を統合の対象としないことが望ましい。

また、前記各文字画像の外接矩形サイズは、当該外接矩形の高さ方向の大きさで規定されており、前記判定領域内の代表値とは、当該判定領域に含まれる文字画像の外接矩形の高さの最大値であるとしてもよい。
また、前記フォントサイズ検出部で判定領域毎のフォントサイズを検出した結果、第１のフォントサイズの判定領域と、これと大きさの異なる第２のフォントサイズの判定領域が存在する場合に、第１と第２のフォントサイズの差異が、第２の範囲内である場合には、第１と第２のいずれか一方のフォントサイズを、他方のフォントサイズに揃えるフォントサイズ整合部を備えることとしてもよい。

ここで、前記フォントサイズ整合部は、原稿の画像データのうち、フォントサイズの検出対象となる文字画像領域内の所定の範囲内の判定領域について、第１もしくは第２のフォントサイズのうち出現頻度の高い方のフォントサイズに揃えることが望ましい。
ここで、前記所定の範囲は、フォントサイズの検出対象となっている文字画像領域の全域であるとしてもよい。

また、前記画像処理システムは、さらに、前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、原稿の画像データに対して、前記文字認識手段による文字認識処理と、前記フォントサイズ決定手段によるフォントサイズ決定処理が並行して実行される構成としてもよい。
また、前記画像処理システムは、さらに、前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、原稿の画像データに対して、前記文字認識手段による文字認識処理を実行した後に、前記フォントサイズ決定手段によるフォントサイズ決定処理を実行するように構成してもよい。

また、本発明の第２の態様は、画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定方法であって、前記画像データ中の１文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、前記仮設定された各判定領域について、異なる２種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップと、を含むことを特徴とする。

さらに、本発明の第３の態様は、画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定処理を、画像処理システムに実行させるフォントサイズ決定プログラムであって、前記フォントサイズ決定処理は、前記画像データ中の１文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、前記仮設定された各判定領域について、異なる２種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップとを含むことを特徴とする。

上記構成の画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラムによれば、文字画像のフォントサイズを検出する際に、外接矩形サイズが異なる文字画像が適当に混在するようにフォントサイズの判定領域の大きさを調整することができるので、特定の文字種の外接矩形サイズを基準にしてフォントサイズを決定する場合に、当該文字種が判定領域中に存在する蓋然性が高くなり、当該基準となる文字種と同じ文字種の外接矩形サイズを当該判定領域内の各文字画像の外接矩形を代表する代表値とすれば、文字の種類の偏りによるフォントサイズの誤検出を減少させることができる。これにより、フォント毎の変換テーブルなどの膨大なデータを用いることなく、従来よりも正確にフォントサイズを決定することが可能となる。

本実施形態に係る画像処理システムの概要を示す図である。画像処理システムにおいて、画像データから、文字コードを作成するとともに、フォントサイズを検出し、電子データを出力する処理の手順を示すフローチャートである。図２のステップＳ４のフォントサイズ決定処理のサブルーチンを示すフローチャートである。画像処理システムにおいて、画像データからフォントサイズを検出する際の動作の第１の例を示す図である。画像処理システムにおいて、画像データからフォントサイズを検出する際の動作の第２の例を示す図である。画像処理システムにおいて、画像データからフォントサイズを検出する際の動作の第３の例を示す図である。変形例に係るフォントサイズ決定処理のサブルーチンを示すフローチャートである。図７の変形例を説明するための、画像データからフォントサイズを検出する際の動作の第４の例を示す図である。図７の変形例を説明するための、画像データからフォントサイズを検出する際の動作の第５の例を示す図である。（ａ）（ｂ）は、画像処理システムの構成例を示す図である。（ａ）（ｂ）は、画像処理システムの別の構成例を示す図である。（ａ）（ｂ）は、画像処理システムのさらに別の構成例を示す図である。

以下、本発明に係る画像処理システムの実施の形態について、図面に基づき説明する。
＜全体構成＞
図１は、本実施形態に係る画像処理システム１００の全体構成の概略を示す機能ブロック図である。
画像処理システム１００は、原稿の画像データから、文字コードを作成するとともに、フォントサイズを検出する機能を備えており、画像取得部１１０、文字認識部１２０、フォントサイズ決定部１３０及び電子データ生成部１４０を備えおり、例えば、パーソナルコンピューターに、以下に説明する処理を実行するためのプログラムをインストールして構成される。

（１）画像取得部１１０
画像取得部１１０は、外部の端末からＬＡＮを介して、もしくは、ＵＳＢメモリなどの携帯記憶媒体から、原稿の画像データを取得する。スキャナーや内蔵カメラ等を用いて、文書を含む原稿を読み取って画像データを取得するように構成してもよい。
（２）文字認識部１２０
文字認識部１２０は、上記取得した原稿の画像データをページメモリに展開して、文字画像の領域と、それ以外の図形や写真などの階調を有する画像（以下、単に「写真画像」という。）の領域を検出する。

このように文字画像の領域と写真画像の領域を検出するため公知の技術が用いられる。例えば、画像データにエッジ強調処理を施し、縦および／または横方向に画素をスキャンしてエッジを検出し、その検出頻度が一定の閾値より高い領域を文字画像の領域と判定し、それ以外の領域を写真画像の領域と判定することができる。
そして、写真画像の領域が検出されれば、その領域内の画像データと位置情報（メモリアドレス）を写真領域画像データとして電子データ生成部１４０に送信する。

また、文字画像であると判定された領域（以下、「文字領域」という。）の画像データについて、公知の文字認識処理を実行してテキストデータを生成する。
例えば、文字領域の画像データについて、水平方向及び垂直方向における濃度ヒストグラムを作成して、１文字ずつ画像を切り出し、切り出した各文字画像から特徴点（例えば、閉ループや独立点の個数およびそれらの位置など）を抽出して、予め用意していたテーブルに納められていた文字のパターンとのマッチングを行って、その文字コードを特定する。

この際、原稿が正しい方向に読み取られていない場合もあるので、必要に応じ文字画像を９０°ずつ回転しながらマッチングする場合もある。１つの文字について方向が特定して、原稿が正しい方向に読取られていないことが判明すれば、それを補正するように文字の認識対象となっている文字領域全体の画像データを回転させれば、以降の文字認識を円滑に進めることができる。濃度ヒストグラムによって、行間の方向も分かるので、文字画像の方向と合わせることにより判定対象の原稿の文字が縦書きか横書きかも分かる。

なお、画像処理システム１００に画像表示部やユーザー指示受付部を設けて、画像表示部に画像取得部１１０で取得した原稿の画像データを表示させ、ユーザーが当該表示画面を見て、原稿の画像データの回転指示や、文字が横書きか縦書きかの区別をユーザー指示受付部を介して指示するようにしても構わない。
文字認識部１２０は、文字領域画像について文字認識処理して得られた文字コードをその位置情報と共に文字コードデータとして電子データ生成部１４０に送信する。

（３）フォントサイズ決定部１３０
フォントサイズ決定部１３０は、矩形検出部１３１、仮設定部１３２、解析部１３３、判定部１３４、領域拡大部１３５、調整部１３６及びフォントサイズ検出部１３７を備え、文字認識部１２０から送信されてきた文字領域の画像データに基づき各文字についてフォントサイズを決定する。

まず、矩形検出部１３１において、画像データ中の１文字の画像毎に外接矩形を検出する。
本実施の形態では、上記のように文字認識部１２０において、濃度ヒストグラムに基づき１文字ずつ画像を切り出しているので、矩形検出部１３１は、その結果を利用して当該切り出した文字画像に外接する矩形（外接矩形）を検出し、その対向する２頂点（例えば、左上角と右下角の頂点）のメモリ上のアドレスを取得して、これにより各文字画像の外接矩形のサイズを得るようにしている。

仮設定部１３２は、上記外接矩形が検出された画像データについて、１文字もしくは、文字の並ぶ方向（横書きならば、水平方向）に互いに隣接している２文字以上の塊の画像に区分けし、それぞれの区分をフォントサイズの判定領域として仮設定する。
例えば、原稿の文章が英文である場合、単語と単語の間には必ずスペースが挿入されるので、水平方向に走査して得た濃度ヒストグラムにより、当該スペースを検出してこれにより単語毎に区分けしてそれぞれを判定領域とすることができる。

もちろん、区分けの仕方はこれに限らず、適当な文字数ごとに機械的に区分することも可能である。
解析部１３３は、仮設定部１３２により仮設定された判定領域（以下、「仮判定領域」という。）毎に、その構成要素である個々の文字の画像の外接矩形の大きさの特徴について解析する。より詳細には、横軸の階調を外形矩形の高さ方向における大きさ（以下、単に「外接矩形高さ」という。）とし、縦軸の度数を該当する外接矩形高さを有する文字画像の個数として度数分布表を作成する。

判定部１３４は、上記解析部１３３で生成された仮判定領域毎の度数分布を参照して、外接矩形高さが異なる文字画像が２種類以上あるか否かを判定する。
本実施の形態では、同じフォントサイズの文字の中でも背の高い文字種のうち一番数の多い文字の外接矩形の高さを標準値とし、各フォントサイズに対応した標準値を予め求めてテーブルに格納し、これと比較することにより文字画像のフォントサイズを決定するようにしている。例えば、アルファベットの場合には、「Ｊ」以外の大文字は同じ高さなので、それらの外接矩形高さを標準値とする。

判定領域内に、高さが異なる外接矩形の高さが異なる文字が２種類以上含まれるということは、そのうちの最大値（この値は、当該判定領域に含まれる文字のフォントサイズを決する際の代表値となる）となる文字画像が、上記フォントサイズ標準値の対象となった文字種と同種の文字である蓋然性が高く、これと比較することにより当該判定領域内の文字のフォントサイズを特定し得る。

ところが、判定領域内の各文字の高さが同一であれば、それらの文字の集合が、同じファントサイズであっても背の低い文字種のみからなるのか、背の高い文字種のみからなるのか不明である。
もし、前者である場合に上記のフォントサイズ標準値と比較すると、実際よりも小さなフォントサイズであると認識されてしまい、原稿通りに再現することができない。

そこで、判定部１３４では、仮設定された判定領域毎に、上記解析部１３３により取得された度数分布を参照して、異なる２種類以上の外接矩形高さの文字画像が当該判定領域に含まれているか（以下、「判定領域適合条件」という。）を判定する。
なお、高さの極端に低い文字種、例えば、「．」「。」「、」「，」などは、フォントサイズ決定の決め手にならないので、判定部１３４における判定領域適合条件の判定対象から除外するようにしている。詳しくは後述する。

判定領域適合条件を満たしていれば、当該仮設定された判定領域を、フォントサイズを確定するに適した判定領域（以下、「正規判定領域」という。）と判断する。
反対に、外接矩形高さが１種類のみである場合には、仮決定のまま、次段の領域拡大部１３５に通知する。
領域拡大部１３５は、判定部１３４により正規判定領域と見なされなかった仮判定領域を、当該仮判定領域に隣接している他の判定領域と統合し、新たな仮判定領域として設定する。このように仮判定領域を拡大すれば、それだけ背の異なる文字種が含まれる蓋然性が高くなり、フォントサイズが正確に決定しやすくなるからである。

調整部１３６は、領域拡大部１３５により設定された新たな仮判定領域に対して、解析部１３３、判定部１３４による処理を実行させ、判定部１３４において、再度正規判定領域として判断されなかった場合には、さらに領域拡大部１３５において判定領域を拡大させ、判定領域の大きさが上記判定領域適合条件を満たすように調整する。
フォントサイズ検出部１３７は、判定部１３４により正規設定された判定領域毎に、フォントサイズを検出する。

すなわち、フォントサイズ検出部１３７は、上記した背の高い文字種について、フォントサイズの値とその外接矩形高さの標準値とを対応づけたテーブルを内部に保持しており、当該テーブルを参照して、各正規判定領域の代表値（当該判定領域の構成要素である個々の文字の画像の外接矩形の高さ方向の最大値）と一番近い標準値に対応するフォントサイズを、当該正規判定領域に属する構成文字全てのフォントサイズとして決定する。

フォントサイズ検出部１３７は、各文字画像について検出したフォントサイズとその外接矩形の位置情報（メモリアドレス）をフォントサイズデータとして電子データ生成部１４０に送る。
電子データ生成部１４０は、フォントサイズ決定部１３０により決定されたフォントサイズで、認識部１２０により作成された文字コードの文字を表示することができるように、各文字のフォントサイズと文字コードを、それらの位置情報に基づき関連付けると共に、画像取得部１１０により取得された画像データの写真領域と統合して、所定の編集アプリケーションで編集できる形式の電子データを生成する。

＜フォントサイズ検出処理＞
以下、上記のフォントサイズ決定部１３０で実行されるフォントサイズの検出動作の内容についてフローチャートに基づき説明する。
なお、以下の説明では文字認識の対象となる原稿の文字領域の文章が、アルファベットによって表現される文章（英文）である場合を例にして説明する。アルファベットは、フォントサイズが同じであっても文字種によって、文字の高さが異なるため、本実施の形態による効果を顕著に得られるからである。

まず、画像取得部１１０により文書を含む原稿の画像データを取得し（ステップＳ１）、文字認識部１２０において、画像データから文字領域の画像データ及び写真領域の画像データをそれぞれ抽出する（ステップＳ２）。
そして、文字認識部１２０は、文字領域の画像データに対して、文字認識処理を実行して、上記のようにして当該画像データから文字コードを作成する（ステップＳ３）。

そして、フォントサイズ決定部１３０により、各文字画像についてフォントサイズを決定するフォントサイズ決定処理を実行する（ステップＳ４）。
電子データ生成部１４０において、文字認識部１２０からの文字コードデータとフォントサイズ決定部１３０からのフォントサイズデータに基づき、文字コードごとにフォントサイズを関連付けると共に、文字領域における電子データと、写真領域の電子データと統合して、所定の編集アプリケーションにおいて、文字領域と写真領域が、原稿画像と同じ配置で表示できるように電子データを生成する（ステップＳ５）。

図３は、図２のステップＳ４のフォントサイズ決定処理のサブルーチンを示すフローチャートである。
また、図４〜図６は、フォントサイズ決定処理の対象が、英文である場合のフォントサイズ決定の手順を説明するための具体例である。
まず、ステップＳ１１において、矩形検出部１３１により画像データ中の文字画像について１文字ずつ外接矩形を検出する。

上述のように、アルファベットは、フォントサイズが同じであっても文字種ごとにその背の高さが異なるため、外接矩形高さも異なる。
例えば、図４の「Ａ．原稿」に示すように、原稿の文字領域中の画像が横書きで、「Ｔｈｉｓｉｓａｈｅｎ．」である場合において、各文字画像の外接矩形を求めると、「Ｂ．外接矩形」で示すような形状となる。

次に、これらの文字画像をその文字の並ぶ方向にいくつかの塊に区分して、それらの塊をフォントサイズ判定のための仮判定領域として設定する（ステップＳ１２）。
英文においては、単語と単語との間に必ずスペースが介在するので、本実施の形態では、濃度ヒストグラムにより、このスペースを検出して、１単語ずつを１つの塊に区分して、各単語を仮判定領域として設定するようにしている。但し、ピリオドやカンマの前にはスペースがないので、直前の単語の一部と見なすようにしている。

図４の例では、そのＢに示すように「Ｔｈｉｓ」、「ｉｓ」、「ａ」、「ｈｅｎ．」が、それぞれ仮判定領域として設定されることになる。
各仮判定領域において、それらに含まれる文字の外接矩形高さについて度数分布（ヒストグラム）を作成する（ステップＳ１３）。
そうすると各仮判定領域における外接矩形高さの分布は、図４のＣに示すようになるが、「ｈｅｎ．」におけるピリオド「．」（高さｈ３）は、極端に小さい上に、フォントサイズ毎にそれほど大きさに差はなく、フォントサイズの判定対象になりにくい。そこで、極端に低い外接矩形（例えば、仮判定領域で検出された他の外接矩形の最大高さの３分の１未満の高さ）のものは、フォントサイズ判定のための対象文字から外し（図４の「Ｄ．不要な構成要素を除外」参照）、それより大きな外接矩形高さをフォントサイズ判定のために有効な外接矩形高さ（以下、「有効外接矩形高さ」という。）とする。

そして、ステップＳ１４において、各仮判定領域の度数分布を参照して、異なる有効外接矩形高さが２種類以上あるか（判定領域適合条件）について判定を実行する（ステップＳ１４）。
前述の通り、アルファベットの文字については、フォントサイズは同じであっても、背の高さが異なる文字種があるので、仮判定領域中の文字の有効外接矩形高さが、１種類の場合には、それが全て背の高いアルファベットからなっているのか、背の低いアルファベットからなっているのか不明であり、もし、後者の場合に大文字の高さを基準にしてフォントサイズを決定すると実際よりも小さなフォントサイズに決定され、文字コードと組み合わせて再現するとその部分だけ原稿よりも小さな表示となってしまうからである。

仮判定領域が上記判定領域適合条件を満たしている場合には（ステップＳ１４でＹＥＳ）、当該仮判定領域を正規判定領域とみなすが（ステップＳ１７）、判定領域適合条件を満たしていない場合には（ステップＳ１４でＮＯ）、領域拡大部１３５により、隣接する判定領域（ここでは仮判定領域と正規判定領域の双方を含む。以下、単に「判定領域」という場合同じ。）と統合して仮判定領域を拡大することになる。

しかし、そもそも、隣接する判定領域が、現在判定対象となっている仮判定領域におけるフォントサイズと明らかに異なると推察される場合には、当該判定領域と統合してしまうと誤ってフォンサイズが検出されるおそれがある。
そこで、本実施の形態では、統合する前に隣接する仮判定領域について、その統合適合性を判定している。

すなわち、仮判定領域中の文字の有効外接矩形高さが、１種類だけの場合には（ステップＳ１４でＮＯ）、その有効外接矩形高さ（１種類だけなのでこの高さが、当該判定領域における代表値となる）と、文字の並び方向に隣接する判定領域における外接矩形の最大高さ（すなわち当該隣接する判定領域の代表値）との差異が第１の範囲内か否かを判定する（ステップＳ１５）。この差異は、本実施の形態では、比較対象となっている代表値同士の比率としており、この比率の大きさが、所定の第１の範囲内であるか否かを判定するようにしている。この第１の範囲は、同一のフォントサイズにおける有効外接矩形高さを有する文字のうち最低なものと最大のものとの比を基準にして決定され、本実施の形態では、例えば、０．５以上２．０以下としている。

もし、ステップＳ１５において、少なくとも一方の隣接する判定領域における有効外接矩形高さの最大値との比率が、第１の範囲内のものがある場合（有効外接矩形高さが等しい場合も含まれる）には（ステップＳ１５でＹＥＳ）、統合適合性有りとして現在判定対象となっている仮判定領域と、当該隣接する判定領域を統合して新たな仮判定領域に設定する（ステップＳ１６）。

なお、本実施の形態において、例えば、文字領域の文章が横書きである場合には、一番上の行の一番左端の仮判定領域から始めて、その行の右端まで判定すると、折り返して一つ下の行の左端から右端に向けて順に仮判定領域の適合性を判定を行うようにしており、判定対象となっている仮判定領域の前後に隣接する判定領域の双方が、統合適合性を有している場合には、領域拡大部１３５は、優先的に後方の判定領域と統合するが、後の判定領域が統合適合性を有さずに、前方の判定領域が統合適合性を有する場合には、前方の判定領域と統合するようにしている。

図４の例においては、そのＤに示すように「ａ」の仮判定領域の前後の判定領域「ｉｓ」と「ｈｅｎ」の双方とも統合適合性を有しているので、「ａ」と後者の「ｈｅｎ」を統合して仮判定領域を「ａｈｅｎ」に拡大する（図４のＥ参照）。
しかし、図５のＡに示すように、「ａ」の後方に隣接する判定領域「ｐｅｎ」が、「ａ」のフォントサイズよりも明らかに大きいため、その比が第１の範囲内になく、統合適合性を有しない。しかし、前方に隣接する仮判定領域（「ｉｓ」）は、統合適合性を有するので、「ｉｓ」と「ａ」を統合して新たな仮判定領域に設定することになる（図５のＥ参照）。

図３に戻り、ステップＳ１６で統合された仮判定領域について、ステップＳ１４において、再度判定領域適合条件を満たすか否かを判定し、満たしていなければ（ステップＳ１４でＮＯ）、さらに別の隣接する判定領域について統合適合性の有無を判定し（ステップＳ１５）、統合適合性があれば（ステップＳ１５でＹＥＳ）、その判定領域と統合することになる。

例えば、原稿の文字列が、図６のＡのように、同一のフォントサイズで「Ｔｈｉｓｉｓｏｎｅｏｃｅａｎ」のような場合について、仮判定領域「ｏｎｅ」は、同図Ｃの度数分布に示すように、有効な外接矩形高さが１種類しかないので、判定領域適合条件を満たしておらず、領域拡大の必要があるが、その前後の判定領域「ｉｓ」、「ｏｃｅａｎ」はいずれも統合適合性を有している。このように仮判定領域の前後の判定領域が共に統合適合性を有している場合には、本実施の形態では原則として後続する判定領域と統合するようにしているため、「ｏｎｅｏｃｅａｎ」が拡大された仮判定領域となる（図６のＤ参照）。

しかし、この仮判定領域における有効外接矩形高さはｈ２の１種類だけなので判定領域適合条件を満たさないことは明らかであり、この仮判定領域の前後の判定領域のうち統合適合性を有する判定領域とさらに統合する必要がある。
図６の例では、「ｏｎｅｏｃｅａｎ」の前方に「ｉｓ」があり、この判定領域は統合適合性を有しているので、「ｉｓ」と「ｏｎｅｏｃｅａｎ」を統合して「ｉｓｏｎｅｏｃｅａｎ」を一つの仮判定領域に設定する（図６のＥ参照）。この新たな仮判定領域は、有効外接矩形高さが２種類あるので、判定領域適合条件を有する。

このようにして、ステップＳ１４〜ステップＳ１６を繰り返すことにより、最初は、判定領域適合条件を満たさない仮判定領域であっても、隣接する判定領域適と次々と統合していくと、いつかは判定領域適合条件を満たすことができ、ステップＳ１４でＹＥＳと判定され得る。
ステップＳ１７では、判定領域適合条件を満たした仮判定領を正規判定領域とみなし、ステップＳ１８において、各正規判定領域内における外接矩形の最大高さを代表値とし、当該代表値に基づき各正規判定領域毎にフォントサイズを決定する（ステップＳ１８）。

フォントサイズ検出部１３７（図１）内には、各フォントサイズにおけるアルファベットの「Ｊ」以外の大文字の外接矩形の高さの値を標準値として、各フォントサイズに関連付けてフォントサイズ検出部１３７内部のテーブル内に格納されており、正規判定領域の代表値と各標準値を比較して、代表値に一番近い標準値に対応するフォントサイズを当該正規判定領域毎に適用されるべきフォントサイズとして決定する。

なお、上記ステップＳ１４〜Ｓ１６の処理を経ることにより、通常の英文の文章では、全ての仮判定領域が、正規判定領域とみなされるようになると解されるが、極めて例外的に、ステップＳ１４の判定領域適合条件を満たさない仮判定領域について、その両隣りの判定領域が、ステップＳ１５の判定領域適合条件を満たさない場合があり得る（ステップＳ１５でＮＯ）。

例えば、図５のＡに示す文字列において、「ａ」の前の判定領域の「ｉｓ」も後方の「ｐｅｎ」と同様に「ａ」と明らかにフォントサイズが異なるような場合には、前後の判定領域が共に統合適合性を有しないので、ステップＳ１５でＮＯと判定される。
この場合には、仕方がないので仮判定領域「ａ」を他の判定領域と統合することなく、そのままで正規判定領域とみなし（ステップＳ１７）、もし、フォントサイズが誤認定された場合には、最終的にユーザーの手動による修正を受付けるようにすればよい。

その際、ユーザーが確認しやすいように、当該文字を表示部などに表示する際に、色を変えたり、反転表示したりして、他の文字と識別できるように表示することが望ましい。
以上のようにして、全ての正規判定領域について決定されたフォントサイズが、そのまま該当する正規判定領域に含まれる構成文字のフォントサイズとして決定される。
上述のように、正規判定領域は、ステップＳ１５でＮＯと判定されるような特異な例を除き、２種類の外接矩形高さの文字画像を必ず含んでいるので、その背の高い方の文字は、各フォントサイズの標準値に設定されている文字種と同じ種類の文字であると推定され、正規判定領域内の外接矩形の高さのうち一番高いものをその判定領域の代表値として、その文字のフォントサイズを決めても、現実のフォントサイズと大差がない。

しかも、英文の場合、判定領域は、ほぼ単語単位でのまとまりとなっており、通常の英文では、一つの単語内では同一のフォントサイズの文字となっている場合がほとんどであり、代表値に基づき一番背の高い文字のフォントサイズが決定されれば、同じ正規判定領域内の文字も同じフォントサイズであるという蓋然性が非常に高いからである。
以上のようにして、判定対象となる画像データの文字領域における全ての正規判定領域におけるフォントサイズを決定した後、図２のフローチャートにリターンする。

以上説明したように、本実施の形態の画像処理システム１００によれば、文字のフォントサイズを検出する際に、判定領域の構成要素である個々の文字画像の外接矩形サイズに関する度数分布を作成して、当該判定領域が、上記判定領域適合条件（ステップＳ１４参照）を具備しているか否かを判断し、具備していなければ、判定領域を拡大することによって、外接矩形サイズの異なる文字画像が適度に混在するようにしている。

これによって、判定領域中の文字種の偏りがなくなり、各判定領域内にフォントサイズの標準値としている文字種もしくはそれに近いフォントサイズの文字種が含まれる蓋然性が高くなるので、それらに基づいてフォントサイズを決定することにより、第１の従来技術のように含まれる文字種に関係なく文字列全体の外接矩形の高さに基づき標準値と比較して一律にフォントサイズを決定する場合よりも、原稿の実際のフォントサイズをより正確に反映した電子データの生成が可能となる。

また、第２の従来技術のように文字コード毎のフォントサイズ変換テーブルなどの膨大なデータを用いる必要がないので、当該テーブルを作成する手間やこれを格納するメモリ容量が不要となり、製品コストを低減できる。
＜変形例＞
本発明の技術的範囲には、上記実施の形態に限定されず、次のような変形例も含まれる。

（１）上記実施の形態では、各正規判定領域に対して、その正規判定領域内の外接矩形高さの最大な文字画像が、フォントサイズの標準値とされる文字種（大文字などの一番背の高い文字種）と同種であることを前提にして、当該外接矩形高さの最大値を正規判定領域内の文字のフォントサイズを決定するための代表値とし、これを標準値と比較して正規判定領域内の文字のフォントサイズを決定した。

しかし、特に、アルファベットには、背の高い文字種の中でも微妙に高さが異なるものがある。例えば、小文字の「ｔ」は、「ａ」などの小文字よりも背が高いが、標準値となる一般の大文字（例えば、「Ｔ」）よりも少し低い。それにも拘わらず、正規判定領域において「ｔ」の外接矩形が一番高さの大きい文字である場合には、図３のステップＳ１８において「ｔ」の外接矩形高さが代表値とみなされてしまうため、標準値と比較した場合には、当該「ｔ」を含む判定領域内の文字全部が、実際よりも一回り小さなフォントサイズに認定されてしまうおそれがある。

また、反対に、大文字の「Ｊ」は、標準値となる他の大文字の外接矩形の高さより、わずかに大きいため、正規判定領域において「Ｊ」の外接矩形が一番高さの大きい文字である場合には、この高さが当該正規判定領域における外接矩形高さの代表値とみなされてしまうため、標準値と比較した場合には、その判定領域内の文字が実際よりも一回り大きなフォントサイズに認定されてしまうおそれがある。

そこで、本変形例では、上記事情を考慮して、フォントサイズの決定における正確性をさらに増すため、正規判定領域間でフォントサイズを微調整するようにしている。
図７は、本変形例においてフォントサイズ決定部１３０で実行されるフォントサイズ決定処理の内容を示すフローチャートである。ステップＳ１１〜Ｓ１７までは、実施の形態における図３のフローチャートと全く同じなので、同図では、最初の一部のステップの図示を省略してステップＳ１７から示している。

ステップＳ１１〜Ｓ１６までの手順を経て、ステップＳ１７において該当する仮判定領域が、正規判定領域とみなされると、次のステップＳ１８’において、各正規判定領域内における外接矩形の最大高さを代表値とし、当該代表値に基づき標準値と照らし合わせて求められたフォントサイズを、一旦当該正規判定領域毎のフォントサイズ候補として決定する。

そして、上記フォントサイズ候補を階級とし、正規判定領域の個数を度数として度数分布を求め（ステップＳ１９）、当該度数分布においてフォントサイズ候補が２種類以上有るか否かを判定する（ステップＳ２０）。
例えば、先に説明した図４のＡに示すように対象文字画像が、「Ｔｈｉｓｉｓａｈｅｎ．」の場合には、最終的に正規判定領域は、「Ｔｈｉｓ」、「ｉｓ」、「ａｈｅｎ．」の３つになり、それぞれの代表値が等しいので（ステップＳ２０でＹＥＳ）、フォントサイズ候補の度数分布において度数を生じるフォントサイズ候補が一つだけになり（図４のＧ参照）、ステップＳ２１において「ＮＯ」と判定する。

この場合には、各正規判定領域のフォントサイズが一致していると考えられるので、上記フォントサイズ候補をそのまま対応する正規判定領域内の文字のフォントサイズとして最終決定する（図４のＨ参照）（ステップＳ２３）。
ところが、度数分布においてフォントサイズ候補が２種類出現した場合には（ステップＳ２０でＹＥＳ）、最終的にどのようにフォントサイズに決すべきか問題となる。上述のようにフォントサイズが同じでも「ｔ」や「Ｊ」などの外接矩形高さが代表値となる場合には、実際のフォントサイズと若干異なる値になるからである。

本実施の形態では、当該異なるフォントサイズ候補同士の差異が所定の範囲以下か否かを判定し（ステップＳ２１）、その判定結果に基づき、最終的なフォントサイズを正規判定領域ごとに決定することにより、この問題を解決している。
例えば、図８のＡに示すように、フォントサイズの判定対象となる文字画像の文章が、「Ｔｈｉｓｉｓａｔａｘ．」であった場合には、上述した手順により、正規判定領域が「Ｔｈｉｓ」、「ｉｓ」、「ａｔａｘ．」の３つに設定される（図８のＦ参照）。

１番目、２番目の正規判定領域の代表値である「Ｔ」、「ｉ」の外接矩形高さは同じｈ２になるが、３番目の正規判定領域の代表値となるべき「ｔ」の高さはｈ２よりわずかに低いｈ３になるため、３番目の「ａｔａｘ．」のフォントサイズ候補が前２者のフォントサイズ候補よりもわずかに小さく評価される。そのため度数分布にも図８のＧに示すように２種類のフォントサイズ候補Ｐ１、Ｐ３が近接して現れる。

この場合には、フォントサイズ候補の大きさの差異は、文字種の差異によるものであり、フォントサイズそのものに差異があったものではないと解されるので、一方のフォントサイズを他方のフォントサイズに揃えるように調整するのが望ましい。
そこで、本変形例では、図８のＧの度数分布から出現頻度の高い方のフォントサイズＰ１を判定対象となった３つの正規判定領域のフォントサイズとしている（図８のＨ）。

すなわち、同じフォントサイズのアルファベットの中で、「ｔ」や「Ｊ」のような外接矩形高さを有するものはそれほど多くなく、これらの外接矩形高さが、正規判定領域の代表値となる頻度は、他の標準値の文字種が、代表値となる頻度より少ないからである。
図８のように、「Ｔｈｉｓｉｓａｔａｘ．」のような極めて短い文章の場合であっても３つの正規判定領域「Ｔｈｉｓ」、「ｉｓ」、「ａｔａｘ．」のうち「ｔ」の外接矩形高さを代表値とするものは、１個しかない。したがって、一度にフォントサイズの決定するための文字領域の範囲が大きいほど、「ｔ」の外接矩形高さを代表値とする正規判定領域の出現する頻度は、その他の標準文字の外接矩形高さを代表値とする正規判定領域の出現よりも確実に少なくなる。

つまり、度数分布において近いサイズのフォントサイズ候補が２種類出現した場合には、頻度（度数）が多い方のフォントサイズ候補に統一すれば、原稿に、より忠実なフォントサイズを決定することができるので、図８のＨでは、フォントサイズ候補がＰ３とされた「ａｔａｘ．」のフォントサイズをフォントサイズＰ１に置き換える処理を行っている。

「Ｊ」の外接矩形高さも場合も他の文字種に比べて特殊で１個しかないので、「Ｊ」を外接矩形高さを代表値とする正規判定領域も出現頻度が低いと考えられ、この場合でも頻度の高い方のフォントサイズ候補に揃えることにより、正しいフォントサイズを決定することができる。
したがって、フォントサイズ決定の対象となる文字領域に含まれる複数の正規判定領域について、２種類以上のフォントサイズ候補が出現し、かつ、それらの差異が予め設定された所定の範囲（第２の範囲）内の場合には（ステップＳ２１でＹＥＳ）、出現頻度の一番高いフォントサイズに決定する（ステップＳ２２）。

また、度数分布で現れた２種類の大きさのフォントサイズ候補の差異が、第２の範囲を超える場合には、それはもはや、同じフォントサイズにおける文字種の差によるものではなく、フォントサイズそのものに差があると解するのが自然である。
例えば、図９のＡに示すように原稿の文字画像が「Ｔｈｉｓｉｓａｈｅｎ．」であって、「Ｔｈｉｓ」のフォントサイズが他の単語よりかなり大きい場合には、正規判定領域について、フォントサイズ候補の度数分布を求めれば、図９のＧのように度数の発生するフォントサイズ候補Ｐ１、Ｐ４として両者の大きさに一定以上の差が生じる。

したがって、この場合には、度数分布で現れた２種類のフォントサイズの差異が第２の範囲を超えるものとして、ステップＳ２１において「ＮＯ」と判定され、比較の対象となった正規判定領域間では、一方を他方のフォントサイズに合わせるのではなく、それぞれのフォントサイズ候補をそのまま最終的なフォントサイズであると決定する（ステップＳ２３）（図９のＨ参照）。

なお、上記ステップＳ２１における第２の範囲は、フォントサイズ候補の大きさに応じて経験的に求めることができる。代表値で決定されたフォントサイズ候補が、通常使用される１０ポイント〜１２ポイントの範囲内である場合には、第２の範囲は、例えば、１ポイントに設定される。
フォントサイズの大きさに応じて、第２の範囲とすべき値も変化すると考えられるので、そのフォントサイズ候補ごとに第２の範囲を示すテーブルを持つのが望ましい。

または、上記実施の形態で説明したのと同様に、フォントサイズ候補同旨の差異を、その外接矩形高さの比率として捉え、当該比率により第２の範囲を規定して、ステップＳ２１の判定を行うようにしてもよい。この場合の第２の範囲も、「ｔ」や「Ｊ」などの高さが特殊な文字と標準となる文字の高さの比によって経験的に求めることができる。
なお、フォントサイズ決定部１３０でのフォントサイズ決定処理は、画像取得部１１０で取得してフォントサイズの決定対象となっている文字領域の画像データの全てについて一括して行ってもよいし、そのうちの所定量の画像データ（例えば、１頁分もしくは数行分）に分割して、順次行うようにしても構わない。一括して処理するデータ量が多いほど、第２の範囲内の差異を有するフォントサイズ候補の出現頻度の差が顕著に現れるので、図７のステップＳ２２においてフォントサイズを揃える処理をより的確に実行できる。

（２）上記実施の形態では、正規判定領域に含まれる文字画像のうち一番外接矩形高さが大きい値を、その正規判定領域に含まれるフォントサイズを決定するための代表値としたが、一番背の低い文字種の外接矩形高さを代表値とすることも可能である。この場合の標準値として、各フォントサイズ毎における一番背の低い文字種の外接矩形高さが用いられる。

（３）上記実施の形態では、文字認識の対象となる文書の言語が英文（アルファベット）である場合における、フォントサイズの決定方法について説明したが、アルファベットに類似する他の言語の文字であってもよく、要するに同一のフォントサイズであっても、その文字画像における外接矩形高さが異なる２以上の文字種が存在する文字体系におけるフォントサイズの検出に適用できる。

日本語の文字の場合でも、同じフォントサイズでも、外接矩形の高さの異なる文字が多数あり（漢数字の「一、二」、カタカナの「エ、コ、ニ、フ、ノ、ヘ・・・」、ひらがなの「こ、つ、と、の、へ、・・・」などは、他の同じフォントサイズの漢字に比べると高さが低く、そのほか、「きゃ、きゅ、きょ」などの拗音における「ゃ、ゅ、ょ・・」や、「セット、カット」などの促音で使用される「っ、ッ」などの小さな文字）、上記実施の形態や変形例（１）におけるフォントサイズの検出方法の適用が可能である。

なお、日本語の文章のように単語と単語の間にスペースが入らない場合には、英文のように文字の画像間の隙間を利用して単語単位で文字の塊の画像毎に区分して仮判定領域とすることが困難なので、文字の配列方向（横書きまたは縦書き）において、句読点や改行の位置で区分してもよいし、単純に所定数（例えば５文字程度）の文字毎に文章を区切って、各文字の塊を仮判定領域とすればよい。

文字認識の対象となる言語については、ある特定の言語としてもよいし、複数の言語について文字認識用の辞書を有する装置にあっては、ユーザーが不図示の入力部より対象とする辞書を切り替えるようにしてもよい。
（３）上記実施形態では、フォントサイズ検出部１３７が外接矩形の高さ方向の大きさに応じてフォントサイズを検出したが、外接矩形サイズを示すパラメーターとして外接矩形高さ以外に、その幅もしくは面積が、フォントサイズに密接に対応している文字体系があれば、それらの値をパラメーターとしてフォントサイズを検出するようにしてもよい。

（４）上記実施の形態では、主にパーソナルコンピューターからなる画像処理システム１００において、文字認識部１２０で文字領域の画像データを抽出した後、文字認識部１２０による文字認識処理とフォントサイズ決定部１３０によるフォントサイズ決定処理をパラレルに実施する例を示した。
このように文字認識部１２０による文字認識処理と、フォントサイズ決定部１３０におけるフォントサイズ決定処理を並行して行うことにより、全体の処理時間を短縮させることができる。

また、文字認識処理とフォントサイズ決定処理をシリアルに実行させるようにしてもよい。この場合、全体の処理時間がパラレルの場合よりも少し長くなると考えられるが、文字認識処理において文字切り出しの際に用いた濃度ヒストグラムの結果などを利用して外接矩形の検出処理を実行することにより、フォントサイズ決定処理の効率化を図ることができる。また、ＣＰＵの処理能力がパラレル処理の場合よりも低くてもよいので、コスト的なメリットもある。

また、画像処理システムは、例えば、図１０（ａ）、（ｂ）に示すように、画像形成装置、とりわけプリンター、スキャナー及びコピー機の機能を備えるＭＦＰ（プリンター複合機）単体内に上記の文字認識プログラムやフォントサイズ決定処理のプログラムを組み込み、文字認識処理とフォントサイズ決定処理をシリアルもしくはパラレルに実行させるように構成しても構わない。

この場合には、主にＭＦＰのスキャナーが、画像取得部１１０としての役割を果たす。
また、画像処理システムは、図１１（ａ）（ｂ）に示すように、パーソナルコンピューターなどの端末に、画像取得部、フォントサイズ決定部、電子データ生成部を設けて、この端末と社内ＬＡＮやインターネットを介して接続されたサーバーもしくはウェブサイトに外部アプリケーションとして設けられた文字認識部とで構成するようにしてもよい。

この場合、外部アプリケーションとして、社内もしくは社外のクラウドサービスなどが想定される。
図１１（ａ）は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理がシリアルで実行される構成を示しており、図１１（ｂ）は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理がパラレルに実行される構成を示している。

さらに、画像処理システムを、図１２（ａ）（ｂ）に示すように、ＭＦＰと端末と外部アプリケーションの３つを組み合わせて構成するようにしても構わない。
ＭＦＰと端末間は、ＬＡＮなどで接続され、端末と外部アプリケーションは、インターネットで接続される。
ユーザーは、ＭＦＰの画像取得部（スキャナー）で読み込んだ原稿の画像データを取得して外部アプリケーションに送信して文字認識処理を実行させて、その認識結果を受信すると共に、自装置においてフォントサイズ決定処理を実行し、電子データを生成する。

図１２（ａ）は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理をシリアルに処理する構成を示し、図１２（ｂ）は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理をパラレルに処理する構成を示す。
図１１（ｂ）および図１２（ｂ）では、文字認識処理は外部アプリケーションにて実行されるので、フォントサイズ決定処理と文字認識処理をパラレル処理するように構成しても、図１０（ｂ）の場合に比べ、端末のＣＰＵにおける負担は大きくならない。

なお、上記図１０〜図１２では、便宜上原稿の画像データのうち文字領域の画像データについての文字認識処理とフォントサイズ決定処理のみを対象とした構成例を示している。
（５）画像処理システム１００により実行されるフォントサイズ決定処理の内容は、ＣＰＵ７１で実行されるプログラムに関する発明として捉えることが可能である。

この場合、当該プログラムは、例えば、磁気ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＭＯなどの光記録媒体、ＳｍａｒｔＭｅｄｉａ（登録商標）、ＣＯＭＰＡＣＴＦＬＡＳＨ（登録商標）などのフラッシュメモリ系記録媒体など、コンピューター読み取り可能な各種記録媒体に記録することが可能であり、当該記録媒体の形態で生産、譲渡等がなされる場合もあるし、プログラムの形態で、インターネットを含む有線、無線の各種ネットワーク、放送、電気通信回線、衛星通信等を介して伝送、供給される場合もある。

（６）上記実施の形態および変形例は可能な限り組み合わせて実行することができる。

本発明は、原稿上の文字画像のフォントサイズを検出する技術として有用である。

１００画像処理システム
１１０画像取得部
１２０文字認識部
１３０フォントサイズ決定部
１３１矩形検出部
１３２仮設定部
１３３解析部
１３４判定部
１３５領域拡大部
１３６調整部
１３７フォントサイズ検出部
１４０電子データ生成部

Claims

原稿の画像データから文字コードを生成すると共に、フォントサイズ決定手段により各文字コードに対応するフォントサイズを検出する画像処理システムであって、
前記フォントサイズ決定手段は、
前記画像データ中の１文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得部と、
前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定部と、
前記仮設定された各判定領域について、異なる２種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定部と、
前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定部と、
前記決定部により正規な判定領域として決定されなかった判定領域を拡大する領域拡大部と、
前記領域拡大部により拡大された新たな判定領域に対して、前記判定部、前記決定部及び前記領域拡大部による一連の処理を繰り返し実行させて判定領域を調整する調整部と、
正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出部と
を備えることを特徴とする画像処理システム。
前記領域拡大部は、
前記決定部において正規な判定領域とされなかった判定領域について、当該判定領域に隣接する他の判定領域と統合することにより判定領域を拡大すること
を特徴とする請求項１に記載の画像処理システム。
前記領域拡大部は
前記判定部において正規な判定領域とされなかった判定領域内に含まれる文字画像の外接矩形サイズの代表値と、当該判定領域に隣接する他の判定領域内の複数の文字画像の外接矩形サイズの代表値との差異が、第１の範囲よりも大きくなる場合には、当該隣接する他の判定領域を統合の対象としないこと
を特徴とする請求項２に記載の画像処理システム。
前記各文字画像の外接矩形サイズは、当該外接矩形の高さ方向の大きさで規定されており、前記判定領域内の代表値とは、当該判定領域に含まれる文字画像の外接矩形の高さの最大値である
ことを特徴とする請求項１から３までのいずれかに記載の画像処理システム。
前記フォントサイズ検出部で判定領域毎のフォントサイズを検出した結果、第１のフォントサイズの判定領域と、これと大きさの異なる第２のフォントサイズの判定領域が存在する場合に、第１と第２のフォントサイズの差異が、第２の範囲内である場合には、第１と第２のいずれか一方のフォントサイズを、他方のフォントサイズに揃えるフォントサイズ整合部を備える
ことを特徴とする請求項１から４までのいずれかに記載の画像処理システム。
前記フォントサイズ整合部は、原稿の画像データのうち、フォントサイズの検出対象となる文字画像領域内の所定の範囲内の判定領域について、第１もしくは第２のフォントサイズのうち出現頻度の高い方のフォントサイズに揃える
ことを特徴とする請求項５に記載の画像処理システム。
前記所定の範囲は、フォントサイズの検出対象となっている文字画像領域の全域である
ことを特徴とする請求項６に記載の画像処理システム。
前記画像処理システムは、さらに、
前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、
原稿の画像データに対して、前記文字認識手段による文字認識処理と、前記フォントサイズ決定手段によるフォントサイズ決定処理が並行して実行される構成であること
を特徴とする請求項１〜７のいずれかに記載の画像処理システム。
前記画像処理システムは、さらに、
前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、
原稿の画像データに対して、前記文字認識手段による文字認識処理を実行した後に、前記フォントサイズ決定手段によるフォントサイズ決定処理を実行するように構成されていること
を特徴とする請求項１〜７のいずれかに記載の画像処理システム。
画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定方法であって、
前記画像データ中の１文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、
前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、
前記仮設定された各判定領域について、異なる２種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、
前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、
前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、
前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、
正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップと、
を含むことを特徴とするフォントサイズ決定方法。
画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定処理を、画像処理システムに実行させるフォントサイズ決定プログラムであって、
前記フォントサイズ決定処理は、
前記画像データ中の１文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、
前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、
前記仮設定された各判定領域について、異なる２種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、
前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、
前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、
前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、
正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップと、
を含むことを特徴とするフォントサイズ決定プログラム。