JP2016062412A - 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム - Google Patents

画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム Download PDF

Info

Publication number
JP2016062412A
JP2016062412A JP2014191131A JP2014191131A JP2016062412A JP 2016062412 A JP2016062412 A JP 2016062412A JP 2014191131 A JP2014191131 A JP 2014191131A JP 2014191131 A JP2014191131 A JP 2014191131A JP 2016062412 A JP2016062412 A JP 2016062412A
Authority
JP
Japan
Prior art keywords
determination
font size
character
region
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014191131A
Other languages
English (en)
Other versions
JP6387761B2 (ja
Inventor
哲嗣 松谷
Tetsuji Matsutani
哲嗣 松谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2014191131A priority Critical patent/JP6387761B2/ja
Publication of JP2016062412A publication Critical patent/JP2016062412A/ja
Application granted granted Critical
Publication of JP6387761B2 publication Critical patent/JP6387761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】文字コード毎にフォントサイズを求めるテーブルを設けることなく、画像データから文字画像のフォントサイズを的確に検出する。
【解決手段】画像データ中の1文字の画像毎に外接矩形を検出すると共に(ステップS11)、画像データを複数の塊に区分し、仮判定領域として設定する(ステップS12)。各仮判定領域単位で構成要素である個々の文字の画像の外接矩形の高さに関する度数分布を作成し(ステップS13)、有効な外接矩形の高さが2種類以上ある仮判定領域を正規判定領域とみなす(ステップS14でYES、ステップS17)。正規判定領域とみなされなかった仮判定領域について(ステップS14でNO)、正規判定領域の条件を満たすまで隣接する他の判定領域と統合し(ステップS16)、正規判定領域毎に、その中の文字画像の外接矩形のうち最大の高さを代表値としてフォントサイズを決定する(ステップS18)。
【選択図】図3

Description

本発明は、文字認識において、そのフォントサイズをより正確に検出するための技術に関する。
OCR(Optical Character Recognitionの略、光学的文字認識)とは、原稿をスキャナーやデジタルカメラ等によって光学的に読み取って得られた画像データを、予め記憶しているパターンと照合するなどして、コンピューター上で編集できる形式(文字コード列)に変換する技術をいう。
原稿上には様々なフォントサイズの文字が記載されるが、一般的なOCR処理では文字コード列を作成するだけであり、フォントサイズの検出までは行わない。
OCR処理の結果をPDF形式に変換して、そのPDF形式での文字画像上に透明なテキストレイヤーが埋め込むような場合(レイヤーテキスト付PDF)には、フォントサイズを検出しなくても文字画像が原稿通りに再現されているので、見た目には特に問題がない。
ところが、例えば、マイクロソフト社のWordやExcelなどのアプリケーションでは、OCR処理により読み取られたテキストデータがテキストボックスやセルの形でそのまま表示されるので、個々の文字のフォントサイズを正しく認識しなければ、原画像との間に違和感が生じる。
また、このような編集可能なアプリケーションにあっては、個々の文字のフォントサイズもコンピューター上で取り扱う際の大切な情報の1つであり、得られたデータの利用価値を高めるためには、できるだけ正確に個々の文字のフォントサイズを検出するのが望ましい。
原稿上に記載された文字のフォントサイズを検出する従来の技術として、例えば、行毎の文字列の画像の外接矩形を抽出し、当該外接矩形の高さを基準にしてフォントサイズを検出する方法がある(以下、「第1の従来技術」という。)。
また、例えば、文字毎に当該文字の画像の外接矩形の大きさと実際のフォントサイズの比率を記憶したテーブル(「フォントサイズ変換テーブル」という。)を用意しておき、認識した文字の文字コードに基づき当該フォントサイズ変換テーブルから対応する比率を抽出して、その文字画像の外接矩形の大きさに抽出した比率を乗じて適正なフォントサイズに変換するような方法もある(特許文献1参照。以下、「第2の従来技術」という。)。
特開2011−248415号公報 特開平5−233873号公報
しかしながら、第1の従来技術では、当該文字列の画像に含まれる文字種によって、フォントサイズがばらつくという問題がある。
例えば、アルファベットのフォントサイズを検出する際において、大文字もしくは「b、d、f、h、i、k、l」等の背の高い小文字の画像の外接矩形の高さを標準とすると、これらの標準の文字と、「g、j、p、q、y」等の下方に突出する部分を持つ特定の小文字とが混在する文字列の場合に、当該文字列の画像全体の外接矩形が個々の文字の画像の外接矩形よりも高くなるため、文字列中の文字の画像のフォントサイズを実際よりも大き目に検出してしまうという問題がある。また、反対に、当該文字列が、「a、c、e、m、n、o、r、s、u、v、w、x、z」等のように上記標準の文字よりも背の低い小文字のみからなるような場合には、当該文字列の画像全体の外接矩形が標準の文字の外接矩形よりも低くなるため、文字列中の文字の画像のフォントサイズを実際よりも小さ目に検出してしまうという問題がある。
第2の従来技術では、OCRの結果認識された文字コードを参照し、当該文字コードに対応して設けられたフォントサイズ変換テーブルを用いてフォントサイズを決定するので、フォントサイズの正確度は高いが、その一方で様々な言語、文字種、フォント毎にフォントサイズ変換テーブルを準備しなければならないため、膨大な労力と費用がかかり、かつ当該フォントサイズ変換テーブルを記憶するために大きな記憶領域が必要になるためコストが嵩むという問題がある。
本発明は、上述のような事情に鑑みてなされたものであって、フォント毎のフォントサイズ変換テーブルのような膨大なデータを用いることなく、画像データから文字コードのフォントサイズを適切に検出することができる画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の態様は、原稿の画像データから文字コードを生成すると共に、フォントサイズ決定手段により各文字コードに対応するフォントサイズを検出する画像処理システムであって、前記フォントサイズ決定手段は、前記画像データ中の1文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得部と、前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定部と、前記仮設定された各判定領域について、異なる2種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定部と、前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定部と、前記決定部により正規な判定領域として決定されなかった判定領域を拡大する領域拡大部と、前記領域拡大部により拡大された新たな判定領域に対して、前記判定部、前記決定部及び前記領域拡大部による一連の処理を繰り返し実行させて判定領域を調整する調整部と、正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出部とを備えることを特徴とする。
ここで、前記領域拡大部は、前記決定部において正規な判定領域とされなかった判定領域について、当該判定領域に隣接する他の判定領域と統合することにより判定領域を拡大することが望ましい。
ここで、前記領域拡大部は、前記判定部において正規な判定領域とされなかった判定領域内に含まれる文字画像の外接矩形サイズの代表値と、当該判定領域に隣接する他の判定領域内の複数の文字画像の外接矩形サイズの代表値との差異が、第1の範囲よりも大きくなる場合には、当該隣接する他の判定領域を統合の対象としないことが望ましい。
また、前記各文字画像の外接矩形サイズは、当該外接矩形の高さ方向の大きさで規定されており、前記判定領域内の代表値とは、当該判定領域に含まれる文字画像の外接矩形の高さの最大値であるとしてもよい。
また、前記フォントサイズ検出部で判定領域毎のフォントサイズを検出した結果、第1のフォントサイズの判定領域と、これと大きさの異なる第2のフォントサイズの判定領域が存在する場合に、第1と第2のフォントサイズの差異が、第2の範囲内である場合には、第1と第2のいずれか一方のフォントサイズを、他方のフォントサイズに揃えるフォントサイズ整合部を備えることとしてもよい。
ここで、前記フォントサイズ整合部は、原稿の画像データのうち、フォントサイズの検出対象となる文字画像領域内の所定の範囲内の判定領域について、第1もしくは第2のフォントサイズのうち出現頻度の高い方のフォントサイズに揃えることが望ましい。
ここで、前記所定の範囲は、フォントサイズの検出対象となっている文字画像領域の全域であるとしてもよい。
また、前記画像処理システムは、さらに、前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、原稿の画像データに対して、前記文字認識手段による文字認識処理と、前記フォントサイズ決定手段によるフォントサイズ決定処理が並行して実行される構成としてもよい。
また、前記画像処理システムは、さらに、前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、原稿の画像データに対して、前記文字認識手段による文字認識処理を実行した後に、前記フォントサイズ決定手段によるフォントサイズ決定処理を実行するように構成してもよい。
また、本発明の第2の態様は、画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定方法であって、前記画像データ中の1文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、前記仮設定された各判定領域について、異なる2種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップと、を含むことを特徴とする。
さらに、本発明の第3の態様は、画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定処理を、画像処理システムに実行させるフォントサイズ決定プログラムであって、前記フォントサイズ決定処理は、前記画像データ中の1文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、前記仮設定された各判定領域について、異なる2種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップとを含むことを特徴とする。
上記構成の画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラムによれば、文字画像のフォントサイズを検出する際に、外接矩形サイズが異なる文字画像が適当に混在するようにフォントサイズの判定領域の大きさを調整することができるので、特定の文字種の外接矩形サイズを基準にしてフォントサイズを決定する場合に、当該文字種が判定領域中に存在する蓋然性が高くなり、当該基準となる文字種と同じ文字種の外接矩形サイズを当該判定領域内の各文字画像の外接矩形を代表する代表値とすれば、文字の種類の偏りによるフォントサイズの誤検出を減少させることができる。これにより、フォント毎の変換テーブルなどの膨大なデータを用いることなく、従来よりも正確にフォントサイズを決定することが可能となる。
本実施形態に係る画像処理システムの概要を示す図である。 画像処理システムにおいて、画像データから、文字コードを作成するとともに、フォントサイズを検出し、電子データを出力する処理の手順を示すフローチャートである。 図2のステップS4のフォントサイズ決定処理のサブルーチンを示すフローチャートである。 画像処理システムにおいて、画像データからフォントサイズを検出する際の動作の第1の例を示す図である。 画像処理システムにおいて、画像データからフォントサイズを検出する際の動作の第2の例を示す図である。 画像処理システムにおいて、画像データからフォントサイズを検出する際の動作の第3の例を示す図である。 変形例に係るフォントサイズ決定処理のサブルーチンを示すフローチャートである。 図7の変形例を説明するための、画像データからフォントサイズを検出する際の動作の第4の例を示す図である。 図7の変形例を説明するための、画像データからフォントサイズを検出する際の動作の第5の例を示す図である。 (a)(b)は、画像処理システムの構成例を示す図である。 (a)(b)は、画像処理システムの別の構成例を示す図である。 (a)(b)は、画像処理システムのさらに別の構成例を示す図である。
以下、本発明に係る画像処理システムの実施の形態について、図面に基づき説明する。
<全体構成>
図1は、本実施形態に係る画像処理システム100の全体構成の概略を示す機能ブロック図である。
画像処理システム100は、原稿の画像データから、文字コードを作成するとともに、フォントサイズを検出する機能を備えており、画像取得部110、文字認識部120、フォントサイズ決定部130及び電子データ生成部140を備えおり、例えば、パーソナルコンピューターに、以下に説明する処理を実行するためのプログラムをインストールして構成される。
(1)画像取得部110
画像取得部110は、外部の端末からLANを介して、もしくは、USBメモリなどの携帯記憶媒体から、原稿の画像データを取得する。スキャナーや内蔵カメラ等を用いて、文書を含む原稿を読み取って画像データを取得するように構成してもよい。
(2)文字認識部120
文字認識部120は、上記取得した原稿の画像データをページメモリに展開して、文字画像の領域と、それ以外の図形や写真などの階調を有する画像(以下、単に「写真画像」という。)の領域を検出する。
このように文字画像の領域と写真画像の領域を検出するため公知の技術が用いられる。例えば、画像データにエッジ強調処理を施し、縦および/または横方向に画素をスキャンしてエッジを検出し、その検出頻度が一定の閾値より高い領域を文字画像の領域と判定し、それ以外の領域を写真画像の領域と判定することができる。
そして、写真画像の領域が検出されれば、その領域内の画像データと位置情報(メモリアドレス)を写真領域画像データとして電子データ生成部140に送信する。
また、文字画像であると判定された領域(以下、「文字領域」という。)の画像データについて、公知の文字認識処理を実行してテキストデータを生成する。
例えば、文字領域の画像データについて、水平方向及び垂直方向における濃度ヒストグラムを作成して、1文字ずつ画像を切り出し、切り出した各文字画像から特徴点(例えば、閉ループや独立点の個数およびそれらの位置など)を抽出して、予め用意していたテーブルに納められていた文字のパターンとのマッチングを行って、その文字コードを特定する。
この際、原稿が正しい方向に読み取られていない場合もあるので、必要に応じ文字画像を90°ずつ回転しながらマッチングする場合もある。1つの文字について方向が特定して、原稿が正しい方向に読取られていないことが判明すれば、それを補正するように文字の認識対象となっている文字領域全体の画像データを回転させれば、以降の文字認識を円滑に進めることができる。濃度ヒストグラムによって、行間の方向も分かるので、文字画像の方向と合わせることにより判定対象の原稿の文字が縦書きか横書きかも分かる。
なお、画像処理システム100に画像表示部やユーザー指示受付部を設けて、画像表示部に画像取得部110で取得した原稿の画像データを表示させ、ユーザーが当該表示画面を見て、原稿の画像データの回転指示や、文字が横書きか縦書きかの区別をユーザー指示受付部を介して指示するようにしても構わない。
文字認識部120は、文字領域画像について文字認識処理して得られた文字コードをその位置情報と共に文字コードデータとして電子データ生成部140に送信する。
(3)フォントサイズ決定部130
フォントサイズ決定部130は、矩形検出部131、仮設定部132、解析部133、判定部134、領域拡大部135、調整部136及びフォントサイズ検出部137を備え、文字認識部120から送信されてきた文字領域の画像データに基づき各文字についてフォントサイズを決定する。
まず、矩形検出部131において、画像データ中の1文字の画像毎に外接矩形を検出する。
本実施の形態では、上記のように文字認識部120において、濃度ヒストグラムに基づき1文字ずつ画像を切り出しているので、矩形検出部131は、その結果を利用して当該切り出した文字画像に外接する矩形(外接矩形)を検出し、その対向する2頂点(例えば、左上角と右下角の頂点)のメモリ上のアドレスを取得して、これにより各文字画像の外接矩形のサイズを得るようにしている。
仮設定部132は、上記外接矩形が検出された画像データについて、1文字もしくは、文字の並ぶ方向(横書きならば、水平方向)に互いに隣接している2文字以上の塊の画像に区分けし、それぞれの区分をフォントサイズの判定領域として仮設定する。
例えば、原稿の文章が英文である場合、単語と単語の間には必ずスペースが挿入されるので、水平方向に走査して得た濃度ヒストグラムにより、当該スペースを検出してこれにより単語毎に区分けしてそれぞれを判定領域とすることができる。
もちろん、区分けの仕方はこれに限らず、適当な文字数ごとに機械的に区分することも可能である。
解析部133は、仮設定部132により仮設定された判定領域(以下、「仮判定領域」という。)毎に、その構成要素である個々の文字の画像の外接矩形の大きさの特徴について解析する。より詳細には、横軸の階調を外形矩形の高さ方向における大きさ(以下、単に「外接矩形高さ」という。)とし、縦軸の度数を該当する外接矩形高さを有する文字画像の個数として度数分布表を作成する。
判定部134は、上記解析部133で生成された仮判定領域毎の度数分布を参照して、外接矩形高さが異なる文字画像が2種類以上あるか否かを判定する。
本実施の形態では、同じフォントサイズの文字の中でも背の高い文字種のうち一番数の多い文字の外接矩形の高さを標準値とし、各フォントサイズに対応した標準値を予め求めてテーブルに格納し、これと比較することにより文字画像のフォントサイズを決定するようにしている。例えば、アルファベットの場合には、「J」以外の大文字は同じ高さなので、それらの外接矩形高さを標準値とする。
判定領域内に、高さが異なる外接矩形の高さが異なる文字が2種類以上含まれるということは、そのうちの最大値(この値は、当該判定領域に含まれる文字のフォントサイズを決する際の代表値となる)となる文字画像が、上記フォントサイズ標準値の対象となった文字種と同種の文字である蓋然性が高く、これと比較することにより当該判定領域内の文字のフォントサイズを特定し得る。
ところが、判定領域内の各文字の高さが同一であれば、それらの文字の集合が、同じファントサイズであっても背の低い文字種のみからなるのか、背の高い文字種のみからなるのか不明である。
もし、前者である場合に上記のフォントサイズ標準値と比較すると、実際よりも小さなフォントサイズであると認識されてしまい、原稿通りに再現することができない。
そこで、判定部134では、仮設定された判定領域毎に、上記解析部133により取得された度数分布を参照して、異なる2種類以上の外接矩形高さの文字画像が当該判定領域に含まれているか(以下、「判定領域適合条件」という。)を判定する。
なお、高さの極端に低い文字種、例えば、「.」「。」「、」「,」などは、フォントサイズ決定の決め手にならないので、判定部134における判定領域適合条件の判定対象から除外するようにしている。詳しくは後述する。
判定領域適合条件を満たしていれば、当該仮設定された判定領域を、フォントサイズを確定するに適した判定領域(以下、「正規判定領域」という。)と判断する。
反対に、外接矩形高さが1種類のみである場合には、仮決定のまま、次段の領域拡大部135に通知する。
領域拡大部135は、判定部134により正規判定領域と見なされなかった仮判定領域を、当該仮判定領域に隣接している他の判定領域と統合し、新たな仮判定領域として設定する。このように仮判定領域を拡大すれば、それだけ背の異なる文字種が含まれる蓋然性が高くなり、フォントサイズが正確に決定しやすくなるからである。
調整部136は、領域拡大部135により設定された新たな仮判定領域に対して、解析部133、判定部134による処理を実行させ、判定部134において、再度正規判定領域として判断されなかった場合には、さらに領域拡大部135において判定領域を拡大させ、判定領域の大きさが上記判定領域適合条件を満たすように調整する。
フォントサイズ検出部137は、判定部134により正規設定された判定領域毎に、フォントサイズを検出する。
すなわち、フォントサイズ検出部137は、上記した背の高い文字種について、フォントサイズの値とその外接矩形高さの標準値とを対応づけたテーブルを内部に保持しており、当該テーブルを参照して、各正規判定領域の代表値(当該判定領域の構成要素である個々の文字の画像の外接矩形の高さ方向の最大値)と一番近い標準値に対応するフォントサイズを、当該正規判定領域に属する構成文字全てのフォントサイズとして決定する。
フォントサイズ検出部137は、各文字画像について検出したフォントサイズとその外接矩形の位置情報(メモリアドレス)をフォントサイズデータとして電子データ生成部140に送る。
電子データ生成部140は、フォントサイズ決定部130により決定されたフォントサイズで、認識部120により作成された文字コードの文字を表示することができるように、各文字のフォントサイズと文字コードを、それらの位置情報に基づき関連付けると共に、画像取得部110により取得された画像データの写真領域と統合して、所定の編集アプリケーションで編集できる形式の電子データを生成する。
<フォントサイズ検出処理>
以下、上記のフォントサイズ決定部130で実行されるフォントサイズの検出動作の内容についてフローチャートに基づき説明する。
なお、以下の説明では文字認識の対象となる原稿の文字領域の文章が、アルファベットによって表現される文章(英文)である場合を例にして説明する。アルファベットは、フォントサイズが同じであっても文字種によって、文字の高さが異なるため、本実施の形態による効果を顕著に得られるからである。
まず、画像取得部110により文書を含む原稿の画像データを取得し(ステップS1)、文字認識部120において、画像データから文字領域の画像データ及び写真領域の画像データをそれぞれ抽出する(ステップS2)。
そして、文字認識部120は、文字領域の画像データに対して、文字認識処理を実行して、上記のようにして当該画像データから文字コードを作成する(ステップS3)。
そして、フォントサイズ決定部130により、各文字画像についてフォントサイズを決定するフォントサイズ決定処理を実行する(ステップS4)。
電子データ生成部140において、文字認識部120からの文字コードデータとフォントサイズ決定部130からのフォントサイズデータに基づき、文字コードごとにフォントサイズを関連付けると共に、文字領域における電子データと、写真領域の電子データと統合して、所定の編集アプリケーションにおいて、文字領域と写真領域が、原稿画像と同じ配置で表示できるように電子データを生成する(ステップS5)。
図3は、図2のステップS4のフォントサイズ決定処理のサブルーチンを示すフローチャートである。
また、図4〜図6は、フォントサイズ決定処理の対象が、英文である場合のフォントサイズ決定の手順を説明するための具体例である。
まず、ステップS11において、矩形検出部131により画像データ中の文字画像について1文字ずつ外接矩形を検出する。
上述のように、アルファベットは、フォントサイズが同じであっても文字種ごとにその背の高さが異なるため、外接矩形高さも異なる。
例えば、図4の「A.原稿」に示すように、原稿の文字領域中の画像が横書きで、「This is a hen.」である場合において、各文字画像の外接矩形を求めると、「B.外接矩形」で示すような形状となる。
次に、これらの文字画像をその文字の並ぶ方向にいくつかの塊に区分して、それらの塊をフォントサイズ判定のための仮判定領域として設定する(ステップS12)。
英文においては、単語と単語との間に必ずスペースが介在するので、本実施の形態では、濃度ヒストグラムにより、このスペースを検出して、1単語ずつを1つの塊に区分して、各単語を仮判定領域として設定するようにしている。但し、ピリオドやカンマの前にはスペースがないので、直前の単語の一部と見なすようにしている。
図4の例では、そのBに示すように「This」、「is」、「a」、「hen.」が、それぞれ仮判定領域として設定されることになる。
各仮判定領域において、それらに含まれる文字の外接矩形高さについて度数分布(ヒストグラム)を作成する(ステップS13)。
そうすると各仮判定領域における外接矩形高さの分布は、図4のCに示すようになるが、「hen.」におけるピリオド「.」(高さh3)は、極端に小さい上に、フォントサイズ毎にそれほど大きさに差はなく、フォントサイズの判定対象になりにくい。そこで、極端に低い外接矩形(例えば、仮判定領域で検出された他の外接矩形の最大高さの3分の1未満の高さ)のものは、フォントサイズ判定のための対象文字から外し(図4の「D.不要な構成要素を除外」参照)、それより大きな外接矩形高さをフォントサイズ判定のために有効な外接矩形高さ(以下、「有効外接矩形高さ」という。)とする。
そして、ステップS14において、各仮判定領域の度数分布を参照して、異なる有効外接矩形高さが2種類以上あるか(判定領域適合条件)について判定を実行する(ステップS14)。
前述の通り、アルファベットの文字については、フォントサイズは同じであっても、背の高さが異なる文字種があるので、仮判定領域中の文字の有効外接矩形高さが、1種類の場合には、それが全て背の高いアルファベットからなっているのか、背の低いアルファベットからなっているのか不明であり、もし、後者の場合に大文字の高さを基準にしてフォントサイズを決定すると実際よりも小さなフォントサイズに決定され、文字コードと組み合わせて再現するとその部分だけ原稿よりも小さな表示となってしまうからである。
仮判定領域が上記判定領域適合条件を満たしている場合には(ステップS14でYES)、当該仮判定領域を正規判定領域とみなすが(ステップS17)、判定領域適合条件を満たしていない場合には(ステップS14でNO)、領域拡大部135により、隣接する判定領域(ここでは仮判定領域と正規判定領域の双方を含む。以下、単に「判定領域」という場合同じ。)と統合して仮判定領域を拡大することになる。
しかし、そもそも、隣接する判定領域が、現在判定対象となっている仮判定領域におけるフォントサイズと明らかに異なると推察される場合には、当該判定領域と統合してしまうと誤ってフォンサイズが検出されるおそれがある。
そこで、本実施の形態では、統合する前に隣接する仮判定領域について、その統合適合性を判定している。
すなわち、仮判定領域中の文字の有効外接矩形高さが、1種類だけの場合には(ステップS14でNO)、その有効外接矩形高さ(1種類だけなのでこの高さが、当該判定領域における代表値となる)と、文字の並び方向に隣接する判定領域における外接矩形の最大高さ(すなわち当該隣接する判定領域の代表値)との差異が第1の範囲内か否かを判定する(ステップS15)。この差異は、本実施の形態では、比較対象となっている代表値同士の比率としており、この比率の大きさが、所定の第1の範囲内であるか否かを判定するようにしている。この第1の範囲は、同一のフォントサイズにおける有効外接矩形高さを有する文字のうち最低なものと最大のものとの比を基準にして決定され、本実施の形態では、例えば、0.5以上2.0以下としている。
もし、ステップS15において、少なくとも一方の隣接する判定領域における有効外接矩形高さの最大値との比率が、第1の範囲内のものがある場合(有効外接矩形高さが等しい場合も含まれる)には(ステップS15でYES)、統合適合性有りとして現在判定対象となっている仮判定領域と、当該隣接する判定領域を統合して新たな仮判定領域に設定する(ステップS16)。
なお、本実施の形態において、例えば、文字領域の文章が横書きである場合には、一番上の行の一番左端の仮判定領域から始めて、その行の右端まで判定すると、折り返して一つ下の行の左端から右端に向けて順に仮判定領域の適合性を判定を行うようにしており、判定対象となっている仮判定領域の前後に隣接する判定領域の双方が、統合適合性を有している場合には、領域拡大部135は、優先的に後方の判定領域と統合するが、後の判定領域が統合適合性を有さずに、前方の判定領域が統合適合性を有する場合には、前方の判定領域と統合するようにしている。
図4の例においては、そのDに示すように「a」の仮判定領域の前後の判定領域「is」と「hen」の双方とも統合適合性を有しているので、「a」と後者の「hen」を統合して仮判定領域を「a hen」に拡大する(図4のE参照)。
しかし、図5のAに示すように、「a」の後方に隣接する判定領域「pen」が、「a」のフォントサイズよりも明らかに大きいため、その比が第1の範囲内になく、統合適合性を有しない。しかし、前方に隣接する仮判定領域(「is」)は、統合適合性を有するので、「is」と「a」を統合して新たな仮判定領域に設定することになる(図5のE参照)。
図3に戻り、ステップS16で統合された仮判定領域について、ステップS14において、再度判定領域適合条件を満たすか否かを判定し、満たしていなければ(ステップS14でNO)、さらに別の隣接する判定領域について統合適合性の有無を判定し(ステップS15)、統合適合性があれば(ステップS15でYES)、その判定領域と統合することになる。
例えば、原稿の文字列が、図6のAのように、同一のフォントサイズで「This is one ocean」のような場合について、仮判定領域「one」は、同図Cの度数分布に示すように、有効な外接矩形高さが1種類しかないので、判定領域適合条件を満たしておらず、領域拡大の必要があるが、その前後の判定領域「is」、「ocean」はいずれも統合適合性を有している。このように仮判定領域の前後の判定領域が共に統合適合性を有している場合には、本実施の形態では原則として後続する判定領域と統合するようにしているため、「one ocean」が拡大された仮判定領域となる(図6のD参照)。
しかし、この仮判定領域における有効外接矩形高さはh2の1種類だけなので判定領域適合条件を満たさないことは明らかであり、この仮判定領域の前後の判定領域のうち統合適合性を有する判定領域とさらに統合する必要がある。
図6の例では、「one ocean」の前方に「is」があり、この判定領域は統合適合性を有しているので、「is」と「one ocean」を統合して「is one ocean」を一つの仮判定領域に設定する(図6のE参照)。この新たな仮判定領域は、有効外接矩形高さが2種類あるので、判定領域適合条件を有する。
このようにして、ステップS14〜ステップS16を繰り返すことにより、最初は、判定領域適合条件を満たさない仮判定領域であっても、隣接する判定領域適と次々と統合していくと、いつかは判定領域適合条件を満たすことができ、ステップS14でYESと判定され得る。
ステップS17では、判定領域適合条件を満たした仮判定領を正規判定領域とみなし、ステップS18において、各正規判定領域内における外接矩形の最大高さを代表値とし、当該代表値に基づき各正規判定領域毎にフォントサイズを決定する(ステップS18)。
フォントサイズ検出部137(図1)内には、各フォントサイズにおけるアルファベットの「J」以外の大文字の外接矩形の高さの値を標準値として、各フォントサイズに関連付けてフォントサイズ検出部137内部のテーブル内に格納されており、正規判定領域の代表値と各標準値を比較して、代表値に一番近い標準値に対応するフォントサイズを当該正規判定領域毎に適用されるべきフォントサイズとして決定する。
なお、上記ステップS14〜S16の処理を経ることにより、通常の英文の文章では、全ての仮判定領域が、正規判定領域とみなされるようになると解されるが、極めて例外的に、ステップS14の判定領域適合条件を満たさない仮判定領域について、その両隣りの判定領域が、ステップS15の判定領域適合条件を満たさない場合があり得る(ステップS15でNO)。
例えば、図5のAに示す文字列において、「a」の前の判定領域の「is」も後方の「pen」と同様に「a」と明らかにフォントサイズが異なるような場合には、前後の判定領域が共に統合適合性を有しないので、ステップS15でNOと判定される。
この場合には、仕方がないので仮判定領域「a」を他の判定領域と統合することなく、そのままで正規判定領域とみなし(ステップS17)、もし、フォントサイズが誤認定された場合には、最終的にユーザーの手動による修正を受付けるようにすればよい。
その際、ユーザーが確認しやすいように、当該文字を表示部などに表示する際に、色を変えたり、反転表示したりして、他の文字と識別できるように表示することが望ましい。
以上のようにして、全ての正規判定領域について決定されたフォントサイズが、そのまま該当する正規判定領域に含まれる構成文字のフォントサイズとして決定される。
上述のように、正規判定領域は、ステップS15でNOと判定されるような特異な例を除き、2種類の外接矩形高さの文字画像を必ず含んでいるので、その背の高い方の文字は、各フォントサイズの標準値に設定されている文字種と同じ種類の文字であると推定され、正規判定領域内の外接矩形の高さのうち一番高いものをその判定領域の代表値として、その文字のフォントサイズを決めても、現実のフォントサイズと大差がない。
しかも、英文の場合、判定領域は、ほぼ単語単位でのまとまりとなっており、通常の英文では、一つの単語内では同一のフォントサイズの文字となっている場合がほとんどであり、代表値に基づき一番背の高い文字のフォントサイズが決定されれば、同じ正規判定領域内の文字も同じフォントサイズであるという蓋然性が非常に高いからである。
以上のようにして、判定対象となる画像データの文字領域における全ての正規判定領域におけるフォントサイズを決定した後、図2のフローチャートにリターンする。
以上説明したように、本実施の形態の画像処理システム100によれば、文字のフォントサイズを検出する際に、判定領域の構成要素である個々の文字画像の外接矩形サイズに関する度数分布を作成して、当該判定領域が、上記判定領域適合条件(ステップS14参照)を具備しているか否かを判断し、具備していなければ、判定領域を拡大することによって、外接矩形サイズの異なる文字画像が適度に混在するようにしている。
これによって、判定領域中の文字種の偏りがなくなり、各判定領域内にフォントサイズの標準値としている文字種もしくはそれに近いフォントサイズの文字種が含まれる蓋然性が高くなるので、それらに基づいてフォントサイズを決定することにより、第1の従来技術のように含まれる文字種に関係なく文字列全体の外接矩形の高さに基づき標準値と比較して一律にフォントサイズを決定する場合よりも、原稿の実際のフォントサイズをより正確に反映した電子データの生成が可能となる。
また、第2の従来技術のように文字コード毎のフォントサイズ変換テーブルなどの膨大なデータを用いる必要がないので、当該テーブルを作成する手間やこれを格納するメモリ容量が不要となり、製品コストを低減できる。
<変形例>
本発明の技術的範囲には、上記実施の形態に限定されず、次のような変形例も含まれる。
(1)上記実施の形態では、各正規判定領域に対して、その正規判定領域内の外接矩形高さの最大な文字画像が、フォントサイズの標準値とされる文字種(大文字などの一番背の高い文字種)と同種であることを前提にして、当該外接矩形高さの最大値を正規判定領域内の文字のフォントサイズを決定するための代表値とし、これを標準値と比較して正規判定領域内の文字のフォントサイズを決定した。
しかし、特に、アルファベットには、背の高い文字種の中でも微妙に高さが異なるものがある。例えば、小文字の「t」は、「a」などの小文字よりも背が高いが、標準値となる一般の大文字(例えば、「T」)よりも少し低い。それにも拘わらず、正規判定領域において「t」の外接矩形が一番高さの大きい文字である場合には、図3のステップS18において「t」の外接矩形高さが代表値とみなされてしまうため、標準値と比較した場合には、当該「t」を含む判定領域内の文字全部が、実際よりも一回り小さなフォントサイズに認定されてしまうおそれがある。
また、反対に、大文字の「J」は、標準値となる他の大文字の外接矩形の高さより、わずかに大きいため、正規判定領域において「J」の外接矩形が一番高さの大きい文字である場合には、この高さが当該正規判定領域における外接矩形高さの代表値とみなされてしまうため、標準値と比較した場合には、その判定領域内の文字が実際よりも一回り大きなフォントサイズに認定されてしまうおそれがある。
そこで、本変形例では、上記事情を考慮して、フォントサイズの決定における正確性をさらに増すため、正規判定領域間でフォントサイズを微調整するようにしている。
図7は、本変形例においてフォントサイズ決定部130で実行されるフォントサイズ決定処理の内容を示すフローチャートである。ステップS11〜S17までは、実施の形態における図3のフローチャートと全く同じなので、同図では、最初の一部のステップの図示を省略してステップS17から示している。
ステップS11〜S16までの手順を経て、ステップS17において該当する仮判定領域が、正規判定領域とみなされると、次のステップS18’において、各正規判定領域内における外接矩形の最大高さを代表値とし、当該代表値に基づき標準値と照らし合わせて求められたフォントサイズを、一旦当該正規判定領域毎のフォントサイズ候補として決定する。
そして、上記フォントサイズ候補を階級とし、正規判定領域の個数を度数として度数分布を求め(ステップS19)、当該度数分布においてフォントサイズ候補が2種類以上有るか否かを判定する(ステップS20)。
例えば、先に説明した図4のAに示すように対象文字画像が、「This is a hen.」の場合には、最終的に正規判定領域は、「This」、「is」、「a hen.」の3つになり、それぞれの代表値が等しいので(ステップS20でYES)、フォントサイズ候補の度数分布において度数を生じるフォントサイズ候補が一つだけになり(図4のG参照)、ステップS21において「NO」と判定する。
この場合には、各正規判定領域のフォントサイズが一致していると考えられるので、上記フォントサイズ候補をそのまま対応する正規判定領域内の文字のフォントサイズとして最終決定する(図4のH参照)(ステップS23)。
ところが、度数分布においてフォントサイズ候補が2種類出現した場合には(ステップS20でYES)、最終的にどのようにフォントサイズに決すべきか問題となる。上述のようにフォントサイズが同じでも「t」や「J」などの外接矩形高さが代表値となる場合には、実際のフォントサイズと若干異なる値になるからである。
本実施の形態では、当該異なるフォントサイズ候補同士の差異が所定の範囲以下か否かを判定し(ステップS21)、その判定結果に基づき、最終的なフォントサイズを正規判定領域ごとに決定することにより、この問題を解決している。
例えば、図8のAに示すように、フォントサイズの判定対象となる文字画像の文章が、「This is a tax.」であった場合には、上述した手順により、正規判定領域が「This」、「is」、「a tax.」の3つに設定される(図8のF参照)。
1番目、2番目の正規判定領域の代表値である「T」、「i」の外接矩形高さは同じh2になるが、3番目の正規判定領域の代表値となるべき「t」の高さはh2よりわずかに低いh3になるため、3番目の「a tax.」のフォントサイズ候補が前2者のフォントサイズ候補よりもわずかに小さく評価される。そのため度数分布にも図8のGに示すように2種類のフォントサイズ候補P1、P3が近接して現れる。
この場合には、フォントサイズ候補の大きさの差異は、文字種の差異によるものであり、フォントサイズそのものに差異があったものではないと解されるので、一方のフォントサイズを他方のフォントサイズに揃えるように調整するのが望ましい。
そこで、本変形例では、図8のGの度数分布から出現頻度の高い方のフォントサイズP1を判定対象となった3つの正規判定領域のフォントサイズとしている(図8のH)。
すなわち、同じフォントサイズのアルファベットの中で、「t」や「J」のような外接矩形高さを有するものはそれほど多くなく、これらの外接矩形高さが、正規判定領域の代表値となる頻度は、他の標準値の文字種が、代表値となる頻度より少ないからである。
図8のように、「This is a tax.」のような極めて短い文章の場合であっても3つの正規判定領域「This」、「is」、「a tax.」のうち「t」の外接矩形高さを代表値とするものは、1個しかない。したがって、一度にフォントサイズの決定するための文字領域の範囲が大きいほど、「t」の外接矩形高さを代表値とする正規判定領域の出現する頻度は、その他の標準文字の外接矩形高さを代表値とする正規判定領域の出現よりも確実に少なくなる。
つまり、度数分布において近いサイズのフォントサイズ候補が2種類出現した場合には、頻度(度数)が多い方のフォントサイズ候補に統一すれば、原稿に、より忠実なフォントサイズを決定することができるので、図8のHでは、フォントサイズ候補がP3とされた「a tax.」のフォントサイズをフォントサイズP1に置き換える処理を行っている。
「J」の外接矩形高さも場合も他の文字種に比べて特殊で1個しかないので、「J」を外接矩形高さを代表値とする正規判定領域も出現頻度が低いと考えられ、この場合でも頻度の高い方のフォントサイズ候補に揃えることにより、正しいフォントサイズを決定することができる。
したがって、フォントサイズ決定の対象となる文字領域に含まれる複数の正規判定領域について、2種類以上のフォントサイズ候補が出現し、かつ、それらの差異が予め設定された所定の範囲(第2の範囲)内の場合には(ステップS21でYES)、出現頻度の一番高いフォントサイズに決定する(ステップS22)。
また、度数分布で現れた2種類の大きさのフォントサイズ候補の差異が、第2の範囲を超える場合には、それはもはや、同じフォントサイズにおける文字種の差によるものではなく、フォントサイズそのものに差があると解するのが自然である。
例えば、図9のAに示すように原稿の文字画像が「This is a hen.」であって、「This」のフォントサイズが他の単語よりかなり大きい場合には、正規判定領域について、フォントサイズ候補の度数分布を求めれば、図9のGのように度数の発生するフォントサイズ候補P1、P4として両者の大きさに一定以上の差が生じる。
したがって、この場合には、度数分布で現れた2種類のフォントサイズの差異が第2の範囲を超えるものとして、ステップS21において「NO」と判定され、比較の対象となった正規判定領域間では、一方を他方のフォントサイズに合わせるのではなく、それぞれのフォントサイズ候補をそのまま最終的なフォントサイズであると決定する(ステップS23)(図9のH参照)。
なお、上記ステップS21における第2の範囲は、フォントサイズ候補の大きさに応じて経験的に求めることができる。代表値で決定されたフォントサイズ候補が、通常使用される10ポイント〜12ポイントの範囲内である場合には、第2の範囲は、例えば、1ポイントに設定される。
フォントサイズの大きさに応じて、第2の範囲とすべき値も変化すると考えられるので、そのフォントサイズ候補ごとに第2の範囲を示すテーブルを持つのが望ましい。
または、上記実施の形態で説明したのと同様に、フォントサイズ候補同旨の差異を、その外接矩形高さの比率として捉え、当該比率により第2の範囲を規定して、ステップS21の判定を行うようにしてもよい。この場合の第2の範囲も、「t」や「J」などの高さが特殊な文字と標準となる文字の高さの比によって経験的に求めることができる。
なお、フォントサイズ決定部130でのフォントサイズ決定処理は、画像取得部110で取得してフォントサイズの決定対象となっている文字領域の画像データの全てについて一括して行ってもよいし、そのうちの所定量の画像データ(例えば、1頁分もしくは数行分)に分割して、順次行うようにしても構わない。一括して処理するデータ量が多いほど、第2の範囲内の差異を有するフォントサイズ候補の出現頻度の差が顕著に現れるので、図7のステップS22においてフォントサイズを揃える処理をより的確に実行できる。
(2)上記実施の形態では、正規判定領域に含まれる文字画像のうち一番外接矩形高さが大きい値を、その正規判定領域に含まれるフォントサイズを決定するための代表値としたが、一番背の低い文字種の外接矩形高さを代表値とすることも可能である。この場合の標準値として、各フォントサイズ毎における一番背の低い文字種の外接矩形高さが用いられる。
(3)上記実施の形態では、文字認識の対象となる文書の言語が英文(アルファベット)である場合における、フォントサイズの決定方法について説明したが、アルファベットに類似する他の言語の文字であってもよく、要するに同一のフォントサイズであっても、その文字画像における外接矩形高さが異なる2以上の文字種が存在する文字体系におけるフォントサイズの検出に適用できる。
日本語の文字の場合でも、同じフォントサイズでも、外接矩形の高さの異なる文字が多数あり(漢数字の「一、二」、カタカナの「エ、コ、ニ、フ、ノ、ヘ・・・」、ひらがなの「こ、つ、と、の、へ、・・・」などは、他の同じフォントサイズの漢字に比べると高さが低く、そのほか、「きゃ、きゅ、きょ」などの拗音における「ゃ、ゅ、ょ・・」や、「セット、カット」などの促音で使用される「っ、ッ」などの小さな文字)、上記実施の形態や変形例(1)におけるフォントサイズの検出方法の適用が可能である。
なお、日本語の文章のように単語と単語の間にスペースが入らない場合には、英文のように文字の画像間の隙間を利用して単語単位で文字の塊の画像毎に区分して仮判定領域とすることが困難なので、文字の配列方向(横書きまたは縦書き)において、句読点や改行の位置で区分してもよいし、単純に所定数(例えば5文字程度)の文字毎に文章を区切って、各文字の塊を仮判定領域とすればよい。
文字認識の対象となる言語については、ある特定の言語としてもよいし、複数の言語について文字認識用の辞書を有する装置にあっては、ユーザーが不図示の入力部より対象とする辞書を切り替えるようにしてもよい。
(3)上記実施形態では、フォントサイズ検出部137が外接矩形の高さ方向の大きさに応じてフォントサイズを検出したが、外接矩形サイズを示すパラメーターとして外接矩形高さ以外に、その幅もしくは面積が、フォントサイズに密接に対応している文字体系があれば、それらの値をパラメーターとしてフォントサイズを検出するようにしてもよい。
(4)上記実施の形態では、主にパーソナルコンピューターからなる画像処理システム100において、文字認識部120で文字領域の画像データを抽出した後、文字認識部120による文字認識処理とフォントサイズ決定部130によるフォントサイズ決定処理をパラレルに実施する例を示した。
このように文字認識部120による文字認識処理と、フォントサイズ決定部130におけるフォントサイズ決定処理を並行して行うことにより、全体の処理時間を短縮させることができる。
また、文字認識処理とフォントサイズ決定処理をシリアルに実行させるようにしてもよい。この場合、全体の処理時間がパラレルの場合よりも少し長くなると考えられるが、文字認識処理において文字切り出しの際に用いた濃度ヒストグラムの結果などを利用して外接矩形の検出処理を実行することにより、フォントサイズ決定処理の効率化を図ることができる。また、CPUの処理能力がパラレル処理の場合よりも低くてもよいので、コスト的なメリットもある。
また、画像処理システムは、例えば、図10(a)、(b)に示すように、画像形成装置、とりわけプリンター、スキャナー及びコピー機の機能を備えるMFP(プリンター複合機)単体内に上記の文字認識プログラムやフォントサイズ決定処理のプログラムを組み込み、文字認識処理とフォントサイズ決定処理をシリアルもしくはパラレルに実行させるように構成しても構わない。
この場合には、主にMFPのスキャナーが、画像取得部110としての役割を果たす。
また、画像処理システムは、図11(a)(b)に示すように、パーソナルコンピューターなどの端末に、画像取得部、フォントサイズ決定部、電子データ生成部を設けて、この端末と社内LANやインターネットを介して接続されたサーバーもしくはウェブサイトに外部アプリケーションとして設けられた文字認識部とで構成するようにしてもよい。
この場合、外部アプリケーションとして、社内もしくは社外のクラウドサービスなどが想定される。
図11(a)は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理がシリアルで実行される構成を示しており、図11(b)は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理がパラレルに実行される構成を示している。
さらに、画像処理システムを、図12(a)(b)に示すように、MFPと端末と外部アプリケーションの3つを組み合わせて構成するようにしても構わない。
MFPと端末間は、LANなどで接続され、端末と外部アプリケーションは、インターネットで接続される。
ユーザーは、MFPの画像取得部(スキャナー)で読み込んだ原稿の画像データを取得して外部アプリケーションに送信して文字認識処理を実行させて、その認識結果を受信すると共に、自装置においてフォントサイズ決定処理を実行し、電子データを生成する。
図12(a)は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理をシリアルに処理する構成を示し、図12(b)は、外部アプリケーションにおける文字認識処理と、端末におけるフォントサイズ決定処理をパラレルに処理する構成を示す。
図11(b)および図12(b)では、文字認識処理は外部アプリケーションにて実行されるので、フォントサイズ決定処理と文字認識処理をパラレル処理するように構成しても、図10(b)の場合に比べ、端末のCPUにおける負担は大きくならない。
なお、上記図10〜図12では、便宜上原稿の画像データのうち文字領域の画像データについての文字認識処理とフォントサイズ決定処理のみを対象とした構成例を示している。
(5)画像処理システム100により実行されるフォントサイズ決定処理の内容は、CPU71で実行されるプログラムに関する発明として捉えることが可能である。
この場合、当該プログラムは、例えば、磁気ディスク、DVD、CD−ROM、CD−R、MOなどの光記録媒体、Smart Media(登録商標)、COMPACTFLASH(登録商標)などのフラッシュメモリ系記録媒体など、コンピューター読み取り可能な各種記録媒体に記録することが可能であり、当該記録媒体の形態で生産、譲渡等がなされる場合もあるし、プログラムの形態で、インターネットを含む有線、無線の各種ネットワーク、放送、電気通信回線、衛星通信等を介して伝送、供給される場合もある。
(6)上記実施の形態および変形例は可能な限り組み合わせて実行することができる。
本発明は、原稿上の文字画像のフォントサイズを検出する技術として有用である。
100 画像処理システム
110 画像取得部
120 文字認識部
130 フォントサイズ決定部
131 矩形検出部
132 仮設定部
133 解析部
134 判定部
135 領域拡大部
136 調整部
137 フォントサイズ検出部
140 電子データ生成部

Claims (11)

  1. 原稿の画像データから文字コードを生成すると共に、フォントサイズ決定手段により各文字コードに対応するフォントサイズを検出する画像処理システムであって、
    前記フォントサイズ決定手段は、
    前記画像データ中の1文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得部と、
    前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定部と、
    前記仮設定された各判定領域について、異なる2種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定部と、
    前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定部と、
    前記決定部により正規な判定領域として決定されなかった判定領域を拡大する領域拡大部と、
    前記領域拡大部により拡大された新たな判定領域に対して、前記判定部、前記決定部及び前記領域拡大部による一連の処理を繰り返し実行させて判定領域を調整する調整部と、
    正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出部と
    を備えることを特徴とする画像処理システム。
  2. 前記領域拡大部は、
    前記決定部において正規な判定領域とされなかった判定領域について、当該判定領域に隣接する他の判定領域と統合することにより判定領域を拡大すること
    を特徴とする請求項1に記載の画像処理システム。
  3. 前記領域拡大部は
    前記判定部において正規な判定領域とされなかった判定領域内に含まれる文字画像の外接矩形サイズの代表値と、当該判定領域に隣接する他の判定領域内の複数の文字画像の外接矩形サイズの代表値との差異が、第1の範囲よりも大きくなる場合には、当該隣接する他の判定領域を統合の対象としないこと
    を特徴とする請求項2に記載の画像処理システム。
  4. 前記各文字画像の外接矩形サイズは、当該外接矩形の高さ方向の大きさで規定されており、前記判定領域内の代表値とは、当該判定領域に含まれる文字画像の外接矩形の高さの最大値である
    ことを特徴とする請求項1から3までのいずれかに記載の画像処理システム。
  5. 前記フォントサイズ検出部で判定領域毎のフォントサイズを検出した結果、第1のフォントサイズの判定領域と、これと大きさの異なる第2のフォントサイズの判定領域が存在する場合に、第1と第2のフォントサイズの差異が、第2の範囲内である場合には、第1と第2のいずれか一方のフォントサイズを、他方のフォントサイズに揃えるフォントサイズ整合部を備える
    ことを特徴とする請求項1から4までのいずれかに記載の画像処理システム。
  6. 前記フォントサイズ整合部は、原稿の画像データのうち、フォントサイズの検出対象となる文字画像領域内の所定の範囲内の判定領域について、第1もしくは第2のフォントサイズのうち出現頻度の高い方のフォントサイズに揃える
    ことを特徴とする請求項5に記載の画像処理システム。
  7. 前記所定の範囲は、フォントサイズの検出対象となっている文字画像領域の全域である
    ことを特徴とする請求項6に記載の画像処理システム。
  8. 前記画像処理システムは、さらに、
    前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、
    原稿の画像データに対して、前記文字認識手段による文字認識処理と、前記フォントサイズ決定手段によるフォントサイズ決定処理が並行して実行される構成であること
    を特徴とする請求項1〜7のいずれかに記載の画像処理システム。
  9. 前記画像処理システムは、さらに、
    前記画像データに文字認識処理を施して、文字コード列に変換する文字認識手段を備え、
    原稿の画像データに対して、前記文字認識手段による文字認識処理を実行した後に、前記フォントサイズ決定手段によるフォントサイズ決定処理を実行するように構成されていること
    を特徴とする請求項1〜7のいずれかに記載の画像処理システム。
  10. 画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定方法であって、
    前記画像データ中の1文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、
    前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、
    前記仮設定された各判定領域について、異なる2種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、
    前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、
    前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、
    前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、
    正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップと、
    を含むことを特徴とするフォントサイズ決定方法。
  11. 画像データに含まれる文字画像について、そのフォントサイズを決定するフォントサイズ決定処理を、画像処理システムに実行させるフォントサイズ決定プログラムであって、
    前記フォントサイズ決定処理は、
    前記画像データ中の1文字の画像毎に、その外接矩形のサイズを取得する外接矩形取得ステップと、
    前記画像データを、所定の基準により文字画像の塊に区分し、それぞれの区分を、フォントサイズを検出するための判定領域として仮設定する仮設定ステップと、
    前記仮設定された各判定領域について、異なる2種類以上の外接矩形サイズの文字画像が含まれるという条件を満たしているか否かを判定する判定ステップと、
    前記仮設定された判定領域が、前記条件を満たしている場合に、当該仮設定された判定領域を正規の判定領域として決定する決定ステップと、
    前記決定ステップにより正規な判定領域として決定されなかった判定領域を拡大する領域拡大ステップと、
    前記領域拡大ステップにより拡大された新たな判定領域に対して、前記判定ステップ、前記決定ステップ及び前記領域拡大ステップによる一連の処理を繰り返し実行させて判定領域を調整する調整ステップと、
    正規の判定領域毎に、当該判定領域内に含まれる文字画像の外接矩形サイズの代表値を取得し、その代表値に基づき当該判定領域に含まれる文字のフォントサイズを検出するフォントサイズ検出ステップと、
    を含むことを特徴とするフォントサイズ決定プログラム。
JP2014191131A 2014-09-19 2014-09-19 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム Active JP6387761B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014191131A JP6387761B2 (ja) 2014-09-19 2014-09-19 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014191131A JP6387761B2 (ja) 2014-09-19 2014-09-19 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム

Publications (2)

Publication Number Publication Date
JP2016062412A true JP2016062412A (ja) 2016-04-25
JP6387761B2 JP6387761B2 (ja) 2018-09-12

Family

ID=55796078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014191131A Active JP6387761B2 (ja) 2014-09-19 2014-09-19 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム

Country Status (1)

Country Link
JP (1) JP6387761B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120469A (ja) * 1991-10-25 1993-05-18 Ricoh Co Ltd 画像処理装置
JPH10254994A (ja) * 1997-03-14 1998-09-25 Ricoh Co Ltd サイズ識別方法および記憶媒体
JPH10334186A (ja) * 1997-06-03 1998-12-18 Brother Ind Ltd 文字認識装置及び文字認識処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011248415A (ja) * 2010-05-24 2011-12-08 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120469A (ja) * 1991-10-25 1993-05-18 Ricoh Co Ltd 画像処理装置
JPH10254994A (ja) * 1997-03-14 1998-09-25 Ricoh Co Ltd サイズ識別方法および記憶媒体
JPH10334186A (ja) * 1997-06-03 1998-12-18 Brother Ind Ltd 文字認識装置及び文字認識処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011248415A (ja) * 2010-05-24 2011-12-08 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JP6387761B2 (ja) 2018-09-12

Similar Documents

Publication Publication Date Title
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
JP5274305B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
EP2270714B1 (en) Image processing device and image processing method
JP5121599B2 (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP2011141598A (ja) 画像処理装置、画像処理方法、及びプログラム
JP5321109B2 (ja) 情報処理装置及び情報処理プログラム
US11521365B2 (en) Image processing system, image processing apparatus, image processing method, and storage medium
JP2004046315A (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JP2019125353A (ja) 電子文書中の文字列塊を推測する方法
US9741142B2 (en) Method and apparatus for enabling text editing in a scanned document while maintaining fidelity of the appearance of the text
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
US11146705B2 (en) Character recognition device, method of generating document file, and storage medium
JP2012205181A (ja) 画像処理装置およびプログラム
JP2006209353A (ja) 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
US9792263B2 (en) Human input to relate separate scanned objects
JP6387761B2 (ja) 画像処理システム、フォントサイズ決定方法及びフォントサイズ決定プログラム
US11715317B1 (en) Automatic generation of training data for hand-printed text recognition
JP2006276905A (ja) 翻訳装置、画像処理装置、画像形成装置、翻訳方法及びプログラム
KR20160053544A (ko) 후보 문자의 추출 방법
JP5159588B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
US20210182477A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
US9400926B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
JP2011040075A (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2020099031A (ja) 情報処理装置、及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180730

R150 Certificate of patent or registration of utility model

Ref document number: 6387761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150