JP4616522B2 - Document recognition apparatus, document image region identification method, program, and storage medium - Google Patents

Document recognition apparatus, document image region identification method, program, and storage medium Download PDF

Info

Publication number
JP4616522B2
JP4616522B2 JP2001211476A JP2001211476A JP4616522B2 JP 4616522 B2 JP4616522 B2 JP 4616522B2 JP 2001211476 A JP2001211476 A JP 2001211476A JP 2001211476 A JP2001211476 A JP 2001211476A JP 4616522 B2 JP4616522 B2 JP 4616522B2
Authority
JP
Japan
Prior art keywords
character
line
area
region
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001211476A
Other languages
Japanese (ja)
Other versions
JP2003030584A (en
Inventor
利夫 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001211476A priority Critical patent/JP4616522B2/en
Publication of JP2003030584A publication Critical patent/JP2003030584A/en
Application granted granted Critical
Publication of JP4616522B2 publication Critical patent/JP4616522B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体に関する。
【0002】
【従来の技術】
従来、文書画像中の文字列や文字領域(コラム)の識別方法としては、各種の方式が知られている。
【0003】
例えば、特開平06-020092号公報には、文書画像中から空白部を抽出し、この空白部の繋がりからなる空白セパレータを領域分割線として扱って領域を分割することにより、文書画像中の文字列や文字領域(コラム)を抽出する方法が提案されている。
【0004】
また、黒画素の射影ヒストグラムを利用し、黒画素の分布の高い部分を文字列の範囲とする方法も知られている(秋山、増田「周辺分布、線密度、外接矩形特徴を併用した文書画像の領域識別」電子通信学会論文誌 86/8 Vol J69−D))。
【0005】
【発明が解決しようとする課題】
ところで、従来の文書画像中の文字列や文字領域(コラム)を抽出する方法によれば、領域識別処理の後に行われる文字認識のための行切り出し処理において、文字領域には印鑑や図領域などは混在していないものとして処理を行っている。
【0006】
しかしながら、現実には、印鑑や図など文字以外の領域が、領域分割の結果として文字と判定された領域に入り込むことがある。このような場合には、従来の方法では、文書画像中の文字列や文字領域(コラム)から文字行を切り出す行切りだし処理を行うことができず、文字抽出精度が低下するという問題があった。
【0007】
本発明の目的は、文字抽出精度を向上させることである。
【0008】
【課題を解決するための手段】
本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。
また、本発明において、前記外接矩形抽出手段は、入力画像のオリジナル画像から、前記矩形の抽出を行う。
また、本発明において、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割手段を備える。
【0009】
したがって、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0011】
また、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定が容易になる。
【0013】
また、再分割が容易になる。
【0014】
また、本発明は、前記再分割手段により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定する。
【0015】
したがって、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定が容易になる。
【0018】
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む
また、本発明において、前記外接矩形抽出工程は、入力画像のオリジナル画像から、前記矩形の抽出を行う。
また、本発明において、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割工程を備える。
【0019】
したがって、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0021】
また、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定が容易になる。
【0023】
また、再分割が容易になる。
【0024】
また、本発明は、前記再分割工程により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定する。
【0025】
したがって、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定が容易になる。
【0028】
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる
また、本発明において、前記外接矩形抽出機能は、入力画像のオリジナル画像から、前記矩形の抽出を行う。
また、本発明において、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割機能を備える。
【0029】
したがって、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0031】
また、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定が容易になる。
【0033】
また、再分割が容易になる。
【0034】
また、本発明において、前記再分割機能により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定する。
【0035】
したがって、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定が容易になる。
【0038】
また、本発明のコンピュータに読み取り可能な記憶媒体は、請求項11ないし15のいずれか一記載のプログラムを記憶している。
【0039】
したがって、この記憶媒体をコンピュータにインストールすることにより、請求項11ないし15のいずれか一記載のプログラムと同様の作用を得ることが可能になる。
【0040】
【発明の実施の形態】
本発明の実施の一形態を図1ないし図6に基づいて説明する。
【0041】
図1は、文書認識装置1のハードウェア構成を概略的に示すブロック図である。図1に示すように、文書認識装置1は、この文書認識装置1の各部を集中的に制御するCPU(Central Processing Unit)2を備えており、このCPU2には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)3と、各種データを書換え可能に記憶するRAM(Random Access Memory)4とがバス5で接続されている。さらにバス5には、外部記憶となるHDD(Hard Disk Drive)6と、CD(Compact Disc)−ROM7を読み取るCD−ROMドライブ8と、文書認識装置1とネットワーク9との通信を司る通信制御装置10と、入力部として機能するキーボードやマウスなどの入力装置11と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)などの出力装置12と、画像入力部として機能するスキャナなどの画像入力装置13とが、図示しないI/Oを介して接続されている。
【0042】
RAM4は、各種データを書換え可能に記憶する性質を有していることから、CPU2の作業エリアとして機能する。
【0043】
また、HDD6には、各種のプログラムを格納するプログラムファイルが格納されている。
【0044】
図1に示すCD−ROM7は、この発明の記憶媒体を実施するものであり、所定のプログラムが記憶されている。CPU2は、CD−ROM7に記憶されているプログラムをCD−ROMドライブ8で読み取り、HDD6にインストールする。これにより、文書認識装置1は、後述するような各種の処理を行なうことが可能な状態となる。
【0045】
なお、記憶媒体としては、CD−ROM7のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フロッピーディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置10を介してインターネットなどのネットワーク9からプログラムをダウンロードし、HDD6にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、ワープロソフトなど所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
【0046】
次に、文書認識装置1のCPU2がプログラムに基づいて制御されることにより実現される各種機能について説明する。図2は、文書認識装置1の機能ブロック図である。
【0047】
領域識別部14は、例えば画像入力装置13から入力されてメモリ(RAM4等)に記憶された文書画像を領域識別し、文字領域、表領域、図領域、写真領域などに分類する。なお、文書の領域属性は、黒ランの密度を用いて判断する等の手法により求めることが可能であるが、この手法は従来より公知であるため、その説明は省略する。
【0048】
図領域抽出部15は、領域識別部14において文字領域として分類された領域内に、実線(印鑑や図等)が混入しているか否かを判定する。実線(印鑑や図等)が混入しているか否かの判定手法は従来より公知であるため、その説明は省略する。
【0049】
領域分割部16は、図領域抽出部15において文字領域として分類された領域内に実線(印鑑や図等)が混入していると判断された場合、対象文字領域を再分割し、文字認識部17に渡す。
【0050】
文字認識部17は、行切り出し処理及び文字切り出し処理によって1文字の文字を切り出すとともに、切り出した文字に対する文字認識処理のマッチング処理により、文字候補を選択する。
【0051】
なお、図領域抽出部15において文字領域として分類された領域内に実線(印鑑や図等)が混入していないと判断された場合は、図領域抽出部15において文字領域として分類された領域はそのまま文字認識部17に渡される。
【0052】
ここで、本実施の形態の特長的な機能を発揮する図領域抽出部15及び領域分割部16における処理の流れについて図3を参照しつつ詳細に説明する。まず、ステップS1においては、領域識別部14において文字領域として分類された領域について、領域座標データ(入力画像を1/4に圧縮した1/4圧縮画像で抽出された始点、終点のX,Y座標)を用いて該当領域が縦長領域であるか否かを判断し、該当領域が縦長領域である場合には、該当領域を排除する(以降の処理を行わない)。
【0053】
加えて、ステップS2においては、該当領域の行方向が「縦」であるか否かを判断し、該当領域の行方向が「縦」である場合には、該当領域を排除する(以降の処理を行わない)。
【0054】
次いで、ステップS3において、候補領域の検出を行う。より詳細には、まず、上記の処理で検出された文字領域のオリジナル画像に対して矩形抽出処理を行い、矩形座標データを得る。ここに、外接矩形抽出手段の機能が実行される。ここで、1/4圧縮画像を用いないのは、圧縮画像を用いると矩形同士が接触して大きな矩形となってしまうからである。この後の処理で矩形座標情報から強制分割位置を推定するため、矩形同士が接触して大きな矩形となってしまった場合には、推定精度があがらないという問題が発生するためである。そして、このような矩形抽出処理の結果求まった文字領域内の矩形がすべて黒画素であると仮定し、各ラインごと(Y座標ごと)に文字領域内で最も小さいX座標(図4に示す太実線:minXs(y))と、最も大きいX座標(図4に示す太破線:maxXe(y))とを求める。
【0055】
minXs(y)とmaxXe(y)とのyの値は、該当領域座標の始点(area.Ys)から終点(area.Ye)の値を取るが、ここで上記の範囲を0〜99の100個のデータに正規化する。
minXs(y),maxXs(y) →(正規化)→ minXs(Y),maxXe(Y)
但しY=(y−area.Ys)/(area.Ye−area.Ys)×100
以上により、領域内矩形のX座標の最大値、最小値が各画素行ごとに求められる。
【0056】
次いで、この領域内矩形のX座標の最大値、最小値の値から、複数行が接触しているか否かを判断する。複数行の左側が接触している例(図4(a)参照)では、X座標の最小値に注目し、最小値が領域の始点Xsに連続して寄っているところを行とする。また、行間は、X座標の最小値が領域の終点Xeに近くなることから、連続してXeに寄っているところを行間とする。そして、「行−行間−行」の組み合わせが検出された領域を複数行が接触している(つまり、印鑑や図等が混入している)と判定し、図5に示すように、行間の中心で領域を強制分割する。なお、複数行の右側が接触している例(図4(b)参照)では、X座標の最大値に注目し同様の処理を行うことになる。これにより、文字領域が再分割され、候補領域の検出処理(ステップS3)が終了する。ここに、非文字領域判定手段の機能及び再分割手段の機能が実行される。
【0057】
最後に、ステップS4に進み、最終判定処理を実行する。最終判定は、再分割された文字領域内に実線(印鑑や図等)が混入しているか否かを判定するものであって、行間と判定された領域に存在する矩形に実線(印鑑や図等)が存在するか否かを判定し、矩形に実線(印鑑や図等)が存在する場合にはその矩形を図領域とするものである。
【0058】
なお、上記では座標の凹凸情報から行を横に分割する例を説明したが、凹凸情報を用いて、図6に示すように凸部で図や写真と思われる図領域部分を縦方向に分割するようにしても良い。
【0059】
また、これらの分割の後、文字認識を行った結果の確からしさを示す指標(確信度)を算出し、確信度が低い(確からしさが低い)部分は、図領域とすることで、より分割精度を向上させることも可能である。
【0060】
なお、本実施の形態においては、行方向横向きである横書き文書に関して説明をしたが、これに限るものではなく、行方向縦向きである縦書き文書に適用することも可能である。
【0061】
ここに、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0062】
【発明の効果】
本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。また、前記外接矩形抽出手段は、入力画像のオリジナル画像から、前記矩形の抽出を行う。また、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割手段を備える。これにより、文字領域属性と識別された領域内に文字以外の領域が存在するか否かを判定し、文字領域属性と識別された領域内に文字以外の領域が存在すると判定した場合、当該文字領域属性と識別された領域を再分割することにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することができるので、文字抽出精度を向上させることができる。
【0063】
また、本発明によれば、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0064】
また、本発明によれば、再分割を容易に行うことができる。
【0065】
また、本発明によれば、前記再分割手段により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定することにより、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0067】
また、本発明によれば文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。また、前記外接矩形抽出工程は、入力画像のオリジナル画像から、前記矩形の抽出を行う。また、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割工程を備える。これにより、文字領域属性と識別された領域内に文字以外の領域が存在するか否かを判定し、文字領域属性と識別された領域内に文字以外の領域が存在すると判定した場合、当該文字領域属性と識別された領域を再分割することにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することができるので、文字抽出精度を向上させることができる。
【0068】
また、本発明によれば文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0069】
また、本発明によれば再分割を容易に行うことができる。
【0070】
また、本発明によれば、前記再分割工程により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定することにより、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0072】
また、本発明によれば文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。また、前記外接矩形抽出機能は、入力画像のオリジナル画像から、前記矩形の抽出を行う。また、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割機能を備える。これにより、文字領域属性と識別された領域内に文字以外の領域が存在するか否かを判定し、文字領域属性と識別された領域内に文字以外の領域が存在すると判定した場合、当該文字領域属性と識別された領域を再分割することにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することができるので、文字抽出精度を向上させることができる。
【0073】
また、本発明によれば文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0074】
また、本発明によれば再分割を容易に行うことができる。
【0075】
また、本発明によれば、前記再分割機能により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定することにより、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0077】
また、本発明のコンピュータに読み取り可能な記憶媒体によれば、上述したプログラムを記憶したことにより、この記憶媒体をコンピュータにインストールすることで、上述したプログラムと同様の作用・効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の文書認識装置のハードウェア構成を概略的に示すブロック図である。
【図2】文書認識装置の機能ブロック図である。
【図3】図領域抽出部及び領域分割部における処理の流れを示すフローチャートである。
【図4】領域内矩形抽出結果に基づいて領域内矩形のX座標の最大値、最小値を求めた例を示す説明図である。
【図5】強制分割位置の一例を示す説明図である。
【図6】強制分割位置の他の一例を示す説明図である。
【符号の説明】
1 文書認識装置
7 記憶媒体
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document recognition apparatus, a document image area identification method, a program, and a storage medium that identify and classify character areas and non-character areas mixed in document image data.
[0002]
[Prior art]
Conventionally, various methods are known as a method of identifying a character string or a character region (column) in a document image.
[0003]
For example, in Japanese Patent Laid-Open No. 06-020092, a blank part is extracted from a document image, and a character is included in the document image by dividing a region by treating a blank separator formed by the connection of the blank part as a region dividing line. A method of extracting a row or a character area (column) has been proposed.
[0004]
Also known is a method that uses the projection histogram of black pixels to make the portion of the black pixel distribution high as the range of the character string (Akiyama, Masuda “Document image using both peripheral distribution, line density, and circumscribed rectangle characteristics) ”Area identification” of IEICE Transactions 86/8 Vol J69-D)).
[0005]
[Problems to be solved by the invention]
By the way, according to the conventional method for extracting a character string or a character area (column) in a document image, in a line segmentation process for character recognition performed after the area identification process, the character area includes a seal, a figure area, and the like. Are treated as not being mixed.
[0006]
However, in reality, areas other than characters, such as seals and drawings, may enter areas determined to be characters as a result of area division. In such a case, the conventional method has a problem that line extraction processing for cutting out a character line from a character string or a character region (column) in a document image cannot be performed, and character extraction accuracy decreases. It was.
[0007]
An object of the present invention is to improve character extraction accuracy.
[0008]
[Means for Solving the Problems]
  The present inventionIn the document recognition apparatus for discriminating and classifying character regions and non-character regions mixed in document image data, a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute is defined as the document. Circumscribed rectangle extracting means for extracting from the image data, and the rectangle extracted by the circumscribed rectangle extracting meansDetermining the minimum value of the coordinates for each pixel line, determining that the determined minimum coordinate value of the rectangle is continuously approaching the start point of the area identified as the character area attribute as a character line, An area identified as the character area attribute is determined when a position that is continuously approaching an end point of the area identified as the character area attribute is determined as a line space and a combination of “line-line space-line” is detected. If there is a region other than the character inNon-character area determination means for determiningAndPrepare.
  The present invention also provides:In a document recognition apparatus for discriminating and classifying character areas and non-character areas mixed in document image data, a rectangle circumscribing a connected component of black pixels included in the area identified as the character area attribute is defined as the document image data. The circumscribed rectangle extracting means for extracting the rectangle and the rectangle extracted by the circumscribed rectangle extracting meansA maximum value of the coordinates of each pixel line is determined, and the determined maximum value of the coordinates of the rectangle is determined as a character line where it is continuously approaching the end point of the area identified as the character area attribute, An area identified as the character area attribute is determined when a line-to-line determination is made as a line space where the character string attribute is continuously approaching the start point of the area identified as the character area attribute. If there is a region other than the character inNon-character area determination means for determiningAndPrepare.
In the present invention, the circumscribed rectangle extracting means extracts the rectangle from the original image of the input image.
In the present invention, the image processing apparatus further comprises subdivision means for subdividing an area identified as the character area attribute at the line spacing portion.
[0009]
Therefore, if it is determined whether or not there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, Regions identified as region attributes are subdivided. As a result, even if an area other than a character such as a seal or a figure enters an area determined to be a character as a result of the area division, the area identified as the character area attribute can be divided again to obtain a non-character area. Since the area can be excluded, the character extraction accuracy can be improved.
[0011]
  AlsoThis makes it easy to determine whether or not there is a region other than a character in the region identified as the character region attribute.
[0013]
  AlsoSubdivision becomes easier.
[0014]
  In addition, the present inventionIsIn the area identified as the character area attribute subdivided by the subdivision means,Area determined to be the line spacingDepending on whether there is a solid line in the rectangle present in,AboveIt is determined whether an area other than characters exists.
[0015]
Therefore, since there is no character in the area determined as the line spacing, it is easy to determine whether there is an area other than the character.
[0018]
  The present invention also provides:A document image region identification method for identifying and classifying character regions and non-character regions mixed in document image data, wherein the rectangle circumscribes a connected component of black pixels included in the region identified as the character region attribute A circumscribed rectangle extracting step for extracting the rectangle from the document image data, and the rectangle extracted by the circumscribed rectangle extracting stepDetermining the minimum value of the coordinates for each pixel line, determining that the determined minimum coordinate value of the rectangle is continuously approaching the start point of the area identified as the character area attribute as a character line, An area identified as the character area attribute is determined when a position that is continuously approaching an end point of the area identified as the character area attribute is determined as a line space and a combination of “line-line space-line” is detected. If there is a region other than the character inNon-character area determination process for determiningAndIncluding.
  The present invention also provides:A document image region identification method for identifying and classifying character regions and non-character regions mixed in document image data, wherein the rectangle circumscribes a connected component of black pixels included in the region identified as the character region attribute A circumscribed rectangle extracting step for extracting the rectangle from the document image data, and the rectangle extracted by the circumscribed rectangle extracting stepA maximum value of the coordinates of each pixel line is determined, and the determined maximum value of the coordinates of the rectangle is determined as a character line where it is continuously approaching the end point of the area identified as the character area attribute, An area identified as the character area attribute is determined when a line-to-line determination is made as a line space where the character string attribute is continuously approaching the start point of the area identified as the character area attribute. If there is a region other than the character inNon-character area determination process for determiningAndInclude.
  In the present invention, the circumscribed rectangle extracting step extracts the rectangle from the original image of the input image.
The present invention further includes a subdivision step of subdividing the area identified as the character area attribute at the line spacing portion.
[0019]
Therefore, if it is determined whether or not there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, Regions identified as region attributes are subdivided. As a result, even if an area other than a character such as a seal or a figure enters an area determined to be a character as a result of the area division, the area identified as the character area attribute can be divided again to obtain a non-character area. Since the area can be excluded, the character extraction accuracy can be improved.
[0021]
  AlsoThis makes it easy to determine whether or not there is a region other than a character in the region identified as the character region attribute.
[0023]
  AlsoSubdivision becomes easier.
[0024]
  In the area identified as the character area attribute subdivided by the subdivision step,Area determined to be the line spacingDepending on whether there is a solid line in the rectangle present in,AboveIt is determined whether an area other than characters exists.
[0025]
Therefore, since there is no character in the area determined as the line spacing, it is easy to determine whether there is an area other than the character.
[0028]
  The present invention also provides:A program for causing a computer to identify and classify a character area and a non-character area mixed in document image data, the computer linking black pixels included in an area identified as a character area attribute A circumscribed rectangle extracting function for extracting a rectangle circumscribing a component from the document image data, and the rectangle extracted by the circumscribed rectangle extracting functionDetermining the minimum value of the coordinates for each pixel line, determining that the determined minimum coordinate value of the rectangle is continuously approaching the start point of the area identified as the character area attribute as a character line, An area identified as the character area attribute is determined when a position that is continuously approaching an end point of the area identified as the character area attribute is determined as a line space and a combination of “line-line space-line” is detected. If there is a region other than the character inNon-character area judgment function to judgeAndLet it run.
  The present invention also provides:A program for causing a computer to identify and classify a character area and a non-character area mixed in document image data, the computer linking black pixels included in an area identified as a character area attribute A circumscribed rectangle extracting function for extracting a rectangle circumscribing a component from the document image data, and the rectangle extracted by the circumscribed rectangle extracting functionA maximum value of the coordinates of each pixel line is determined, and the determined maximum value of the coordinates of the rectangle is determined as a character line where it is continuously approaching the end point of the area identified as the character area attribute, An area identified as the character area attribute is determined when a line-to-line determination is made as a line space where the character string attribute is continuously approaching the start point of the area identified as the character area attribute. If there is a region other than the character inNon-character area judgment function to judgeAndExecute.
  In the present invention, the circumscribed rectangle extraction function extracts the rectangle from the original image of the input image.
  In the present invention, a re-division function is provided for re-division of the area identified as the character area attribute at the portion between lines.
[0029]
Therefore, if it is determined whether or not there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, Regions identified as region attributes are subdivided. As a result, even if an area other than a character such as a seal or a figure enters an area determined to be a character as a result of the area division, the area identified as the character area attribute can be divided again to obtain a non-character area. Since the area can be excluded, the character extraction accuracy can be improved.
[0031]
  AlsoThis makes it easy to determine whether or not there is a region other than a character in the region identified as the character region attribute.
[0033]
  AlsoSubdivision becomes easier.
[0034]
  In the present invention, in the area identified as the character area attribute subdivided by the subdivision function,Area determined to be the line spacingDepending on whether there is a solid line in the rectangle present in,AboveIt is determined whether an area other than characters exists.
[0035]
Therefore, since there is no character in the area determined as the line spacing, it is easy to determine whether there is an area other than the character.
[0038]
  In addition, the present inventionA computer-readable storage medium stores the program according to claim 11.is doing.
[0039]
Therefore, by installing this storage medium in a computer, it is possible to obtain the same operation as the program according to any one of claims 11 to 15.
[0040]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described with reference to FIGS.
[0041]
FIG. 1 is a block diagram schematically showing a hardware configuration of the document recognition apparatus 1. As shown in FIG. 1, the document recognition apparatus 1 includes a CPU (Central Processing Unit) 2 that centrally controls each part of the document recognition apparatus 1, and the CPU 2 stores a read-only memory that stores a BIOS and the like. A ROM (Read Only Memory) 3 that is a memory and a RAM (Random Access Memory) 4 that stores various data in a rewritable manner are connected by a bus 5. Further, the bus 5 includes an HDD (Hard Disk Drive) 6 serving as an external storage, a CD-ROM drive 8 that reads a CD (Compact Disc) -ROM 7, and a communication control device that controls communication between the document recognition device 1 and the network 9. 10, an input device 11 such as a keyboard or a mouse that functions as an input unit, an output device 12 such as a CRT (Cathode Ray Tube) or an LCD (Liquid Crystal Display), and an image input device such as a scanner that functions as an image input unit 13 is connected via an I / O (not shown).
[0042]
The RAM 4 functions as a work area for the CPU 2 because it has the property of storing various data in a rewritable manner.
[0043]
The HDD 6 stores program files for storing various programs.
[0044]
A CD-ROM 7 shown in FIG. 1 implements the storage medium of the present invention, and stores a predetermined program. The CPU 2 reads the program stored in the CD-ROM 7 with the CD-ROM drive 8 and installs it in the HDD 6. As a result, the document recognition apparatus 1 is in a state in which various processes as described later can be performed.
[0045]
As the storage medium, not only the CD-ROM 7 but also various types of media such as semiconductor memory such as various optical disks such as DVD, various magnetic disks such as various magneto-optical disks and floppy disks, and the like can be used. Alternatively, the program may be downloaded from the network 9 such as the Internet via the communication control device 10 and installed in the HDD 6. In this case, the storage device storing the program in the server on the transmission side is also a storage medium of the present invention. Note that the program may operate on a predetermined OS (Operating System), in which case the OS may execute a part of various processes described later, or a word processor. It may be included as part of a group of program files that constitute predetermined application software such as software or an OS.
[0046]
Next, various functions realized when the CPU 2 of the document recognition apparatus 1 is controlled based on a program will be described. FIG. 2 is a functional block diagram of the document recognition apparatus 1.
[0047]
The area identifying unit 14 identifies areas of document images input from the image input device 13 and stored in a memory (RAM 4 or the like), for example, and classifies them into character areas, table areas, figure areas, photo areas, and the like. Note that the region attribute of the document can be obtained by a method such as judging using the density of black runs, but since this method is conventionally known, the description thereof is omitted.
[0048]
The figure area extraction unit 15 determines whether or not a solid line (such as a seal or a drawing) is mixed in the area classified as the character area by the area identification unit 14. Since a method for determining whether or not a solid line (a seal, a drawing, etc.) is mixed is conventionally known, the description thereof is omitted.
[0049]
When it is determined that a solid line (such as a seal or a drawing) is mixed in the area classified as the character area in the figure area extraction unit 15, the area dividing unit 16 subdivides the target character area, and the character recognition unit Pass to 17.
[0050]
The character recognition unit 17 cuts out one character by line cut-out processing and character cut-out processing, and selects a character candidate by matching processing of character recognition processing for the cut-out character.
[0051]
If it is determined that a solid line (such as a seal or a drawing) is not mixed in the area classified as the character area in the figure area extraction unit 15, the area classified as the character area in the figure area extraction unit 15 is It is passed to the character recognition unit 17 as it is.
[0052]
Here, the flow of processing in the figure region extraction unit 15 and the region division unit 16 that exhibit the characteristic functions of the present embodiment will be described in detail with reference to FIG. First, in step S1, region coordinate data (start point and end point X, Y extracted from a 1/4 compressed image obtained by compressing the input image to 1/4) is obtained for the region classified as a character region by the region identifying unit 14. It is determined whether or not the corresponding area is a vertically long area using coordinates), and if the corresponding area is a vertically long area, the corresponding area is excluded (the subsequent processing is not performed).
[0053]
In addition, in step S2, it is determined whether or not the row direction of the corresponding area is “vertical”, and if the row direction of the corresponding area is “vertical”, the corresponding area is excluded (following processing). Do not do).
[0054]
Next, in step S3, candidate areas are detected. More specifically, first, rectangle extraction processing is performed on the original image of the character area detected by the above processing to obtain rectangular coordinate data. Here, the function of the circumscribed rectangle extracting means is executed. Here, the reason why the 1/4 compressed image is not used is that when the compressed image is used, the rectangles come into contact with each other to form a large rectangle. This is because the forced division position is estimated from the rectangular coordinate information in the subsequent processing, and therefore, when the rectangles come into contact with each other to form a large rectangle, there is a problem that the estimation accuracy is not improved. Then, assuming that all the rectangles in the character area obtained as a result of such rectangle extraction processing are black pixels, the smallest X coordinate (the thicker shown in FIG. 4) in the character area for each line (for each Y coordinate). The solid line: minXs (y)) and the largest X coordinate (thick broken line: maxXe (y) shown in FIG. 4) are obtained.
[0055]
The value y of minXs (y) and maxXe (y) takes the value from the start point (area.Ys) to the end point (area.Ye) of the corresponding area coordinates. Normalize to data.
minXs (y), maxXs (y) → (normalization) → minXs (Y), maxXe (Y)
However, Y = (y−area.Ys) / (area.Ye−area.Ys) × 100
As described above, the maximum value and the minimum value of the X coordinate of the in-region rectangle are obtained for each pixel row.
[0056]
Next, it is determined whether or not a plurality of lines are in contact with each other based on the maximum and minimum values of the X coordinate of the rectangle in the region. In an example in which the left sides of a plurality of lines are in contact (see FIG. 4A), attention is paid to the minimum value of the X coordinate, and the line where the minimum value is continuously approaching the start point Xs of the region is defined. In addition, since the minimum value of the X coordinate is close to the end point Xe of the region, the space between the rows is defined as the space between the rows. Then, it is determined that a plurality of lines are in contact with each other in an area where the combination of “row-line-line-row” is detected (that is, seals, drawings, etc. are mixed), and as shown in FIG. Force split the region at the center. In the example in which the right sides of a plurality of rows are in contact (see FIG. 4B), the same processing is performed by paying attention to the maximum value of the X coordinate. As a result, the character area is subdivided, and the candidate area detection process (step S3) ends. Here, the function of the non-character area determination means and the function of the re-division means are executed.
[0057]
Finally, the process proceeds to step S4, and a final determination process is executed. The final determination is to determine whether a solid line (such as a seal or a figure) is mixed in the subdivided character area, and a solid line (a seal or a figure in a rectangle existing in the area determined to be between lines). Or the like), and when a solid line (such as a seal or a figure) exists in the rectangle, the rectangle is used as the figure region.
[0058]
In addition, although the example which divides | segments a line horizontally from the uneven | corrugated information of a coordinate was demonstrated above, using the uneven | corrugated information, as shown in FIG. 6, the figure area part considered to be a figure and a photograph is vertically divided | segmented by a convex part. You may make it do.
[0059]
In addition, after these divisions, an index (confidence level) indicating the certainty of the result of character recognition is calculated, and parts with low confidence levels (low certainty levels) are made into figure regions so that they are further divided. It is also possible to improve accuracy.
[0060]
In the present embodiment, a horizontal document that is horizontally oriented in the row direction has been described. However, the present invention is not limited to this, and it can also be applied to a vertically written document that is vertically oriented in the row direction.
[0061]
Here, it is determined whether or not there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, The area identified as the character area attribute is subdivided. As a result, even if an area other than a character such as a seal or a figure enters an area determined to be a character as a result of the area division, the area identified as the character area attribute can be divided again to obtain a non-character area. Since the area can be excluded, the character extraction accuracy can be improved.
[0062]
【The invention's effect】
  According to the present inventionIn a document recognition apparatus for identifying and classifying character areas and non-character areas mixed in document image data, a rectangle circumscribing a connected component of black pixels included in the area identified as the character area attribute is defined as the document image. Circumscribed rectangle extracting means for extracting from the data, and the rectangle extracted by the circumscribed rectangle extracting meansDetermining the minimum value of the coordinates for each pixel line, determining that the determined minimum coordinate value of the rectangle is continuously approaching the start point of the area identified as the character area attribute as a character line, An area identified as the character area attribute is determined when a position that is continuously approaching an end point of the area identified as the character area attribute is determined as a line space and a combination of “line-line space-line” is detected. If there is a region other than the character inNon-character area determination means for determiningAndPrepare.Moreover, according to the present invention,In a document recognition apparatus for discriminating and classifying character areas and non-character areas mixed in document image data, a rectangle circumscribing a connected component of black pixels included in the area identified as the character area attribute is defined as the document image data. The circumscribed rectangle extracting means for extracting the rectangle and the rectangle extracted by the circumscribed rectangle extracting meansA maximum value of the coordinates of each pixel line is determined, and the determined maximum value of the coordinates of the rectangle is determined as a character line where it is continuously approaching the end point of the area identified as the character area attribute, An area identified as the character area attribute is determined when a line-to-line determination is made as a line space where the character string attribute is continuously approaching the start point of the area identified as the character area attribute. If there is a region other than the character inNon-character area determination means for determiningAndPrepare. The circumscribed rectangle extracting means extracts the rectangle from the original image of the input image. Further, the image processing apparatus further comprises subdivision means for subdividing the area identified as the character area attribute at the line spacing portion. ThisIf it is determined whether there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, the character area attribute Even if a region other than characters such as a seal or a figure enters a region determined to be a character as a result of region division by subdividing the region identified as, the region identified as the character region attribute Since the region other than the characters can be excluded by dividing the character string again, the character extraction accuracy can be improved.
[0063]
  Also bookAccording to the invention,SentenceIt is possible to easily determine whether or not there is a region other than a character in the region identified as the character region attribute.
[0064]
  Also bookAccording to the inventionReDivision can be easily performed.
[0065]
  Also bookAccording to the invention, In the area identified as the character area attribute subdivided by the subdivision means,Area determined to be the line spacingDepending on whether there is a solid line in the rectangle present in,AboveBy determining whether or not there is an area other than the character, there is no character in the area determined to be between lines, so it is possible to easily determine whether or not there is an area other than the character. .
[0067]
  Also bookAccording to the invention,A document image region identification method for identifying and classifying character regions and non-character regions mixed in document image data, wherein the rectangle circumscribes a connected component of black pixels included in the region identified as the character region attribute A circumscribed rectangle extracting step for extracting the rectangle from the document image data, and the rectangle extracted by the circumscribed rectangle extracting stepDetermining the minimum value of the coordinates for each pixel line, determining that the determined minimum coordinate value of the rectangle is continuously approaching the start point of the area identified as the character area attribute as a character line, An area identified as the character area attribute is determined when a position that is continuously approaching an end point of the area identified as the character area attribute is determined as a line space and a combination of “line-line space-line” is detected. If there is a region other than the character inNon-character area determination process for determiningAndIncluding.Moreover, according to the present invention,A document image region identification method for identifying and classifying character regions and non-character regions mixed in document image data, wherein the rectangle circumscribes a connected component of black pixels included in the region identified as the character region attribute A circumscribed rectangle extracting step for extracting the rectangle from the document image data, and the rectangle extracted by the circumscribed rectangle extracting stepA maximum value of the coordinates of each pixel line is determined, and the determined maximum value of the coordinates of the rectangle is determined as a character line where it is continuously approaching the end point of the area identified as the character area attribute, An area identified as the character area attribute is determined when a line-to-line determination is made as a line space where the character string attribute is continuously approaching the start point of the area identified as the character area attribute. If there is a region other than the character inNon-character area determination process for determiningAndInclude. In the circumscribed rectangle extracting step, the rectangle is extracted from the original image of the input image. Further, a subdivision step is provided for subdividing the area identified as the character area attribute at the line spacing portion. ThisIf it is determined whether there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, By re-dividing the identified area, even if a non-character area such as a seal or drawing enters the area determined to be a character as a result of the area division, the area identified as the character area attribute is Since the area other than the character can be excluded by dividing again, the character extraction accuracy can be improved.
[0068]
  Also bookAccording to the invention,It is possible to easily determine whether or not there is a region other than a character in the region identified as the character region attribute.
[0069]
  Also bookAccording to the invention,Subdivision can be easily performed.
[0070]
  Also bookAccording to the invention, In the area identified as the character area attribute subdivided by the subdivision step,Area determined to be the line spacingDepending on whether there is a solid line in the rectangle present in,AboveBy determining whether or not there is an area other than the character, there is no character in the area determined to be between lines, so it is possible to easily determine whether or not there is an area other than the character. .
[0072]
  Also bookAccording to the invention,A program for causing a computer to identify and classify a character area and a non-character area mixed in document image data, the computer linking black pixels included in an area identified as a character area attribute A circumscribed rectangle extracting function for extracting a rectangle circumscribing a component from the document image data, and the rectangle extracted by the circumscribed rectangle extracting functionDetermining the minimum value of the coordinates for each pixel line, determining that the determined minimum coordinate value of the rectangle is continuously approaching the start point of the area identified as the character area attribute as a character line, An area identified as the character area attribute is determined when a position that is continuously approaching an end point of the area identified as the character area attribute is determined as a line space and a combination of “line-line space-line” is detected. If there is a region other than the character inNon-character area judgment function to judgeAndExecute. Moreover, according to the present invention,A program for causing a computer to identify and classify a character area and a non-character area mixed in document image data, the computer linking black pixels included in an area identified as a character area attribute A circumscribed rectangle extracting function for extracting a rectangle circumscribing a component from the document image data, and the rectangle extracted by the circumscribed rectangle extracting functionA maximum value of the coordinates of each pixel line is determined, and the determined maximum value of the coordinates of the rectangle is determined as a character line where it is continuously approaching the end point of the area identified as the character area attribute, An area identified as the character area attribute is determined when a line-to-line determination is made as a line space where the character string attribute is continuously approaching the start point of the area identified as the character area attribute. If there is a region other than the character inNon-character area judgment function to judgeAndExecute. The circumscribed rectangle extraction function extracts the rectangle from the original image of the input image. Further, a re-division function is provided for re-division of the area identified as the character area attribute at the line spacing portion. ThisIf it is determined whether there is a non-character area in the area identified as the character area attribute, and if it is determined that there is a non-character area in the area identified as the character area attribute, the character area attribute Even if a region other than characters such as a seal or a figure enters a region determined to be a character as a result of region division by subdividing the region identified as, the region identified as the character region attribute Since the region other than the characters can be excluded by dividing the character string again, the character extraction accuracy can be improved.
[0073]
  Also bookAccording to the invention,It is possible to easily determine whether or not there is a region other than a character in the region identified as the character region attribute.
[0074]
  Also bookAccording to the invention,Subdivision can be easily performed.
[0075]
  Also bookAccording to the invention, In the area identified as the character area attribute subdivided by the subdivision function,Area determined to be the line spacingDepending on whether there is a solid line in the rectangle present in,AboveBy determining whether or not there is an area other than the character, there is no character in the area determined to be between lines, so it is possible to easily determine whether or not there is an area other than the character. .
[0077]
  Also bookAccording to the computer-readable storage medium of the invention,Mentioned aboveBy installing this storage medium in the computer by storing the program,Mentioned aboveYou can get the same actions and effects as the program.
[Brief description of the drawings]
FIG. 1 is a block diagram schematically showing a hardware configuration of a document recognition apparatus according to an embodiment of the present invention.
FIG. 2 is a functional block diagram of a document recognition apparatus.
FIG. 3 is a flowchart showing a flow of processing in a diagram area extracting unit and a region dividing unit;
FIG. 4 is an explanatory diagram showing an example in which the maximum value and the minimum value of the X coordinate of the rectangle within the area are obtained based on the result of extracting the rectangle within the area.
FIG. 5 is an explanatory diagram showing an example of a forced division position.
FIG. 6 is an explanatory diagram showing another example of forced division positions.
[Explanation of symbols]
1 Document recognition device
7 Storage media

Claims (16)

文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、
前記外接矩形抽出手段により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備えることを特徴とする文書認識装置。
In a document recognition apparatus that identifies and classifies character areas and non-character areas mixed in document image data,
Circumscribing rectangle extracting means for extracting a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute from the document image data;
The minimum value of the coordinates of the rectangle extracted by the circumscribed rectangle extracting means is obtained for each pixel line, and the determined minimum value of the coordinates of the rectangle is continuously from the start point of the area identified as the character area attribute. When it is determined that the line is close as a character line, the line that is continuously close to the end point of the area identified as the character area attribute is determined as a line space, and a combination of “line-line-line-line” is detected And a non-character area determining unit that determines that an area other than the character exists in the area identified as the character area attribute .
文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、
前記外接矩形抽出手段により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備えることを特徴とする文書認識装置。
In a document recognition apparatus that identifies and classifies character areas and non-character areas mixed in document image data,
Circumscribing rectangle extracting means for extracting a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute from the document image data;
The maximum value of the coordinates of the rectangle extracted by the circumscribed rectangle extracting means is obtained for each pixel line, and the determined maximum value of the coordinates of the rectangle is continuously from the end point of the area identified as the character area attribute. When it is determined that the line is close as a character line, the line that is continuously close to the start point of the area identified as the character area attribute is determined as a line space, and a combination of “line-line-line-line” is detected And a non-character area determining unit that determines that an area other than the character exists in the area identified as the character area attribute .
前記外接矩形抽出手段は、入力画像のオリジナル画像から、前記矩形の抽出を行うことを特徴とする請求項1又は2記載の文書認識装置。3. The document recognition apparatus according to claim 1, wherein the circumscribed rectangle extracting unit extracts the rectangle from an original image of the input image. 前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割手段を備えることを特徴とする請求項1ないし3のいずれか一記載の文書認識装置。4. The document recognition apparatus according to claim 1, further comprising subdivision means for subdividing an area identified as the character area attribute at the line spacing portion. 前記再分割手段により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定することを特徴とする請求項記載の文書認識装置。 In the identified with the character region attribute subdivided by subdivision means regions, depending on whether a solid line exists in the rectangular present in the rows and a region determined as the region other than the character is present 5. The document recognition apparatus according to claim 4, wherein it is determined whether or not. 文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、
前記外接矩形抽出工程により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含むことを特徴とする文書画像の領域識別方法。
A document image region identification method for identifying and classifying character regions and non-character regions mixed in document image data,
A circumscribed rectangle extracting step of extracting a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute from the document image data;
The minimum value of the coordinates of the rectangle extracted by the circumscribed rectangle extraction step is obtained for each pixel line, and the determined minimum value of the coordinates of the rectangle is continuously from the start point of the area identified as the character area attribute. When it is determined that the line is close as a character line, the line that is continuously close to the end point of the area identified as the character area attribute is determined as a line space, and a combination of “line-line-line-line” is detected to, in the character region attribute with the identified area, area identification method of a document image, which comprises a non-character area determining step of determining a region other than the character is present.
文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、
前記外接矩形抽出工程により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含むことを特徴とする文書画像の領域識別方法。
A document image region identification method for identifying and classifying character regions and non-character regions mixed in document image data,
A circumscribed rectangle extracting step of extracting a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute from the document image data;
The maximum value of the coordinates of the rectangle extracted by the circumscribed rectangle extraction step is obtained for each pixel line, and the determined maximum value of the coordinates of the rectangle is continuously from the end point of the area identified as the character area attribute. When it is determined that the line is close as a character line, the line that is continuously close to the start point of the area identified as the character area attribute is determined as a line space, and a combination of “line-line-line-line” is detected to, in the character region attribute with the identified area, area identification method of a document image, which comprises a non-character area determining step of determining a region other than the character is present.
前記外接矩形抽出工程は、入力画像のオリジナル画像から、前記矩形の抽出を行うことを特徴とする請求項6又は7記載の文書画像の領域識別方法。8. The document image region identification method according to claim 6, wherein the circumscribed rectangle extracting step extracts the rectangle from an original image of the input image. 前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割工程を備えることを特徴とする請求項6ないし8のいずれか一記載の文書画像の領域識別方法。9. The document image region identification method according to claim 6, further comprising a subdivision step of subdividing the region identified as the character region attribute at the portion between lines. 前記再分割工程により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定することを特徴とする請求項記載の文書画像の領域識別方法。 In subdivided the character region attributes identified regions by the subdivision step, whether solid is present in the rectangular present in the rows and a region determined as the region other than the character is present 10. The document image region identification method according to claim 9, further comprising : 文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、
前記外接矩形抽出機能により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させることを特徴とするプログラム。
A program for causing a computer to identify and classify character areas and non-character areas mixed in document image data,
In the computer,
A circumscribed rectangle extracting function for extracting a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute from the document image data;
The minimum value of the coordinates of the rectangle extracted by the circumscribed rectangle extraction function is obtained for each pixel line, and the obtained minimum value of the coordinates of the rectangle is continuously from the start point of the area identified as the character area attribute. When it is determined that the line is close as a character line, the line that is continuously close to the end point of the area identified as the character area attribute is determined as a line space, and a combination of “line-line-line-line” is detected in the character region attribute with the identified area, program characterized by executing a non-character area determining function for determining a region other than the character is present.
文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、
前記外接矩形抽出機能により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させることを特徴とするプログラム。
A program for causing a computer to identify and classify character areas and non-character areas mixed in document image data,
In the computer,
A circumscribed rectangle extracting function for extracting a rectangle circumscribing a connected component of black pixels included in the region identified as the character region attribute from the document image data;
The maximum value of the coordinates of the rectangle extracted by the circumscribed rectangle extraction function is obtained for each pixel line, and the maximum value of the determined coordinates of the rectangle is continuously from the end point of the area identified as the character area attribute. When it is determined that the line is close as a character line, the line that is continuously close to the start point of the area identified as the character area attribute is determined as a line space, and a combination of “line-line-line-line” is detected in the character region attribute with the identified area, program characterized by executing a non-character area determining function for determining a region other than the character is present.
前記外接矩形抽出機能は、入力画像のオリジナル画像から、前記矩形の抽出を行うことを特徴とする請求項11又は12記載のプログラム。The program according to claim 11 or 12, wherein the circumscribed rectangle extraction function extracts the rectangle from an original image of an input image. 前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割機能を備えることを特徴とする請求項11ないし13のいずれか一記載のプログラム。The program according to any one of claims 11 to 13, further comprising a subdivision function for subdividing an area identified as the character area attribute at the portion between lines. 前記再分割機能により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより前記文字以外の領域が存在するか否かを判定することを特徴とする請求項14記載のプログラム。 In subdivided the character region attributes identified regions by the subdivision feature, depending on whether a solid line exists in the rectangular present in the rows and a region determined as the region other than the character is present 15. The program according to claim 14, wherein it is determined whether or not. 請求項11ないし15のいずれか一記載のプログラムを記憶したことを特徴とするコンピュータに読み取り可能な記憶媒体。A computer-readable storage medium storing the program according to any one of claims 11 to 15 .
JP2001211476A 2001-07-12 2001-07-12 Document recognition apparatus, document image region identification method, program, and storage medium Expired - Fee Related JP4616522B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001211476A JP4616522B2 (en) 2001-07-12 2001-07-12 Document recognition apparatus, document image region identification method, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001211476A JP4616522B2 (en) 2001-07-12 2001-07-12 Document recognition apparatus, document image region identification method, program, and storage medium

Publications (2)

Publication Number Publication Date
JP2003030584A JP2003030584A (en) 2003-01-31
JP4616522B2 true JP4616522B2 (en) 2011-01-19

Family

ID=19046783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001211476A Expired - Fee Related JP4616522B2 (en) 2001-07-12 2001-07-12 Document recognition apparatus, document image region identification method, program, and storage medium

Country Status (1)

Country Link
JP (1) JP4616522B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4856925B2 (en) * 2005-10-07 2012-01-18 株式会社リコー Image processing apparatus, image processing method, and image processing program
JP4135752B2 (en) 2006-06-12 2008-08-20 コニカミノルタビジネステクノロジーズ株式会社 Image processing apparatus, image processing method, and image processing program
CN117495950B (en) * 2023-12-29 2024-03-26 山东五思信息科技有限公司 Test paper sealing line positioning method and system based on density clustering

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201182A (en) * 1982-05-20 1983-11-22 Nippon Telegr & Teleph Corp <Ntt> Character and graph demarcating method
JPH04270483A (en) * 1990-11-16 1992-09-25 Seiko Epson Corp Character information detector
JPH04303278A (en) * 1990-12-29 1992-10-27 Gold Star Co Ltd Character-string separating method for compressed image
JPH06150055A (en) * 1992-11-06 1994-05-31 Matsushita Electric Ind Co Ltd Character recognizing device
JPH08115380A (en) * 1994-10-18 1996-05-07 Canon Inc Device and method for image processing
JP2001134712A (en) * 1999-11-02 2001-05-18 Canon Inc Device and method for processing image

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201182A (en) * 1982-05-20 1983-11-22 Nippon Telegr & Teleph Corp <Ntt> Character and graph demarcating method
JPH04270483A (en) * 1990-11-16 1992-09-25 Seiko Epson Corp Character information detector
JPH04303278A (en) * 1990-12-29 1992-10-27 Gold Star Co Ltd Character-string separating method for compressed image
JPH06150055A (en) * 1992-11-06 1994-05-31 Matsushita Electric Ind Co Ltd Character recognizing device
JPH08115380A (en) * 1994-10-18 1996-05-07 Canon Inc Device and method for image processing
JP2001134712A (en) * 1999-11-02 2001-05-18 Canon Inc Device and method for processing image

Also Published As

Publication number Publication date
JP2003030584A (en) 2003-01-31

Similar Documents

Publication Publication Date Title
US10803338B2 (en) Method and device for recognizing the character area in a image
WO2018103608A1 (en) Text detection method, device and storage medium
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
JP3995185B2 (en) Frame recognition device and recording medium
JP2000207489A (en) Character extracting method and device and record medium
JP4616522B2 (en) Document recognition apparatus, document image region identification method, program, and storage medium
US9684844B1 (en) Method and apparatus for normalizing character included in an image
JP3215163B2 (en) Ruled line identification method and area identification method
KR102285269B1 (en) Image analysis apparatus and method for utilizing the big data base GEO AI
JPH10285399A (en) Binarization method for image
JP4409713B2 (en) Document image recognition apparatus and recording medium
WO2023152809A1 (en) Image processing device, image processing method, and program
JPH1153539A (en) Circular pattern discriminating method and storage medium
CN112418218B (en) Target area detection method, device, equipment and storage medium
JP3187894B2 (en) Document image tilt detection method
JPH0573718A (en) Area attribute identifying system
JP3220226B2 (en) Character string direction determination method
JP4738645B2 (en) SHADED AREA DETECTING DEVICE, SHATTERED AREA DETECTING METHOD, PROGRAM, AND STORAGE MEDIUM
JP3086277B2 (en) Document image processing device
JP2023051732A (en) Method, computer-readable program, and system
JP2004094292A (en) Character recognizing device, character recognizing method, and program used for executing the method
CN117670868A (en) Image processing method, device, electronic equipment and storage medium
JPH06215139A (en) Graphic recognizing method
CN112801090A (en) Character area detection method and device
JPH10254994A (en) Size identification method and storage medium

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041004

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101022

R150 Certificate of patent or registration of utility model

Ref document number: 4616522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees