JP2003030583A - 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置 - Google Patents

表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置

Info

Publication number
JP2003030583A
JP2003030583A JP2001211071A JP2001211071A JP2003030583A JP 2003030583 A JP2003030583 A JP 2003030583A JP 2001211071 A JP2001211071 A JP 2001211071A JP 2001211071 A JP2001211071 A JP 2001211071A JP 2003030583 A JP2003030583 A JP 2003030583A
Authority
JP
Japan
Prior art keywords
information
type
ruled line
format
table type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001211071A
Other languages
English (en)
Inventor
Toshio Fujine
俊夫 藤根
Kazuhiro Ishikawa
和弘 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2001211071A priority Critical patent/JP2003030583A/ja
Publication of JP2003030583A publication Critical patent/JP2003030583A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 表種別またはフォーマット種別が不明である
表領域を含んだ画像データから正確また効率的に表種別
またはフォーマット種別を識別する。 【解決手段】 フォーマット種別識別装置100は、フ
ォーマット識別辞書102と表識別辞書104と照合制
御部110と罫線検出部120と罫線データメモリ12
2と対応関係照合部124とフォーマット判定部130
とを具える。照合制御部110は内部に階層照合制御部
112と表制御部114を有し、フォーマット判定部1
30は、内部に一致度判定部132を有する。階層照合
制御部112は、階層的に罫線情報を罫線検出部120
に出力し、階層的な検出・照合を実施する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、帳票用文字認識
装置等に適用して好適なフォーマット種別識別方法及び
装置と、フォーマット種別識別方法に利用される表種別
識別方法及び装置とに関する。更に、フォーマット種別
認識装置、表種別認識装置に関する。
【0002】
【従来の技術】帳票に記入された文字の認識(読み取
り)を行う装置では、一般に、各帳票フォーマットの種
別に対応した読み取り制御データを用いて文字パタンを
切り出した後、文字の読み取りを行っている。例えば、
この種の文字認識方法として文献(「文字認識概論」、
橋本新一郎 編著、昭和57年3月20日、オーム社、
p.203〜206)に開示された方法がある。
【0003】一般に、文字認識装置の入力用に使用され
る帳票には、各帳票フォーマットの種別毎に設定された
帳票種別番号が印刷されている。文字認識装置は、この
帳票種別番号に基づいて、帳票フォーマットの種別を識
別してから、当該種別に対応した読み取り制御データを
読み出している。
【0004】
【発明が解決しようとする課題】しかし、帳票の中に
は、帳票種別番号が印刷されていない帳票もある。例え
ば、市販の一般伝票や私製の帳票には帳票種別番号が印
刷されていない。このため、これらの帳票に対してフォ
ーマットの種別が識別できない。
【0005】帳票種別番号が印刷されていない場合に、
帳票のフォーマット種別を識別する方法が、「特開平7
−220023号」公報に開示されている。この文献に
は、帳票に印刷されている罫線情報を用いてフォーマッ
ト種別を識別する方法が記載されている。しかし、この
開示された方法は、縦・横それぞれ2本の基準線を用い
て罫線を検出しているため罫線検出範囲の正確な決定が
困難である。また、帳票のフォーマットを特徴付ける長
さの長い罫線を他の短い罫線と区別していないため、フ
ォーマット種別の識別に関して、正確さに欠ける点があ
った。
【0006】そこで従来から、表種別またはフォーマッ
ト種別が不明である表領域を含んだ画像データから表種
別またはフォーマット種別を正確に識別する方法及び装
置の出現が望まれていた。
【0007】
【課題を解決するための手段】本発明者は、上述の問題
の解決を図るため種々の検討を行ったところ、画像デー
タから表領域の表種別を識別する場合、最外周を示す罫
線で囲まれた表領域の中から長い罫線と短い罫線を区分
しながら、罫線を検出し、これにより得られた検出罫線
情報の中から、長さが長い罫線の情報に基づいて該当候
補となる表種別を特定することにより正確または効率的
に表種別またはフォーマット種別の識別ができることを
見出した。
【0008】このために、先ず、第1ステップとして、
対象となる1つ以上の表種別について、各々の表種別情
報として、罫線情報または罫線で区切られる領域情報を
予め表識別辞書に、以下の方法で格納しておく。
【0009】ある表に関して、最外周を示す罫線で囲わ
れる領域、すなわち表領域の水平方向または垂直方向両
端まで罫線によって分割された各領域を第1階層の分割
領域と呼び、この罫線を第1階層の罫線と呼ぶものとす
る。尚、表を両端まで分割する罫線が、水平方向にも垂
直方向にもある場合には、任意のどちらかの方向の罫線
を第1階層の罫線とする。各領域、すなわち第1階層の
分割領域が、更なる罫線によって分割されている場合に
は、この更なる罫線によって分割された各領域を下位階
層の分割領域と呼び、この更なる罫線を下位階層の罫線
と呼ぶ。以下同様に、罫線によって分割されていない領
域となるまで階層付けをし、n次(n≧1の整数)の階
層構造と見なす。そして、各階層毎の罫線情報または分
割領域情報を表種別情報として表識別辞書に格納する。
同様な処理を他の表に関しても繰り返し、表識別辞書
(データベース)を作成する。
【0010】次に、第2ステップとして、この表識別辞
書内のある表種別の情報を基に、表種別が不明である表
領域を含んだ画像データから、第1階層から第m階層
(1≦m≦nの整数)までの各階層で罫線を検出し、こ
れに得られた検出罫線情報と表種別情報の罫線情報の対
応関係を順次照合する。またはこれにより得られた検出
分割領域情報と表種別情報の分割領域情報との対応関係
を順次照合する。尚、検出分割情報とは、検出罫線情報
を基にして得られる分割領域の情報である。
【0011】次に、第3ステップとして、第2ステップ
での対応関係の照合結果からこの表種別に対し画像デー
タとの一致度を求める。さらに、表識別辞書内の全表種
別に対して、順次、一致度を求める。そして、各表種別
の一致度を比較して、最も一致度の高い表種別を確定し
た表種別であると識別する。
【0012】表種別を特徴付ける罫線は、長さの長い
(上位の階層に相当する)場合が一般的である。この発
明の表種別識別方法によれば、表種別の罫線情報または
分割領域情報を階層構造のデータとし、またそれに基づ
き上位の階層から順に罫線の検出を行い、照合を行って
いる。よって、表種別の特徴を反映した正確な表種別識
別を行うことが可能であり、また効率的な表種別識別が
可能である。
【0013】また、この発明のフォーマット種別の識別
方法によれば、前述の表識別辞書に加えてフォーマット
に含まれる表種別と表領域の位置情報をフォーマット種
別情報として、フォーマット識別辞書に格納しておく。
フォーマット種別が不明である画像データからフォーマ
ットを識別するために、このフォーマット識別辞書のあ
るフォーマット種別の情報を基に、その情報に含まれる
表種別と表領域の位置を読み出し、この表種別に対し前
述の表種別識別方法に画像データとの一致度を求める。
そして、フォーマット種別に含まれる表種別全ての一致
度を求める。さらに順次フォーマット識別辞書内の全て
のフォーマット種別に対して同様の処理を行う。各フォ
ーマット種別での、含まれる表種別の一致度の比較よ
り、最も適切なフォーマット種別を確定したフォーマッ
ト種別であると判定する。このため表種別識別方法と同
様に、フォーマット種別の特徴を反映したフォーマット
種別識別が可能である。
【0014】また、この発明は、上述の方法で表種別識
別またはフォーマット種別識別を実施する装置も提供す
る。
【0015】
【発明の実施の形態】以下、図面を参照してこの発明の
実施の形態につき、説明する。なお、図は、この発明が
理解できる程度に概略的に示してあるにすぎない。
【0016】尚、帳票のフォーマットは、1つ以上の表
領域を含む。フォーマット種別を識別するためには、先
ず表領域の表種別を識別し、その結果を利用してフォー
マット種別を識別する。よって、この発明の実施の形態
ではフォーマットの識別方法及び装置を説明し、その説
明の過程で表種別の識別方法及び装置を説明する。ま
た、フォーマットに、表領域を1つだけ含む場合もあ
る。この場合フォーマット種別識別方法は、表種別識別
方法と実質的に同じ方法となる。
【0017】[第1の実施の形態]図1〜図5を参照し
て、この発明の第1の実施の形態を説明する。
【0018】(構成の説明)図1は、第1の実施の形態
の構成を示す図である。帳票等をスキャナ(図示せず)
等で読み込んだ画像データは、外部の画像メモリ150
に格納される。フォーマット種別識別装置100に、外
部よりフォーマット種別識別処理を開始させる命令が
(図中の開始命令)が、マニュアルまたは予めプログラ
ムされた方法で入力されると、フォーマット種別識別装
置100は、画像メモリ150から画像データを入力す
る。尚、画像データの入力はその他の方法、例えば通信
網を介した画像ファイルとして供給することも可能であ
る。
【0019】フォーマット種別識別装置100からの出
力情報は、フォーマット種別を表す情報であり、文字認
識装置160内の信号として扱われる。しかし、この出
力情報を、その他の用途、例えばフォーマット種別に帳
票や画像ファイルを分別する等の用途にも応用すること
が可能である。
【0020】フォーマット種別識別装置100は、フォ
ーマット識別辞書102と表識別辞書104と照合制御
部110と罫線検出部120と罫線データメモリ122
と対応関係照合部124とフォーマット判定部130と
を具える。
【0021】表種別のみを識別する場合は、フォーマッ
ト識別辞書102を用いず、かつフォーマット判定部1
30は、表判定部として機能する。その場合、この発明
のフォーマット種別識別装置は、表種別識別装置とな
る。
【0022】尚、照合制御部110は、内部に階層照合
制御部112と表制御部114を有し、フォーマット判
定部130は、内部に一致度算出部132を有する。
【0023】この発明のフォーマット種別識別装置10
0は、文字認識装置に組み込み、メモリ及びCPUによ
りプログラムを実行することにより機能させることがで
きる。また、他方、フォーマット種別識別装置100
を、デバイスとして、例えばシステムLSIとして提供
することも可能である。
【0024】フォーマット識別辞書102には、1つ以
上のフォーマット種別情報としてフォーマットに含まれ
る表種別とその表領域の位置情報とが格納されている。
具体的には、例えば、フォーマット種別「A」は、表種
別「A1」を含み、その位置情報は、(X1,Y1)で
ある。フォーマット種別「B」は、表種別「B2」と表
種別「B3」を含み、その位置情報は、それぞれ(X
2,Y2)、(X3,Y3)である等の情報である。格
納するフォーマット種別の種類及び量は利用者が用途に
応じて決定すれば良く、また、利用者が追加・変更する
こともできる。例えば、私製の帳票のフォーマット情報
をこれに新たにフォーマット種別名を付与しフォーマッ
ト識別辞書に登録することも可能である。
【0025】表識別辞書104は、各表種別の表領域の
罫線情報または分割領域情報を階層的に格納している。
この点については、後述する。
【0026】照合制御部110は、フォーマット識別辞
書102からフォーマット種別情報を読み出し、更に内
部の表制御部114により表識別辞書104から表種別
情報を読み出す。また、内部の階層照合制御部112に
より、階層的に罫線情報を罫線検出部120に送る。
【0027】罫線検出部120は、照合制御部110か
ら入力された罫線情報を基に、フォーマット種別が不明
である画像データから、階層的に罫線を検出し、罫線デ
ータメモリ122に、罫線が検出できたか否かを、また
罫線が検出された場合にはその位置情報を検出罫線情報
として格納する。
【0028】対応関係照合部124は、罫線データメモ
リ122から検出罫線情報を読み出し、表識別辞書10
4に格納されている罫線情報(実際には、照合制御部1
10により読み出されている)との照合を行い、各階層
毎に照合結果をフォーマット判定部130に出力する。
後述するように、検出分割領域情報と分割領域情報の照
合を行う場合もある。
【0029】また照合制御部110は、対応関係照合部
124からの、ある階層での照合終了の信号を入力し
て、階層照合制御部112に信号を送る。階層照合制御
部112の動作は後に詳細に説明する。
【0030】フォーマット判定部130内の一致度算出
部132は、対応関係照合部124から入力された各階
層毎の照合結果を基に表種別毎の画像データとの一致度
を算出する。フォーマット判定部130は、各表種別毎
の一致度の比較からフォーマット種別を判定する。
【0031】(動作の説明)次に、フォーマット種別識
別装置100の動作につき説明する。
【0032】1.動作の概略 図2は、この実施の形態の概略的な処理の流れを示す図
である。
【0033】先ず、予め画像メモリ150に画像データ
を入力しておく(S201)。
【0034】次に、処理(S203)が実施される(S
203は、後述するように複数のサブステップを含むの
で、ここでは概略のみ示す)。外部からの開始命令によ
り、フォーマット種別識別装置100は、識別処理を開
始し、内部のフォーマット識別辞書102内の1つ以上
の(通常は、複数の)フォーマット種別の中からあるフ
ォーマット種別情報を選び、この情報に含まれている表
種別と表領域の位置情報とを読み出す。更に、この表種
別に対応する罫線情報を内部の表識別辞書104から読
み出す。罫線情報に基づいた検出・照合後に、このフォ
ーマット種別に関する画像データとの一致度が算出され
る(以上S203)。
【0035】次に、フォーマット種別識別装置100
は、全てのフォーマット種別に対して、一致度が算出さ
れたか判定する(S205)。まだ一致度が求められて
いないフォーマットがある場合は処理S203を繰り返
す。全てのフォーマット種別に対して一致度が求められ
ている場合には、フォーマット種別識別装置100は、
各フォーマット種別の一致度の比較からフォーマット種
別の判定を行いフォーマット種別を示す情報を出力する
(S207)。以上で識別処理を終了する。前述したよ
うに、この出力情報は文字認識に用いることが可能であ
る。
【0036】2.表種別情報格納 図3は、表種別情報を表識別辞書104に格納(登録)
する処理を説明する図である。図3(A)は、ある表種
別を示し、これを表種別「A」と呼ぶ。表種別「A」
は、複数の罫線によって区切られた領域により構成され
ている。表種別「A」の表領域は、左上の位置を基準座
標(0,0)とし、右下の位置座標を(50,30)と
する領域であるとする。表領域の右下の位置座標が指定
されると最外周を示す罫線は、対応して決まるため、実
線で示す罫線情報を示す罫線と区別するため、一点鎖線
で示す。
【0037】図3(B)は、第1階層の表種別情報を示
す図である。表領域を水平方向に両端まで分割する罫線
をL1、L2(実線で示す。)と呼び、これら罫線によ
って分割された各分割領域をT1、T2、T3(斜線領
域で示す。)と呼ぶ。また、これらの位置情報は、罫線
の場合は両端の座標により、分割領域の場合は左上端と
右下端の座標により表現できる。この場合、罫線の位置
情報は、L1[(0,10)〜(50,10) ]、L2
[(0,20)〜(50,20)]、また分割領域の位置
情報は、T1[(0,0)〜(50,10)]、T2
[(0,10)〜(50,20)]、T3[(0,20)
〜(50,30)]と表現できる。
【0038】図3(C)は、第2階層の表種別情報を示
す図である。先に示した分割領域T1、T2は、さらに
罫線により分割されている。領域T1を分割する罫線を
L11(実線で示す。)と呼び、罫線により分割された
各分割領域をT11、T12(斜線領域で示す。)と呼
ぶ。同様に領域T2に対して罫線L21(実線で示
す。)と分割領域T21、T22(斜線領域で示す。)
が存在する。罫線の位置情報は、L11[(10,0)
〜(10,10)]、L21[(10,10)〜(1
0,20)]、また分割領域の位置情報は、T11
[(0,0)〜(10,10)]、T12[(10,
0)〜(50,10)]、T21[(0,10)〜(1
0,20)]、T22[(10,10)〜(50,2
0)]と表現できる。
【0039】図3(D)は、第3階層の表種別情報を示
す図である。先に示された分割領域T22は、さらに罫
線により分割されている。T22を分割する罫線をL2
21(実線で示す。)と呼び、罫線により分割された領
域をT221、T222(斜線領域で示す)と呼ぶ。罫
線の位置情報は、L221[(10,15)〜(50,
15)]、また分割領域の位置情報は、T221[(1
0,10)〜(50,15)]、T222[(10,1
5)〜(50,20)]と表現できる。
【0040】分割領域T221、T222は、いずれも
罫線によって分割されていない。よって、表種別「A」
は、3次の階層構造であり、罫線情報として、第1階層
にL1、L2を含み、第2階層にL11、L21を含
み、第3階層にL221を含む。また、分割領域情報と
して、第1階層にT1、T2、T3を含み、第2階層に
T11、T12、T21、T22を含み、第3階層にT
221、T222を含む。なお、罫線情報から分割領域
情報を得ることができ、また逆に分割領域情報から罫線
情報を得ることもできる。どちらの情報も表種別「A」
を特徴付ける。
【0041】同様に、図には示していないが、他の表種
別(例えば「B」、「C」..等)も登録できる。辞書
内の表種別に対する階層の字数を、n(n≧1の整数)
と表記する。表識別辞書104は、通常複数個の表種別
情報を含むが、1種類の表種別のみ含むこともあり得
る。例えば、複数の画像データから、特定の表種別に合
致する画像データを選択する目的で表種別識別方法を適
用する等の場合である。
【0042】以上、表識別辞書104へ罫線情報と分割
領域情報を格納する処理について、説明したが、ある表
種別について、必ずしも表領域に含まれる罫線を全て格
納せず、表種別を特徴付ける罫線情報のみ格納すること
もできる。例えば、罫線が太い罫線と細い罫線で構成さ
れ、表種別は、太い罫線で特徴付けられる場合、太い罫
線のみ表種別情報として登録することも可能である(ま
た分割領域情報についても同様である)。このようにす
ることにより、表識別辞書104の必要メモリ容量を小
さくすることができる。
【0043】また、フォーマット識別辞書102に関し
てもフォーマットを特徴付ける表種別のみを格納するこ
とができる。例えば、ある帳票に、複数の表種別(例え
ば「A」、「B」、「C」)が含まれていて、その中の
1つの表種別(例えば「A」)がある特定の位置にある
とする。その場合には、フォーマット種別の識別が可能
ならば、表種別「A」とその表領域の位置情報との双方
のみをフォーマット種別情報として格納すれば良い。こ
のようにすることにより、フォーマット識別辞書の必要
メモリ容量を小さくすることができる。
【0044】3.階層照合制御部の動作 図4は、階層照合制御部112の処理の流れを示す図で
ある。図2の処理S203における罫線の検出と照合は
階層的に実施される。図4は、処理S203を詳細に説
明する図である。
【0045】既にフォーマット識別対象の画像データ
は、画像メモリ150に書き込まれているものとする。
【0046】先ず、外部からの開始命令により照合制御
部110は、あるフォーマット種別を選択し、フォーマ
ット種別情報を読み出し、かつ、表制御部114は、フ
ォーマット種別に含まれている表種別の罫線情報を読み
出す。ここでは、表種別を、図3(A)で示した表種別
「A」と想定し、表領域の位置情報として、例えば表種
別の左上の座標を示す(X1,Y1)で表現する。
【0047】変数aを階層を示す変数とする。照合制御
部110の、読み出し終了後、検出・照合は第1階層か
ら実施されるので、階層照合制御部112は、変数aを
1にする(S401)。
【0048】次に、照合制御部110は、検出対象表領
域を設定する。すなわち表種別「A」は、左上の基準座
標を(0,0)とし、右下の位置座標を(50,30)
とした。この情報とフォーマット種別情報の表領域の位
置情報とから検出対象表領域を設定する。すなわち、表
種別「A」の右下の座標は(50,30)であるので、
照合制御部110は、検出対象表領域を左上の座標が
(X1,Y1)で右下の座標が(X1+50,Y1+3
0)で表現される領域であると設定する(S402)。
【0049】次に、この検出対象表領域の罫線の検出を
実施する。罫線検出部120は、先ず第1階層の罫線検
出を、罫線の位置情報を基に実施する。この検出は、罫
線情報の近傍の画像データを走査することによって行な
われ、黒画素数や黒ラン(黒画素数の連続する部分)の
長さ等を判定基準とする公知の罫線検出手段で行われ
る。表種別「A」場合、罫線情報L1(X1,Y1+1
0)〜(X1+50,Y1+10)の範囲の近傍(例え
ば幅w)(すなわちY1+10±w/2の範囲)の画像
データを走査する。幅wは、検出精度、罫線の太さなど
を考慮して決定される。このように走査範囲を限定する
ことによって、全面を走査する場合に比べて検出時間の
短縮が可能となる。また罫線情報L2に対しても同様に
罫線検出を実施する(S403)。
【0050】対応関係照合部124は、検出された検出
罫線情報と表種別「A」の罫線情報とを照合する。L
1、L2に対応する罫線が検出されたか否か、あるいは
検出された罫線の罫線情報の対応関係がとれない場合
(例えば罫線情報L1の位置に罫線が存在しているが長
さがL1より短い場合等)の照合結果を求める。照合結
果は、例えば、検出罫線数または検出罫線率として表す
ことができる。対応関係照合部124は、照合結果をフ
ォーマット判定部130へ出力する(S404)。
【0051】以上、罫線情報に関する対応関係の照合に
ついて説明したが、対応関係の照合は、分割領域の照合
によっても行える。すなわち検出罫線情報からは、検出
された罫線によって分割される検出分割領域情報が得ら
れる。この検出分割領域情報と、表種別「A」の分割領
域情報T1、T2、T3との対応関係を照合する。この
場合の照合は、各分割領域の位置情報の照合で行うこと
ができる。
【0052】尚、検出罫線情報または検出分割領域情報
の対応関係が取れなっかた場合(例えば検出罫線率が低
い場合)には、検出の基となっている表種別がフォーマ
ット識別対象(または表種別識別対象)画像データに適
合していないと判断できる(判定の基となる基準値は予
め決めておく。)。対応関係照合部124は、この場
合、「不対応」を示す信号を照合制御部110に出力す
る。照合制御部110は、第2階層以下の罫線検出を実
施せず(下位階層での処理の打ち切り)、別のフォーマ
ット種別をフォーマット識別辞書102から読み出し、
新たに処理(S203)を行うことができる。このよう
にすることにより、フォーマット種別識別または表種別
識別を効率的に行うことができる。第1階層について、
処理の打ち切りについて説明したが、同様な「不対応」
の判定は、各階層毎で行い、基準値も各階層毎に決めて
おくことが好ましい。
【0053】次に、階層照合制御部112は、階層を示
す変数aをインクリメント、すなわち、a=a+1とす
る。この例では、変数a=1+1=2である(S40
5)。
【0054】次に、インクリメントされた新たな第a階
層領域を設定する(S406)。
【0055】次に、照合制御部110は、第2階層の罫
線情報を基に、罫線の検出を実施する。表種別「A」の
場合、L11、L21の位置情報に相当する。より一般
的な場合の処理では、照合制御部110が、前階層での
分割が縦分割であったか横分割であったかを判定する
(S416)。
【0056】照合制御部110は、前階層での領域分割
が縦分割であった場合、第a階層で設定された(S40
6)領域に対して読み出された罫線の位置情報を基に水
平罫線検出領域を設定する(S417)。一方、前階層
での領域分割が横分割であった場合垂直罫線検出領域を
設定する(S427)。そして、罫線検出部120は、
第a階層で、画像データ上の罫線検出対象領域を走査し
て罫線を検出し、罫線データメモリ122に格納する
(S418またはS428)。
【0057】次に、照合制御部110は、同一階層即ち
第a階層の罫線検出対象の他の分割領域が残っているか
どうか判定する(S419またはS429)。残ってい
る場合は、処理S417またはS427に戻り、処理S
418またはS428を繰り返す。一方、同一階層に検
出対象の分割領域が残っていない場合には、対応関係照
合部124は、検出罫線情報と、検出の基となった表種
別の第a階層の罫線情報とを照合する。尚、照合は、検
出罫線情報から得られた検出分割領域情報と分割領域情
報とを照合しても良い。対応関係照合部124は、照合
結果を第1階層と同様にフォーマット判定部130に出
力する(S430)。
【0058】次に、照合制御部110は、もうそれ以上
罫線が検出できない階層まで処理が進んでいるかどうか
判定する。この判定は、表識別辞書に格納してある階層
構造に関する情報から、まだ下位の階層があるか否かに
より判定する(S431)。
【0059】そして、もう検出すべき罫線がない場合、
即ち、もう下位の階層が存在しない場合には、階層照合
制御部は112は、動作を終了する。一方、罫線検出が
できる場合には、階層を示す変数aをインクリメントし
(S432)、処理S406に戻る。換言すれが、n次
の階層構造の表種別に対して、a=nとなるまで、処理
ループは繰り返される。
【0060】このようにして、フォーマット識別対象画
像データの表領域と、階層毎に罫線を検出し、かつ表種
別に関して、階層毎の罫線情報または罫線分割領域の照
合結果を得ることができる。
【0061】(具体例)図5を参照して、より具体的
に、表種別の罫線情報に基づく、画像データからの罫線
検出を説明する。図5は、検出対象の画像データの例を
示す図である。ここでは、画像データ「X」と呼ぶ。図
3(A)の表種別「A」と比較すると、第3階層の罫線
(x122)の位置(または分割領域t121,t12
2)が異なっている以外は同じであるものとする。尚、
識別処理の開始前には、画像データ「X」の表種別情
報、すなわち、罫線情報及び分割領域情報は、不明であ
る。
【0062】この発明の第1の実施の形態の罫線の検出
によれば、画像データ「X」に対して第1階層および第
2階層の罫線の検出は、完全に行われるが、表種別
「A」の第3階層の罫線情報L221に基づいた罫線は
検出されない。照合結果は、第1階層における検出罫線
数は2(検出罫線率は100%)、第2階層における検
出罫線数は2(検出罫線率は100%)、第3階層にお
ける検出罫線数は0(罫線検出率は0%)である。ま
た、分割領域情報に着目して、照合すれば、第1階層と
第2階層の対応関係は、照合されるが、第3階層の分割
領域T221およびT222に対応する分割領域が照合
されないこととなる。
【0063】基本的には、照合制御部110は、フォー
マット識別辞書102の全てのフォーマット種別に対し
て検出対象画像データとの照合を行う。フォーマット種
別に含まれる表種別に対する一致度は、フォーマット判
定部130内の一致度算出部132により求められる。
表種別の一致度の値は、各階層ごとの検出罫線数の総
和、あるいは、検出罫線率の平均とした値、或いはある
種の統計的手法で計算した数値等で表すことができる。
また、フォーマット種別の一致度は、含まれる各表種別
の一致度の値の総和、またはフォーマット種別に含まれ
る各表種別の一致度の平均値、或いはある種の統計的手
法で計算した数値等で表される。よって、全てのフォー
マット種別に一致度が算出される(尚、対応関係照合処
理の途中で処理をうち切られたフォーマット種別を除
く。)。
【0064】尚、罫線検出は、表種別がn次(n≧1の
整数)の階層を有するときn次の階層まで行いうるが、
より上位の第m(m≦nの整数)階層で、検索処理を終
了するよう設定することも可能である。nが、極端に大
きく検索処理に時間がかかる場合、また、あまり下位の
階層の情報は不要な場合に有効である。
【0065】ここでは、表種別「A」に関する検出・照
合・一致度の算出を示したが、他のフォーマット種別
(または表種別)に対してもフォーマット判定部130
は、同様な手順で一致度の算出を実施し、これら求めら
れた一致度の比較より、一致度の値が、最も高いフォー
マット種別を識別対象画像データのフォーマット種別で
あることを示す情報を出力する。
【0066】前述のある種の統計的手法として、各表種
別の一致度の算出の際に各階層毎に重み付けをして、一
致度を求める手法を説明する。この処理は、図2に示す
処理S207において、図1に示される一致度算出部1
32によってなされる。
【0067】(一致度)=Σ((階層aの検出罫線本
数)*2^(定数n−a)) ここで、nは表種別の階層の次数、aは1〜n値、Σは
全ての階層aに対する(かっこ内の)総和、*は乗算記
号、^は、べき乗記号である。この式では、ある階層
は、直下の階層に対して、2倍の重みを付けられて、一
致度が算出されている。尚、この式は、階層aの検出罫
線本数を使用し、重み付けを行っているが、代わりに、
検出罫線率を使用して重み付けを行っても良い。一般
に、上位の階層ほど罫線の長さが長く(水平方向、垂直
方向の各方向別に関して)、表種別を特徴付けているの
で、上述の式により、一致度を求めることで、表種別の
特徴を反映した識別処理が可能である。
【0068】また、長さの長い罫線の情報に基づいて、
該当候補となる表種別を特定することが好ましい。
【0069】より具体的な例として、表種別のn次の階
層の全ての照合結果から一致度を算出するのではなく、
上位s階層(1≦s<nの整数)までの照合結果から、
一致度を算出することもできる。一般に、nは、表種別
によって異なるが、一律に上位s階層までの評価とする
ことにより、フォーマット種別識別(または表種別識
別)の処理速度を向上させることが可能となる。一般
に、上位の階層の罫線情報ほど、表種別を特徴付けるの
で、表種別の特徴を反映した識別処理が可能となる。
【0070】以上説明したように、この実施の形態によ
れば、フォーマット種別または表種別識別を行うため、
表種別毎の罫線情報または分割領域情報を階層構造とし
て、予め表識別辞書に格納してある。また、フォーマッ
ト識別辞書には、各フォーマット種別毎に含まれる表種
別と表領域の位置情報を格納してある。そして、フォー
マット種別識別対象(または表種別識別対象)の画像デ
ータから、表識別辞書内の罫線情報に基づき、階層構造
の上位階層から罫線を検出し照合が実施できるため、表
種別の特徴を反映した識別ができる。罫線の検出は、罫
線の位置情報に基づき、走査範囲が限定されるため、効
率的な検出が可能である。
【0071】また、該当する階層の対応関係の照合がと
れない場合、下位階層の処理を打ち切ることにより、効
率的な識別が可能である。
【0072】フォーマットの判定では、表種別を特徴付
ける長い罫線に対応する上位階層に重みを付け、あるい
は上位s階層までの判定とすることによって、上位階層
に着目した識別が可能である。
【0073】この実施の形態により、表識別辞書内の最
も適切な表種別、またはフォーマット識別辞書内の最も
適切なフォーマット種別を判定することが可能となる。
【0074】[第2の実施の形態]第1の実施の形態で
の階層構造での罫線情報または分割領域情報は、それぞ
れ位置情報を含み、また罫線と分割領域には名称が付け
られていた。これに対して、第2の実施の形態では、各
階層での罫線情報は、罫線の数であり、分割領域情報は
分割領域の数である。
【0075】例えば、図3に示した表種別「A」の場合
では、第1階層の罫線の数は2本(また分割領域の数は
3個)であり、第2階層の罫線の数は2本(また分割領
域の数は4個)であり、第3階層の罫線の数は1本(ま
た分割領域の数は2個)である。これらの各階層での罫
線の本数(または分割領域の個数)のみを表種別情報と
して表識別辞書104に格納する。
【0076】第2の実施の形態の構成は図1と同様であ
る。第1の実施の形態の場合、罫線の位置情報を基にそ
の近傍のみを走査していたが、この実施の形態では、罫
線検出部120は、検出対象表領域の全面の走査を実施
する。検出罫線情報は、罫線データメモリ122に格納
される。対応関係照合部124は、罫線データメモリ1
22から、階層毎の、検出された罫線数を罫線情報の数
と照合し、照合結果をフォーマット判定部130に出力
する。この数が一致しない場合、「不対応」を示す信号
を照合制御部110に出力してもよい。
【0077】照合制御部110が、罫線の検出領域の設
定(S417またはS427(図4))を行わないこと
を除けば、各構成と処理のながれ、は第1の実施の形態
と同様である。
【0078】尚、第2の実施の形態では、正確な表種別
を1つだけ選ぶことが困難な場合がある。例えば図3
(A)の表種別「A」をもとに、図5の画像データ
「X」を検出する場合を考えると、各階層での罫線の数
および分割領域の数は一致する。よって、「X」の表種
別として表種別「A」は、該当候補となる。また、他の
図示しない表種別も同様に候補となる場合がある。よっ
て、第2の実施の形態で説明した方法で、候補として識
別した表種別を、さらに第1の実施の形態の識別方法で
再度識別することは、好ましい。第2の実施の形態の場
合には表識別辞書104に格納する各表種別情報が階層
毎の罫線の数または分割領域の数の情報であるので、位
置の情報に比べて、量が少ない。このため、表識別辞書
104に必要なメモリ容量を小さくできる。
【0079】[第3の実施の形態]図6は、この発明の
第3の実施の形態の構成を示す図である。第1の実施の
形態の構成のフォーマット判定部130の内部に、更に
リジェクト判定部60を含んでいる。リジェクト判定部
60以外の構成と処理の流れは、第1の実施の形態と同
様である。
【0080】第1の実施の形態において、図2に示す処
理S207の開始直前の時には、全てのフォーマット種
別(または表種別)の画像データとの一致度が求められ
ている。しかし各フォーマット種別(または表種別)に
関して、いずれも良い一致度に至らない場合がある。そ
の場合、フォーマット判定部130は、最も一致度の高
い種別をフォーマット種別として識別するのではなく、
該当するフォーマット種別(または表種別)が存在しな
いことを示す情報(リジェクト信号)を出力する。
【0081】このために、リジェクト判定部60にリジ
ェクト判定に関する閾値(RTHLと呼ぶ。)を、予め
設定しておく。リジェクト判定部60は、全てのフォー
マット種別(または表種別)の一致度とRTHLを比較
し、RTHL以下の場合、フォーマット判定部130に
リジェクト信号を出力させる。
【0082】以上のような、第3の実施の形態のフォー
マット種別(または表種別)識別方法によれば、低い一
致度のフォーマット種別(または表種別)情報を出力
し、その後の文字認識処理等で誤動作が起こることを防
ぐことができる。また、第1の実施の形態と比較してフ
ォーマット識別(または表識別)の誤り率の低い識別が
可能である。
【0083】[第4の実施の形態]図7は、この発明の
第4の実施の形態の構成を示す図である。第1の実施の
形態の構成のフォーマット判定部130の内部にさら
に、アクセプト判定部70を含んでおり、フォーマット
判定部130から、確定したフォーマット種別(または
表種別)が、見出されたことを示す情報(アクセプト信
号)を照合制御部110へ出力するラインを含んでい
る。アクセプト判定部70以外の構成と処理の流れは第
1の実施の形態と同様である。
【0084】第1の実施の形態において、図2に示す処
理S203において、各フォーマット種別(または表種
別)について、照合結果がフォーマット判定部130に
送られ順次各フォーマット種別(または表種別)につ
き、一致度が一致度算出部132で算出される。通常は
全てのフォーマット種別の一致度が算出される(図2の
S205)が、処理S203の途中で、あるフォーマッ
ト種別(または表種別)の一致度が充分高いと判定でき
る場合がある。その場合、このフォーマット種別(また
は表種別)を確定したフォーマット種別(または表種
別)とし、識別処理を終了することができる。
【0085】このために、アクセプト判定部70に、予
めフォーマット種別(または表種別)の一致判定に関す
る閾値(CTHLと呼ぶ)を入力させておく。アクセプ
ト判定部70は、順次算出された一致度とCTHLを比
較し、CTHL以上の場合、フォーマット判定部130
にアクセプト信号を出力させる。照合制御部110は、
アクセプト信号が入力されると新たなフォーマット種別
(または表種別)のフォーマット識別辞書102(また
は表識別辞書104)の読み取りは実施せず。フォーマ
ット判定部130は、このCTHL以上の一致度のフォ
ーマット種別(または表種別)を、確定したフォーマッ
ト種別(または表種別)として識別し、処理を終了す
る。
【0086】以上のような、第4の実施の形態の識別方
法によれば、一致度の高いフォーマット種別(または表
種別)が見出された時点で、処理を終了できるので処理
時間の短縮化が実現できる。
【0087】[第5の実施の形態]図8は、この発明の
第5の実施の形態の構成を示す図である。第1の実施の
形態の構成に加えて、更に照合制御部110の内部にズ
レ算出・補正部を含んでいる。
【0088】第1の実施の形態では、フォーマット識別
辞書102のあるフォーマット種別に含まれる表種別
「A」とその表領域の位置情報として左上の座標(X
1,Y1)を読み出し、更に表種別「A」の領域の大き
さを示す情報即ち左上の座標(0,0)と右下の座標
(50,30)から、罫線検出対象領域を左上の座標を
(X1,Y1)、右下の座標を(X1+50,Y1+3
0)で表される領域と決定した。
【0089】しかしながら、画像データに含まれる検出
対象表領域が、何らかの理由、例えば帳票に表領域を印
刷する際の位置決め誤差等で、ズレが生じている場合が
ある。
【0090】このとき、表識別辞書104内の罫線情報
に基づき罫線を検出しても、本来検出されるべき罫線が
検出できない場合が起こりうる。
【0091】第5の実施の形態では、ズレ算出・補正部
80によって、このズレを算出し、表識別辞書104内
の位置情報を補正した後に、第1の実施の形態と同様な
方法で、罫線検出を実施する。
【0092】このために、検出対象表領域(上記の例で
は、[(X1,Y1)〜(X1+50,Y1+30)]
の領域と同等か、それに近い大きさの領域を画像データ
から抽出する。どの程度近い大きさまでを抽出対象とす
るかは、設計に応じて決める。そして、ズレ算出・補正
部80は、この抽出した領域とフォーマット識別辞書1
02の表領域の位置情報とのズレ、ΔX、ΔYを算出す
る。次いで、ズレ算出・補正部は、表識別辞書104内
の罫線情報または分割領域情報を補正する。その後に第
1の実施の形態で説明した方法で罫線の検出を行う。
【0093】この第5の実施の形態では、画像データか
らの検出対象表領域とフォーマット種別情報に含まれる
表領域のズレを算出し、表識別辞書内の罫線情報または
分割領域情報を補正するステップを、更に具えるフォー
マット種別識別方法である(尚、この例のように、フォ
ーマットに表種別が1個だけ含まれている場合は、表種
別識別方法でもある)。
【0094】以上のような第5の実施の形態によれば、
フォーマット識別対象の画像データ上に、より正確な罫
線検出位置を設定できる。また、画像データの位置誤差
に対する許容度を向上させることができる。
【0095】[第6の実施の形態]図9は、第6の実施
の形態の構成を示す図である。図1に示す第1の実施の
形態の、フォーマット識別辞書102および表識別辞書
104の出力は、新たに設けられたフォーマット回転生
成部90に入力され、フォーマット回転生成部部90の
出力は、照合制御部110に入力される。
【0096】第1の実施の形態では、フォーマット識別
辞書102および表識別辞書104内に格納された情報
をそのまま用いて、識別対象の画像データのフォーマッ
ト種別識別または表種別識別を行っていた。これに対し
て第6の実施の形態のフォーマット種別識別方法(また
は表種別識別方法)では、更に、あるフォーマット種別
に対して、そのフォーマット種別情報から90°単位で
回転させて生成したフォーマット種別情報および対応す
る表種別情報から90°単位で回転させて生成した表種
別情報を基にして、第1の実施の形態と同様な方法で、
フォーマット種別識別(または表種別識別)を行う。
【0097】例えば、前述したように、画像データは、
帳票をスキャナで読み込むこと等により入力されるが、
このとき帳票の方向を一定の(本来の)方向に設置せ
ず、縦・横を間違えて、すなわち90°単位で回転させ
て設置してしまう場合も起こりうる。第6の実施の形態
は、そのような場合にも、フォーマット種別識別装置1
00は、本来のフォーマット種別(または表種別)を識
別する。
【0098】フォーマット回転生成部90は、照合制御
部110に読み込まれるあるフォーマット種別(仮に種
別「FB」と呼ぶ。)に対して、表種別の位置情報を0
°、90°、180°、270°で回転させたフォーマ
ット種別(対応させて、「FB(0)」、「FB(9
0)」、「FB(180)」、「FB(270)」と呼
ぶ。)を生成する。尚、「FB(0)」は「FB」と等
しい。
【0099】また、フォーマット回転生成部90は、フ
ォーマット種別「FB」に含まれる表種別(仮に表種別
「B」と呼ぶ。)については、表識別辞書104に格納
されている表種別「B」に関する罫線情報または分割領
域情報を、0°、90°、180°、270°回転させ
た表種別(対応させて、「B(0)」、「B(9
0)」、「B(180)」、「B(270)」と呼
ぶ。)を生成する。そして、表種別「B(90)」は、
フォーマット種別「FB(90)」に含まれるようにす
る。
【0100】これら新たに生成したフォーマット種別を
基にして、画像データに対して、フォーマット種別識別
(または表種別識別)を第1の実施の形態と同様な方法
で実施する。
【0101】これによって、基の画像データが90°単
位で回転したものであっても、フォーマット種別識別装
置100は、本来のフォーマット種別を識別することが
できる。又、同時に画像の回転角度も識別することがで
きる。
【0102】
【発明の効果】以上詳細に説明したように、この発明に
よれば、フォーマット種別または表種別が不明な画像デ
ータから、フォーマット種別(または表種別)を識別す
る方法にあたり、表領域の中から長さを区別しながら罫
線を検出し、これにより得られた検出罫線情報のうち、
長さが長い罫線の情報に基づいて該当候補となる表種別
を特定する。
【0103】また、表種別の罫線情報または分割領域情
報を予め階層構造で辞書に格納し、その情報を基に罫線
を検出し、各表種別に対する一致度を求め、更に各フォ
ーマットに対する一致度を求めてフォーマット種別(ま
たは表種別)を識別する。
【0104】このため、フォーマット種別や表種別を特
徴づける長い罫線(または上位階層)から順に、画像デ
ータと辞書の情報の対応関係を照合できるため確度の高
い、また効率的なフォーマット種別識別(または表種別
識別)が達成できる。
【0105】また、表種別識別にあたり、上位階層の評
価に重み付けを行うこと、又決められた上位階層までの
情報から識別を行うことが可能である。これにより、上
位階層を重視したフォーマット種別(または表種別)識
別ができる。
【0106】更に、表種別を特徴付ける情報のみ辞書に
格納したり、各階層での情報を罫線数(または分割領域
数)とすることにより、高速な識別が可能である。
【0107】また、該当する種別が無い場合はリジェク
ト信号を出力することにより不適当な種別の使用を防止
すること、又該当する種別が処理途中で見つかった場合
は、アクセプト信号を出力することにより適切な種別の
早期の識別が可能である。
【0108】また、画像データが、本来の位置からズレ
ていた場合も補正ができ、又は方向が回転して入力され
た場合も考慮したフォーマット種別(又は表種別)の識
別が可能である。
【図面の簡単な説明】
【図1】第1の実施の形態の構成を説明する図である。
【図2】第1の実施の形態の概略的な処理の流れを示す
図である。
【図3】表種別情報を表識別辞書に格納する処理を説明
する図である。
【図4】階層照合制御部の処理の流れを示す図である。
【図5】画像データの例を示す図である。
【図6】第3の実施の形態の構成を説明する図である。
【図7】第4の実施の形態の構成を説明する図である。
【図8】第5の実施の形態の構成を説明する図である。
【図9】第6の実施の形態の構成を説明する図である。
【符号の説明】
60:リジェクト判定部 70:アクセプト判定部 80:ズレ算出・補正部 90:フォーマット回転生成部 100:フォーマット種別識別装置 102:フォーマット識別辞書 104:表識別辞書 110:照合制御部 112:階層照合制御部 114:表制御部 120:罫線検出部 122:罫線データメモリ 124:対応関係照合部 130:フォーマット判定部 132:一致度算出部 150:画像メモリ 160:文字認識装置 T1、T2、T3:第1階層の分割領域 T11、T12、T21、T22:第2階層の分割領域 T221、T222:第3階層の分割領域 L1、L2:第1階層の罫線 L11、L21:第2階層の罫線 L221:第3階層の罫線 t121、t122:画像データ上の第3階層の分割領
域 x122:画像データ上の第3

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 画像データから表領域の表種別を識別す
    る表種別識別方法において、 最外周を示す罫線で囲まれた表領域の中から長さを区別
    しながら罫線を検出し、これにより得られた検出罫線情
    報のうち、長さが長い罫線の情報に基づいて、該当候補
    となる表種別を特定することを特徴とする表種別識別方
    法。
  2. 【請求項2】 請求項1に記載の表種別識別方法におい
    て、 最外周を示す罫線で囲まれた表領域の水平方向または垂
    直方向両端まで罫線によって分割された各領域を第1階
    層の分割領域とし、また該罫線を第1階層の罫線とし、
    該各領域が、更なる罫線によって分割されている場合に
    は、該更なる罫線によって分割された各領域を下位階層
    の分割領域とし、また該更なる罫線を下位階層の罫線と
    することにより表領域をn次(n≧1の整数)の階層構
    造と見なし、各階層毎の罫線情報または分割領域情報を
    表種別情報として表識別辞書に格納する第1ステップ
    と、 前記画像データに対して、前記表識別辞書内の表種別情
    報毎に、第1階層から第m階層(1≦m≦nの整数)ま
    での各階層で罫線を検出し、これにより得られた検出罫
    線情報と前記罫線情報との対応関係を順次照合する、又
    は、これにより得られた検出分割領域情報と前記分割領
    域情報との対応関係を順次照合する第2ステップと、 前記対応関係の照合結果から前記各表種別との一致度を
    求め、該一致度の比較から表種別を判定する第3ステッ
    プとを具えることを特徴とする表種別識別方法。
  3. 【請求項3】 請求項1に記載の表種別識別方法におい
    て、 前記罫線情報は、罫線の位置情報または数であり、前記
    分割領域情報は、分割領域の位置情報または数であるこ
    とを特徴とする表種別識別方法。
  4. 【請求項4】 請求項1乃至3のいずれか一項に記載の
    表種別識別方法において、 前記第2ステップで前記罫線検出を実施した階層におい
    て、前記画像データから罫線が検出されない場合、また
    は前記検出罫線情報が前記罫線情報に対応しない場合、
    または前記検出分割情報が前記分割領域情報に対応しな
    い場合には、前記罫線検出を実施した階層より下位の階
    層が存在する場合であっても、該下位の階層での罫線検
    出を実施しないことを特徴とする表種別識別方法。
  5. 【請求項5】 請求項1または2に記載の表種別識別方
    法において、 前記第1ステップにおける前記表種別情報は、表種別を
    特徴付ける情報のみを含んでいることを特徴とする表種
    別識別方法。
  6. 【請求項6】 請求項1または2に記載の表種別識別方
    法において、 前記第3ステップは、 前記一致度を求める際に、各階層毎に重み付けをして前
    記各表種別の一致度を求めることを特徴とする表種別識
    別方法。
  7. 【請求項7】 請求項1または2に記載の表種別識別方
    法において、 前記第2ステップで、上位s(1≦s<nの整数)階層
    までの罫線検出を実施することを特徴とする表種別識別
    方法。
  8. 【請求項8】 請求項1または2に記載の表種別識別方
    法において、 前記第3ステップは、 更に、前記照合結果から該当する表種別の有無を判定
    し、無い場合にはリジェクト信号を出力することを特徴
    とする表種別識別方法。
  9. 【請求項9】 請求項1または2に記載の表種別識別方
    法において、 ある表種別の一致度が、予め決められた閾値以上の場合
    に、該表種別を確定した表種別として判定し、識別処理
    を終了することを特徴とする表種別識別方法。
  10. 【請求項10】 請求項1または2に記載の表種別識別
    方法において、 更に、前記画像データに含まれる表領域の座標を検出
    し、前記表識別辞書内の表領域の座標と前記画像データ
    に含まれる表領域の座標とを比較し、座標のズレを算出
    して、座標のズレ分だけ前記表識別辞書内の罫線情報ま
    たは分割領域情報を補正するステップを前記第2ステッ
    プの前に具えることを特徴とする表種別識別方法。
  11. 【請求項11】 請求項1または2に記載の表種別識別
    方法において、 更に、前記表識別辞書の前記表種別情報を90°単位で
    回転させて生成した新たな表種別情報を基に第2ステッ
    プ及び第3ステップを実施することを特徴とする表種別
    識別方法。
  12. 【請求項12】 表種別が不明である表領域を含んだ画
    像データから表領域の表種別を識別する表種別識別装置
    において、 各表種別情報として階層構造で罫線情報及び分割領域情
    報を格納した表識別辞書と、 前記表識別辞書から順次に表種別を選択し、該選択され
    た表種別情報を読み出し、対応する罫線情報を上位階層
    から順次に出力する照合制御部と、 前記照合制御部から入力された該罫線情報を基に、前記
    画像データから罫線検出を実施する罫線検出部と、 前記罫線検出部が検出した罫線情報を格納する罫線デー
    タメモリと、 前記罫線データメモリから読み出した検出罫線情報と前
    記罫線情報との照合または検出分割領域情報と前記分割
    領域情報との照合を実施し照合結果を出力する対応関係
    照合部と、 前記対応関係照合部から入力された照合結果から表種別
    の画像データとの一致度を求め、各表種別の一致度の比
    較から表種別を判定し、判定結果を外部に出力する表種
    別判定部とを具えることを特徴とする表種別識別装置。
  13. 【請求項13】 画像データから、表領域を含むフォー
    マット種別を識別するフォーマット種別識別方法におい
    て、 最外周を示す罫線で囲まれた表領域の中から長さを区別
    しながら罫線を検出し、これにより得られた検出罫線情
    報のうち、長さが長い罫線の情報に基づいて、該当候補
    となる表種別を特定し、フォーマット種別を特定するこ
    とを特徴とするフォーマット種別識別方法。
  14. 【請求項14】 請求項13に記載のフォーマット種別
    識別方法において、 最外周を示す罫線で囲まれた表領域の水平方向または垂
    直方向両端まで罫線によって分割された各領域を第1階
    層の分割領域とし、また該罫線を第1階層の罫線とし、
    該各領域が、更なる罫線によって分割されている場合に
    は、該更なる罫線によって分割された各領域を下位階層
    の分割領域とし、また該更なる罫線を下位階層の罫線と
    することにより表領域をn次(n≧1の整数)の階層構
    造と見なし、各階層毎の罫線情報または分割領域情報を
    表種別情報として前記表識別辞書に格納し、 かつ表種別および該表領域の位置情報をフォーマット種
    別情報としてフォーマット識別辞書に格納する第1ステ
    ップと、 前記画像データに対して、前記フォーマット識別辞書内
    の前記表種別及び前記表領域の位置情報と前記表識別辞
    書内の該表種別情報を基に、第1から第m階層(1≦m
    ≦nの整数)までの各階層で、罫線を検出し、これによ
    り得られた検出罫線情報と前記罫線情報との対応関係の
    順次照合する、又は、これにより得られた検出分割領域
    情報と前記分割領域情報との対応関係を順次照合をする
    第2ステップと、 前記対応関係の照合結果から前記各表種別との一致度を
    求め、前記フォーマット種別に含まれる表種別の一致度
    の比較からフォーマット種別を判定する第3ステップと
    を具えることを特徴とするフォーマット種別識別方法。
  15. 【請求項15】 請求項13に記載のフォーマット種別
    識別方法において、 前記各罫線情報は、罫線の位置情報または数であり、前
    記分割領域情報は、分割領域の位置情報または数である
    ことを特徴とするフォーマット種別識別方法。
  16. 【請求項16】 請求項13乃至15のいずれか一項に
    記載のフォーマット種別識別方法において、 前記第2ステップで前記罫線検出を実施した階層におい
    て、前記画像データから罫線が検出されない場合、また
    は前記検出罫線情報が前記罫線情報に対応しない場合、
    または前記検出分割領域情報が前記分割領域情報に対応
    しない場合には、前記罫線検出を実施した階層より下位
    の階層が存在する場合であっても、該下位の階層での罫
    線検出を実施しないことを特徴とするフォーマット種別
    識別方法。
  17. 【請求項17】 請求項13または14に記載のフォー
    マット種別識別方法において、 前記第1ステップにおける前記表種別情報は、表種別を
    特徴付ける情報のみを含んでいる、もしくは前記フォー
    マット識別辞書内の前記表種別はフォーマットを特徴付
    ける表種別のみを含んでいることを特徴とするフォーマ
    ット種別識別方法。
  18. 【請求項18】 請求項13または14に記載のフォー
    マット種別識別方法において、 前記第3ステップは、 前記一致度を求める際に、各階層毎に重み付けをして前
    記各表種別の一致度を求めることを特徴とするフォーマ
    ット種別識別方法。
  19. 【請求項19】 請求項13または14に記載のフォー
    マット種別識別方法において、 前記第2ステップで、上位s(1≦s<nの整数)階層
    までの罫線検出を実施することを特徴とするフォーマッ
    ト種別識別方法。
  20. 【請求項20】 請求項13または14に記載のフォー
    マット種別識別方法において、 前記第3ステップは、 更に、前記照合結果から該当するフォーマット種別の有
    無を判定し、無い場合にはリジェクト信号を出力するこ
    とを特徴とするフォーマット種別識別方法。
  21. 【請求項21】 請求項13または14に記載のフォー
    マット種別識別方法において、 ある表種別の一致度が予め決められた閾値以上の場合に
    該表種別を確定した表種別として判定し、あるフォーマ
    ット種別に含まれる全ての表種別が、確定した表種別で
    あるとき、該フォーマット種別を確定したフォーマット
    種別と判定し、識別処理を終了することを特徴とするフ
    ォーマット種別識別方法。
  22. 【請求項22】 請求項13または14に記載のフォー
    マット種別識別方法において、 更に、前記画像データに含まれる表領域の座標を検出
    し、前記フォーマット識別辞書内の表領域の位置情報と
    前記画像データに含まれる表領域の座標とを比較し、座
    標のズレを算出して、座標のズレ分だけ前記表識別辞書
    内の罫線情報または分割領域情報を補正するステップを
    前記第2ステップの前に具えることを特徴とするフォー
    マット種別識別方法。
  23. 【請求項23】 請求項13または14に記載のフォー
    マット種別識別方法において、 更に、前記フォーマット識別辞書内の前記表領域の位置
    情報を90°単位で回転させて生成した新たなフォーマ
    ット種別情報と、該フォーマット種別に含まれる表種別
    の表種別情報を90°単位で回転して生成した新たな表
    種別情報を基に第2ステップおよび第3ステップを実施
    することを特徴とするフォーマット種別識別方法。
  24. 【請求項24】 フォーマット種別が不明である表領域
    を含んだ画像データからフォーマット種別を識別するフ
    ォーマット種別識別装置において、 各フォーマット種別情報として表種別及び該表領域の位
    置情報を格納したフォーマット識別辞書と、 各表種別情報として階層構造で罫線情報及び分割領域情
    報を格納した表識別辞書と、 前記フォーマット識別辞書から順次にフォーマット種別
    を選択し、フォーマット種別情報を読み出し、該フォー
    マット種別情報を基に前記表識別辞書から表種別情報を
    読み出し、該罫線情報を上位階層から順次に出力する照
    合制御部と、 前記照合制御部から入力された罫線情報を基に、前記画
    像データから罫線検出を実施する罫線検出部と、 前記罫線検出部が検出した罫線情報を格納する罫線デー
    タメモリと、 前記罫線データメモリから読み出した検出罫線情報と前
    記罫線情報との照合または検出分割領域情報と前記分割
    領域情報との照合を実施し照合結果を出力する対応関係
    照合部と、 前記対応関係照合部から入力された照合結果から表種別
    の画像データとの一致度を求め、各種別毎の一致度の比
    較からフォーマット種別を判定し、判定結果を外部に出
    力するフォーマット判定部とを具えることを特徴とする
    フォーマット種別識別装置。
JP2001211071A 2001-07-11 2001-07-11 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置 Pending JP2003030583A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001211071A JP2003030583A (ja) 2001-07-11 2001-07-11 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001211071A JP2003030583A (ja) 2001-07-11 2001-07-11 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置

Publications (1)

Publication Number Publication Date
JP2003030583A true JP2003030583A (ja) 2003-01-31

Family

ID=19046446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001211071A Pending JP2003030583A (ja) 2001-07-11 2001-07-11 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置

Country Status (1)

Country Link
JP (1) JP2003030583A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201885A (ja) * 2005-01-18 2006-08-03 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP2006209353A (ja) * 2005-01-26 2006-08-10 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP2007148846A (ja) * 2005-11-29 2007-06-14 Nec Corp Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP2008226264A (ja) * 2008-04-09 2008-09-25 Sap Ag 出力履歴管理装置およびその方法ならびにコンピュータプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04268685A (ja) * 1991-02-22 1992-09-24 Glory Ltd 帳票類の種類判別方法
JPH07141462A (ja) * 1993-11-19 1995-06-02 Hitachi Ltd 文書システム
JPH07282193A (ja) * 1994-04-15 1995-10-27 Mitsubishi Electric Corp 表を含む帳票処理装置
JPH0877294A (ja) * 1994-09-06 1996-03-22 Toshiba Corp 文書画像処理装置
JPH11175654A (ja) * 1997-12-08 1999-07-02 Oki Electric Ind Co Ltd セル領域の決定方法、セル領域の決定装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04268685A (ja) * 1991-02-22 1992-09-24 Glory Ltd 帳票類の種類判別方法
JPH07141462A (ja) * 1993-11-19 1995-06-02 Hitachi Ltd 文書システム
JPH07282193A (ja) * 1994-04-15 1995-10-27 Mitsubishi Electric Corp 表を含む帳票処理装置
JPH0877294A (ja) * 1994-09-06 1996-03-22 Toshiba Corp 文書画像処理装置
JPH11175654A (ja) * 1997-12-08 1999-07-02 Oki Electric Ind Co Ltd セル領域の決定方法、セル領域の決定装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201885A (ja) * 2005-01-18 2006-08-03 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP2006209353A (ja) * 2005-01-26 2006-08-10 Sharp Corp 画像判断装置、画像形成装置、画像判断方法、画像判断プログラム、画像形成プログラムおよびコンピュータ読取り可能な記録媒体
JP2007148846A (ja) * 2005-11-29 2007-06-14 Nec Corp Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP4635845B2 (ja) * 2005-11-29 2011-02-23 日本電気株式会社 Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP2008226264A (ja) * 2008-04-09 2008-09-25 Sap Ag 出力履歴管理装置およびその方法ならびにコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US7583841B2 (en) Table detection in ink notes
US6094507A (en) Figure location detecting system
EP0650137A2 (en) An apparatus for fingerprint verification
US20070140566A1 (en) Framework for detecting a structured handwritten object
US8326040B2 (en) Combiner for improving handwriting recognition
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
JPH10105655A (ja) 光学文字認識のための検証および訂正の方法およびシステム
US6338062B1 (en) Retrieval system, retrieval method and computer readable recording medium that records retrieval program
JP4032241B2 (ja) 指紋照合装置及びその方法
JP2002288667A (ja) パターン照合装置とそのパターン照合方法、及びパターン照合プログラム
CN115082942A (zh) 一种基于YOLO v5的文档图像流程图识别方法、设备及介质
EP2138959B1 (en) Word recognizing method and word recognizing program
JP2003030583A (ja) 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置
JP2003109007A (ja) 帳票様式分類装置、帳票様式分類方法、帳票様式分類プログラムおよび画像照合装置
US6934404B2 (en) Stamp detecting device, stamp detecting method, letter processing apparatus and letter processing method
JP3179280B2 (ja) 表を含む帳票処理装置
JP4350228B2 (ja) パターン認識方法および装置
JP2003030654A (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
JP4334131B2 (ja) 手書き文字認識装置
US9015573B2 (en) Object recognition and describing structure of graphical objects
JP4320124B2 (ja) パターン認識方法、装置及びプログラム
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JPH07262322A (ja) 文字認識方法及び文字認識装置
JP3575969B2 (ja) セル領域の決定方法、セル領域の決定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005