JPH09319824A - 帳票認識方法 - Google Patents

帳票認識方法

Info

Publication number
JPH09319824A
JPH09319824A JP13618696A JP13618696A JPH09319824A JP H09319824 A JPH09319824 A JP H09319824A JP 13618696 A JP13618696 A JP 13618696A JP 13618696 A JP13618696 A JP 13618696A JP H09319824 A JPH09319824 A JP H09319824A
Authority
JP
Japan
Prior art keywords
character
line
frame
image
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP13618696A
Other languages
English (en)
Inventor
Yoshihiro Shima
好博 嶋
Katsumi Marukawa
勝美 丸川
Hiroshi Shinjo
広 新庄
Kazuki Nakajima
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP13618696A priority Critical patent/JPH09319824A/ja
Publication of JPH09319824A publication Critical patent/JPH09319824A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】帳票の種類が多様な読み取り対象に対して、高
精度かつ修正が容易な帳票認識手法を提案することであ
る。また、帳票に記載されている罫線のうち、特に、点
線を抽出する手法を提案することである。 【解決手段】帳票画像200から罫線と文字行を抽出
し、罫線枠の構造と線種並びに認識結果を利用して読み
取り項目を決定するとともに、登記簿データベースから
該当する登録済の登記情報を読みだし、当該認識結果と
の照合、検定を行う。 【効果】登記済通知書の名称を読み取り、枠内の文字行
を認識するための書式情報を選択的に使用することがで
きるため、読み取り対象が多様な帳票であっても高精度
に登記情報を入力できるという効果がある。また、本発
明によれば、認識結果の一部を利用して登記情報データ
ベースをアクセスし、当該データベースに具備している
登記情報と認識結果の整合性を検定することができるた
め、登記情報の画面での修正作業が容易であり、効率的
な修正作業が可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は不動産に関する登記
情報が記載された多様な帳票、特に、登記済通知書から
文字データを読み取り自動的に入力する帳票認識方法に
関する。
【0002】
【従来の技術】従来の帳票認識方法では、読み取り位置
が予め決められている定形帳票を認識対象としており、
読み取り位置が帳票ごとに異なる登記済通知書を認識す
ることは困難であった。また、登記情報のうち、建物名
や面積などの読み取り項目は、辞書用の単語の収集が困
難という理由や数字には拘束性が希薄であることの理由
から、単語照合など後処理により修正を加えることが困
難であり、高精度化がむつかいし読み取り項目とされて
いた。
【0003】帳票中の罫線は、文字が記載された読み取
り領域を示す重要な情報源となる。このため、帳票の書
式の識別のため、あるいは、読み取り領域の抽出のため
に、帳票から罫線を抽出することが一般に行われてい
る。また、図面の入力のため、図面に記載された線図
形、例えば、実線や破線、鎖線を抽出することが、昭和
57年度電子通信学会総合全国大会、1295、P5ー
280、嶋田茂、角本繁、浅川岩雄「ヒストグラム分類
手法による破線・鎖線の認識」において論じられてい
る。罫線の種類としては、一般に、実線、点線、破線、
鎖線があるが、本発明で対象とする登記済通知書には、
罫線として実線と点線とが印刷されており、これら実線
と点線の線種を識別して抽出する必要がある。
【0004】罫線を抽出する方式を画像のデータ形式か
ら大別すると、アイエーピーアールワークショップ オ
ン マシン ビィジョン アプリケーション、1992
年、163頁から166頁(MVA'92 IAPR WORKSHOP ON
MACHINE VISION APPLICATIONS,pp.163-166,Dec. 1992)
に論じられている(1)ドットイメージの画素データに
対して投影を行いその分布のピークから罫線を抽出する
手法(画素投影手法)、昭和57年度電子通信学会総合
全国大会、1295、P5ー280に論じられている
(2)画像内の塊状図形を長さと方向を持った座標デー
タとしてベクトル化した線セグメントを用いる手法(線
セグメント手法)、(3)画像内の塊状図形をランレン
グス符号化し各黒ランの特徴点を用いる手法(黒ラン手
法)、(4)画像内の塊状図形の外接矩形の寸法や位置
を用いる手法(外接矩形手法)、が提案されている。
【0005】(1)の画素投影手法は、黒画素を縦及び
横方向に投影しその分布のピークから文字行や罫線を抽
出する。(2)の線セグメント手法は、図面の認識にお
いて、切断された短い線分からなる破線や鎖線を抽出す
るために用いられている。(3)の黒ラン手法は、ラン
レングス符号化した黒ランから罫線を抽出する手法であ
る。長い黒ランを基に実線を抽出できることがよく知ら
れている。また、黒ランの中点を2次元平面上にプロッ
トしたドットイメージを用いて、文書中から点線、破
線、鎖線やデザイン的な側面の強いフィールドセパレー
タを抽出する手法が電子情報通信学会論文誌D−2,V
ol.J78−D−2,No.12,pp.1935−
1939(1995年12月)、後藤英昭、阿曽弘具、
「文書画像中のけい線・フィールドセパレータの抽出の
ための一手法」に論じられている。(4)の外接矩形手
法は連結成分の外接矩形を求め、外接矩形の配置を手掛
かりに罫線や文字等の文書構成要素を抽出する手法であ
る。外接矩形のうち、内部を占める黒画素の割合の大き
いものを点線候補矩形として、その規則的な配置を手掛
かりとして点線を抽出する手法が、1994年電子情報
通信学会秋季大会D−316,324頁、園田浩一郎、
米田政明、長谷博行、酒井充、「文書画像中の点線抽出
アルゴリズムの検討」において論じられている。
【0006】
【発明が解決しようとする課題】本発明の認識対象であ
る登記済通知書はその種類が6種(一般土地、区分所有
家屋、一般家屋それぞれ権利分、表示分)あり、また、
同じ種類の登記済通知書であっても、記載項目が異なっ
ている。このため、読み取り位置を予め設定しておくこ
とができない非定形帳票であり、従来の帳票認識方法で
は読み取ることは困難である。本発明の第1の目的は、
帳票の種類が多様な読み取り対象に対して、高精度かつ
修正が容易な帳票認識手法を提案することである。
【0007】また、罫線を抽出する方法に関して、上記
(1)の画素投影手法は、黒画素を縦及び横方向に投影
しその分布のピークから文字行や罫線を抽出する。帳票
が傾いている場合、接近した文字行や罫線では分布のピ
ークが検出できないという問題がある。
【0008】上記(2)の線セグメント手法では線セグ
メントをそのベクトル方向に延長し結合しており、点線
のように塊状図形として円形状の点や正方形状の点から
構成される罫線では、線セグメントの方向を求めること
が困難であり、従って、この線セグメント手法では点線
を抽出することはできない。
【0009】上記(3)の黒ラン手法では、特徴点を再
度ドットイメージに展開し、このドットイメージに対し
て射影を行い罫線を抽出する手法と同様の画素レベルの
処理を含んでおり、処理時間が画素数に応じて長くなる
という問題がある。
【0010】上記(4)の外接矩形手法では傾きのある
文書から点線を抽出することが考慮されておらず、傾い
た点線を抽出することはできない。また、縦横の長さの
比が大きい外接矩形を罫線や囲み罫線とみなして分離す
る手法が提案されているが、点線では外接矩形が複数個
に分かれてしまうため、単純には点線を抽出することは
困難である。本発明の第2の目的は、罫線のうち、特
に、点線を抽出する手法を提案することである。
【0011】
【課題を解決するための手段】上記第1の目的を達成す
るため、帳票画像から罫線と文字行を抽出し、罫線枠の
構造と線種並びに認識結果を利用して読み取り項目を決
定するとともに、登記簿データベースから該当する登録
済の登記情報を読みだし、当該認識結果との照合、検定
を行う。
【0012】上記第2の目的を達成するため、帳票画像
から、まず実線を抽出し、当該実線から帳票の傾きを求
める。また、連結成分の外接矩形を抽出する。ついで、
外接矩形のうち、横幅と縦幅が所定範囲内の矩形を点線
の候補として選択し、この矩形群の内、直線上に配置さ
れた外接矩形を先に求めた傾きを考慮して選択する。そ
して、これら外接矩形の配置の規則性を利用して、点線
の始点、終点を検出する。
【0013】
【発明の実施の形態】図1は本発明の一実施例である登
記情報認識システムの構成図である。登記情報の認識を
行う認識部101と認識結果の修正を行う修正部105
がネットワーク104により接続されており、入力セン
タ111において認識と修正を並行して行うことができ
る。処理の過程は先ず、スキャナ102により登記済通
知書100の画像を入力する。次いで、認識用計算機1
03では文字および罫線の認識を行い、修正用計算機1
06でその認識結果の修正確認を行う。また、辞書やコ
ード表と照合チェックし、コードデータを出力する。認
識結果は、通信制御用計算機107を介して、遠隔地に
ある計算センタ110にあるホスト計算機108に接続
された登記情報データベース109に格納される。修正
部105では、認識結果の一部を利用し、登記情報デー
タベース109をアクセスし登録済の登記情報を読み出
す。当該読み出した登録情報と認識結果の一部を照合
し、矛盾がないかどうかの検定を行う。
【0014】図2は登記情報認識の処理過程を示すブロ
ック図である。認識部101では、帳票画像を読み取
り、修正部105に縮小画像230、枠座標231、文
字行座標232、文字座標233、認識結果ラテイス2
34を送出する。修正部105では、これらの入力デー
タをもとに、操作者が認識結果を修正する。画像入力部
200では、帳票表面の画像を白黒2値化して採取す
る。採取した画像は、画像縮小部201と文字行画像抽
出部202に送出される。画像縮小部201では、後続
の処理の高速化のため、帳票画像を縮小し、縮小画像2
30を出力する。縮小処理は、細い罫線が縮小後かすれ
ないよう、画素ごとのOR処理を行う。縮小した画像に
対し、罫線抽出部203において罫線を抽出する。ここ
には、実線抽出部204と点線抽出部205があり、実
線抽出部204では黒画素の連続するつながりを基に、
縦実線と横実線を抽出する。また、点線抽出部205で
は連結成分の外接矩形の配置、サイズの拘束条件を用
い、縦点線と横点線を抽出する。
【0015】一方、文字行抽出部206では、文字の集
合である文字行を抽出する。ここでは、連結成分の外接
矩形の頂点座標を基に、外接矩形を融合し、文字行を生
成する。枠抽出部207では、抽出した罫線から、罫線
が四方を取り囲む枠を求め、枠の頂点座標231を出力
する。この時、下線抽出部208で、文字行の下方に印
刷された下線を抽出する。下線は実線であり、始点と終
点が他の罫線に接続していないという特徴を利用して下
線を抽出する。ただし、下線が短い場合、文字の一部と
混同されるため、長い下線を含む枠を求め、当該長い下
線を含む枠に対して、所定の位置関係、例えば、左右に
隣接する小さい枠にも下線が記載されているとする。枠
内文字行抽出部209では、先に文字行抽出部206で
抽出した文字行と枠抽出部208で抽出した枠座標を基
に、枠内の文字行座標232を求める。この時、複数の
枠にまたがって誤って抽出された文字行は、枠罫線によ
って切断することができる。枠と枠内の文字行が対応つ
けられて文字行座標が出力される。枠内の文字行座標は
文字行画像抽出部202に入力され当該入力画像と文字
行座標を基に、文字行画像が抽出され、出力される。文
字切出し部210では、文字識別部211と協調しなが
ら文字を1文字ごとに切り出し、その文字座標233を
出力する。文字識別部211は、文字パターンを入力と
して、文字コードを出力する。当該文字識別部211に
は印活認識部212と識別辞書213が具備されてい
る。
【0016】本発明は、印活認識に限定するものではな
く、帳票内の手書き文字を読み取る場合には、手書き文
字認識部を具備すればよい。文字識別部211の出力で
ある認識結果は、項目識別部214に入力される。帳票
は項目とその項目に対応する内容で構成されており、そ
れらが一般的には枠内に記載されている。例えば、項目
として「登記の目的」があり、内容として「抵当権設
定」「仮差し押さえ」等がある。項目の名称は予め、単
語辞書として項目内容辞書218に格納しておく。項目
識別部214では帳票の枠内に記載された文字列がどの
項目に該当するかを単語照合により決定する。当該項目
識別部214は、字種限定部215、単語照合部21
6、項目内容対応付け部217からなる。単語照合部2
16では、項目内容辞書218を用い、項目として記載
される単語群と認識結果との照合を行い、項目名称を決
定する。項目内容対応付け部217では、項目が記載さ
れた枠と、その項目に対応する内容が記載された枠とを
決定する。このため、予め、項目の枠と当該枠との相対
位置関係を項目内容辞書218に格納している。内容照
合部219は、字種限定部220、単語照合部221、
住所照合部222からなり、認識結果と単語あるいは住
所との照合を行う。これにより、認識結果の精度が向上
するという効果がある。
【0017】なお、内容照合では、項目が先に決定して
おり、内容に関する記載事項に限定がある。この特徴を
利用し、字種限定部220では、認識結果から該当する
字種以外を除去している。また、住所が記載されている
ことが項目により分かるため、該当する内容枠では住所
照合222を実行する。
【0018】図3は帳票の種類名称(標題)の読み取り
を用いた登記情報認識の処理過程を示すブロック図であ
る。図2のブロック図と同じく、認識部101では、帳
票画像を読み取り、修正部105に縮小画像230、枠
座標231、文字行座標232、文字座標233、認識
結果ラテイス234を送出する。画像入力部200で
は、帳票表面の画像を白黒2値化して採取する。採取し
た画像は、画像縮小部201と文字行画像抽出部202
に送出される。縮小した画像に対し、罫線抽出部203
において罫線を抽出する。ここには、実線抽出部204
と点線抽出部205があり、縦実線と横実線、縦点線と
横点線を抽出する。
【0019】一方、文字行抽出部206では、文字の集
合である文字行を抽出する。枠抽出部207では、枠の
頂点座標231を出力する。この時、下線抽出部208
で、文字行の下線を抽出する。枠内文字行抽出部209
では、枠内の文字行座標232を求める。枠内の文字行
座標は文字行画像抽出部202に入力され、文字行画像
が抽出され、出力される。帳票識別部300では帳票の
種類名称を認識する。帳票の種類名称として、「権利に
関する建物登記済通知書(専有)」「権利に関する建物
登記済通知書(一般)」「権利に関する土地登記済通知
書」等があり、これら帳票種類の名称をよみとり、他の
文字行を認識するための文字サイズ、文字ピッチ等のフ
ォーマットパラメータを選択する。当該帳票識別部30
0において、先ず、文字行選択部301で帳票の種類名
称が記載されている文字行を、文字行座標をもとに選択
する。選択された文字行は文字切出・文字識別部302
に送られ、文字切り出しと文字識別を行う。
【0020】本実施例では印活認識部303と識別辞書
304を具備している。次いで、単語照合部305で帳
票の種類名称を示す文字列との照合を行い、帳票の種類
名称を決定する。当該帳票種類は、フォーマットパラメ
ータ選択部に入力され、予め、帳票の種類ごとに格納さ
れているフォーマットパラメータを選択し、出力する。
文字切出し・文字識別部307では、当該フォーマット
パラメータを用い、文字行画像の認識を行う。文字切出
し・文字識別部307には、文字切出し部308と印活
認識部310を有する文字識別309が具備されてお
り、字種限定テーブル311と識別辞書312を用い、
文字切り出しと文字識別を行う。文字識別部309の出
力である認識結果は、項目照合部313に入力される。
項目の名称は予め、単語辞書として項目内容辞書315
に格納しておく。項目照合部313では帳票の枠内に記
載された文字列がどの項目に該当するかを単語照合部3
14により決定する。項目内容辞書315を用い、項目
として記載される単語群と認識結果との照合を行い、項
目名称とその項目に対応する内容が記載された枠とを決
定する。このため、予め、項目の枠と当該枠との相対位
置関係を項目内容辞書315に格納している。内容照合
部316は、単語照合部317、住所照合部318から
なり、認識結果と単語あるいは住所との照合を行う。こ
れにより、認識結果の精度が向上するという効果があ
る。なお、内容照合では、項目が先に決定しており、内
容に関する記載事項に限定がある。この特徴を利用し、
認識結果から該当する字種以外を除去してもよい。
【0021】図4は帳票の枠の構造並びに帳票の種類の
名称(標題)を用い、登記情報を認識する処理過程を示
すブロック図である。図2のブロック図と同じく、認識
部101では、帳票画像を読み取り、修正部105に縮
小画像230、枠座標231、文字行座標232、文字
座標233、認識結果ラテイス234を送出する。画像
入力部200では、帳票表面の画像を白黒2値化して採
取する。採取した画像は、画像縮小部201と文字行画
像抽出部202に送出される。縮小した画像に対し、罫
線抽出部203において罫線を抽出する。ここには、実
線抽出部204と点線抽出部205があり、縦実線と横
実線、縦点線と横点線を抽出する。
【0022】一方、文字行抽出部206では、文字の集
合である文字行を抽出する。枠抽出部207では、枠の
頂点座標231を出力する。この時、下線抽出部208
で、文字行の下線を抽出する。枠内文字行抽出部209
では、枠内の文字行座標232を求める。枠内の文字行
座標は文字行画像抽出部202に入力され、文字行画像
が抽出され、出力される。帳票識別部400では帳票の
種類名称(標題)を認識するとともに、枠構造を識別す
る。標題識別部401は図3と同じく、文字行選択部4
02、文字切出・文字識別部403、印活認識部405
と識別辞書404、単語照合部406を具備している。
また、枠構造識別部408では、枠特徴抽出部409に
おいて、枠の特徴、例えば、枠の相対的な配置関係を抽
出し、枠照合部410において予め格納している枠構造
辞書411との照合を行い、その結果により、帳票書式
決定部412で帳票の書式を選択、生成し、フォーマッ
トパラメータ選択部407に送出する。
【0023】上述したように、当該帳票種類と枠の書式
情報は、フォーマットパラメータ選択部407に入力さ
れ、予め、帳票の種類ごとに格納されているフォーマッ
トパラメータを選択し、出力する。図3と同じく、文字
切出し・文字識別部307では、当該フォーマットパラ
メータを用い、文字行画像の認識を行う。文字切出し・
文字識別部307には、文字切出し部308と印活認識
部310を有する文字識別309が具備されており、字
種限定テーブル311と識別辞書312を用い、文字切
り出しと文字識別を行う。文字識別部309の出力であ
る認識結果は、項目照合部313に入力される。項目の
名称は予め、単語辞書として項目内容辞書315に格納
しておく。項目照合部313では帳票の枠内に記載され
た文字列がどの項目に該当するかを単語照合部314に
より決定する。項目内容辞書315を用い、項目として
記載される単語群と認識結果との照合を行い、項目名称
とその項目に対応する内容が記載された枠とを決定す
る。このため、予め、項目の枠と当該枠との相対位置関
係を項目内容辞書315に格納している。内容照合部3
16は、単語照合部317、住所照合部318からな
り、認識結果と単語あるいは住所との照合を行う。
【0024】図5は図2で示した登記情報認識の処理フ
ローを示す図である。ステップ500で帳票の表面画像
を入力し、ステップ501で当該画像を縮小する。次い
で、ステップ502で画像から罫線を抽出し、ステップ
503で罫線から枠を抽出する。また、ステップ504
で当該縮小画像から文字行を抽出し、文字行の座標を出
力する。ステップ505では、文字行座標と枠座標を用
い枠内文字行を抽出する。ステップ506では文字行内
の画像を当該枠内文字行の座標をもとに抽出する。ステ
ップ507では文字行画像から文字の切り出しを行い、
切出したパターンに対してステップ508で文字識別を
実行し、文字認識結果を出力する。ステップ509で文
字認識結果を用い、項目を識別する。そして、ステップ
510で当該項目に対応する内容枠の文字認識結果に対
して照合を行い、ステップ511でそ項目と内容を対応
つけて出力する。
【0025】図6は認識対象である登記済通知書の画像
を説明のために簡略的に示した図である。帳票画像60
0の例では、縦実線601、602、604と横実線6
05、606、609が印刷されている。また、縦点線
603、横点線607、608が印刷されている。項目
として面積610と所有者611がある。項目610に
対応する枠には、数字列「12」612と数字列「3
4」613が記載されており、縦点線603により区切
られている。この縦点線603は、面積の小数点の位置
を示しており、面積の値が12.34である。所有者の
項目611には、複数の氏名「山田太郎」614、「鈴
木一郎」616、「田中二郎」617が記載されてお
り、横点線607、608が複数の内容を記載するため
に印刷されている。従って、点線と実線の線種を自動的
に区別し、小数点位置や、複数内容の検出を行う。ま
た、下線615が、削除内容として用いられている。従
って、下線を検出し、当該下線が付与されている内容を
無効とする。
【0026】図7は図5で示した登記情報認識の処理の
途中結果を示す図である。図7(a)はステップ500
で入力した帳票画像700を示しており、同図(b)
(c)(d)(e)はステップ502で抽出した罫線を
示す。罫線の内、横実線710、711、712、71
3と縦実線720、721、722がそれぞれ抽出され
ている。また、横点線730、731と縦点線740が
抽出されている。同図(f)はステップ505で抽出し
た枠内文字行750、751、752、753、75
4、755、756を示す。
【0027】図9は図5のステップ509の項目識別の
処理過程を説明する図である。ステップ900では後述
する800の認識結果ラテイスを入力し、ステップ90
1で字種を限定する。字種の限定方法は認識結果ラテイ
スから使用しない字種を除去する方法である。そして、
ステップ902で単語照合を行い項目名称を決定する。
ステップ903では項目と内容枠の対応付けを行う。
【0028】図8は図9のステップ902の単語照合に
おける処理過程を説明する図である。認識結果ラテイス
800は、第n位までの文字識別結果が文字桁の順に並
んだデータであり、横方向が文字桁を表わし、縦方向が
認識結果の順位を示す。文字桁は801が第1桁、80
2が第2桁、803が第3桁であり、例では項目「所有
者」を示す。認識結果の順位は810が第1位、811
が第2位、812が第3位、813が第4位を示す。項
目辞書830には項目に該当する単語831、832、
833、834、835が予め具備されている。これら
の単語を順次読み出し、認識結果ラテイスと文字列の比
較を文字列比較部820で行い、類似度合を類似度合算
出部821で求める。そして、項目決定部822で類似
度合が最大となる単語の選択を行う。この例では、項目
辞書830にある単語「所有者」832が認識結果ラテ
イス800での類似度合が最大で、項目として単語「所
有者」が決定される。
【0029】図10は図9のステップ903で示した項
目と内容枠との対応付けのために用いる対応テーブルの
説明図である。対応テーブル1020には、項目データ
1000と対応する内容枠の位置データ1010が格納
されている。内容枠の位置データは項目の枠に対する相
対的な位置関係で表現されており、例えば、面積100
1の内容枠位置として右隣1011が登録されている。
同じく、所有者1002の内容枠位置として右隣101
2が登録されている。この対応テーブル1020を用い
ることにより、抽出した項目の枠位置を基に内容枠の位
置を決定することができる。
【0030】図11は図6の600で示した帳票画像を
読み取ったデータの形式を説明する図である。項目と内
容はツリー状に格納される。表全体を表わすノード11
00に下位には面積ノード1101と所有者ノード11
02があり、これらは、項目名称に該当する。面積ノー
ド1101の下位には整数部ノード1103と小数部ノ
ード1104がある。整数部ノードと小数部ノードとの
区別は、抽出した縦点線の線種により行う。
【0031】整数部ノード1103の下位に内容ノード
1105として、数字列12が自動的に入力される。ま
た、小数部ノード1104の下位に内容ノード1106
として、数字列34が入力される。所有者ノード110
2の下位には、複数の所有者を示すノード、所有者1ノ
ード1107、所有者2ノード1109、所有者3ノー
ド1111がある。これらのノードには、無効と有効の
情報が、1108、1110、1112で示すように付
与されている。この無効と有効の情報は検出した下線を
基に各所有者ノードに付与する。また、読み取った所有
者の氏名1113、1114、1115が各所有者ノー
ド1107、1109、1111の下位に格納される。
【0032】図12は図2の下線抽出部208の処理フ
ローを説明する図である。ここでは、下線を検出し、下
線が含まれる枠と当該枠とを対応付けて登録する。先
ず、ステップ1200で抽出された枠が尽きるまで、ス
テップ1201以下の処理を繰り返す。ステップ120
1で当該枠の枠座標を入力し、ステップ1202で罫線
登録テーブルを初期化する。次いで、ステップ1203
で罫線が尽きるまで、ステップ1204以下の処理を繰
り返す。ステップ1204で罫線の始点と終点の座標を
入力する。そして、ステップ1205が注目する罫線が
当該枠内にふくまれるかどうかの判定を座標値を比較す
ることにより行う。もし、枠内に注目する罫線が含まれ
ると判定された場合は、ステップ1206において枠と
対応付けて罫線を罫線登録テーブルに登録する。このよ
うな処理を繰り返すことにより、罫線登録テーブルに枠
と枠内の罫線、すなわち、下線が対応付けられて格納さ
れることになる。
【0033】図13は図3の301で示した帳票識別の
処理フローの例である。この帳票識別の処理では、帳票
の上部に記載されている帳票名称を読み取り、帳票の種
類を決定する。先ず、ステップ1300で文字行を入力
し、ステップ1301で文字行を選択する。ここでは、
帳票の最上部にある文字行を帳票名称が記載された文字
行とし、その座標値を基に該当する文字行を選択する。
次いで、ステップ1302で文字行画像から文字切出と
文字識別を行い、認識結果ラテイスを出力する。ステッ
プ1303で、認識結果ラテイスに対して、予め、単語
として格納している帳票名称と単語照合を行い、ステッ
プ1304で帳票の種類を、照合した単語から決定す
る。
【0034】図14は図4の400で示した枠構造識別
の処理フローの例である。ステップ1400で対象とす
る帳票の枠に対して、その罫線座標を入力し、ステップ
1401で当該罫線を符合化する。符合化は縦罫線と横
罫線、それぞれに対して、配置の順に番号を付与する。
さらに、縦罫線と横罫線の接続関係を生成する。ステッ
プ1402では、枠構造の照合を行い、予め設定してい
る枠構造辞書1403の中から対象とする枠構造ともっ
とも類似する枠構造を求める。当該枠照合は、特開平7
−141462、羽田野英一、児玉和行、嶋好博、古賀
昌史、栗野清道、杉本建行、「文書システム」に論じら
れている手法を用いてもよい。ステップ1404で枠構
造から帳票種類を決定し、ステップ1405で枠と項目
並びに内容の対応付けを行う。
【0035】図15は図2の105で示した修正部にお
いて登記情報の検定処理の説明図である。1500は登
記済通知書の一例であり、項目として「所在」150
1、「地番」1502、「地目」1503、「地積」1
504、「権利者」1505、「義務者」1506が記
載されており、これら項目に対する内容として、「何区
何町」1507、「何番何」1508、「宅地」150
9、「123」1510、「456」1511、「山田
太郎」1512、「鈴木二郎」1513がそれぞれ記載
されている。ここで、内容のうち「123」1510は
地積の整数部、「456」1511は地積の小数部であ
り、点線により区切られている。この登記済通知書15
00に対して、認識部101において、認識結果152
0が得られる。認識結果1520は、表1521の下位
に所在1522、地番1523、地目1524、地積1
525、権利者1526、義務者1527が項目として
抽出されており、それぞれの項目に対応した内容とし
て、それぞれの下位に内容が付与されている。所在15
22の下位に何区何町1528、地番1523の下位に
何番何1529、地目1524の下位に宅地1530、
地積1525の下位に数値「123.456」153
1、権利者1526の下位に山田太郎1532、義務者
1527の下位に鈴木二郎1533が付与されている。
【0036】一方、図1の109で示した登記情報デー
タベースには、所在地データベース1550と登記デー
タ1560が格納されている。所在地データベースは階
層構造をしており、区域の下位に地番がある。不動産に
関する登記データ1560は地番の下位に具備されてい
る。本実施例では、区域1551の下位に地番「1番
1」1552、「何番何」1553があり、地番「何番
何」1553の下位に登記データ1560が具備されて
いる。登記データの一例として、1560に示すよう
に、地目1561の下位に「宅地」1564、地積15
62の下位に「123.456」1565、権利者15
63の下位に「鈴木二郎」1566が具備されている。
検定処理1540では、認識結果1520の所在、地番
を基に、所在データベース1550、登記データ156
0をアクセスし、地目、地積等の登記情報が認識結果と
整合性があるかどうかを判定する。
【0037】図16は修正部105の処理フローを示す
図である。ステップ1600で縮小画像230を入力
し、ステップ1601で枠座標231を入力する。ま
た、ステップ1602で文字行座標232を入力し、ス
テップ1603で文字座標233を入力する。さらに、
ステップ1604で認識結果ラテイス234を入力す
る。ステップ1605で、枠座標より該当する枠内画像
を切り出し、ステップ1606で枠内画像を表示する。
ステップ1607で認識結果の項目「所在」と「地番」
に対応する内容を選択し、ステップ1608で登記済の
登記情報を登記情報データベース109から入力する。
そして、ステップ1609で、図15で説明した登記情
報の検定を行い、ステップ1610で認識結果を項目と
内容を対応付けて画面に表示する。ステップ1611で
整合性に矛盾がある項目、内容についてステップ161
2で該当する内容にリジェクトを付与するとともに、画
面にも当該項目、内容にリジェクトであることを表示す
る。画面にリジェクトを表示することは、当該項目を点
滅させる、あるいは、色を付ける、または疑問符等の記
号を表示する等により容易に実現できる。
【0038】図17は修正部105における画面の表示
例である。画面1700において、項目として、「種
類」1701、「所在」1702、「地番」1703、
「地目」1704、「地積」1705、「権利者」17
06、「義務者」1707が表示されている。認識結果
として、各項目に対応する読み取り内容が、1711、
1712、1713、1714、1715、1716、
1717に表示されている。また、それぞれの内容枠の
枠内画像を1722、1723、1724、1725、
1726、1727に表示している。ここで、認識結果
1715は、先に述べた登記情報の検定1609によ
り、登記データと比較して矛盾があると判断され、疑問
符が該当内容に付与されている。操作者は、当該画面1
700を目視でチェックし、認識結果をキーボードから
の入力により修正する。
【0039】図18は図5のステップ502で示した罫
線抽出処理のフローである。処理は先ず、ステップ18
00で実線を抽出し、次いで、ステップ1801で点線
を抽出する。なお、実線の抽出に関しては、例えば、1
992年電子情報通信学会秋季大会、D−218,p.
6−220,古賀昌史、中島和樹、丸川勝美、嶋好博、
藤澤浩道、「2値画像中の棒状図形の傾き検出の一手
法」並びに、1993年情報処理学会第46回(平成5
年前期)全国大会、8Cー6、pp.2−219から2
−220(1993年)、古賀昌史、中島和樹、丸川勝
美、嶋好博、藤澤浩道、「棒状図形の傾き検出のラン符
号による高速化の一手法」に論じられているので、本実
施例では説明しない。図19はステップ1801で示し
た点線抽出の処理フローである。先ず、ステップ190
0で水平方向のパラメータを設定し、ステップ1901
で横点線を抽出する。次いで、ステップ1902で垂直
方向のパラメータを設定し、ステップ1903で縦点線
の抽出を行う。
【0040】点線の抽出処理の前提条件は、点のサイ
ズ、点のピッチのパラメータがほぼ指定できることであ
る。予め、登記済通知書の点線のパラメータを設定し
て、書式情報として点線抽出処理に用いる。点線抽出で
は点がほぼ一定の間隔で出現し、しかもそれらの点は直
線上に配置されていることを利用する。点線は図21に
示すように4つのパラメータ、すなわち、点の横幅(w
idth)、縦幅(height)、点線の傾き角、点
の繰り返し周期(pitch)で表現される。点の横幅
と縦幅により点のサイズを決定できる。また、点は傾き
を有する直線の上に配置されており、それらの点の繰り
返し周期は、ほぼ一定である。点線の傾きは、帳票の傾
きから求めることができる。なお、点線抽出では、帳票
の実線から傾きを予め求めておくものとする。
【0041】図20はステップ1901、1903で示
した点線抽出の全体フローである。点は複数個の黒画素
が連結した塊状図形であり、この塊状図形の外接矩形を
処理単位として点線の抽出を行う。そのため、先ず、帳
票の2値画像から連結成分を抽出し、それらに外接する
矩形を求める。外接矩形は、左上の頂点座標と右下の頂
点座標で表現し、これら頂点座標を処理の単位とする。
次いで、(1)抽出した多数の外接矩形の中から、外接
矩形の寸法、周囲条件により点線を構成する点の候補を
選択する。ここでは、注目する外接矩形の寸法が所定の
範囲内にあるかどうか、また、周囲条件として注目する
外接矩形の近傍における他の外接矩形の有無をチェック
する。この周囲条件を利用することにより、かすれ文字
の一部が点線の点と混同することを防いでいる。さら
に、(2)外接矩形を傾き方向に投影する。ここでは、
前述したように、傾き角は予め、実線で求めておくもの
とする。外接矩形の投影値を手掛かりに、直線上に配置
している外接矩形を選択する。そして、直線上に配置さ
れた当該外接矩形を直線上の並びの順にソートする。次
いで、(3)点の繰り返し周期はほぼ一定であることを
利用して、点の集まりを生成し、これら点の集まりを一
つの点線として登録し、それぞれ始点と終点を抽出す
る。
【0042】点線抽出の詳細処理過程を(1)外接矩形
の寸法、周囲条件による選択、(2)外接矩形の傾き方
向への投影による選択、(3)外接矩形のピッチ規則性
による点線の始点、終点の抽出、の処理順に説明する。
(4)外接矩形の寸法、周囲条件による選択を説明す
る。図22は寸法により外接矩形を選択するフローであ
る。処理は外接矩形が尽きるまで以下の処理を繰り返
す。即ち、該当する外接矩形の横幅と縦幅を矩形の頂点
座標から算出し、そして、横幅が所定範囲に入っている
か、さらに、縦幅が所定範囲内に入っているかどうか判
定する。もし、横幅、縦幅とも所定の範囲内にあれば、
当該外接矩形を選択する。外接矩形の寸法は、図23に
示すように、横幅が所定値TWmaxとTWminの範
囲内に、縦幅が所定値THmaxとTHminの範囲内
にあるとしている。縮小画像の解像度が100dpi換
算で、TWmax=THmax=3ドット、TWmin
=THmin=0ドットとしている。
【0043】図24は外接矩形の周囲条件を用いて、点
線を構成する点の候補を選択する処理フローである。注
目する外接矩形が尽きるまで以下の処理を繰り返す。即
ち、先ず、注目する外接矩形の中心座標を算出し、参照
する外接矩形が尽きるまで、以下の処理を繰り返す。即
ち、参照外接矩形の横幅と縦幅を算出するとともに、参
照外接矩形の中心座標を算出する。参照外接矩形の横幅
と縦幅がともに所定範囲外であり、かつ、注目外接矩形
と参照外接矩形との中心間距離が所定範囲外であれば、
当該注目する外接矩形を選択する。参照する外接矩形
は、図25に示すように、その横幅が所定値NWmax
とNWminの範囲外に、縦幅が所定値NHmaxとN
Hminの範囲外にあるとしている。さらに、注目外接
矩形と参照外接矩形との中心間距離がR以上であるとし
ている。なお、縮小画像の解像度が同じく100dpi
換算で、NWmax=NHmax=20ドット、NWm
in=NHmin=4、R=8ドットとしている。
【0044】次いで、(2)外接矩形の傾き方向への投
影による選択を説明する。図26に示すように、外接矩
形の中心座標(xc,yc)を傾きaの方向に投影し、
そのときの切片b=yc−a・xcを算出し、番地bの
投影値の値を1だけ加算する。ここで、aは回転角であ
り帳票の傾きを示しており、予め、実線の傾きから求め
た値を用いる。外接矩形の投影値Projectionの分布は、
図27に示すように、直線の切片の位置にピークを有し
ている。この特徴を利用して、投影値が所定値Prthより
大きい切片位置を点線候補の切片位置とする。なお、画
像の解像度が同じく100dpi換算で、横の点線抽出
用としてPrth=40個、縦の点線抽出用としてPrth=3
個、としている。そして、次の処理過程に移り、図28
に示すように、求めた点線候補の切片位置bに対して、
a+dからa−dまでの範囲の切片を有する外接矩形を
当該点線を構成する点であるとし、それらの外接矩形を
選択する。ここで、dは一定値である。なお、縮小画像
の解像度が同じく100dpi換算で、d=3ドットと
している。
【0045】さらに、(3)外接矩形のピッチ規則性に
よる点線の始点、終点の抽出について述べる。点線上に
ある点の周期はほぼ一定である。外接矩形の中心間の距
離を求め、一定の間隔であれば、当該外接矩形は点線を
構成する点であるとする。外接矩形の中心間の距離は、
図29に示すように、太枠で示した注目外接矩形に対し
て、隣の外接矩形との距離が所定値P1max以内であり、か
つ、一つ隣の外接矩形との距離が所定値P2max以内であ
れば、注目外接矩形は点線を構成する点であるとする。
なお、縮小画像の解像度が同じく100dpi換算で、
P1max=10ドット、P2max=20ドットとしている。
【0046】図30は直線上に配置されている外接矩形
から複数の点線を抽出し、それらの点線の始点と終点を
検出する処理の説明図である。直線上に配置された外接
矩形をソートしておき、左端から順次、点線の始点と終
点を決定していく。先ず、左端の外接矩形を第1番目の
点線の始点として登録し、注目する外接矩形を順次左に
ずらしながら、先に述べたピッチの規則性を注目外接矩
形の隣の外接矩形、その隣の外接矩形が保持しているか
判定する。点線の終点の決定は、注目する外接矩形の隣
の外接矩形がピッチの条件を満たし、その一つ隣の外接
矩形がピッチの条件を満たさない場合、当該注目する外
接矩形の隣の外接矩形を終点とする。そして、さらに、
次の外接矩形を第2番目の点線の始点として登録し、同
じく、終点の外接矩形を探索する。このようにして、直
線上に配置されている外接矩形から複数の点線を抽出
し、それぞれの点線の始点と終点を検出する。
【0047】
【発明の効果】本発明によれば、登記済通知書の名称を
読み取り、枠内の文字行を認識するための書式情報を選
択的に使用することができるため、読み取り対象が多様
な帳票であっても高精度に登記情報を入力できるという
効果がある。
【0048】また、本発明によれば、認識結果の一部を
利用して登記情報データベースをアクセスし、当該デー
タベースに具備している登記情報と認識結果の整合性を
検定することができるため、登記情報の画面での修正作
業が容易であり、効率的な修正作業が可能となる。
【0049】また、本発明によれば、罫線のうち点線を
抽出し、点線により区切られた左右の枠が整数部と小数
部であることを自動的に判定することができ、登記情報
のうち、面積、地積等の数値情報を整数部と小数部を結
合させて入力できるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例である登記情報認識システム
の構成図である。
【図2】登記情報認識の処理過程を示すブロック図であ
る。
【図3】帳票の種類名称の読み取りを用いた登記情報認
識の処理過程を示すブロック図である。
【図4】帳票の枠の構造並びに帳票の種類の名称を用い
た登記情報認識の処理過程を示すブロック図である。
【図5】図2で示した登記情報認識の処理フローを示す
図である。
【図6】認識対象である登記済通知書の画像の説明図で
ある。
【図7】図5で示した登記情報認識の処理の途中結果を
示す図である。
【図8】図9のステップ902の単語照合における処理
過程を説明する図である。
【図9】図9のステップ903で示した項目と内容枠と
の対応付けのために用いる対応テーブルの説明図であ
る。
【図10】図9のステップ903で示した項目と内容枠
との対応付けのために用いる対応テーブルの説明図であ
る。
【図11】図6の600で示した帳票画像を読み取った
データの形式を説明する図である。
【図12】図2の下線抽出部208の処理フローを説明
する図である。
【図13】図3の301で示した帳票識別の処理フロー
の例である。
【図14】図4の400で示した枠構造識別の処理フロ
ーの例である。
【図15】図2の105で示した修正部において登記情
報の検定処理の説明図である。
【図16】修正部105の処理フローを示す図である。
【図17】修正部105における画面の表示例である。
【図18】図5のステップ502で示した罫線抽出処理
のフローである。
【図19】ステップ1801で示した点線抽出の処理フ
ローである。
【図20】ステップ1901、1903で示した点線抽
出の全体フローである。
【図21】点線のパラメータを説明する図である。
【図22】寸法により外接矩形を選択するフローであ
る。
【図23】注目する外接矩形の寸法条件を説明する図で
ある。
【図24】外接矩形の周囲条件を用いて、点線を構成す
る点の候補を選択する処理フローである。
【図25】参照する外接矩形の条件を説明する図であ
る。
【図26】外接矩形の傾き方向への投影による外接矩形
の選択を説明する図である。
【図27】外接矩形の投影値の分布を説明する図であ
る。
【図28】所定範囲の切片を有する外接矩形を選択する
処理を説明する図である。
【図29】注目外接矩形が点線を構成する点である条件
を説明する図である。
【図30】直線上に配置されている外接矩形から複数の
点線を抽出し、それらの点線の始点と終点を検出する処
理の説明図である。
【符号の説明】
100…登記済通知書、101…認識部、105…修正
部、109…登記情報データベース、205…点線抽出
部、208…下線抽出部、313…項目照合、316…
内容照合、400…帳票識別部、1020…対応テーブ
ル。
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06K 9/72 G06F 15/22 C G (72)発明者 中島 和樹 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】登記済通知書を画像処理し、前記画像から
    罫線と文字行を抽出し、前記罫線によって構成される罫
    線枠の構造、線種並びに前記文字行の認識結果の一部を
    用いることによって前記登記済通知書の種類を識別し、 登記情報デ−タベ−スにアクセスして、 前記登記済通知書の認識結果から該当するデ−タを読み
    取り、当該認識結果と登記済済デ−タベ−スとの整合性
    を検定して、該検定結果を基に前記認識結果を修正表示
    することを特徴とする帳票認識方法。
  2. 【請求項2】特許請求の範囲第1項において、上記画像
    から文字行を抽出し、上記登記済み通知書の最上部にあ
    る文字行を上記登記済み通知書の表題として選択し、上
    記登記済み通知書の種類を単語照合により識別すること
    を特徴とする帳票認識方法。
  3. 【請求項3】特許請求の範囲第1項又は第2項におい
    て、前記画像から文字行を抽出し、当該文字行から該当
    する項目を項目内容辞書による単語照合により決定し、
    予め項目内容辞書に記憶してある項目枠と内容枠との相
    対的な配置関係により、当該項目枠に対応する内容枠を
    決定することを特徴とする帳票認識方法。
  4. 【請求項4】特許請求の範囲第1項乃至第3項のうちい
    ずれかにおいて、上記罫線のうち点線の抽出は、前記画
    像を互いに直交するX軸方向とY軸方向に分けたとき、
    点線とみなせる外接矩形のX軸方向の長さ、Y軸方向の
    長さ、前記外接矩形の繰り返しピッチ及び前記外接矩形
    のを直線で結んだと仮定したときの直線の傾きから点線
    の抽出処理を行うことを特徴とする帳票認識方法。
  5. 【請求項5】特許請求の範囲第4項において、前記直線
    の傾きは、前記画像処理された登記済み通知書から抽出
    された実戦の傾きから得ることを特徴とする帳票認識方
    法。
  6. 【請求項6】特許請求の範囲第4項又は第5項におい
    て、上記抽出した点線を構成する外接矩形の繰り返しピ
    ッチの規則性を利用して、(1)最も端にある外接矩形
    を始点として注目し、(2)注目する外接矩形と隣の外
    接矩形及び一つ隣の外接矩形がそれぞれ存在し、且つ、
    それぞれ所定の距離内にあるならば、当該外接矩形の隣
    の外接矩形を終点の候補として注目していくステップを
    繰り返し、(3)終点の候補として注目する外接矩形の
    鄰の外接矩形が存在し、且つ、当該外接矩形が所定の距
    離内にあり、一つ隣の外接矩形が存在しないならば、当
    該外接矩形を終点とし、(4)終点の候補として注目す
    る外接矩形の鄰の外接矩形が存在し、且つ、当該外接矩
    形が所定の距離内にあり、一つ隣の外接矩形が所定の距
    離内に存在しないならば、当該外接矩形を終点とするこ
    とにより点線の始点及び終点を特定することを特徴とす
    る帳票認識方法。
  7. 【請求項7】特許請求の範囲第1項乃至第6項のうちい
    ずれかにおいて、前記画像上における枠罫線と下線とを
    区別して抽出し、当該下線が含まれている枠を抽出し、
    枠内に記載された文字行の読み取り結果を、当該枠内の
    下線の検出結果によって、有効又は無効とする編集を行
    うことを特徴とする帳票認識方法。
  8. 【請求項8】特許請求の範囲第1項乃至第7項のうち何
    れかにおいて、前記画像上に点線により区切られた枠に
    一定の関係がある場合において、前記画像から点線と実
    線を抽出し、抽出した前記点線の種類によって、前記点
    線により区切られた二つの枠に関係を設け、当該二つの
    枠内の文字認識結果を編集出力することを特徴とする帳
    票認識方法。
  9. 【請求項9】登記済通知書の表面画像を入力し文字を読
    み取る登記情報の認識方法において、登記済通知書の画
    像から文字行を抽出し、抽出した複数の文字行の位置関
    係から標題の文字行を選択し、当該標題の文字行を読み
    取ることにより、登記済通知書の種類を識別することを
    特徴とする帳票認識方法
  10. 【請求項10】登記済通知書の表面画像を入力し文字を
    読み取る登記情報の認識方法において、予め、点線によ
    り区切られて枠の関係を保持しておき、画像から実線と
    点線を抽出し、抽出した点線により区切られた二つの枠
    に関係を付け、当該二つの枠内の文字認識結果を編集出
    力することを特徴とする帳票認識方法
  11. 【請求項11】登記済通知書の表面画像を入力し文字を
    読み取る登記情報の認識方法において、枠罫線と下線と
    を区別して抽出し、当該下線が含まれている枠を検出
    し、枠内に記載された文字行の読み取り結果を、当該枠
    内の下線の検出有無によって、無効又は有効とする編集
    を行うことを特徴とする帳票認識方法
  12. 【請求項12】登記済通知書の表面画像を入力し文字を
    読み取る登記情報の認識方法において、文字行を抽出
    し、文字行から該当する項目を単語照合により選択し、
    予め保持する項目枠と内容枠との相対的な配置関係によ
    り、当該項目枠に対応する内容枠を決定することを特徴
    とする帳票認識方法
  13. 【請求項13】登記済通知書の表面画像を入力し文字を
    読み取る登記情報の認識方法において、登記済データを
    格納したデータベースを予め保持し、登記済通知書に記
    載された文字に対する認識結果の一部を用い、当該デー
    タベースをアクセスして該当する登記済のデータを読み
    取り、当該認識結果と登記済データとの整合性を検定し
    て、検定結果を基に認識結果の修正表示することを特徴
    とする帳票認識方法
JP13618696A 1996-05-30 1996-05-30 帳票認識方法 Pending JPH09319824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13618696A JPH09319824A (ja) 1996-05-30 1996-05-30 帳票認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13618696A JPH09319824A (ja) 1996-05-30 1996-05-30 帳票認識方法

Publications (1)

Publication Number Publication Date
JPH09319824A true JPH09319824A (ja) 1997-12-12

Family

ID=15169364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13618696A Pending JPH09319824A (ja) 1996-05-30 1996-05-30 帳票認識方法

Country Status (1)

Country Link
JP (1) JPH09319824A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006120097A (ja) * 2004-10-25 2006-05-11 Ricoh Co Ltd 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
US7106904B2 (en) 2001-04-25 2006-09-12 Hitachi, Ltd. Form identification method
CN100351839C (zh) * 2003-10-29 2007-11-28 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
JP2009169844A (ja) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd 表認識方法及び表認識装置
JP2012059226A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体
JP2012221183A (ja) * 2011-04-08 2012-11-12 Fujitsu Marketing Ltd レシートデータ認識装置およびそのプログラム
JP2015135576A (ja) * 2014-01-16 2015-07-27 グローリー株式会社 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7106904B2 (en) 2001-04-25 2006-09-12 Hitachi, Ltd. Form identification method
CN100351839C (zh) * 2003-10-29 2007-11-28 株式会社日立制作所 文档检索·阅览方法以及文档检索·阅览装置
JP2006120097A (ja) * 2004-10-25 2006-05-11 Ricoh Co Ltd 位置合わせ装置、位置合わせ方法、プログラムおよび記録媒体
JP2009169844A (ja) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd 表認識方法及び表認識装置
JP2012059226A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体
JP2012221183A (ja) * 2011-04-08 2012-11-12 Fujitsu Marketing Ltd レシートデータ認識装置およびそのプログラム
JP2015135576A (ja) * 2014-01-16 2015-07-27 グローリー株式会社 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム

Similar Documents

Publication Publication Date Title
US6687401B2 (en) Pattern recognizing apparatus and method
US5799115A (en) Image filing apparatus and method
Casey et al. Intelligent forms processing system
US7106904B2 (en) Form identification method
EP0472313B1 (en) Image processing method and apparatus therefor
JPH0420226B2 (ja)
JP3294995B2 (ja) 帳票読取装置
JPH07107694B2 (ja) 文書処理装置
EP0266140B1 (en) Optical character recognition by forming and detecting matrices of geographical features
JP3388867B2 (ja) 宛名領域検出装置および宛名領域検出方法
US6549662B1 (en) Method of recognizing characters
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
JPH09319824A (ja) 帳票認識方法
US5119441A (en) Optical character recognition apparatus and method using masks operation
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH11219409A (ja) 文書読取装置
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP3689485B2 (ja) 帳票認識方法
JP2917427B2 (ja) 図面読取装置
JP3372005B2 (ja) 文字認識装置
JP3186712B2 (ja) 文書読取装置
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置