JP2007328820A - 帳票認識方法 - Google Patents

帳票認識方法 Download PDF

Info

Publication number
JP2007328820A
JP2007328820A JP2007229653A JP2007229653A JP2007328820A JP 2007328820 A JP2007328820 A JP 2007328820A JP 2007229653 A JP2007229653 A JP 2007229653A JP 2007229653 A JP2007229653 A JP 2007229653A JP 2007328820 A JP2007328820 A JP 2007328820A
Authority
JP
Japan
Prior art keywords
identification
type
image
form type
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007229653A
Other languages
English (en)
Inventor
Hiroshi Shinjo
広 新庄
Yoshihiro Shima
好博 嶋
Katsumi Marukawa
勝美 丸川
Kazuki Nakajima
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007229653A priority Critical patent/JP2007328820A/ja
Publication of JP2007328820A publication Critical patent/JP2007328820A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】
帳票の種類が多様な読み取り対象に対して,高精度な帳票認識手法を提案することである。また,種類の識別手法を提案することである。また,帳票に記載されている下線を抽出する手法を提供することである。
【解決手段】
帳票画像200から罫線枠204,206と文字行212を抽出し,文字識別結果と単語辞書を照合することにより,文字識別の誤りを修正する。表の特徴と,照合により求めた帳票名と項目名から帳票の種類を識別する。帳票画像から文字行と罫線を抽出し,抽出した罫線から枠を構成する罫線を除去し,残りの罫線と文字行の配置を比較することにより,下線を抽出する。
【効果】
登記済通知書のような非定型帳票に対しても高精度に帳票の種類を識別することができ,下線を文字中のストロークなどと間違うことなく,高精度に抽出することができる。
【選択図】 図2

Description

本発明は帳票、特に、不動産に関する登記情報が記載された多様な帳票に関し,特に,登記済通知書から文字データを読み取り,自動的に入力する帳票認識方法に関する。
帳票の種類の識別に関する従来技術の例としては,以下のものが挙げられる。
第1は,全ての種類の帳票に対して同じ位置に記載された帳票の種類を表すID番号を読み取ることにより,帳票の種類を識別する方式である。第2は,帳票の種類ごとに枠の構造が異なる場合に,枠の構造を識別することにより帳票の種類を識別する方式である。この例は,特開平7―141462号公報に記載されている。
特開平7−141462号公報
不動産に関する登記済通知書は現在7種類ある。これらの帳票は不動産に関する課税のためのデ−タ入力に用いられるものであるが、この通知書には,帳票の種類を特定するID番号の記載がないため,ID番号読み取りにより帳票を識別する従来手法を用いることはできない。さらに,これらの帳票は,同じ種類であっても枠の形状が異なる非定型帳票であるため,枠の構造から帳票を識別する従来手法を用いることはできない。また,表題部の文字を読み取ることにより帳票を識別する従来手法を用いる場合には,帳票の識別精度は文字認識の精度に大きく依存するという問題がある。登記済通知書の帳票名は,「権利に関する土地登記済通知書」,「権利に関する建物登記済通知書(一般)」,「権利に関する建
物登記済通知書(専有)」,「表示に関する土地登記済通知書」,「表示に関する建物登記済通知書(一般)」,「表示に関する建物登記済通知書(一棟)」,「表示に関する建物登記済通知書(専有)」の7種類である。このうち,「表示に関する建物登記済通知書(一般)」と「表示に関する建物登記済通知書(一棟)」は,一字しか違わないため,この二種類に対する識別精度が低くなる可能性がある。
そこで,本発明の第1の目的は,帳票の種類が多様な読み取り対象に対して,
高精度な帳票識別手段を有する帳票認識手段を提案することである。
従来の下線検出方法では,枠線以外の罫線を下線としていたため,文字の横方向のストローク等のノイズ成分を下線として誤抽出する可能性があった。そこで,本発明の第2の目的は,高精度な下線検出手段を有する帳票認識手段を提案することである。
第1の観点では、この発明は、登記済通知書の表面画像を入力し文字を読み取る登記情報の認識方法であって,登記済通知書の画像から文字行を抽出する文字行抽出手段と,抽出した複数の文字行と枠との位置関係から帳票名の文字行を選択し文字行選択手段と,帳票名の文字行を読み取る文字識別手段から,登記済通知書の種類を識別する第1の帳票識別手段と,登記済通知書の画像から罫線を抽出する罫線抽出手段と,抽出した罫線から表の特徴を抽出する表特徴抽出手段と,表の特徴から登記済通知書の種類を識別する第2の帳票識別手段と,登記済通知書の画像から文字行を抽出する文字行抽出手段と,抽出した文字行を読み取る文字識別手段と,読み取り結果の中から帳票の項目名を選択する項目名選択手段と,項目名の組み合わせから登記済通知書の種類を識別する第3の帳票識別手段
とを具備し,当該3つの手段の結果を組み合わせることにより,登記済通知書の種類を識別する帳票認識方法を提供する。
第2の観点では、この発明は、登記済通知書の表面画像を入力し文字を読み取る登記情報の認識方法であって,登記済通知書の画像から文字行と罫線を抽出する文字行抽出手段と,抽出した罫線から枠罫線と枠罫線でない罫線を区別する罫線種判定手段と,枠罫線でない罫線が含まれる枠内の文字行を検出する手段と,
当該枠内の文字行と当該枠内の枠罫線でない罫線との位置関係から,当該枠内の枠罫線でない罫線が下線か否かを判定する下線検出手段を具備する帳票認識方法を提供する。
本発明の帳票認識方法によれば,登記済通知書のような非定型帳票に対しても高精度に帳票の種類を識別することができる。
また,本発明の帳票認識方法によれば,下線を文字中のストロークなどと間違うことなく,高精度に抽出することができる。
また,本発明の帳票認識方法によれば,帳票の認識結果に基づいて,帳票をソートすることができる。
以下、本発明の一実施例を詳細に説明する。なお、これにより本発明が限定されるものではない。
図1は、本発明の一実施例である登記情報システムの構成図である。登記情報の認識を行う認識部101と認識結果の修正を行う修正部105がネットワーク104により接続されており,入力センタ111において認識と修正を並行して行うことができる。処理の過程は,まずスキャナ102により登記済通知書100の画像を入力する。次に,認識用計算機103では,文字および罫線の認識を行い,修正用計算機106において認識結果の修正確認を行う。また,辞書やコード表と照合チェックし,コードデータを出力する。認識結果は,通信制御用計算機107を介して,遠隔地にある計算センタ110にあるホスト計算機108に接続された登記情報データベース109に格納される。修正部105では,認識結果の一部を利用し,登記情報データベース109をアクセスし,登録済の登
記情報を読み出す。当該読み出した登録情報と認識結果の一部を照合し,矛盾がないかどうかの検定を行う。
図2は,登記情報認識の処理過程を示すブロック図である。認識部101では,帳票画像を読み取り,修正部105に縮小画像248,枠座標250,下線座標252,文字行座標254,帳票種類256,認識結果ラティス258,文字座標260を出力する。修正部105では,これらの入力データをもとに,操作者が認識結果を修正する。画像入力部200では,帳票表面の画像を白黒2値化して入力する。
入力した画像は,画像縮小部202と文字行画像抽出部218に出力される。
画像縮小部202では,後続の処理の高速化のため帳票画像を縮小し,縮小画像248を出力する。縮小処理は,細い罫線が縮小後かすれないよう,画素ごとのOR処理を行う。縮小した画像に対し,罫線抽出部204において実線と点線の罫線を抽出する。実線は,黒画素の連続するつながりをもとに抽出される。点線は,黒画素の連結成分の外接矩形の配置,サイズの拘束条件をもとに抽出される。枠抽出部206では,204で抽出した罫線から罫線が四方を取り囲む枠を求め,枠の頂点座標250を出力する。表特徴抽出部208では,206で抽出された枠の情報から,枠の集まりである表の特徴量を抽出する。この特徴量とは,縦横の罫線の本数や,罫線同士の接続関係,枠の位置関係等である。
一方,文字行抽出部206では,202から出力された縮小画像から,文字の集合である文字行を抽出する。ここでは,黒画素の連結成分うち,文字と推定される大きさの連結成分の外接矩形の頂点座標をもとに,文字の並びと推定される外接矩形を融合することにより,文字行を生成する。行―枠対応部214では,212で抽出した文字行の頂点座標と206で抽出した枠の頂点座標を比較することにより,各文字行がどの枠内に存在するか,もしくは枠外にあるかを判定し,枠ごとに含まれる文字行の頂点座標と枠外の文字行の頂点座標254を出力する。 また,下線抽出部216では,204で抽出した罫線座標と,206で抽出した枠の頂点座標と,214で抽出した枠内の文字行座標とをもとに,下線を抽出して,下線の座標252を出力する。さらに,文字行画像抽出部218では,214で抽出された文字行座標をもとに,200で入力された画像から文字行部分の画像を切り出す。文字切り出し・文字識別部220では,文字切り出し部222と文字識別部224が協調して,文字を1文字ずつ切り出し,その文字座標260を出力する。さらに,文字識別部224では,切り出した1文字分の画像パターンに対して,識別辞書226を用いて文字を識別する。帳票名照合部228では,文字識別部224の出力である文字識別結果を入力し,単語照合部230により帳票名辞書232に格納された帳票名単語と照合することにより帳票名についての認識結果の誤りを修正して帳票名を求める。
帳票名辞書232に格納された単語は,認識対象の帳票名である。認識対象の帳票名はあらかじめわかっており,帳票名は帳票の種類に1対1に対応する。さらに,項目照合部234では,228で照合されなかった文字認識結果を入力し,単語照合部236により項目辞書238に格納された項目名単語と照合することにより項目名についての認識結果の誤りを修正して項目名を求める。項目辞書238にされた単語は,認識対象の帳票内に記載された項目である。内容照合部240では,234で照合されなかった文字認識結果を入力し,単語照合部242により内容辞書244に格納された内容単語と照合することにより内容についての認識結果の誤りを修正する。ここで,「内容」とは帳票において,項目名に対して記載されている内容をさす。例えば,「地目」という項目に対する内容には「居宅」や「公園」などがある。内容辞書244に格納された単語は,認識対象の帳票内に記載された内容を記載する単語のうち,あらかじめ使用が決められている単語である。240の処理の結果出力される認識結果ラティス258は,1文字ごとに文字識別処理の結果である候補文字を類似度が高い順に並べたものである。この文字識別結果は,帳票名照合,項目照合,内容照合により誤りを修正してある。
一方,帳票識別部246では,表特徴抽出部208と帳票名照合部228と項目名照合部234の出力結果を入力し,表特徴と帳票名,項目名から帳票の種類を識別し,帳票種類256を出力する。
図3は、図2で示した登記情報認識の処理フローを示す図である。ステップ300で画像を入力し,ステップ302で当該画像を縮小する。次いで,ステップ304で画像から罫線を抽出し,ステップ306で罫線から枠を抽出する。さらに,ステップ308で表の特徴を抽出する。また,ステップ310で当該縮小画像から文字行を抽出し,ステップ312で,抽出した行と枠とを対応付ける。また,ステップ314で,罫線と枠と文字行の座標から下線を抽出する。さらに,ステップ316で,文字行の座標値に基づいて帳票画像から文字行部分の画像のみを抽出する。ステップ318で,当該文字行画像を1文字ずつの画像に分割し,ステップ320で切り出された画像パターンに対して文字識別を実行する。ステップ322では,文字識別結果を帳票名の単語と照合して帳票名を識別する。
ステップ324では,文字識別結果を項目名の単語と照合して項目名を識別する。ステップ326では,文字識別結果を内容の単語と照合して内容を識別する。
ステップ328では,ステップ308の処理結果である表の特徴とステップ322の処理結果である帳票名とステップ324の処理結果である項目名から帳票の種類を識別する。ステップ330では,300から328の処理で得た結果を出力する。
図4は,認識対象である登記済通知書の画像を,説明のために簡略的に示した図である。帳票画像400の例では,帳票名「権利に関する建物登記済通知書(専有)」401が記載されており。横罫線402,404,406,408と縦罫線410,412,414,416が印刷されている。また,項目として「符号」418と「所在」420,「地目」422がある。「符号」の内容としては「1」(424)と「2」(426),「所在」の内容としては428と430に「国分寺市東恋ヶ窪1丁目280番地」が記載されている。「地目」の内容としては,「宅地」(432)と「公園」(434)が記載されている。さらに,内容424「1」,428「国分寺市東恋ヶ窪1丁目280番地」,432「宅地」には,それぞれ下線436,438,440が印刷されている。
図5は,図4の帳票画像に対する,図3のステップ304の罫線抽出処理結果を示すものである。(a)の500は横罫線の抽出結果であり,(b)の520は縦罫線の抽出結果である。(a)では,図4の横罫線402から408に相当する罫線として,それぞれ,502から508が抽出されている。下線436,438,440に相当する下線として,それぞれ,510,514,516が抽出されている。512と518は,「市東恋」の横ストロークをつなげることによって,罫線として抽出したものである。この離れた横ストロークが接続される現象は,横罫線を抽出する際に黒画素を横方向に収縮・膨張処理することにより,接近した黒画素が接続されることに起因する。また,(b)では,図4の縦罫線410から416に相当する罫線として,それぞれ,522から528が抽出されている。
図6は,図4の帳票画像に対する,図3のステップ306の枠抽出処理結果を示すものである。600は枠抽出結果である。602から618の9個の枠が抽出されている。
図7は,図4の帳票画像に対する,図3のステップ310の文字行抽出処理結果を示すものである。700は文字行抽出結果である。図4の文字行401,418,420,422,424から434の文字行に対して,それぞれ702から720の文字行の外接矩形が抽出されている。
図8は,図3のステップ314の文字行抽出処理に関する処理フローである。
罫線抽出処理304,枠抽出処理306,文字行抽出処理310の結果を用いて,ステップ800では,枠を構成しない罫線を抽出する。ステップ802では,ステップ800で抽出した罫線の本数分だけ,以下の処理を繰り返す。ステップ804では,文字行の座標と罫線の座標を比較する。比較の方法については図9と図10を用いて説明する。ステップ806では,比較した値が基準を満たすか否かを判定する。基準値を満たす場合,ステップ808で,比較対象の罫線を下線とする。なお,上記ステップ808において抽出された2本の下線について,端点同士がが微小な間隔で離れており,延長線上に存在する場合には,1本の下線であるとすることもできる。また,上記ステップ808において抽出した下線の長さが基準値以下であれば,下線とみなさないとすることもできる。
図9は,図8の処理フローを説明するための帳票の枠の例である。横罫線900と902,縦罫線904と906,文字行908,下線910が印刷されている。
図10は,図9の例から罫線と文字行を抽出した結果である。この図を用いて下線の判定を説明する。下線判定処理は,文字行と同一枠内にある罫線の中で,文字行の下に位置し,文字行とほぼ同じ長さの罫線を下線と判定する。図10において,1007は文字が印刷されていた領域であり,1008は1007の外接矩形である。図9の900から910の罫線は,それぞれ1000から1010として抽出されている。さらに,1012は文字の横ストロークを罫線として抽出したものである。抽出された罫線の中から,枠を構成していない罫線として,1010と1012が抽出される。以下,1010を例として下線と判定される場合について説明し,1012を例として下線と判定されない場合を説明する。
図10の1010について判定する。まず,罫線の下端のy座標と文字行の下端のy座標との差d11(1014)を求める。次に,罫線の上端のy座標と文字行の上端のy座標との差d12(1016)を求める。さらに,罫線のx方向の長さL1(1018)と文字行のx方向の長さLc(1020)との差を求める。この値を基準値,α,β,γ1,γ2と比較する。d11が文字行より下でα未満であり,d12がβ以上であり,L1―Lcがγ1以上γ2以下であれば,この罫線を下線とする。上記の処理の判定基準であるα,β,γ1,γ2の値は経験的に求めることができる。
例えば,αは,文字行と下線との間隔が一定であればその値を用いることができる。一定でなければ,枠の高さと文字の高さの差の1/2を用いることができる。βは,文字行の下端と下線との間隔と,文字の高さとが一定であれば,この2つの値の和を用いることができる。γ1とγ2の値は,一文字程度のマージンを見込んで,γ1は文字幅に(−1)をかけた値,γ2は文字幅等を用いることができる。上記のα,β,γ1,γ2の値の設定にあたっては,帳票の傾きや,線のかすれやつぶれ等に対して頑健性をもたせるため,マージンをもたせて値を設定することができる。また,d11の値の許容値について,負の値を許容すれば,下線が文字と重なる場合にも対応できる。
次に,図10の1012について判定する。まず,罫線の下端のy座標と文字行の下端のy座標との差d21(1022)を求める。次に,罫線の上端のy座標と文字行の上端のy座標との差d22(1024)を求める。さらに,罫線のx方向の長さL2(1026)と文字行のx方向の長さLc(1020)との差を求める。これらの値を上記α,β,γ1,γ2と比較した場合,d21は負の大きな値となり,d22はβより小さな値になるため,下線ではないと判定される。
なお,ここで用いたd11,d12は文字の高さや枠の高さ等で正規化してもよい。また,L1とLcの差の代わりに比を比較してもよい。α,β,γ1,γ2の値は,比較対象の定義に合わせて設定する。
また,ここでは,罫線の下端のy座標と文字行の下端のy座標との差1014と,罫線の上端のy座標と文字行の上端のy座標との差1016,罫線のx方向の長さ(1018)と文字行のx方向の長さ(1020)との差の3つの評価値を用いたが,必要に応じてこの中の1つもしくは2つのみを用いていもよい。
図11は,図3のステップ314下線抽出処理において,文字行の座標の代わりに文字の座標を用いた例である。図10で説明した判定基準を用いて,枠を構成しない罫線1108と文字の外接矩形1112を比較することにより,1108は下線であると判定できる。また,枠を構成しない罫線1110と文字の外接矩形1114を比較することにより,1110は下線でないと判定できる。
図12は,文字行内の一部の文字に対してのみ下線が印刷されている例である。枠1200内に,文字行1202と下線1204が記載されている。図11の方法を用いれば,文字行中の「1丁目280番」の文字のみに下線が印刷されていることを判定できる。
図13は,図3のステップ314の文字行抽出処理に関する別の処理フローである。登記済通知書では,図4の436,438,440のように同一線上に複数の下線が存在することが多い。一方,下線436は短いので,文字内の横方向のストロークと長さが変わらないため,罫線抽出の際に抽出もれする可能性がある。この処理では,罫線抽出の際に抽出もれする可能性のある短い下線を正しく抽出することを目的とする。このため,まず長い下線を抽出し,この下線の延長上にある罫線を下線と判定する。
以下,図13の各ステップについて説明する。ステップ1300では,長い下線のみを抽出する。この処理は,図8で示した処理等を用いて実現できる。ステップ1302では,横方向のランレングスデータのうち枠線を構成しないランレングスデータを抽出する。ステップ1304では,抽出したランレングスデータの個数分についてステップ1306と1308の処理を繰り返す。ステップ1306では,対象とするランレングスデータが下線の延長線上にあるか否かを判定する。延長線上にあれば,ステップ1308で下線を構成するランレングスデータであるとして抽出する。ステップ1310では,ステップ1308で下線を構成すると判定されたランレングスデータから構成される罫線を下線として抽出する。なお,上記ステップ1310において抽出された2本の下線について,端点同士がが微小な間隔で離れており,延長線上に存在する場合には,1本の下線であるとすることもできる。また,上記ステップ1310において抽出した下線の長さが基準値以下であれば,下線とみなさないとすることもできる。
図14は,図13の処理フローを説明するための帳票の枠の例である。横罫線1400と1402,縦罫線1404から1410,下線1412から1416,文字行1418から1422が印刷されている。
図15は,図14の画像から枠を構成しない横方向のランレングスデータと長い下線とを抽出した結果である。1500は図13のステップ1300で抽出された長い下線である。横方向のランレングスデータの連結成分のうち,1502と1504は1500の延長線上1508から許容範囲w(1510)以内にあるので,下線であると判定する。1506はwよりも外にあるので,下線はないと判定する。
図16は,図3のステップ314の文字行抽出処理に関する別の処理フローである。この処理では,枠を構成しない横方向のランレングスデータの長さの値をランの中点から傾き方向に投影して作成したヒストグラムを用いて下線を抽出する。以下,図16の各ステップにてついて説明する。ステップ1600では,横方向のランレングスデータのうち枠線を構成しないランレングスデータを抽出する。ステップ1602では,抽出したランレングスデータの長さの値を,ランの中点から傾き方向に投影してヒストグラムを作成する。ステップ1604では,ヒストグラムの山の数だけステップ1606とステップ1608の処理を繰り返す。ステップ1606では,投影値が基準値以上であるか否かを判定する。基準値以上であれば,ステップ1608で投影されたランレングスデータは下線を構成すると判定する。ステップ1610では,ステップ1608で下線を構成すると判定されたランレングスデータから下線を抽出する。なお,上記ステップ1610において抽出された2本の下線について,端点同士がが微小な間隔で離れており,延長線上に存在する場合には,1本の下線であるとすることもできる。また,上記ステップ1610において抽出した下線の長さが基準値以下であれば,下線とみなさないとすることもできる。
図17は,図14の画像から枠を構成しない横方向のランレングスデータを抽出し,ヒストグラムを作成した結果である。1700から1706は図16のステップ1600で抽出された横方向のランレングスデータの連結成分である。ヒストグラム1708と1710は,ステップ1602で投影された結果である。
ステップ1606において,1708と1710について,許容範囲w(1712)の範囲内の面積を基準値と比較する。この場合,1708は基準値以上,1710は基準値未満であるとすると,1700,1702,1704は下線であり,1706は下線ではないと判定できる。
図18は,図3のステップ328の帳票識別処理に関する処理フローである。
ステップ308では表の特徴量を抽出する。ステップ322では帳票名の単語照合結果を求める。ステップ324では項目名の単語照合結果を求める。ステップ1800では,308,322,324の結果からそれぞれ導出される帳票の種類を用いて,多数決により帳票種類を識別する。
ステップ308で抽出する表の特徴としては,罫線の接続関係,枠の個数,枠の配置関係,縦罫線の本数,横罫線の本数等がある。罫線の接続関係が帳票の種類ごとに異なる場合には,特開平7―141462号公報に記載されている技術を用いて帳票の種類を特定できる。
Figure 2007328820
表1では,ステップ308で抽出する表の特徴の例として,認識対象である登記済通知書の縦の実線罫線の本数を示している。これにより,縦の実線罫線は7,8,10,11,12,16本のうちのいずれかでることがわかる。このうち,8本と10本の場合を除けば,帳票の種類が一意に決定する。8本と10本の場合も帳票種類の候補を挙げることができる。
また,ステップ322で照合する帳票名の単語は,帳票名全てを一つの単語として登録してもよく,「権利」「表示」,「建物」「土地」,「一般」,「専有」,「一棟」など特徴的な単語のみを登録してもよい。
Figure 2007328820
表2は,ステップ308で照合する項目名の中から一部を抜粋して示したものである。表2より,「所在」や「所」のように複数の帳票に共通する項目名や,「地積」や「一棟の建物番号」,「棟」,「表」のように帳票固有の項目名などがある。帳票固有の項目名をもたない種類の帳票でも,複数の項目を組み合わせて存在を判定することにより,「表示に関する建物登記済通知書(一般)」と「表示に関する建物登記済通知書(専有)」を除く5種類の帳票の種類を識別することができる。例えば,「床面積」の項目が存在し,「一棟の建物番号」の項目が存在しなければ「権利に関する建物登記済通知書(一般)」と識別することができる。
ステップ1800では,ステップ308,322,324の結果を統合して帳票の種類を識別する。統合の手段としては,上記3つの結果の多数決を用いることができる。
ステップ1800において,308,322,324の各ステップで,一意に帳票の種類を識別できない場合でも,各ステップの処理結果を相互に補完することによって,帳票の種類を識別することもできる。例えば,ステップ308において,縦の実線罫線の本数が8本抽出された場合,表1より帳票の種類は「表示に関する土地登記済通知書」,「表示に関する建物登記済通知書(一般)」,「表示に関する建物登記済通知書(専有)」の3種類が考えられる。しかし,ステップ324において,項目名「表」が抽出されれば,「表示に関する土地登記済通知書」であると一意に決定できる。
なお,ステップ1800において,308,322,324の3つのステップの結果を用いるのではなく,2つのみを用いることもできる。
なお,ステップ1800において,308,322,324の各ステップの結果を同等に扱うのではなく,一つのステップで得た結果から帳票を識別し,他のステップで得た結果は,帳票識別の結果を検証するために用いることもできる。
図19は,本発明の一実施例である登記情報システムの構成図である。101から109の構成は図1に同じである。ソータ1900は,認識部101で認識し,修正部105で修正した結果に基づき,登記済通知書を記載内容の優先度順に帳票100をソートする。以下にソートの例を2つ挙げる。第一は,所在と地番に該当する文字から,町ごとに丁目,番地,号の順にソートする。第二は,作成日,番号の順にソートする。また,ソートする対象は,登記済通知書の帳票でも,認識結果のデータでもよい。
本発明の一実施例である登記情報認識システムの構成図である。 登記情報認識の処理過程を示すブロック図である。 図2で示した登記情報認識のPAD図である。 認識対象である登記済通知書の画像の説明図である。 図4の画像に対して図3のステップ304の罫線抽出処理をした結果を示す図である。 図4の画像に対して図3のステップ306の枠抽出処理をした結果を示す図である。 図4の画像に対して図3のステップ310の文字行抽出処理をした結果を示す図である。 図3のステップ314の下線抽出処理に関するPAD図である。 下線抽出対象画像の説明図である。 図9の画像に対して罫線と文字行を抽出した結果を示す図である。 図9の画像に対して罫線を抽出し,文字を切り出した結果を示す図である。 文字行の一部の文字に対してのみ下線が印刷されている画像の説明図である。 図3のステップ314の下線抽出処理に関するPAD図である。 下線抽出対象画像の説明図である。 図14の画像に対して枠線を構成しないランレングスデータと長い下線線を抽出した結果を示す図である。 図3のステップ314の下線抽出処理に関するPAD図である。 図14の画像に対して枠線を構成しないランレングスデータを抽出し,ランレングスデータの長さを傾き方向に投影した結果を示す図である。 図3のステップ328の帳票識別処理に関するPAD図である。 本発明の一実施例である,ソート機能をもつ登記情報認識システムの構成図である。
符号の説明
200…画像入力、204…罫線抽出、206…枠抽出、208…表特徴抽出、246…帳票識別、222…文字切り出し、224…文字識別、236…単語照合、240…内容照合

Claims (11)

  1. 帳票の種類を認識する帳票種類認識装置であって、
    帳票画像の入力を受ける入力部と、
    該帳票画像の全体の特徴を抽出し、該特徴を既存の帳票の全体の特徴データと照合して、前記帳票画像の種類の認識に用いる第1の帳票種類認識系と、
    該帳票画像の一部の特徴を抽出し、該特徴を既存の帳票の一部の特徴データと照合して、前記帳票画像の種類の認識に用いる第2の帳票種類認識系とを具備し、
    前記第1の帳票種類認識系は、前記帳票画像から罫線パタンについての特徴を抽出し、かつ、前記既存の帳票の全体の特徴データとして該帳票の罫線パタンについての特徴データを用いる認識系であることを特徴とする帳票種類認識装置。
  2. 請求項1記載の帳票種類認識装置であって、
    前記既存の帳票の全体の特徴データを保持している第1の辞書と、
    前記既存の帳票の一部の特徴を保持している第2の辞書とを備えたことを特徴とする帳票種類認識装置。
  3. 請求項1記載の帳票種別認識装置であって、
    前記第2の帳票種類認識系は、前記帳票画像から複数の部分パタンについての特徴を抽出し、かつ、前記既存の帳票の一部の特徴データとして該帳票の複数の部分パタンについての特徴データを用いる認識系であることを特徴とする帳票種類認識装置。
  4. 請求項1記載の帳票種別認識装置であって、
    前記第1の帳票種類認識系と前記第2の帳票種類認識系との認識結果により帳票種類候補を絞り込むことを特徴とする帳票種類認識装置。
  5. 請求項1記載の帳票種別認識装置であって、
    前記帳票の一部が、1帳票中に複数設定されていることを特徴とする帳票種別認識装置。
  6. 請求項1記載の帳票種類認識装置であって、
    前記第2の帳票種類認識系で用いる帳票画像の一部の特徴は、帳票中の文字列であり、前記既存の帳票の一部の特徴データとして、各帳票種類についての特徴的な文字列を用いる認識系であることを特徴とする帳票種類識別装置。
  7. 請求項1記載の帳票種類認識装置であって、
    前記第2の帳票種類認識系で用いる帳票画像の一部の特徴は、帳票中の文字列であり、前記既存の帳票の一部の特徴データとして、各帳票種類についての項目名を用いる認識系であることを特徴とする帳票種類識別装置。
  8. 帳票種類を識別する帳票識別装置であって、
    帳票画像の入力を受ける入力部と、該帳票画像の帳票種類を識別する識別部とを有し、
    前記識別部は、
    入力された帳票画像から表の特徴量を抽出して帳票種別を識別する第1処理部と、
    前記帳票画像から帳票名に関する単語を抽出して帳票種別を識別する第2処理部と、
    前記帳票画像から帳票名以外の項目に関する単語を抽出して帳票種別を識別する第3処理部と、
    からなり、
    前記第1処理部による識別結果と、前記第2処理部による識別結果と、前記第3処理部による
    識別結果との、いずれか1つの識別結果を用いて帳票種別を決定することを特徴とする帳票識別装置。
  9. 請求項8に記載の帳票識別装置であって、
    前記識別部は、
    前記第1処理部による識別結果と、前記第2処理部による識別結果と、前記第3処理部による識別結果との、いずれか1つの識別結果を用いて帳票種別を決定し、他の1つの識別結果を用いてその決定内容を検証することを特徴とする帳票識別装置。
  10. 請求項8もしくは請求項9に記載の帳票識別装置であって、
    前記識別部は、
    前記第1処理部による識別処理を行い、次に前記第2処理部による識別処理を行い、最後に前記第3処理部による識別処理を行うことを特徴とする帳票識別装置。
  11. 請求項8に記載の帳票識別装置であって、
    前記識別部は、
    前記第1処理部による識別結果と、前記第2処理部による識別結果と、前記第3処理部による識別結果との多数決を用いて帳票種別を決定することを特徴とする帳票識別装置。
JP2007229653A 2007-09-05 2007-09-05 帳票認識方法 Pending JP2007328820A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007229653A JP2007328820A (ja) 2007-09-05 2007-09-05 帳票認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007229653A JP2007328820A (ja) 2007-09-05 2007-09-05 帳票認識方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005127313A Division JP2005293605A (ja) 2005-04-26 2005-04-26 帳票認識方法

Publications (1)

Publication Number Publication Date
JP2007328820A true JP2007328820A (ja) 2007-12-20

Family

ID=38929182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007229653A Pending JP2007328820A (ja) 2007-09-05 2007-09-05 帳票認識方法

Country Status (1)

Country Link
JP (1) JP2007328820A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649420A (zh) * 2015-11-02 2017-05-10 富士施乐株式会社 图像处理设备和图像处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6238984A (ja) * 1985-08-14 1987-02-19 Hitachi Ltd 光学文字読取方式
JPH07141462A (ja) * 1993-11-19 1995-06-02 Hitachi Ltd 文書システム
JPH09305701A (ja) * 1996-05-09 1997-11-28 Hitachi Ltd 帳票認識方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6238984A (ja) * 1985-08-14 1987-02-19 Hitachi Ltd 光学文字読取方式
JPH07141462A (ja) * 1993-11-19 1995-06-02 Hitachi Ltd 文書システム
JPH09305701A (ja) * 1996-05-09 1997-11-28 Hitachi Ltd 帳票認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649420A (zh) * 2015-11-02 2017-05-10 富士施乐株式会社 图像处理设备和图像处理方法
JP2017090974A (ja) * 2015-11-02 2017-05-25 富士ゼロックス株式会社 画像処理装置及びプログラム
CN106649420B (zh) * 2015-11-02 2021-03-30 富士施乐株式会社 图像处理设备和图像处理方法

Similar Documents

Publication Publication Date Title
US8792715B2 (en) System and method for forms classification by line-art alignment
US7120318B2 (en) Automatic document reading system for technical drawings
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
JP6286866B2 (ja) 画像処理装置および画像処理方法
US8781229B2 (en) System and method for localizing data fields on structured and semi-structured forms
JP4661921B2 (ja) 文書処理装置およびプログラム
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP6831951B2 (ja) 画像認識システム
JPH09245173A (ja) 画像処理方法
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
US7227997B2 (en) Image recognition apparatus, image recognition method, and image recognition program
JP3689485B2 (ja) 帳票認識方法
JP2003109007A (ja) 帳票様式分類装置、帳票様式分類方法、帳票様式分類プログラムおよび画像照合装置
US7853194B2 (en) Material processing apparatus, material processing method and material processing program
JP2007328820A (ja) 帳票認識方法
JP2005293605A (ja) 帳票認識方法
JP4046941B2 (ja) 文書書式識別装置および識別方法
JP4853313B2 (ja) 文字認識装置
JP2005250786A (ja) 画像認識方法
JP2009087378A (ja) 帳票処理装置
US20060188863A1 (en) Material processing apparatus, material processing method, and material processing program product
JP4521377B2 (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2006234996A (ja) 教材処理装置、教材処理方法および教材処理プログラム
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JP6941331B2 (ja) 画像認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100518