JPH08171608A - 帳票様式識別方法および装置 - Google Patents

帳票様式識別方法および装置

Info

Publication number
JPH08171608A
JPH08171608A JP6317281A JP31728194A JPH08171608A JP H08171608 A JPH08171608 A JP H08171608A JP 6317281 A JP6317281 A JP 6317281A JP 31728194 A JP31728194 A JP 31728194A JP H08171608 A JPH08171608 A JP H08171608A
Authority
JP
Japan
Prior art keywords
dictionary
frame structure
frame
style
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6317281A
Other languages
English (en)
Inventor
Yoshifumi Chimoto
良史 地本
Takeyuki Sugimoto
建行 杉本
Hirobumi Kimura
博文 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6317281A priority Critical patent/JPH08171608A/ja
Publication of JPH08171608A publication Critical patent/JPH08171608A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 多様な帳票の様式を的確に識別する。 【構成】 帳票の画像入力を行うためのスキャナ101
と、枠抽出辞書102a、罫線接続関係辞書102b、
様式辞書102cにアクセスして、制御および帳票様式
識別処理を行うプロセッサ102と、データ格納に用い
られるディスク装置103と、様式の識別結果を出力す
るディスプレイ105およびプリンタ104とからな
り、プロセッサ102は、枠抽出辞書102aに基づい
て、枠構造の位置、大きさ、外形等の情報に基づいて様
式判別のための特定の枠構造を抽出するステップと、抽
出された枠構造における罫線接続関係を抽出し、罫線接
続関係辞書102bと照合して様式判別のための特定の
枠構造を絞り込むステップと、絞り込まれた複数の枠構
造の組み合わせを様式辞書102cと照合して当該帳票
様式識別の様式を特定するステップと、を実行する帳票
様式識別装置である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は帳票様式識別技術に関
し、特に、多様な帳票を取り扱う光学文字認識処理(O
CR)等に適用して有効な技術に関する。
【0002】
【従来の技術】たとえば、多様な様式の帳票(シート)
を入力する光学文字読取システム等においては、入力対
象のシートの様式毎に記入情報の属性が異なるため、シ
ートの様式を的確に判別することが必要となる。従来、
シートの様式を識別するためには、シートの指定された
位置にID番号を記入しておくとともに、当該ID番号
に対応した定型様式を記憶させておき、この番号を読み
取らせることにより、文字の位置等のシートの様式の識
別を行うことが考えられる。この方式ではID番号のか
かれていないシートの識別はできない。
【0003】また、特開平5-290269号公報に開示された
技術にはファクシミリから受信された画像データから基
準線を探し、読取位置補正を行うことが示されている
が、適用できる様式は一つであった。
【0004】
【発明が解決しようとする課題】前述の従来の技術で
は、特定の項目の位置を抽出するためには、それぞれの
項目の位置を登録しなければならず、登録された定形フ
ォーマットの文書にしか対応できなかった。しかし、項
目の並びはほぼ同じであるが、シートによって項目の位
置が変化する文書の場合には、利用者にフォーマット作
成の多大な負担をかけ、フォーマットが多い場合には、
適応はできなかった。
【0005】本発明の目的は、多様な帳票の様式を的確
に識別することが可能な帳票様式識別技術を提供するこ
とにある。
【0006】本発明の他の目的は、多様な帳票の識別の
ための準備作業を簡略化することが可能な帳票様式識別
技術を提供することにある。
【0007】本発明のさらに他の目的は、多様な帳票の
識別のために用いる辞書の構築を簡便に行うことが可能
な帳票様式識別技術を提供することにある。
【0008】
【課題を解決するための手段】本発明の帳票様式識別技
術では、たとえば、次のようにして帳票の様式識別を行
う。すなわち、文書の画像から縦罫線と横罫線をそれぞ
れ抽出する。縦と横の罫線から枠構造を作り、様式判定
に必要となる枠構造の特徴を抽出する。その罫線の位置
情報や長さの情報と、識別辞書にある様式毎の識別辞書
によりシート識別を行い、識別辞書にある各様式毎の相
対的読み取り項目領域の情報を基に特定の項目の位置を
推定する。また、文書画像から縦横の罫線を抽出し、そ
の罫線の位置関係で罫線に符号付けした情報と、識別辞
書にある様式毎の識別情報によりシートの識別を行い、
識別辞書にある各様式毎の罫線符号化された表示項目領
域の情報を基に表示項目の位置を推定する。
【0009】また、シートの枠構造によって様式を識別
しようとしても、ノイズや他の枠が含まれてたり、他の
枠と接触しているなどして、必ずしもブロック毎に別れ
ているわけではない。枠によっては人が自由に書き込む
ところが有り、記入されているものが枠を形成する罫線
として抽出される場合がある。また、枠の構造が複雑な
場合、枠の構造を正確に辞書に登録していたのでは、辞
書の数が膨大になり、辞書の登録で多くの時間がかか
り、実用的ではない。
【0010】縦に長い成分を縦罫線、横に長い罫線を横
罫線として、罫線を抽出する場合、文字、図形がシート
に含まれていると、これらの成分も枠構造の罫線として
抽出される可能性がある。また、シートには様式に関係
の無い枠も含まれている。これらの影響による枠構造の
変化に対応するため、シートから様式を判定するために
必要となる枠構造の大まかな位置、大きさ、外形を辞書
に登録し、この辞書にあうものをシートの枠構造から選
び出し、さらに、罫線の削除、追加、統合等の正規化処
理を施して枠の特徴を抽出する。
【0011】得られた枠構造の罫線にそれぞれその罫線
を表す印を付けて、その枠構造の接続関係を抽出する。
この接続関係と、あらかじめ接続関係を登録してある辞
書とを照合し、枠構造を識別する。得られた枠構造の組
み合わせからシートの様式を判定する。
【0012】
【作用】本発明によれば、帳票が含む枠構造を抽出して
動的に様式の判別を行うので、既に世の中で使われてい
る、機械での枠の識別を考慮していない準定型文書の様
式の識別を行うことができる。
【0013】文字や、図形が枠構造の罫線として抽出さ
れる枠構造に対しては、文字や図形が含まれる枠の部分
を取り除いて、枠構造を抽出することにより、手書き文
字、図形による枠構造の変化に対して対応が可能とな
る。
【0014】複雑な枠構造の場合は、罫線を変化させる
正規化処理を施して、枠構造を抽出するため、多様な枠
構造を統合して識別でき、少ない辞書データで識別が可
能となる。
【0015】
【実施例】以下、本発明の実施例を図面を参照しながら
詳細に説明する。
【0016】図1は本発明の一実施例である帳票様式識
別方法が実施される帳票様式識別装置の構成の一例を示
すブロック図である。本実施例の帳票様式識別装置は、
スキャナ101、後述のような帳票様式識別処理を実行
する制御論理を備えたプロセッサ102、データの格納
を行うディスク装置103、データの印刷出力を行うプ
リンタ104、データの表示を行うディスプレイ105
等を含んでいる。
【0017】プロセッサ102は、枠抽出辞書102
a、罫線接続関係辞書102b、様式辞書102c等に
アクセスして、後述のような一連の判定作業を遂行す
る。
【0018】枠抽出辞書102aは、シート10(図
3)内における枠構造の大まかな位置、大きさ、外形等
の情報とシート10の様式との対応関係が設定されてい
る。
【0019】罫線接続関係辞書102bは、たとえば、
図10に例示されるような規則で符号化された各罫線の
接続関係と枠構造とが対応付けられて格納されている。
すなわち、本実施例の場合、横方向の罫線をX、縦方向
の罫線をYとし、任意の枠構造を構成する罫線のうち最
も上にあるものから下側に順にXα±β(α,β=1,
2...)とし、最も左側あるものから右方向にYα±
β(α,β=1,2...)とする。
【0020】ただし、横方向の罫線Xの場合、同じ縦方
向の罫線を起点として長さが増加する場合には添字αが
逐次増加(α=1,2...)し、同じ長さの場合に
は、添字αは変化せず、添字βが変化する(この時、長
さが短縮する方向に変化していれば添字βには負号が付
与される)、という規則で、特定の枠構造における罫線
接続関係が符号化されて表現される。
【0021】同様に、縦方向の罫線Yの場合、同じ横方
向の罫線を起点として長さが増加する場合には添字αが
逐次増加(α=1,2...)し、同じ長さの場合に
は、添字αは変化せず、添字βが変化する(この時、長
さが短縮する方向に変化していれば添字βには負号が付
与される)、という規則で、特定の枠構造における罫線
接続関係が符号化されて表現される。
【0022】様式辞書102cは、枠構造の組み合わせ
と、当該組み合わせを含む特定の様式とを対応付けて格
納している。
【0023】本実施例の帳票様式識別装置の動作の概略
を例示すると、まず、文書をスキャナ101から入力
し、その画像から罫線を抽出する。得られた罫線から枠
抽出辞書102aによって枠構造を抽出し、罫線を符号
化する。この時の符号化の規則は上述の罫線接続関係辞
書102bを構築する際のものと同じ方法を用いる。
【0024】こうして、枠の接続関係を符号化して取り
出し、罫線接続関係辞書102bと照合して特定の枠構
造を確定する。
【0025】その後、確定した複数の枠構造の組み合わ
せによって様式辞書102cを検索することにより、特
定の文書の様式を識別する。
【0026】識別ができたならば、その様式の特定の項
目を取り出し、ディスク装置103に保存する。できな
かった場合には、ある範囲の文書のイメージをディスク
装置103に書き込む。また、必要に応じて、そのイメ
ージをプリンタ104から出力する。このイメージはデ
ィスプレイ105からも見ることができる。図11に
は、様式の判定に成功した場合のプリンタ104からの
出力例を示している。また、図12は、様式の判定がで
きなかった場合のプリンタ104からの出力例を示して
いる。
【0027】シート10(図3)に含まれる枠構造から
シート10の様式を識別する方法の一例について説明す
る。シート10から枠構造を抽出し、枠構造の文書中の
位置、大きさ、他の枠構造との相対的な位置から様式の
判定に使う枠構造を抽出する。
【0028】そして、その枠構造に応じた後述の枠構造
変化の処理(正規化処理)を行い、枠構造を抽出し、そ
の枠から罫線接続関係を取り出し、あらかじめ登録され
ている辞書と照合し、枠構造を識別し、識別した枠構造
の組み合わせからシート10の様式を判定する。
【0029】以下、本実施例の診療報酬明細書(レセプ
ト)での枠構造による様式の判定について図面を参照し
ながら説明する。
【0030】シート10から文書中の位置、大きさ、他
の枠構造との相対的な位置から様式の判定に使う枠構造
を抽出する(図4)。レセプトの様式識別の場合、ブロ
ック1、ブロック2、ブロック3、ブロック4の4つの
ブロックの組み合わせから様式を判定し、特定のある枠
の領域を抽出する。図4にも示されているが各ブロック
の特徴を示すと、以下のようになる。
【0031】○ブロック1はシート10の左上にある多
角形である。シートによっては無いものがある。
【0032】○ブロック2は最も長い罫線の左上の長方
形と、右下の文字を書きこめる一枠からなる。
【0033】○ブロック3はシート10の右上に位置
し、多角形である。
【0034】○ブロック4はシート10の下側の枠構造
である。ブロック4については最も高い位置にある表示
枠の位置を推定し、その枠を形成する上側の線を延長
し、枠を形成する。これによって得られた枠をブロック
4とする。図5の例に従って説明する。
【0035】シート10の左上に多角形がある場合に
は、まずその多角形をブロック1とする。ただし、この
多角形がブロック2の成分かもしれないので、罫線情報
を保存する。
【0036】ブロック2については、位置関係から長い
線Sを探し、その右側の文字が記入できる一枠を取る。
次に線Sの左上の長方形の枠を取る。このとき、この長
方形が無い場合で、ブロック1の情報がある場合にはブ
ロック1をブロック2の一部分であると見なす。これ以
外の枠である、P、Qを構成する線の成分をブロック3
の枠であるかもしれないので罫線情報を保管する。
【0037】次にブロック3の処理を行う。ブロック3
をRとみなす。この枠Rとブロック2との相対的な位置
関係から、枠Rと枠P、Qの線成分のデータをマージ
し、この中から、ブロック3を枠抽出辞書102aに従
い、探し出す。この場合、大きさから枠Rと枠Qを合成
し、一つの枠と見なす。枠Pは関係のない枠と見なし、
識別処理の対象外とする。この合成された枠に対して枠
抽出辞書102aに指定された処理を行う。ブロック3
の場合は罫線の距離が近いものは一つにし、吸収された
罫線に接続している罫線を、吸収した罫線に接続する処
理を行う。ブロック4の場合はシート10の中で一番大
きな枠構造の一部なので、表示枠の位置をあらかじめ枠
抽出辞書102aに登録しておき、その枠の上の線を見
つけ、その線を延長して、枠を作る。
【0038】枠の抽出における正規化処理の各種方法の
一例を図6、図7、図8、図9に示す。すなわち、図6
ではシート10の特定の領域から選択された枠構造から
関係のない枠を消去し、さらに、文字が記入される部分
等を取り除く、という操作を行うことにより、特定の枠
構造から部分的に枠構造を抽出する例を示している。ま
た、図7では、シート10の特定の領域にある罫線を統
合して目的の枠を識別する例を示している。さらに、図
8では、小さな枠は消去し、枠構造を変化させる例を示
している。図9では、罫線を創出して、認識し易い形態
の枠をつくり出す例を示している。
【0039】得られたブロック毎に罫線を符号化し、接
続関係を抽出する。例を図10に示す。それぞれの罫線
に符号付けを行ったら、罫線の始点終点情報を取り出
す。その関係式を罫線接続関係辞書102bと照合し、
枠構造を識別する。
【0040】得られた枠構造の組み合わせにより、様式
辞書102cを検索して当該シート10の様式を決定
し、その様式にあった枠の領域を抽出する。
【0041】以上のような本実施例の帳票様式識別方法
および装置における一連の動作を図2のフローチャート
に示す。
【0042】以上、説明したように、本実施例の帳票様
式識別方法および装置によれば、特定の様式の文書の枠
の相対的位置、大きさ、枠の特徴を枠抽出辞書102a
に持ち、この枠抽出辞書102aを用いてシートの様式
を識別する枠構造を特定し、その枠用の正規化処理や罫
線接続関係の抽出を行った後、罫線接続関係辞書102
bと照合して、様式判別用の複数の枠を特定し、さらに
これらの複数の枠の組み合わせを、様式辞書102cと
照合して最終的に様式を判別する、という動作を行うこ
とにより、枠の位置、接触、他の枠の混入があった場合
にもシートの様式を的確に識別する事ができる。
【0043】このため、たとえば、手書き文書、ノイズ
が多く他の記入物が含まれ機械での処理を考慮されない
で、世の中に出回っている準定型文書の枠構造識別が可
能となる。
【0044】これにより、本実施例の帳票様式識別方法
および装置をOCRに適用した場合、従来のOCRでは
フォーマットを登録できないため、対応できなかった準
定形文書の読み取りが可能となる。従来、OCRでの読
み取りを想定されていない文書の読み取りが可能とな
り、人手による入力が不要となる。
【0045】また、シート10に含まれる枠構造に対し
て正規化処理を施した後に判定するので、辞書に登録す
る必要のある基準となる枠構造の種類が必要以上に増加
せず、辞書の容量の削減、さらには辞書の構築作業の簡
略化を実現することができる。
【0046】以上、本発明者によってなされた発明を実
施例に基づき具体的に説明したが、本発明は前記実施例
に限定されるものではなく、その要旨を逸脱しない範囲
で種々変更可能であることはいうまでもない。
【0047】
【発明の効果】本発明の帳票様式識別方法によれば、多
様な帳票の様式を的確に識別することができる、という
効果が得られる。
【0048】本発明の帳票様式識別方法によれば、多様
な帳票の識別のための準備作業を簡略化することができ
る、という効果が得られる。
【0049】本発明の帳票様式識別方法によれば、多様
な帳票の識別のために用いる辞書の構築を簡便に行うこ
とができる、という効果が得られる。
【0050】本発明の帳票様式識別装置によれば、多様
な帳票の様式を的確に識別することができる、という効
果が得られる。
【0051】本発明の帳票様式識別装置によれば、多様
な帳票の識別のための準備作業を簡略化することができ
る、という効果が得られる。
【0052】本発明の帳票様式識別装置によれば、多様
な帳票の識別のために用いる辞書の構築を簡便に行うこ
とができる、という効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施例である帳票様式識別方法が実
施される帳票様式識別装置の構成の一例を示すブロック
図である。
【図2】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示すフローチャートである。
【図3】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図4】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図5】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図6】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図7】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図8】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図9】本発明の一実施例である帳票様式識別方法およ
び装置の作用の一例を示す概念図である。
【図10】本発明の一実施例である帳票様式識別方法お
よび装置の作用の一例を示す概念図である。
【図11】本発明の一実施例である帳票様式識別方法お
よび装置における出力結果の一例を示す概念図である。
【図12】本発明の一実施例である帳票様式識別方法お
よび装置における出力結果の一例を示す概念図である。
【符号の説明】
10…シート(帳票)、101…スキャナ、102…プ
ロセッサ、102a…枠抽出辞書、102b…罫線接続
関係辞書、102c…様式辞書、103…ディスク装
置、104…プリンタ、105…ディスプレイ。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 個々の帳票の様式と当該様式に含まれる
    枠構造とを対応付けた辞書を構築する第1のステップ
    と、任意の前記帳票から帳票画像を入力する第2のステ
    ップと、前記帳票画像から前記枠構造を抽出する第3の
    ステップと、前記第3のステップで得られた前記枠構造
    によって前記辞書を検索することにより、入力された前
    記帳票の様式を識別する第4のステップとからなること
    を特徴とする帳票様式識別方法。
  2. 【請求項2】 請求項1記載の帳票様式識別方法におい
    て、前記帳票画像から抽出された前記枠構造を構成する
    罫線情報を加工することにより前記枠構造を正規化し、
    正規化された前記枠構造を用いて前記辞書を検索するこ
    とを特徴とする帳票様式識別方法。
  3. 【請求項3】 任意の帳票から帳票画像を入力する手段
    と、入力された前記帳票画像から、一つ以上の枠構造を
    抽出する手段と、抽出した前記枠構造から前記帳票の様
    式を識別する手段とを含むことを特徴とする帳票様式識
    別装置。
JP6317281A 1994-12-20 1994-12-20 帳票様式識別方法および装置 Pending JPH08171608A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6317281A JPH08171608A (ja) 1994-12-20 1994-12-20 帳票様式識別方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6317281A JPH08171608A (ja) 1994-12-20 1994-12-20 帳票様式識別方法および装置

Publications (1)

Publication Number Publication Date
JPH08171608A true JPH08171608A (ja) 1996-07-02

Family

ID=18086487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6317281A Pending JPH08171608A (ja) 1994-12-20 1994-12-20 帳票様式識別方法および装置

Country Status (1)

Country Link
JP (1) JPH08171608A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181141A (ja) * 2015-03-24 2016-10-13 富士ゼロックス株式会社 処理装置、画像処理システム、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181141A (ja) * 2015-03-24 2016-10-13 富士ゼロックス株式会社 処理装置、画像処理システム、およびプログラム

Similar Documents

Publication Publication Date Title
KR100412317B1 (ko) 문자인식/수정방법및장치
JP3294995B2 (ja) 帳票読取装置
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP4280355B2 (ja) 文字認識装置
JP3001065B2 (ja) プログラムの作成方法
JP3215176B2 (ja) 文書画像処理装置及び文書画像処理方法
JPH08171608A (ja) 帳票様式識別方法および装置
JP5455364B2 (ja) 情報処理装置及び軌跡データ認識方法
JPH10207981A (ja) 帳票認識方法
JPH0728935A (ja) 文書画像処理装置
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
JP3620299B2 (ja) 文書ファイリング装置及び文書ファイリング方法
JP3157557B2 (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JP3151866B2 (ja) 英文字認識方法
JP3071048B2 (ja) 文字認識装置及び方法
JP2963474B2 (ja) 類似文字識別方法
JP2924356B2 (ja) 光学文字読取装置
JPS594358Y2 (ja) 文字修正における文字制御装置
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP3277977B2 (ja) 文字認識方法
JP2643092B2 (ja) 文書書式上の事前定義されたフィールドの外側に位置する標準外データを処理する方法およびシステム
JPH02219190A (ja) 文字認識方法