JP2544589B2

JP2544589B2 - 文書処理方法及び装置

Info

Publication number: JP2544589B2
Application number: JP6229222A
Authority: JP
Inventors: 康明中野; 浩道藤沢; 邦弘岡田; 修国崎; 俊従尾崎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-09-26
Filing date: 1994-09-26
Publication date: 1996-10-16
Anticipated expiration: 2011-10-16
Also published as: JPH07152859A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は文書処理方法及び装置に
係り、特に表形式の文書上の文字を読み取る目的に好適
な文書処理方法及び装置に関する。

【０００２】

【従来の技術】従来の文字読み取り装置（以下、ＯＣＲ
と略する）では、読み取り領域をＯＣＲが感じない色
（ドロップアウトカラー）を用いて印刷する必要があ
り、印刷費用が高価になる問題があった。さらに文字読
み取り領域の位置を文書のエッジからの距離として記述
し、その領域の文字数や文字種・チェック方法などを指
定する必要があり、煩雑であった。以下、文字読み取り
領域の位置情報や領域内の文字数や文字種・チェック方
法などの情報を書式情報と呼ぶ。文字認識機能は従来の
ように専用ＯＣＲだけでなく、文書ファイルやＯＡ用ワ
ークステーションなどにも要求されているが、上記の問
題点が広い普及を阻んでいた。

【０００３】従来技術では、たとえば公開特許公報昭和
５８−２０７１８４号（昭和５８年１２月２日公開）に
おいて、入力画像からあらかじめメモリ内に格納してお
いた定形的な画像を除去する方法、ならびに定形的な画
像を用いて文書の種類を識別する方法が開示されてい
る。しかし、この方法ではメモリに画像を記憶するので
メモリ量が増大し、また文書の変形（伸縮・回転・位置
ずれなど）が生じたとき正しく除去できないおそれがあ
った。

【０００４】

【発明が解決しようとする課題】本発明の目的は、入力
文書の構造を自動的に理解して文書の書式を自動的に生
成することにより、対象文書の範囲を大幅に拡大すると
ともに、書式情報作成の手間を簡略化する手段を提供す
ることにある。

【０００５】本発明の他の目的は、定形的な入力文書の
種類を自動的に識別してあらかじめ記憶した書式情報を
用いることにより、種類の異なる定形的な文書の連続読
み取りを可能とする手段を提供することにある。

【０００６】

【課題を解決するための手段】かかる目的を達成するた
めに、本発明においては項目の名称を示す文字が印刷さ
れた項目枠と項目の内容を表す文字が記入されたデータ
枠との二種類の枠を含む複数の枠を有する文書の画像を
光電変換し、光電変換した画像をディジタル化してディ
ジタル画像を入力し、ディジタル画像から線パターンを
抽出して複数の枠を抽出し、抽出した複数の枠と、あら
かじめ複数の文書のそれぞれについて記憶された枠の位
置、枠の種類、枠の属性、および複数の枠間の従属関係
を含む文書の構造とを比較して、入力した文書に一致す
る文書の構造を同定し、同定された文書の構造を参照し
て、抽出した複数の枠のうちデータ枠を抽出し、抽出し
たデータ枠に対応する領域をディジタル画像より取り出
して、記憶された文書の構造を参照してデータ枠内に記
入された文字を認識することを特徴とする。

【０００７】

【作用】入力文書の構造を自動的に理解して文書の書式
を自動的に生成することが可能で、従来のように人間に
よる書式情報の作成作業が不要であり、黒色で印刷され
た表形式の文書が読み取れるのでドロップアウトカラー
で印刷し直す必要がなく、準備作業の手間を簡略化でき
るとともに、対象文書の範囲を大幅に拡大することがで
きる。

【０００８】また、定形的な入力文書の種類を自動的に
識別してあらかじめ記憶した書式情報を用いることがで
き、異なる種類の定形的な文書の連続読み取りが可能と
なる。

【０００９】

【実施例】以下、本発明を図面を用いて詳細に説明す
る。

【００１０】図１は本発明を実施する装置の構成を示す
ブロック図である。装置の各部はバス１に接続され、全
体の動作は制御部２により制御される。文書３上の情報
（文書画像）は光電変換装置４により走査され、さらに
ディジタル化され、バス１を介してメモリ５１に格納さ
れる。メモリ５１は後述する５２，５３，５４とともに
メモリ５の一部をなす。ディジタル化の際、公知の高効
率符号化処理を行ってもよく、これにより文書画像を記
憶するメモリの記憶容量を節約できる。また、以下の説
明では１画素１ビットに二値化するものとするが、１画
素を多値で表現してもよく、カラースキャナにより光電
変換して色情報を付与してもよい。

【００１１】文書の処理には登録モードと識別モードと
がある。モードの選択はキーボード６、ディスプレイ７
を用いて制御部２とマンマシン対話により行う。まず、
登録モードの場合を説明する。登録モードの処理の流れ
図を図２に示す。この処理は制御部２のソフトウェアに
より実行される。図２で、２０１は見本文書画像の入力
であり、各文書類型ごとに見本文書を用い、この見本文
書上の画像をメモリ５１の中に格納する。２０２では見
本文書画像に対し位置補正処理、傾き補正処理などの正
規化を行い、その結果得られる画像がメモリ５２に格納
される。この正規化画像に対し、２０３で線抽出処理が
行われ、抽出された線パターンはメモリ５３に格納され
る。図３は線パターン抽出の処理内容を説明する図であ
り、（Ａ）のような入力画像から水平方向の線抽出によ
り（Ｂ）のような水平線パターンを得、同様に（Ａ）か
ら垂直方向の線抽出により（Ｃ）のような垂直線パター
ンを得、（Ｂ）と（Ｃ）との論理和により（Ｄ）のよう
な画像を得る。以後（Ｄ）を線パターンと呼ぶ。線パタ
ーン抽出処理の詳細については後述する。２０４では線
パターンから輪郭抽出により輪郭上の座標点列を抽出す
る。この座標点列は輪郭の個数だけ得られる。以下では
輪郭の中で内輪郭だけを処理する。ここで内輪郭とは白
地を取り囲む黒地の境界であり、白地を右側に黒地を左
側に見るようにして輪郭を一周したとき時計回りに一周
するような輪郭を言う。２０５ではこの内輪郭の中から
長方形をなすものを抽出する。長方形判定の詳細につい
ては後述する。以後長方形をなす内輪郭を枠と呼ぶ。２
０６では枠の４隅の座標を用いて枠の順序を左上から右
下へと並べ換える。２０７では抽出した枠が複数個あっ
たとき、枠の間の相互関係すなわち枠ｍと枠ｎの間の関
係コードＣｍｎを抽出する。関係コードＣｍｎの定義の
例を次に示す。

【００１２】Ｃｍｎ＝０：以下の条件が全て不成立＝１：ｍがｎを包含＝−１：ｎがｍを包含＝２：ｍがｎの直上＝−２：ｍがｎの直下＝３：ｍがｎの直左＝−３：ｍがｎの直右＝４：ｍがｎの上方＝−４：ｍがｎを下方＝５：ｍがｎの左方＝−５：ｍがｎの右方２０８では抽出した枠に対応する領域の画像を原画像か
ら取り出し、順次この画像を文字認識部８に送って枠内
の文字を認識する。枠内部の画像のみを文字認識部に送
るので非ドロップアウトカラーの表部分や枠外の不用部
分に妨害されることがなく、また帯状領域を対象とする
ので文字の切り出し・認識が容易である。全ての枠の中
の文字を認識した後２０９では枠ｍの中の認識文字数Ｎ
ｍ、文字列Ｋｍ、関係コードＣｍｎとを文書の構造に関
する知識と照合して、入力文書の構造を理解する。知識
は「ｉｆ〜ｔｈｅｎ〜」形式、すなわち条件と結論とに
より表現される。知識の例を次に示す。ａ，ｂ，ｃは枠
番号を示す。

【００１３】１．（条件）Ｋａ＝’申請者’ （結論）枠ａは項目枠枠ａの項目名称＝’申請者’ ２．（条件）Ｎａ＝０＆Ｋｂ＝’申請者’＆Ｃａｂ＝−３（結論）枠ａは枠ｂに従属するデータ枠枠ａの属性＝’氏名’ （Ｎａ＝０は空白を示す）３．（条件）Ｎａ＝０＆Ｋｂ＝’都道府県’＆Ｃａｂ＝−４Ｋｃ＝’本籍’＆Ｃａｃ＝−３（結論）枠ａは枠ｂ，ｃに属するデータ枠枠ａの属性＝’住所：都道府県’ ４．（条件）Ｋａ＝’昭和年月日’ （結論）枠ａは独立なデータ枠枠ａの単位名称＝’日時’ 枠ａの属性＝’時間：年月日’ ５．（条件）Ｎａ＝０（結論）枠ａは独立な項目・データ枠枠ａの項目名称＝’雑’ 枠ａの属性＝’雑’ ここで項目枠とは見出しとして使われる枠で、普通はデ
ータが記入されない。データ枠とは項目の内容を表す文
字（文字列）が記入される予定の枠をいい、属性とはそ
の枠に記入される文字の種類や限定範囲などをいう。上
記の知識の具体的な実現法はプログラムの「ｉｆ〜then
〜」文としてかかれたサブルーチンであり、知識との照
合はａ，ｂのところにｍ，ｎを代入し、条件で成立する
か否かを調べた結果を外部に引数として与えればよい。
条件が成立したときは結論も引数として外部に与える。
知識たとえば１．の条件のａ，ｂにあてはまる枠番号
ｍ，ｎが見出されたとすれば、結論の枠番号ａのところ
に枠番号ｍを代入したものを入力文書の構造データとし
て登録する。構造データは上記の枠の関係コード、枠の
種類（項目枠、データ枠あるいは両者）、従属関係、項
目名称、属性コードとからなる。複数の知識に該当する
場合には、一例として出現順序の早い知識を優先させる
と決めればよい。最も優先度の低い知識として他の知識
にあてはまらないときの救済措置（上記の場合は５．）
を決めておけば、すべての枠についての構造が決定され
る。すべての枠について知識との照合が行われ構造が決
定されると、構造データの登録が終了し、２１０で構造
データ及び枠の物理データ（枠の４隅の座標など）、マ
スクデータを出力装置９に書き出す。マスクデータと
は、データ枠の中にあらかじめ印刷された文字（上記の
４．における昭和年月日などの単位名称に相当）の位置
を示すものである。構造データ、枠の物理データ、マス
クデータは従来のＯＣＲの書式データに相当する。書き
出しに際してキーボード６、ディスプレイ７を用いて、
入力文書に対する識別番号やファイル名称を入力する。

【００１４】次に線パターン抽出処理の詳細を説明す
る。図４は、線パターンを抽出する処理をＰＡＤ形式で
示す流れ図である。線パターン抽出には水平線抽出と垂
直線抽出とがあるが、ここでは水平線抽出について述
べ、垂直線抽出については同様であるので省略する。図
４で４０１は線抽出への入り口であり、メモリ５２に格
納されている正規化画像Ｑが与えられる。Ｑは図３
（Ａ）のような二次元データＱ(ｉ，ｊ）,（ｉ＝０〜Ｉ−１，ｊ＝０〜Ｊ−１）として表現される。４０２では４０３〜４０９の処理を
走査線番号ｊについて繰り返すことにより、図３（Ｂ）
のような二次元パターンＡ（ｉ，ｊ）を得る。４０３は
初期化でありＡ（ｉ，ｊ）を０にクリアし後述するＢを
０とする。４０４は走査線の中で画素数Ｉだけ繰り返す
ループである。４０５はＱ（ｉ，ｊ）が１か０かを判定
し、１の場合には４０６で黒の連長Ｂをカウントする。
Ｑ（ｉ，ｊ）が０の場合には、４０７の判定によりその
前の画素までの連長Ｂが閾値εより大きいとき、４０８
でＡ（ｉ−Ｂ，ｊ）〜Ａ（ｉ−１，ｊ）のＢ個の画素を１（黒）にする処理を行い、４０９で連
長Ｂをリセットする。４１０〜４１１の処理は走査線の
最終点（ｉ−Ｉ−１）において４０７以降と同様の処理
を行うものである。４０７の判定を加えたことにより十
分長い黒の水平線分があるときのみ線抽出が行われる
が、文書上に記入されている文字・記号は短い線分から
なっているのでほとんど抽出されない。４１２はこの処
理の出口であり、パターンＡ（ｉ，ｊ）を出力に与え、
メモリ５３に格納する。以上の説明から分かるように、
パターンＡ（ｉ，ｊ）は線分の存在を反映したパターン
である。

【００１５】次に長方形抽出処理の詳細を説明する。図
５は、長方形を抽出する処理の内容を示す図である。内
輪郭の座標は一次元データＸ（ｉ），Ｙ（ｉ）として表
現される。輪郭点の中で（Ｘ（ｉ）＋Ｙ（ｉ））の最大
値と最小値、（Ｘ（ｉ）−Ｙ（ｉ））の最大値と最小
値、を与える点を求めればこちらは図５のＰ４，Ｐ２，
Ｐ３，Ｐ１に相当する。Ｐ１〜Ｐ４は枠が長方形の場合
には４隅の点になる。Ｐ１〜Ｐ２の間でＸの最大値と最
小値を与える点を求めこれをＱ１２，Ｑ１１とする。Ｐ
２〜Ｐ３の間でＹの最大値と最小値を与える点を求めこ
れをＱ２２，Ｑ２１とする。他の辺についても同様にす
る。Ｐ１，Ｐ１１，Ｑ１２，Ｐ２の４点のＸ座標値の差
が小さいとき、Ｐ１〜Ｐ２は直線であると判定し、他の
３辺についても同様に直線判定を行い、４辺が直線であ
るときこの枠は長方形であると判定をする。

【００１６】次に関係コード抽出処理の詳細を説明す
る。図６は、関係コードを抽出する処理をＰＡＤ形式で
示す流れ図である。図６で６０１は入り口であり、メモ
リ５２に格納されている枠の４隅の座標及び輪郭長Ｒが
与えられる。枠ｍの４隅を（Ｘ１(ｍ），Ｙ１(ｍ））〜（Ｘ４(ｍ），Ｙ４(ｍ））とする。６０２，６０３は枠番号ｍ，ｎに関する二重ル
ープである。６０４でＣｍｎに初期値０を入れる。６０
５の条件は枠ｍがｎを包含することを検出し、条件が成
立するときはＣｍｎに１を、Ｃｎｍに−１を代入する。
以下同様に関係コードを判定する。６０６は出口で関係
コードからなる行列Ｃを出力に与える。

【００１７】以上で登録モードの説明を終了する。この
登録モード処理はあらかじめ行って構造データ等の書式
情報を格納しておくものとするが、次に述べる識別モー
ド処理と統合して行うことも可能である。

【００１８】次に識別モードにおける入力対象文書の処
理について説明する。図７に識別モードの処理の流れ図
を示す。７０１は入力文書の画像の取り込み、７０２は
正規化、７０３は線パターンの抽出、７０４は輪郭抽
出、７０５は長方形抽出、７０６は枠順序付け、７０７
は関係コード抽出であり、図２の２０２〜２０７と同様
である。７０８では見本文書の構造データ及び物理デー
タを順次メモリ５３に読みだし、メモリ５４の入力文書
の構造データ及び物理データと比較し、入力文書がどの
見本文書と一致するかを決定する。この見本文書の構造
データ及び物理データを用いて入力文書の読み取りを以
下のようにして行う。７０９は枠について以下の７１０
〜７１７を繰り返し実行するループである。７１０はデ
ータ枠についてのみ読み取りを行う判定である。７１１
ではこのデータ枠の内部の領域だけを抽出する。７１２
ではマスクデータによりあらかじめ印刷された文字を消
去する（マスクデータが存在するときのみ行う）。７１
３では属性コードにより定まる字種を選択し、認識辞書
（文字認識のための標準パターン）を設定する。７１４
では枠内部の文字を認識する。７１５では属性コードに
より定まる単語辞書を選択し、７１６で単語照合を行っ
て文字認識結果の誤読あるいは不読を修正する。７１７
では文字認識結果と構造データ中の必要な部分を編集
し、出力装置９に書き出す。編集の例として、たとえ
ば、データ枠の属する項目枠の項目名称が「申請者」で
あり（前記知識の２．に相当）、この枠の認識結果が、
‘山田太郎’であったとすれば、 ‘申請者’＝‘山田太郎’ のようにし、これを１レコードとして書き出す。また、
独立な項目枠・データ枠で項目名称＝‘日時’、単位名
称＝‘昭和年月日’であり（知識４．に相当）単位名称
の部分がマスクデータにより消去されたため、認識結果
が５８５２９だったとすれば、編集出力は ‘日時’＝‘昭和５８年５月２９日’ とする。後者の例では認識部８から文字の位置座標を取
り出し、マスクデータと座標の比較により位置を決定し
て編集する。

【００１９】以上本発明の一実施例について説明した。
本実施例に対して通常の文字認識装置や図形処理装置で
行われる処理、たとえば枠の抽出結果の表示・修正、文
字認識結果の表示・修正などを付加することは容易に想
像されよう。また、枠認識に際して線抽出や長方形決定
の閾値を複数個設け、自動判定の結果が困難なときはマ
ンマシン的に最適値を選択したり、二値化レベルを変え
て再試行うなどの変更を加えてもよい。さらに、識別モ
ードにおいて文書の種類があらかじめ決まっている場合
はキーボードから見本文書の番号を与えるようにして、
構造データなどの照合を省略してもよい。

【００２０】なお、本実施例では文書から線パターンを
抽出し、それから枠を抽出するとしたが原文書パターン
から直接輪郭を抽出し、それから枠を抽出するようにす
ることも可能であり、この場合には枠以外の輪郭を後で
他の処理たとえば文字切り出しや文字認識に利用でき
る。

【００２１】また、本実施例では文書構造の記述して枠
形式のものに限定したが、実線あるいは破線などの罫線
や、円などを用いるように拡張することも可能である。
たとえば実線からなる罫線は、細長い外輪郭を抽出する
ことで検出でき、罫線の上方の領域を切り出すことによ
って下線を引いた表題文字の認識が可能である。円の検
出は輪郭座標系列を極座標表示し、この空間で直接検出
すればよい。

【００２２】また、枠の外部の文字も読み取って、構造
記述に利用することもできる。色情報を利用し構造記述
に色属性を付加することも有効である。

【００２３】さらに、文書から直接光電変換する場合に
限定せず、画像ファイルから読み出した文書画像に対し
ても適用できる。

【００２４】

【発明の効果】以上説明したごとく、本発明によれば入
力文書の構造を自動的に理解して文書の書式を自動的に
生成することが可能で、従来のように人間による書式情
報の作成作業が不要であり、黒色で印刷された表形式の
文書が読み取れるのでドロップアウトカラーで印刷し直
す必要がなく、準備作業の手間を簡略化できるととも
に、対象文書の範囲を大幅に拡大することができる。

【００２５】また本発明によれば、定形的な入力文書の
種類を自動的に識別してあらかじめ記憶した書式情報を
用いることができ、異なる種類の定形的な文書の連続読
み取りが可能となる。

【図面の簡単な説明】

【図１】本発明の実施例を示す図である。

【図２】図１の制御部における処理を説明するための流
れ図である。

【図３】図２における処理内容を説明する図である。

【図４】図１の制御部における処理を説明するための流
れ図である。

【図５】図２における処理内容を説明する図である。

【図６】図１の制御部における処理を説明するための流
れ図である。

【図７】図１の制御部における処理を説明するための流
れ図である。

【符号の説明】１…バス、２…制御部、３…文書、５…メモリ、６…キ
ーボード、７…ディスプレイ、８…文字認識部、９…出
力装置。

フロントページの続き (72)発明者国崎修神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所マイクロエレクトロニクス機器研究所内 (72)発明者尾崎俊従神奈川県小田原市国府津2880番地株式会社日立製作所小田原工場内

Claims

(57)【特許請求の範囲】

【請求項１】項目の名称を示す文字が印刷された項目枠
と上記項目の内容を表す文字が記入されたデータ枠との
二種類の枠を含む複数の枠を有する文書を認識する文書
処理方法において、上記文書の画像を光電変換し、光電変換した画像をディ
ジタル化してディジタル画像を入力し、上記ディジタル画像から線パターンを抽出して上記複数
の枠を抽出し、抽出した上記複数の枠と、あらかじめ複数の文書のそれ
ぞれについて記憶された枠の位置、枠の種類、枠の属
性、および複数の枠間の従属関係を含む文書の構造とを
比較して、入力した文書に一致する文書の構造を同定
し、同定された上記文書の構造を参照して、抽出した上記複
数の枠のうちデータ枠を抽出し、抽出した上記データ枠に対応する領域を上記ディジタル
画像より取り出して、記憶された上記文書の構造を参照
して上記データ枠内に記入された文字を認識することを
特徴とする文書処理方法。
【請求項２】請求項１記載の文書処理方法において、抽出した上記データ枠に対応する領域について、上記デ
ータ枠の属性に応じた認識辞書を用いて上記データ枠内
に記入された文字を認識することを特徴とする文書処理
方法。
【請求項３】請求項１記載の文書処理方法において、上記文書の構造として、データ枠の内部の領域にあらか
じめ印刷された文字の存在位置についてのマスクデータ
を記憶し、上記データ枠についてマスクデータが存在する場合に
は、上記データ枠よりマスクデータにより上記あらかじ
め印刷された文字を消去して、上記項目の内容を表す文
字を認識し、認識した上記項目の内容を表す文字の位置と上記あらか
じめ印刷された文字の位置を比較して、文字認識結果を
編集して出力することを特徴とする文書処理方法。
【請求項４】項目の名称を示す文字が印刷された項目罫
線と上記項目の内容を表す文字が記入されたデータ罫線
との二種類の罫線を含む複数の罫線を有する文書を認識
する文書処理方法において、上記文書の画像を光電変換し、光電変換した画像をディ
ジタル化してディジタル画像を入力し、上記ディジタル画像から線パターンを抽出して上記複数
の罫線を抽出し、抽出した上記複数の罫線と、あらかじめ複数の文書のそ
れぞれについて記憶された罫線の位置、罫線の種類、罫
線の属性、および複数の罫線間の従属関係を含む文書の
構造とを比較して、入力した文書に一致する文書の構造
を同定し、同定された上記文書の構造を参照して、抽出した上記複
数の罫線のうちデータ罫線を抽出し、抽出した上記データ罫線に対応する領域を上記ディジタ
ル画像より取り出して、記憶された上記文書の構造を参
照して上記データ罫線上に記入された文字を認識するこ
とを特徴とする文書処理方法。
【請求項５】項目の名称を示す文字が印刷された項目枠
と上記項目の内容を表す文字が記入されたデータ枠との
二種類の枠を含む複数の枠を有する文書を認識する文書
処理装置において、上記文書の画像を光電変換し、光電変換した画像をディ
ジタル化してディジタル画像を入力する手段と、上記ディジタル画像から線パターンを抽出して上記複数
の枠を抽出する手段と、抽出した上記複数の枠と、あらかじめ複数の文書のそれ
ぞれについて記憶された枠の位置、枠の種類、枠の属
性、および複数の枠間の従属関係を含む文書の構造とを
比較して、入力した文書に一致する文書の構造を同定す
る手段と、同定された上記文書の構造を参照して、抽出した上記複
数の枠のうちデータ枠を抽出する手段と、抽出した上記データ枠に対応する領域を上記ディジタル
画像より取り出して、記憶された上記文書の構造を参照
して上記データ枠内に記入された文字を認識する手段と
を有することを特徴とする文書処理装置。
【請求項６】項目の名称を示す文字が印刷された項目枠
と上記項目の内容を表す文字が記入されたデータ枠との
二種類の枠を含む複数の枠を有する文書のディジタル画
像を記憶するメモリと、上記ディジタル画像から線パターンを抽出して上記複数
の枠を抽出する手段と、抽出した上記複数の枠と、あらかじめ複数の文書のそれ
ぞれについて記憶された枠の位置、枠の種類、枠の属
性、および複数の枠間の従属関係を含む文書の構造とを
比較して、入力した文書に一致する文書の構造を同定す
る手段と、同定された上記文書の構造を参照して、抽出した上記複
数の枠のうちデータ枠を抽出する手段と、抽出した上記データ枠に対応する領域を上記ディジタル
画像より取り出して、記憶された上記文書の構造を参照
して上記データ枠内に記入された文字を認識する手段と
を有することを特徴とする文書処理装置。