JPH09297814A

JPH09297814A - フィールド抽出方法

Info

Publication number: JPH09297814A
Application number: JP8109527A
Authority: JP
Inventors: Hiroshi Sekiya; 博関谷; Teruo Akiyama; 照雄秋山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-04-30
Filing date: 1996-04-30
Publication date: 1997-11-18

Abstract

(57)【要約】【課題】主に文字と直線から構成された予め書式を知
ることのできない文書に対し、囲み枠、周期的フィール
ド、アンダライン、文字のフィールドを効果的に抽出す
る。【解決手段】囲み枠抽出段階４では、端点同士が接続
ないし近接している水平直線対と垂直直線対を検出し、
囲み枠として抽出する。周期的フィールド抽出段階６で
は、まず、罫線抽出段階５で抽出された罫線に上下を挟
まれた領域を周期的フィールドとして抽出し、次に一番
上に位置する罫線の上にすでに抽出したフィールドと同
じ高さの領域を設定し、そこに文字図形が含まれる場合
には、その領域をすでに抽出してある周期的フィールド
に加えて抽出する。アンダライン抽出段階７では、罫線
抽出段階５と同じく、抽出した水平直線のうち、両端点
の形状が所定のものをアンダラインとして抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、スキャナやファク
シミリから入力された２値の文書画像、特にＦＡＸのカ
バーシートのように主に文字と、水平ないし垂直方向の
直線から構成され、しかも書式を予め知ることのできな
い文書の認識を行う際に必要となる文字フィールドの抽
出方法に関する。

【０００２】

【従来の技術】従来、オーダエントリシステム等に用い
られる帳票を認識するには、認識すべき文字が記入され
た帳票中の領域、すなわち文字フィールドの位置を予め
定義しておき、その書式の定義に基づいて記入された文
字を切り出して認識するという方法がとられている。ま
た、認識すべき文字を記入するフィールドも、切り出し
が容易にできるように文字、あるいは文字列単位に枠で
囲むなどの方法がとられているのが普通である。

【０００３】

【発明が解決しようとする課題】一方、ＦＡＸカバーシ
ートの認識に関しては、ＦＡＸのカバーシートが予め印
刷された固定部分に、宛名等の必要な部分を手書きで記
入して作成するという点ではオーダエントリ用の帳票と
同じであるが、書式が極めて多様性に富んでいて書式を
事前に知ることが実質的に不可能であること、枠で囲ま
れたものの他にアンダラインによる記入欄もあるという
点でオーダエントリシステム等で用いられる帳票と大き
く異なっている。また、文字認識処理を行うことを前提
に設計されているオーダエントリ用の帳票と異なり、Ｆ
ＡＸのカバーシートは囲み枠の角が面取りされて丸くな
っていたり、受信した時に罫線等の直線がかすれてしま
うことがある。したがって、従来の手法をそのまま適用
してカバーシートを認識することは困難である。

【０００４】本発明の目的は、スキャナやファクシミリ
から入力された品質の悪い２値の文書画像、例えばＦＡ
Ｘ受信文書のカバーシートのように主に文字と直線から
構成された予め書式を知ることのできない文書に対し、
傾き、かすれのある水平ないし垂直方向の直線から構成
された囲み枠、周期的フィールド、アンダラインを抽出
し、さらに文書の認識を行う際に必要となる文字のフィ
ールドを効果的に抽出するフィールド抽出方法を提供す
ることにある。

【０００５】

【課題を解決するための手段】本発明のフィールド抽出
方法は、文書を入力し、該入力文書を標本化と量子化に
よって２値の数値で表現される文書画像に変換する文書
入力段階と、文書入力段階によって得られた文書画像を
走査し、水平方向の直線を検出する水平直線抽出段階
と、同じく文書入力段階によって得られた文書画像を走
査し、垂直方向の直線を検出する垂直直線抽出段階と、
水平直線抽出段階で抽出された水平直線と、垂直直線抽
出段階で抽出された垂直直線の中で端点同士が接触ない
し近接している水平直線対と垂直直線対を組み合わせる
ことによって、または水平直線抽出段階で抽出された水
平直線のうち、特定の端点の形状を持つ水平直線と、そ
れに対応する水平直線を対にすることによって囲み枠を
検出する囲み枠検出段階と、水平直線抽出段階で検出さ
れた水平直線のうち、長さがほぼ同じで周期的に配置さ
れているもの、すなわち罫線を抽出する罫線抽出段階
と、周期的に配置された罫線に挟まれた領域、あるいは
最も上に位置する罫線の上側にあって、前記罫線に挟ま
れた領域とほぼ同一の大きさの領域を周期的フィールド
として抽出する周期的フィールド抽出段階と、水平直線
検出段階で抽出された水平直線うち、単独で存在するア
ンダラインを抽出するアンダライン抽出段階と、アンダ
ライン抽出段階で抽出されたアンダラインの直上に位置
する領域をアンダライン付きフィールドとして抽出する
アンダライン付きフィールド抽出段階と、文書入力段階
で得られた文書画像の中で、一定の大きさで連続的に配
置された図形列を文字列として抽出し、その領域をアン
ダライン無しフィールド候補として抽出するアンダライ
ン無しフィールド候補抽出段階と、アンダライン無しフ
ィールド候補抽出段階で抽出されたフィールドのうち、
垂直直線抽出段階によって抽出された垂直直線によって
分断されるものについては、領域を分割して複数のアン
ダライン無しフィールドとして抽出し、そうでないもの
についてはそのままアンダライン無しフィールドとして
抽出するアンダライン無しフィールド抽出段階とを有す
る。

【０００６】上記の方法によって、スキャナやファクシ
ミリから入力された品質の悪い２値の文書画像、例えば
ＦＡＸ受信文書のカバーシートのように主に文字と直線
から構成された予め書式を知ることのできない文書に対
し、傾き、かすれのある水平ないし垂直方向の直線から
構成された囲み枠、周期的フィールド、アンダラインを
抽出し、さらに文書の認識を行う際に必要となる文字の
フィールドを効果的に抽出する。また、囲み枠の抽出で
は、角が面取りされた囲み枠、垂直直線の短い囲み枠、
水平直線の一部が欠けた囲み枠を正確に抽出する。

【０００７】

【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。

【０００８】図１はＦＡＸのカバーシートの例を示して
いる。認識の対象となるフィールドはアンダライン無し
フィールド、アンダライン付きフィールド、周期的フィ
ールド、の３種類に分類することができる。カバーシー
トに予め印刷されている文字列を含む領域の大半はアン
ダライン無しフィールドとなる。アンダライン付きフィ
ールドは送信先に応じて送り手が記入する欄に多く用い
られる。周期フィールドは通信欄等、記入する内容が複
数行にまたがる部分に存在する。罫線、すなわち同じ長
さの水平直線に挟まれた領域と最上端の罫線の上の領域
が周期的フィールドとなることが多い。

【０００９】図２は本発明の一実施形態のフィールド抽
出方法を示すフローチャートである。

【００１０】文書入力段階１では、ファクシミリ、スキ
ャナ等を用いて文書を標本化し、さらに各画素の値を黒
は１、白は０の２値に量子化を行い、原画像を作成す
る。

【００１１】水平直線抽出段階２では、カバーシート上
の水平方向の直線を抽出する。ＦＡＸから入力された文
書は雑音が多く、傾いたり場合によっては蛇行すること
もあるが、例えば特願平７−１０４６９「アンダライン
抽出方法」に記載された方法によって、このような場合
でも高精度に水平直線を抽出することができる。

【００１２】垂直直線抽出段階３では、カバーシート上
の垂直方向の直線を抽出する。これは例えば入力文書画
像を９０度回転したものに水平直線抽出段階２に用いた
ものと同様の方法を適用することによって実現できる。

【００１３】囲み枠抽出段階４では、端点同士が接続な
いし近接している水平直線対と垂直直線対を検出し、囲
み枠として抽出する。囲み枠は場合によって角が面取り
がされて丸みをおびている場合があるが、このような場
合は、対応する水平直線の端点と垂直直線の端点を求め
る際の距離値にしきい値を設定しておけばよい。なお、
特開平７−１０４６９に示された方法はランレングス特
徴を用いて直線の抽出を行うため、垂直直線が短く一定
の長さに満たない場合には、垂直直線抽出段階３で抽出
できない場合がる。また、ＦＡＸのカバーシートでは水
平直線は比較的長いものが多いが、水平直線であって
も、かすれによって短い直線に分断されてしまうことが
ある。このような場合には端点形状を認識することによ
って囲み枠を抽出する。例えば、図３に示すように、Ｌ
字形の端点１１、１２（枠で表示）を持つ水平直線１３
が検出され、下方に、ほぼ同一のＸ座標を持つＬ字形の
端点１４、１５を持つ水平直線１６が検出されれば、こ
れらの直線１３、１６は囲み枠を形成する上側と下側の
水平直線であると考えることができる。また、図３に示
す端点形状を持つ水平直線１６を検出できなくても、図
４に示すように少なくとも片方（例では右端点１８）が
直線１３の端点１２と対をなす形状をしていれば、本
来、枠の構造をしているものが、かすれなどによって一
部が欠落した水平直線１９であることが容易にわかる。
したがって、抽出された３個の端点１１、１２、１８を
用いて、残りの端点１７の座標を推定し、全体を囲み枠
の領域として抽出すればよい。さらに、このように抽出
された端点間に実際に直線が存在するか否かを入力画像
上で確認すれば、直線検出の信頼性をさらに上げること
ができる。なお、図１の発信元欄に示すように囲み枠の
中にさらに垂直直線、水平直線が抽出される場合には、
それぞれ別の囲み枠として抽出する。

【００１４】図５は端点の形状を認識する方法を示して
いる。この例では端点の形状を認識するために抽出され
た水平直線２２の右端点２１を中心とするウィンドウを
設定し、それを例えば３×３の小領域に分割している。
中央下の部分に黒画素が多く存在しているので、水平直
線の右端点２１に垂直直線の上端点が接していることが
わかる。

【００１５】罫線抽出段階５では、抽出された水平直線
のうち、両端点３１、３２の端点形状が図６に示すもの
で、長さが等しく、しかも等間隔のもの３３を罫線とし
て抽出する。

【００１６】周期的フィールド抽出段階６では、まず、
罫線抽出段階５で抽出された罫線に上下を挟まれた領域
を周期的フィールドとして抽出し、次に一番上に位置す
る罫線の上にすでに抽出されたフィールドと同じ高さの
領域を設定し、そこに文字図形が含まれる場合には、そ
の領域を既に抽出してある周期的フィールドに加えて抽
出する。

【００１７】アンダライン抽出段階７では、罫線抽出段
階５と同じく、抽出された水平直線のうち、両端点の形
状が図４に示したもので単独のものをアンダラインとし
て抽出する。

【００１８】アンダライン付きフィールド抽出段階８で
は、アンダライン抽出段階７で抽出したアンダラインの
上の領域と、その左右に存在するフィールドの属性を示
すキーワードの領域をまとめてアンダライン付きフィー
ルドとして抽出する。図１に示すようにアンダラインの
左右には、そのフィールドの属性を示すキーワードが印
刷されているのが普通である。

【００１９】アンダライン無しフィールド候補抽出段階
９は、入力した文書画像に含まれる文字図形を抽出し、
そのうち連続している１つのまとまった領域をアンダラ
イン無しフィールド候補として抽出する。なお、図１に
おける囲み枠の中に記入された「発信元」と「〇〇〇・
・・」のように文字列が隣接している場合には互いに異
なる囲み枠に属する文字列がまとまって１つの文字列と
して抽出されることがある。抽出されたアンダライン無
しフィールド候補が複数の囲み枠にまたがるか否かは囲
み枠抽出段階４で得られた結果に基づいて判定すればよ
い。このような場合には、アンダライン無しフィールド
抽出段階１０で、このような文字列のフィールドを分離
して各々別のフィールドとして抽出する。それ以外の場
合にはアンダライン無しのフィールド候補をそのままア
ンダライン無しフィールドとして抽出する。

【００２０】

【発明の効果】以上説明したように、本発明によれば、
スキャナやファクシミリから入力された品質の悪い２値
の文書画像、例えばＦＡＸ受信文書のカバーシートのよ
うに主に文字と直線から構成された予め書式を知ること
のできない文書に対し、傾き、かすれのある水平ないし
垂直方向の直線から構成された囲み枠、周期的フィール
ド、アンダラインを抽出し、さらに文書の認識を行う際
に必要となる文字のフィールドを効果的に抽出すること
ができ、また、囲み枠の抽出では、角が面取りされた囲
み枠、垂直直線の短い囲み枠、水平直線の一部が欠けた
囲み枠を正確に抽出することができる。

【図面の簡単な説明】

【図１】ＦＡＸのカバーシートの例を示す図である。

【図２】本発明の一実施形態のフィールド抽出方法を示
すフローチャートである。

【図３】垂直直線が欠けた囲み枠を端点の形状に基づい
て検出する原理を示す図である。

【図４】水平直線の一部が欠けた囲み枠を端点の形状に
基づいて検出する原理を示す図である。

【図５】端点の形状を認識する原理を示す図である。

【図６】アンダライン、罫線に用いられる水平直線の両
端点の形状を示す図である。

【符号の説明】

１文書入力段階２水平直線入力段階３垂直直線抽出段階４囲み枠抽出段階５罫線抽出段階６周期的フィールド抽出段階７アンダライン抽出段階８アンダライン付きフィールド段階９アンダライン無しフィールド候補抽出段階１０アンダライン無しフィールド抽出段階１１、１２、１４、１５、１７、１８、２１、３１、３
２端点１３、１６、１９、２２、３３水平直線

Claims

【特許請求の範囲】

【請求項１】スキャナやファクシミリから入力された
文書中の印刷されたないし手書きで記入された文字列の
領域、あるいは文字を記入するために用意された領域を
抽出するフィールド抽出方法であって、文書を入力し、該入力文書を標本化と量子化によって２
値の数値で表現される文書画像に変換する文書入力段階
と、前記文書入力段階によって得られた文書画像を走査し、
水平方向の直線を検出する水平直線抽出段階と、同じく前記文書入力段階によって得られた文書画像を走
査し、垂直方向の直線を検出する垂直直線抽出段階と、前記水平直線抽出段階で抽出された水平直線と、前記垂
直直線抽出段階で抽出された垂直直線の中で端点同士が
接触ないし近接している水平直線対と垂直直線対を組み
合わせることによって、または前記水平直線抽出段階で
抽出された水平直線のうち、特定の端点の形状を持つ水
平直線と、それに対応する水平直線を対にすることによ
って囲み枠を検出する囲み枠検出段階と、前記水平直線抽出段階で検出された水平直線のうち、長
さがほぼ同じで周期的に配置されているもの、すなわち
罫線を抽出する罫線抽出段階と、周期的に配置された罫線に挟まれた領域、あるいは最も
上に位置する罫線の上側にあって、前記罫線に挟まれた
領域とほぼ同一の大きさの領域を周期的フィールドとし
て抽出する周期的フィールド抽出段階と、前記水平直線検出段階で抽出された水平直線うち、単独
で存在するアンダラインを抽出するアンダライン抽出段
階と、前記アンダライン抽出段階で抽出されたアンダラインの
直上に位置する領域をアンダライン付きフィールドとし
て抽出するアンダライン付きフィールド抽出段階と、前記文書入力段階で得られた文書画像の中で、一定の大
きさで連続的に配置された図形列を文字列として抽出
し、その領域をアンダライン無しフィールド候補として
抽出するアンダライン無しフィールド候補抽出段階と、前記アンダライン無しフィールド候補抽出段階で抽出さ
れたフィールドのうち、前記垂直直線抽出段階によって
抽出された垂直直線によって分断されるものについて
は、領域を分割して複数のアンダライン無しフィールド
として抽出し、そうでないものについてはそのままアン
ダライン無しフィールドとして抽出するアンダライン無
しフィールド抽出段階とを有するフィールド抽出方法。
【請求項２】前記罫線抽出段階における罫線抽出、前
記アンダライン抽出段階におけるアンダライン抽出を、
前記水平直線抽出段階で抽出された水平直線の両端点の
形状に基づいて行う請求項１記載のフィールド抽出方
法。
【請求項３】前記端点の形状認識を、抽出された直線
の端点を中心に一定の大きさのウィンドウを設定し、該
ウィンドウを端点を中心とする複数の小領域に分割した
ときの該小領域に含まれる黒画素の数によって該小領域
に他の直線が含まれるか否かの判定をし、その判定結果
に基づいて行う請求項１または２記載のフィールド抽出
方法。