JPH09297814A - フィールド抽出方法 - Google Patents

フィールド抽出方法

Info

Publication number
JPH09297814A
JPH09297814A JP8109527A JP10952796A JPH09297814A JP H09297814 A JPH09297814 A JP H09297814A JP 8109527 A JP8109527 A JP 8109527A JP 10952796 A JP10952796 A JP 10952796A JP H09297814 A JPH09297814 A JP H09297814A
Authority
JP
Japan
Prior art keywords
straight line
extracted
field
horizontal straight
underline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8109527A
Other languages
English (en)
Inventor
Hiroshi Sekiya
博 関谷
Teruo Akiyama
照雄 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8109527A priority Critical patent/JPH09297814A/ja
Publication of JPH09297814A publication Critical patent/JPH09297814A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

(57)【要約】 【課題】 主に文字と直線から構成された予め書式を知
ることのできない文書に対し、囲み枠、周期的フィール
ド、アンダライン、文字のフィールドを効果的に抽出す
る。 【解決手段】 囲み枠抽出段階4では、端点同士が接続
ないし近接している水平直線対と垂直直線対を検出し、
囲み枠として抽出する。周期的フィールド抽出段階6で
は、まず、罫線抽出段階5で抽出された罫線に上下を挟
まれた領域を周期的フィールドとして抽出し、次に一番
上に位置する罫線の上にすでに抽出したフィールドと同
じ高さの領域を設定し、そこに文字図形が含まれる場合
には、その領域をすでに抽出してある周期的フィールド
に加えて抽出する。アンダライン抽出段階7では、罫線
抽出段階5と同じく、抽出した水平直線のうち、両端点
の形状が所定のものをアンダラインとして抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、スキャナやファク
シミリから入力された2値の文書画像、特にFAXのカ
バーシートのように主に文字と、水平ないし垂直方向の
直線から構成され、しかも書式を予め知ることのできな
い文書の認識を行う際に必要となる文字フィールドの抽
出方法に関する。
【0002】
【従来の技術】従来、オーダエントリシステム等に用い
られる帳票を認識するには、認識すべき文字が記入され
た帳票中の領域、すなわち文字フィールドの位置を予め
定義しておき、その書式の定義に基づいて記入された文
字を切り出して認識するという方法がとられている。ま
た、認識すべき文字を記入するフィールドも、切り出し
が容易にできるように文字、あるいは文字列単位に枠で
囲むなどの方法がとられているのが普通である。
【0003】
【発明が解決しようとする課題】一方、FAXカバーシ
ートの認識に関しては、FAXのカバーシートが予め印
刷された固定部分に、宛名等の必要な部分を手書きで記
入して作成するという点ではオーダエントリ用の帳票と
同じであるが、書式が極めて多様性に富んでいて書式を
事前に知ることが実質的に不可能であること、枠で囲ま
れたものの他にアンダラインによる記入欄もあるという
点でオーダエントリシステム等で用いられる帳票と大き
く異なっている。また、文字認識処理を行うことを前提
に設計されているオーダエントリ用の帳票と異なり、F
AXのカバーシートは囲み枠の角が面取りされて丸くな
っていたり、受信した時に罫線等の直線がかすれてしま
うことがある。したがって、従来の手法をそのまま適用
してカバーシートを認識することは困難である。
【0004】本発明の目的は、スキャナやファクシミリ
から入力された品質の悪い2値の文書画像、例えばFA
X受信文書のカバーシートのように主に文字と直線から
構成された予め書式を知ることのできない文書に対し、
傾き、かすれのある水平ないし垂直方向の直線から構成
された囲み枠、周期的フィールド、アンダラインを抽出
し、さらに文書の認識を行う際に必要となる文字のフィ
ールドを効果的に抽出するフィールド抽出方法を提供す
ることにある。
【0005】
【課題を解決するための手段】本発明のフィールド抽出
方法は、文書を入力し、該入力文書を標本化と量子化に
よって2値の数値で表現される文書画像に変換する文書
入力段階と、文書入力段階によって得られた文書画像を
走査し、水平方向の直線を検出する水平直線抽出段階
と、同じく文書入力段階によって得られた文書画像を走
査し、垂直方向の直線を検出する垂直直線抽出段階と、
水平直線抽出段階で抽出された水平直線と、垂直直線抽
出段階で抽出された垂直直線の中で端点同士が接触ない
し近接している水平直線対と垂直直線対を組み合わせる
ことによって、または水平直線抽出段階で抽出された水
平直線のうち、特定の端点の形状を持つ水平直線と、そ
れに対応する水平直線を対にすることによって囲み枠を
検出する囲み枠検出段階と、水平直線抽出段階で検出さ
れた水平直線のうち、長さがほぼ同じで周期的に配置さ
れているもの、すなわち罫線を抽出する罫線抽出段階
と、周期的に配置された罫線に挟まれた領域、あるいは
最も上に位置する罫線の上側にあって、前記罫線に挟ま
れた領域とほぼ同一の大きさの領域を周期的フィールド
として抽出する周期的フィールド抽出段階と、水平直線
検出段階で抽出された水平直線うち、単独で存在するア
ンダラインを抽出するアンダライン抽出段階と、アンダ
ライン抽出段階で抽出されたアンダラインの直上に位置
する領域をアンダライン付きフィールドとして抽出する
アンダライン付きフィールド抽出段階と、文書入力段階
で得られた文書画像の中で、一定の大きさで連続的に配
置された図形列を文字列として抽出し、その領域をアン
ダライン無しフィールド候補として抽出するアンダライ
ン無しフィールド候補抽出段階と、アンダライン無しフ
ィールド候補抽出段階で抽出されたフィールドのうち、
垂直直線抽出段階によって抽出された垂直直線によって
分断されるものについては、領域を分割して複数のアン
ダライン無しフィールドとして抽出し、そうでないもの
についてはそのままアンダライン無しフィールドとして
抽出するアンダライン無しフィールド抽出段階とを有す
る。
【0006】上記の方法によって、スキャナやファクシ
ミリから入力された品質の悪い2値の文書画像、例えば
FAX受信文書のカバーシートのように主に文字と直線
から構成された予め書式を知ることのできない文書に対
し、傾き、かすれのある水平ないし垂直方向の直線から
構成された囲み枠、周期的フィールド、アンダラインを
抽出し、さらに文書の認識を行う際に必要となる文字の
フィールドを効果的に抽出する。また、囲み枠の抽出で
は、角が面取りされた囲み枠、垂直直線の短い囲み枠、
水平直線の一部が欠けた囲み枠を正確に抽出する。
【0007】
【発明の実施の形態】次に、本発明の実施形態について
図面を参照して説明する。
【0008】図1はFAXのカバーシートの例を示して
いる。認識の対象となるフィールドはアンダライン無し
フィールド、アンダライン付きフィールド、周期的フィ
ールド、の3種類に分類することができる。カバーシー
トに予め印刷されている文字列を含む領域の大半はアン
ダライン無しフィールドとなる。アンダライン付きフィ
ールドは送信先に応じて送り手が記入する欄に多く用い
られる。周期フィールドは通信欄等、記入する内容が複
数行にまたがる部分に存在する。罫線、すなわち同じ長
さの水平直線に挟まれた領域と最上端の罫線の上の領域
が周期的フィールドとなることが多い。
【0009】図2は本発明の一実施形態のフィールド抽
出方法を示すフローチャートである。
【0010】文書入力段階1では、ファクシミリ、スキ
ャナ等を用いて文書を標本化し、さらに各画素の値を黒
は1、白は0の2値に量子化を行い、原画像を作成す
る。
【0011】水平直線抽出段階2では、カバーシート上
の水平方向の直線を抽出する。FAXから入力された文
書は雑音が多く、傾いたり場合によっては蛇行すること
もあるが、例えば特願平7−10469「アンダライン
抽出方法」に記載された方法によって、このような場合
でも高精度に水平直線を抽出することができる。
【0012】垂直直線抽出段階3では、カバーシート上
の垂直方向の直線を抽出する。これは例えば入力文書画
像を90度回転したものに水平直線抽出段階2に用いた
ものと同様の方法を適用することによって実現できる。
【0013】囲み枠抽出段階4では、端点同士が接続な
いし近接している水平直線対と垂直直線対を検出し、囲
み枠として抽出する。囲み枠は場合によって角が面取り
がされて丸みをおびている場合があるが、このような場
合は、対応する水平直線の端点と垂直直線の端点を求め
る際の距離値にしきい値を設定しておけばよい。なお、
特開平7−10469に示された方法はランレングス特
徴を用いて直線の抽出を行うため、垂直直線が短く一定
の長さに満たない場合には、垂直直線抽出段階3で抽出
できない場合がる。また、FAXのカバーシートでは水
平直線は比較的長いものが多いが、水平直線であって
も、かすれによって短い直線に分断されてしまうことが
ある。このような場合には端点形状を認識することによ
って囲み枠を抽出する。例えば、図3に示すように、L
字形の端点11、12(枠で表示)を持つ水平直線13
が検出され、下方に、ほぼ同一のX座標を持つL字形の
端点14、15を持つ水平直線16が検出されれば、こ
れらの直線13、16は囲み枠を形成する上側と下側の
水平直線であると考えることができる。また、図3に示
す端点形状を持つ水平直線16を検出できなくても、図
4に示すように少なくとも片方(例では右端点18)が
直線13の端点12と対をなす形状をしていれば、本
来、枠の構造をしているものが、かすれなどによって一
部が欠落した水平直線19であることが容易にわかる。
したがって、抽出された3個の端点11、12、18を
用いて、残りの端点17の座標を推定し、全体を囲み枠
の領域として抽出すればよい。さらに、このように抽出
された端点間に実際に直線が存在するか否かを入力画像
上で確認すれば、直線検出の信頼性をさらに上げること
ができる。なお、図1の発信元欄に示すように囲み枠の
中にさらに垂直直線、水平直線が抽出される場合には、
それぞれ別の囲み枠として抽出する。
【0014】図5は端点の形状を認識する方法を示して
いる。この例では端点の形状を認識するために抽出され
た水平直線22の右端点21を中心とするウィンドウを
設定し、それを例えば3×3の小領域に分割している。
中央下の部分に黒画素が多く存在しているので、水平直
線の右端点21に垂直直線の上端点が接していることが
わかる。
【0015】罫線抽出段階5では、抽出された水平直線
のうち、両端点31、32の端点形状が図6に示すもの
で、長さが等しく、しかも等間隔のもの33を罫線とし
て抽出する。
【0016】周期的フィールド抽出段階6では、まず、
罫線抽出段階5で抽出された罫線に上下を挟まれた領域
を周期的フィールドとして抽出し、次に一番上に位置す
る罫線の上にすでに抽出されたフィールドと同じ高さの
領域を設定し、そこに文字図形が含まれる場合には、そ
の領域を既に抽出してある周期的フィールドに加えて抽
出する。
【0017】アンダライン抽出段階7では、罫線抽出段
階5と同じく、抽出された水平直線のうち、両端点の形
状が図4に示したもので単独のものをアンダラインとし
て抽出する。
【0018】アンダライン付きフィールド抽出段階8で
は、アンダライン抽出段階7で抽出したアンダラインの
上の領域と、その左右に存在するフィールドの属性を示
すキーワードの領域をまとめてアンダライン付きフィー
ルドとして抽出する。図1に示すようにアンダラインの
左右には、そのフィールドの属性を示すキーワードが印
刷されているのが普通である。
【0019】アンダライン無しフィールド候補抽出段階
9は、入力した文書画像に含まれる文字図形を抽出し、
そのうち連続している1つのまとまった領域をアンダラ
イン無しフィールド候補として抽出する。なお、図1に
おける囲み枠の中に記入された「発信元」と「〇〇〇・
・・」のように文字列が隣接している場合には互いに異
なる囲み枠に属する文字列がまとまって1つの文字列と
して抽出されることがある。抽出されたアンダライン無
しフィールド候補が複数の囲み枠にまたがるか否かは囲
み枠抽出段階4で得られた結果に基づいて判定すればよ
い。このような場合には、アンダライン無しフィールド
抽出段階10で、このような文字列のフィールドを分離
して各々別のフィールドとして抽出する。それ以外の場
合にはアンダライン無しのフィールド候補をそのままア
ンダライン無しフィールドとして抽出する。
【0020】
【発明の効果】以上説明したように、本発明によれば、
スキャナやファクシミリから入力された品質の悪い2値
の文書画像、例えばFAX受信文書のカバーシートのよ
うに主に文字と直線から構成された予め書式を知ること
のできない文書に対し、傾き、かすれのある水平ないし
垂直方向の直線から構成された囲み枠、周期的フィール
ド、アンダラインを抽出し、さらに文書の認識を行う際
に必要となる文字のフィールドを効果的に抽出すること
ができ、また、囲み枠の抽出では、角が面取りされた囲
み枠、垂直直線の短い囲み枠、水平直線の一部が欠けた
囲み枠を正確に抽出することができる。
【図面の簡単な説明】
【図1】FAXのカバーシートの例を示す図である。
【図2】本発明の一実施形態のフィールド抽出方法を示
すフローチャートである。
【図3】垂直直線が欠けた囲み枠を端点の形状に基づい
て検出する原理を示す図である。
【図4】水平直線の一部が欠けた囲み枠を端点の形状に
基づいて検出する原理を示す図である。
【図5】端点の形状を認識する原理を示す図である。
【図6】アンダライン、罫線に用いられる水平直線の両
端点の形状を示す図である。
【符号の説明】
1 文書入力段階 2 水平直線入力段階 3 垂直直線抽出段階 4 囲み枠抽出段階 5 罫線抽出段階 6 周期的フィールド抽出段階 7 アンダライン抽出段階 8 アンダライン付きフィールド段階 9 アンダライン無しフィールド候補抽出段階 10 アンダライン無しフィールド抽出段階 11、12、14、15、17、18、21、31、3
2 端点 13、16、19、22、33 水平直線

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 スキャナやファクシミリから入力された
    文書中の印刷されたないし手書きで記入された文字列の
    領域、あるいは文字を記入するために用意された領域を
    抽出するフィールド抽出方法であって、 文書を入力し、該入力文書を標本化と量子化によって2
    値の数値で表現される文書画像に変換する文書入力段階
    と、 前記文書入力段階によって得られた文書画像を走査し、
    水平方向の直線を検出する水平直線抽出段階と、 同じく前記文書入力段階によって得られた文書画像を走
    査し、垂直方向の直線を検出する垂直直線抽出段階と、 前記水平直線抽出段階で抽出された水平直線と、前記垂
    直直線抽出段階で抽出された垂直直線の中で端点同士が
    接触ないし近接している水平直線対と垂直直線対を組み
    合わせることによって、または前記水平直線抽出段階で
    抽出された水平直線のうち、特定の端点の形状を持つ水
    平直線と、それに対応する水平直線を対にすることによ
    って囲み枠を検出する囲み枠検出段階と、 前記水平直線抽出段階で検出された水平直線のうち、長
    さがほぼ同じで周期的に配置されているもの、すなわち
    罫線を抽出する罫線抽出段階と、 周期的に配置された罫線に挟まれた領域、あるいは最も
    上に位置する罫線の上側にあって、前記罫線に挟まれた
    領域とほぼ同一の大きさの領域を周期的フィールドとし
    て抽出する周期的フィールド抽出段階と、 前記水平直線検出段階で抽出された水平直線うち、単独
    で存在するアンダラインを抽出するアンダライン抽出段
    階と、 前記アンダライン抽出段階で抽出されたアンダラインの
    直上に位置する領域をアンダライン付きフィールドとし
    て抽出するアンダライン付きフィールド抽出段階と、 前記文書入力段階で得られた文書画像の中で、一定の大
    きさで連続的に配置された図形列を文字列として抽出
    し、その領域をアンダライン無しフィールド候補として
    抽出するアンダライン無しフィールド候補抽出段階と、 前記アンダライン無しフィールド候補抽出段階で抽出さ
    れたフィールドのうち、前記垂直直線抽出段階によって
    抽出された垂直直線によって分断されるものについて
    は、領域を分割して複数のアンダライン無しフィールド
    として抽出し、そうでないものについてはそのままアン
    ダライン無しフィールドとして抽出するアンダライン無
    しフィールド抽出段階とを有するフィールド抽出方法。
  2. 【請求項2】 前記罫線抽出段階における罫線抽出、前
    記アンダライン抽出段階におけるアンダライン抽出を、
    前記水平直線抽出段階で抽出された水平直線の両端点の
    形状に基づいて行う請求項1記載のフィールド抽出方
    法。
  3. 【請求項3】 前記端点の形状認識を、抽出された直線
    の端点を中心に一定の大きさのウィンドウを設定し、該
    ウィンドウを端点を中心とする複数の小領域に分割した
    ときの該小領域に含まれる黒画素の数によって該小領域
    に他の直線が含まれるか否かの判定をし、その判定結果
    に基づいて行う請求項1または2記載のフィールド抽出
    方法。
JP8109527A 1996-04-30 1996-04-30 フィールド抽出方法 Pending JPH09297814A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8109527A JPH09297814A (ja) 1996-04-30 1996-04-30 フィールド抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8109527A JPH09297814A (ja) 1996-04-30 1996-04-30 フィールド抽出方法

Publications (1)

Publication Number Publication Date
JPH09297814A true JPH09297814A (ja) 1997-11-18

Family

ID=14512528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8109527A Pending JPH09297814A (ja) 1996-04-30 1996-04-30 フィールド抽出方法

Country Status (1)

Country Link
JP (1) JPH09297814A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446274A (zh) * 2010-09-30 2012-05-09 汉王科技股份有限公司 带有下划线的文本图像预处理方法和装置
JP2014504400A (ja) * 2010-12-10 2014-02-20 上海合合信息科技発展有限公司 テキスト画像のトリミング方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446274A (zh) * 2010-09-30 2012-05-09 汉王科技股份有限公司 带有下划线的文本图像预处理方法和装置
JP2014504400A (ja) * 2010-12-10 2014-02-20 上海合合信息科技発展有限公司 テキスト画像のトリミング方法

Similar Documents

Publication Publication Date Title
US5854853A (en) Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
JP2001351066A (ja) 文書認識処理のための装置、方法及び記録媒体
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
EP0854433A3 (en) Caption and photo extraction from scanned document images
JP2007122500A (ja) 文字認識装置、文字認識方法及び文字データ
US8229214B2 (en) Image processing apparatus and image processing method
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
EP0766193B1 (en) Optical character reader with skew correction
JPH09297814A (ja) フィールド抽出方法
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPH0773271A (ja) 領域分割方法
Aparna et al. A complete OCR system development of Tamil magazine documents
JP5517028B2 (ja) 画像処理装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP4974367B2 (ja) 領域分割方法及び装置、並びにプログラム
JP2000251010A (ja) 帳票読み取り方法
US20080225340A1 (en) Image processing apparatus, image processing method, and computer program product
JPH09134404A (ja) 棒グラフ認識装置
JP2006277509A (ja) ドットテクスチャ重畳表記部形状回復方法及びそのためのプログラム
Zhu et al. Information encoding into and decoding from dot texture for active forms
JPH0728934A (ja) 文書画像処理装置
Zhu et al. Document image processing methods for active forms
JPH10171924A (ja) 文字認識装置