JP3376931B2 - 文字行抽出方法および装置 - Google Patents

文字行抽出方法および装置

Info

Publication number
JP3376931B2
JP3376931B2 JP35007398A JP35007398A JP3376931B2 JP 3376931 B2 JP3376931 B2 JP 3376931B2 JP 35007398 A JP35007398 A JP 35007398A JP 35007398 A JP35007398 A JP 35007398A JP 3376931 B2 JP3376931 B2 JP 3376931B2
Authority
JP
Japan
Prior art keywords
character
line
extracting
address
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP35007398A
Other languages
English (en)
Other versions
JPH11265425A (ja
Inventor
建志 平本
浩 松内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP35007398A priority Critical patent/JP3376931B2/ja
Publication of JPH11265425A publication Critical patent/JPH11265425A/ja
Application granted granted Critical
Publication of JP3376931B2 publication Critical patent/JP3376931B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Credit Cards Or The Like (AREA)
  • Sorting Of Articles (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学的文字読み取
り装置(OCR)等において、文書デ−タから文字行を
抽出する方法および装置に関する。
【0002】
【従来の技術】従来、OCR等における文書から文字行
を抽出する方法として、画像データより画素連結矩形を
生成し、写真領域を除去したものを基本矩形とし、文字
行方向を判定し、基本矩形を接続し、文字行候補を生成
し、生成された文字行候補を非分割領域として、主方
向、副方向に適宜分割して、副方向の文字行を抽出する
とともに、文字行候補内で基本矩形の統合を行なうこと
により文字矩形を生成し、文字矩形サイズの平均値、分
散値から文字行候補の構成を判定し、構成に応じて文字
行候補を分割し、分割された文字行候補の領域内におい
て文字矩形を接続することにより文字行を抽出する、特
願平08−118062に代表される様々な方法が提案
されている。しかし、これらの方法では、名刺に印刷さ
れた郵便番号部分のように、縦書き文字行の中に横書き
で数字を並べ行の幅が局所的に大きくなっているような
部分や、住所行の直上に住所行と直交する方向に郵便番
号か書かれているような、例外的な文字行を正確に抽出
することは困難である。
【0003】一般的な配置の文字行を、精度よく抽出す
るように考えられた処理手順や閾値設定等を、一般的な
配置の文字行に対する精度に悪影響を与えることなく、
例外的な配置の文字行を抽出できるようにするには、自
ずと限界がある。また、例外的な配置にも精度よく抽出
できる処理を実現しようとすると、例外的な配置を考慮
しない場合に比べて、非常に多くの例外的な処理を必要
としてしまう。
【0004】
【発明が解決しようとする課題】以上述べたように、従
来の文字行を抽出する方法では、名刺の郵便番号部分に
見られるような、例外的な文字行まで、その他の文字行
に対する許容範囲や処理量を犠牲にすることなく正確に
抽出することが困難であるという課題があった。
【0005】そこで、本発明はこのような課題を解決
し、名刺の郵便番号部分に見られるような、例外的な文
字行まで、その他の文字行に対する処理を犠牲にするこ
となく、正確にかつ効率よく、文書デ−タから文字行を
抽出する方法および装置を提供することを目的とする。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本願発明の文字行抽出方法は文字行抽出ステップ
と、再構成起点領域選択ステップと、遊離副方向郵便番
号文字抽出ステップと、遊離副方向郵便番号行生成ステ
ップとにより構成される。
【0007】文字行抽出ステップは、処理対象の画像デ
ータから文字行を抽出し、各文字行を構成する文字や文
字行の外接矩形を得る。
【0008】再構成起点領域選択ステップは、抽出され
た各文字行から、適切な大きさと文字数で構成されるも
のを再構成起点領域として選択する。
【0009】遊離副方向郵便番号文字抽出ステップは、
選択された再構成起点領域の上端からさらに上の部分
に、再構成起点領域中の文字行と直交する方向の文字行
が存在する可能性がある領域を、遊離副方向郵便番号行
抽出領域として、当該再構成起点領域との相対的な位
置、および、相対的な大きさにより生成する遊離副方向
郵便番号行抽出領域生成ステップと、生成された遊離副
方向郵便番号行抽出領域内に存在する、文字行、文字、
ノイズを遊離副方向郵便番号文字候補として抽出する郵
便番号文字候補抽出ステップとよりなる。
【0010】そして、遊離副方向郵便番号行生成ステッ
プは、抽出された遊離副方向郵便番号文字候補を、相互
の位置関係に応じて接続して郵便番号行とする。
【0011】また、上記課題を解決するために、本願発
明の文字行抽出方法は文字行抽出ステップと、再構成起
点領域選択ステップと、遊離副方向郵便番号文字抽出ス
テップと、遊離副方向郵便番号行生成ステップとにより
構成される。
【0012】文字行抽出ステップと、再構成起点領域選
択ステップは、前記文字行抽出方法と同様のステップで
ある。
【0013】包含副方向郵便番号文字抽出ステップは、
選択された再構成起点領域の上端付近に、再構成起点領
域と直交する方向の郵便番号行が存在する可能性がある
領域を、包含副方向郵便番号行抽出領域として、当該再
構成起点領域との相対的な位置、および、相対的な大き
さにより生成する包含副方向郵便番号行抽出領域生成ス
テップと、生成された包含副方向郵便番号行抽出領域内
に存在する、文字行、文字、ノイズを包含副方向郵便番
号文字候補として抽出する郵便番号文字候補抽出ステッ
プとよりなる。
【0014】そして、包含副方向郵便番号行生成ステッ
プは、抽出された包含副方向郵便番号文字候補と、再構
成起点領域の上端付近の文字を、相互の位置関係に応じ
て接続して郵便番号行とし、再構成起点領域中の文字行
を再構成する。
【0015】また、上記課題を解決するために、本願発
明の文字行抽出方法は文字行抽出ステップと、再構成起
点領域選択ステップと、分離パック文字抽出ステップ
と、分離パック文字統合ステップとにより構成される。
【0016】文字行抽出ステップと、再構成起点領域選
択ステップは、前記文字行抽出方法と同様のステップで
ある。
【0017】分離パック文字抽出ステップは、選択され
た再構成起点領域の上端から1文字から数文字分下の付
近に、再構成起点領域中の文字行に含まれるべき郵便番
号の一部が取りこぼされている可能性がある領域を、分
離パック文字抽出領域として、当該再構成起点領域との
相対的な位置、および、相対的な大きさにより生成する
分離パック文字候補抽出ステップと、生成された分離パ
ック文字抽出領域内に存在する、文字、ノイズを分離パ
ック文字候補として抽出する分離パック文字候補抽出ス
テップとよりなる。
【0018】そして、分離パック文字統合ステップは、
抽出された分離パック文字候補と、再構成起点領域中の
文字行の位置関係に応じて、当該分離パック文字候補を
再構成起点領域中の文字行に統合する。
【0019】上記3つの本願発明に係る文字行抽出方法
は、共通の文字行抽出ステップと、再構成起点領域選択
ステップ以降のステップについて、自由に組み合わせる
ことが可能であり、対象とする画像に適したステップを
選択するとことが望ましい。
【0020】また、前記文字行抽出方法において、対象
とする画像データが、住所、電話番号、FAX番号等が
書かれた住所行と、郵便番号行が、比較的まとまった領
域に書かれているものである場合、再構成起点領域選択
ステップの代替ステップとして、その全ての住所行を囲
む外接矩形を住所領域とし、再構成起点領域の代替領域
として抽出する住所領域抽出ステップを設けると好適で
ある。
【0021】さらに、前記住所領域抽出ステップには、
抽出された文字行から、当該文字行の形状が住所行に近
い幅と長さを持つものを、住所候補行とする住所候補行
抽出ステップと、処理対象の画像データ自体を2×2の
4つの住所候補区画に分割する住所候補区画生成ステッ
プと、各住所行の中心位置から、その住所候補行が所属
する住所候補区画を判定し、各住所候補区画毎に当該住
所候補行の数を計数する所属行計数ステップと、最も多
くの住所候補行が所属する住所候補区画を住所区画とす
る所属行数比較ステップとよりなる住所区画抽出ステッ
プと、抽出された住所候補行から、所属行計数ステップ
において、抽出された住所区画に所属すると判断された
当該住所候補行を、住所行として抽出する住所行抽出ス
テップと、そして、抽出された住所行の外接矩形を生成
し、住所領域とする住所領域生成ステップとを設けるこ
とが望ましい。
【0022】また、前記住所領域抽出ステップにおいて
は、住所領域生成ステップの前には、抽出された住所行
を除いた文字行から、住所行と平行で、かつ、住所行の
文字と同程度の文字で構成され、かつ、住所行との間隔
が小さく、かつ、住所行の行頭から行末間にほぼ収まっ
ている文字行を、副住所行とするステップを設け、そし
て、住所領域抽出ステップにおける住所領域生成ステッ
プを、抽出された住所行、および、副住所行の外接矩形
を生成し、住所領域とするステップとしてもよい。
【0023】さらに、上記課題を解決するために、本願
発明の文字行抽出方法は文字行抽出ステップと、単独文
字抽出ステップと、文字行開始位置文字抽出ステップ
と、開始記号判定ステップと、郵便番号文字検索ステッ
プとにより構成される。
【0024】文字行抽出ステップは、前記文字行抽出方
法と同様のステップである。単独文字抽出ステップは、
文字行に属さず単独の1文字で存在すると判定された文
字を抽出する。また、文字行開始位置文字抽出ステップ
は、抽出された各文字行の行開始位置に存在する文字を
抽出する。
【0025】開始記号判定ステップは、単独文字抽出ス
テップ、および、文字行開始位置文字抽出ステップによ
って抽出された文字と、〒記号や顔記号等との類似度を
計算し、類似度の高いものを開始記号として抽出する。
【0026】そして、郵便番号文字検索ステップは、抽
出された開始記号から、水平方向に5文字、または、7
文字の郵便番号文字を抽出する第1水平方向検索ステッ
プと、抽出された開始記号から、その下方から水平方向
に5文字、または、7文字の郵便番号文字を抽出する第
2水平方向検索ステップと、抽出された開始記号から、
水平方向に3文字分の郵便番号文字を抽出し、その下方
から水平方向に2文字、または、4文字の郵便番号文字
を抽出する2段組検索ステップと、抽出された開始記号
から、その下方から水平方向に3文字分の郵便番号文字
を抽出し、その下方から水平方向に2文字、または、4
文字の郵便番号文字を抽出する3段組検索ステップと、
抽出された開始記号から、その下方から水平方向に3文
字分の郵便番号文字を抽出し、その下方にハイフンを抽
出し、さらにその下方から水平方向に2文字、または、
4文字の郵便番号文字を抽出する4段組検索ステップ
と、抽出された郵便番号文字から、郵便番号行を生成す
る文字行再構成ステップとよりなる。
【0027】さらに、前記第1水平方向検索ステップ、
第2水平方向検索ステップ、2段組検索ステップ、3段
組検索ステップ、4段組検索ステップには、郵便番号文
字を抽出する際に、仮文字切り出し、および、仮文字認
識を行ない、郵便番号文字が0から9までのいずれかの
数字との類似度が十分高いことを確認するステップを設
けることが望ましい。
【0028】そして、前記文字行抽出方法においては、
文字行再構成ステップ以前に、抽出された郵便番号文字
に対して文字認識を行ない、その認識結果が郵便番号デ
ータベースに存在する場合のみ、文字行再構成ステップ
を実行するステップを設けてもよい。
【0029】さらに、上記課題を解決するために、本願
発明の文字行抽出方法は文字行抽出ステップと、安定文
字配置行選択ステップと、外部文字候補抽出ステップ
と、外部文字行検索ステップとにより構成される。
【0030】文字行抽出ステップは、前記文字行抽出方
法と同様のステップである。安定文字配置行選択ステッ
プは、抽出された各文字行の行頭、および、行末の数文
字を除いた中央部の文字について、当該文字の中心位置
の間隔の平均値を算出する文字中心間距離算出ステップ
と、当該文字の中心位置の間隔の分散値を算出する文字
中心間分散算出ステップと、当該文字の文字矩形サイズ
の平均値を算出する文字サイズ平均算出ステップと、算
出された値から文字配置の安定性の有無を判別し、安定
性が有る文字行を安定文字配置行として選択する安定文
字配置行判別ステップとよりなる。
【0031】外部文字候補抽出ステップは、抽出された
安定文字配置行について、文字中心間距離算出ステップ
と、文字中心間分散算出ステップと、文字サイズ平均算
出ステップにおいて、各値の算出に使用されなかった行
頭、および、行末の数文字について、当該文字を加えて
文字配置の安定性の有無を再び判別する安定文字配置行
再判別ステップと、安定性が無くなると判別された場合
に、当該文字から外部文字候補を生成する外部文字候補
生成ステップとよりなる。
【0032】そして、外部文字行検索ステップは、抽出
された外部文字候補から、外部文字候補が所属していた
文字行と直行する方向に文字を抽出する直行方向検索ス
テップと、抽出された文字から、新規文字行を生成する
文字行再生成ステップとよりなる。
【0033】さらに、前記文字行抽出方法においては、
安定文字配置行選択ステップ以前に、文字行抽出ステッ
プにおいて抽出された文字行に対して、仮文字切り出
し、仮文字認識を行ない、当該文字行を構成する文字矩
形を補正するステップを設けるとよい。
【0034】また、上記課題を解決するために、本願発
明の文字行抽出装置は文字行抽出手段と、再構成起点領
域選択手段と、遊離副方向郵便番号文字抽出手段と、遊
離副方向郵便番号行生成手段とにより構成される。
【0035】文字行抽出手段は、処理対象の画像データ
から文字行を抽出し、各文字行を構成する文字や文字行
の外接矩形を得る。
【0036】再構成起点領域選択手段は、抽出された各
文字行から、適切な大きさと文字数で構成されるものを
再構成起点領域として選択する。
【0037】遊離副方向郵便番号文字抽出手段は、選択
された再構成起点領域の上端からさらに上の部分に、再
構成起点領域中の文字行と直交する方向の文字行が存在
する可能性がある領域を、遊離副方向郵便番号行抽出領
域として、当該再構成起点領域との相対的な位置、およ
び、相対的な大きさにより生成する遊離副方向郵便番号
行抽出領域生成手段と、生成された遊離副方向郵便番号
行抽出領域内に存在する、文字行、文字、ノイズを遊離
副方向郵便番号文字候補として抽出する郵便番号文字候
補抽出手段とよりなる。
【0038】そして、遊離副方向郵便番号行生成手段
は、抽出された遊離副方向郵便番号文字候補を、相互の
位置関係に応じて接続して郵便番号行とする。
【0039】また、上記課題を解決するために、本願発
明の文字行抽出装置は文字行抽出手段と、再構成起点領
域選択手段と、遊離副方向郵便番号文字抽出手段と、遊
離副方向郵便番号行生成手段とにより構成される。
【0040】文字行抽出手段と、再構成起点領域選択手
段は、前記文字行抽出装置と同様の手段である。
【0041】包含副方向郵便番号文字抽出手段は、選択
された再構成起点領域の上端付近に、再構成起点領域と
直交する方向の郵便番号行が存在する可能性がある領域
を、包含副方向郵便番号行抽出領域として、当該再構成
起点領域との相対的な位置、および、相対的な大きさに
より生成する包含副方向郵便番号行抽出領域生成手段
と、生成された包含副方向郵便番号行抽出領域内に存在
する、文字行、文字、ノイズを包含副方向郵便番号文字
候補として抽出する郵便番号文字候補抽出手段とよりな
る。
【0042】そして、包含副方向郵便番号行生成手段
は、抽出された包含副方向郵便番号文字候補と、再構成
起点領域の上端付近の文字を、相互の位置関係に応じて
接続して郵便番号行とし、再構成起点領域中の文字行を
再構成する。
【0043】また、上記課題を解決するために、本願発
明の文字行抽出装置は文字行抽出手段と、再構成起点領
域選択手段と、分離パック文字抽出手段と、分離パック
文字統合手段とにより構成される。
【0044】文字行抽出手段と、再構成起点領域選択手
段は、前記文字行抽出装置と同様の手段である。
【0045】分離パック文字抽出手段は、選択された再
構成起点領域の上端から1文字から数文字分下の付近
に、再構成起点領域中の文字行に含まれるべき郵便番号
の一部が取りこぼされている可能性がある領域を、分離
パック文字抽出領域として、当該再構成起点領域との相
対的な位置、および、相対的な大きさにより生成する分
離パック文字候補抽出手段と、生成された分離パック文
字抽出領域内に存在する、文字、ノイズを分離パック文
字候補として抽出する分離パック文字候補抽出手段とよ
りなる。
【0046】そして、分離パック文字統合手段は、抽出
された分離パック文字候補と、再構成起点領域中の文字
行の位置関係に応じて、当該分離パック文字候補を再構
成起点領域中の文字行に統合する。
【0047】上記3つの本願発明に係る文字行抽出装置
は、共通の文字行抽出手段と、再構成起点領域選択手段
以降の手段について、自由に組み合わせることが可能で
あり、対象とする画像に適した手段を選択するとことが
望ましい。
【0048】また、前記文字行抽出装置において、対象
とする画像データが、住所、電話番号、FAX番号等が
書かれた住所行と、郵便番号行が、比較的まとまった領
域に書かれているものである場合、再構成起点領域選択
手段の代替手段として、その全ての住所行を囲む外接矩
形を住所領域とし、再構成起点領域の代替領域として抽
出する住所領域抽出手段を設けると好適である。
【0049】さらに、前記住所領域抽出手段には、抽出
された文字行から、当該文字行の形状が住所行に近い幅
と長さを持つものを、住所候補行とする住所候補行抽出
手段と、処理対象の画像データ自体を2×2の4つの住
所候補区画に分割する住所候補区画生成手段と、各住所
行の中心位置から、その住所候補行が所属する住所候補
区画を判定し、各住所候補区画毎に当該住所候補行の数
を計数する所属行計数手段と、最も多くの住所候補行が
所属する住所候補区画を住所区画とする所属行数比較手
段とよりなる住所区画抽出手段と、抽出された住所候補
行から、所属行計数手段において、抽出された住所区画
に所属すると判断された当該住所候補行を、住所行とし
て抽出する住所行抽出手段と、そして、抽出された住所
行の外接矩形を生成し、住所領域とする住所領域生成手
段とを設けることが望ましい。
【0050】また、前記住所領域抽出手段においては、
住所領域生成手段の前には、抽出された住所行を除いた
文字行から、住所行と平行で、かつ、住所行の文字と同
程度の文字で構成され、かつ、住所行との間隔が小さ
く、かつ、住所行の行頭から行末間にほぼ収まっている
文字行を、副住所行とする手段を設け、そして、住所領
域抽出手段における住所領域生成手段を、抽出された住
所行、および、副住所行の外接矩形を生成し、住所領域
とする手段としてもよい。
【0051】さらに、上記課題を解決するために、本願
発明の文字行抽出装置は文字行抽出手段と、単独文字抽
出手段と、文字行開始位置文字抽出手段と、開始記号判
定手段と、郵便番号文字検索手段とにより構成される。
【0052】文字行抽出手段は、前記文字行抽出装置と
同様の手段である。単独文字抽出手段は、文字行に属さ
ず単独の1文字で存在すると判定された文字を抽出す
る。また、文字行開始位置文字抽出手段は、抽出された
各文字行の行開始位置に存在する文字を抽出する。
【0053】開始記号判定手段は、単独文字抽出手段、
および、文字行開始位置文字抽出手段によって抽出され
た文字と、〒記号や顔記号等との類似度を計算し、類似
度の高いものを開始記号として抽出する。
【0054】そして、郵便番号文字検索手段は、抽出さ
れた開始記号から、水平方向に5文字、または、7文字
の郵便番号文字を抽出する第1水平方向検索手段と、抽
出された開始記号から、その下方から水平方向に5文
字、または、7文字の郵便番号文字を抽出する第2水平
方向検索手段と、抽出された開始記号から、水平方向に
3文字分の郵便番号文字を抽出し、その下方から水平方
向に2文字、または、4文字の郵便番号文字を抽出する
2段組検索手段と、抽出された開始記号から、その下方
から水平方向に3文字分の郵便番号文字を抽出し、その
下方から水平方向に2文字、または、4文字の郵便番号
文字を抽出する3段組検索手段と、抽出された開始記号
から、その下方から水平方向に3文字分の郵便番号文字
を抽出し、その下方にハイフンを抽出し、さらにその下
方から水平方向に2文字、または、4文字の郵便番号文
字を抽出する4段組検索手段と、抽出された郵便番号文
字から、郵便番号行を生成する文字行再構成手段とより
なる。
【0055】さらに、前記第1水平方向検索手段、第2
水平方向検索手段、2段組検索手段、3段組検索手段、
4段組検索手段には、郵便番号文字を抽出する際に、仮
文字切り出し、および、仮文字認識を行ない、郵便番号
文字が0から9までのいずれかの数字との類似度が十分
高いことを確認する手段を設けることが望ましい。
【0056】そして、前記文字行抽出装置においては、
文字行再構成手段以前に、抽出された郵便番号文字に対
して文字認識を行ない、その認識結果が郵便番号データ
ベースに存在する場合のみ、文字行再構成手段を実行す
る手段を設けてもよい。
【0057】さらに、上記課題を解決するために、本願
発明の文字行抽出装置は文字行抽出手段と、安定文字配
置行選択手段と、外部文字候補抽出手段と、外部文字行
検索手段とにより構成される。
【0058】文字行抽出手段は、前記文字行抽出装置と
同様の手段である。安定文字配置行選択手段は、抽出さ
れた各文字行の行頭、および、行末の数文字を除いた中
央部の文字について、当該文字の中心位置の間隔の平均
値を算出する文字中心間距離算出手段と、当該文字の中
心位置の間隔の分散値を算出する文字中心間分散算出手
段と、当該文字の文字矩形サイズの平均値を算出する文
字サイズ平均算出手段と、算出された値から文字配置の
安定性の有無を判別し、安定性が有る文字行を安定文字
配置行として選択する安定文字配置行判別手段とよりな
る。
【0059】外部文字候補抽出手段は、抽出された安定
文字配置行について、文字中心間距離算出手段と、文字
中心間分散算出手段と、文字サイズ平均算出手段におい
て、各値の算出に使用されなかった行頭、および、行末
の数文字について、当該文字を加えて文字配置の安定性
の有無を再び判別する安定文字配置行再判別手段と、安
定性が無くなると判別された場合に、当該文字から外部
文字候補を生成する外部文字候補生成手段とよりなる。
【0060】そして、外部文字行検索手段は、抽出され
た外部文字候補から、外部文字候補が所属していた文字
行と直行する方向に文字を抽出する直行方向検索手段
と、抽出された文字から、新規文字行を生成する文字行
再生成手段とよりなる。
【0061】さらに、前記文字行抽出装置においては、
安定文字配置行選択手段以前に、文字行抽出手段におい
て抽出された文字行に対して、仮文字切り出し、仮文字
認識を行ない、当該文字行を構成する文字矩形を補正す
る手段を設けるとよい。
【0062】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図を用いて説明する。
【0063】図1は本発明に係る文字行抽出方法および
文字行抽出装置を用いた文字認識装置の構成を示すブロ
ック図である。かかる文字認識装置は、スキャナ−等よ
りなる光学的手段により紙面に印字された文字画像等を
画像デ−タとして読み取る画像入力部1、文字行を抽出
する文字行抽出部2、抽出された文字行を構成する文字
を一文字づつ認識する文字認識部7により構成される。
この装置の文字行抽出部2、文字認識部7の動作は汎用
のコンピュ−タ−とこれに格納されるプログラムによっ
ても達成することができ、このプログラムはフロッピ−
ディスク等の記録媒体に記録することができる。
【0064】以下に、各構成部分の詳細をさらに説明す
る。まず、本願発明に係る文字抽出装置である文字行抽
出部2の構成を説明する。文字行抽出部2は、図1に示
すように、画像データから一般的な文字行を公知の技術
により抽出する基本文字行抽出部3、基本文字行抽出部
3による文字行抽出結果を補正する第1文字行補正部
4、および、第2文字行補正部5、第3文字行補正部6
よりなる。
【0065】第1文字行補正部4の構成を図2に示す。
文字行補正部4中、再構成起点領域選択部41は基本文
字行抽出部3により抽出された文字行の中から、文字行
の幅、長さ、文字数等から適切な文字行を、再構成起点
領域として選択する。
【0066】遊離副方向郵便番号行抽出部43、包含副
方向郵便番号行抽出部44、パック文字修正部45は、
再構成起点領域内、および、再構成起点領域付近に存在
する郵便番号行の抽出不具合を補正する。
【0067】遊離副方向郵便番号行抽出部43の構成を
図3に示す。遊離副方向郵便番号行抽出部43中、遊離
副方向郵便番号行抽出領域決定部4301は再構成起点
領域選択部41によって生成された再構成起点領域を基
準とし、その再構成起点領域からの相対的な位置と大き
さにより、抽出処理対象領域を設定する。抽出処理対象
領域の設定は、住所領域より上の部分に、一定、あるい
は、文字の大きさ等に比例した大きさで行われる。郵便
番号文字候補検索部4302は、遊離副方向郵便番号行
抽出領域決定部4301で設定された抽出処理対象領域
内に存在する、文字行、文字、ノイズを郵便番号文字候
補として抽出する。遊離副方向郵便番号行作成部430
3は、郵便番号文字候補検索部4302で抽出された郵
便番号文字候補を、相互の位置関係や統合時の形状等を
考慮し、適宜接続を行い郵便番号行を作成する。
【0068】次に、包含副方向郵便番号行抽出部44の
構成を図4に示す。包含副方向郵便番号行抽出部44
中、包含副方向郵便番号行抽出領域決定部4401は再
構成起点領域選択部41によって生成された再構成起点
領域を基準とし、その再構成起点領域からの相対的な位
置と大きさにより、抽出処理対象領域を設定する。抽出
処理対象領域の設定は、再構成起点領域の上端付近に、
一定、あるいは、文字の大きさ等に比例した大きさで行
われる。郵便番号文字候補検索部4402は、包含副方
向郵便番号行抽出領域決定部4401で設定された抽出
処理対象領域内に存在する、文字行、文字、ノイズを郵
便番号文字候補として抽出する。包含副方向郵便番号行
作成部4403は、郵便番号文字候補検索部4402で
抽出された郵便番号文字候補と、抽出処理対象領域中の
文字行の上端付近の文字を、相互の位置関係や統合時の
形状等を考慮し、適宜接続を行い郵便番号行を作成す
る。文字行再構成部4404は、包含副方向郵便番号行
作成部4403において、抽出処理対象領域中の文字行
の一部の文字が郵便番号行として使用されたものについ
て、それらの文字を抜いた形で文字行を作成し直す。
【0069】次に、パック文字修正部45の構成を図5
に示す。パック文字修正部45中、分離パック文字抽出
領域決定部4501は再構成起点領域選択部41によっ
て生成された再構成起点領域を基準とし、その再構成起
点領域からの相対的な位置と大きさにより、抽出処理対
象領域を設定する。抽出処理対象領域の設定は、再構成
起点領域の上端から1文字程度下の付近に、一定、ある
いは、文字の大きさ等に比例した大きさで行われる。分
離パック文字検索部4502は、分離パック文字抽出領
域決定部4501で設定された抽出処理対象領域内に存
在する、文字、ノイズを分離パック文字として抽出す
る。分離パック文字統合部4503は、分離パック文字
検索部4502で抽出された分離パック文字を、相互の
位置関係や統合時の形状等を考慮し、抽出処理対象領域
内の文字行に統合する。なお、パック文字とは図6の
P、P・・・で示すような文字行中に、行方向と直交す
る方向に複数の数字を並べ、1つの文字と同様な形で文
字行中に埋め込まれた文字列をいう。
【0070】以上の構成により第1文字行補正部4は、
基本文字行抽出部3による文字行抽出結果を補正するこ
とができるが、郵便番号行の近くに、住所、電話番号、
FAX番号等が並べて記述されている画像を対象とする
場合、再構成起点領域選択部41の代替部として住所領
域抽出部42を使用すると良好である。住所領域抽出部
42は、住所、電話番号、FAX番号等、住所情報に関
連する文字行を囲む外接矩形、すなわち住所領域を、再
構成起点領域の代替領域として生成する。
【0071】住所領域抽出部42の構成を図7に示す。
住所領域抽出部42中、住所候補行抽出部4201は基
本文字行抽出部3により抽出された文字行の中から、文
字行の幅、長さ、文字数等から住所、電話番号、FAX
番号等が書かれている可能性が高いと判断したものを、
住所候補行として抽出する。
【0072】住所区画抽出部4202は、画像データを
2×2の4つの領域に分割した区画から、住所行が所属
する領域として1つ区画を選択する部分であり、図に示
すように区画分割部4202a、所属行計数部4202
b、住所区画決定部4202cにより構成される。
【0073】区画分割部4202aは、画像データを2
×2の4つの領域に分割し、それぞれを住所候補区画と
して生成する。
【0074】所属行計数部4202bは、住所候補行
が、区画分割部4202aで生成された住所候補区画の
どの区画に所属するかを住所候補行の中心位置により判
断し、所属した住所候補区画の所属行数を更新する。
【0075】住所区画決定部4202cは、4つの住所
候補区画の中から最も多く所属行を持つものを、住所区
画として選択する。
【0076】住所行抽出部4203は、住所区画決定部
4202cから住所区画を受け取り、住所区画への所属
条件を満たす住所候補行を、住所行として抽出する。
【0077】副住所行抽出部4204は、住所行以外の
各文字行について、住所行との位置関係から、住所、電
話番号、FAX番号等が書かれている文字行である可能
性が高いものを、副住所行として抽出する。
【0078】住所領域生成部4205は、抽出した全て
の住所行、および、副住所行の外接矩形を、住所領域と
して生成する。
【0079】次に、第2文字行補正部5の構成を図8に
示す。第2文字行補正部5中、単独文字抽出部51は、
基本文字行抽出部3による抽出結果、または、第1文字
行補正部4により補正された抽出結果から、文字行に含
まれず単独で存在している文字を抽出する。
【0080】文字行開始位置文字抽出部52は、基本文
字行抽出部3により抽出された文字行、または、第1文
字行補正部4により補正された文字行から、各文字行の
行開始位置に存在する文字を抽出する。
【0081】開始記号判定部53は、単独文字抽出部5
1と文字行開始位置文字抽出部52により抽出された文
字について、〒記号や顔記号等との類似度を計算し、類
似度の高いものを開始記号として抽出する。
【0082】さらに、郵便番号文字検索部54は、開始
記号判定部53により抽出された開始記号を起点に郵便
番号行を抽出する。
【0083】郵便番号文字検索部54の詳細な構成を図
9に示す。郵便番号文字検索部54中、第1水平方向検
索部5401は、開始記号判定部53で抽出された開始
記号を起点に、水平方向に5文字、または、7文字の郵
便番号文字を抽出する。第1水平方向検索部5401で
抽出される郵便番号行の例を図10(a)に示す。
【0084】第2水平方向検索部5402は、開始記号
判定部53で抽出された開始記号を起点に、その下方か
ら水平方向に5文字、または、7文字の郵便番号文字を
抽出する。第2水平方向検索部5402で抽出される郵
便番号行の例を図10(b)に示す。
【0085】2段組検索部5403は、開始記号判定部
53で抽出された開始記号を起点に、水平方向に3文字
分の郵便番号文字を抽出し、その下方から水平方向に2
文字、または、4文字の郵便番号文字を抽出する。2段
組検索部5403で抽出される郵便番号行の例を図10
(c)に示す。
【0086】3段組検索部5404は、開始記号判定部
53で抽出された開始記号を起点に、その下方から水平
方向に3文字分の郵便番号文字を抽出し、その下方から
水平方向に2文字、または、4文字の郵便番号文字を抽
出する。3段組検索部5404で抽出される郵便番号行
の例を図10(d)に示す。
【0087】4段組検索部5405は、開始記号判定部
53で抽出された開始記号を起点に、その下方から水平
方向に3文字分の郵便番号文字を抽出し、その下方にハ
イフンを抽出し、さらにその下方から水平方向に2文
字、または、4文字の郵便番号文字を抽出する。4段組
検索部5405で抽出される郵便番号行の例を図10
(e)に示す。
【0088】第1水平方向検索部5401、第2水平方
向検索部5402、2段組検索部5403、3段組検索
部5404、4段組検索部5405は、郵便番号文字を
抽出する過程において、仮文字切り出し部5407、お
よび、仮文字認識部5408を利用し、文字数の確認
と、郵便番号文字であることの確認を行なう。さらに、
認識した郵便番号を、郵便番号DB検索部を利用し、実
在する郵便番号であることを確認する。
【0089】さらに、文字行再構成部5406は、抽出
された郵便番号文字から、新たに郵便番号行を生成す
る。
【0090】最後に、第3文字行補正部6の構成を図1
1に示す。第3文字行補正部6中、文字矩形補正部61
は、基本文字行抽出部3により抽出された文字行、また
は、第1文字行補正部4、または、第2文字行補正部5
により補正された文字行について、仮文字切り出し部6
2、および、仮文字認識部63を利用し、当該文字行中
の文字矩形の補正を行なう。
【0091】安定文字配置行選択部64は、文字行の中
心付近に存在する文字の配置が安定している文字行を、
安定文字配置行として選択する部分であり、図に示すよ
うに文字中心間距離算出部64a、文字中心間分散算出
部64b、文字サイズ平均算出部64c、安定文字配置
行判定部64dにより構成される。
【0092】文字中心間距離算出部64aは、各文字行
の行頭、および、行末の数文字を除いた中央部の文字に
ついて、文字行内で隣接する文字の中心位置の間隔の平
均値を算出する。
【0093】文字中心間分散算出部64bは、文字中心
間距離算出部64aと同様な文字の中心位置の間隔につ
いて、分散値を算出する。
【0094】文字サイズ平均算出部64cは、文字中心
間分散算出部64b、文字中心間距離算出部64aで対
象とした文字について、文字の平均サイズを算出する。
【0095】安定文字配置行判定部64dは、文字中心
間距離算出部64a、文字中心間分散算出部64b、文
字サイズ平均算出部64cより得た各パラメータをもと
に、文字配置の安定性の有無を判別し、安定性が有る文
字行を安定文字配置行として選択する。
【0096】次に、外部文字候補抽出部65は、安定文
字配置行選択部65により選択された各安定文字配置行
について、安定性に問題をきたす行頭、および、行末の
文字から、外部文字候補を生成する部分であり、図に示
すように安定文字配置行再判別部65a、外部文字候補
生成部65bにより構成される。
【0097】安定文字配置行再判別部65aは、各安定
文字配置行について、文字中心間距離算出部64a、文
字中心間分散算出部64b、文字サイズ平均算出部64
cにおいて各パラメータの算出の対象としなかった文字
を加えた場合に、文字配置の安定性が無くなる文字を抽
出する。
【0098】外部文字候補生成部65bは、安定文字配
置行再判別部65aにより抽出された文字から、外部文
字候補を生成する。
【0099】さらに、外部文字行検索部66は、外部文
字候補抽出部65により生成された外部文字候補を起点
に文字行を再生成する部分であり、図に示すように直行
方向検索部66a、文字行再生成部66bにより構成さ
れる。
【0100】直行方向検索部66aは、外部文字候補を
起点として、その外部文字候補が所属する文字行と直行
する方向に文字を検索し、外部文字候補との位置関係や
文字の大きさから適切な文字を抽出する。
【0101】文字行再生成部66bは、外部文字候補と
直行方向検索部66aにより抽出された文字から、新規
の文字行を再生成する。
【0102】以上の構成を有する文字行抽出装置による
文字行抽出方法の動作について、名刺画像から文字行を
抽出する場合を例にとって以下に説明する。まず、文字
行抽出部2の大まかな動作について、図12を用いて説
明する。図12は文字行抽出部2の処理を示すフローチ
ャートである。ここでは、図13に示す名刺から文字行
を抽出するものとする。まず、文字領域抽出部2の基本
文字行抽出部3は、画像入力部1から入力された名刺の
画像データから、公知の技術により文字行を抽出する。
これにより図14のL、L・・・で示すような文字行が
得られる。また、図14のN、N・・・で示すような文
字行以外のものが、文字やノイズとして抽出される(ス
テップ101)。次に第1文字行補正部4は文字行とし
て抽出されていない郵便番号文字を集め、新たに郵便番
号行を抽出し(ステップ102)。さらに、第2文字行
補正部5、第3文字行補正部6は文字行抽出結果を補正
する(ステップ103、ステップ104)。
【0103】以下に、各構成部分の動作についてさらに
詳細に説明する。まず、第1文字行補正部4の動作につ
いて図15を用いて説明する。図15は第1文字行補正
部4の動作を示すフローチャートである。第1文字行補
正部4の再構成起点領域選択部41は、抽出された文字
行の中から、文字行の幅、長さ、文字数等から適切な文
字行を、再構成起点領域として選択する(ステップ20
1)。そして、遊離副方向郵便番号行抽出部43は再構
成起点領域より上部において郵便番号行を抽出する(ス
テップ202)。包含副方向郵便番号行抽出部44は、
ステップ202により郵便番号行が抽出されなかった場
合に(ステップ203)、再構成起点領域の上端付近に
おいて郵便番号行を抽出する(ステップ204)。さら
に、パック文字修正部45は、ステップ204により郵
便番号行が抽出されなかった場合に(ステップ20
5)、分離しているパック文字を再構成起点領域中の文
字行に統合する(ステップ206)。
【0104】ここで、再構成起点領域選択部41は、基
本文字行抽出部3から入力された文字行の中から、文字
行の幅、長さ、文字数等から適切な文字行を、再構成起
点領域として選択するが、ここでは、より高度な住所領
域抽出部42を再構成起点領域選択部41の代替部とし
て用い、住所領域抽出部42により抽出される住所領域
を再構成起点領域として使用する動作について以下に説
明する。
【0105】住所領域抽出部42の動作について図16
を用いて説明する。図16は住所領域抽出部42の動作
を示すフローチャートである。住所領域抽出部42の区
画分割部4202aは、画像データを2×2の4つの領
域に分割し、それぞれを住所候補区画として生成する
(ステップ301)。例えば、図13の画像に対して図
17のB1、B2、B3、B4に示す4つの住所候補区
画が得られる。住所候補行抽出部4201は、基本文字
行抽出部3から入力された各文字行について、住所行の
可能性が高いものを住所候補行とし(ステップ30
2)、所属行計数部4202bは、その住所候補行の中
心位置から所属する住所候補区画を判断し(ステップ3
03)、所属した住所候補区画の所属行数を更新する
(ステップ304)。住所候補行抽出部4201、所属
行計数部4202bは、以上の動作(ステップ302か
らステップ304)を基本文字行抽出部3で生成された
全ての文字行の処理がされるまで繰り返す(ステップ3
05)。そして、住所区画決定部4202cは、4つの
住所候補区画の中から最も多く所属行を持つものを、住
所区画として選択する(ステップ306)。ステップ3
01からステップ305により図18のC、C・・・の
ような住所候補行の中心位置と、図18のB1、B2、
B3、B4に示す4つの住所候補区画の関係が得られ、
ステップ306により図18のB4が住所区画として選
択される。ここで、画像データが回転した状態で入力さ
れた場合、図19の例ではB1が、図20の例ではB2
が、図21の例ではB3がそれぞれ住所区画として選択
される。
【0106】住所行抽出部4203は、住所候補行の中
から住所区画に所属するものを住所行として抽出する
(ステップ307)。副住所行抽出部4204は、住所
行との行間が適切な範囲で、かつ、住所行の行頭から行
末間にほぼ収まっている文字行を副住所行として抽出す
る(ステップ308)。住所領域生成部4205は、住
所行と副住所行の外接矩形を住所領域として生成する
(ステップ309)。ステップ307により図22の
J、J・・・のような住所行が得られ、ステップ308
により図23のSのような副住所行が得られ、ステップ
309により図24のAのような住所領域が得られる。
【0107】次に、遊離副方向郵便番号行抽出部43の
動作について図25を用いて説明する。図25は遊離副
方向郵便番号行抽出部43の動作を示すフローチャート
である。遊離副方向郵便番号行抽出部43の遊離副方向
郵便番号行抽出領域決定部4301は、住所領域を基準
とし、その住所領域からの相対的な位置と大きさによ
り、遊離副方向郵便番号行抽出領域を設定する(ステッ
プ401)。郵便番号文字候補検索部4302は、文字
行、文字、ノイズ等の中から遊離副方向郵便番号行抽出
領域内に存在するものを郵便番号文字候補として抽出す
る(ステップ402)。遊離副方向郵便番号行作成部4
303は、抽出された郵便番号文字候補を、相互の位置
関係や統合時の形状等を考慮し、適宜接続を行い郵便番
号行を作成する(ステップ403)。ステップ401に
より図26(a)のEのような遊離副方向郵便番号行抽
出領域が設定され、ステップ402により図26(b)
のR、R・・・のような郵便番号文字候補が得られ、ス
テップ403により図26(c)のYのような郵便番号
行が得られる。
【0108】次に、包含副方向郵便番号行抽出部44の
動作について図27を用いて説明する。図27は包含副
方向郵便番号行抽出部44の動作を示すフローチャート
である。包含副方向郵便番号行抽出部44の包含副方向
郵便番号行抽出領域決定部4401は、住所領域を基準
とし、その住所領域からの相対的な位置と大きさによ
り、包含副方向郵便番号行抽出領域を設定する(ステッ
プ501)。郵便番号文字候補検索部4402は、文字
行、文字、ノイズ等の中から包含副方向郵便番号行抽出
領域内に存在するものを郵便番号文字候補として抽出す
る(ステップ502)。包含副方向郵便番号行作成部4
403は、郵便番号文字候補と、住所行の上端付近の文
字を、相互の位置関係や統合時の形状等を考慮し、適宜
接続を行い郵便番号行を作成する(ステップ503)。
文字行再構成部4404は、住所行中の一部の文字が郵
便番号行として使用されたものについて、それらの文字
を抜いた形で住所行を作成し直す(ステップ504)。
例えば、基本文字行抽出部3により図28(a)のL、
L・・・のような文字行とN、N・・・のようなノイズ
が抽出され、住所領域抽出部42により図28(b)の
Aのような住所領域が得られている場合、ステップ50
1により図28(c)のEのような包含副方向郵便番号
行抽出領域が設定され、ステップ502により図29
(a)のR、R・・・のような郵便番号文字候補が得ら
れ、ステップ503からステップ504により図29
(b)のYのような郵便番号行とL、L・・・のような
住所行が得られる。
【0109】次に、パック文字修正部45の動作につい
て図30を用いて説明する。図30はパック文字修正部
45の動作を示すフローチャートである。パック文字修
正部45の分離パック文字抽出領域決定部4501は、
住所領域を基準とし、その住所領域からの相対的な位置
と大きさにより、分離パック文字抽出領域を設定する
(ステップ601)。分離パック文字検索部4502
は、文字、ノイズ等の中から分離パック文字抽出領域内
に存在するものを分離パック文字として抽出する(ステ
ップ602)。分離パック文字統合部4503は、各分
離パック文字について、近接する位置に住所行(副住所
行も含む)が存在する場合(ステップ603)、当該住
所行にその分離パック文字を統合する形で住所行を作成
し直す(ステップ604)。以上の動作(ステップ60
3からステップ604)を分離パック文字検索部450
2で抽出された全ての分離パック文字の処理がされるま
で繰り返す(ステップ605)。例えば、基本文字行抽
出部3により図31(a)のL、L・・・のような文字
行とN、N・・・のようなノイズが抽出され、住所領域
抽出部42により図31(b)のAのような住所領域が
得られている場合、ステップ601により図31(c)
のEのような分離パック文字抽出領域が設定され、ステ
ップ602により図32(a)のR、R・・・のような
分離パック文字が得られ、ステップ603からステップ
605により図32(b)のL、L・・・のような住所
行が得られる。
【0110】以上の第1文字行補正部4までの処理で、
多くの文字行抽出結果の補正が完了するが、図33に示
すような全ての郵便番号文字が他の文字行に属した場合
には、補正を行なうことができない。このような場合、
第2文字行補正部5による文字行の補正を行なうと好適
である。
【0111】第2文字行補正部5の動作について図34
を用いて説明する。図34は第2文字行補正部5の動作
を示すフローチャートである。第2文字行補正部5の単
独文字抽出部51は、基本文字行抽出部3による抽出結
果、または、第1文字行補正部4により補正された抽出
結果の中から、文字行に含まれず単独で存在する文字を
抽出する(ステップ701)。文字行開始位置文字抽出
部52は、適切な長さと文字数を有する文字行から(ス
テップ702)、文字行開始位置に存在する文字を抽出
する(ステップ703)。そして、開始記号判定部53
は、抽出された文字に対して〒記号や顔記号等の郵便番
号行の初めに書かれている文字との類似度を計算し(ス
テップ704)、その類似度が高かった文字から、開始
記号を生成する(ステップ705、ステップ706)。
以上の動作(ステップ705からステップ706)を抽
出された全ての文字について処理がされるまで繰り返す
(ステップ707)。さらに、郵便番号文字検索部54
は、開始記号をきっかけに郵便番号行を抽出する(ステ
ップ708)。例えば、第2文字行補正部5により図1
4のL、L・・・のような文字行とN、N・・・のよう
なノイズが補正された抽出結果として得られている場
合、ステップ701により図14のN、N・・・のよう
な矩形が単独文字として抽出される。また、第2文字行
補正部5により図33のL、L・・・のような文字行が
補正された抽出結果として得られている場合、ステップ
701では文字が抽出されず、ステップ702からステ
ップ703により図35(a)のM、M・・・のような
文字が得られ、ステップ704からステップ707によ
り図35(b)のO、O・・・のような開始記号が得ら
れる。
【0112】郵便番号文字検索部54の動作について図
36を用いて詳細に説明する。図36は郵便番号文字検
索部54の動作を示すフローチャートである。郵便番号
文字検索部54の第1水平方向検索部5401は、開始
記号を起点に水平方向に5文字、または、7文字の郵便
番号文字を抽出する(ステップ801)。第2水平方向
検索部5402は、ステップ801において郵便番号文
字が抽出されなかった場合のみ(ステップ802)、開
始記号を起点にその下方から水平方向に5文字、また
は、7文字の郵便番号文字を抽出する(ステップ80
3)。さらに、2段組検索部5403は、ステップ80
3において郵便番号文字が抽出されなかった場合のみ
(ステップ804)、開始記号を起点に水平方向に3文
字分の郵便番号文字を抽出し、その下方から水平方向に
2文字、または、4文字の郵便番号文字を抽出する(ス
テップ805)。さらに、3段組検索部5404は、ス
テップ805において郵便番号文字が抽出されなかった
場合のみ(ステップ806)、開始記号を起点にその下
方から水平方向に3文字分の郵便番号文字を抽出し、そ
の下方から水平方向に2文字、または、4文字の郵便番
号文字を抽出する(ステップ807)。さらに、4段組
検索部5405は、ステップ807において郵便番号文
字が抽出されなかった場合のみ(ステップ808)、開
始記号を起点にその下方から水平方向に3文字分の郵便
番号文字を抽出し、その下方にハイフンを抽出し、さら
にその下方から水平方向に2文字、または、4文字の郵
便番号文字を抽出する(ステップ809)。そして、文
字行再構成部5406は、いずれかの検索により郵便番
号文字が抽出された場合のみ(ステップ802、ステッ
プ804、ステップ806、ステップ808、ステップ
810)、抽出された郵便番号文字から新たに郵便番号
行を生成し、それらの郵便番号文字が所属していた元の
文字行を修正する。以上の動作(ステップ801からス
テップ811)を生成された全ての開始記号について処
理がされるまで繰り返す(ステップ812)。
【0113】ここで、第1水平方向検索部5401の動
作について図37を用いてさらに詳細に説明する。図3
7は第1水平方向検索部5401の動作を示すフローチ
ャートである。第1水平方向検索部5401は、開始記
号から右方向に1つの文字(1つの文字矩形情報であ
り、複数の文字が含まれている可能性あり)を検索する
(ステップ901)。仮文字切り出し部5407は、文
字が見つかった場合のみ(ステップ902)、その文字
に対して仮文字切り出しを行ない、仮文字矩形を生成す
る(ステップ903)。さらに、仮文字認識部5408
は、仮文字矩形に対し仮文字認識をする(ステップ90
4)。第1水平方向検索部5401は、仮文字認識の結
果、郵便番号文字である可能性が高かった場合(ステッ
プ905)、郵便番号文字として保持し、その郵便番号
文字が7桁分揃うまで、以上の動作(ステップ901か
らステップ905)を繰り返す(ステップ906)。郵
便番号DB検索部5409は、郵便番号文字が7桁分揃
った場合(ステップ906)、データベースを検索し、
実在する7桁の郵便番号である場合のみ、それらの郵便
番号文字を保持し、実在しない場合には、それらの郵便
番号文字を破棄する(ステップ907)。また、郵便番
号文字が7桁分揃う以前に、開始記号から右方向に文字
が見つからなかった場合や(ステップ902)、仮文字
認識の結果、郵便番号文字である可能性が低かった場合
において(ステップ905)、既に保持している郵便番
号文字が5桁分揃っている場合にのみ(ステップ90
8)、データベースを検索し、実在する5桁の郵便番号
である場合のみ、それらの郵便番号文字を保持し、実在
しない場合には、それらの郵便番号文字を破棄する(ス
テップ909)。一方、郵便番号文字が7桁分揃う以前
に、開始記号から右方向に文字が見つからなかった場合
や(ステップ902)、仮文字認識の結果、郵便番号文
字である可能性が低かった場合において(ステップ90
5)、既に保持している郵便番号文字が5桁分揃ってい
なかった場合には、それらの郵便番号文字を破棄する
(ステップ908)。例えば、開始記号判定部53によ
り図35(b)のOのような開始記号が得られている場
合、ステップ901により図38のCRのような文字が
得られ、ステップ903により射影分布等を利用し図3
9のP1、P2の位置で文字が切り出され、ステップ9
04により「105」が認識され、さらに、ステップ9
01からステップ906の繰り返しにより図40のE
R、ER・・・のような文字切り出し結果と、「105
−1000」という郵便番号が得られ、ステップ907
により郵便番号データベースが参照され、実在する郵便
番号であることの確認が行なわれる。
【0114】第2水平方向検索部5402、2段組検索
部5403、3段組検索部5404、4段組検索部54
05の動作については、ステップ901の開始記号から
の検索が、それぞれ、図10(b)、(c)、(d)、
(e)の形状に合わせる形で行なわれるだけで、基本的
に第1水平方向検索部5401と同様である。
【0115】最後に、第3文字行補正部6の動作につい
て図41を用いて説明する。図41は第3文字行補正部
6の動作を示すフローチャートである。第3文字行補正
部6の文字矩形補正部61は基本文字行抽出部3により
抽出された文字行、または、第1文字行補正部4により
補正された文字行、または、第2文字行補正部5により
補正された文字行の中から、文字行の幅、長さ、文字数
等から適切な文字行について(ステップ1001)、当
該文字行の文字(1つの文字矩形情報であり、複数の文
字が含まれている可能性あり)を補正する。その際、仮
文字切り出し部62と仮文字認識部63は、当該文字行
について仮文字切り出しと仮文字認識を行ない、正確な
文字の区切り位置を見つけ、文字の補正に必要な情報を
文字矩形補正部61に渡す(ステップ1002)。さら
に、安定文字配置行選択部64は、当該文字行中の行
頭、および、行末の数文字を除いた中央部の文字を選択
し(ステップ1003)、選択した文字の配置の安定性
を調べる(ステップ1004)。そして、外部文字候補
抽出部65は、選択した文字の配置に安定性が有った場
合のみ(ステップ1005)、当該文字行から外部文字
候補を抽出する(ステップ1006)。以上の動作(ス
テップ1002からステップ1006)を第3文字行補
正部6の文字矩形補正部61は基本文字行抽出部3によ
り抽出された文字行、または、第1文字行補正部4によ
り補正された文字行、または、第2文字行補正部5によ
り補正された文字行について処理がされるまで繰り返す
(1001)。さらに、外部文字行検索部66は、抽出
された外部文字候補を起点に、その外部文字候補が所属
する文字行と直交する方向に文字の検索を行ない、新規
文字行の抽出を試みる(ステップ1007)。新規文字
行が抽出された場合のみ(ステップ1008)、新規文
字行の中の文字が従来所属していた文字行を再構成する
(ステップ1009)。そして、以上の動作(ステップ
1007からステップ1009)を抽出された全ての外
部文字候補について処理がされるまで繰り返す(101
0)。
【0116】安定文字配置行選択部64の動作について
図42を用いてさらに詳細に説明する。図42は安定文
字配置行選択部64の動作を示すフローチャートであ
る。安定文字配置行選択部64の文字サイズ平均算出部
64aは、字行中の行頭、および、行末の数文字を除い
た中央部の、選択された文字について、その大きさの平
均値を算出する(ステップ1101)。また、文字中心
間距離算出部64bは、選択された文字の中心位置の間
隔の平均値を算出する(ステップ1102)。さらに、
文字中心間分散算出部64cは、選択された文字の中心
位置の間隔の分散値を算出する(ステップ1103)。
そして、安定文字配置行判別部64dは、文字のサイズ
の平均値と中心間距離の平均値から比べ、文字の中心間
距離の分散値が十分小さいかにより、文字の配置の安定
度の有無を判別する(ステップ1104)。
【0117】次に、外部文字候補抽出部65の動作につ
いて図43を用いてさらに詳細に説明する。図43は外
部文字候補抽出部65の動作を示すフローチャートであ
る。外部文字候補抽出部65の安定文字配置行再判定部
65aは、選択された文字の配置に安定性が有ると判別
された文字行について、文字行中で選択されていない開
始位置、または、終了位置の1文字も合わせて選択し
(ステップ1201)、安定文字配置行選択部64を利
用し、再び文字の配置の安定度の有無を判別する(ステ
ップ1202)。そして、安定性が無いと判別された場
合のみ(ステップ1203)、ステップ1201におい
て選択された文字に追加した1文字を、新たに外部文字
候補として生成する(ステップ1204)。以上の動作
(ステップ1201からステップ1204)を選択され
た文字の配置に安定性が有ると判別された文字行につい
て処理がされるまで繰り返す(1205)。
【0118】例えば、第2文字行補正部5により図44
のL1、L2、L3・・・のような文字行が補正された
抽出結果として得られ、さらに、文字行L1が図45
(a)のCR、CR・・・のような文字矩形で構成さ
れ、文字行L2が図45(b)のCR、CR・・・のよ
うな文字矩形で構成され、文字行L3が図45(c)の
CR、CR・・・のような文字矩形で構成されている場
合、ステップ1001からステップ1002により文字
行L3のみ図46(a)のCR1、CR2・・・CR7
のような文字矩形が、図46(a)のPの位置で分割さ
れ、図46(b)のCR1、CR2・・・CR8に示す
文字矩形に補正され、さらに、ステップ1003により
文字行L1は図47(a)のSC0、SC0・・・のよ
うな文字矩形が選択され、文字行L2は図47(b)の
SC0、SC0・・・のような文字矩形が選択され、文
字行L3は図47(c)のSC0、SC0・・・のよう
な文字矩形が選択され、ステップ1004により文字行
L1は図47(a)のD0、D0・・・のような文字の
中心位置の間隔から文字配置の安定性無しと判別され、
文字行L2は図47(b)のD0、D0・・・のような
文字の中心位置の間隔から文字配置の安定性有りと判別
され、文字行L3は図47(c)のD0、D0・・・の
ような文字の中心位置の間隔から文字配置の安定性有り
と判別される。そして、ステップ1005により安定性
ありと判別された文字行L2とL3のみステップ100
6が行なわれ、ステップ1006により文字行L2は図
48(a)のSC1のような安定性の判別に使用されな
かった文字矩形を新たに1文字加え、図48(a)のD
1、D0、D0・・・のような文字の中心位置の間隔か
ら、文字配置の安定性有りと判別され、外部文字候補は
生成されない。また、文字行L3は図48(b)のSC
1のような安定性の判別に使用されなかった文字矩形を
新たに1文字加え、図48(b)のD1、D0、D0・
・・のような文字の中心位置の間隔から、文字配置の安
定性無しと判別され、図49(c)のECのような外部
文字候補が生成される。そして、ステップ1007によ
り図50のCR、CR・・・のような文字矩形が抽出さ
れ、ステップ1008からステップ1009により図5
1のL、L・・・のような文字行が抽出される。
【0119】ところで、以上の実施形態では、名刺から
文字を抽出する場合を例に挙げており、文字行、文字、
ノイズ等の接続のパラメータや抽出領域設定時の住所領
域からの相対位置等の、任意に設定できる変数の値等は
慣用されている名刺の大きさやレイアウト等から経験
的、または実験的に定めることができる。そして、この
各種の変数の値は文字行を抽出する対象が変わることに
よって、異なる値を採用できることは言うまでもない。
【0120】
【発明の効果】以上のように、まず、本願発明に係る文
字行抽出方法および装置では、画像データから公知の技
術により文字行が生成された後、再構成起点領域が抽出
され、抽出された再構成起点領域の上端からさらに上の
部分に、再構成起点領域と直交する方向の郵便番号行が
存在する可能性がある遊離副方向郵便番号行抽出領域を
設定し、その領域内に存在する文字行、文字、ノイズを
抽出する。そして、それらを相互の位置関係や接続時の
形状等を考慮しつつ接続を行い、郵便番号行を抽出す
る。このようにして、従来の方法では抽出が困難であっ
た、文字行の上端からさらに上の部分に存在し、その文
字行と直交する行方向の郵便番号等の文字行を、従来の
方法での文字行抽出結果を補正することで、正確にかつ
効率よく文字行を抽出することができ、文字認識率の向
上を図ることができる。
【0121】そして、本願発明に係る文字行抽出方法お
よび装置では、画像データから公知の技術により文字行
が生成された後、再構成起点領域が抽出され、抽出され
た再構成起点領域の上端付近に、再構成起点領域と直交
する方向の郵便番号行が存在する可能性がある包含副方
向郵便番号行抽出領域を設定し、その領域内に存在する
文字行、文字、ノイズを抽出する。そして、それらを相
互の位置関係や接続時の形状等を考慮しつつ接続を行
い、郵便番号行を抽出する。このようにして、従来の方
法では抽出が困難であった、文字行の上端付近に存在
し、その文字行と直交する行方向の郵便番号等の文字行
を、従来の方法での文字行抽出結果を補正することで、
正確にかつ効率よく文字行を抽出することができ、文字
認識率の向上を図ることができる。
【0122】また、本願発明に係る文字行抽出方法およ
び装置では、画像データから公知の技術により文字行が
生成された後、再構成起点領域が抽出され、抽出された
再構成起点領域の上端から1文字から数文字分下の付近
に、再構成起点領域中の文字行に含まれるべき郵便番号
の一部が取りこぼされている可能性がある分離パック文
字抽出領域を設定し、その領域内に存在する文字、ノイ
ズを抽出する。そして、それらを再構成起点領域中の文
字行との相互の位置関係や接続時の形状等を考慮しつつ
接続を行い、再構成起点領域中の文字行と統合する。こ
のようにして、従来の方法では抽出が困難であった、行
方向と直交する方向に複数の郵便番号等の文字を並べ、
1つの文字と同様な形で、埋め込まれた部分を持つ文字
行を、従来の方法での文字行抽出結果を補正すること
で、正確にかつ効率よく文字行を抽出することができ、
文字認識率の向上を図ることができる。
【0123】上記3つの文字行抽出方法において、それ
ぞれの文字行を補正する方法を、従来の文字行抽出方法
または装置の失敗傾向に合わせて、あるいは、対象とす
る画像に合わせて、自由に組み合わせて使用することが
可能である。
【0124】また、上記文字行抽出方法および装置にお
いて、対象とする画像データが、住所、電話番号、FA
X番号等が書かれた住所行と、郵便番号行が、比較的ま
とまった領域に書かれているものである場合、その全て
の住所行を囲む外接矩形を住所領域とし、再構成起点領
域の代替領域として用いると、より正確な文字行の抽出
が可能となり、効率も上がることとなる。
【0125】そして、本願発明に係る文字行抽出方法お
よび装置では、画像データから公知の技術により文字行
が生成された後、その文字行の形状や文字数により住所
行の可能性があると思われるもの選択し、それらが、最
も多く所属する画像データを4分割した領域を住所区画
とし、選択した住所区画内の当該文字行を住所行とし、
住所行の外接矩形を求めることで住所領域を抽出する。
【0126】また、住所行の外接矩形を求める前に、住
所行との間隔が小さく、かつ、住所行の行頭から行末間
にほぼ収まっている文字行を、副住所行として抽出し、
住所行と副住所行の外接矩形を住所領域とすることで、
住所領域の精度を増すことができる。
【0127】このように、例えば名刺等の、住所行と、
郵便番号行が、比較的まとまった領域に書かれている画
像データに対しては、さらに正確な文字行の抽出が可能
となり、効率も上がることとなる。
【0128】また、本願発明に係る文字行抽出方法およ
び装置では、画像データから公知の技術により文字行が
生成された後、その抽出された文字行に属さず単独の1
文字で存在する文字と、抽出された文字行の行開始位置
に存在する文字について、〒記号や顔記号等との類似度
を計算し、類似度の高いものを開始記号として抽出す
る。そして、抽出された開始記号を起点とし、改めて郵
便番号行を抽出する。このようにして、従来の方法では
抽出が困難であった、郵便番号行を、従来の方法での文
字行抽出結果を補正することで、正確にかつ効率よく文
字行を抽出することができ、文字認識率の向上を図るこ
とができる。
【0129】さらに、上記文字行抽出方法および装置に
おいて、開始記号を起点とし、改めて郵便番号行を抽出
する際に、仮文字切り出し、および、仮文字認識を行な
い、郵便番号文字が0から9までのいずれかの数字との
類似度が十分高いことを確認し、郵便番号行を抽出する
と、より正確な文字行の抽出が可能となり、効率も上が
ることとなる。
【0130】そして、上記文字行抽出方法および装置に
おいて、郵便番号を文字認識し、その認識結果が郵便番
号データベースに存在することを確認し、郵便番号行を
抽出すると、さらに、より正確な文字行の抽出が可能と
なり、効率も上がることとなる。
【0131】また、本願発明に係る文字行抽出方法およ
び装置では、画像データから公知の技術により文字行が
生成された後、抽出された各文字行の行頭、および、行
末の数文字を除いた中央部の文字の配置について、それ
らの文字の大きさの平均値や、文字の中心位置の間隔の
平均値、分散値を基に、中央部の文字配置の安定性を判
別する。そして、安定性が有ると判別された文字行につ
いて、さらに、安定性の判別に使用しなかった文字行の
行頭、または、行末の1文字を加えた文字について、文
字配置の安定性を再び判別し、安定性が損なわれると判
別された際に加えていた1文字を、外部文字候補として
抽出する。そして、その外部文字候補を起点とし、その
外部文字候補が所属していた文字行と直交する方向に、
改めて文字行を抽出する。このようにして、従来の方法
では抽出が困難であった、他の文字行中に埋もれ、か
つ、その文字行と直交する行方向を持つ文字行を、従来
の方法での文字行抽出結果を補正することで、正確にか
つ効率よく文字行を抽出することができ、文字認識率の
向上を図ることができる。
【0132】そして、上記文字行抽出方法および装置に
おいて、抽出された各文字行の行頭、および、行末の数
文字を除いた中央部の文字の配置について、安定性を判
別する前に、抽出された各文字行に対して、仮文字切り
出し、仮文字認識を行ない、その文字行を構成する文字
矩形を補正すると、より正確な文字行の抽出が可能とな
り、効率も上がることとなる。
【図面の簡単な説明】
【図1】本発明の文字行抽出方法を用いた文字認識装置
の一例を示すブロック図
【図2】第1文字行補正部の構成を示すブロック図
【図3】遊離副方向郵便番号行抽出部の構成を示すブロ
ック図
【図4】包含副方向郵便番号行抽出部の構成を示すブロ
ック図
【図5】パック文字修正部の構成を示すブロック図
【図6】パック文字の一例を示す図
【図7】住所領域抽出部の構成を示すブロック図
【図8】第2文字行補正部の構成を示すブロック図
【図9】郵便番号文字検索部の構成を示すブロック図
【図10】(a)は第1水平方向検索部が抽出対象とす
る郵便番号の一例を示す図 (b)は第2水平方向検索部が抽出対象とする郵便番号
の一例を示す図 (c)は2段組検索部が抽出対象とする郵便番号の一例
を示す図 (d)は3段組検索部が抽出対象とする郵便番号の一例
を示す図 (e)は4段組検索部が抽出対象とする郵便番号の一例
を示す図
【図11】第3文字行補正部の構成を示すブロック図
【図12】文字行抽出部の処理を示すフローチャート
【図13】画像入力部から入力される画像データの一例
を示す図
【図14】画像データから基本文字行を抽出したところ
を示す図
【図15】第1文字行補正部の処理を示すフローチャー
【図16】住所領域抽出部の処理を示すフローチャート
【図17】区画分割部にて、画像データを4つの住所候
補区画に分割したところを示す図
【図18】住所区画抽出部における住所候補行の中心位
置と住所候補区画の関係の一例を示す図
【図19】右90°回転した画像データに対して、住所
区画抽出部における住所候補行の中心位置と住所候補区
画の関係の一例を示す図
【図20】右180°回転した画像データに対して、住
所区画抽出部における住所候補行の中心位置と住所候補
区画の関係の一例を示す図
【図21】右270°回転した画像データに対して、住
所区画抽出部における住所候補行の中心位置と住所候補
区画の関係の一例を示す図
【図22】住所行抽出部において、住所行を抽出したと
ころを示す図
【図23】副住所行抽出部において、副住所行を抽出し
たところを示す図
【図24】住所領域抽出部において、住所領域を抽出し
たところを示す図
【図25】遊離副方向郵便番号行抽出部の処理を示すフ
ローチャート
【図26】(a)は遊離副方向郵便番号行抽出領域の例
を示す図 (b)は郵便番号文字候補の例を示す図 (c)は郵便番号行の例を示す図
【図27】包含副方向郵便番号行抽出部の処理を示すフ
ローチャート
【図28】(a)は文字行およびノイズの例を示す図 (b)は住所領域の例を示す図 (c)は包含副方向郵便番号行抽出領域の例を示す図
【図29】(a)は郵便番号文字候補の例を示す図 (b)は郵便番号行と住所行の例を示す図
【図30】パック文字修正部の処理を示すフローチャー
【図31】(a)は文字行およびノイズの例を示す図 (b)は住所領域の例を示す図 (c)は分離パック文字抽出領域の例を示す図
【図32】(a)は分離パック文字の例を示す図 (b)は住所行の例を示す図
【図33】第1文字行補正部において、文字行が補正で
きない一例を示す図
【図34】第2文字行補正部の処理を示すフローチャー
【図35】(a)は文字行開始位置文字抽出部におい
て、文字を抽出したところを示す図 (b)は開始記号判定部において、開始記号を抽出した
ところを示す図
【図36】郵便番号文字検索部の処理を示すフローチャ
ート
【図37】第1水平方向検索部の処理を示すフローチャ
ート
【図38】第1水平方向検索部において、文字矩形を抽
出したところを示す図
【図39】仮文字切り出し部および仮文字認識部におい
て、文字の切り出し位置を決定したところを示す図
【図40】第1水平方向検索部において、郵便番号を抽
出したところを示す図
【図41】第3文字行補正部の処理を示すフローチャー
【図42】安定文字配置行選択部の処理を示すフローチ
ャート
【図43】外部文字候補抽出部の処理を示すフローチャ
ート
【図44】第2文字行補正部において、文字行が補正で
きない一例を示す図
【図45】(a)は図44の文字行L1を構成する文字
矩形を示す図 (b)は図44の文字行L2を構成する文字矩形を示す
図 (c)は図44の文字行L3を構成する文字矩形を示す
【図46】(a)は図44の文字行L3を構成する文字
矩形と射影分布を示す図 (b)は文字矩形補正部において、文字矩形を補正した
ところを示す図
【図47】(a)は安定文字配置行選択部において、図
44の文字行L1の処理過程で中央部の文字を選択した
ところと、その文字の中心位置の距離を示す図 (b)は図44の文字行L2の処理過程で中央部の文字
を選択したところと、その文字の中心位置の距離を示す
図 (c)は図44の文字行L3の処理過程で中央部の文字
を選択したところと、その文字の中心位置の距離を示す
【図48】(a)は安定文字配置行再判別部において、
図44の文字行L2の処理過程で新規に文字を選択した
ところと、文字の中心位置の距離を示す図 (b)は図44の文字行L3の処理過程で新規に文字を
選択したところと、文字の中心位置の距離を示す図
【図49】(a)は外部文字候補生成部において、図4
4の文字行L1の中の外部文字候補を生成したところを
示す図 (b)は図44の文字行L2の中の外部文字候補を生成
したところを示す図 (c)は図44の文字行L3の中の外部文字候補を生成
したところを示す図
【図50】外部文字行検索部において、文字矩形を抽出
したところを示す図
【図51】外部文字行検索部において、文字行を補正し
たところを示す図
【符号の説明】
1 画像入力部 2 文字行抽出部 3 基本文字行抽出部 4 第1文字行補正部 5 第2文字行補正部 6 第3文字行補正部 7 文字認識部 41 再構成起点領域選択部 42 住所領域抽出部 43 遊離副方向郵便番号行抽出部 44 包含副方向郵便番号行抽出部 45 パック文字修正部 51 単独文字抽出部 52 文字行開始位置文字抽出部 53 開始記号判定部 54 郵便番号文字検索部 61 文字矩形補正部 62 仮文字切り出し部 63 仮文字認識部 64 安定文字配置行選択部 64a 文字サイズ平均算出部 64b 文字中心間距離算出部 64c 文字中心間分散算出部 64d 安定文字配置行判別部 65 外部文字候補抽出部 65a 安定文字配置行再判別部 65b 外部文字候補生成部 66 外部文字行検索部 4201 住所候補行抽出部 4202 住所区画抽出部 4202a 区画分割部 4202b 所属行計数部 4202c 住所区画決定部 4203 住所行抽出部 4204 副住所行抽出部 4205 住所領域生成部 4301 遊離副方向郵便番号行抽出領域決定部 4302 郵便番号文字候補検索部 4303 遊離副方向郵便番号行作成部 4401 包含副方向郵便番号行抽出領域決定部 4402 郵便番号文字候補検索部 4403 包含副方向郵便番号行作成部 4404 文字行再構成部 4501 分離パック文字抽出領域決定部 4502 分離パック文字検索部 4503 分離パック文字統合部 5401 第1水平方向検索部 5402 第2水平方向検索部 5403 2段組検索部 5404 3段組検索部 5405 4段組検索部 5406 文字行再構成部 5407 仮文字切り出し部 5408 仮文字認識部 5407 郵便番号DB検索部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−87397(JP,A) 特開 平10−175385(JP,A) 特開 平10−31716(JP,A) 実開 昭63−31471(JP,U) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 B42D 15/02

Claims (26)

    (57)【特許請求の範囲】
  1. 【請求項1】文字行抽出ステップと、再構成起点領域選
    択ステップと、遊離副方向郵便番号文字抽出ステップ
    と、遊離副方向郵便番号行生成ステップにより構成され
    る文字行抽出方法であって、 文字行抽出ステップが、処理対象の画像データから文字
    行を抽出するステップであり、 再構成起点領域選択ステップが、抽出された文字行か
    ら、適切な大きさと文字数で構成されるものを再構成起
    点領域として選択するステップであり、 遊離副方向郵便番号文字抽出ステップが、 選択された再構成起点領域の上端からさらに上の部分
    に、再構成起点領域と直交する方向の郵便番号行が存在
    する可能性がある領域を、遊離副方向郵便番号行抽出領
    域として、当該再構成起点領域との相対的な位置、およ
    び、相対的な大きさにより生成する遊離副方向郵便番号
    行抽出領域生成ステップと、 生成された遊離副方向郵便番号行抽出領域内に存在す
    る、文字行、文字、ノイズを、遊離副方向郵便番号文字
    候補として抽出する郵便番号文字候補抽出ステップとか
    らなり、 遊離副方向郵便番号行生成ステップが、抽出された遊離
    副方向郵便番号文字候補の位置関係から、郵便番号行を
    生成するステップである文字行抽出方法。
  2. 【請求項2】文字行抽出ステップと、再構成起点領域選
    択ステップと、包含副方向郵便番号文字抽出ステップ
    と、包含副方向郵便番号行生成ステップにより構成され
    る文字行抽出方法であって、 文字行抽出ステップと、再構成起点領域選択ステップ
    が、 請求項1記載の文字行抽出ステップと、再構成起点領域
    選択ステップと同様のステップであり、 包含副方向郵便番号文字抽出ステップが、選択された再
    構成起点領域の上端付近に、再構成起点領域と直交する
    方向の郵便番号行が存在する可能性がある領域を、包含
    副方向郵便番号行抽出領域として、当該再構成起点領域
    との相対的な位置、および、相対的な大きさにより生成
    する包含副方向郵便番号行抽出領域生成ステップと、 生成された包含副方向郵便番号行抽出領域内に存在す
    る、文字行、文字、ノイズを、包含副方向郵便番号文字
    候補として抽出する郵便番号文字候補抽出ステップとか
    らなり、 包含副方向郵便番号行生成ステップが、抽出された包含
    副方向郵便番号文字候補と、再構成起点領域の上端付近
    の文字の位置関係から、郵便番号行を生成し、再構成起
    点領域中の文字行を再生成するステップである文字行抽
    出方法。
  3. 【請求項3】文字行抽出ステップと、再構成起点領域選
    択ステップと、分離パック文字抽出ステップと、分離パ
    ック文字統合ステップにより構成される文字行抽出方法
    であって、 文字行抽出ステップと、再構成起点領域選択ステップ
    が、請求項1記載の文字行抽出ステップと、再構成起点
    領域選択ステップと同様のステップであり、 分離パック文字抽出ステップが、選択された再構成起点
    領域の上端から1文字から数文字分下の付近に、再構成
    起点領域中の文字行に含まれるべき郵便番号の一部が取
    りこぼされている可能性がある領域を、分離パック文字
    抽出領域として、当該再構成起点領域との相対的な位
    置、および、相対的な大きさにより生成する分離パック
    文字抽出領域生成ステップと、 生成された分離パック文字抽出領域内に存在する、文
    字、ノイズを、分離パック文字候補として抽出する分離
    パック文字候補抽出ステップとからなり、 分離パック文字統合ステップが、抽出された分離パック
    文字候補と、再構成起点領域中の文字行の位置関係か
    ら、当該分離パック文字候補を再構成起点領域中の文字
    行に統合するステップである文字行抽出方法。
  4. 【請求項4】前記遊離副方向郵便番号行生成ステップ以
    後に、 包含副方向郵便番号文字抽出ステップと、包含副方向郵
    便番号行生成ステップとを有し、 包含副方向郵便番号文字抽出ステップが、選択された再
    構成起点領域の上端付近に、再構成起点領域と直交する
    方向の郵便番号行が存在する可能性がある領域を、包含
    副方向郵便番号行抽出領域として、当該再構成起点領域
    との相対的な位置、および、相対的な大きさにより生成
    する包含副方向郵便番号行抽出領域生成ステップと、 生成された包含副方向郵便番号行抽出領域内に存在す
    る、文字行、文字、ノイズを、包含副方向郵便番号文字
    候補として抽出する郵便番号文字候補抽出ステップとか
    らなり、 包含副方向郵便番号行生成ステップが、抽出された包含
    副方向郵便番号文字候補と、再構成起点領域の上端付近
    の文字の位置関係から、郵便番号行を生成し、再構成起
    点領域中の文字行を再生成するステップである請求項1
    記載の文字行抽出方法。
  5. 【請求項5】前記包含副方向郵便番号行生成ステップ以
    後に、 分離パック文字抽出ステップと、分離パック文字統合ス
    テップとを有し、 分離パック文字抽出ステップが、選択された再構成起点
    領域の上端から1文字から数文字分下の付近に、再構成
    起点領域中の文字行に含まれるべき郵便番号の一部が取
    りこぼされている可能性がある領域を、分離パック文字
    抽出領域として、当該再構成起点領域との相対的な位
    置、および、相対的な大きさにより生成する分離パック
    文字抽出領域生成ステップと、 生成された分離パック文字抽出領域内に存在する、文
    字、ノイズを、分離パック文字候補として抽出する分離
    パック文字候補抽出ステップとからなり、 分離パック文字統合ステップが、抽出された分離パック
    文字候補と、再構成起点領域中の文字行の位置関係か
    ら、当該分離パック文字候補を再構成起点領域中の文字
    行に統合するステップである請求項2又は4記載の文字
    行抽出方法。
  6. 【請求項6】再構成起点領域選択ステップが、 抽出された文字行から、住所、電話番号、FAX番号等
    が書かれた住所行を抽出し、当該全ての住所行を囲む外
    接矩形を住所領域とし、再構成起点領域の代替領域とし
    て抽出する住所領域抽出ステップである、 請求項1から5いずれかに記載の文字行抽出方法。
  7. 【請求項7】前記住所領域抽出ステップが、 住所候補行抽出ステップと、住所区画抽出ステップと、
    住所行抽出ステップと、住所領域生成ステップにより構
    成され、 住所候補行抽出ステップが、 抽出された文字行から、当該文字行の形状が住所行に近
    い幅と長さを持つものを、住所候補行として抽出するス
    テップであり、 住所区画抽出ステップが、 処理対象の画像データ自体を2×2の4つの住所候補区
    画に分割する住所候補区画生成ステップと、 各住所候補行の中心位置から、その住所候補行が所属す
    る住所候補区画を判定し、各住所候補区画毎に当該住所
    候補行の数を計数する所属行計数ステップと、 最も多くの住所候補行が所属する住所候補区画を住所区
    画とする所属行数比較ステップとからなり、 住所行抽出ステップが、 抽出された住所候補行から、所属行計数ステップにおい
    て、抽出された住所区画に所属すると判定された当該住
    所候補行を、住所行として抽出するステップであり、 住所領域生成ステップが、 抽出された住所行の外接矩形を、住所領域として生成す
    るステップである請求項6記載の文字行抽出方法。
  8. 【請求項8】前記住所領域抽出ステップにおける住所領
    域生成ステップ以前に、 抽出された住所行を除いた文字行から、住所行と平行
    で、かつ、住所行の文字と同程度の文字で構成され、か
    つ、住所行との間隔が小さく、かつ、住所行の行頭から
    行末間にほぼ収まっている文字行を、副住所行として抽
    出するステップを有し、 住所領域抽出ステップにおける住所領域生成ステップ
    が、 抽出された住所行、および、副住所行の外接矩形を、住
    所領域として生成するステップである請求項7記載の文
    字行抽出方法。
  9. 【請求項9】文字行抽出ステップと、単独文字抽出ステ
    ップと、文字行開始位置文字抽出ステップと、開始記号
    判定ステップと、郵便番号文字検索ステップにより構成
    される文字行抽出方法であって、 文字行抽出ステップが、 処理対象の画像データから文字行を抽出するステップで
    あり、 単独文字抽出ステップが、 文字行に属さず単独の1文字で存在すると判定された文
    字を抽出するステップであり、 文字行開始位置文字抽出ステップが、 抽出された各文字行の行開始位置に存在する文字を抽出
    するステップであり、開始記号判定ステップが、 単独文字抽出ステップ、および、文字行開始位置文字抽
    出ステップによって抽出された文字と、〒記号や顔記号
    等との類似度を計算し、類似度の高いものを開始記号と
    して抽出するステップであり、 郵便番号文字検索ステップが、 抽出された開始記号から、水平方向に5文字、または、
    7文字の郵便番号文字を抽出する第1水平方向検索ステ
    ップと、 抽出された開始記号から、その下方から水平方向に5文
    字、または、7文字の郵便番号文字を抽出する第2水平
    方向検索ステップと、 抽出された開始記号から、水平方向に3文字分の郵便番
    号文字を抽出し、その下方から水平方向に2文字、また
    は、4文字の郵便番号文字を抽出する2段組検索ステッ
    プと、 抽出された開始記号から、その下方から水平方向に3文
    字分の郵便番号文字を抽出し、その下方から水平方向に
    2文字、または、4文字の郵便番号文字を抽出する3段
    組検索ステップと、 抽出された開始記号から、その下方から水平方向に3文
    字分の郵便番号文字を抽出し、その下方にハイフンを抽
    出し、さらにその下方から水平方向に2文字、または、
    4文字の郵便番号文字を抽出する4段組検索ステップ
    と、 抽出された郵便番号文字から、郵便番号行を生成する文
    字行再構成ステップを有する文字行抽出方法。
  10. 【請求項10】第1水平方向検索ステップ、第2水平方
    向検索ステップ、2段組検索ステップ、3段組検索ステ
    ップ、4段組検索ステップにおいて、 郵便番号文字を抽出する際に、仮文字切り出し、およ
    び、仮文字認識を行ない、郵便番号文字が0から9まで
    のいずれかの数字との類似度が十分高いことを確認する
    ステップを有する請求項9記載の文字行抽出方法。
  11. 【請求項11】文字行再構成ステップ以前に、 抽出された郵便番号文字に対して文字認識を行ない、そ
    の認識結果が郵便番号データベースに存在する場合の
    み、文字行再構成ステップを実行するステップを有する
    請求項9又は10記載の文字行抽出方法。
  12. 【請求項12】文字行抽出ステップと、安定文字配置行
    選択ステップと、外部文字候補抽出ステップと、外部文
    字行検索ステップにより構成される文字行抽出方法であ
    って、 文字行抽出ステップが、 処理対象の画像データから文字行を抽出するステップで
    あり、 安定文字配置行選択ステップが、 抽出された各文字行の行頭、および、行末の数文字を除
    いた中央部の文字について、当該文字の中心位置の間隔
    の平均値を算出する文字中心間距離算出ステップと、 当該文字の中心位置の間隔の分散値を算出する文字中心
    間分散算出ステップと、当該文字の文字矩形サイズの平
    均値を算出する文字サイズ平均算出ステップと、算出さ
    れた値から文字配置の安定性の有無を判別し、安定性が
    有る文字行を安定文字配置行として選択する安定文字配
    置行判別ステップとからなり、 外部文字候補抽出ステップが、 抽出された安定文字配置行について、文字中心間距離算
    出ステップと、文字中心間分散算出ステップと、文字サ
    イズ平均算出ステップにおいて、各値の算出に使用され
    なかった行頭、および、行末の数文字について、当該文
    字を加えて文字配置の安定性の有無を再び判別する安定
    文字配置行再判別ステップと、 安定性が無くなると判別された場合に、当該文字から外
    部文字候補を生成する外部文字候補生成ステップとから
    なり、 外部文字行検索ステップが、 抽出された外部文字候補から、外部文字候補が所属して
    いた文字行と直行する方向に文字を抽出する直行方向検
    索ステップと、 抽出された文字から、新規文字行を生成する文字行再生
    成ステップを有する文字行抽出方法。
  13. 【請求項13】安定文字配置行選択ステップ以前に、 文字行抽出ステップにおいて抽出された文字行に対し
    て、仮文字切り出し、仮文字認識を行ない、当該文字行
    を構成する文字矩形を補正するステップを有する請求項
    12記載の文字行抽出方法。
  14. 【請求項14】文字行抽出手段と、再構成起点領域選択
    手段と、遊離副方向郵便番号文字抽出手段と、遊離副方
    向郵便番号行生成手段により構成される文字行抽出装置
    であって、 文字行抽出手段が、 処理対象の画像データから文字行を抽出する手段であ
    り、 再構成起点領域選択手段が、 抽出された文字行から、適切な大きさと文字数で構成さ
    れるものを再構成起点領域として選択する手段であり、 遊離副方向郵便番号文字抽出手段が、 選択された再構成起点領域の上端からさらに上の部分
    に、再構成起点領域と直交する方向の郵便番号行が存在
    する可能性がある領域を、遊離副方向郵便番号行抽出領
    域として、当該再構成起点領域との相対的な位置、およ
    び、相対的な大きさにより生成する遊離副方向郵便番号
    行抽出領域生成手段と、 生成された遊離副方向郵便番号行抽出領域内に存在す
    る、文字行、文字、ノイズを、遊離副方向郵便番号文字
    候補として抽出する郵便番号文字候補抽出手段とからな
    り、 遊離副方向郵便番号行生成手段が、 抽出された遊離副方向郵便番号文字候補の位置関係か
    ら、郵便番号行を生成する手段である文字行抽出装置。
  15. 【請求項15】文字行抽出手段と、再構成起点領域選択
    手段と、包含副方向郵便番号文字抽出手段と、包含副方
    向郵便番号行生成手段により構成される文字行抽出装置
    であって、 文字行抽出手段と、再構成起点領域選択手段が、 請求項14記載の文字行抽出手段と、再構成起点領域選
    択手段と同様の手段であり、 包含副方向郵便番号文字抽出手段が、 選択された再構成起点領域の上端付近に、再構成起点領
    域と直交する方向の郵便番号行が存在する可能性がある
    領域を、包含副方向郵便番号行抽出領域として、当該再
    構成起点領域との相対的な位置、および、相対的な大き
    さにより生成する包含副方向郵便番号行抽出領域生成手
    段と、 生成された包含副方向郵便番号行抽出領域内に存在す
    る、文字行、文字、ノイズを、包含副方向郵便番号文字
    候補として抽出する郵便番号文字候補抽出手段とからな
    り、 包含副方向郵便番号行生成手段が、 抽出された包含副方向郵便番号文字候補と、再構成起点
    領域の上端付近の文字の位置関係から、郵便番号行を生
    成し、再構成起点領域中の文字行を再生成する手段であ
    る文字行抽出装置。
  16. 【請求項16】文字行抽出手段と、再構成起点領域選択
    手段と、分離パック文字抽出手段と、分離パック文字統
    合手段により構成される文字行抽出装置であって、 文字行抽出手段と、再構成起点領域選択手段が、 請求項14記載の文字行抽出手段と、再構成起点領域選
    択手段と同様の手段であり、 分離パック文字抽出手段が、 選択された再構成起点領域の上端から1文字から数文字
    分下の付近に、再構成起点領域中の文字行に含まれるべ
    き郵便番号の一部が取りこぼされている可能性がある領
    域を、分離パック文字抽出領域として、当該再構成起点
    領域との相対的な位置、および、相対的な大きさにより
    生成する分離パック文字抽出領域生成手段と、 生成された分離パック文字抽出領域内に存在する、文
    字、ノイズを、分離パック文字候補として抽出する分離
    パック文字候補抽出手段とからなり、 分離パック文字統合手段が、 抽出された分離パック文字候補と、再構成起点領域中の
    文字行の位置関係から、当該分離パック文字候補を再構
    成起点領域中の文字行に統合する手段である文字行抽出
    装置。
  17. 【請求項17】遊離副方向郵便番号行生成手段以後に、 包含副方向郵便番号文字抽出手段と、包含副方向郵便番
    号行生成手段とを有し、包含副方向郵便番号文字抽出手
    段が、 選択された再構成起点領域の上端付近に、再構成起点領
    域と直交する方向の郵便番号行が存在する可能性がある
    領域を、包含副方向郵便番号行抽出領域として、当該再
    構成起点領域との相対的な位置、および、相対的な大き
    さにより生成する包含副方向郵便番号行抽出領域生成手
    段と、 生成された包含副方向郵便番号行抽出領域内に存在す
    る、文字行、文字、ノイズを、包含副方向郵便番号文字
    候補として抽出する郵便番号文字候補抽出手段とからな
    り、 包含副方向郵便番号行生成手段が、 抽出された包含副方向郵便番号文字候補と、再構成起点
    領域の上端付近の文字の位置関係から、郵便番号行を生
    成し、再構成起点領域中の文字行を再生成する手段であ
    る請求項14記載の文字行抽出装置。
  18. 【請求項18】包含副方向郵便番号行生成手段以後に、 分離パック文字抽出手段と、分離パック文字統合手段と
    を有し、 分離パック文字抽出手段が、 選択された再構成起点領域の上端から1文字から数文字
    分下の付近に、再構成起点領域中の文字行に含まれるべ
    き郵便番号の一部が取りこぼされている可能性がある領
    域を、分離パック文字抽出領域として、当該再構成起点
    領域との相対的な位置、および、相対的な大きさにより
    生成する分離パック文字抽出領域生成手段と、 生成された分離パック文字抽出領域内に存在する、文
    字、ノイズを、分離パック文字候補として抽出する分離
    パック文字候補抽出手段とからなり、 分離パック文字統合手段が、 抽出された分離パック文字候補と、再構成起点領域中の
    文字行の位置関係から、当該分離パック文字候補を再構
    成起点領域中の文字行に統合する手段である請求項15
    又は17記載の文字行抽出装置。
  19. 【請求項19】再構成起点領域選択手段が、 抽出された文字行から、住所、電話番号、FAX番号等
    が書かれた住所行を抽出し、当該全ての住所行を囲む外
    接矩形を住所領域とし、再構成起点領域の代替領域とし
    て抽出する住所領域抽出手段である請求項14から18
    いずれかに記載の文字行抽出装置。
  20. 【請求項20】住所領域抽出手段が、 住所候補行抽出手段と、住所区画抽出手段と、住所行抽
    出手段と、住所領域生成手段により構成され、 住所候補行抽出手段が、 抽出された文字行から、当該文字行の形状が住所行に近
    い幅と長さを持つものを、住所候補行として抽出する手
    段であり、 住所区画抽出手段が、 処理対象の画像データ自体を2×2の4つの住所候補区
    画に分割する住所候補区画生成手段と、 各住所候補行の中心位置から、その住所候補行が所属す
    る住所候補区画を判定し、各住所候補区画毎に当該住所
    候補行の数を計数する所属行計数手段と、 最も多くの住所候補行が所属する住所候補区画を住所区
    画とする所属行数比較手段とからなり、 住所行抽出手段が、 抽出された住所候補行から、所属行計数手段において、
    抽出された住所区画に所属すると判定された当該住所候
    補行を、住所行として抽出する手段であり、 住所領域生成手段が、 抽出された住所行の外接矩形を、住所領域として生成す
    る手段である請求項19記載の文字行抽出装置。
  21. 【請求項21】住所領域抽出手段における住所領域生成
    手段以前に、 抽出された住所行を除いた文字行から、住所行と平行
    で、かつ、住所行の文字と同程度の文字で構成され、か
    つ、住所行との間隔が小さく、かつ、住所行の行頭から
    行末間にほぼ収まっている文字行を、副住所行として抽
    出する手段を有し、住所領域抽出手段における住所領域
    生成手段が、 抽出された住所行、および、副住所行の外接矩形を、住
    所領域として生成する手段である請求項20記載の文字
    行抽出装置。
  22. 【請求項22】文字行抽出手段と、単独文字抽出手段
    と、文字行開始位置文字抽出手段と、開始記号判定手段
    と、郵便番号文字検索手段により構成される文字行抽出
    装置であって、 文字行抽出手段が、 処理対象の画像データから文字行を抽出する手段であ
    り、 単独文字抽出手段が、 文字行に属さず単独の1文字で存在すると判定された文
    字を抽出する手段であり、 文字行開始位置文字抽出手段が、 抽出された各文字行の行開始位置に存在する文字を抽出
    する手段であり、 開始記号判定手段が、 単独文字抽出手段、および、文字行開始位置文字抽出手
    段によって抽出された文字と、〒記号や顔記号等との類
    似度を計算し、類似度の高いものを開始記号として抽出
    する手段であり、 郵便番号文字検索手段が、 抽出された開始記号から、水平方向に5文字、または、
    7文字の郵便番号文字を抽出する第1水平方向検索手段
    と、 抽出された開始記号から、その下方から水平方向に5文
    字、または、7文字の郵便番号文字を抽出する第2水平
    方向検索手段と、 抽出された開始記号から、水平方向に3文字分の郵便番
    号文字を抽出し、その下方から水平方向に2文字、また
    は、4文字の郵便番号文字を抽出する2段組検索手段
    と、 抽出された開始記号から、その下方から水平方向に3文
    字分の郵便番号文字を抽出し、その下方から水平方向に
    2文字、または、4文字の郵便番号文字を抽出する3段
    組検索手段と、 抽出された開始記号から、その下方から水平方向に3文
    字分の郵便番号文字を抽出し、その下方にハイフンを抽
    出し、さらにその下方から水平方向に2文字、または、
    4文字の郵便番号文字を抽出する4段組検索手段と、 抽出された郵便番号文字から、郵便番号行を生成する文
    字行再構成手段を有する文字行抽出装置。
  23. 【請求項23】第1水平方向検索手段、第2水平方向検
    索手段、2段組検索手段、3段組検索手段、4段組検索
    手段において、 郵便番号文字を抽出する際に、仮文字切り出し、およ
    び、仮文字認識を行ない、郵便番号文字が0から9まで
    のいずれかの数字との類似度が十分高いことを確認する
    手段を有する請求項22記載の文字行抽出装置。
  24. 【請求項24】文字行再構成手段以前に、 抽出された郵便番号文字に対して文字認識を行ない、そ
    の認識結果が郵便番号データベースに存在する場合の
    み、文字行再構成手段を実行する手段を有する請求項2
    2又は23記載の文字行抽出装置。
  25. 【請求項25】文字行抽出手段と、安定文字配置行選択
    手段と、外部文字候補抽出手段と、外部文字行検索手段
    により構成される文字行抽出装置であって、 文字行抽出手段が、 処理対象の画像データから文字行を抽出する手段であ
    り、 安定文字配置行選択手段が、 抽出された各文字行の行頭、および、行末の数文字を除
    いた中央部の文字について、当該文字の中心位置の間隔
    の平均値を算出する文字中心間距離算出手段と、当該文
    字の中心位置の間隔の分散値を算出する文字中心間分散
    算出手段と、 当該文字の文字矩形サイズの平均値を算出する文字サイ
    ズ平均算出手段と、 算出された値から文字配置の安定性の有無を判別し、安
    定性が有る文字行を安定文字配置行として選択する安定
    文字配置行判別手段とからなり、 外部文字候補抽出手段が、 抽出された安定文字配置行について、文字中心間距離算
    出手段と、文字中心間分散算出手段と、文字サイズ平均
    算出手段において、各値の算出に使用されなかった行
    頭、および、行末の数文字について、当該文字を加えて
    文字配置の安定性の有無を再び判別する安定文字配置行
    再判別手段と、 安定性が無くなると判別された場合に、当該文字から外
    部文字候補を生成する外部文字候補生成手段とからな
    り、 外部文字行検索手段が、 抽出された外部文字候補から、外部文字候補が所属して
    いた文字行と直行する方向に文字を抽出する直行方向検
    索手段と、 抽出された文字から、新規文字行を生成する文字行再生
    成手段を有する文字行抽出装置。
  26. 【請求項26】安定文字配置行選択手段以前に、 文字行抽出手段において抽出された文字行に対して、仮
    文字切り出し、仮文字認識を行ない、当該文字行を構成
    する文字矩形を補正する手段を有する請求項25記載の
    文字行抽出装置。
JP35007398A 1997-12-25 1998-12-09 文字行抽出方法および装置 Expired - Lifetime JP3376931B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35007398A JP3376931B2 (ja) 1997-12-25 1998-12-09 文字行抽出方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-357061 1997-12-25
JP35706197 1997-12-25
JP35007398A JP3376931B2 (ja) 1997-12-25 1998-12-09 文字行抽出方法および装置

Publications (2)

Publication Number Publication Date
JPH11265425A JPH11265425A (ja) 1999-09-28
JP3376931B2 true JP3376931B2 (ja) 2003-02-17

Family

ID=26579113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35007398A Expired - Lifetime JP3376931B2 (ja) 1997-12-25 1998-12-09 文字行抽出方法および装置

Country Status (1)

Country Link
JP (1) JP3376931B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4781214B2 (ja) * 2006-09-27 2011-09-28 株式会社沖データ 印刷システム及び複合端末装置

Also Published As

Publication number Publication date
JPH11265425A (ja) 1999-09-28

Similar Documents

Publication Publication Date Title
US8131087B2 (en) Program and apparatus for forms processing
US7392473B2 (en) Method and apparatus for determining logical document structure
JP3452774B2 (ja) 文字認識方法
JP4443443B2 (ja) 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US20010033694A1 (en) Handwriting recognition by word separation into sillouette bar codes and other feature extraction
EP1758048A2 (en) Character recognition apparatus and character recognition method
JP3837193B2 (ja) 文字行抽出方法および装置
US6567545B1 (en) Format recognition method, apparatus and storage medium
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
WO2007070010A1 (en) Improvements in electronic document analysis
JP3376931B2 (ja) 文字行抽出方法および装置
JPH08320914A (ja) 表認識方法および装置
US20020085755A1 (en) Method for region analysis of document image
JP3904397B2 (ja) 表認識方法
JPH11232439A (ja) 文書画像構造解析方法
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
JP2001331764A (ja) 文字認識方法
JP2796561B2 (ja) 表形式文書認識方式
JP4521377B2 (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP3090070B2 (ja) 帳票識別方法及び装置
JPH08287188A (ja) 文字列認識装置
JP3848792B2 (ja) 文字列認識方法及び記録媒体
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071206

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121206

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121206

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131206

Year of fee payment: 11

EXPY Cancellation because of completion of term