JP3437296B2 - 文字列高速抽出装置 - Google Patents

文字列高速抽出装置

Info

Publication number
JP3437296B2
JP3437296B2 JP31286094A JP31286094A JP3437296B2 JP 3437296 B2 JP3437296 B2 JP 3437296B2 JP 31286094 A JP31286094 A JP 31286094A JP 31286094 A JP31286094 A JP 31286094A JP 3437296 B2 JP3437296 B2 JP 3437296B2
Authority
JP
Japan
Prior art keywords
rectangle
document
circumscribed rectangle
circumscribing
circumscribed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP31286094A
Other languages
English (en)
Other versions
JPH08171609A (ja
Inventor
裕 勝山
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP31286094A priority Critical patent/JP3437296B2/ja
Publication of JPH08171609A publication Critical patent/JPH08171609A/ja
Application granted granted Critical
Publication of JP3437296B2 publication Critical patent/JP3437296B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書中から特定文字列
を高速に抽出する文字列高速抽出装置に関するものであ
る。
【0002】
【従来の技術】従来、特定の文書(例えば伝票や帳票な
ど)にOCRBフォントのような特定の文字が印刷され
ている場合には、1種類の文書であるから、OCRBフ
ォントのように特定文字列がどこに記載してあるかを示
す範囲位置も決まっている。従って、記載されている特
定の文字列を読み込むには、その色に合わせた色の光源
でスキャーニングして、得られた画像の特定の座標で示
される矩形部分のみを抽出して、文字認識処理を行えば
よかった。
【0003】
【発明が解決しようとする課題】しかし、1つの装置
で、複数の種類の文書に対して、同じような特定文字列
を抽出しようとすると、特定文字列が記載されている領
域が固定しないので、従来の上述した手法では抽出でき
ず、特定文字列を読み込んだ画像全体から抽出する処理
が必要となってしまい、高速に特定文字列を抽出できな
くなってしまう問題が発生した。
【0004】本発明は、これらの問題を解決するため、
文書から読み込んだ画像全体を走査することなく、特定
文字列のみを高速に抽出することを目的としている。
【0005】
【課題を解決するための手段】図1は、本発明の動作説
明図を示す。図1において、文書読込手段1は、文書を
スキャナで走査し画像を読み込むものである。
【0006】外接矩形算出手段2は、文書の画像中から
外接矩形を算出するものである。抽出手段3は、画像中
から算出した外接矩形から所定の範囲に納まる外接矩形
を抽出するものである。
【0007】文字認識手段4は、抽出した外接矩形内の
文字の認識を行うものである。文書識別手段5は、文書
の種類や内容の識別を行うものである。
【0008】
【作用】本発明は、図1に示すように、文書読込手段1
が文書から画像を読み込み、外接矩形算出手段2がこの
文書読込手段1によって読み込んだ画像中から、外接矩
形を算出し、抽出手段3がこの外接矩形算出手段2によ
って算出した外接矩形から所定範囲に納まる外接矩形で
あってかつ規定値以上連続した外接矩形列を抽出し、文
字認識手段4がこの抽出手段3によって抽出した外接矩
形列の各外接矩形内の文字認識を行い、文書識別手段5
が文字認識結果をもとに文書の種類、内容を認識するよ
うにしている。
【0009】また、文書読込手段1が文書から画像を読
み込み、抽出手段3が文字読込手段1によって読み込ん
だ画像中から文字列が存在する部分を通る狭い探索区間
について、所定範囲内に納まる外接矩形を抽出し、当該
外接矩形列の存在する行あるいは列について、所定範囲
に納まる外接矩形であってかつ規定値以上連続した外接
矩形列を抽出し、文字認識手段4がこの抽出手段3によ
って抽出した外接矩形列の各外接矩形内の文字認識を行
い、文書識別手段5が文字認識結果をもとに文書の種
類、内容を認識するようにしている。
【0010】これらの際に、探索区間として、複数の文
書中の特定文字列が存在する領域を含む行方向あるいは
列方向の1つあるいは複数の区間とするようにしてい
る。また、所定範囲内に納まる外接矩形として、外接矩
形の高さ、幅、ピッチがそれぞれ所定範囲内とするよう
にしている。
【0011】従って、従来のように文書から読み込んだ
画像全体を走査することなく、特定文字列のみを高速に
抽出することが可能となる。
【0012】
【実施例】次に、図2から図6を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
【0013】図2は、本発明の動作説明フローチャート
を示す。これは、図1の構成の詳細な動作説明フローチ
ャートを示す。図2において、S1は、スキャナで文書
を読み込み、画像データをメモリに格納する。これは、
文書をスキャナで走査して読み込み、画像データをメモ
リに格納、例えば後述する図4に示すようなイメージの
画像データをメモリに格納する。
【0014】S2は、画像データに対し、黒画素連結処
理(ラベリングまたは輪郭追跡)を施し、黒画素の外接
矩形を求める。これは、例えば後述する図4の文書の画
像データをもとに、黒画素をラベリングした後、当該ラ
ベリングした黒画素のうち連結しているものを統合し、
当該統合した後の黒画素の外接矩形を求める。
【0015】S3は、外接矩形の高さ、幅から特定文字
に当てはまる矩形だけを抽出する。これは、文書(伝
票)に予め定められた高さ、幅で文字が印刷されている
ので、当該決められた高さ、幅の外接矩形のみを抽出す
る。
【0016】S4は、特定文字として選択した矩形を対
象に、x、y座標でソートして、横に並んでいるものを
抽出し、矩形が規定以上の数まで並んでいる場合に特定
文字列として出力する。これは、S3で予め定められた
高さ、幅を持つ矩形を抽出し、更に、当該抽出した矩形
が規定以上の数まで並んでいる場合に特定文字列として
出力、即ち、当該矩形の文字認識を行い、その文字認識
した結果を出力する。
【0017】以上によって、文書より読み込んだ画像デ
ータから黒画素連結処理を行ってその外接矩形を求め、
この求めた外接矩形のうち、特定文字に対応する高さ、
幅を持つ外接矩形のみを抽出し、この抽出した外接矩形
から更に、規定数以上連続して並んでいるものを特定文
字列として文字認識し出力する。
【0018】次に、図3のフローチャートに示す順序に
従い、本発明の具体例を詳細に説明する。図3におい
て、S11は、スキャナで文書を読み込み、画像データ
をメモリに格納する。
【0019】S12は、画像データの中で、横方向の区
間A、B等の短冊状の部分領域だけに注目して、その中
でラベリングを施し、黒画素の外接矩形を求める。これ
は、例えば後述する図6の(d)に示すように、複数の
文書があり、ある文書の文字列の領域が区間A、他の文
書の文字列の領域が区間Bなどであった場合、当該区間
A、区間Bの部分領域のみ注目して、この部分領域の短
冊状の中のみで黒画素連結処理を行って黒画素の外接矩
形を求める。
【0020】S13は、外接矩形の高さと事前に求めた
矩形の高さylenの差がしきい値thy以内で、か
つ、外接矩形の幅と事前に求めた矩形の幅xelnの差
がしきい値thx以内であるような矩形だけを抽出し、
その矩形があるy方向(縦方向)の位置を求め、メモリ
に記憶する。
【0021】S14は、S13で求めたy座標を中心と
して、上で抽出した特定文字を含む横長の部分領域(左
右は画像幅いっぱいまで)に注目する。S15は、横長
部分領域に対し、ラベリング処理を施し、黒画素の外接
矩形を求める。
【0022】S16は、S15で求めた外接矩形の高さ
と事前に求めた矩形の高さylenの差がしきい値th
y以内で、かつ、外接矩形の幅と事前に求めた矩形の幅
xelnの差がしきい値thx以内であるような矩形だ
けを抽出し、メモリに記憶する。
【0023】S17は、特定文字として選択した矩形を
対象に、x座標でソートして、抽出した矩形の中心線の
間隔からピッチを計算し、それと、事前に求めたおいた
ピッチptichとの差がしきい値th pctch以
内ならOCRBフォントの文字列(特定文字の文字列)
とする。そして、このようにして求めた文字列が横方向
th個以上並んでいるものをOCRBフォント文字列
(特定文字の文字列)として、出力する。
【0024】以上によって、画像データ中で文字認識対
象の文書の全て特定文字列が検出されるように区間を予
め決めておき、当該1つあるいは複数の短冊状の区間内
について黒画素の追跡を行って求めた外接矩形が文字認
識対象の文書の特定文字列の高さ、幅との差について閾
値以内のときに当該行(あるいは列)を文書の幅一杯を
追跡領域とし、当該追跡領域内の黒画素の追跡を行って
求めた外接矩形が文字認識対象の文書の特定文字列の高
さ、幅との差について閾値以内のとき、かつピッチが事
前に求めたピッチとの差について閾値以内のときに求め
る外接矩形とし、当該外接矩形の文字認識を行って出力
する。
【0025】図4は、文書例を示す。これは、文字認識
を行う対象の文書である。図5は、本発明の説明図を示
す。これは、図4の文書の黒画素の追跡を行い、外接矩
形を算出した状態を示し、図中の矩形枠で囲んだものが
外接矩形である。
【0026】尚、図3のフローチャートの説明の場合に
は、第1に、探索区間Pの短冊状の部分領域のみ黒画素
追跡を行って黒画素の外接矩形を求める(図3のS11
からS13)。第2に、第1で求めた黒画素の外接矩形
が存在するここでは、横長の抽出領域A、B、Cについ
て全幅に渡って黒画素追跡を行って黒画素の外接矩形を
求めて文字認識する(図3のS15からS17)。
【0027】図6は、本発明の探索区間の算出説明図を
示す。図6の(a)は、文書Aの文字列の存在する領域
を示す。図6の(b)は、文書Bの文字列の存在する領
域を示す。
【0028】図6の(c)は、文書Cの文字列の存在す
る領域を示す。図6の(d)は、文書A、B、Cの文字
列が重なったときは共通領域を取った短冊状の区間A、
区間Bを示す。この区間A、区間B内のみについて黒画
素の外接矩形を求めて外接矩形が存在するときに、その
横方向の全幅について黒画素の外接矩形を求れば、文書
A、B、Cのいずれの文書であっても常に文字列の存在
する外接矩形を抽出して文字認識を行うことが可能にな
ると共に、無駄な黒画素の外接矩形を求める範囲を少な
くして高速に文字認識を行うことが可能となる。
【0029】
【発明の効果】以上説明したように、本発明によれば、
文書から読み込んだ画像から外接矩形を算出し、所定範
囲に納まる外接矩形であってかつ規定値以上連続した外
接矩形の文字認識を行ったり、短冊状の探索区間につい
てのみ黒画素の外接矩形を求めてから全幅に渡って黒画
素の外接矩形を求めて文字認識を行ったりする構成を採
用しているため、従来のように文書から読み込んだ画像
全体を走査することなく、特定文字列のみを高速に抽出
することができる。これにより、銀行の窓口業務などの
際に、任意の伝票から文字列を抽出して認識しそのデー
タを自動的に高速に取り込むことが可能となり、処理が
高速化されユーザの待ち時間を少なくすることができ
る。
【図面の簡単な説明】
【図1】本発明の動作説明図である。
【図2】本発明の動作説明フローチャートである。
【図3】本発明の具体例説明フローチャートである。
【図4】文書例である。
【図5】本発明の説明図である。
【図6】本発明の探索区間の説明図である。
【符号の説明】
1:文書読込手段 2:外接矩形算出手段 3:抽出手段 4:文字認識手段 5:文書識別手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−268685(JP,A) 特開 昭56−88572(JP,A) 特開 昭52−22436(JP,A) 特開 昭58−37772(JP,A) 特開 昭62−224870(JP,A) 特開 昭55−162177(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/76

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文書から画像を読み込む文書読込手段
    (1)と、前記 文書読込手段(1)によって読み込んだ画像中か
    ら、黒画素の連結しているものを統合した外接矩形を算
    出する外接矩形算出手段(2)と、前記 外接矩形算出手段(2)によって算出した外接矩形
    から、高さと幅が所定範囲内に納まる外接矩形であっ
    て、かつ外接矩形の中心線間のピッチが所定範囲内にあ
    り、かつ規定値以上連続した外接矩形列を抽出する抽出
    手段(3)と、前記 抽出手段(3)によって抽出した外接矩形列の各外
    接矩形内の文字認識を行う文字認識手段(4)とを備え
    たことを特徴とする文字高速抽出装置。
  2. 【請求項2】文書から画像を読み込む文書読込手段
    (1)と、前記 文書読込手段(1)によって読み込んだ画像中か
    ら、文字列が存在する部分を通る狭い予め指定した探索
    区間に納まる黒画素の連結しているものを統合した外接
    矩形を抽出し、当該外接矩形列の存在する行あるいは列
    について、高さと幅が所定範囲に納まる外接矩形であっ
    て、かつ外接矩形の中心線間のピッチが所定範囲内にあ
    り、かつ規定値以上連続した外接矩形列を抽出する抽出
    手段(3)と、前記 抽出手段(3)によって抽出した外接矩形列の各外
    接矩形内の文字認識を行う文字認識手段(4)とを備え
    たことを特徴とする文字高速抽出装置。
JP31286094A 1994-12-16 1994-12-16 文字列高速抽出装置 Expired - Fee Related JP3437296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31286094A JP3437296B2 (ja) 1994-12-16 1994-12-16 文字列高速抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31286094A JP3437296B2 (ja) 1994-12-16 1994-12-16 文字列高速抽出装置

Publications (2)

Publication Number Publication Date
JPH08171609A JPH08171609A (ja) 1996-07-02
JP3437296B2 true JP3437296B2 (ja) 2003-08-18

Family

ID=18034315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31286094A Expired - Fee Related JP3437296B2 (ja) 1994-12-16 1994-12-16 文字列高速抽出装置

Country Status (1)

Country Link
JP (1) JP3437296B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104833A (en) 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
JP3601650B2 (ja) * 1997-02-13 2004-12-15 富士通株式会社 キーワード領域抽出方式

Also Published As

Publication number Publication date
JPH08171609A (ja) 1996-07-02

Similar Documents

Publication Publication Date Title
JP3108979B2 (ja) 画像処理方法および画像処理装置
US4562594A (en) Method and apparatus for segmenting character images
JP3411472B2 (ja) パターン抽出装置
US5563958A (en) System and method for optical character recognition bar-coded characters
JP3437296B2 (ja) 文字列高速抽出装置
JPH04270485A (ja) 印刷文字認識装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JPH06187489A (ja) 文字認識装置
JP3095470B2 (ja) 文字認識装置
JP2917427B2 (ja) 図面読取装置
JP2796561B2 (ja) 表形式文書認識方式
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JP3019897B2 (ja) 行切出し方法
JPH07160810A (ja) 文字認識装置
JP3379663B2 (ja) 文字認識装置
JPH06111057A (ja) 光学的文字読取装置
JP3113217B2 (ja) 破線認識方法
Balasubramanian et al. Information extraction from tabular drawings
JP3193573B2 (ja) かぎかっこ付文字認識装置
US6142374A (en) Optical character reader
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置
JP3190794B2 (ja) 文字切り出し装置
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP3411795B2 (ja) 文字認識装置
JP2576079B2 (ja) 文字切出し方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030212

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030520

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees