JP2576350B2 - 文字列抽出装置 - Google Patents

文字列抽出装置

Info

Publication number
JP2576350B2
JP2576350B2 JP5035926A JP3592693A JP2576350B2 JP 2576350 B2 JP2576350 B2 JP 2576350B2 JP 5035926 A JP5035926 A JP 5035926A JP 3592693 A JP3592693 A JP 3592693A JP 2576350 B2 JP2576350 B2 JP 2576350B2
Authority
JP
Japan
Prior art keywords
character string
image
feature vector
extracting
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5035926A
Other languages
English (en)
Other versions
JPH06251193A (ja
Inventor
健 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5035926A priority Critical patent/JP2576350B2/ja
Publication of JPH06251193A publication Critical patent/JPH06251193A/ja
Application granted granted Critical
Publication of JP2576350B2 publication Critical patent/JP2576350B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字列抽出装置に関す
る。
【0002】
【従来の技術】文書画像認識におけるレイアウト解析処
理では、画像全体から文書画像を構成する文章,図表と
いった要素の抽出を行う。更に文章領域の解析の際に
は、個々の文字を抽出するとともに、各々の属する文字
列,段落を決定する必要がある。
【0003】一般の印刷文書はある規則に基づいて組版
が行われることから、解析においてもこれらの組版規則
を利用したセグメンテーション方式が提案されている。
電子情報通信学会の論文誌Vol.J72-D-II,No.4の491 頁
から499 頁に「スプリット検出法による文書画像構造解
析」と題して掲載された論文がこの例である。例えば文
章領域における段落の間隔は文字列間隔よりも大きく、
更に文字列間隔は文字間隔よりも大きいといった性質を
利用し、文書画像の投影パタンからスペースを検出し階
層的に分割を行う方法を用いている。
【0004】これに対し郵便画像のレイオウト解析にお
いては、一般的な組版規則が適応できないため、それに
代わる規則をデータから抽出してレイアウト解析に応用
するというアプローチが提案されている。東芝レビュー
Vol.45,No.2 の149 頁から152 頁に「郵便物あて名自動
読み取り区分機TR-17 」と題して掲載された論文がこの
例である。ここでは文字領域は空間周波数の高い成分を
多く含むという仮定に基づき、高周波強調フィルタによ
り宛名領域の候補を検出した後、あらかじめ学習データ
から抽出した規則に従って宛名領域を決定している。次
に宛名領域内からの宛名文字列抽出においては、罫線や
枠線といった文字列でない要素を除去した後に、投影処
理を用いて文字列を切り出している。
【0005】
【発明が解決しようとする課題】上述した従来の文字列
抽出装置では、郵便画像の宛名領域から投影処理を用い
て文字列抽出を行う場合、単純な縦書きもしくは横書き
のみから成る文字列に対して有効であるが、縦横書きが
混在する場合に文字列間のスペースが検出されず、文字
列を抽出できないという問題がある。
【0006】
【課題を解決するための手段】本発明の文字列抽出装置
は、文書画像を入力し、ディジタル画像を得る文書画像
入力手段と、前記ディジタル画像に対して傾き補正、雑
音除去等の画像処理を施し、前処理画像を得る前処理手
段と、前記前処理画像から文字列抽出のための特徴ベク
トルを算出する特徴抽出手段と、あらかじめ学習用に収
集された文書画像データセットに対して前記前処理手段
と前記特徴抽出手段を実行して得られた特徴ベクトルを
分類した結果を記憶しておくレイアウト辞書と、前記特
徴抽出手段において得られる特徴ベクトルと前記レイア
ウト辞書に格納された特徴ベクトルとの間で類似度又は
距離値を算出し、前記レイアウト辞書から最も照合する
レイアウトを出力する照合手段と、前記照合手段の結果
得られたレイアウトに従って文字列の位置と方向を決定
し、前記前処理画像から文字列を抽出する文字列抽出手
段より構成されることを特徴とする。
【0007】
【実施例】本発明の文字列抽出方式の一実施例を示す図
1を参照すると、本実施例は文書画像入力手段10,前
処理手段11,特徴抽出手段12,照合手段13,文字
列抽出手段14およびレイアウト辞書15で構成され
る。
【0008】文書画像入力手段10はイメージスキャナ
等の画像入力装置により文書を入力し、ディジタル画像
を得る手段である。前処理手段11は、文書画像入力手
段10において得られたディジタル画像100に対して
スキュー補正、雑音除去等の画像処理を施し前処理画像
101を得る。スキュー補正処理の例としては、垂直,
水平方向への射影パタンを求めたとき、その射影長が最
大となる角度を算出し、画像全体を回転する方法などが
考えられる。雑音除去に対しては、ガウシアンフィルタ
やメディアンフィルタ等の局所空間フィルアリングを用
いていることができる。
【0009】特徴抽出手段12は、図2にその詳細を示
すように、ラベリング手段20、外接矩形抽出手段2
1、重み付き交差数算出手段22および局所領域内計数
手段23により構成される。図2において、まず、ラベ
リング手段20と外接矩形抽出手段21により、前処理
画像101に含まれる連結要素の外接矩形が抽出され
る。次に、重み付き交差数算出手段22において、各外
接矩形の中心を通る一定長の垂直線もしくは水平線が交
差する矩形数を各々数え、これを中心の矩形面積で重み
付けした値を求める。得られた値をここでは重み付き垂
直交差数、重み付き水平交差数と呼ぶものとする。図3
に計算例を示す。
【0010】図3では、矩形S1の中心を通る直線が垂
直方向に2つ、水平方向に4つの矩形と交差しており、
各々に中心の矩形S1の面積を乗じた値を重み付き交差
数とする。この例では、矩形S1は水平方向の文字列の
一部とみなされ易くなる。
【0011】局所領域計数手段23は、文書画像全体を
ブロック分割し、各ブロックに含まれる矩形に対して得
られた重み付き垂直交差数,重み付き水平交差数の各総
和を求める。この結果、ブロック分割数×2次元の特徴
ベクトル102が文書画像から得られる。
【0012】このときの画像のブロック分割方法として
は、正方形による分割の他に、垂直方向の交差数は縦長
矩形,水平方向の交差数は横長矩形のように、方向によ
り分割方法を変える方法も用いることができる。また局
所領域に含まれる外接矩形数、あるいは外接矩形の面積
総和の変動による特徴量のばらつきを吸収する方法とし
て、重み付き交差数を外接矩形数、もしくは外接矩形の
面積総和で除算することにより正規化し、得られた値を
特徴量とする方法を用いることができる。
【0013】再び図1を参照すると、レイアウト辞書1
5には、学習用に収集された文書画像データに対して特
徴抽出手段12により得られる特徴ベクトルを、例えば
K平均法、K近傍法によるクラスタリング処理により分
類し、得られた各クラスの代表ベクトルを標準パタン1
04としてあらかじめ登録する。
【0014】照合手段103は、特徴ベクトル102
と、レイアウト辞書15から読み出される標準パタン1
04と距離計算もしくは類似度計算を行い、距離最小も
しくは類似度最大のものから順に上位候補の特徴ベクト
ル103を得る。予め特徴ベクトルを正規化した後に照
合する方法も考えられる。この場合、特徴ベクトルのノ
ルムが一定となるように正規化する方法や、入力画像に
含まれる要素の外接矩形の総数、あるいは外接矩形の面
積総和により正規化を行う方法を用いることができる。
例えば、特徴抽出手段12から出力される特徴ベクトル
を、
【数1】 とし、一方レイアウト辞書15から出力される特徴ベク
トルを、
【数2】 とおくと、類似度Sは次式のように表わすことができ
る。
【数3】 また、距離dは次式のように表わすことができる。
【数4】 これらについては、広く知られた計算方法である。この
結果、入力される文書画像と照合するレイアウトが上位
候補として出力される。
【0015】文字列抽出手段14は、照合手段13によ
り得られる、上位候補の特徴ベクトル103に従って、
前処理画像101における文字列の位置と方向を決定
し、これらを抽出する。
【0016】
【発明の効果】本発明によると、以上のような構成の結
果、外接矩形の交差数特徴を用いて文書画像のレイアウ
トを表現することにより、個々の文字や図形の形状から
の影響を少なくすることができる。また交差数を面積で
重み付けすることにより、雑音等の面積の小さい部分の
影響を受けにくくなり、かつ図4のように分離文字に対
して交差数が多く計数されることを防ぐことができ、安
定して文字列を抽出することができる。
【図面の簡単な説明】
【図1】本発明の一実施例のブロック図である。
【図2】図の実施例に含まれる特徴抽出手段を示すブロ
ック図である。
【図3】図2の特徴抽出手段に含まれる重み付き交差数
算出手段の処理例を示すブロック図である。
【図4】本発明の効果を説明するための図である。
【符号の説明】
10 文書画像入力手段 11 前処理手段 12 特徴抽出手段 13 照合手段 14 文字列抽出手段 15 レイアウト辞書 20 ラベリング手段 21 外接矩形抽出手段 22 重み付き交差数算出手段 23 局所領域内計数手段

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書画像を入力し、ディジタル画像を得
    る文書画像入力手段と、前記ディジタル画像に対して傾
    き補正、雑音除去等の画像処理を施し、前処理画像を得
    る前処理手段と、前記前処理画像から文字列抽出のため
    の特徴ベクトルを算出する特徴抽出手段と、あらかじめ
    学習用に収集された文書画像データセットに対して前記
    前処理手段と前記特徴抽出手段を実行して得られた特徴
    ベクトルを分類した結果を記憶しておくレイアウト辞書
    と、前記特徴抽出手段において得られる特徴ベクトルと
    前記レイアウト辞書に格納された特徴ベクトルとの間で
    類似度又は距離値を算出し、前記レイアウト辞書から最
    も照合するレイアウトを出力する照合手段と、前記照合
    手段の結果得られたレイアウトに従って文字列の位置と
    方向を決定し、前記前処理画像から文字列を抽出する文
    字列抽出手段より構成されることを特徴とする文字列抽
    出装置。
  2. 【請求項2】 前記特徴抽出手段は、前記前処理画像に
    ラベリング処理を施し、連結要素を抽出するラベリング
    手段と、 前記連結要素の外接矩形を求める外接矩形抽出手段と、 前記外接矩形の中心を通る一定長の垂直方向もしくは水
    平方向線分が交差する外接矩形数を各々数え、これを前
    記中心となる外接矩形の面積で重み付けした値を算出す
    る重み付き交差数算出手段と、 前記重み付き交差数の局所領域内での合計値を求め、前
    記特徴ベクトルの要素とする局所領域内計数部を含んで
    いることを特徴とする請求項1記載の文字列抽出装置。
JP5035926A 1993-02-25 1993-02-25 文字列抽出装置 Expired - Lifetime JP2576350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5035926A JP2576350B2 (ja) 1993-02-25 1993-02-25 文字列抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5035926A JP2576350B2 (ja) 1993-02-25 1993-02-25 文字列抽出装置

Publications (2)

Publication Number Publication Date
JPH06251193A JPH06251193A (ja) 1994-09-09
JP2576350B2 true JP2576350B2 (ja) 1997-01-29

Family

ID=12455646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5035926A Expired - Lifetime JP2576350B2 (ja) 1993-02-25 1993-02-25 文字列抽出装置

Country Status (1)

Country Link
JP (1) JP2576350B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4416890B2 (ja) 1999-12-20 2010-02-17 富士通株式会社 帳票識別装置
CN101276363B (zh) 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61193276A (ja) * 1985-02-20 1986-08-27 Fujitsu Ltd 文字列抽出方式
JPS62197881A (ja) * 1986-02-26 1987-09-01 Hitachi Ltd 文書画像縦書・横書判定方式
JPH03113688A (ja) * 1989-09-28 1991-05-15 Meidensha Corp 図面続取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61193276A (ja) * 1985-02-20 1986-08-27 Fujitsu Ltd 文字列抽出方式
JPS62197881A (ja) * 1986-02-26 1987-09-01 Hitachi Ltd 文書画像縦書・横書判定方式
JPH03113688A (ja) * 1989-09-28 1991-05-15 Meidensha Corp 図面続取装置

Also Published As

Publication number Publication date
JPH06251193A (ja) 1994-09-09

Similar Documents

Publication Publication Date Title
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
Guo et al. Separating handwritten material from machine printed text using hidden markov models
Jayadevan et al. Offline recognition of Devanagari script: A survey
Cattoni et al. Geometric layout analysis techniques for document image understanding: a review
US5369714A (en) Method and apparatus for determining the frequency of phrases in a document without document image decoding
US5237627A (en) Noise tolerant optical character recognition system
JPH05282495A (ja) 比較方法
Chanda et al. Two-stage approach for word-wise script identification
Pal et al. Automatic separation of machine-printed and hand-written text lines
Iwata et al. Recognition and transition frame detection of Arabic news captions for video retrieval
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
Sas et al. Three-stage method of text region extraction from diagram raster images
Tian et al. Research on symbol recognition for mathematical expressions
JP2576350B2 (ja) 文字列抽出装置
Srinivas et al. An overview of OCR research in Indian scripts
Kumar et al. Line based robust script identification for indianlanguages
Padma et al. Script Identification from Trilingual Documents using Profile Based Features.
Al-Barhamtoshy et al. Arabic OCR segmented-based system
JP3187899B2 (ja) 文字認識装置
AlKhateeb et al. Interactive knowledge discovery for baseline estimation and word segmentation in handwritten Arabic text
Humied Segmentation accuracy for offline Arabic handwritten recognition based on bounding box algorithm
Srihari Recent advances in off-line handwriting recognition at CEDAR
Ding et al. Multi-font printed Tibetan OCR
Haboubi et al. Word classification in bilingual printed documents
Pasha et al. Segmentation of Handwritten Documents Containing Kannada Script

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19960910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071107

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081107

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091107

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101107

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111107

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121107

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131107

Year of fee payment: 17

EXPY Cancellation because of completion of term