JP2576350B2 - 文字列抽出装置 - Google Patents
文字列抽出装置Info
- Publication number
- JP2576350B2 JP2576350B2 JP5035926A JP3592693A JP2576350B2 JP 2576350 B2 JP2576350 B2 JP 2576350B2 JP 5035926 A JP5035926 A JP 5035926A JP 3592693 A JP3592693 A JP 3592693A JP 2576350 B2 JP2576350 B2 JP 2576350B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- image
- feature vector
- extracting
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
る。
理では、画像全体から文書画像を構成する文章,図表と
いった要素の抽出を行う。更に文章領域の解析の際に
は、個々の文字を抽出するとともに、各々の属する文字
列,段落を決定する必要がある。
が行われることから、解析においてもこれらの組版規則
を利用したセグメンテーション方式が提案されている。
電子情報通信学会の論文誌Vol.J72-D-II,No.4の491 頁
から499 頁に「スプリット検出法による文書画像構造解
析」と題して掲載された論文がこの例である。例えば文
章領域における段落の間隔は文字列間隔よりも大きく、
更に文字列間隔は文字間隔よりも大きいといった性質を
利用し、文書画像の投影パタンからスペースを検出し階
層的に分割を行う方法を用いている。
いては、一般的な組版規則が適応できないため、それに
代わる規則をデータから抽出してレイアウト解析に応用
するというアプローチが提案されている。東芝レビュー
Vol.45,No.2 の149 頁から152 頁に「郵便物あて名自動
読み取り区分機TR-17 」と題して掲載された論文がこの
例である。ここでは文字領域は空間周波数の高い成分を
多く含むという仮定に基づき、高周波強調フィルタによ
り宛名領域の候補を検出した後、あらかじめ学習データ
から抽出した規則に従って宛名領域を決定している。次
に宛名領域内からの宛名文字列抽出においては、罫線や
枠線といった文字列でない要素を除去した後に、投影処
理を用いて文字列を切り出している。
抽出装置では、郵便画像の宛名領域から投影処理を用い
て文字列抽出を行う場合、単純な縦書きもしくは横書き
のみから成る文字列に対して有効であるが、縦横書きが
混在する場合に文字列間のスペースが検出されず、文字
列を抽出できないという問題がある。
は、文書画像を入力し、ディジタル画像を得る文書画像
入力手段と、前記ディジタル画像に対して傾き補正、雑
音除去等の画像処理を施し、前処理画像を得る前処理手
段と、前記前処理画像から文字列抽出のための特徴ベク
トルを算出する特徴抽出手段と、あらかじめ学習用に収
集された文書画像データセットに対して前記前処理手段
と前記特徴抽出手段を実行して得られた特徴ベクトルを
分類した結果を記憶しておくレイアウト辞書と、前記特
徴抽出手段において得られる特徴ベクトルと前記レイア
ウト辞書に格納された特徴ベクトルとの間で類似度又は
距離値を算出し、前記レイアウト辞書から最も照合する
レイアウトを出力する照合手段と、前記照合手段の結果
得られたレイアウトに従って文字列の位置と方向を決定
し、前記前処理画像から文字列を抽出する文字列抽出手
段より構成されることを特徴とする。
1を参照すると、本実施例は文書画像入力手段10,前
処理手段11,特徴抽出手段12,照合手段13,文字
列抽出手段14およびレイアウト辞書15で構成され
る。
等の画像入力装置により文書を入力し、ディジタル画像
を得る手段である。前処理手段11は、文書画像入力手
段10において得られたディジタル画像100に対して
スキュー補正、雑音除去等の画像処理を施し前処理画像
101を得る。スキュー補正処理の例としては、垂直,
水平方向への射影パタンを求めたとき、その射影長が最
大となる角度を算出し、画像全体を回転する方法などが
考えられる。雑音除去に対しては、ガウシアンフィルタ
やメディアンフィルタ等の局所空間フィルアリングを用
いていることができる。
すように、ラベリング手段20、外接矩形抽出手段2
1、重み付き交差数算出手段22および局所領域内計数
手段23により構成される。図2において、まず、ラベ
リング手段20と外接矩形抽出手段21により、前処理
画像101に含まれる連結要素の外接矩形が抽出され
る。次に、重み付き交差数算出手段22において、各外
接矩形の中心を通る一定長の垂直線もしくは水平線が交
差する矩形数を各々数え、これを中心の矩形面積で重み
付けした値を求める。得られた値をここでは重み付き垂
直交差数、重み付き水平交差数と呼ぶものとする。図3
に計算例を示す。
直方向に2つ、水平方向に4つの矩形と交差しており、
各々に中心の矩形S1の面積を乗じた値を重み付き交差
数とする。この例では、矩形S1は水平方向の文字列の
一部とみなされ易くなる。
ブロック分割し、各ブロックに含まれる矩形に対して得
られた重み付き垂直交差数,重み付き水平交差数の各総
和を求める。この結果、ブロック分割数×2次元の特徴
ベクトル102が文書画像から得られる。
は、正方形による分割の他に、垂直方向の交差数は縦長
矩形,水平方向の交差数は横長矩形のように、方向によ
り分割方法を変える方法も用いることができる。また局
所領域に含まれる外接矩形数、あるいは外接矩形の面積
総和の変動による特徴量のばらつきを吸収する方法とし
て、重み付き交差数を外接矩形数、もしくは外接矩形の
面積総和で除算することにより正規化し、得られた値を
特徴量とする方法を用いることができる。
5には、学習用に収集された文書画像データに対して特
徴抽出手段12により得られる特徴ベクトルを、例えば
K平均法、K近傍法によるクラスタリング処理により分
類し、得られた各クラスの代表ベクトルを標準パタン1
04としてあらかじめ登録する。
と、レイアウト辞書15から読み出される標準パタン1
04と距離計算もしくは類似度計算を行い、距離最小も
しくは類似度最大のものから順に上位候補の特徴ベクト
ル103を得る。予め特徴ベクトルを正規化した後に照
合する方法も考えられる。この場合、特徴ベクトルのノ
ルムが一定となるように正規化する方法や、入力画像に
含まれる要素の外接矩形の総数、あるいは外接矩形の面
積総和により正規化を行う方法を用いることができる。
例えば、特徴抽出手段12から出力される特徴ベクトル
を、
トルを、
る。
結果、入力される文書画像と照合するレイアウトが上位
候補として出力される。
り得られる、上位候補の特徴ベクトル103に従って、
前処理画像101における文字列の位置と方向を決定
し、これらを抽出する。
果、外接矩形の交差数特徴を用いて文書画像のレイアウ
トを表現することにより、個々の文字や図形の形状から
の影響を少なくすることができる。また交差数を面積で
重み付けすることにより、雑音等の面積の小さい部分の
影響を受けにくくなり、かつ図4のように分離文字に対
して交差数が多く計数されることを防ぐことができ、安
定して文字列を抽出することができる。
ック図である。
算出手段の処理例を示すブロック図である。
Claims (2)
- 【請求項1】 文書画像を入力し、ディジタル画像を得
る文書画像入力手段と、前記ディジタル画像に対して傾
き補正、雑音除去等の画像処理を施し、前処理画像を得
る前処理手段と、前記前処理画像から文字列抽出のため
の特徴ベクトルを算出する特徴抽出手段と、あらかじめ
学習用に収集された文書画像データセットに対して前記
前処理手段と前記特徴抽出手段を実行して得られた特徴
ベクトルを分類した結果を記憶しておくレイアウト辞書
と、前記特徴抽出手段において得られる特徴ベクトルと
前記レイアウト辞書に格納された特徴ベクトルとの間で
類似度又は距離値を算出し、前記レイアウト辞書から最
も照合するレイアウトを出力する照合手段と、前記照合
手段の結果得られたレイアウトに従って文字列の位置と
方向を決定し、前記前処理画像から文字列を抽出する文
字列抽出手段より構成されることを特徴とする文字列抽
出装置。 - 【請求項2】 前記特徴抽出手段は、前記前処理画像に
ラベリング処理を施し、連結要素を抽出するラベリング
手段と、 前記連結要素の外接矩形を求める外接矩形抽出手段と、 前記外接矩形の中心を通る一定長の垂直方向もしくは水
平方向線分が交差する外接矩形数を各々数え、これを前
記中心となる外接矩形の面積で重み付けした値を算出す
る重み付き交差数算出手段と、 前記重み付き交差数の局所領域内での合計値を求め、前
記特徴ベクトルの要素とする局所領域内計数部を含んで
いることを特徴とする請求項1記載の文字列抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5035926A JP2576350B2 (ja) | 1993-02-25 | 1993-02-25 | 文字列抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5035926A JP2576350B2 (ja) | 1993-02-25 | 1993-02-25 | 文字列抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06251193A JPH06251193A (ja) | 1994-09-09 |
JP2576350B2 true JP2576350B2 (ja) | 1997-01-29 |
Family
ID=12455646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5035926A Expired - Lifetime JP2576350B2 (ja) | 1993-02-25 | 1993-02-25 | 文字列抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2576350B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4416890B2 (ja) | 1999-12-20 | 2010-02-17 | 富士通株式会社 | 帳票識別装置 |
CN101276363B (zh) | 2007-03-30 | 2011-02-16 | 夏普株式会社 | 文档图像的检索装置及文档图像的检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61193276A (ja) * | 1985-02-20 | 1986-08-27 | Fujitsu Ltd | 文字列抽出方式 |
JPS62197881A (ja) * | 1986-02-26 | 1987-09-01 | Hitachi Ltd | 文書画像縦書・横書判定方式 |
JPH03113688A (ja) * | 1989-09-28 | 1991-05-15 | Meidensha Corp | 図面続取装置 |
-
1993
- 1993-02-25 JP JP5035926A patent/JP2576350B2/ja not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61193276A (ja) * | 1985-02-20 | 1986-08-27 | Fujitsu Ltd | 文字列抽出方式 |
JPS62197881A (ja) * | 1986-02-26 | 1987-09-01 | Hitachi Ltd | 文書画像縦書・横書判定方式 |
JPH03113688A (ja) * | 1989-09-28 | 1991-05-15 | Meidensha Corp | 図面続取装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH06251193A (ja) | 1994-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5390259A (en) | Methods and apparatus for selecting semantically significant images in a document image without decoding image content | |
Guo et al. | Separating handwritten material from machine printed text using hidden markov models | |
Jayadevan et al. | Offline recognition of Devanagari script: A survey | |
Cattoni et al. | Geometric layout analysis techniques for document image understanding: a review | |
US5369714A (en) | Method and apparatus for determining the frequency of phrases in a document without document image decoding | |
US5237627A (en) | Noise tolerant optical character recognition system | |
JPH05282495A (ja) | 比較方法 | |
Chanda et al. | Two-stage approach for word-wise script identification | |
Pal et al. | Automatic separation of machine-printed and hand-written text lines | |
Iwata et al. | Recognition and transition frame detection of Arabic news captions for video retrieval | |
US8340428B2 (en) | Unsupervised writer style adaptation for handwritten word spotting | |
Sas et al. | Three-stage method of text region extraction from diagram raster images | |
Tian et al. | Research on symbol recognition for mathematical expressions | |
JP2576350B2 (ja) | 文字列抽出装置 | |
Srinivas et al. | An overview of OCR research in Indian scripts | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Padma et al. | Script Identification from Trilingual Documents using Profile Based Features. | |
Al-Barhamtoshy et al. | Arabic OCR segmented-based system | |
JP3187899B2 (ja) | 文字認識装置 | |
AlKhateeb et al. | Interactive knowledge discovery for baseline estimation and word segmentation in handwritten Arabic text | |
Humied | Segmentation accuracy for offline Arabic handwritten recognition based on bounding box algorithm | |
Srihari | Recent advances in off-line handwriting recognition at CEDAR | |
Ding et al. | Multi-font printed Tibetan OCR | |
Haboubi et al. | Word classification in bilingual printed documents | |
Pasha et al. | Segmentation of Handwritten Documents Containing Kannada Script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19960910 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071107 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081107 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081107 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091107 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091107 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101107 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 15 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 16 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 16 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 17 |
|
EXPY | Cancellation because of completion of term |