JPH06274692A - 文字抽出装置 - Google Patents

文字抽出装置

Info

Publication number
JPH06274692A
JPH06274692A JP5058778A JP5877893A JPH06274692A JP H06274692 A JPH06274692 A JP H06274692A JP 5058778 A JP5058778 A JP 5058778A JP 5877893 A JP5877893 A JP 5877893A JP H06274692 A JPH06274692 A JP H06274692A
Authority
JP
Japan
Prior art keywords
image data
character
background
input
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5058778A
Other languages
English (en)
Inventor
Toshio Sato
俊雄 佐藤
Toshitake Hirasawa
利勇 平沢
Teruhiko Uno
輝比古 宇野
Kunihiro Shibuya
邦弘 渋谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5058778A priority Critical patent/JPH06274692A/ja
Publication of JPH06274692A publication Critical patent/JPH06274692A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

(57)【要約】 【目的】 文字の背景にある数種類の模様にかかわら
ず、文字を高速でしかも的確に抽出することができる文
字抽出装置を提供する。 【構成】 読取対象1の画像データをラインセンサ2で
読取り、その画像データのうち文字Mの背景となる部分
の特徴点P1 ,P2 ,P3 ,P4 を検出し、その特徴点
に基づいて入力画像データを背景模様の異なる複数の領
域E1 ,E2 ,E3 に区分し、その区分領域ごとに二値
化しきい値TH1 ,TH2 ,TH3 を設定し、その二値
化しきい値に基づいて入力画像データから文字Mに対応
する画像データを抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、二値化により文字を
抽出する文字抽出装置に関する。
【0002】
【従来の技術】文字の背景に数種類の模様を有する読取
対象から、文字のみに対応する二値画像を獲得する二値
化方式の例として、特開平1-297783号公報に示されてい
るように、別の手段で得られる背景模様の参照画像に基
づいて二値化を行なう方法が知られている。
【0003】また、特開平3-268086号公報に示されてい
るように、近傍濃度値を用いて各画素ごとにしきい値を
変えて、特定の対象が抽出された二値画像を作成する方
法も知られている。また、特開平2-56688 号公報に示さ
れているように、画像全体を四角形の部分領域に分け
て、それぞれの領域を異なるしきい値で二値化する方法
もある。
【0004】さらに、二値化を行なう前に、入力画像に
微分処理などの前処理を施す例や、二値化した後にラベ
ルづけ処理などの後処理により二値画像としての抽出を
助ける方法など、数多くが報告されている。
【0005】
【発明が解決しようとする課題】参照画像に基づいて二
値化する方法では、参照画像が予め与えられている場合
では検査画像との位置合わせを行なう必要があるが、微
細な模様など対象によっては位置合わせを完全に実施で
きないという問題がある。また、検査画像から参照画像
を作り出す場合は作成時間の分だけ高速処理の妨げにな
るという問題がある。近傍画素の濃度値を用い、画素ご
とに二値化しきい値を変える方法においては、高速処理
に適さないという問題がある。
【0006】画像全体を四角形の部分領域に分けて、そ
れぞれの領域を異なるしきい値で二値化する方法では、
その部分領域内で背景模様が変化する場合に、十分な抽
出ができないという問題がある。
【0007】さらに、この二値化処理に付加される微分
などの前処理や、ラベルづけなどの後処理はその分だけ
余計に時間がかかるため高速処理に適さないという問題
がある。
【0008】この発明は上記の事情を考慮したもので、
その目的とするところは、文字の背景にある数種類の模
様にかかわらず、文字を高速でしかも的確に抽出するこ
とができる文字抽出装置を提供することにある。
【0009】
【課題を解決するための手段】この発明の文字抽出装置
は、読取対象の画像データを入力するための入力手段
と、この入力手段に入力される画像データのうち文字の
背景となる部分の特徴点を検出する検出手段と、この検
出手段で検出される特徴点に基づいて上記入力画像デー
タを背景模様の異なる複数の領域に区分する区分手段
と、この区分手段で得られる領域ごとに二値化しきい値
を設定する設定手段と、この設定手段で設定される二値
化しきい値に基づいて上記入力画像データから文字に対
応する画像データを抽出する抽出手段とを備える。
【0010】
【作用】読取対象の画像データが入力されると、その画
像データのうち文字の背景となる部分の特徴点が検出さ
れる。この検出される特徴点に基づき、入力画像データ
が背景模様の異なる複数の領域に区分される。この区分
領域ごとに二値化しきい値が設定され、その二値化しき
い値に基づいて入力画像データから文字に対応する画像
データが抽出される。
【0011】
【実施例】以下、この発明の第1実施例について図面を
参照して説明する。
【0012】図1において、1は任意の文字が記載され
た読取対象である。この読取対象1は図示しない搬送機
構によってラインセンサ2へ送られる。このラインセン
サ2は画像入力部3とともに入力手段を構成しており、
読取対象1上の画像を二値化データ(以下、画像データ
と称する)として取込む。ラインセンサ2および画像入
力部3によって取込まれた画像データはメモリ制御回路
4の制御によりフレームメモリ5に書込まれる。
【0013】ここで、読取対象1は、図2に示すよう
に、多数の文字Mの背景となる部分に複数種の模様
1 ,E2 ,E3 を有し、これら模様の境界が直線
1 ,L2 で形成されるものと仮定する。この場合、境
界線L1 ,L2 は、それぞれ一次式(1)(2)で表わ
すことができる。 Y=a1 ・X+b1 ……(1) Y=a2 ・X+b2 ……(2) XとYは画像のx軸方向およびy軸方向のそれぞれ座
標、a1 ,b1 ,a2 ,b2 はパラメータである。
【0014】これらパラメータを求めるべく、先ず、フ
レームメモリ5に書込まれた画像データのうち、文字の
背景となる部分の特徴点が検出手段であるところのX座
標検出部6で検出される。すなわち、図3に示すよう
に、文字Mにかからない位置の上下2つのY座標Y1
2 があらかじめ選ばれており、この2つのY座標を通
るラインH1 ,H2 と境界線L1 ,L2 との交点がそれ
ぞれ特徴点P1 ,P2 ,P3 ,P4 として求められる。
【0015】実際の検出は、ラインH1 上の各画素につ
いて、その近傍画素との間で図4に示すような9画素数
にわたる重み演算を実行し、これにより図5に示すよう
なx軸方向の二次微分データを作成する。同様に、ライ
ンH2 上での二次微分データを作成する。
【0016】背景模様が変化する境界ではその二次微分
が大きい値をとることから、ラインH1 上ではX座標が
1 およびX3 の2つの特徴点P1 ,P3 を求めること
ができ、ラインH2 上ではX座標がX2 およびX4 の2
つの特徴点P2 ,P4 を求めることができる。こうして
検出される各特徴点のX座標は近似式計算回路7へ知ら
される。
【0017】近似式計算回路7は、ラインH1 ,H2
Y座標(あらかじめ保持している)およびX座標検出部
6で検出されるX座標を式(1)(2)に代入し、パラ
メータa1 ,b1 ,a2 ,b2 を求める。まず、式
(1)に特徴点P1 のX,Y座標を代入して式(3)を
得、同じく式(1)に特徴点P2 のX,Y座標を代入し
て式(4)を得る。 Y1 =a1 ・X1 +b1 ……(3) Y2 =a1 ・X2 +b1 ……(4) さらに、式(2)に特徴点P3 のX,Y座標を代入して
式(5)を得、同じく式(2)に特徴点P4 のX,Y座
標を代入して式(6)を得る。 Y1 =a2 ・X3 +b2 ……(5) Y2 =a2 ・X4 +b2 ……(6)
【0018】これらの式はパラメータa1 ,b1
2 ,b2 に関する連立一次方程式であるから、公知の
方法、たとえばGauss-Jordan法により、パラメータ
1 ,b1 ,a2 ,b2 の値を求めることができる。
【0019】求められたパラメータa1 ,b1 ,a2
2 の値は、式(1)(2)に当て嵌められ、フレーム
メモリ5内の画像データを区分するための境界線L1
2の近似式となる。これら近似式はしきい値処理回路
8へ知らされる。
【0020】しきい値処理回路8は、近似式計算回路7
で求まる近似式およびメモリ制御回路4から知らされる
入力画像データ全体のX,Y座標に基づいて、フレーム
メモリ5内の画像データを背景模様の異なる複数の領域
1 ,E2 ,E3 に区分する区分手段と、この区分した
領域E1 ,E2 ,E3 ごとに二値化しきい値を設定する
設定手段と、この設定した二値化しきい値に基づいてフ
レームメモリ5内の画像データから文字に対応する画像
データを抽出する抽出手段とを備えている。
【0021】すなわち、領域E1 に対し二値化しきい値
TH1 が設定され、領域E2 に対し二値化しきい値TH
2 が設定され、領域E3 に対し二値化しきい値TH3
設定される。そして、フレームメモリ5から画像データ
が読出され、そのうちの領域E1 の画像データが二値化
しきい値TH1 により二値画像データに変換され、領域
2 の画像データが二値化しきい値TH2 により二値画
像データに変換され、領域E3 の画像データが二値化し
きい値TH3 により二値画像データに変換される。こう
して図6に示すように、文字Mに対応する画像データが
抽出される。
【0022】このように、読取対象の画像データのうち
文字の背景となる部分の特徴点を検出し、その特徴点に
基づいて入力画像データを背景模様の異なる複数の領域
に区分し、その区分領域ごとに二値化しきい値を設定
し、その二値化しきい値に基づいて入力画像データから
文字に対応する画像データを抽出する構成とすることに
より、文字の背景に数種類の模様があっても、それにか
かわらず、文字を高速でしかも的確に抽出することがで
きる。
【0023】なお、上記実施例では、文字Mにかからな
い上下2つのラインH1 ,H2 において特徴点を求めた
が、いずれか1本のラインおいて特徴点を求めることも
可能である。
【0024】この場合、X座標検出部6は、図7に示す
ように文字にかからないY座標Y1のラインH1 を選
び、そのラインH1 上の各画素について、その近傍画素
との間で図4に示したのと同じく9画素数にわたる重み
演算を実行し、これにより図5に示したのと同じくx軸
方向の二次微分データを作成する。こうして、2つの特
徴点P1 ,P2 のX座標X1 ,X3 が求まる。
【0025】近似式計算回路7は、ラインH1 のY座標
(あらかじめ保持している)およびX座標検出部6で検
出されるX座標を式(1)(2)に代入し、パラメータ
1,b1 ,a2 ,b2 を求める。まず、式(1)に特
徴点P1 のX,Y座標を代入して式(7)を得る。 Y1 =a1 ・X1 +b1 ……(7) さらに、式(2)に特徴点P3 のX,Y座標を代入して
式(8)を得る。 Y1 =a2 ・X3 +b2 ……(8)
【0026】ここで、パラメータa1 ,a2 、つまり境
界線L1 ,L2 の傾きが既知であって、読取対象1の入
力に際しての位置ずれだけが発生するとすれば、未知と
なるパラメータb1 ,b2 を次のように求めることがで
きる。 b1 =Y1 −a1 ・X1 ……(9) b2 =Y1 −a2 ・X3 ……(10)
【0027】求められたパラメータb1 ,b2 の値は、
既知のパラメータa1 ,a2 とともに式(1)(2)に
当て嵌められ、フレームメモリ5内の画像データを区分
するための境界線L1 ,L2 の近似式となる。これら近
似式はしきい値処理回路8へ知らされる。以後の処理は
上記実施例と同じである。次に、この発明の第2実施例
について説明する。図8に示すように、フレームメモリ
5に書込まれた画像データは、プログラムメモリ11に
書込まれている処理手順に基づき、CPU12で処理さ
れる。
【0028】まず、図9の処理手順をプログラムメモリ
11に記憶されており、はじめのステップS1におい
て、フレームメモリ5内の画像データのうち文字の背景
となる部分の特徴点をいくつか検出する。これらの特徴
点を結ぶ境界線はある関数、 y=func(x)……(11) によって予め近似することができる。たとえば、図10
に示すように曲線状の境界線Lを有する画像データで
は、次の3次関数、 y=a・x3 +b・x2 +c・x+d……(12) で近似される。
【0029】ステップS1での特徴点の検出に当たって
は、近似する関数のパラメータの未知数に対し、それよ
りも多い数の特徴点を検出する。すなわち、式(12)の
3次関数の場合は4個のパラメータa,b,c,dが未
知なので、4つの特徴点P1,P2 ,P3 ,P4 を検出
する。これら特徴点は、第1実施例と同様に、適当に選
んだy軸方向のラインH1 ,H2 と境界線Lとの交点を
各画素の二次微分データにより求める。
【0030】続いて、ステップS2では、ステップS1
で求めた各特徴点の座標を式(12)に代入し、未知のパ
ラメータを計算して求める。式(12)の3次関数の場合
は4つの特徴点P1 ,P2 ,P3 ,P4 の座標を代入
し、 Y2 =a・X1 3 +b・X1 2 +c・X1 +d Y1 =a・X2 3 +b・X2 2 +c・X2 +d Y1 =a・X3 3 +b・X3 2 +c・X3 +d Y1 =a・X4 3 +b・X4 2 +c・X4 +d……(13)
【0031】の連立方程式を作成する。この連立方程式
をGauss-Jordan法で解き、パラメータa,b,c,dを
求める。そして、求めたパラメータa,b,c,dを式
(12)に当て嵌めることにより、境界線Lの近似式が得
られる。
【0032】そして、ステップS3において、求めた近
似式および入力画像データ全体のX,Y座標に基づい
て、フレームメモリ5内の画像データを背景模様の異な
る複数の領域E1 ,E2 に区分し、この区分した領域E
1 ,E2 ごとに二値化しきい値を設定し、この設定した
二値化しきい値に基づいてフレームメモリ5内の画像デ
ータから文字に対応する画像データを抽出する。
【0033】すなわち、領域E1 に対し二値化しきい値
TH1 が設定され、領域E2 に対し二値化しきい値TH
2 が設定される。そして、フレームメモリ5から画像デ
ータが読出され、そのうちの領域E1 の画像データが二
値化しきい値TH1 により二値画像データに変換され、
領域E2 の画像データが二値化しきい値TH2 により二
値画像データに変換される。こうして文字Mに対応する
画像データが抽出され、それがメモリ13に記憶され
る。最後にステップS4において、メモリ13内の画像
データが出力回路14によって出力される。
【0034】このように、読取対象の画像データのうち
文字の背景となる部分の特徴点を検出し、その特徴点に
基づいて入力画像データを背景模様の異なる複数の領域
に区分し、その区分領域ごとに二値化しきい値を設定
し、その二値化しきい値に基づいて入力画像データから
文字に対応する画像データを抽出する構成とすることに
より、文字の背景に数種類の模様があっても、それにか
かわらず、文字を高速でしかも的確に抽出することがで
きる。
【0035】なお、画像データを第1実施例では3つに
区分し、第2実施例では2つに区分したが、その区分数
に制約はない。また、各実施例では、抽出対象が文字で
ある場合について説明したが、文字以外のデータを抽出
する場合にも適用が可能である。その他、この発明は上
記実施例に限定されるものでなく、発明の主旨を変えな
い範囲で種々変形可能である。
【0036】
【発明の効果】以上述べたようにこの発明によれば、読
取対象の画像データのうち文字の背景となる部分の特徴
点を検出し、その特徴点に基づいて入力画像データを背
景模様の異なる複数の領域に区分し、その区分領域ごと
に二値化しきい値を設定し、その二値化しきい値に基づ
いて入力画像データから文字に対応する画像データを抽
出する構成としたので、文字の背景にある数種類の模様
にかかわらず、文字を高速でしかも的確に抽出すること
ができる文字抽出装置を提供できる。
【図面の簡単な説明】
【図1】本発明の第1実施例の構成を示すブロック図。
【図2】第1実施例に係る読取対象の例を示す図。
【図3】図2の読取対象の画像データに対する特徴点の
検出を説明するための図。
【図4】第1実施例での特徴点の検出に用いる重み演算
を説明するための図。
【図5】第1実施例での特徴点の検出に用いる二次微分
データを示す図。
【図6】第1実施例で抽出される画像データを示す図。
【図7】第1実施例における特徴点の検出の変形例を説
明するための図。
【図8】本発明の第2実施例の構成を示すブロック図。
【図9】第2実施例におけるCPUの処理手順を示すフ
ローチャート。
【図10】第2実施例に係る読取対象の画像データに対
する特徴点の検出を説明するための図。
【符号の説明】
1…読取対象、2…ラインセンサ(入力手段)、3…画
像入力部(入力手段)、4…メモリ制御回路、5…フレ
ームメモリ、6…X座標検出部(検出手段)、7…近似
式計算回路、8…しきい値処理回路。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 渋谷 邦弘 神奈川県川崎市幸区柳町70番地 株式会社 東芝柳町工場内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 読取対象の画像データを入力するための
    入力手段と、この入力手段に入力される画像データのう
    ち文字の背景となる部分の特徴点を検出する検出手段
    と、この検出手段で検出される特徴点に基づいて前記入
    力画像データを背景模様の異なる複数の領域に区分する
    区分手段と、この区分手段で得られる領域ごとに二値化
    しきい値を設定する設定手段と、この設定手段で設定さ
    れる二値化しきい値に基づいて前記入力画像データから
    文字に対応する画像データを抽出する抽出手段とを備え
    たことを特徴とする文字抽出装置。
JP5058778A 1993-03-18 1993-03-18 文字抽出装置 Pending JPH06274692A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5058778A JPH06274692A (ja) 1993-03-18 1993-03-18 文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5058778A JPH06274692A (ja) 1993-03-18 1993-03-18 文字抽出装置

Publications (1)

Publication Number Publication Date
JPH06274692A true JPH06274692A (ja) 1994-09-30

Family

ID=13094023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5058778A Pending JPH06274692A (ja) 1993-03-18 1993-03-18 文字抽出装置

Country Status (1)

Country Link
JP (1) JPH06274692A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4855985A (en) * 1987-07-14 1989-08-08 Massachusetts Institute Of Technology Digital storage
JP2011005502A (ja) * 2009-06-23 2011-01-13 Koike Sanso Kogyo Co Ltd 切断装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4855985A (en) * 1987-07-14 1989-08-08 Massachusetts Institute Of Technology Digital storage
JP2011005502A (ja) * 2009-06-23 2011-01-13 Koike Sanso Kogyo Co Ltd 切断装置

Similar Documents

Publication Publication Date Title
CA2196875C (en) Method and apparatus for determining the fine angular orientation of bar code symbols in two-dimensional ccd images
US4162482A (en) Pre-processing and feature extraction system for character recognition
US5708730A (en) Table recognition apparatus
JP3251918B2 (ja) 光学式文字認識システムにおける2値化方法
JPS6159568A (ja) 文書処理装置
JPH0256707B2 (ja)
JPH06274692A (ja) 文字抽出装置
JPH06208625A (ja) 画像処理方法及び装置
Latecki Multicolor well-composed pictures
JP2613959B2 (ja) 指紋紋様分類装置
JP2986185B2 (ja) 線図形の線幅分類方式
JPH0531791B2 (ja)
JPH04255080A (ja) 画像入力装置
JP4242962B2 (ja) 文字切出装置
US11640535B2 (en) Probability acquisition apparatus and probability acquisition method
JPS603073A (ja) パタ−ン抽出方式
JPH0535872A (ja) 2値画像の輪郭追跡方式
JP2964594B2 (ja) マーク検査方法
JPS622382A (ja) 画像処理方法
JP2771045B2 (ja) 文書画像の領域分割方法
JPH0812695B2 (ja) 領域抽出装置
JP2522511B2 (ja) 画像輪郭追跡ユニット
JPH0276084A (ja) 高速文字図形分離装置
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
Banerjee et al. Hand-drawn line removal from Bangla printed document images