JPH03154983A - イメージデータの分類処理方式 - Google Patents
イメージデータの分類処理方式Info
- Publication number
- JPH03154983A JPH03154983A JP1294528A JP29452889A JPH03154983A JP H03154983 A JPH03154983 A JP H03154983A JP 1294528 A JP1294528 A JP 1294528A JP 29452889 A JP29452889 A JP 29452889A JP H03154983 A JPH03154983 A JP H03154983A
- Authority
- JP
- Japan
- Prior art keywords
- samples
- evaluation
- defective
- distance
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 33
- 230000002950 deficient Effects 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000003672 processing method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 abstract 5
- 238000000034 method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は2文字辞書などの作成のために集められたサン
プルの中から1文字辞書を作成するのにふされしくない
不良サンプルを抽出するイメージデータの分類処理方式
に関する。
プルの中から1文字辞書を作成するのにふされしくない
不良サンプルを抽出するイメージデータの分類処理方式
に関する。
ここでサンプルとは3本方式で良/不良の分類をさせた
いイメージデータのことをいう。又、不良サンプルとは
同一カテゴリ内の他の文字と種類が違う誤字及びどのカ
テゴリの平均値とも特性が極端にずれている極度のくず
れ字やかすれ字をいう。尚、カテゴリとは各文字種に対
応する文字の集合である。
いイメージデータのことをいう。又、不良サンプルとは
同一カテゴリ内の他の文字と種類が違う誤字及びどのカ
テゴリの平均値とも特性が極端にずれている極度のくず
れ字やかすれ字をいう。尚、カテゴリとは各文字種に対
応する文字の集合である。
従来のイメージデータの分類処理方式を第2図を参照し
て説明する。従来のイメージデータの分類処理方式では
、別途収集した良ザンプルからなる母集団ナンプルによ
ってカテゴリ1からN(全文字種数)毎に算出済の平均
値10を用いて、サンプルについて このカテゴリlか
らNの平均値との距離値計算を距離値計算部1において
行い。
て説明する。従来のイメージデータの分類処理方式では
、別途収集した良ザンプルからなる母集団ナンプルによ
ってカテゴリ1からN(全文字種数)毎に算出済の平均
値10を用いて、サンプルについて このカテゴリlか
らNの平均値との距離値計算を距離値計算部1において
行い。
この結果をもとに距離値ソート部2においてソートした
のちに距離値の順位による評価部3において評価を行い
距離値が上位から一定の順位以内にない場合に、不良サ
ンプルとして判断するようにしていた。
のちに距離値の順位による評価部3において評価を行い
距離値が上位から一定の順位以内にない場合に、不良サ
ンプルとして判断するようにしていた。
不良サンプルのうち、誤字については距離値が一定順位
以内に入らないことが多いために、従来の方式の下で不
良サンプルを抽出することができた。しかし、くずれ字
、かすれ字の場合にはとのカテゴリの平均値に対しても
特性が極端にずれているために、距離値が一定順位以内
に入ってしまうことがあり従来の方式では分類できない
ことが多かった。
以内に入らないことが多いために、従来の方式の下で不
良サンプルを抽出することができた。しかし、くずれ字
、かすれ字の場合にはとのカテゴリの平均値に対しても
特性が極端にずれているために、距離値が一定順位以内
に入ってしまうことがあり従来の方式では分類できない
ことが多かった。
すなわち、従来の分類処理方式では、サンプルの特徴ヘ
クI・ルの値が平均値から極端にずれているために距離
値計算部1によってサンプルと1からNまでの各カテゴ
リとの類似性を評価するのが無意味な場合、即ち具体的
にはどのカテゴリとの間でも距離値が大きい場合にも、
距離値から定まる順位のみによって良/不良を判断して
しまうために くずれ字、かすれ字のような不良サンプ
ルを良サンプルと誤判断するという欠点があった。
クI・ルの値が平均値から極端にずれているために距離
値計算部1によってサンプルと1からNまでの各カテゴ
リとの類似性を評価するのが無意味な場合、即ち具体的
にはどのカテゴリとの間でも距離値が大きい場合にも、
距離値から定まる順位のみによって良/不良を判断して
しまうために くずれ字、かすれ字のような不良サンプ
ルを良サンプルと誤判断するという欠点があった。
本発明は1以上のような欠点を解決することを目的とし
ている。
ている。
本発明は上記課題を解決するために、(i)距離値の順
位による評価と、(ii)距離値が一定値以上のサンプ
ルは不良サンプルとして分類する距離値の絶対値による
評価と、(iii)特徴ベクトル量が一定値以上のサン
プルは不良サンプルとしないとする特徴ベクトル量の絶
対値による評価との3つの情報を尺度として利用する評
価部をそなえている。
位による評価と、(ii)距離値が一定値以上のサンプ
ルは不良サンプルとして分類する距離値の絶対値による
評価と、(iii)特徴ベクトル量が一定値以上のサン
プルは不良サンプルとしないとする特徴ベクトル量の絶
対値による評価との3つの情報を尺度として利用する評
価部をそなえている。
〔作 用]
」二足3つの評価部による評価結果を勘案して不良サン
プルを抽出する。
プルを抽出する。
(実施例〕
以下9本発明の実施例を第1図を参照して説明する。
図中の符号1は距離値計算部、2は距離値ソート部13
は距離値の順位による評価部、4は距離値の絶対値によ
る評価部、5は特徴ベクトル量の絶対値による評価部、
イ10はカテゴリ毎の平均値を表す。
は距離値の順位による評価部、4は距離値の絶対値によ
る評価部、5は特徴ベクトル量の絶対値による評価部、
イ10はカテゴリ毎の平均値を表す。
まず、誤字、くずれ字5かすれ字を不良サンプルの対象
とすべく距離値計算部1と距離値ソート部2とで算出さ
れた結果をもとに距離値が一定順位以内にないものを不
良サンプルとみなず距離値の順位による評価を評価部3
において行う。これにより誤字の大部分及び、くずれ字
、かずれ字の一部分が不良サンプルとして分類される。
とすべく距離値計算部1と距離値ソート部2とで算出さ
れた結果をもとに距離値が一定順位以内にないものを不
良サンプルとみなず距離値の順位による評価を評価部3
において行う。これにより誤字の大部分及び、くずれ字
、かずれ字の一部分が不良サンプルとして分類される。
次に、距離値の順位による評価部3における評価におい
ては不良サンプルとみなせなかったくずれ字やかすれ字
を不良サンプルとして抽出する処理が行われる。具体的
には距離値の絶対値による評価部4において、距離値が
一定値以上のシンプルを特徴ベクトル量が平均値から極
端にずれているとみなして不良サンプルと判断してゆく
処理を行う。このとき、斜め字の場合もかすれ字やくず
れ字と同じようにどのカテゴリの平均値に対してもずれ
ているために不良サンプルとみなされる場合がある。そ
のために、くずれ字やかすれ字と比較して特徴ベクトル
量が大きい斜め字についてはこれを不良サンプルでない
として取り除(必要がある。そのため、特徴ベクトル量
が一定値以上あるサンプルについては、距離値の絶対値
による評価部4により誤判断されたものとみなして良サ
ンプルとする評価を行う。即ち特徴ベクトル量の絶対値
による評価部5による評価を行う。この評価を実施する
事によりくずれ字の不良サンプルが良サンプルと誤判断
する場合もあるけれども、しきい値を適切に選ぶ事で、
この割合を低く抑える事が出来る。
ては不良サンプルとみなせなかったくずれ字やかすれ字
を不良サンプルとして抽出する処理が行われる。具体的
には距離値の絶対値による評価部4において、距離値が
一定値以上のシンプルを特徴ベクトル量が平均値から極
端にずれているとみなして不良サンプルと判断してゆく
処理を行う。このとき、斜め字の場合もかすれ字やくず
れ字と同じようにどのカテゴリの平均値に対してもずれ
ているために不良サンプルとみなされる場合がある。そ
のために、くずれ字やかすれ字と比較して特徴ベクトル
量が大きい斜め字についてはこれを不良サンプルでない
として取り除(必要がある。そのため、特徴ベクトル量
が一定値以上あるサンプルについては、距離値の絶対値
による評価部4により誤判断されたものとみなして良サ
ンプルとする評価を行う。即ち特徴ベクトル量の絶対値
による評価部5による評価を行う。この評価を実施する
事によりくずれ字の不良サンプルが良サンプルと誤判断
する場合もあるけれども、しきい値を適切に選ぶ事で、
この割合を低く抑える事が出来る。
尚、距離値の絶対値による評価部4と、特徴ベクトル量
の絶対値による評価部5とにおいて5判断の基準として
利用するしきい値については、あらかしめ良品質である
と分かっているサンプルの分析により経験的に得られる
値を用いる。また良品質サンプルが得られていない場合
にはサンプルを一定数抽出してサンプル品質と距離値や
特徴ベクトル量との関係を分析して経験的に値を求める
ようにされる。
の絶対値による評価部5とにおいて5判断の基準として
利用するしきい値については、あらかしめ良品質である
と分かっているサンプルの分析により経験的に得られる
値を用いる。また良品質サンプルが得られていない場合
にはサンプルを一定数抽出してサンプル品質と距離値や
特徴ベクトル量との関係を分析して経験的に値を求める
ようにされる。
以上説明したように1本発明によれば1文字の傾きのた
めに距離値がしきい値を越えていて評価により不良と判
断されたものを特徴ベクトル量による評価により取り除
きながら、特徴ベクトルの特性がどのカテゴリの平均値
とも極端にずれているくずれ字やかすれ字のサンプルを
距離値の絶対値による評価により不良サンプルとして分
類できる。
めに距離値がしきい値を越えていて評価により不良と判
断されたものを特徴ベクトル量による評価により取り除
きながら、特徴ベクトルの特性がどのカテゴリの平均値
とも極端にずれているくずれ字やかすれ字のサンプルを
距離値の絶対値による評価により不良サンプルとして分
類できる。
そのために、良サンプルと文字辞書作成にふされしくな
い不良サンプルとを的確に分類することが出来る。
い不良サンプルとを的確に分類することが出来る。
第1図は本発明によるイメージデータの分類処理方式を
表すブロック構成図、第2図は従来のイメージデータの
分類処理方式を表すブロック構成図を示す。 図中、1は距離値計算部、2は距離値ソート部3は距離
値の順位による評価部、4は距離値の絶対値による評価
部、5は特徴ベクトル量の絶対値による評価部を表す。 第 2 図
表すブロック構成図、第2図は従来のイメージデータの
分類処理方式を表すブロック構成図を示す。 図中、1は距離値計算部、2は距離値ソート部3は距離
値の順位による評価部、4は距離値の絶対値による評価
部、5は特徴ベクトル量の絶対値による評価部を表す。 第 2 図
Claims (1)
- 【特許請求の範囲】 収集されたサンプルの中から、当該文字の特徴量を逸脱
している不良サンプルを除外するイメージデータの分類
処理方式において、 サンプルの特徴ベクトルと、別途収集した良サンプルか
らなる母集団サンプルとを用いて複数個のカテゴリの各
カテゴリについてカテゴリ毎に特徴ベクトルの平均値と
の間で距離値を計算する距離値計算部と、 その結果をソートする距離値ソート部と、 カテゴリの平均値との距離値の順位による評価部と、 距離値の絶対値による評価部と、 特徴ベクトル量の絶対値による評価部とをそなえ、 少なくとも上記3つの評価部による評価結果を尺度とし
て上記収集されたサンプルの1つを不良サンプルとして
抽出するようにした ことを特徴とするイメージデータの分類処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1294528A JPH03154983A (ja) | 1989-11-13 | 1989-11-13 | イメージデータの分類処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1294528A JPH03154983A (ja) | 1989-11-13 | 1989-11-13 | イメージデータの分類処理方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03154983A true JPH03154983A (ja) | 1991-07-02 |
Family
ID=17808950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1294528A Pending JPH03154983A (ja) | 1989-11-13 | 1989-11-13 | イメージデータの分類処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03154983A (ja) |
-
1989
- 1989-11-13 JP JP1294528A patent/JPH03154983A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6640009B2 (en) | Identification, separation and compression of multiple forms with mutants | |
Wang et al. | Classification of newspaper image blocks using texture analysis | |
US7783106B2 (en) | Video segmentation combining similarity analysis and classification | |
RU2234734C1 (ru) | Способ многоэтапного анализа информации растрового изображения | |
EP1314129B1 (en) | Character recognition system | |
JPH05225378A (ja) | 文書画像の領域分割システム | |
US9811726B2 (en) | Chinese, Japanese, or Korean language detection | |
US6337927B1 (en) | Approximated invariant method for pattern detection | |
JP3313272B2 (ja) | 住所読み取り方法および識別関数重みベクトル生成方法 | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
Chi et al. | A two-stage binarization approach for document images | |
JPH03154983A (ja) | イメージデータの分類処理方式 | |
Mita et al. | Improvement of video text recognition by character selection | |
Clavier et al. | Image sorting and image classification: a global approach | |
Bargeron et al. | Boosting-based transductive learning for text detection | |
JPH03154984A (ja) | 不良イメージデータ分類処理方式 | |
JP2000090203A (ja) | 文字認識方法及びその装置 | |
Forbes et al. | Bubble size distributions for froth classification | |
JPH0528322A (ja) | 文字認識装置 | |
JPH06348903A (ja) | 文字認識装置 | |
JPH09106437A (ja) | 文字切出し装置および文字切出し方法 | |
JPH0944604A (ja) | 文字認識処理方法 | |
Aparna et al. | Bilingual (Tamil–Roman) Text Recognition on Windows | |
JP3446769B2 (ja) | 文字認識装置 | |
Moreau et al. | Automatic segmentation and recognition of zip codes on handwritten real mail |