JPH03154983A

JPH03154983A - イメージデータの分類処理方式

Info

Publication number: JPH03154983A
Application number: JP1294528A
Authority: JP
Inventors: Masayoshi Hosokawa; 細川　政義; Naotaka Daikoumei; 大光明　直孝; Akimichi Tanaka; 明通田中
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1989-11-13
Filing date: 1989-11-13
Publication date: 1991-07-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は２文字辞書などの作成のために集められたサン
プルの中から１文字辞書を作成するのにふされしくない
不良サンプルを抽出するイメージデータの分類処理方式
に関する。

ここでサンプルとは３本方式で良／不良の分類をさせた
いイメージデータのことをいう。又、不良サンプルとは
同一カテゴリ内の他の文字と種類が違う誤字及びどのカ
テゴリの平均値とも特性が極端にずれている極度のくず
れ字やかすれ字をいう。尚、カテゴリとは各文字種に対
応する文字の集合である。

〔従来の技術〕

従来のイメージデータの分類処理方式を第２図を参照し
て説明する。従来のイメージデータの分類処理方式では
、別途収集した良ザンプルからなる母集団ナンプルによ
ってカテゴリ１からＮ（全文字種数）毎に算出済の平均
値１０を用いて、サンプルについて　このカテゴリｌか
らＮの平均値との距離値計算を距離値計算部１において
行い。

この結果をもとに距離値ソート部２においてソートした
のちに距離値の順位による評価部３において評価を行い
距離値が上位から一定の順位以内にない場合に、不良サ
ンプルとして判断するようにしていた。

〔発明が解決しようとする課題〕

不良サンプルのうち、誤字については距離値が一定順位
以内に入らないことが多いために、従来の方式の下で不
良サンプルを抽出することができた。しかし、くずれ字
、かすれ字の場合にはとのカテゴリの平均値に対しても
特性が極端にずれているために、距離値が一定順位以内
に入ってしまうことがあり従来の方式では分類できない
ことが多かった。

すなわち、従来の分類処理方式では、サンプルの特徴ヘ
クＩ・ルの値が平均値から極端にずれているために距離
値計算部１によってサンプルと１からＮまでの各カテゴ
リとの類似性を評価するのが無意味な場合、即ち具体的
にはどのカテゴリとの間でも距離値が大きい場合にも、
距離値から定まる順位のみによって良／不良を判断して
しまうために　くずれ字、かすれ字のような不良サンプ
ルを良サンプルと誤判断するという欠点があった。

本発明は１以上のような欠点を解決することを目的とし
ている。

〔課題を解決するための手段〕

本発明は上記課題を解決するために、（ｉ）距離値の順
位による評価と、（ｉｉ）距離値が一定値以上のサンプ
ルは不良サンプルとして分類する距離値の絶対値による
評価と、（ｉｉｉ）特徴ベクトル量が一定値以上のサン
プルは不良サンプルとしないとする特徴ベクトル量の絶
対値による評価との３つの情報を尺度として利用する評
価部をそなえている。

〔作　用］」二足３つの評価部による評価結果を勘案して不良サン
プルを抽出する。

（実施例〕以下９本発明の実施例を第１図を参照して説明する。

図中の符号１は距離値計算部、２は距離値ソート部１３
は距離値の順位による評価部、４は距離値の絶対値によ
る評価部、５は特徴ベクトル量の絶対値による評価部、
イ１０はカテゴリ毎の平均値を表す。

まず、誤字、くずれ字５かすれ字を不良サンプルの対象
とすべく距離値計算部１と距離値ソート部２とで算出さ
れた結果をもとに距離値が一定順位以内にないものを不
良サンプルとみなず距離値の順位による評価を評価部３
において行う。これにより誤字の大部分及び、くずれ字
、かずれ字の一部分が不良サンプルとして分類される。

次に、距離値の順位による評価部３における評価におい
ては不良サンプルとみなせなかったくずれ字やかすれ字
を不良サンプルとして抽出する処理が行われる。具体的
には距離値の絶対値による評価部４において、距離値が
一定値以上のシンプルを特徴ベクトル量が平均値から極
端にずれているとみなして不良サンプルと判断してゆく
処理を行う。このとき、斜め字の場合もかすれ字やくず
れ字と同じようにどのカテゴリの平均値に対してもずれ
ているために不良サンプルとみなされる場合がある。そ
のために、くずれ字やかすれ字と比較して特徴ベクトル
量が大きい斜め字についてはこれを不良サンプルでない
として取り除（必要がある。そのため、特徴ベクトル量
が一定値以上あるサンプルについては、距離値の絶対値
による評価部４により誤判断されたものとみなして良サ
ンプルとする評価を行う。即ち特徴ベクトル量の絶対値
による評価部５による評価を行う。この評価を実施する
事によりくずれ字の不良サンプルが良サンプルと誤判断
する場合もあるけれども、しきい値を適切に選ぶ事で、
この割合を低く抑える事が出来る。

尚、距離値の絶対値による評価部４と、特徴ベクトル量
の絶対値による評価部５とにおいて５判断の基準として
利用するしきい値については、あらかしめ良品質である
と分かっているサンプルの分析により経験的に得られる
値を用いる。また良品質サンプルが得られていない場合
にはサンプルを一定数抽出してサンプル品質と距離値や
特徴ベクトル量との関係を分析して経験的に値を求める
ようにされる。

〔発明の効果〕

以上説明したように１本発明によれば１文字の傾きのた
めに距離値がしきい値を越えていて評価により不良と判
断されたものを特徴ベクトル量による評価により取り除
きながら、特徴ベクトルの特性がどのカテゴリの平均値
とも極端にずれているくずれ字やかすれ字のサンプルを
距離値の絶対値による評価により不良サンプルとして分
類できる。

そのために、良サンプルと文字辞書作成にふされしくな
い不良サンプルとを的確に分類することが出来る。

【図面の簡単な説明】

第１図は本発明によるイメージデータの分類処理方式を
表すブロック構成図、第２図は従来のイメージデータの
分類処理方式を表すブロック構成図を示す。図中、１は距離値計算部、２は距離値ソート部３は距離
値の順位による評価部、４は距離値の絶対値による評価
部、５は特徴ベクトル量の絶対値による評価部を表す。第２図

Claims

【特許請求の範囲】収集されたサンプルの中から、当該文字の特徴量を逸脱
している不良サンプルを除外するイメージデータの分類
処理方式において、サンプルの特徴ベクトルと、別途収集した良サンプルか
らなる母集団サンプルとを用いて複数個のカテゴリの各
カテゴリについてカテゴリ毎に特徴ベクトルの平均値と
の間で距離値を計算する距離値計算部と、その結果をソートする距離値ソート部と、カテゴリの平均値との距離値の順位による評価部と、距離値の絶対値による評価部と、特徴ベクトル量の絶対値による評価部とをそなえ、少なくとも上記３つの評価部による評価結果を尺度とし
て上記収集されたサンプルの１つを不良サンプルとして
抽出するようにしたことを特徴とするイメージデータの分類処理方式。