JP4662909B2

JP4662909B2 - 特徴評価方法及び装置及びプログラム

Info

Publication number: JP4662909B2
Application number: JP2006310631A
Authority: JP
Inventors: 弾三上; 正造東; 正志森本
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-11-16
Filing date: 2006-11-16
Publication date: 2011-03-30
Anticipated expiration: 2026-11-16
Also published as: JP2008129657A

Description

本発明は、パターン分類において、ある特徴セットが分類に有効であるか否かを評価する特徴評価方法及び装置及びプログラムに係り、特に、適合フィードバックなどに代表される、学習データが少ない状況においても分類に有効な特徴セットであるか否かを精度よく評価するための特徴評価方法及び装置及びプログラムに関する。

Ｎ次元の特徴量からなるパターンの集合を２つのクラス（例えば、必要なパターンと不要なパターン、など）に分類する際に、速度の向上、記憶容量の削減、精度の向上などを目的として、分類に有効なｎ次元からなる特徴セット（n＜Ｎ）を選択したいという要求がある。

これに対し、入力された未知パターンのベクトルで表現された特徴から選択基準に沿って有効なものを選択し、これを低次元化して未知パターンの属するクラスを決定する技術（例えば、特許文献１参照）や、各特徴セットに対してConfident Margin（CM）という評価値を用いながらＳＢＳアルゴリズムを適用する、最適な特徴セットを求める技術（例えば、非特許文献１参照）がある。
特許公報（Ｂ２）特許第３１３１８６２号電子情報通信学会論文誌D-II Vol. 88-D-II No. 12 PP.2291-2300 Confident Marginを用いたＳＶＭのための特徴選択手法

しかしながら、特許文献１の技術では、特徴を主成分分析してしまうため、現在の分類要求に対して特徴が有効であるか否かの判断は行われないという問題がある。一方、非特許文献１では、分類にあたって、Confident Marginと呼ばれる評価尺度を用いて、サポートベクトルマシンで用いた特徴が有効なものであるか否かを推定する。しかしながら、Confident Marginは学習サンプル数が少ない場合などに推定精度が不安定で、大量の学習パターンを収集することが困難である場合や、適合フィードバックに代表されるような、ユーザの操作をもとに分類を行うため大量の学習パターンを収集することが困難な場合には、正しく有効な特徴の推定が行えないという問題がある。

本発明は、上記の点に鑑みなされたもので、分類問題において、サポートベクターマシンでの学習結果における、Margin幅とサポートベクターの数、特徴量の数を用いた新たな指標を導入することによって、少ない学習パターン数においても特徴セットの有効性を評価することが可能な特徴評価方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、パターン分類を行う際に、特徴セットが分類において有効か否かを評価する特徴評価装置における特徴評価方法であって、
サポートベクターマシン学習手段が、学習パラメータ記憶手段から読み出した学習パラメータを用いて評価対象学習パターンについて学習するサポートベクターマシン学習手順（ステップ１）と、
サポートベクター数取得手段が、サポートベクターマシン学習手順による学習結果からサポートベクターの数Ｎ（ＳＶ）を取得するサポートベクター数取得手順（ステップ２）と、
特徴次元数取得手段が、評価対象特徴セットの次元数Ｙ（Feature）を取得する特徴次元数取得手順と、
特徴セット評価値算出手段が、サポートベクター数Ｎ（ＳＶ）、評価対象特徴セットの次元数Ｙ（Feature）、既存の方法により求めた特徴セット評価指標を利用して特徴セットの評価値を求める特徴セット評価値算出手順（ステップ３）と、
特徴決定手段が、特徴セットの評価値の最も高いものを最適特徴セットとする特徴決定手順（ステップ４）とを行う。

また、本発明（請求項２）は、特徴セット評価値算出手順（ステップ３）において、
サポートベクターの数Ｎ（ＳＶ）が多いほど評価値を下げる。

また、本発明（請求項３）は、特徴セット評価値算出手順（ステップ３）において、
特徴セットの次元数Ｙ（Feature）が少ないほど特徴セットの評価値を下げる。

また、本発明（請求項４）は、マージン幅取得手段が、サポートベクターマシン学習手順による学習結果からマージン幅Ｍを取得するマージン幅取得手順と、
コンフィデント取得手段が、サポートベクターマシン学習手順による学習結果からサポートベクターマシンの指標であるConfident（Ｃ）を取得するコンフィデント取得手順と、
を行い、
特徴セット評価値算出手順（ステップ３）において、
既存の方法により求めた特徴セット評価指標として、マージン幅Ｍ及びConfident（Ｃ）を用いる。

また、本発明（請求項５）は、特徴セット評価値算出手順（ステップ３）において、Confident（Ｃ）、Ｙ（Feature）、Ｎ（ＳＶ）、Ｍを用いて、評価式
E(Feature)=Confident(C)・M・log(Y(Feature)+a))/(b・N(SV))
但し、ａ、ｂは予め設定された定数
により特徴セットの評価値を求める。

図２は、本発明の原理構成図である。

本発明（請求項６）は、パターン分類を行う際に、特徴セットが分類において有効か否かを評価する特徴評価装置であって、
学習パラメータを格納した学習パラメータ記憶手段４と、
学習パラメータ記憶手段から読み出した学習パラメータを用いて評価対象学習パターンについて学習するサポートベクターマシン学習手段５と、
サポートベクターマシン学習手段５による学習結果からサポートベクターの数Ｎ（ＳＶ）を取得するサポートベクター数取得手段と７、
評価対象特徴セットの次元数Ｙ（Feature）を取得する特徴次元数取得手段と、
サポートベクター数Ｎ（ＳＶ）、評価対象特徴セットの次元数Ｙ(Feature)、既存の方法により求めた特徴セット評価指標を利用して特徴セットの評価値を求める特徴セット評価値算出手段１０と、
特徴セットの評価値の最も高いものを最適特徴セットとする特徴決定手段１２と、を有する。

本発明（請求項７）は、コンピュータに、請求項６記載の特徴評価装置の各手段を実行させる特徴評価プログラムである。

本発明によれば、少ない学習サンプルの場合において有効な特徴セット評価指標を与えることができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における特徴評価装置の構成を示す。

同図に示す特徴評価装置は、学習パターン蓄積部１、評価対象特徴セット入力部２、評価値対象学習パターン生成部３、学習パラメータ記憶部４、サポートベクターマシン学習部５、評価対象学習パターン特徴次元数取得部６、サポートベクター数取得部７、Margin幅取得部８、Confident取得部９、特徴セット評価値算出部１０、特徴セット評価記憶部１１、特徴決定部１２、暫定特徴選択部１３から構成される。

学習パターン蓄積部１は、学習パターン（Ｌ_ｉｊ、但し、ｉ={１，…，ｍ，…，Ｍ}でＭは学習パターンの数を表し、ｊ＝｛１，…，Ｎ｝でＮは各パターンの特徴次元数を表すものとする）を蓄積する。

評価対象特徴セット入力部２が、評価対象の特徴セット（Feature）を評価対象学習パターン生成部３に入力する。

評価対象学習パターン生成部３は、学習パターン蓄積部１から取得した学習パターンと評価対象特徴セット入力部２から入力された評価対象の特徴セット（Feature）の部分を取り出して、評価対象学習パターンを生成する。

学習パラメータ記憶部４は、サポートベクターマシン学習部５で用いるパラメータを記憶する。

サポートベクターマシン学習部５は、カーネルの種類及びカーネルの種類に応じた学習パラメータを学習パラメータ記憶部４から読み出して、評価対象学習パターンをサポートベクターマシン（SVM）を用いて学習し、その結果をサポートベクター数取得部７、Margin幅取得部８、Confident取得部９に出力する。

評価対象学習パターン特徴次元数取得部６は、評価対象特徴セット入力部２から得られた特徴セット（Feature）を取得し、Featureが含む特徴次元量をＹ（Feature）とする。

サポートベクター数取得部７は、サポートベクターマシン学習部５の学習結果からサポートベクターの数を取得して、サポートベクター数Ｎ（ＳＶ）とする。

Margin幅取得部８は、サポートベクターマシン学習部５の学習結果からMargin幅を取得し、Ｍとする。

confident取得部９は、学習結果からサポートベクターマシン（SVM）の指標であるConfidentを算出し、Ｃとする。

特徴セット評価値算出部１０は、評価対象学習パターン特徴次元数取得部６で取得した特徴次元数（Ｙ（Feature））、サポートベクター数取得部７で取得したサポートベクター数（Ｎ（ＳＶ））、Margin幅取得部８で取得したMargin幅（Ｍ），Confident取得部９で取得したConfident（Ｃ）から特徴セット（Feature）を評価し、特徴セット評価記憶部１１に格納する。

特徴決定部１２は、特徴セット評価記憶部１１に格納されている特徴セットのうち、最も評価値が高い特徴セットを最適特徴セットとする。

暫定特徴選択部１３は、評価対象となる暫定的な特徴セット（Feature）を決定し、評価値対象特徴セット入力部２に出力する。

以下に、上記の構成における動作を説明する。

図４は、本発明一実施の形態における特徴評価装置の動作のフローチャートである。

ステップ１０１）評価対象学習パターン生成手順では、評価対象学習パターン生成部３が、学習パターン蓄積部１に蓄積されている学習パターン（Ｌ_ｉｊ、但し、ｉ＝｛１，…，ｍ，…Ｍ｝でＭは学習パターンの数を表し、ｊ｛１，…，Ｎ｝でＮは各パターンの特徴次元数を表すものとする）のうち、評価対象特徴セット入力部２から得られる評価対象の特徴セット（Feature）の部分を取り出し、評価対象学習パターン（ｘ_ｋｓ，ｋ＝｛１，…，Ｍ｝，ｓ＝｛１，…，ｎ｝であり、任意のｓはＮに含まれる）を生成する。また、各学習パターンＬ_ｍは教師信号として＋１もしくは−１のラベルが付与されており、該ラベルはｒ（）により参照可能であり、参照は学習パターンＬ_ｍでも、評価対象学習パターンｘ_ｍからも可能である。なお、当該手順については図５において詳述する。

ステップ１０２）サポートベクターマシン学習手順では、サポートベクターマシン学習部５において、学習パラメータ記憶部４に格納されているサポートベクターマシンで学習する際のパラメータである、カーネルの種類及びカーネルの種類に応じた学習パラメータを読み出し、評価対象学習パターンｘ_ｋｓを、サポートベクターマシンにより学習する。

ステップ１０３）評価対象特徴次元数取得手順では、評価対象学習パターン特徴次元数取得部６において、評価対象特徴セット入力部２から得られた特徴セット（Feature）を受け取り、Featureが含む特徴次元数を取得し、Y(Feature)とする。

ステップ１０４）サポートベクター数取得手順では、サポートベクター数取得部７において、サポートベクターマシン学習部５の学習結果からサポートベクターの数を取得し、Ｎ（ＳＶ）とする。

ステップ１０５） Margin幅取得手段では、Margin幅取得部８において、サポートベクターマシン学習部５の学習結果からMargin幅を取得し、これをＭとする。

ステップ１０６） Confident取得手順では、Confident取得部９において、サポートベクターマシン学習部５の学習結果からConfidentを算出し、これをＣとする。

ステップ１０７）特徴評価手順では、特徴セット評価値算出部１０において、評価対象特徴次元数取得手順（ステップ１０３）で取得した特徴セットの特徴次元数（Y(Feature)）、サポートベクター数取得手順（ステップ１０４）により得られたサポートベクター数（Ｎ（ＳＶ））、Margin幅取得手順（ステップ１０５）により得られたMarginの幅（Ｍ）、及び、Confident算出手順（ステップ１０６）により得られたConfidentの値（Ｃ）を用いて特徴セット（Feature）を評価する。

次に、上記のフローチャートの各動作を詳細に説明する。

（１）評価対象学習パターン生成手順（ステップ１０１）
図５は、本発明の一実施の形態における評価対象学習パターン生成手順の詳細な動作のフローチャートである。

ステップ３０１）評価対象学習パターン生成部３は、学習パターン記憶部１から学習パターンを読み込む。ここで、学習パターンＬ_ｉｊ（但し、ｉ＝｛１，…，ｍ，…Ｍ｝でＭは学習パターンの数を表し、ｊ｛１，…，Ｎ｝でＮは各パターンの特徴次元数を表すものとする）とする。

ステップ３０２）評価対象特徴セット（Feature）を、評価対象特徴セット入力部２から読み込む。このとき、評価対象特徴セット入力部２からの入力は、どのような形態でも構わない。例えば、オペレータによる入力、ファイルあるいはデータベースなどから読み込むことが考えられる。また、特徴セット（Feature）の表記は、学習パターンのうちどの次元を評価対象とするかが分かればよい。例えば、Feature＝｛１，２，…，Ｉ｝と表記することで、第１次元、第２次元、及び第Ｉ次元を評価対象としてもよい。また、Feature＝｛０１００１０…０｝と０と１のビットで表すことで、第２次元、第５次元を評価対象としてもよい。

ステップ３０３） FeatureとＬ_ｉｊを用いることで、評価対象学習パターン（ｘ_ｋｓ，ｋ＝１，…，Ｍ），ｓ＝｛１，…，ｎ｝であり、任意のｓはＮに含まれる）を生成する。例えば、ｘ_ｋｓ＝Ｌ_ｉｊ・Feature^T（但し、Featureは上記のビット表記であり、Ｔは行列の転置を表す）などで作成が可能である。

学習パターンＬ_ｉｊの例を図６に、評価対象学習パターンの例を図７に示す。この例におけるFeatureはFeature＝｛１，２，Ｉ｝である。

（２）サポートベクター学習手順（ステップ１０２）
サポートベクターマシン学習手順では、サポートベクターマシン学習部５が、学習対象学習パターンを学習パラメータ記憶部４から読み込んだパラメータによりサポートベクターマシンで学習する。学習パラメータ、及びサポートベクターマシンでの学習は共に一般的なものであるため、ここでは詳細については記述しない。

（３）評価対象特徴次元数取得手順（ステップ１０３）・サポートベクター数取得手順（ステップ１０４）・Margin幅取得手順（ステップ１０５）
評価対象特徴次元数、サポートベクター数及びMargin幅はサポートベクターマシン（SVM）の学習結果として一般的に得られるものであるので、これらについては詳述しない。

（４）Confident算出手順（ステップ１０６）
Confident取得部９において、サポートベクターマシン学習部５の学習結果からConfidentを算出する。Confident（Ｃ）は非特許文献１で用いられている指標のひとつであり、
Ｃ＝Σ_ｉ（ｒ（ｘ_ｊ）・ｆ（ｘ_ｉ））
但し、ｒ（ｘ_ｉ）は学習パターンｘ_ｉのラベルを返す関数である。

（５）特徴評価手順（ステップ１０７）
特徴評価手順では、特徴セット評価値算出部１０において、評価対象特徴次元数取得手順（ステップ１０３）から得られたＹ（Feature）、サポートベクター数取得手順（ステップ１０４）で得られた（Ｎ（ＳＶ））、Margin幅取得手順（ステップ１０５）、Confident算出手順（ステップ１０６）で得られた（Ｃ）を用いて特徴セットFeatureの評価値を算出する。

例えば、以下の式１などが考えられる。

E(Feature)=C・M・log(Y(Feature)+a))/(b・N(SV)) （式１）
但し、ＣはConfident値、Ｍはマージンの大きさ、Ｙ（Feature）は利用している特徴の時限数、Ｎ（ＳＶ）は学習結果におけるサポートベクターの数、ａ，ｂは予め設定する定数である。

この評価値（E(Feature)）は、大きいほど特徴セットFeatureが良いことを示す指標である。

上記の式１において、"C・M"に加えて、特徴量の少なさに対して評価値を下げる働き"（log(Y(Feature)+a) "、さらに、サポートベクターマシン学習結果の複雑さに対しての評価値を下げる働き"（１/(b・N(SV)) "を加えることで、滑らかな識別面を持ちながら識別性能を維持する学習が行われた特徴セットに対してよい評価が与えられる指標となり、特に学習サンプルが少ない場面で良い指標を得ることができるようになる。しかし、特徴量の少なさに対して必ずしも評価値を下げる必要はなく、評価に利用しなくても構わない。さらに、評価値を下げる場合にも、上記の式１の方法でなくても構わない。

また、サポートベクターマシン学習結果の複雑さに対して評価値を下げる場合も、式１の除算による方法でなくても構わない。

以下、本発明の実施例を示す。

[第１の実施例]
本発明は、特徴セットに対して、分類における有効性の指標を与えるものであり、本発明を既存の探索手法と組み合わせることにより、特徴選択手法とすることが可能である。

本実施例では、蓄積済みの学習サンプルに対して特徴を選択する手法を説明する。

図８は、本発明の第１の実施例の動作のフローチャートである。

ステップ６０１）暫定特徴決定手順：
暫定特徴決定手順では、暫定特徴選択部１３において、評価対象となる特徴セット（Feature）を決定する。つまり、評価対象特徴セット入力部２への入力に相当する。以下に、暫定特徴決定手順について説明する。

図９は、本発明の第１の実施例の暫定特徴決定手順の動作のフローチャートである。

ステップ７０１）暫定特徴選択部１３は、暫定特徴セットが既に評価値を持っているか判断を行い、評価値を持っていない場合は、ステップ７０２に移行し、そうでない場合はステップ７０３に移行する。

ステップ７０２）暫定特徴として、全ての特徴量（N次元）を利用する場合と、N−１次元の特徴を利用する場合（N通り）を暫定特徴セットとして評価対象特徴セット入力部２に登録する。

ステップ７０３）既に評価値を持つ暫定特徴セット中、最も高い評価値を持つケース（L次元を利用しているとする）に対し、当該ケースにおいて利用している特徴がさらに１次元だけ利用をやめるケース（L種類）を暫定特徴セットとして評価対象特徴セット入力部２に登録する。

これは、SBSアルゴリズムと呼ばれる方法である。

ステップ６０２）評価対象学習パターン生成手順：
評価対象学習パターン生成手順では、評価対象学習パターン生成部３が学習パターン蓄積部１から読み込んだ学習パターンＬ_ｉｊ（但し、ｉ＝｛１，…，ｍ，…，Ｍ｝でＭは学習パターンの数を表し、ｊ＝｛１，…，Ｎ｝ではＮは各パターンの特徴次元数を表すものとする）と、評価対象特徴セット入力部２から得られる特徴セット（Feature）を用いて、評価対象学習パターンｘ_ｋｓ（ｋ＝｛１，…，Ｍ｝，ｓ＝｛１，…，ｎ｝）であり、任意のｓはＮに含まれる）を生成する。また各学習パターンＬ_ｍは教師信号として＋１もしくは−１のラベルが付与されており、ｒ（）により参照可能であり、参照は学習パターンＬ_ｍでも、評価対象学習パターンｘ_ｍからも可能である。

ステップ６０３）サポートベクターマシン学習手順：
サポートベクターマシン学習手順では、サポートベクターマシン学習部５において、学習パラメータ記憶部４から学習に必要なパラメータを取得し、サポートベクターマシン（SVM）により学習する。

ステップ６０４）評価対象特徴次元数取得手順：
評価対象特徴次元数取得手順では、評価対象学習パターン特徴次元数取得部６において、評価対象特徴セット入力部２から得られる評価対象特徴セット（Feature）の次元数を取得し、Ｙ（Feature）とする。

ステップ６０５）サポートベクター数取得手順：
サポートベクター数取得手順では、サポートベクター数取得部７において、サポートベクター数をサポートベクターマシン学習部５の学習結果から取得し、N(SV)とする。

ステップ６０６）Margin幅取得手順：
Margin幅取得手順では、Margin幅取得部８において、サポートベクターマシン学習結果からMarginの幅を取得し、Ｍとする。

ステップ６０７）Confident取得手順：
Confident取得手順では、Confident取得部９において、サポートベクターマシン学習結果からConfidentを算出し、Ｃとする。

ステップ６０８）特徴評価手順：
特徴評価手順では、特徴セット評価値算出部１０において、前述の式１により特徴セット（Feature）に対する評価値を決定し、特徴セット評価記憶部１１に格納する。

ステップ６０９）終了判定手順：
終了判定手順では、終了するか否かの判定を行う。ＳＢＳアルゴリズムを用いているため、Y(Feature)=１であれば、ステップ６１０へ移行し、そうでない場合は、ステップ６０１に移行する。

ステップ６１０）特徴決定手順：
特徴決定手順では、特徴決定部１２において、特徴セット評価記憶部１１に記憶されている特長セットの中から最も評価値のよい特徴セットを求め、最適特徴セットとする。

［第２の実施例］
本実施例では、暫定特徴選択手順において、遺伝的アルゴリズムを利用する。

遺伝的アルゴリズムは広い探索空間から高速に準最適解を求める手法である。遺伝的アルゴリズムを利用するためには、遺伝子表現する必要があり、本実施例では、各特徴量を利用するか否かを１，０で表現し、それを並べることで遺伝子表現とする。つまり、遺伝子のｎビット目が１であることは、ｎ次元目の特徴量を利用することを意味する。そして、最適な１，０の配列、すなわち特徴セットを探索する。

以下に、本実施例の暫定特徴選択手順を説明する。

図１０は、本発明の第２の実施例の暫定特徴決定手順のフローチャートである。

ステップ８０１）暫定特選択部１３において、暫定特徴セットが既に評価値を持っているかの判断を行い、評価値を持っていない場合には、ステップ８０２に移行し、そうでない場合はステップ８０３に移行する。

ステップ８０２）ランダムに発生した１，０の値を用いて、Ｎ次元（特徴次元数）の遺伝子を持つ、Ｍ個の個体を作成し、暫定特徴セットとする。

ステップ８０３）既に評価値を持つ暫定特徴セットの評価値を利用して、遺伝的アルゴリズムによる選択、交叉、突然変異を施し、新たな暫定特徴セットとする。

その他の手順の動作は全て第１の実施例と同様である。

なお、本発明は、上記の図３に示す特徴評価装置の動作をプログラムとして構築し、特徴評価装置として利用されるコンピュータにインストールして実行させることが可能である。

また、構築されたプログラムをハードディスクやフレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールするまたは、配布することが可能である。

以下に、本発明と従来技術の比較実験結果を示す。

図１１〜図１４は、学習パターンの数を横軸にとり、非特許文献１の手法であるConfident Margin（上段）と本発明による評価値（下段）の推移の様子を示したものであり、どちらの指標も大きい値ほど良い評価であるが、Confident Marginによる従来手法も、本発明も特徴セットに与えられる評価値の相対的な値が意味を持つものであり、絶対的な値は意味を持たない。

但し、１つの学習パターンＸｉは１００次元の実数から構成されており、
Ｘ_０＝｛Ｘ_０，０，Ｘ_０，１，…，Ｘ_０，９９｝
Ｘ_１＝｛Ｘ_１，０，Ｘ_１，１，…，Ｘ_１，９９｝
：
Ｘ_ｉ＝｛Ｘ_ｉ，０，Ｘ_ｉ，１，…，Ｘ_ｉ，９９｝
：
とする。また、学習パターン（Ｘ_ｉ）に付与されるラベルｒ（Ｘ_ｉ）は以下のルールによる決定した。

図１１では、（Ｘ_ｉ，１＜Ｘ_ｉ，０かつＸ_ｉ，１＞１−Ｘ_ｉ，０）または、（Ｘ_ｉ，１＞Ｘ_ｉ，０かつＸ_ｉ，１＜１−Ｘ_ｉ，０）を＋１、それ以外は−１である。

図１２では、０．４＜Ｘ_ｉ，０，Ｘ_ｉ，１，Ｘ_ｉ，２，Ｘ_ｉ，３＜０．５を＋１、それ以外は−１である。

図１３では、Ｘ_ｉ，０＋Ｘ_ｉ，１＋Ｘ_ｉ，２＋Ｘ_ｉ，３＜３を＋１、それ以外は−１である。

図１４では、（Ｘ_ｉ，０ ^２＋Ｘ_ｉ，１ ^２＜０．１または（Ｘ_ｉ，０−１）^２＋（Ｘ_ｉ，１−１）^２＜０．１）を＋１、それ以外は−１である。すなわち、図１１の例では第０次元、第１次元以外のデータは分類において意味がない。同様に図１２の例では、第０次元から第３次元までのみが分類に有効であり他は意味をなさない。

図１１から図１４において"ｆｕｌｌ"と表記している線が、学習パターン作成時のルールに鑑みて最適な特徴セットを評価した結果である（図１１の例では、第０次元、第１次元）。その他の線は括弧内部の数値を１桁に分割した次元を評価した結果である。図１１では、"ｆｕｌｌ"の後に、第１次元と第５次元を特徴セットとした場合、第０次元のみを特徴セットとした場合、第１次元のみを特徴セットとした場合が続いている。Confident Margin及び本発明での指標が適切であるか否かを示すためには本来であれば、１００次元全ての特徴についての組み合わせを検討する必要があるが、２^１００−１通り全ての組み合わせについて評価を行うことは非現実的であるため、評価値が高くなる可能性が高いと思われる組み合わせを取り上げて表示している。以上から、"Ｆｕｌｌ"の結果が他の特徴セットを評価した結果よりも学習パターン数が少ない段階で最も良い結果となることが良い結果である。

非特許文献１の手法では、図１２の例のように学習サンプル数を増やしても"ｆｕｌｌ"とそれ以外の評価値が変わらない場合や、図１１や図１３の例のように、学習サンプル数３５０個程度まで、"ｆｕｌｌ"とそれ以外が拮抗してしまう場合が見受けられる。それに対し、本発明の手法では、どの例においても少ない学習サンプル数で"ｆｕｌｌ"の指標が最も良い評価値になっていることが見て取れる。

以上の結果から本発明の特徴セット評価指標を利用することで、学習パターンが少ない場合においても有効な特徴セットか否かを高い精度で推定することが可能となり、高い精度の特徴セット選択が可能となる。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、パターン認識等においてパターン分類を行う技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における特徴評価装置の構成図である。本発明の一実施の形態における特徴評価装置の動作のフローチャートである。本発明の一実施の形態における評価対象学習パターン生成手順の詳細な動作のフローチャートである。本発明の一実施の形態における学習パターンＬ_ｉｊの例である。本発明の一実施の形態における評価対象学習パターンの例である。本発明の第１の実施例の動作のフローチャートである。本発明の第１の実施例の暫定特徴決定手順のフローチャートである。本発明の第２の実施例の暫定特徴決定手順のフローチャートである。従来技術と本発明の評価値の推移を示す図（その１）である。従来技術と本発明の評価値の推移を示す図（その２）である。従来技術と本発明の評価値の推移を示す図（その３）である。従来技術と本発明の評価値の推移を示す図（その４）である。

符号の説明

１学習パターン蓄積部
２評価対象特徴セット入力部
３評価対象学習パターン生成部
４学習パラメータ記憶手段、学習パラメータ記憶部
５サポートベクターマシン学習手段、サポートベクターマシン学習部
６評価対象学習パターン特徴次元数取得部
７サポートベクター数取得手段、サポートベクター数取得部
８ Margin幅取得部
９ Confident取得部
１０特徴セット評価値算出手段、特徴セット評価値算出部
１１特徴セット評価記憶部
１２特徴決定手段、特徴決定部
１３暫定特徴選択部

Claims

パターン分類を行う際に、特徴セットが分類において有効か否かを評価する特徴評価装置における特徴評価方法であって、
サポートベクターマシン学習手段が、学習パラメータ記憶手段から読み出した学習パラメータを用いて評価対象学習パターンについて学習するサポートベクターマシン学習手順と、
サポートベクター数取得手段が、前記サポートベクターマシン学習手順による学習結果からサポートベクターの数Ｎ（ＳＶ）を取得するサポートベクター数取得手順と、
特徴次元数取得手段が、評価対象特徴セットの次元数Ｙ（Feature）を取得する特徴次元数取得手順と、
特徴セット評価値算出手段が、前記サポートベクター数Ｎ（ＳＶ）、前記評価対象特徴セットの次元数Ｙ（Feature）、既存の方法により求めた特徴セット評価指標を利用して特徴セットの評価値を求める特徴セット評価値算出手順と、
特徴決定手段が、前記特徴セットの評価値の最も高いものを最適特徴セットとする特徴決定手順と
を行うことを特徴とする特徴評価方法。
前記特徴セット評価値算出手順において、
前記サポートベクターの数Ｎ（ＳＶ）が多いほど評価値を下げる
請求項１記載の特徴評価方法。
前記特徴セット評価値算出手順において、
前記特徴セットの次元数Ｙ（Feature）が少ないほど前記特徴セットの評価値を下げる
請求項１または２記載の特徴評価方法。
マージン幅取得手段が、前記サポートベクターマシン学習手順による学習結果からマージン幅Ｍを取得するマージン幅取得手順と、
コンフィデント取得手段が、前記サポートベクターマシン学習手順による学習結果からサポートベクターマシンの指標であるConfident（Ｃ）を取得するコンフィデント取得手順と、
を行い、
前記特徴セット評価値算出手順において、
前記既存の方法により求めた特徴セット評価指標として、前記マージン幅Ｍ及び前記Confident（Ｃ）を用いる
請求項１乃至３の何れか１項記載の特徴評価方法。
前記特徴セット評価値算出手順において、前記Confident（Ｃ）、前記Ｙ（Feature）、前記Ｎ（ＳＶ）、前記Ｍを用いて、評価式
E(Feature)=Confident(C)・M・log(Y(Feature)+a))/(b・N(SV))
但し、ａ、ｂは予め設定された定数
により前記特徴セットの評価値を求める
請求項４記載の特徴評価方法。
パターン分類を行う際に、特徴セットが分類において有効か否かを評価する特徴評価装置であって、
学習パラメータを格納した学習パラメータ記憶手段と、
前記学習パラメータ記憶手段から読み出した学習パラメータを用いて評価対象学習パターンについて学習するサポートベクターマシン学習手段と、
前記サポートベクターマシン学習手段による学習結果からサポートベクターの数Ｎ（ＳＶ）を取得するサポートベクター数取得手段と、
評価対象特徴セットの次元数Ｙ（Feature）を取得する特徴次元数取得手段と、
前記サポートベクター数Ｎ（ＳＶ）、前記評価対象特徴セットの次元数Ｙ(Feature)、既存の方法により求めた特徴セット評価指標を利用して特徴セットの評価値を求める特徴セット評価値算出手段と、
前記特徴セットの評価値の最も高いものを最適特徴セットとする特徴決定手段と
を有することを特徴とする特徴評価装置。
コンピュータに、
請求項６記載の特徴評価装置の各手段を実行させることを特徴とする特徴評価プログラム。