JP2005202932A - データを複数のクラスに分類する方法 - Google Patents

データを複数のクラスに分類する方法 Download PDF

Info

Publication number
JP2005202932A
JP2005202932A JP2004335075A JP2004335075A JP2005202932A JP 2005202932 A JP2005202932 A JP 2005202932A JP 2004335075 A JP2004335075 A JP 2004335075A JP 2004335075 A JP2004335075 A JP 2004335075A JP 2005202932 A JP2005202932 A JP 2005202932A
Authority
JP
Japan
Prior art keywords
likelihood
data
space
distribution
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004335075A
Other languages
English (en)
Inventor
Rita Singh
リタ・シン
Bhiksha Ramakrishnan
ビクシャ・ラマクリシュナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2005202932A publication Critical patent/JP2005202932A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules

Abstract

【課題】元データを尤度空間に投影し、この尤度空間において、判別関数または2次レベルの分布に基づく分類器を用いて分類を行い、分類の誤りを減らす。
【解決手段】方法は、データを複数のクラス105に分類し、各クラス105のデータがクラス条件確率分布を有するようにする。測定データのクラス条件確率分布は尤度空間103に投影される。尤度空間103に投影されたクラス条件確率分布は次に、尤度空間103の判別分類器104に従って分類される。
【選択図】図1

Description

本発明は、概してパターン分類に関し、特に分布に基づく分類器に関する。
パターン分類は、視覚パターンおよび音声認識といった多くの実際的な応用において用いられている。パターン分類では、測定信号の関連のある特徴または属性を識別し、これらの特徴に関する情報を抽出する。特徴は、視覚信号の場合には、形状、色、テクスチャ、動き、深度を、聴覚信号の場合には、ピッチおよび振幅を含む可能性がある。次に、これらの特徴を、特徴ベクトルと関連付けるか、または相関させる。多数のパターン分類システムが既知である。いくつかの例が、2000年5月2日付で、Bahl他に交付された米国特許第6,058,205号「System and method for partitioning the feature space of a classifier in a pattern classification system」、1999年2月9日付でTodaに交付された米国特許第5,870,729号「Self-organizing neural network for pattern classification」、1997年9月2日付でHuang他に交付された米国特許第5,664,068号「Method and apparatus for pattern classification using distributed adaptive fuzzy windows」、1996年4月9日付でSato他に交付された米国特許第5,505,057号「Pattern classification system」、1994年8月9日付でSato他に交付された米国特許第5,337,371号「Pattern classification system」、1993年1月19日付でRorvigに交付された米国特許第5,181,259号「General method of pattern classification using the two domain theory」、1991年10月22日付でBokserに交付された米国特許第5,060,277号「Pattern classification means using feature vector regions preconstructed from reference data」、1998年9月20日付でBokserに交付された米国特許第4,773,099号「Pattern classification means for use in a pattern recognition system」に記載されている。
パターン分類では、通常、特定の特徴ベクトルのクラス確率を取得して、信号中の特定の特徴の出現回数、ならびにその特徴の出現毎の時刻および位置等の情報を判定することが必要である。多くのアプリケーションの場合、これは、分類器の特徴空間の周辺密度をモデル化すること、および各クラスをモデルにより特徴付けることによって行われることが多い。次に、各クラスのモデルを用いて、特定の特徴ベクトルのクラス確率を求める。
パターン分類法は、2つのカテゴリーに大きく分類することができる。第1のカテゴリーは、分類中の信号の明示的なクラス条件確率値を必要とし、第2のカテゴリーは、これを必要としない。第1のカテゴリーは、サンプリングアプローチと呼ばれることもあり、一方で、第2のカテゴリーは、診断パラダイムと呼ばれる。
第2のカテゴリーの方法、すなわちクラス条件確率値を明示的に求めることを必要としない方法は、通常、分類中の信号の判別関数を求め、これらの関数によって得られた値に基づいて信号を分類する。用いられる関数は、様々であってよく、単純な一次関数から分類木や回帰木といった複雑な構造までと幅広い。これらは、判別式に基づく方法と呼ぶことができる。
第1のカテゴリーの方法は、クラスの確率分布の明示的な表現を必要とする。これらの分布は、通常、ノンパラメトリックなカーネル方法(例えばパルツェン窓)、または特定のパラメトリックな分布形態を仮定するパラメトリックな方法(例えばガウス混合)のいずれかを用いることによって推定される。クラス条件確率を用いて、分類基準となる事後クラス確率を推定する。これらの方法は、分布に基づく方法と呼ぶことができる。
上記2つのカテゴリーの方法間の二分は、完全ではない。クラス確率分布の明示的な表現を用いる方法は、判別関数に基づくことが有効である。例えば、分布に基づく2クラスの分類器の分類規則は、クラスの事後確率の割合と閾値の比較に基づく。この場合、割合は、判別関数である。多クラス分類は、一連のそのような2クラス判別式の連続適用として同様に表すことができる。
本発明の主題に概念的な明確さを付与するために、パターン分類法の明確な分類が整備される。
分布に基づく分類器は、様々な分野における分類タスクに広く用いられており、特に、実数値データの分類に有用である。しかし、これらの分類器の性能は、様々なクラスのクラス条件分布の良い推定値を得ることに左右される。所与のパラメトリックな分布モデルの最良のパラメータセットを求めることは、比較的容易であるが、最も適したパラメトリック形式を判定することは、多くの場合に困難な問題である。不正確なモデルは、分類の精度を下げる可能性がある。
したがって、上記のシナリオにおいて、分布に基づく分類器の性能を改善することが望ましい。
クラス条件確率分布を明示的にモデル化するパターン分類法では、実際の分布は、既知でない場合が多い。分布は、実際の分布を近似するのに利用できるデータから推定される。
したがって、本発明は、元データを尤度空間に投影し、この尤度空間において、判別関数または2次レベルの分布に基づく分類器を用いて分類を行い、分類の誤りを減らす。
具体的には、方法は、データを複数のクラスに分類し、各クラスのデータがクラス条件確率分布を有するようにする。
測定データのクラス確率分布は、尤度空間に投影される。
尤度空間に投影されたクラス条件確率分布は、次に、尤度空間の判別分類器に従って分類される。
図1に示すように、本発明は、2つの計算空間を区別する。実際の観測値、測定信号、または元データのある空間をデータ空間101と呼ぶ。このデータ空間101では、計算された(110)対応するクラス条件確率分布102を、ベイズの最小誤差または最小リスク分類に用いる事後クラス確率の推定を促すものとして扱う。
本発明では、クラス条件確率分布を、尤度空間103への非線形投影120(本明細書では尤度投影と呼ぶ)を促すものとして扱う。尤度空間の座標は、元データの様々なクラスに対するクラス条件尤度である。この空間において、データ空間における任意のクラスペア間のベイズ分類器は、例えば、2つのクラスを表す軸に対する傾きが1の一次判別式とみなすことができる。本発明による尤度空間において、操作を行うことによって得られる主な利点は、一次判別式のみの考慮に制限されなくなることである。
この場合、分類130は、投影された分布に作用してクラス105を判定する任意の公的な分類器104に基づいて行うことができる。投影分布が実際のクラス分布である場合、尤度空間における最適な分類器は、元の空間においてデータを分類することによって得られるのと同じ誤り率を結果として生じることが保証される。
投影分布が実際の分布でない場合、尤度空間における最適な分類精度は、依然として、データ空間における投影分布により得られるのと同程度であることが保証される。
本発明の利点として、尤度空間における分類精度は、この状況におけるデータ空間の分類精度よりも高めることができる。この尤度投影の特徴により、本発明では、非線形投影を用いて、元のデータ空間におけるクラス分布のモデル化誤差をある程度補償することができる。
カーネルに基づく分類法(例えば、サポートベクターマシン)に関して、分類を改善するためのデータの二次投影が記載されてきた。これらの方法では、いくつかの密度関数もカーネルとして用いられている。しかし、これらの方法のほとんどが二値分類に限定されている。これらの方法を再構築して多クラス分類を行うこともできるが、その性能は、他の非投影多クラス分類器で得られるほど良くないことが多い。
音声認識分野の研究者は、事後クラス確率空間で音声の分類を行った場合に、認識精度が大きく改善されることを認めている。これまでのところ、この大部分が説明されていない。最初に、尤度空間の概念は、離散値データと連続値データの両方に等しく適用できることを指摘したい。この理由から、本発明では、「確率分布」あるいは単に「分布」という用語を用いて、連続データと離散データの両方を表す。処理が連続データに特有のものである場合、本発明では、「確率密度」あるいは「密度」という用語を用いる。
尤度に基づく投影
本発明は、例えば、聴覚または視覚信号を表すデータをN個のクラスに分類する。ここで、P(X|C),P(X|C),...P(X|C)は、各クラスの実際のデータ分布を表す。この表記において、下付き文字のXは、ランダムベクトルを表し、括弧内のXは、ランダムベクトルの特定のインスタンスを表し、Pは、値XがクラスCに属すると仮定してランダムベクトルXが値Xをとる確率を表す。
分布に基づく分類器について得られている実際の分布の推定値は、下式となる。
Figure 2005202932
このような推定値は、例えば、分布のパラメトリック形式を仮定し、尤度最大化(LM)プロセスを用いて、訓練データから分布のパラメータを推定することによって得ることができる。
本発明では、ベクトルXの尤度投影を演算L(X)として定義し、結果としてN次元の尤度ベクトルYを生じる。尤度ベクトルYの成分は、次の通りである。
Figure 2005202932
本発明では、下式を投影分布と呼び、座標が尤度空間であるN次元空間を参照する。
Figure 2005202932
データベクトルXの次元数がNよりも高い場合、尤度投影演算は、次元数を下げる演算であり、そうでない場合、尤度投影演算は、次元数を上げる変換である。
尤度投影の特性
尤度ベクトル表現は、尤度空間における分類に関連する以下の特性を有する。
特性1:尤度空間では、データ空間の決定領域は、連続した領域に圧縮される。
投影分布は、データ空間を各クラスにつき1つの決定領域に分割する、空間における一組の決定境界を表す。ここで、クラスの「決定領域」という用語は、最適なベイズ分類器により、そのクラスに属するものとして境界決定される空間領域を指す。したがって、クラスの決定領域は、次式によって定義される領域である。
Figure 2005202932
ここで、P(C)は、クラスCの事前確率を表す。
あるjについて、下式となる境界領域は、式(2)ではどのクラスにも帰属されず、何らかの事前に設定された規則に基づいて競合クラスのうちの1つに帰属される。
Figure 2005202932
また、式(2)によって定義される決定領域は、いくつかの交わらない領域を含むか、または多重連結されている場合がある。尤度空間において、これらの交わらないかまたは多重連結されている可能性のある領域は、領域Eに投影され、次式によって定義される。
Figure 2005202932
ここで、Z=log(P(C))である。この領域が凸形であることを示すのは自明なことであるので、単純に連結される。式(3)から、両方のYがE内にある場合、任意の0≦a≦1について、下式(4)もまたE内にあると推論でき、Eが凸形であることが証明されるため、単純に連結される。
Figure 2005202932
したがって、尤度投影は、データ空間における交わらないかまたは多重連結された決定領域でさえ、尤度空間における凸形の単純に連結された決定領域に変換する。
図2Aおよび図2Bは、パラメータ化された音声信号の録音物における2つのクラスのデータベクトルを、典型的な訓練データから推定された投影散乱を用いて尤度空間に投影した例により、この特性を示すものである。
図2Aは、データ空間における散乱を示し、図2Bは、尤度空間における散乱を示す。2つの軸は、音声信号の25msフレームの対数スペクトルのカルーネンレーブ変換(KLT)に基づく投影を用いて導出したベクトルの1番目および2番目の成分を表す。図2Aにおいて、×印は、非音声領域のデータベクトルを表す。丸印は、音声領域のデータを表す。両方のクラスの投影分布は、音声および非音声の訓練データから求めた32個のガウス分布の混合である。点線は、データ空間における最適な分類器を表す。実線および破線は、尤度空間における最適な一次および二次判別式を表す。
クラスは、録音信号の音声領域および非音声領域に対応するものである。図2Aおよび図2Bは、元のデータ空間および尤度空間におけるこれらのクラスの散乱を示す。尤度投影は、2つのクラスを圧縮することが分かる。
特性2:尤度空間における最適な分類器は、投影分布に基づく最適なベイズ分類器と同程度に機能することが保証される。
これは、特性1の結果としてもたらされる。データ空間では、最適な最小誤差ベイズ分類器は、次式によって与えられる。
Figure 2005202932
一組の推定分布を用いる分類器は、これを次のように近似する。
Figure 2005202932
これと同じことを、対数尤度で次のように表すことができる。
Figure 2005202932
式(7)は、クラス間の一連の対の比較として言い換えることができる。任意の2つのクラス間の分類は、次のように行うことができる。ここで、下式におけるTijは、Tij=log(P(Cj))−log(P(Ci))である。
Figure 2005202932
N個のクラス間の分類は、式(8)によって定義される種類の対の比較をN−1回必要とする。式(8)によって表される対の比較は、尤度空間に容易に変換することができる。これを行うために、本発明では、ベクトルAijを[0010...−1 0...]として定義し、ここで、1は、i番目の位置に現れ、−1は、j番目の位置にある。すると、式(8)を尤度空間において、次のように再定義することができる。
Figure 2005202932
式(9)は、一次判別式であり、ここで、判別式の傾きは、1である。尤度空間では、データ空間と同様に、N個のクラス間の分類は、式(9)によって定義される種類の分類をN−1回必要とする。したがって、ベイズ分類器と同じように機能する尤度空間の分類器を、X空間における投影分布に基づいて定義することが可能である。よって、尤度空間における最適な分類器の性能は、元のデータ空間における投影分布で得ることのできる性能以下にはならない。また、投影分布がクラスの実際の分布である場合、尤度空間における最適な分類性能は、元のデータ空間における最適な分類性能と同じである。
尤度空間における分類
特性2の結果として、尤度空間における最適な分類器の性能は、データ空間における投影分布に基づく最適なベイズ分類器を用いて得られる分類精度を下限とする。したがって、投影分布から推定される最適なベイズ分類器よりも性能が良い尤度空間の分類器を推定することを実際に可能とすることができる。
元のデータ空間において、実際のデータ分布は、非常に複雑である可能性がある。したがって、様々なクラスをモデル化する分布もまた、複雑で、さらにおそらくは複数の交わらない推定決定境界を結果として生じる可能性がある。尤度投影は、これらの境界によって境界決定される領域を尤度空間の単一の連続した領域に写像する。投影分布に基づく任意の2クラス間のベイズ分類器は、尤度空間における傾きが1.0の一次判別式に写像する。投影密度が決定境界において連続的である場合、決定境界に隣接する、誤分類されている可能性のあるデータポイントもまた、元の空間における境界の空間複雑度に関係なく、この一次判別式に隣接する領域に写像される。
誤分類された領域が、尤度空間における任意のクラスを表す凸形領域に隣接しているという幾何学的単純さは、判別式の異なる関数形式を容易に判定することを可能にし、傾きが1.0の一次判別式と比べて平均的な分類誤りを減らす。連続したクラスに対して有効である任意の分類器、例えば一次、二次またはロジスティック回帰判別式を用いることができる。これを図2Bに示す。点線は、元のデータ空間において推定された最適なベイズ分類器を表す。直線の傾きは1.0である。直線のY切片は、提供テストデータを用いて推定した。実線は、同一の提供データを用いて同様に推定した尤度空間の最適な一次判別式を表す。この判別式は、点線に対して4.5%低い分類誤りをもたらす。破線は、同一の提供データにより同様に推定した二次判別関数を表す。
新たな一次判別式を求めることは、データ空間におけるクラス分布の線形または非線形変換を求めて、最適な分類境界のより正確な近似を達成することに対応するものと解釈することができる。例えば、傾きが1.0であり、元の一次判別式のY切片以外のY切片を有する一次判別式は、データ空間におけるクラス分布をスケーリングしたものに対応する。
尤度空間における傾きが1.0以外の一次判別式は、データ空間においてクラス密度を何らかの指数で累乗したものに対応する。密度の変換は、元のクラス条件密度から得られるのとは異なる決定境界セットを生じる。尤度空間における判別式は、データ空間のこれらの修正された決定境界に写像するものとみなすことができる。
図2Cは、これを例により示す。図2Cは、元のクラス分布から得られた分類境界と、尤度空間における傾きが1でない一次判別式で表される変換後のクラス分布から得られた分類境界とを示す。密な領域および疎な領域は、2つのクラスのデータの散乱を表す。これらのクラスの中心にある白い点は、クラスの平均値の位置を表す。点線は、両方のクラスをガウス分布としてモデル化することによって得られる決定境界を表す。実線は、ガウスクラス密度によって定義される尤度空間における最適な線形分類器を元のデータ空間に写像したものを表す。
この例において、後述のように導出される(120)次元の対数スペクトルベクトルを2次元に投影する。各クラスの確率密度は、単一のガウス密度によってモデル化される。したがって、点線は、これらのガウス密度から得られる分類境界を示し、実線は、対応する尤度空間において2つのクラスを分離する最適な一次判別式を元のデータ空間に写像することによって得られる決定境界を示す。
この場合、一次判別式の逆写像は、単純である。Cが2つのクラスを表す場合、P(チルダ)(ここでP(チルダ)とは、Pの上に〜があるものを示す)は、それらの推定ガウス密度を表し、Yは、これらの密度を用いたベクトルの射影によって導出される尤度空間ベクトルを表す。すると次式が得られる。
Figure 2005202932
尤度空間における最適な一次判別式は、次のように表すことができる。
Figure 2005202932
これは、投影密度で次のように表すことができる。
Figure 2005202932
よって、新たな決定境界は、式(12)を満たす全てのベクトルの軌跡である。
しかし、より一般的には、このような単純な解釈は不可能である。例えば、次式(13)の形の二次判別式は、データ空間において次の判別式(14)に写像する。
Figure 2005202932
明らかに、これは、交差項が存在するため、個々のクラス分布のいずれの単純な変換でも得ることができない。尤度空間における他のより複雑な判別式は、データ空間においてさらに複雑なクラス分布関数に写像される。
尤度空間における分類器の訓練
尤度空間において分類誤りが減るのは、データ空間におけるクラス分布のモデル化誤差を補償した結果である。分類の状況では、分布のモデル化誤差は、2つの原因で起こる可能性がある。
第1に、データセットの分布を表すように選択された分析モデルが、そのデータに適切でない可能性がある。第2に、いずれのクラスのモデルのパラメータも、通常は、結果として得られる分布が、そのクラスの訓練データの分布を最も良く表すように推定され、他のクラスの分布は、参照しない。
図3A〜図3Cは、誤りを生じる可能性のある問題を合成例により示す。図示の例において、データは、1次元である。レイリー分布の2つのクラスが誤ってガウス分布としてモデル化されている。図3Aの点線は、2つのクラスの実際の確率密度を示す。実線は、推定されたガウス密度を示す。ガウス分布の1次および2次モーメントは、実際の(レイリー)データ分布のそれと同じである、すなわち、2つのクラスの無限の訓練データにより得られる最尤ガウス推定値を表す。最適な決定境界Btrueは、実際の密度が交差するポイントにおける横座標の値である。これは、縦の点線で示される。推定される決定境界Bestimatedは、密度のガウス推定値が交差する横座標に現れ、縦の実線で示される。実線の影付きの部分は、BtrueとBestimatedの間の差により誤分類されるであろうデータを表す。この誤りは、レイリー分布を誤ってガウス分布としてモデル化したことによる直接的な結果である。
図3Bは、2つのクラスのデータの2次元の尤度投影を示す。曲線は2次元尤度空間における1次元多様体を表すことが分かる。これは、投影が確定的な次元数を上げる変換であることから予期される。データ空間における推定ベイズ分類器は、傾きが1.0の実線で表される。曲線上の星印は、データ空間における最適な決定閾値Btrueを表す。したがって、尤度空間における最適な分類器は、星印を付けたポイントを通る任意の直線または曲線、例えば、図3Bの点線の対角線によって表される一次判別式とすることができる。
図3Bの実線以外の一次判別式による分類は、データ空間のクラス分布を変換したものによる分類に等しい。例えば、図3Bの点線で表される最適な判別式は、図3Cに示されるスケーリングされたガウス分布による分類に等しい。スケーリングの結果、ガウス分布は、最適な分類境界で交差するようになる。最適な分類境界は、初めからデータ空間における異なるガウス分布セットでクラスをモデル化することによっても得ることができる。
分布に基づく分類器のためのいくつかの分布判別訓練方法が既知である。これらの方法は、クラス分布を推定して、ベイズ分類器により得られる分類性能を最適化しようとする。図3Cは、そのような判別により誘導される、図3Aのレイリークラス分布のガウス推定値の一例を示す。これらの推定値もまた、最適な分類境界で交差する。しかし、尤度空間における分類の原則は、有効なままである。
クラス分布が判別により訓練される場合であっても、これらの分布から導出した尤度空間の最適な分類器の性能の下限は、クラス分布そのものに基づく最適なベイズ分類器の性能に過ぎない。また、クラス分布を訓練する方法に関係なく、データ空間における分類境界の形は、その分布のために選択されるモデルによって制約される。例えば、クラス分布がガウス分布としてモデル化される場合、結果として得られるベイズ分類器は、ガウス分布の訓練方法に関係なく二次判別式となる。一方、尤度空間の判別式に対応するデータ空間の判別式は、データ空間のベイズ分類器により得られる判別式よりも遥かに複雑になる可能性がある。例えば、クラス分布がガウスである場合、尤度空間における交差項のない単純な二次判別式でさえ、データ空間における四次の多項判別式に対応する。したがって尤度空間では、クラス分布が判別により訓練される場合であってもより良い分類器を得ることができるというのは妥当であると思われる。
ここまでの説明から、尤度空間の分類器が単純な一次または二次判別式である場合、尤度空間における分類の改善は、データ空間における分類境界に隣接する領域における分類誤りの補償によるところが大きいことが明らかであろう。このような判別式では、他の理由で生じた分類誤りを補償することは期待できない。このような誤りは、例えば、元の空間においてクラスをモデル化する分布が、実際のクラス分布によって与えられる最適な決定領域の全領域から完全に外れている場合に生じる可能性がある。
しかし、本発明の利点として、単純な一次または二次判別式よりも複雑な分類器を尤度空間において定義することができる。例えば、尤度空間において、分布に基づく分類器を定義することができる。このような分類器は、一次または二次判別式よりも正確な分類を生じることができる。しかし、一般に、データ空間の決定境界が最適な境界に近づくほど、尤度空間における分類から期待できる利得は、急速に少なくなる。また、この状況において、尤度空間の最適な判別式を写像するデータ空間の決定境界は、クラス密度そのものによって与えられる決定境界に近づく。
本発明では、尤度空間の最良の分類器が、投影分布に基づくデータ空間の最良のベイズ分類器と少なくとも同程度に動作することを保証する。これは、尤度空間の最良の分類器が、データ空間のどんな種類の最良の分類器とも少なくとも同程度に動作することを保証するものではない。実際には、尤度投影が可逆でない限り、尤度空間における可能な最良の分類器がデータ空間における可能な最良の分類器と同等に機能できるという保証は一切ない。
データベクトルの尤度投影による局所化
尤度投影は、任意の尤度ベクトルに投影されるデータベクトルが1つだけであることが保証されている場合に可逆である。しかし、図4に示すように、尤度投影は、通常可逆でなく、データベクトルの尤度投影は、データベクトルを一意に識別することを保証できない。
2つのガウス分布が、データポイントを一対の密度値にそれぞれ変換する。図4Aにおいて、2つのガウス分布は、異なる平均値を有する。2本の縦の点線は、密度値をもたらす他のXの値を示す。両方の分布をもたらすポイント(星印)は1つだけであることが明らかである。
図4Bにおいて、2つのガウス分布の平均値は、同じである。この場合、値から密度値への写像は不可逆である。
それにもかかわらず、尤度投影におけるクラス分布の数が増えるにつれて、ベクトルの尤度投影は、データ空間においてベクトルをますます局在化することが分かる。尤度ベクトルYを検討する。U がデータ空間の領域を次のように表すものとする。
Figure 2005202932
ここで、Uは、微小な数である。尤度ベクトルはXを、次式によって定義される領域V に入るように局所化する。
Figure 2005202932
次式(17)は、減少列であることが容易に分かる。
Figure 2005202932
尤度ベクトルの知識は、XがV内にあることが分かっていることに等しい、すなわち、Yは、XがV内にあるという位置情報を含む。これは、最小のU以下であることが保証されるが、それより遥かに小さくてもよいことに留意されたい。また、Vは、多くの尤度ベクトルに対して空であってよく、尤度ベクトルが任意のデータベクトルから生成された場合にのみ空でないことが保証されることにも留意されたい。逆に、データベクトルXの投影により生成された任意の尤度ベクトルYについて、Vが空になることはなく、少なくとも1つのデータポイント、すなわちXそれ自体を含まなければならない。
図5A〜図5Cは、尤度投影によるデータベクトルの局所化を例により示す。図5Aは、音声信号の連続する25msの長さのウィンドウから導出された20次元の対数スペクトルベクトルのスペクトログラフ表現を示す。横座標は、フレームのインデックスを表し、縦座標は、ベクトル成分のインデックスを表す。強度は、数値に比例する。図5Bは、縦座標をクラスのインデックスとした尤度空間における40次元のベクトル配列を示す。図5Cは、図5Bのベクトルから再構築した対数スペクトルベクトルを示す。図5Aおよび図5Cは、実質的に同じであることが分かり、本発明の方法論を実証している。
ここまでは、投影分布に基づく任意のベイズ分類器と同程度の分類を行うことのできる尤度空間における分類器の存在のみを説明してきた。しかし、このような分類器の存在のみでは、それらの分類器が実際に推定できること、あるいは尤度空間において推定される分類器で得られる実際の分類性能が常にベイズ分類器に勝ることの保証にはならない。
分類器の推定は、常に難しく、分類器の最終的な性能は、さらに、用いられる推定手順、訓練データのサイズ等といった他の要因に支配される。仮定できるのは、ベイズ分類器の決定領域が尤度空間の凸形領域に写像されることにより、尤度空間において、より良い分類器を推定することが単純になるということだけである。この仮定そのものも実験的に実証されなければならない。
視覚テクスチャの分類
視覚テクスチャイメージの分類、取り出し、および合成に関する多くの研究が報告されているが、視覚テクスチャの正確な定義はない。ほとんどの研究者は、視覚テクスチャイメージがある程度の均質性を特徴とし、通常は、ランダムな変化をしばしば有する反復構造を含むことに同意する。したがって、水面、布、曇り空、さらには壁紙のイメージが全てテクスチャとみなされる。
1996年に1人の写真家が、壁、つや消し面の写真を含む112種のテクスチャの組を出版した。Brodatz著「Textures: A Photographic Album for Artists and Designers」(Dover)を参照願いたい。これらのイメージを8ビットの512×512画素にデジタル化したものからサブイメージを抽出することによって、いわゆる「Brodatzのテクスチャデータベース」が導出された。各テクスチャから9つの重複しない128×128画素のサブイメージを抽出した。結果として得られる1008枚のイメージの組が、近年のいくつかの研究論文の主題となっている。
図6は、Brodatzのテクスチャの数例を示す。本発明による尤度空間における分類をBrodatzのテクスチャデータベースについて評価した。
図7は、視覚信号に適用した本発明の分類精度を比較する。X軸は、データ空間におけるクラス分布のモデル化に用いられる混合ガウス分布におけるガウス分布数の対数を表す。点線は、データ空間における従来技術のベイズ分類器によって得られる分類精度を表し、実線は、本発明による対応する尤度空間における分類精度を表す。明らかに、最良の分類精度は全体的に尤度空間において得られる。曲線の両極端における方法間の差は、0.05レベル以上までと顕著である。
音声の分類
本発明の方法を、TIMIT音声データベース(Zue著「Speech database development at MIT: TIMIT and beyond」(Speech Communication, 9, 351-356, 1990))にも適用した。TIMITは、音声研究者が信号処理および分類アルゴリズムの開発に用いる標準的なデータベースである。
図8は、聴覚信号に適用した本発明の分類精度を比較する。X軸は、データ空間におけるクラス分布のモデル化に用いられる混合ガウス分布におけるガウス分布数の対数を表す。点線は、データ空間におけるベイズ分類器によって得られる分類精度を表し、実線は、本発明による対応する尤度空間における分類精度を表す。全ての場合において、尤度空間において得られる分類精度は、元のデータ空間において得られる分類精度よりも極めて優れている。
尤度空間における分類器の決定境界は、データ空間におけるクラス条件密度の非線形関数として得られる分類境界を表す。最も単純な場合でも、これらの関数は、クラス条件密度の不均等なスケーリング、回転、歪み等といった演算を含む可能性がある。
基本的なモデル化誤差を補償するのに最適な密度変換の組を探索することは、データ空間では困難である。しかし、元の空間において未知のモデル化誤差を説明する問題を、適切な判別関数を求める問題として尤度空間に変換すれば、前者よりも遥かに解決しやすい。
これは実際に、データ空間において得られるよりも高い分類精度を生じることができる。本発明の主目的は、考慮されるデータに対して最良の分類器を得るよりも尤度空間のほうが正確な分類が可能であることを実証することであるため、これまでは本発明を一次判別関数に限定してきた。一次判別式の1つの利点は、データ空間における最適な分類器が尤度空間における一次判別式でもあることである。したがって、尤度空間における最適な一次判別式の探索は、いずれも、この分類器を考慮することができる。これは、尤度空間の分類器の性能が元のデータ空間の分類器以上であることを保証する単純な方法である。
しかし、二次判別式、またはロジスティックリグレッサーといった他の判別関数を用いることにより、より良い分類性能が可能となる。また、投票機構を用いる二値分類器を組み合わせることにより、判別式に基づく多クラス分類が可能となる。他の可能性としては、巡回冗長符合および対結合がある。また、尤度空間において2次分布に基づく分類器を訓練することが可能であることが分かる。実験の証拠は、これもデータ空間における分類に対して精度を大きく改善できることを示している。
本発明の精神および範囲内で様々な他の適応および修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および修正をすべて網羅することである。
本発明による分類法のフロー図である。 データ空間における音声および非音声信号の散布図である。 本発明による尤度空間における音声および非音声信号の散布図である。 分類境界のグラフである。 データ空間の密度分布を比較する図である。 データ空間の密度分布を比較する図である。 データ空間の密度分布を比較する図である。 可逆的な尤度投影のグラフである。 不可逆的な尤度投影のグラフである。 聴覚信号のスペクトログラフである。 本発明による尤度空間における対応するベクトルのプロットである。 図5Bのベクトルから再構築したスペクトログラフである。 Brodatzのテクスチャを示す図である。 視覚信号について本発明による方法を比較したグラフである。 視聴覚信号について本発明による方法を比較したグラフである。

Claims (16)

  1. データを複数のクラスに分類する方法であって、各クラスのデータは、クラス条件確率分布を有し、
    測定データの前記クラス条件確率分布を尤度空間に投影することと、
    該尤度空間に投影された前記クラス条件確率分布を前記尤度空間の判別分類器に従って分類することと
    を含むデータを複数のクラスに分類する方法。
  2. 前記投影することは、非線形である請求項1に記載の方法。
  3. 前記データは、離散している請求項1に記載の方法。
  4. 前記データは、連続している請求項1に記載の方法。
  5. 投影された前記クラス条件確率分布を推定することをさらに含む請求項1に記載の方法。
  6. 推定された前記クラス条件確率分布を得るために尤度最大化プロセスを訓練データに適用することをさらに含む請求項5に記載の方法。
  7. (X|C),P(X|C),...P(X|C)は、N個のクラスの各々の実際のデータ分布を表し、Xは、ランダムベクトルを表し、括弧内のXは、前記ランダムベクトルの特定のインスタンスを表し、Pは、値XがクラスCに属すると仮定して前記ランダムベクトルXが値Xをとる確率を表し、実際の分布の推定値は、
    Figure 2005202932
    であり、ベクトルXの尤度投影は、演算L(X)であり、結果としてN次元の尤度ベクトルYを生じ、該尤度ベクトルYの成分は、
    Figure 2005202932
    である請求項5に記載の方法。
  8. 前記データは、音声信号を表す請求項1に記載の方法。
  9. 前記データは、視覚信号を表す請求項1に記載の方法。
  10. 前記判別分類器は、傾きが1の一次判別式である請求項1に記載の方法。
  11. 前記分類器は、二次判別式である請求項1に記載の方法。
  12. 前記分類器は、ロジスティック回帰である請求項1に記載の方法。
  13. 前記尤度空間における前記分類器は、分布に基づく分類器である請求項1に記載の方法。
  14. 前記投影分布は、ガウス関数である請求項1に記載の方法。
  15. 前記投影分布は、ガウス関数の混合である請求項1に記載の方法。
  16. 前記投影することは、可逆である請求項1に記載の方法。
JP2004335075A 2003-11-19 2004-11-18 データを複数のクラスに分類する方法 Pending JP2005202932A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/717,361 US7305132B2 (en) 2003-11-19 2003-11-19 Classification in likelihood spaces

Publications (1)

Publication Number Publication Date
JP2005202932A true JP2005202932A (ja) 2005-07-28

Family

ID=34574591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004335075A Pending JP2005202932A (ja) 2003-11-19 2004-11-18 データを複数のクラスに分類する方法

Country Status (2)

Country Link
US (1) US7305132B2 (ja)
JP (1) JP2005202932A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087379A (ja) * 2005-09-02 2007-04-05 Mitsubishi Electric Research Laboratories Inc コンピュータによるデータ分類方法、コンピュータによる分類方法
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
KR100745980B1 (ko) * 2006-01-11 2007-08-06 삼성전자주식회사 분류기 통합을 위한 스코어 합성 방법 및 장치
JP2009511937A (ja) * 2005-10-07 2009-03-19 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド プライベートデータを安全に分類する方法
JP2009271885A (ja) * 2008-05-12 2009-11-19 Panasonic Corp 年齢推定方法及び年齢推定装置
JP2010250391A (ja) * 2009-04-10 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びプログラム
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法
WO2018066263A1 (ja) * 2016-10-06 2018-04-12 日本電気株式会社 光受信装置及び制御方法
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481663B2 (ja) * 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
US7827011B2 (en) * 2005-05-03 2010-11-02 Aware, Inc. Method and system for real-time signal classification
US7680341B2 (en) * 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US8000538B2 (en) * 2006-12-22 2011-08-16 Palo Alto Research Center Incorporated System and method for performing classification through generative models of features occurring in an image
US8843370B2 (en) * 2007-11-26 2014-09-23 Nuance Communications, Inc. Joint discriminative training of multiple speech recognizers
US8037001B2 (en) * 2008-04-14 2011-10-11 Honeywell International Inc. Determining corrective actions using a geometrically-based determination of sufficient confidence
EP2178049A1 (en) * 2008-10-16 2010-04-21 Bernardo Kastrup Method and apparatus for generating visual patterns
WO2011010604A1 (ja) * 2009-07-21 2011-01-27 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US8737747B2 (en) * 2011-02-14 2014-05-27 Xerox Corporation Method for automated tire detection and recognition
US8891884B2 (en) 2011-12-27 2014-11-18 Microsoft Corporation Regression tree fields
US9070047B2 (en) 2011-12-27 2015-06-30 Microsoft Technology Licensing, Llc Decision tree fields to map dataset content to a set of parameters
US9251394B2 (en) 2012-04-05 2016-02-02 Ancestry.Com Operations Inc. System and method for estimating/determining the date of a photo
US10311863B2 (en) 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
US10789533B2 (en) 2017-07-26 2020-09-29 LogMeln, Inc. Generating a consistently labeled training dataset by automatically generating and displaying a set of most similar previously-labeled texts and their previously assigned labels for each text that is being labeled for the training dataset
US10657423B2 (en) * 2017-09-08 2020-05-19 Denise Reeves Methods for using feature vectors and machine learning algorithms to determine discriminant functions of minimum risk linear classification systems
US10299864B1 (en) * 2018-08-07 2019-05-28 Sony Corporation Co-localization of multiple internal organs based on images obtained during surgery

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4246570A (en) * 1978-04-20 1981-01-20 Computer Gesellschaft Konstanz Mbh Optical wand for mechanical character recognition
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法
US6532305B1 (en) * 1998-08-04 2003-03-11 Lincom Corporation Machine learning method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
US4773099A (en) * 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
US5181259A (en) * 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
JP3088171B2 (ja) * 1991-02-12 2000-09-18 三菱電機株式会社 自己組織型パタ−ン分類システム及び分類方法
US5337371A (en) * 1991-08-09 1994-08-09 Matsushita Electric Industrial Co., Ltd. Pattern classification system
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4246570A (en) * 1978-04-20 1981-01-20 Computer Gesellschaft Konstanz Mbh Optical wand for mechanical character recognition
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US6532305B1 (en) * 1998-08-04 2003-03-11 Lincom Corporation Machine learning method
JP2003015684A (ja) * 2001-05-21 2003-01-17 Mitsubishi Electric Research Laboratories Inc 1つの音源から生成される音響信号から特徴を抽出するための方法及び複数の音源から生成される音響信号から特徴を抽出するための方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087379A (ja) * 2005-09-02 2007-04-05 Mitsubishi Electric Research Laboratories Inc コンピュータによるデータ分類方法、コンピュータによる分類方法
JP2007094388A (ja) * 2005-09-26 2007-04-12 Samsung Electronics Co Ltd 音声区間検出装置及び音声区間検出方法
US7711558B2 (en) 2005-09-26 2010-05-04 Samsung Electronics Co., Ltd. Apparatus and method for detecting voice activity period
JP2009511937A (ja) * 2005-10-07 2009-03-19 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド プライベートデータを安全に分類する方法
KR100745980B1 (ko) * 2006-01-11 2007-08-06 삼성전자주식회사 분류기 통합을 위한 스코어 합성 방법 및 장치
JP2009271885A (ja) * 2008-05-12 2009-11-19 Panasonic Corp 年齢推定方法及び年齢推定装置
JP2010250391A (ja) * 2009-04-10 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びプログラム
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法
US10622008B2 (en) 2015-08-04 2020-04-14 Honda Motor Co., Ltd. Audio processing apparatus and audio processing method
WO2018066263A1 (ja) * 2016-10-06 2018-04-12 日本電気株式会社 光受信装置及び制御方法
US11190278B2 (en) 2016-10-06 2021-11-30 Nec Corporation Optical reception apparatus and control method
CN110688484A (zh) * 2019-09-24 2020-01-14 北京工商大学 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法

Also Published As

Publication number Publication date
US7305132B2 (en) 2007-12-04
US20050105795A1 (en) 2005-05-19

Similar Documents

Publication Publication Date Title
JP2005202932A (ja) データを複数のクラスに分類する方法
US9978002B2 (en) Object recognizer and detector for two-dimensional images using Bayesian network based classifier
Schneiderman et al. Object detection using the statistics of parts
JP4588575B2 (ja) デジタル画像の複数対象物検出方法および装置並びにプログラム
Qureshi et al. Adaptive discriminant wavelet packet transform and local binary patterns for meningioma subtype classification
Kingma et al. Regularized estimation of image statistics by score matching
US9026404B2 (en) Methods of improving detectors and classifiers using optimized stochastic resonance noise
Pyun et al. Image segmentation using hidden Markov Gauss mixture models
CN110414299B (zh) 一种基于计算机视觉的猴脸亲缘关系分析方法
Zuobin et al. Feature regrouping for cca-based feature fusion and extraction through normalized cut
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN107563287B (zh) 人脸识别方法和装置
Yao A compressed deep convolutional neural networks for face recognition
Kumar et al. Pixel-based skin color classifier: A review
Krupiński et al. Improved two-step binarization of degraded document images based on Gaussian mixture model
Ajitha et al. Face recognition system using Combined Gabor Wavelet and DCT approach
CN107341485B (zh) 人脸识别方法和装置
King A survey of methods for face detection
Jensch et al. A comparative evaluation of three skin color detection approaches
Li et al. Multi-level Fisher vector aggregated completed local fractional order derivative feature vector for face recognition
US20240144447A1 (en) Saliency maps and concept formation intensity for diffusion models
Zhang et al. Artificial Intelligence Technology in the Operation and Management of Rail Transit System
Bashar BM3D Image Denoising using Learning-Based Adaptive Hard Thresholding
Li et al. Fast Fuzzy C-means Clustering Method for Image Segmentation
Shankar et al. Frames extracted from video streaming to recognition of face: LBPH, FF and CNN

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101026

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101112