JP6719724B2

JP6719724B2 - データ分類装置およびプログラム

Info

Publication number: JP6719724B2
Application number: JP2016020748A
Authority: JP
Inventors: 尾崎　良太; 良太尾崎; 幸寛坪下; 加藤　典司; 典司加藤
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-02-05
Filing date: 2016-02-05
Publication date: 2020-07-08
Anticipated expiration: 2036-02-05
Also published as: JP2017138886A; US10579934B2; US20170228656A1

Description

本発明は、データ分類装置およびプログラムに関する。

特許文献１には、各クラスの識別領域を超球の集合で表現し、各超球に含むべきデータをパラメータを変えながら探索し、そのクラス以外のデータはできるだけ含まないような超球を作成することで、各クラスの識別領域を少ない数の超球で表現するようにしたデータクラスタリング装置が開示されている。

特許文献２には、各クラスのベクトルとそのベクトルに最も近い他のクラスのベクトルとの距離を半径とした超球を求め、それらの超球のクラス毎の論理和をパターン認識の識別領域として用いることで、入力されたテストデータが領域外であった場合、どのクラスにも属さないという認識を行えるようにしたパターン識別方法が開示されている。

非特許文献１には、カーネル法により確率密度を推定する際に、テストデータの周辺Ｋ個のデータ点を含む領域を確率密度推定時に使用することで、カーネル幅を決めるパラメータｈをデータ空間内の位置に応じて変化させて、パラメータｈをデータ毎に適切な値に設定することができるようにする方法が開示されている。

特開平０４−０９８４２２号公報特開平０５−１２８０８４号公報

Ｃ.Ｍ.ビショップ著、元田浩／栗田多喜夫／樋口知之／松本裕治訳、「パターン認識と機械学習上」、シュプリンガー・ジャパン株式会社、2007年12月10日、p.119-124

数多くの学習データにより構成された特徴量データ空間（特徴量で表現されるデータ空間）では、少なくとも１種類以上のクラスが付与された学習データを含んでいる。この特徴量データ空間には、どのクラスにも属さない未分類の学習データが含まれる場合もある。このような特徴量データ空間において、ある判定対象のデータがどのクラスに属するかを判定する際に、先ず、判定対象データ周辺における各クラスに属する学習データである正例データの密度および属さない学習データである負例データの密度を確率密度としてクラス毎に推定する必要がある。なお、どのクラスにも属さない未分類の学習データは、いずれのクラスにも属さない負例データとして取り扱われる。

ここで、学習データを分類したクラスの数が多くなると、判定対象データの周辺に存在する正例データの数よりも負例データの数の方が圧倒的に多くなる。そのため、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定した場合、確率密度を算出する際に用いる領域サイズが正例データの密度を算出する場合と負例データの密度を算出する場合とでは大きく異なってしまう。

そして、算出される確率密度の推定精度は、正例データまたは負例データの数を算出する際に用いる領域サイズが小さい方が高くなる。そのため、確率密度を算出する際に用いる領域サイズが正例データの密度を算出する場合と負例データの密度を算出する場合とで大きく異なると、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が大きく異なってしまう。

そして、その判定対象データがどのクラスに属するのかを判定する際には、推定した正例データの確率密度と負例データの確率密度の両方を用いて判定が行われるため、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が大きく異なると判定結果の信頼性も阻害されることになってしまう。

本発明の目的は、数多くの学習データにより構成された特徴量データ空間において、ある判定対象データがどのクラスに属するかを判定する際に、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定する場合と比較して、判定結果の信頼性を向上させることが可能なデータ分類装置およびプログラムを提供することである。

［データ分類装置］
請求項１に係る本発明は、複数の学習データにより構成され少なくとも１種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定手段と、
前記推定手段により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出手段と、
前記算出手段により算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定手段と、
を備え、
前記推定手段は、前記特徴量データ空間における前記判定対象データ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが０個となった場合、正例データまたは負例データのうちの０個でない方のデータを用いて確率密度を推定することを特徴とするデータ分類装置である。

請求項２に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が最も長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置である。

請求項３に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が平均値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置である。

請求項４に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が中央値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置である。

請求項５に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置である。

請求項６に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置である。

請求項７に係る本発明は、前記推定手段が、推定した確率密度が予め設定された下限値よりも小さい場合、当該確率密度の値を下限値に設定する請求項１から６のいずれか１項記載のデータ分類装置である。

請求項８に係る本発明は、前記推定手段が、決定した領域サイズを半径とする超球を確率密度を推定するための領域として用い、当該超球に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項１から７のいずれか１項記載のデータ分類装置である。

請求項９に係る本発明は、前記推定手段が、決定した領域サイズの２倍を一辺とする超立方体を確率密度を推定するための領域として用い、当該超立方体に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項１から７のいずれか１項記載のデータ分類装置である。

[プログラム]
請求項１０に係る本発明は、複数の学習データにより構成され少なくとも１種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺におけるあるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが０個となった場合、正例データまたは負例データのうちの０個でない方のデータを用いて、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定ステップと、
前記推定ステップにおいて推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出ステップと、
前記算出ステップにおいて算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定ステップとをコンピュータに実行させるためのプログラムである。

請求項１に係る本発明によれば、数多くの学習データにより構成された特徴量データ空間において、ある判定対象データがどのクラスに属するかを判定する際に、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定する場合と比較して、判定結果の信頼性を向上させることが可能なデータ分類装置を提供することができる。
また、請求項１に係る本発明によれば、領域サイズが予め設定された上限値よりも大きくなることがないように設定することが可能なデータ分類装置を提供することができる。
さらに、請求項１に係る本発明によれば、確率密度を推定する際に使用する領域内に正例データまたは負例データのいずれかが０個となった場合でも、確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項２に係る本発明によれば、正例データと負例データのいずれのデータについても少なくとも予め設定された数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項３に係る本発明によれば、正例データと負例データが平均的に半分の数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項４に係る本発明によれば、正例データと負例データが半数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項５に係る本発明によれば、正例データと負例データのいずれのデータについても平均的に予め設定された数の半数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項６に係る本発明によれば、正例データと負例データのいずれのデータについても少なくとも予め設定された数の半数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項７に係る本発明によれば、推定される確率密度が０となることを防ぐことが可能なデータ分類装置を提供することができる。

請求項８に係る本発明によれば、超球の領域に含まれる正例データおよび負例データの数を計測して確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項９に係る本発明によれば、超立方体の領域に含まれる正例データおよび負例データの数を計測して確率密度を推定することが可能なデータ分類装置を提供することができる。

請求項１０に係る本発明によれば、数多くの学習データにより構成された特徴量データ空間において、ある判定対象データがどのクラスに属するかを判定する際に、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定する場合と比較して、判定結果の信頼性を向上させることが可能なプログラムを提供することができる。
また、請求項１２に係る本発明によれば、領域サイズが予め設定された上限値よりも大きくなることがないように設定することが可能なプログラムを提供することができる。
さらに、請求項１２に係る本発明によれば、確率密度を推定する際に使用する領域内に正例データまたは負例データのいずれかが０個となった場合でも、確率密度を推定することが可能なプログラムを提供することができる。

本発明の一実施形態におけるデータ分類装置１０のハードウェア構成を示すブロック図である。本発明の一実施形態におけるデータ分類装置１０の機能構成を示すブロック図である。本発明の一実施形態のデータ分類装置１０の全体動作を説明するためのフローチャートである。図３のフローチャートにおいて説明した確率密度の推定処理（ステップＳ１０１）の詳細を説明するためのフローチャートである。特徴量データ空間の一例を示す図である。図５に示した特徴量データ空間例において、テストデータの属するクラスの判定をする場合について説明するための図である。正例データの数、負例データの数をともに４に固定して、確率密度推定に使用するクラスＣ１の正例データとクラスＣ１の負例データ（クラスＣ２〜Ｃ４に属する学習データ）を選択した場合の様子を示す図である。近傍正例データと近傍負例データのうち、テストデータからの距離が最も長い学習データまでの距離を領域サイズとした場合の様子を示す図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

図１は本発明の一実施形態のデータ分類装置１０のハードウェア構成を示すブロック図である。

本発明の一実施形態のデータ分類装置１０は、図１に示されるように、ＣＰＵ１１、メモリ１２、ハードディスクドライブ（ＨＤＤ）等の記憶装置１３、ネットワークを介して外部の装置等との間でデータの送信及び受信を行う通信インタフェース（ＩＦ）１４、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース（ＵＩ）装置１５を有する。これらの構成要素は、制御バス１６を介して互いに接続されている。

ＣＰＵ１１は、メモリ１２または記憶装置１３に格納された制御プログラムに基づいて所定の処理を実行して、データ分類装置１０の動作を制御する。なお、本実施形態では、ＣＰＵ１１は、メモリ１２または記憶装置１３内に格納された制御プログラムを読み出して実行するものとして説明したが、当該プログラムをＣＤ−ＲＯＭ等の記憶媒体に格納してＣＰＵ１１に提供することも可能である。

図２は、上記の制御プログラムが実行されることにより実現されるデータ分類装置１０の機能構成を示すブロック図である。

本実施形態のデータ分類装置１０は、図２に示されるように、学習データ格納部３１と、確率密度推定部３２と、認識スコア算出部３３と、判定部３４とを備えている。

本実施形態では、学習データ格納部３１は、複数の学習データを、その各学習データの属するクラスの情報とともに格納している。そして、これら複数の学習データにより特徴量データ空間（特徴量で表現されるデータ空間）が構成されている。この特徴量データ空間は、少なくとも１種類以上のクラスが付与された学習データを含んでいれば良い。そのため、この特徴量データ空間には、どのクラスにも属さない未分類の学習データが含まれる場合もある。

例えば、この学習データが画像データの場合、各画像データから抽出された色情報やエッジ情報等が特徴量となり、その画像データに予め付与されているラベル情報（例えば、犬の画像、猫の画像、自動車の画像等の情報）等がその学習データが属するクラスとなる。このような場合、１つの画像データから複数の情報を抽出して特徴量とするようにしても良い。例えば、１つの画像を複数の部分領域に分割し、分割したそれぞれの部分領域から特徴量を抽出することにより、１つの画像から複数の特徴量を抽出することができる。

また、例えば、この学習データが音声データの場合、各音声データから抽出された音素の周波数成分情報等が特徴量となり、その音声データに予め付与されているラベル情報（例えば、その音声の話者、単語等の情報）等がその音声データが属するクラスとなる。

さらに、例えば、この学習データがテキストデータの場合、各テキストデータから抽出された単語をベクトル化した情報等が特徴量となり、そのテキストデータに予め付与されているラベル情報（例えば、そのテキストデータの文書種類、極性等の情報）等がそのテキストデータが属するクラスとなる。

確率密度推定部３２は、学習データ格納部３１に格納されている複数の学習データにより構成され少なくとも１種類以上のクラスが付与された学習データを含む特徴量データ空間における、どのクラスに属するのかを判定する対象のテストデータ（判定対象データ）周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する。

具体的には、確率密度推定部３２は、複数の学習データにより構成される特徴量データ空間におけるテストデータ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、正例データおよび負例データの数を計測して確率密度を推定する際に用いる領域の領域サイズを決定する。そして、確率密度推定部３２は、決定した領域サイズにより定まる領域内に含まれる正例データの数と負例データの数をそれぞれ計測して、テストデータ周辺における確率密度をそれぞれのクラス毎に推定する。

この確率密度推定部３２における確率密度の推定処理について具体例を挙げて以下に詳細に説明する。

[近傍正例データ、近傍負例データの選択]
先ず、例えば、特徴量データ空間上において学習データがクラスＣ１〜Ｃ４の４つのクラスに分類されていたものとして説明する。このような場合、先ず、確率密度推定部３２は、特徴量データ空間上においてテストデータに近接する正例データ（クラスＣ１に属する学習データ）と、負例データ（クラスＣ１に属さない、つまりクラスＣ２〜Ｃ４に属する学習データ）をそれぞれ４つずつ選択して、近傍正例データ、近傍負例データとする。

ここで、近傍正例データ、近傍負例データを選択する際には、テストデータと全ての学習データとの距離を計算して、テストデータに近い学習データから順に４つの学習データを選択するようにしても良いし、ＫＤ(K-Dimensional)木等の近似計算を用いて４つの学習データを選択するようにしても良い。

なお、ここでは、近傍正例データ、近傍負例データとしてそれぞれ４つの学習データを選択する場合を用いて説明しているが、近傍正例データ、近傍負例データとして選択する学習データの数は同じに限定されるものではなく、近傍正例データ、近傍負例データとで異なる数の学習データを選択するようにしても良い。

なお、確率密度推定部３２は、近傍正例データ、近傍負例データを選択する際に、テストデータからある距離以上離れた学習データは近傍正例データまたは近傍負例データとして選択しないよう制限を設けるようにしても良い。

[領域サイズの決定]
次に、確率密度推定部３２は、上記でも説明したように、特徴量データ空間におけるテストデータ周辺の正例データおよび負例データの分布状況に応じて領域サイズを決定する。

・領域サイズの決定方法１：
例えば、確率密度推定部３２は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が最も長い学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。

・領域サイズの決定方法２：
例えば、確率密度推定部３２は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が平均値となる学習データを選択して、選択した学習データとテストデータとの距離を前記領域サイズとして決定する。

・領域サイズの決定方法３：
例えば、確率密度推定部３２は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が中央値となる学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。

・領域サイズの決定方法４：
例えば、確率密度推定部３２は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データの中から、テストデータとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、テストデータとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうちテストデータとの距離が長い方の学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。

・領域サイズの決定方法５：
例えば、確率密度推定部３２は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データの中から、テストデータとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、テストデータとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうちテストデータとの距離が長いデータを選択して、選択したデータとテストデータとの距離を領域サイズとして決定する。

なお、確率密度推定部３２は、推定した確率密度が予め設定された下限値よりも小さい場合、推定した確率密度の値を下限値と置き換えることにより確率密度の値を設定するようにしても良い。この下限値を決める際には、予備実験を行うことにより下限値として適切な値を定めても良いし、単精度や倍精度浮動小数点の最小値に基づいて定めるようにしても良い。

また、確率密度推定部３２は、決定した領域サイズが予め設定された上限値よりも大きくなってしまった場合、領域サイズの値を上限値に設定するようにしても良い。この上限値を決める際には、予備実験を行うことにより下限値として適切な値を定めても良いし、全学習データにおけるそれぞれの学習データと最近傍の学習との距離の平均値に基づいて設定しても良いし、学習データの標準偏差等に基づいて決定するようにしても良い。

[領域内の正例データおよび負例データの個数計測]
次に、確率密度推定部３２は、上記のような方法により決定した領域サイズに基づいて、テストデータを中心とした領域内の正例データおよび負例データの個数をクラス毎に計測する。

例えば、確率密度推定部３２は、領域の種類が超球の場合、決定した領域サイズを半径とする超球を、確率密度を推定するための領域として用い、この超球の領域に含まれる正例データおよび負例データの数を計測する。

また、例えば、確率密度推定部３２は、領域の種類が超立方体の場合、決定した領域サイズの２倍を一辺とする超立方体を、確率密度を推定するための領域として用い、この超立方体の領域に含まれる正例データおよび負例データの数を計測する。なお、領域の種類として超立方体を用いる場合には、領域サイズの２倍が一辺の長さとして用いられるため、テストデータとの距離が一辺の半分、または対角線の値以下となる、確率密度を推定したいクラスの正例データと負例データの数を計測する。なお、対角線は、テストデータの次元数をｄ、一辺の長さを２ｒとすると、以下のように定義することができる。

[領域体積算出]
次に、確率密度推定部３２は、上記のような方法により決定した領域サイズに基づいて、正例データおよび負例データの個数を算出するための領域の体積を算出する。

例えば、超球を領域として用いる場合には、領域の体積Ｖは、テストデータの次元数をｄ、領域サイズをｒとして、領域サイズを超球の半径として用いて、下記の式により算出される。

また、例えば、超立方体を領域として用いる場合には、領域の体積Ｖは、テストデータの次元数をｄ、領域サイズをｒとして、領域サイズの２倍を超立方体の一辺とすると、下記の式により算出される。

[確率密度の推定]
次に、確率密度推定部３２は、上記のような方法により計測された領域内の正例データおよび負例データの数と、領域の体積Ｖにより、それぞれのクラスの正例データの確率密度と負例データの確率密度を推定する。

ここで、テストデータをｘ、複数の学習データのうちクラスＣの正例データの数をＮ_p、負例データの数をＮ_n、領域内の正例データの数をＫ_p、領域内の負例データの数をＫ_nとした場合、テストデータｘに対するクラスＣの正例データの確率密度は下記の式により推定される。

また同様に、テストデータｘに対するクラスＣの負例データの確率密度は下記の式により推定される。

なお、ここで、確率密度推定部３２は、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが０個となった場合でも、正例データまたは負例データのうちの０個でない方のデータを用いて確率密度を推定する。

[認識スコア算出]
そして、認識スコア算出部３３は、確率密度推定部３２により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、テストデータがそのクラスに属する可能性の度合いを示す指標である認識スコアＳ_cを下記の式に基づいて算出する。

なお、上記の式において、Ｐ（Ｃ）はテストデータｘに対するクラスＣにおける事前確率であり、Ｐ（Ｃ｜ｘ）はテストデータｘがクラスＣに属さない確率の事後確率である。

また、

はテストデータｘがクラスＣに属さない確率の事後確率である。

最後に、判定部３４は、認識スコア算出部３３により算出されたクラス毎の認識スコアＳ_cを用いて、テストデータが属するクラスを判定する。

例えば、判定部３４は、認識スコアＳ_cが最も高いクラスを、そのテストデータが属するクラスと判定しても良いし、認識スコアＳ_cが予め設定された閾値以上となるクラスをそのテストデータが属するクラスと判定しても良い。さらに、認識スコアＳ_cが予め設定された閾値よりも小さい場合には、その判定データは、いずれのクラスにも属さないと判定するようにしても良い。

次に、本実施形態のデータ分類装置１０の動作について図面を参照して詳細に説明する。

まず、本実施形態のデータ分類装置１０の全体動作を図３のフローチャートを参照して説明する。

データ分類装置１０にどのクラスに属するかを判定するためのテストデータが入力されると、確率密度推定部３２は、上記において説明した方法により、特徴量データ空間のテストデータ周辺における正例データの確率密度および負例データの確率密度をクラス毎に推定する（ステップＳ１０１）。なお、この確率密度推定処理の詳細については下記において説明する。

例えば、特徴量データ空間内において、学習データがクラスＣ１〜Ｃ３の３つのクラスに分類されている場合、確率密度推定部３２は、３つのクラスＣ１〜Ｃ３に対する正例データの確率密度および正例データの確率密度を下記に示すようにそれぞれ算出する。

そして、認識スコア算出部３３は、確率密度推定部３２により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、テストデータがそのクラスに属する可能性の度合いを示す指標である認識スコアＳ_c1、Ｓ_c2、Ｓ_c3を上記で説明したような方法により算出する（ステップＳ１０２）。

最後に、判定部３４は、認識スコア算出部３３により算出されたクラス毎の認識スコアＳ_c1、Ｓ_c2、Ｓ_c3を用いて、テストデータが属するクラスを判定する（ステップＳ１０３）。例えば、算出されたクラス毎の認識スコアＳ_c1、Ｓ_c2、Ｓ_c3のうち、認識スコアＳ_c2が最も大きい場合、テストデータが属するクラスはクラス２であると判定する。

次に、上記で説明した確率密度の推定処理（ステップＳ１０１）の詳細を図４のフローチャートを参照して説明する。

まず、確率密度推定部３２は、確率密度を推定するクラスとして、クラスＣ１と設定する（ステップＳ２０１）。そして、確率密度推定部３２は、特徴量データ空間上においてテストデータに近接する正例データ（クラスＣ１に属する学習データ）と、負例データ（クラスＣ１に属さない、つまりクラスＣ２〜Ｃ３に属する学習データ）をそれぞれｄ個ずつ選択して、近傍正例データ、近傍負例データとする（ステップＳ２０２）。

そして、確率密度推定部３２は、上記において説明したような方法により、確率密度を推定する際に使用する領域の領域サイズを決定する（ステップＳ２０３）。そして、確率密度推定部３２は、決定した領域サイズに基づいて、領域内に存在する正例データの数と、負例データの数を計測する（ステップＳ２０４）。

ここでは、確率密度を推定するクラスがクラスＣ１に設定されているため、確率密度推定部３２は、クラスＣ１に属する学習データを正例データとし、クラスＣ２、Ｃ３に属する学習データを負例データとして計測する。

そして、確率密度推定部３２は、計測された正例データおよび負例データの数に基づいて、クラスＣ１における正例データの確率密度および負例データの確率密度を推定する（ステップＳ２０５）。

ここで、確率密度推定部３２は、推定された確率密度が下限値以下の場合、確率密度の値をその下限値に設定することにより、確率密度の値が下限値を下回らないようにする（ステップＳ２０６）。

そして、クラスＣ１〜Ｃ３の全てのクラスについての確率密度の推定が終了すれば、確率密度推定処理は終了するが、ここではクラスＣ１についての確率密度の推定が終了しているだけなので（ステップＳ２０７においてｎｏ）、確率密度推定部３２は、確率密度を推定するクラスに１加算してクラスＣ２とする（ステップＳ２０８）。

そして、確率密度推定部３２は、クラスＣ２について、ステップＳ２０２〜Ｓ２０６の処理を繰り返し、最後にクラスＣ３についても同様の処理を繰り返した後に全体の処理を終了する。

次に、具体的な特徴量データ空間例を示して本実施形態のデータ分類装置１０の動作について説明する。なお、以下の説明では、説明を簡単にするための特徴量が１種類の場合で、領域の形状が円の場合について説明する。

例えば、図５に示すような特徴量データ空間を一例として説明する。この図５に示した特徴量データ空間例では、学習データはクラスＣ１〜Ｃ４（クラス１〜クラス４）に分類されている。

ここで、丸のプロットはクラスＣ１（クラス１）に属する学習データを示し、四角のプロットはクラスＣ２（クラス２）に属する学習データを示し、三角のプロットはクラスＣ３（クラス３）に属する学習データを示し、バツ印のプロットはクラスＣ４（クラス４）に属する学習データを示している。

この図５に示した特徴量データ空間例において、図６に示すようなテストデータの属するクラスの判定をする場合について説明する。

このような場合に、従来の確率密度推定方法のように、正例データの数、負例データの数をともに４に固定して、確率密度推定に使用するクラスＣ１の正例データとクラスＣ１の負例データ（クラスＣ２〜Ｃ４に属する学習データ）を選択した場合の様子を図７に示す。

図７では、確率密度推定の際に使用する正例データの数、負例データの数をともに４に固定されていることにより、テストデータに近接する４つの負例データが含まれる領域の半径ｒ１と、テストデータに近接する４つの正例データが含まれる領域の半径ｒ２が大きく異なっているのが分かる。

そして、確率密度を算出する際に用いる領域サイズが正例データの密度を算出する場合と負例データの密度を算出する場合とで大きく異なると、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が大きく異なってしまう。具体的には、負例データの確率密度の推定精度の方が、正例データの確率密度の推定精度よりも高くなってしまっている。

これに対して本実施形態のデータ分類装置１０により確率密度を推定した場合の様子を図８を参照して説明する。

この図８では、近傍正例データと近傍負例データのうち、テストデータからの距離が最も長い学習データまでの距離を領域サイズとした場合が示されている。

この図８に示した例では、正例データの確率密度推定の際に使用する領域サイズおよび負例データの確率密度推定の際に使用する領域サイズがともにｒと同じ値が用いられている。そのため、テストデータ周辺の正例データの密度、負例データに密度が大きく異なる場合でも、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が異ならないようになっているのが分かる。

[１つの学習データから抽出される特徴量がＭ個の場合]
なお、上記の実施形態では、説明を簡単にするために１つのデータから１つの特徴量が抽出される場合を用いて説明したが、本発明はこのような場合に限定されるものではない。

例えば、１つのデータからＭ個の特徴量が抽出される場合には、テストデータは（ｘ₁、ｘ₂、・・・、ｘ_M）となり、テストデータｉに対する、クラスＣにおける正例データの確率密度をＰ（ｘi｜Ｃ）、負例データの確率密度を

とすると、各クラスの認識スコアＳ_cは、正例データの確率密度、負例データの確率密度に基づいて下記の式により算出される。

ここで、Ｐ（Ｃ）はクラスＣの事前確率であり、

はテストデータ（ｘ₁、ｘ₂、・・・、ｘ_M）がクラスＣに属する確率の事後確率である。

また、

は、テストデータ（ｘ₁、ｘ₂、・・・、ｘ_M）がクラスＣに属さない確率の事後確率である。

上記のような計算を行うことにより、１つのデータから複数の特徴量が抽出される場合でも本発明は同様に適用可能である。

１０データ分類装置
１１ＣＰＵ
１２メモリ
１３記憶装置
１４通信インタフェース（ＩＦ）
１５ユーザインタフェース（ＵＩ）装置
１６制御バス
３１学習データ格納部
３２確率密度推定部
３３認識スコア算出部
３４判定部

Claims

複数の学習データにより構成され少なくとも１種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定手段と、
前記推定手段により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出手段と、
前記算出手段により算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定手段と、
を備え、
前記推定手段は、前記特徴量データ空間における前記判定対象データ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが０個となった場合、正例データまたは負例データのうちの０個でない方のデータを用いて確率密度を推定することを特徴とするデータ分類装置。
前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が最も長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置。
前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が平均値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置。
前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が中央値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置。
前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置。
前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項１記載のデータ分類装置。
前記推定手段は、推定した確率密度が予め設定された下限値よりも小さい場合、当該確率密度の値を下限値に設定する請求項１から６のいずれか１項記載のデータ分類装置。
前記推定手段は、決定した領域サイズを半径とする超球を確率密度を推定するための領域として用い、当該超球に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項１から７のいずれか１項記載のデータ分類装置。
前記推定手段は、決定した領域サイズの２倍を一辺とする超立方体を確率密度を推定するための領域として用い、当該超立方体に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項１から７のいずれか１項記載のデータ分類装置。
複数の学習データにより構成され少なくとも１種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺におけるあるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが０個となった場合、正例データまたは負例データのうちの０個でない方のデータを用いて、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定ステップと、
前記推定ステップにおいて推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出ステップと、
前記算出ステップにおいて算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定ステップとをコンピュータに実行させるためのプログラム。