JP6719724B2 - データ分類装置およびプログラム - Google Patents

データ分類装置およびプログラム Download PDF

Info

Publication number
JP6719724B2
JP6719724B2 JP2016020748A JP2016020748A JP6719724B2 JP 6719724 B2 JP6719724 B2 JP 6719724B2 JP 2016020748 A JP2016020748 A JP 2016020748A JP 2016020748 A JP2016020748 A JP 2016020748A JP 6719724 B2 JP6719724 B2 JP 6719724B2
Authority
JP
Japan
Prior art keywords
data
class
determination target
probability density
example data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016020748A
Other languages
English (en)
Other versions
JP2017138886A (ja
Inventor
尾崎 良太
良太 尾崎
幸寛 坪下
幸寛 坪下
加藤 典司
典司 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2016020748A priority Critical patent/JP6719724B2/ja
Priority to US15/203,448 priority patent/US10579934B2/en
Publication of JP2017138886A publication Critical patent/JP2017138886A/ja
Application granted granted Critical
Publication of JP6719724B2 publication Critical patent/JP6719724B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Description

本発明は、データ分類装置およびプログラムに関する。
特許文献1には、各クラスの識別領域を超球の集合で表現し、各超球に含むべきデータをパラメータを変えながら探索し、そのクラス以外のデータはできるだけ含まないような超球を作成することで、各クラスの識別領域を少ない数の超球で表現するようにしたデータクラスタリング装置が開示されている。
特許文献2には、各クラスのベクトルとそのベクトルに最も近い他のクラスのベクトルとの距離を半径とした超球を求め、それらの超球のクラス毎の論理和をパターン認識の識別領域として用いることで、入力されたテストデータが領域外であった場合、どのクラスにも属さないという認識を行えるようにしたパターン識別方法が開示されている。
非特許文献1には、カーネル法により確率密度を推定する際に、テストデータの周辺K個のデータ点を含む領域を確率密度推定時に使用することで、カーネル幅を決めるパラメータhをデータ空間内の位置に応じて変化させて、パラメータhをデータ毎に適切な値に設定することができるようにする方法が開示されている。
特開平04−098422号公報 特開平05−128084号公報
C.M.ビショップ著、元田 浩/栗田 多喜夫/樋口 知之/松本 裕治訳、「パターン認識と機械学習 上」、シュプリンガー・ジャパン株式会社、2007年12月10日、p.119-124
数多くの学習データにより構成された特徴量データ空間(特徴量で表現されるデータ空間)では、少なくとも1種類以上のクラスが付与された学習データを含んでいる。この特徴量データ空間には、どのクラスにも属さない未分類の学習データが含まれる場合もある。このような特徴量データ空間において、ある判定対象のデータがどのクラスに属するかを判定する際に、先ず、判定対象データ周辺における各クラスに属する学習データである正例データの密度および属さない学習データである負例データの密度を確率密度としてクラス毎に推定する必要がある。なお、どのクラスにも属さない未分類の学習データは、いずれのクラスにも属さない負例データとして取り扱われる。
ここで、学習データを分類したクラスの数が多くなると、判定対象データの周辺に存在する正例データの数よりも負例データの数の方が圧倒的に多くなる。そのため、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定した場合、確率密度を算出する際に用いる領域サイズが正例データの密度を算出する場合と負例データの密度を算出する場合とでは大きく異なってしまう。
そして、算出される確率密度の推定精度は、正例データまたは負例データの数を算出する際に用いる領域サイズが小さい方が高くなる。そのため、確率密度を算出する際に用いる領域サイズが正例データの密度を算出する場合と負例データの密度を算出する場合とで大きく異なると、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が大きく異なってしまう。
そして、その判定対象データがどのクラスに属するのかを判定する際には、推定した正例データの確率密度と負例データの確率密度の両方を用いて判定が行われるため、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が大きく異なると判定結果の信頼性も阻害されることになってしまう。
本発明の目的は、数多くの学習データにより構成された特徴量データ空間において、ある判定対象データがどのクラスに属するかを判定する際に、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定する場合と比較して、判定結果の信頼性を向上させることが可能なデータ分類装置およびプログラムを提供することである。
[データ分類装置]
請求項1に係る本発明は、複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定手段と、
前記推定手段により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出手段と、
前記算出手段により算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定手段と、
を備え、
前記推定手段は、前記特徴量データ空間における前記判定対象データ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて確率密度を推定することを特徴とするデータ分類装置である。
請求項2に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が最も長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置である。
請求項3に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が平均値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置である。
請求項4に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が中央値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置である。
請求項5に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置である。
請求項6に係る本発明は、前記推定手段が、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置である。
請求項7に係る本発明は、前記推定手段が、推定した確率密度が予め設定された下限値よりも小さい場合、当該確率密度の値を下限値に設定する請求項1から6のいずれか1項記載のデータ分類装置である。
請求項に係る本発明は、前記推定手段が、決定した領域サイズを半径とする超球を確率密度を推定するための領域として用い、当該超球に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項1からのいずれか1項記載のデータ分類装置である。
請求項に係る本発明は、前記推定手段が、決定した領域サイズの2倍を一辺とする超立方体を確率密度を推定するための領域として用い、当該超立方体に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項1からのいずれか1項記載のデータ分類装置である。
[プログラム]
請求項10に係る本発明は、複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺におけるあるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定ステップと、
前記推定ステップにおいて推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出ステップと、
前記算出ステップにおいて算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定ステップとをコンピュータに実行させるためのプログラムである。
請求項1に係る本発明によれば、数多くの学習データにより構成された特徴量データ空間において、ある判定対象データがどのクラスに属するかを判定する際に、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定する場合と比較して、判定結果の信頼性を向上させることが可能なデータ分類装置を提供することができる。
また、請求項1に係る本発明によれば、領域サイズが予め設定された上限値よりも大きくなることがないように設定することが可能なデータ分類装置を提供することができる。
さらに、請求項1に係る本発明によれば、確率密度を推定する際に使用する領域内に正例データまたは負例データのいずれかが0個となった場合でも、確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項2に係る本発明によれば、正例データと負例データのいずれのデータについても少なくとも予め設定された数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項3に係る本発明によれば、正例データと負例データが平均的に半分の数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項4に係る本発明によれば、正例データと負例データが半数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項5に係る本発明によれば、正例データと負例データのいずれのデータについても平均的に予め設定された数の半数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項6に係る本発明によれば、正例データと負例データのいずれのデータについても少なくとも予め設定された数の半数含まれる領域を用いて確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項7に係る本発明によれば、推定される確率密度が0となることを防ぐことが可能なデータ分類装置を提供することができる。
請求項に係る本発明によれば、超球の領域に含まれる正例データおよび負例データの数を計測して確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項に係る本発明によれば、超立方体の領域に含まれる正例データおよび負例データの数を計測して確率密度を推定することが可能なデータ分類装置を提供することができる。
請求項10に係る本発明によれば、数多くの学習データにより構成された特徴量データ空間において、ある判定対象データがどのクラスに属するかを判定する際に、判定対象データの近傍に存在する予め設定された数の正例データおよび負例データを用いて確率密度を推定する場合と比較して、判定結果の信頼性を向上させることが可能なプログラムを提供することができる。
また、請求項12に係る本発明によれば、領域サイズが予め設定された上限値よりも大きくなることがないように設定することが可能なプログラムを提供することができる。
さらに、請求項12に係る本発明によれば、確率密度を推定する際に使用する領域内に正例データまたは負例データのいずれかが0個となった場合でも、確率密度を推定することが可能なプログラムを提供することができる。
本発明の一実施形態におけるデータ分類装置10のハードウェア構成を示すブロック図である。 本発明の一実施形態におけるデータ分類装置10の機能構成を示すブロック図である。 本発明の一実施形態のデータ分類装置10の全体動作を説明するためのフローチャートである。 図3のフローチャートにおいて説明した確率密度の推定処理(ステップS101)の詳細を説明するためのフローチャートである。 特徴量データ空間の一例を示す図である。 図5に示した特徴量データ空間例において、テストデータの属するクラスの判定をする場合について説明するための図である。 正例データの数、負例データの数をともに4に固定して、確率密度推定に使用するクラスC1の正例データとクラスC1の負例データ(クラスC2〜C4に属する学習データ)を選択した場合の様子を示す図である。 近傍正例データと近傍負例データのうち、テストデータからの距離が最も長い学習データまでの距離を領域サイズとした場合の様子を示す図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は本発明の一実施形態のデータ分類装置10のハードウェア構成を示すブロック図である。
本発明の一実施形態のデータ分類装置10は、図1に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワークを介して外部の装置等との間でデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。
CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、データ分類装置10の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明したが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU11に提供することも可能である。
図2は、上記の制御プログラムが実行されることにより実現されるデータ分類装置10の機能構成を示すブロック図である。
本実施形態のデータ分類装置10は、図2に示されるように、学習データ格納部31と、確率密度推定部32と、認識スコア算出部33と、判定部34とを備えている。
本実施形態では、学習データ格納部31は、複数の学習データを、その各学習データの属するクラスの情報とともに格納している。そして、これら複数の学習データにより特徴量データ空間(特徴量で表現されるデータ空間)が構成されている。この特徴量データ空間は、少なくとも1種類以上のクラスが付与された学習データを含んでいれば良い。そのため、この特徴量データ空間には、どのクラスにも属さない未分類の学習データが含まれる場合もある。
例えば、この学習データが画像データの場合、各画像データから抽出された色情報やエッジ情報等が特徴量となり、その画像データに予め付与されているラベル情報(例えば、犬の画像、猫の画像、自動車の画像等の情報)等がその学習データが属するクラスとなる。このような場合、1つの画像データから複数の情報を抽出して特徴量とするようにしても良い。例えば、1つの画像を複数の部分領域に分割し、分割したそれぞれの部分領域から特徴量を抽出することにより、1つの画像から複数の特徴量を抽出することができる。
また、例えば、この学習データが音声データの場合、各音声データから抽出された音素の周波数成分情報等が特徴量となり、その音声データに予め付与されているラベル情報(例えば、その音声の話者、単語等の情報)等がその音声データが属するクラスとなる。
さらに、例えば、この学習データがテキストデータの場合、各テキストデータから抽出された単語をベクトル化した情報等が特徴量となり、そのテキストデータに予め付与されているラベル情報(例えば、そのテキストデータの文書種類、極性等の情報)等がそのテキストデータが属するクラスとなる。
確率密度推定部32は、学習データ格納部31に格納されている複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、どのクラスに属するのかを判定する対象のテストデータ(判定対象データ)周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する。
具体的には、確率密度推定部32は、複数の学習データにより構成される特徴量データ空間におけるテストデータ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、正例データおよび負例データの数を計測して確率密度を推定する際に用いる領域の領域サイズを決定する。そして、確率密度推定部32は、決定した領域サイズにより定まる領域内に含まれる正例データの数と負例データの数をそれぞれ計測して、テストデータ周辺における確率密度をそれぞれのクラス毎に推定する。
この確率密度推定部32における確率密度の推定処理について具体例を挙げて以下に詳細に説明する。
[近傍正例データ、近傍負例データの選択]
先ず、例えば、特徴量データ空間上において学習データがクラスC1〜C4の4つのクラスに分類されていたものとして説明する。このような場合、先ず、確率密度推定部32は、特徴量データ空間上においてテストデータに近接する正例データ(クラスC1に属する学習データ)と、負例データ(クラスC1に属さない、つまりクラスC2〜C4に属する学習データ)をそれぞれ4つずつ選択して、近傍正例データ、近傍負例データとする。
ここで、近傍正例データ、近傍負例データを選択する際には、テストデータと全ての学習データとの距離を計算して、テストデータに近い学習データから順に4つの学習データを選択するようにしても良いし、KD(K-Dimensional)木等の近似計算を用いて4つの学習データを選択するようにしても良い。
なお、ここでは、近傍正例データ、近傍負例データとしてそれぞれ4つの学習データを選択する場合を用いて説明しているが、近傍正例データ、近傍負例データとして選択する学習データの数は同じに限定されるものではなく、近傍正例データ、近傍負例データとで異なる数の学習データを選択するようにしても良い。
なお、確率密度推定部32は、近傍正例データ、近傍負例データを選択する際に、テストデータからある距離以上離れた学習データは近傍正例データまたは近傍負例データとして選択しないよう制限を設けるようにしても良い。
[領域サイズの決定]
次に、確率密度推定部32は、上記でも説明したように、特徴量データ空間におけるテストデータ周辺の正例データおよび負例データの分布状況に応じて領域サイズを決定する。
・領域サイズの決定方法1:
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が最も長い学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。
・領域サイズの決定方法2:
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が平均値となる学習データを選択して、選択した学習データとテストデータとの距離を前記領域サイズとして決定する。
・領域サイズの決定方法3:
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が中央値となる学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。
・領域サイズの決定方法4:
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データの中から、テストデータとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、テストデータとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうちテストデータとの距離が長い方の学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。
・領域サイズの決定方法5:
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データの中から、テストデータとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、テストデータとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうちテストデータとの距離が長いデータを選択して、選択したデータとテストデータとの距離を領域サイズとして決定する。
なお、確率密度推定部32は、推定した確率密度が予め設定された下限値よりも小さい場合、推定した確率密度の値を下限値と置き換えることにより確率密度の値を設定するようにしても良い。この下限値を決める際には、予備実験を行うことにより下限値として適切な値を定めても良いし、単精度や倍精度浮動小数点の最小値に基づいて定めるようにしても良い。
また、確率密度推定部32は、決定した領域サイズが予め設定された上限値よりも大きくなってしまった場合、領域サイズの値を上限値に設定するようにしても良い。この上限値を決める際には、予備実験を行うことにより下限値として適切な値を定めても良いし、全学習データにおけるそれぞれの学習データと最近傍の学習との距離の平均値に基づいて設定しても良いし、学習データの標準偏差等に基づいて決定するようにしても良い。
[領域内の正例データおよび負例データの個数計測]
次に、確率密度推定部32は、上記のような方法により決定した領域サイズに基づいて、テストデータを中心とした領域内の正例データおよび負例データの個数をクラス毎に計測する。
例えば、確率密度推定部32は、領域の種類が超球の場合、決定した領域サイズを半径とする超球を、確率密度を推定するための領域として用い、この超球の領域に含まれる正例データおよび負例データの数を計測する。
また、例えば、確率密度推定部32は、領域の種類が超立方体の場合、決定した領域サイズの2倍を一辺とする超立方体を、確率密度を推定するための領域として用い、この超立方体の領域に含まれる正例データおよび負例データの数を計測する。なお、領域の種類として超立方体を用いる場合には、領域サイズの2倍が一辺の長さとして用いられるため、テストデータとの距離が一辺の半分、または対角線の値以下となる、確率密度を推定したいクラスの正例データと負例データの数を計測する。なお、対角線は、テストデータの次元数をd、一辺の長さを2rとすると、以下のように定義することができる。
Figure 0006719724
[領域体積算出]
次に、確率密度推定部32は、上記のような方法により決定した領域サイズに基づいて、正例データおよび負例データの個数を算出するための領域の体積を算出する。
例えば、超球を領域として用いる場合には、領域の体積Vは、テストデータの次元数をd、領域サイズをrとして、領域サイズを超球の半径として用いて、下記の式により算出される。
Figure 0006719724
また、例えば、超立方体を領域として用いる場合には、領域の体積Vは、テストデータの次元数をd、領域サイズをrとして、領域サイズの2倍を超立方体の一辺とすると、下記の式により算出される。
Figure 0006719724
[確率密度の推定]
次に、確率密度推定部32は、上記のような方法により計測された領域内の正例データおよび負例データの数と、領域の体積Vにより、それぞれのクラスの正例データの確率密度と負例データの確率密度を推定する。
ここで、テストデータをx、複数の学習データのうちクラスCの正例データの数をNp、負例データの数をNn、領域内の正例データの数をKp、領域内の負例データの数をKnとした場合、テストデータxに対するクラスCの正例データの確率密度は下記の式により推定される。
Figure 0006719724
また同様に、テストデータxに対するクラスCの負例データの確率密度は下記の式により推定される。
Figure 0006719724
なお、ここで、確率密度推定部32は、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合でも、正例データまたは負例データのうちの0個でない方のデータを用いて確率密度を推定する。
[認識スコア算出]
そして、認識スコア算出部33は、確率密度推定部32により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、テストデータがそのクラスに属する可能性の度合いを示す指標である認識スコアScを下記の式に基づいて算出する。
Figure 0006719724
なお、上記の式において、P(C)はテストデータxに対するクラスCにおける事前確率であり、P(C|x)はテストデータxがクラスCに属さない確率の事後確率である。
また、
Figure 0006719724
はテストデータxがクラスCに属さない確率の事後確率である。
最後に、判定部34は、認識スコア算出部33により算出されたクラス毎の認識スコアScを用いて、テストデータが属するクラスを判定する。
例えば、判定部34は、認識スコアScが最も高いクラスを、そのテストデータが属するクラスと判定しても良いし、認識スコアScが予め設定された閾値以上となるクラスをそのテストデータが属するクラスと判定しても良い。さらに、認識スコアScが予め設定された閾値よりも小さい場合には、その判定データは、いずれのクラスにも属さないと判定するようにしても良い。
次に、本実施形態のデータ分類装置10の動作について図面を参照して詳細に説明する。
まず、本実施形態のデータ分類装置10の全体動作を図3のフローチャートを参照して説明する。
データ分類装置10にどのクラスに属するかを判定するためのテストデータが入力されると、確率密度推定部32は、上記において説明した方法により、特徴量データ空間のテストデータ周辺における正例データの確率密度および負例データの確率密度をクラス毎に推定する(ステップS101)。なお、この確率密度推定処理の詳細については下記において説明する。
例えば、特徴量データ空間内において、学習データがクラスC1〜C3の3つのクラスに分類されている場合、確率密度推定部32は、3つのクラスC1〜C3に対する正例データの確率密度および正例データの確率密度を下記に示すようにそれぞれ算出する。
Figure 0006719724
そして、認識スコア算出部33は、確率密度推定部32により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、テストデータがそのクラスに属する可能性の度合いを示す指標である認識スコアSc1、Sc2、Sc3を上記で説明したような方法により算出する(ステップS102)。
最後に、判定部34は、認識スコア算出部33により算出されたクラス毎の認識スコアSc1、Sc2、Sc3を用いて、テストデータが属するクラスを判定する(ステップS103)。例えば、算出されたクラス毎の認識スコアSc1、Sc2、Sc3のうち、認識スコアSc2が最も大きい場合、テストデータが属するクラスはクラス2であると判定する。
次に、上記で説明した確率密度の推定処理(ステップS101)の詳細を図4のフローチャートを参照して説明する。
まず、確率密度推定部32は、確率密度を推定するクラスとして、クラスC1と設定する(ステップS201)。そして、確率密度推定部32は、特徴量データ空間上においてテストデータに近接する正例データ(クラスC1に属する学習データ)と、負例データ(クラスC1に属さない、つまりクラスC2〜C3に属する学習データ)をそれぞれd個ずつ選択して、近傍正例データ、近傍負例データとする(ステップS202)。
そして、確率密度推定部32は、上記において説明したような方法により、確率密度を推定する際に使用する領域の領域サイズを決定する(ステップS203)。そして、確率密度推定部32は、決定した領域サイズに基づいて、領域内に存在する正例データの数と、負例データの数を計測する(ステップS204)。
ここでは、確率密度を推定するクラスがクラスC1に設定されているため、確率密度推定部32は、クラスC1に属する学習データを正例データとし、クラスC2、C3に属する学習データを負例データとして計測する。
そして、確率密度推定部32は、計測された正例データおよび負例データの数に基づいて、クラスC1における正例データの確率密度および負例データの確率密度を推定する(ステップS205)。
ここで、確率密度推定部32は、推定された確率密度が下限値以下の場合、確率密度の値をその下限値に設定することにより、確率密度の値が下限値を下回らないようにする(ステップS206)。
そして、クラスC1〜C3の全てのクラスについての確率密度の推定が終了すれば、確率密度推定処理は終了するが、ここではクラスC1についての確率密度の推定が終了しているだけなので(ステップS207においてno)、確率密度推定部32は、確率密度を推定するクラスに1加算してクラスC2とする(ステップS208)。
そして、確率密度推定部32は、クラスC2について、ステップS202〜S206の処理を繰り返し、最後にクラスC3についても同様の処理を繰り返した後に全体の処理を終了する。
次に、具体的な特徴量データ空間例を示して本実施形態のデータ分類装置10の動作について説明する。なお、以下の説明では、説明を簡単にするための特徴量が1種類の場合で、領域の形状が円の場合について説明する。
例えば、図5に示すような特徴量データ空間を一例として説明する。この図5に示した特徴量データ空間例では、学習データはクラスC1〜C4(クラス1〜クラス4)に分類されている。
ここで、丸のプロットはクラスC1(クラス1)に属する学習データを示し、四角のプロットはクラスC2(クラス2)に属する学習データを示し、三角のプロットはクラスC3(クラス3)に属する学習データを示し、バツ印のプロットはクラスC4(クラス4)に属する学習データを示している。
この図5に示した特徴量データ空間例において、図6に示すようなテストデータの属するクラスの判定をする場合について説明する。
このような場合に、従来の確率密度推定方法のように、正例データの数、負例データの数をともに4に固定して、確率密度推定に使用するクラスC1の正例データとクラスC1の負例データ(クラスC2〜C4に属する学習データ)を選択した場合の様子を図7に示す。
図7では、確率密度推定の際に使用する正例データの数、負例データの数をともに4に固定されていることにより、テストデータに近接する4つの負例データが含まれる領域の半径r1と、テストデータに近接する4つの正例データが含まれる領域の半径r2が大きく異なっているのが分かる。
そして、確率密度を算出する際に用いる領域サイズが正例データの密度を算出する場合と負例データの密度を算出する場合とで大きく異なると、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が大きく異なってしまう。具体的には、負例データの確率密度の推定精度の方が、正例データの確率密度の推定精度よりも高くなってしまっている。
これに対して本実施形態のデータ分類装置10により確率密度を推定した場合の様子を図8を参照して説明する。
この図8では、近傍正例データと近傍負例データのうち、テストデータからの距離が最も長い学習データまでの距離を領域サイズとした場合が示されている。
この図8に示した例では、正例データの確率密度推定の際に使用する領域サイズおよび負例データの確率密度推定の際に使用する領域サイズがともにrと同じ値が用いられている。そのため、テストデータ周辺の正例データの密度、負例データに密度が大きく異なる場合でも、推定される正例データの確率密度の推定精度と、負例データの確率密度の推定精度が異ならないようになっているのが分かる。
[1つの学習データから抽出される特徴量がM個の場合]
なお、上記の実施形態では、説明を簡単にするために1つのデータから1つの特徴量が抽出される場合を用いて説明したが、本発明はこのような場合に限定されるものではない。
例えば、1つのデータからM個の特徴量が抽出される場合には、テストデータは(x1、x2、・・・、xM)となり、テストデータiに対する、クラスCにおける正例データの確率密度をP(xi|C)、負例データの確率密度を
Figure 0006719724
とすると、各クラスの認識スコアScは、正例データの確率密度、負例データの確率密度に基づいて下記の式により算出される。
Figure 0006719724
ここで、P(C)はクラスCの事前確率であり、
Figure 0006719724
はテストデータ(x1、x2、・・・、xM)がクラスCに属する確率の事後確率である。
また、
Figure 0006719724
は、テストデータ(x1、x2、・・・、xM)がクラスCに属さない確率の事後確率である。
上記のような計算を行うことにより、1つのデータから複数の特徴量が抽出される場合でも本発明は同様に適用可能である。
10 データ分類装置
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース(IF)
15 ユーザインタフェース(UI)装置
16 制御バス
31 学習データ格納部
32 確率密度推定部
33 認識スコア算出部
34 判定部

Claims (10)

  1. 複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定手段と、
    前記推定手段により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出手段と、
    前記算出手段により算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定手段と、
    を備え、
    前記推定手段は、前記特徴量データ空間における前記判定対象データ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて確率密度を推定することを特徴とするデータ分類装置。
  2. 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が最も長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
  3. 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が平均値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
  4. 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が中央値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
  5. 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
  6. 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
  7. 前記推定手段は、推定した確率密度が予め設定された下限値よりも小さい場合、当該確率密度の値を下限値に設定する請求項1から6のいずれか1項記載のデータ分類装置。
  8. 前記推定手段は、決定した領域サイズを半径とする超球を確率密度を推定するための領域として用い、当該超球に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項1からのいずれか1項記載のデータ分類装置。
  9. 前記推定手段は、決定した領域サイズの2倍を一辺とする超立方体を確率密度を推定するための領域として用い、当該超立方体に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項1からのいずれか1項記載のデータ分類装置。
  10. 複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺におけるあるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定ステップと、
    前記推定ステップにおいて推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出ステップと、
    前記算出ステップにおいて算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定ステップとをコンピュータに実行させるためのプログラム。
JP2016020748A 2016-02-05 2016-02-05 データ分類装置およびプログラム Expired - Fee Related JP6719724B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016020748A JP6719724B2 (ja) 2016-02-05 2016-02-05 データ分類装置およびプログラム
US15/203,448 US10579934B2 (en) 2016-02-05 2016-07-06 Data classification device, non-transitory computer readable medium, and data classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016020748A JP6719724B2 (ja) 2016-02-05 2016-02-05 データ分類装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2017138886A JP2017138886A (ja) 2017-08-10
JP6719724B2 true JP6719724B2 (ja) 2020-07-08

Family

ID=59497839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016020748A Expired - Fee Related JP6719724B2 (ja) 2016-02-05 2016-02-05 データ分類装置およびプログラム

Country Status (2)

Country Link
US (1) US10579934B2 (ja)
JP (1) JP6719724B2 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0498422A (ja) 1990-08-13 1992-03-31 Nippon Telegr & Teleph Corp <Ntt> データクラスタリング装置
JP3279605B2 (ja) 1991-11-05 2002-04-30 住友大阪セメント株式会社 パターン識別方法
US6665335B1 (en) * 1999-11-08 2003-12-16 National Instruments Corporation System and method for estimating a shift between two signals where one signal is known in advance
US20160026915A1 (en) * 2001-01-05 2016-01-28 In-Depth Test Llc Methods and Apparatus for Data Analysis
US6990236B2 (en) * 2001-11-30 2006-01-24 Sharp Laboratories Of America, Inc. Fast method of finding approximate nearest neighbor in high-dimensional space with a dynamically changing sample
KR20040048790A (ko) * 2002-12-03 2004-06-10 삼성전자주식회사 휘도 보정장치
US8024282B2 (en) * 2006-03-31 2011-09-20 Biodesix, Inc. Method for reliable classification of samples in clinical diagnostics using an improved method of classification
JP5142135B2 (ja) * 2007-11-13 2013-02-13 インターナショナル・ビジネス・マシーンズ・コーポレーション データを分類する技術
US8150212B2 (en) * 2008-04-10 2012-04-03 Fuji Xerox Co., Ltd System and method for automatic digital image orientation detection
US9092668B2 (en) * 2009-07-18 2015-07-28 ABBYY Development Identifying picture areas based on gradient image analysis
JP6077993B2 (ja) * 2010-04-30 2017-02-08 アイキャド インクiCAD, INC. 画像の異形を識別するための画像データの処理方法、システムおよびプログラム
US20120268485A1 (en) * 2011-04-22 2012-10-25 Panasonic Corporation Visualization of Query Results in Relation to a Map
WO2013014987A1 (ja) * 2011-07-25 2013-01-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報識別方法、プログラム及びシステム
BR112015022490A2 (pt) * 2013-03-15 2017-07-18 Veracyte Inc métodos e composições para classificação de amostras

Also Published As

Publication number Publication date
JP2017138886A (ja) 2017-08-10
US10579934B2 (en) 2020-03-03
US20170228656A1 (en) 2017-08-10

Similar Documents

Publication Publication Date Title
Xie et al. Robust clustering by detecting density peaks and assigning points based on fuzzy weighted K-nearest neighbors
US10262233B2 (en) Image processing apparatus, image processing method, program, and storage medium for using learning data
JP5880454B2 (ja) 画像識別装置及びプログラム
JP3903610B2 (ja) 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP6863926B2 (ja) データ分析システム及びデータ分析方法
US9489593B2 (en) Information processing apparatus and training method
JP7276436B2 (ja) 学習装置、学習方法、コンピュータプログラム及び記録媒体
KR102100204B1 (ko) 기계 학습 기반의 분류 방법 및 그 장치
Carbonera et al. Efficient instance selection based on spatial abstraction
WO2013145249A1 (ja) 生体認証装置、生体認証方法、および生体認証プログラム
JP2015225410A (ja) 認識装置、方法及びプログラム
JP6719724B2 (ja) データ分類装置およびプログラム
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
Holzmann et al. Hidden Markov models with state-dependent mixtures: minimal representation, model testing and applications to clustering
CN110674860A (zh) 基于邻域搜索策略的特征选择方法、存储介质和终端
JP2004341959A (ja) データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム
JP6659120B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6678709B2 (ja) 情報処理装置、情報処理方法およびプログラム
Junyi et al. A novel clustering algorithm by adaptively merging sub-clusters based on the Normal-neighbor and Merging force
JP2021152751A (ja) 分析支援装置及び分析支援方法
JP4735372B2 (ja) 指紋照合装置、指紋照合方法
EP4287075A1 (en) Training data generation device and method
KR101624014B1 (ko) 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템
JP7228542B2 (ja) 学習プログラム、学習装置および学習方法
CN112802555B (zh) 一种基于mvAUC的互补差异表达基因选取方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200531

R150 Certificate of patent or registration of utility model

Ref document number: 6719724

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees