JP6719724B2 - データ分類装置およびプログラム - Google Patents
データ分類装置およびプログラム Download PDFInfo
- Publication number
- JP6719724B2 JP6719724B2 JP2016020748A JP2016020748A JP6719724B2 JP 6719724 B2 JP6719724 B2 JP 6719724B2 JP 2016020748 A JP2016020748 A JP 2016020748A JP 2016020748 A JP2016020748 A JP 2016020748A JP 6719724 B2 JP6719724 B2 JP 6719724B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- class
- determination target
- probability density
- example data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 description 60
- 238000000034 method Methods 0.000 description 18
- 239000010749 BS 2869 Class C1 Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 239000010750 BS 2869 Class C2 Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Description
請求項1に係る本発明は、複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定手段と、
前記推定手段により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出手段と、
前記算出手段により算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定手段と、
を備え、
前記推定手段は、前記特徴量データ空間における前記判定対象データ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて確率密度を推定することを特徴とするデータ分類装置である。
請求項10に係る本発明は、複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺におけるあるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定ステップと、
前記推定ステップにおいて推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出ステップと、
前記算出ステップにおいて算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定ステップとをコンピュータに実行させるためのプログラムである。
また、請求項1に係る本発明によれば、領域サイズが予め設定された上限値よりも大きくなることがないように設定することが可能なデータ分類装置を提供することができる。
さらに、請求項1に係る本発明によれば、確率密度を推定する際に使用する領域内に正例データまたは負例データのいずれかが0個となった場合でも、確率密度を推定することが可能なデータ分類装置を提供することができる。
また、請求項12に係る本発明によれば、領域サイズが予め設定された上限値よりも大きくなることがないように設定することが可能なプログラムを提供することができる。
さらに、請求項12に係る本発明によれば、確率密度を推定する際に使用する領域内に正例データまたは負例データのいずれかが0個となった場合でも、確率密度を推定することが可能なプログラムを提供することができる。
先ず、例えば、特徴量データ空間上において学習データがクラスC1〜C4の4つのクラスに分類されていたものとして説明する。このような場合、先ず、確率密度推定部32は、特徴量データ空間上においてテストデータに近接する正例データ(クラスC1に属する学習データ)と、負例データ(クラスC1に属さない、つまりクラスC2〜C4に属する学習データ)をそれぞれ4つずつ選択して、近傍正例データ、近傍負例データとする。
次に、確率密度推定部32は、上記でも説明したように、特徴量データ空間におけるテストデータ周辺の正例データおよび負例データの分布状況に応じて領域サイズを決定する。
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が最も長い学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が平均値となる学習データを選択して、選択した学習データとテストデータとの距離を前記領域サイズとして決定する。
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、テストデータとの距離が中央値となる学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データの中から、テストデータとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、テストデータとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうちテストデータとの距離が長い方の学習データを選択して、選択した学習データとテストデータとの距離を領域サイズとして決定する。
例えば、確率密度推定部32は、上記の特徴量データ空間上においてテストデータに近接する予め設定された個数の正例データの中から、テストデータとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、テストデータとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうちテストデータとの距離が長いデータを選択して、選択したデータとテストデータとの距離を領域サイズとして決定する。
次に、確率密度推定部32は、上記のような方法により決定した領域サイズに基づいて、テストデータを中心とした領域内の正例データおよび負例データの個数をクラス毎に計測する。
次に、確率密度推定部32は、上記のような方法により決定した領域サイズに基づいて、正例データおよび負例データの個数を算出するための領域の体積を算出する。
次に、確率密度推定部32は、上記のような方法により計測された領域内の正例データおよび負例データの数と、領域の体積Vにより、それぞれのクラスの正例データの確率密度と負例データの確率密度を推定する。
そして、認識スコア算出部33は、確率密度推定部32により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、テストデータがそのクラスに属する可能性の度合いを示す指標である認識スコアScを下記の式に基づいて算出する。
なお、上記の実施形態では、説明を簡単にするために1つのデータから1つの特徴量が抽出される場合を用いて説明したが、本発明はこのような場合に限定されるものではない。
11 CPU
12 メモリ
13 記憶装置
14 通信インタフェース(IF)
15 ユーザインタフェース(UI)装置
16 制御バス
31 学習データ格納部
32 確率密度推定部
33 認識スコア算出部
34 判定部
Claims (10)
- 複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定手段と、
前記推定手段により推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出手段と、
前記算出手段により算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定手段と、
を備え、
前記推定手段は、前記特徴量データ空間における前記判定対象データ周辺の、あるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて確率密度を推定することを特徴とするデータ分類装置。 - 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が最も長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
- 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が平均値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
- 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データと、予め設定された個数の負例データとの中から、前記判定対象データとの距離が中央値となるデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
- 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が平均値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が平均値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
- 前記推定手段は、前記特徴量データ空間上において前記判定対象データに近接する予め設定された個数の正例データの中から、前記判定対象データとの距離が中央値となる正例データを選択し、予め設定された個数の負例データの中から、前記判定対象データとの距離が中央値となる負例データを選択し、選択された正例データと負例データのうち前記判定対象データとの距離が長いデータを選択して、選択したデータと前記判定対象データとの距離を前記領域サイズとして決定する請求項1記載のデータ分類装置。
- 前記推定手段は、推定した確率密度が予め設定された下限値よりも小さい場合、当該確率密度の値を下限値に設定する請求項1から6のいずれか1項記載のデータ分類装置。
- 前記推定手段は、決定した領域サイズを半径とする超球を確率密度を推定するための領域として用い、当該超球に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項1から7のいずれか1項記載のデータ分類装置。
- 前記推定手段は、決定した領域サイズの2倍を一辺とする超立方体を確率密度を推定するための領域として用い、当該超立方体に含まれる正例データおよび負例データの数を計測して確率密度を推定する請求項1から7のいずれか1項記載のデータ分類装置。
- 複数の学習データにより構成され少なくとも1種類以上のクラスが付与された学習データを含む特徴量データ空間における、判定対象データ周辺におけるあるクラスに属する学習データである正例データおよびそのクラスに属さない学習データである負例データの分布状況に応じて、確率密度を推定する際に用いる領域の領域サイズを決定し、決定した領域サイズが予め設定された上限値よりも大きい場合、領域サイズの値を上限値に設定し、領域サイズの値を上限値に設定したことにより、確率密度を推定する際に用いる領域に含まれる正例データの数または負例データの数のいずれかが0個となった場合、正例データまたは負例データのうちの0個でない方のデータを用いて、判定対象データ周辺における各クラスに属する学習データの密度および属さない学習データの密度である確率密度をクラス毎に推定する推定ステップと、
前記推定ステップにおいて推定された各クラスに属する学習データの確率密度と属さない学習データの確率密度に基づいて、前記判定対象データがそのクラスに属する可能性の度合いを示す指標を算出する算出ステップと、
前記算出ステップにおいて算出されたクラス毎の指標を用いて、前記判定対象データが属するクラスを判定する判定ステップとをコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016020748A JP6719724B2 (ja) | 2016-02-05 | 2016-02-05 | データ分類装置およびプログラム |
US15/203,448 US10579934B2 (en) | 2016-02-05 | 2016-07-06 | Data classification device, non-transitory computer readable medium, and data classification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016020748A JP6719724B2 (ja) | 2016-02-05 | 2016-02-05 | データ分類装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017138886A JP2017138886A (ja) | 2017-08-10 |
JP6719724B2 true JP6719724B2 (ja) | 2020-07-08 |
Family
ID=59497839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016020748A Expired - Fee Related JP6719724B2 (ja) | 2016-02-05 | 2016-02-05 | データ分類装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10579934B2 (ja) |
JP (1) | JP6719724B2 (ja) |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0498422A (ja) | 1990-08-13 | 1992-03-31 | Nippon Telegr & Teleph Corp <Ntt> | データクラスタリング装置 |
JP3279605B2 (ja) | 1991-11-05 | 2002-04-30 | 住友大阪セメント株式会社 | パターン識別方法 |
US6665335B1 (en) * | 1999-11-08 | 2003-12-16 | National Instruments Corporation | System and method for estimating a shift between two signals where one signal is known in advance |
US20160026915A1 (en) * | 2001-01-05 | 2016-01-28 | In-Depth Test Llc | Methods and Apparatus for Data Analysis |
US6990236B2 (en) * | 2001-11-30 | 2006-01-24 | Sharp Laboratories Of America, Inc. | Fast method of finding approximate nearest neighbor in high-dimensional space with a dynamically changing sample |
KR20040048790A (ko) * | 2002-12-03 | 2004-06-10 | 삼성전자주식회사 | 휘도 보정장치 |
US8024282B2 (en) * | 2006-03-31 | 2011-09-20 | Biodesix, Inc. | Method for reliable classification of samples in clinical diagnostics using an improved method of classification |
JP5142135B2 (ja) * | 2007-11-13 | 2013-02-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データを分類する技術 |
US8150212B2 (en) * | 2008-04-10 | 2012-04-03 | Fuji Xerox Co., Ltd | System and method for automatic digital image orientation detection |
US9092668B2 (en) * | 2009-07-18 | 2015-07-28 | ABBYY Development | Identifying picture areas based on gradient image analysis |
JP6077993B2 (ja) * | 2010-04-30 | 2017-02-08 | アイキャド インクiCAD, INC. | 画像の異形を識別するための画像データの処理方法、システムおよびプログラム |
US20120268485A1 (en) * | 2011-04-22 | 2012-10-25 | Panasonic Corporation | Visualization of Query Results in Relation to a Map |
WO2013014987A1 (ja) * | 2011-07-25 | 2013-01-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報識別方法、プログラム及びシステム |
BR112015022490A2 (pt) * | 2013-03-15 | 2017-07-18 | Veracyte Inc | métodos e composições para classificação de amostras |
-
2016
- 2016-02-05 JP JP2016020748A patent/JP6719724B2/ja not_active Expired - Fee Related
- 2016-07-06 US US15/203,448 patent/US10579934B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017138886A (ja) | 2017-08-10 |
US10579934B2 (en) | 2020-03-03 |
US20170228656A1 (en) | 2017-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Robust clustering by detecting density peaks and assigning points based on fuzzy weighted K-nearest neighbors | |
US10262233B2 (en) | Image processing apparatus, image processing method, program, and storage medium for using learning data | |
JP5880454B2 (ja) | 画像識別装置及びプログラム | |
JP3903610B2 (ja) | 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP6863926B2 (ja) | データ分析システム及びデータ分析方法 | |
US9489593B2 (en) | Information processing apparatus and training method | |
JP7276436B2 (ja) | 学習装置、学習方法、コンピュータプログラム及び記録媒体 | |
KR102100204B1 (ko) | 기계 학습 기반의 분류 방법 및 그 장치 | |
Carbonera et al. | Efficient instance selection based on spatial abstraction | |
WO2013145249A1 (ja) | 生体認証装置、生体認証方法、および生体認証プログラム | |
JP2015225410A (ja) | 認識装置、方法及びプログラム | |
JP6719724B2 (ja) | データ分類装置およびプログラム | |
CN111783088B (zh) | 一种恶意代码家族聚类方法、装置和计算机设备 | |
Holzmann et al. | Hidden Markov models with state-dependent mixtures: minimal representation, model testing and applications to clustering | |
CN110674860A (zh) | 基于邻域搜索策略的特征选择方法、存储介质和终端 | |
JP2004341959A (ja) | データ分類装置、データ分類方法およびその方法をコンピュータに実行させるプログラム | |
JP6659120B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6678709B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Junyi et al. | A novel clustering algorithm by adaptively merging sub-clusters based on the Normal-neighbor and Merging force | |
JP2021152751A (ja) | 分析支援装置及び分析支援方法 | |
JP4735372B2 (ja) | 指紋照合装置、指紋照合方法 | |
EP4287075A1 (en) | Training data generation device and method | |
KR101624014B1 (ko) | 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템 | |
JP7228542B2 (ja) | 学習プログラム、学習装置および学習方法 | |
CN112802555B (zh) | 一种基于mvAUC的互补差异表达基因选取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200518 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6719724 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |