JP2010067259A - 限られたメモリを有するシステムにおいてデータを分類する方法 - Google Patents
限られたメモリを有するシステムにおいてデータを分類する方法 Download PDFInfo
- Publication number
- JP2010067259A JP2010067259A JP2009126696A JP2009126696A JP2010067259A JP 2010067259 A JP2010067259 A JP 2010067259A JP 2009126696 A JP2009126696 A JP 2009126696A JP 2009126696 A JP2009126696 A JP 2009126696A JP 2010067259 A JP2010067259 A JP 2010067259A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- training data
- sample
- size
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 81
- 238000010200 validation analysis Methods 0.000 claims description 14
- 239000000523 sample Substances 0.000 description 52
- 230000006870 function Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】限られたメモリを有するシステムにおいて、トレーニングデータセットを使用してデータを分類する。
【解決手段】模範学習(EL)手順をトレーニングデータセットに適用し、メモリのサイズに適合する模範データセットを生成する。EL手順は、エントロピーベース模範学習(EBEL)手順と、高度ブロードバンド対応学習(ABEL)手順とから構成されるグループから選択される。模範データセットは、システムデータにより取得され分類するのに用いられる。
【選択図】図1
【解決手段】模範学習(EL)手順をトレーニングデータセットに適用し、メモリのサイズに適合する模範データセットを生成する。EL手順は、エントロピーベース模範学習(EBEL)手順と、高度ブロードバンド対応学習(ABEL)手順とから構成されるグループから選択される。模範データセットは、システムデータにより取得され分類するのに用いられる。
【選択図】図1
Description
本発明は、包括的にはデータの分類に関し、より詳細には限られたメモリを有するシステムにおけるデータの分類に関する。
データ分類
データ分類は、或るデータ項目から抽出される何らかの定量的情報と、既にラベリングされた項目のトレーニングセットとに基づいて所定のラベルをこのデータ項目に割り当てる。たとえば、電子メール分類システムは、特定の電子メールを、電子メールの内容と、「スパム」又は「非スパム」と知られている電子メールのトレーニングデータセットとに基づいて、「スパム」又は「非スパム」にラベリングすることができる。分類器の性能は、分類されるデータの特性に大きく依存する。全ての分類問題に対して最良に動作する単一の分類器は存在しない。性能はまた、トレーニングデータの質に依存する。良好にトレーニングされる分類器は、様々な特性を有するラベリングされたサンプルを有する、大規模なトレーニングデータセットを必要とする。
データ分類は、或るデータ項目から抽出される何らかの定量的情報と、既にラベリングされた項目のトレーニングセットとに基づいて所定のラベルをこのデータ項目に割り当てる。たとえば、電子メール分類システムは、特定の電子メールを、電子メールの内容と、「スパム」又は「非スパム」と知られている電子メールのトレーニングデータセットとに基づいて、「スパム」又は「非スパム」にラベリングすることができる。分類器の性能は、分類されるデータの特性に大きく依存する。全ての分類問題に対して最良に動作する単一の分類器は存在しない。性能はまた、トレーニングデータの質に依存する。良好にトレーニングされる分類器は、様々な特性を有するラベリングされたサンプルを有する、大規模なトレーニングデータセットを必要とする。
分類器は、データ項目から情報を抽出するのに使用される数学的モデル、トレーニングデータの量、及びモデルの計算量に基づいて様々であり得る。分類器の選択は多くの場合、データ特性と、たとえばCPU使用量及びメモリ要件のような、自身の計算資源要件とに依存する。たとえば、幾つかの分類器は、カテゴリ化の結果がリアルタイムで必要とされる場合に適切でない場合がある。
組み込みシステム
組み込みシステムは通常、或る他の装置又は機械に一体化される。組み込みシステムは、専用機能を多くの場合リアルタイムで実行するように設計されることがある。組み込みシステムは、ポータブルビデオプレーヤ、カメラ、信号機、工場のコントローラ、及び監視システムのような多数の装置に普及している。多数の組み込みシステムが専用機能を実行するため、組み込みシステムは、サイズ、コスト、信頼性、及び性能に関して最適化される場合がある。
組み込みシステムは通常、或る他の装置又は機械に一体化される。組み込みシステムは、専用機能を多くの場合リアルタイムで実行するように設計されることがある。組み込みシステムは、ポータブルビデオプレーヤ、カメラ、信号機、工場のコントローラ、及び監視システムのような多数の装置に普及している。多数の組み込みシステムが専用機能を実行するため、組み込みシステムは、サイズ、コスト、信頼性、及び性能に関して最適化される場合がある。
センサを備えると共に分類を実行する組み込みシステムは、トレーニングデータを使用してトレーニングすることができる。トレーニングされた組み込みシステムは、機能及び性能が向上し得る。たとえば、カメラ上の分類器は、「立入禁止」監視エリア内での侵入者の存在を警告することができる。しかしながら、組み込みシステムは典型的には、メモリが限られており、大規模なトレーニングデータセットを記憶することができない。
メモリが限られているという問題に対する1つの解決策は、有効な分類に十分な、トレーニングデータから入念に選択される少量の「模範」のみを記憶するということである。本明細書で定義される場合、模範は、或る大規模なトレーニングデータセットの特徴を示すサンプルデータである。
模範学習(EL)方法
模範学習(EL)方法を使用して、トレーニングデータの小規模なセットを大規模なトレーニングデータセットから選択することができる。ELは、その名前が暗示しているように、模範によって学習する。すなわち、分類器のエラー率を低減する「良好な」サンプルを保持し、「劣った」サンプルを破棄する。したがって、ELを使用して、メモリが限られている組み込みシステム内のメモリベース分類器のために、小規模なトレーニングデータセットを生成することができる。
模範学習(EL)方法を使用して、トレーニングデータの小規模なセットを大規模なトレーニングデータセットから選択することができる。ELは、その名前が暗示しているように、模範によって学習する。すなわち、分類器のエラー率を低減する「良好な」サンプルを保持し、「劣った」サンプルを破棄する。したがって、ELを使用して、メモリが限られている組み込みシステム内のメモリベース分類器のために、小規模なトレーニングデータセットを生成することができる。
従来のEL方法は、或る近傍構造に基づいて模範を学習する。そして、この方法は、従来の誤分類率を使用して、サンプルが除去されることによる性能の損益を測定する。
EL方法は、サンプルが処理されるのにつれて、連続してトレーニングデータセットを調整することができる、すなわち、良好な新しいサンプルを保持して、劣った新しいサンプルを破棄する。したがって、分類器は、組み込みシステムが動作する環境の変化に対して動的に適応することができる。ほぼ全てのEL方法は、以下の仮説に基づいてサンプルを破棄する。
仮説0(H0):所与のトレーニングデータセット内でのサンプルの除去が、残りのサンプルの誤分類又はエラー率を増大しない場合、サンプルを破棄することができる。
EL方法は幾つかの欠点を有する。
インクリメンタル更新
従来のEL方法は、計算集約的であり、オフラインであり、且つ全くインクリメンタルでない。従来のEL方法は、トレーニングデータセット全体が、模範EL方法の実行全体を通じてメモリに記憶されることを必要とする。これは、これらの方法を、メモリが限られており且つトレーニングデータが定期的に更新される組み込みシステムに適用不可能にする。
従来のEL方法は、計算集約的であり、オフラインであり、且つ全くインクリメンタルでない。従来のEL方法は、トレーニングデータセット全体が、模範EL方法の実行全体を通じてメモリに記憶されることを必要とする。これは、これらの方法を、メモリが限られており且つトレーニングデータが定期的に更新される組み込みシステムに適用不可能にする。
クラス不均衡
仮説H0において使用される誤分類率は、クラス不均衡に鈍感である。この問題は、サンプルの除去がクラス集合を変化させるELにおいて重大である。たとえば、90個の正クラスサンプル及び10個の負クラスサンプルを有するセットにおいて、1つの正クラスサンプルを除去することは、9回の正サンプル誤分類及び1回の負サンプル誤分類をもたらし、一方、1つの負サンプルを破棄することは、1回の正サンプル誤分類及び9回の負サンプル誤分類をもたらす。
仮説H0において使用される誤分類率は、クラス不均衡に鈍感である。この問題は、サンプルの除去がクラス集合を変化させるELにおいて重大である。たとえば、90個の正クラスサンプル及び10個の負クラスサンプルを有するセットにおいて、1つの正クラスサンプルを除去することは、9回の正サンプル誤分類及び1回の負サンプル誤分類をもたらし、一方、1つの負サンプルを破棄することは、1回の正サンプル誤分類及び9回の負サンプル誤分類をもたらす。
エラー率が両方の場合で同じである、すなわち10%であるため、クラス不均衡によって、負サンプルが破棄されて、正クラスサンプルのみがトレーニングデータセット内に残るおそれがある。
より良好な結果を生成するために、全体の分類精度とは対照的な、2つのクラスを区別する分類器の能力の推定値を提供するEL方法を有することが望ましい。
順序除去
順序除去手順のほとんどは、アドホックであるか、又は、サイズが実行時間中に確定されるトレーニングデータセットを返す。これらの方法は、サンプルの順序除去を無視し、それによって所与のメモリサイズに最良のトレーニングデータセットを発見する。典型的には組み込みシステムにおいて見られるような所定のメモリサイズ制約を満たす最適なトレーニングデータセットを生成するEL方法を有することが望ましい。
順序除去手順のほとんどは、アドホックであるか、又は、サイズが実行時間中に確定されるトレーニングデータセットを返す。これらの方法は、サンプルの順序除去を無視し、それによって所与のメモリサイズに最良のトレーニングデータセットを発見する。典型的には組み込みシステムにおいて見られるような所定のメモリサイズ制約を満たす最適なトレーニングデータセットを生成するEL方法を有することが望ましい。
検証整合性
従来のEL方法は、トレーニングデータセット内に残っているサンプルの分類エラー率が増大しない場合、サンプルを除去する。したがって、サンプルは2重の役割を果たす。すなわち、サンプルは、トレーニングデータセットの更新、及び分類されるセットの検定の両方に参加する。除去が進行するにつれて、トレーニングデータセットのサイズ及び性質が動的に変化し、したがって、一貫していなく且つ統計的有意性がより低い異なるセットにわたってエラー率が求められる。除去プロセス中に変化しないトレーニングデータセットとは互いに素である別個の検証データセットを有することが望ましい。
従来のEL方法は、トレーニングデータセット内に残っているサンプルの分類エラー率が増大しない場合、サンプルを除去する。したがって、サンプルは2重の役割を果たす。すなわち、サンプルは、トレーニングデータセットの更新、及び分類されるセットの検定の両方に参加する。除去が進行するにつれて、トレーニングデータセットのサイズ及び性質が動的に変化し、したがって、一貫していなく且つ統計的有意性がより低い異なるセットにわたってエラー率が求められる。除去プロセス中に変化しないトレーニングデータセットとは互いに素である別個の検証データセットを有することが望ましい。
本発明の実施の形態は、データサンプルを分類する方法及びシステムを提供する。より詳細には、サンプルは、メモリが限られている組み込みシステム内のセンサによって検知される。したがって、この方法は、メモリのサイズに一致している所定のサイズの模範データセットを構築する。
一実施の形態では、この方法は、トレーニング中に変化しないままであるトレーニングデータセットと、このトレーニングデータセットとは互いに素である検証データセットとを使用する。
本発明の一実施の形態は、エントロピーベース模範学習(EBEL)手順を使用する。EBEL手順は、エラー率を使用する代わりに、トレーニングデータセットの情報内容に基づいてトレーニングデータセットからサンプルのインスタンスを除去する。
アドホック順位付けスキームを使用する代わりに、EBEL手順は、除去することによってクラス指示変数の条件付エントロピーの低減が最小化するトレーニングデータインスタンスを除去する。これによって、情報の損失が最小化される。EBEL方法は、低い計算オーバヘッドを有し、順序除去を提供し、クラス不均衡に敏感ではない。
本発明の別の実施の形態は、高度ブロードバンド対応学習(advanced broadband enabled learning)(ABEL)手順を使用して、受信者動作特性曲線下面積(AUC)を使用し、ABEL手順はAUCの成果(performance)に基づいてサンプルを除去する。ABEL手順は、検証データセットを使用し、サンプルの除去が検証データセットにわたって求められるAUCを低減しない場合に当該サンプルを除去する。
本発明の実施の形態は、模範データセットを求めるためのEBEL手順及びABEL手順を記載し、これらの手順は、メモリが限られている組み込みシステムにおけるデータ分類に使用することができる。EBEL手順及びABEL手順は、新しいトレーニングデータセットによって効率的に更新することができると同時に、任意のユーザ定義サイズを有する高品質模範データセットを維持する。
図1は、本発明の実施の形態による模範学習(EL)を使用して入力信号101を分類する方法及びシステム100を示す。システムは、或る他の機械又は装置105内に組み込まれるか、又は依存せずに動作することができる。システム100は、限られたサイズのメモリ130を有する。入力信号101を、リアルタイムでセンサ110によって取得し、分類する(140)。
センサ110は、信号101を環境103から取得する。本発明において、用語「環境」は概して、検知することができるあらゆるもの、たとえば温度、圧力、湿度、気体、液体、固体、機械、音響及びEM波形、カメラ画像等を意味するように使用される。典型的には、環境は、システム100が組み込まれる装置105の動作に関連する。センサはデータ102を生成する。
データ102を、分類して(140)、データ分類出力145を生成する。データ分類140は、プロセッサ150によって実行することができる。データ分類140は、模範データセット135を使用して、データ102を分類する。模範データセット135は、サイズが限られているメモリ130、すなわち所定の小さいサイズを有するメモリ内に記憶される。したがって、模範データセット135のサイズは、メモリのサイズに従ってメモリ130に適合するようになっている。
模範データセットを求めること
図2は、本発明の一実施の形態に従って模範データセット135を求める方法及びシステム200のブロック図を示す。模範データセット135はさらに、データ分類140のための方法及びシステム100において利用される。
図2は、本発明の一実施の形態に従って模範データセット135を求める方法及びシステム200のブロック図を示す。模範データセット135はさらに、データ分類140のための方法及びシステム100において利用される。
本発明の実施の形態は、模範データセット135を学習する(210)ために、エントロピーベースEL(EBEL)手順又はAUCベースEL(ABEL)手順を使用することができる。EL手順210は、システム100の限られたメモリサイズk 220に従って、トレーニングデータセット230から模範データセット135を学習する。
トレーニングデータセット230を、サンプルデータセット260及び現在の模範データセット250から求める(240)。本発明の一実施の形態では、本明細書で説明される場合、求めること(240)は、サンプルデータセット260と現在の模範データセット250とを組み合わせる。
サンプルデータセット260は、トレーニングデータセット230を求めるためのデータサンプルを含む。サンプルデータセット260は、幾つかのアプリケーションによって生成することができるか、又は、センサ110によって生成されるデータ102から構築することができる。サンプルデータセット260は1つ又は複数のデータサンプルを含むことができる。
システム及び方法200は、模範データセット135を開始及び更新する。開始中、現在の模範データセット250は空であり、トレーニングデータセット230は、サンプルデータセット260のみから求められる(240)。更新中、現在の模範データセット250は、前に求められた模範データセット135である。
従来のEL手順とは対照的に、トレーニングデータセット230を、前に得られたトレーニングデータセットを使用して求める必要はない。
パーゼンカーネル密度推定ベース(PKDE)分類器
本発明の分類器140は、パーゼンカーネル密度推定(PKDE)分類器を使用する。PKDE分類器は、非パラメトリックにランダム変数の確率密度関数(pdf)を推定する。しかしながら、本発明は、任意の分類器に関して一般化することもできる。
本発明の分類器140は、パーゼンカーネル密度推定(PKDE)分類器を使用する。PKDE分類器は、非パラメトリックにランダム変数の確率密度関数(pdf)を推定する。しかしながら、本発明は、任意の分類器に関して一般化することもできる。
所与のクラスc及びn個のサンプルから成るトレーニングセットSnに関して、サブセットZc nは以下の通りである。
PKDE分類器に関して、カーネル関数κは帯域幅λを有する。トレーニングサブセットSnに関して、クラスcに属するサンプルxの密度推定値fは以下の通りである。
ここで、yはZc n内のサンプル要素である。
各クラスの事前確率πn cは以下の通りである。
トレーニングデータセットSnが与えられると、特定のクラスcに属する任意のサンプルxの事後確立pを以下のように求めることができる。
2値分類問題では、2つのクラスがC+及びC−で表される場合、トレーニングデータセットSnが与えられると、サンプルxのメリットスコア(merit score)γn(x)は以下の通りである。
メリットスコアを使用して、受信者動作特性曲線下面積(AUC)又は閾値選択を使用して、分類の精度を分析することができる。
模範学習
本発明では、トレーニングデータセットを、
本発明では、トレーニングデータセットを、
となるように、
で表す。ここで、Nはトレーニングデータセット内のサンプル数である。n個のサンプルを有するトレーニングサブセットは、
且つ
となるようなSnである。トレーニングサブセットSnが与えられると、本発明の実施の形態は、Sn+1からSnへの移行における分類精度の低減が所定の閾値未満となるように、インクリメンタルに、除去されるサブセットを求める。
単純な従来の解決策は、全てのサブセットの全ての可能な組み合わせを発見し、最良の成果を有するサブセットを選択し、これは、計算量O(2N)を有する。
本発明の実施の形態は、SnからSn−1を効率的に得るインクリメンタル解決策を使用する。
エントロピーベース模範学習(EBEL)方法
トレーニングデータセット230内の各サンプル
トレーニングデータセット230内の各サンプル
に関して、EBELは、サブセット
をトレーニングデータセット230として且つxを検定サンプルとして使用して、クラス変数の条件付きエントロピー損失を求める。EBELは、条件付きエントロピーにおける低減が最小化されるように、選択を行い、選択されたサンプルを除去する。
Cがクラスであり、p(x)がトレーニングインスタンスxに関する事前確率であり、且つH(C|x)が、インスタンスxの存在を条件とするクラス変数のエントロピーである場合、EBELは以下に従って選択を行い、選択されたサンプルを除去する。
トレーニングデータセットは独立同一分布(I.I.D.)であるため、任意のサンプルインスタンスに関する事前確率p(x)は一定であり、無視することができる。分類器
の分類エラーは以下のように、条件付エントロピーによって下方の境界を形成される。
したがって、最小条件付エントロピーを有するサブセットを選択することは、分類精度を低減する可能性が最も低い。
本発明の実施の形態は、除去に最も適切な候補サンプルを効率的に求める。トレーニングデータセットの対ごとのカーネル値の和のみを記憶することによって、除去されるサンプルをO(N)時間内に発見することができる。
トレーニングサブセットSnが与えられると、以下のように、各サンプル
の、クラス内の全ての他のサンプルとのカーネル値の和を記憶する。
そして、各インスタンス
を有するクラス出力変数の条件付エントロピーを以下のように得ることができる。
インスタンスyを、式(6)を使用して除去のために選択する場合、v行列は以下のように更新することができる。
トレーニングデータセット230
に関して、カーネル帯域幅は、たとえば、平均2乗誤差(MSE)を最小化する従来の帯域幅最適化スキームを使用して得られる。サンプルの密度
がr次において連続し且つサンプルサイズと共に変化しない場合、MSEを最小化する最適な帯域幅λ(n)は以下のようにサンプルサイズnに関連する。
ここで、krはカーネル関数k(.)の特有の成分である。r=2の場合、サイズnのサンプルの最適な帯域幅は、
である。ここで、λ(N)は、サイズNのトレーニングデータセットを使用して得られる帯域幅であり、この帯域幅はMSEを最小化する。これは、サンプルサイズの変化に伴って著しい計算量で帯域幅最適化を繰り返すことを防止するが、帯域幅更新は依然として、式(10)におけるv行列の再計算を必要とする。帯域幅はn−0.2のようにサンプルサイズと共にゆっくりと変化するため、
のとき、v行列を定期的に更新する。ここで、Nlastは、最後の帯域幅更新が生じたときのサンプルのサイズであり、αは、ユーザ指定の感度パラメータである。
EBEL手順におけるインクリメンタルステップの計算量は、トレーニングデータセット230のサイズにおいて線形である。したがって、サイズNのトレーニングデータセット230からサイズkの模範データセット135を得るためのEBEL手順の実行時計算量は、O((N−k)α2N)である。
図3は、本発明の一実施の形態によるEBEL手順の擬似コードを示す。システムが既に分類140のための現在の模範データセット250
を使用しており且つサンプルデータセット260
によって更新されている場合、学習ステップ210におけるEBEL方法は、|S|=kとなるような模範データセット135 Sを発見する。所望の模範セットのサイズkはメモリ制約220によって左右される。
に対応する帯域幅値λはオフラインで得られる。初期段階中、
及び
と設定することによって、サイズkの模範データセット135をサンプルデータセット
から得る。
EBEL手順はまず、図3のステップ1に示されているように、現在の模範データセット250
及びサンプルデータセット260
の両方からのデータを結合し、これに応じて対応するカーネル帯域幅を更新する。
v行列を計算した後、EBEL手順は、サイズが所望の値kに達するまで、トレーニングデータセット230 Sのサイズを低減する。トレーニングデータセット230のインスタンスはステップ4〜8において1つずつ除去され、ステップ9〜12において、サンプルサイズが感度パラメータαによって可能にされるサイズよりも小さくなる場合、v行列が更新される。結果的に得られる模範データセット135 Sは、現在の模範データセット250
に取って代わり、検知されたデータ102を分類する(140)のに使用される。
AUCベース模範学習(ABEL)方法
ABEL手順は、一貫した検証データセットにわたるAUC成果と、保持されているサンプルとの間の依存関係に基づいて、トレーニングデータセットのサンプルを除去することによって検証整合性の問題に対処する。したがって、サンプルは、除去されない限りにおけるトレーニングサンプルの役割と、式(6)の条件付確率を求めるときの検定サンプルの役割とから成る2重の役割を有する。
ABEL手順は、一貫した検証データセットにわたるAUC成果と、保持されているサンプルとの間の依存関係に基づいて、トレーニングデータセットのサンプルを除去することによって検証整合性の問題に対処する。したがって、サンプルは、除去されない限りにおけるトレーニングサンプルの役割と、式(6)の条件付確率を求めるときの検定サンプルの役割とから成る2重の役割を有する。
ABEL手順の異なる段階において、成果が検証される、すなわち異なるデータセットに関してエントロピーが求められ、それによって結果の統計的有意性が低減する。
ABEL手順では、検証データセットは、除去動作の最初においてトレーニングデータセットから抽出され、トレーニングデータセットのサンプルは、AUC成果が低減し、除去数の結果として最小化されるように除去される。
となるように、トレーニングデータセット230 Sn及び検証データセットVが与えられると、ABEL手順は、以下に従ってサンプルxを除去する。
ここで、
は、検定のためにセットXを使用すると共にトレーニングデータセットとしてセットYを使用するAUC値である。ABEL手順は、任意の分類器に一般化される、単純な、しかし有効なELフレームワークを提供する。
検証データセット内のサンプルのメリットスコアが与えられると、
時間内で、実際にROC曲線を生成することなくAUCが求められる。しかしながら、サンプルの有限のセットの場合、AUCは、既知の正規化ウィルコクソン・マン・ホイットニー(WMW)統計値
に等しい。
ここで、
は正クラスのメリットスコアであり、
は
における負クラスサンプルのメリットスコアである。
この統計値は、2つのサンプルが同じ分布に由来するか否かを判定するために非パラメトリック検定を使用する。
統計値
は、P(Γ+>Γ−)の推定量である、すなわち、全ての正クラスサンプルが負クラスサンプルより高いメリットスコアを得る確率であり、全てのメリットスコアを、riがγ+ iの順位となるように非減少順にソートする場合、
は、以下にさらに簡約することができる。
式(15)は、検証データセットのメリットスコアが与えられると、AUC値を
時間内に求めることができることを示す。
が、分類器
が、トレーニングデータセット
を使用して検定サンプルを分類するのに要する時間である場合、ABELの実行時計算量は
である。
図4は、本発明の一実施の形態によるABEL手順の擬似コードを示している。ABEL手順はまず、検証データセットの部分サイズ(η)が入力パラメータとして与えられると、検証データセットをトレーニングデータ230から抽出し(ステップ2)、その後、トレーニングデータセット230の残りのサンプルからインスタンスを除去する(ステップ3〜6)。部分サイズ(η)の最適値は、メモリのサイズと、分類140の計算量とに依存する。サイズηの大きな値が結果的に高メモリオーバヘッドをもたらす一方、小さな値は、検証データセット要素のAUCスコアの統計的有用性を低減し、より劣ったインスタンス除去決定を結果的にもたらす。本発明の一実施の形態はη=0.1を使用する。
様々な他の適合及び変更を本発明の精神及び範囲内で行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全てのそのような適合及び変更を包含することである。
Claims (10)
- 限られたメモリを有するシステムにおいてデータを分類する方法であって、
トレーニングデータセットを求めるステップと、
データを記憶するためのメモリのサイズを取得するステップと、
模範学習(EL)手順を前記トレーニングデータセットに適用して、前記メモリの前記サイズに適合する模範データセットを生成するステップであって、前記EL手順は、エントロピーベース模範学習(EBEL)手順と、高度ブロードバンド対応学習(ABEL)手順とから構成されるグループから選択される、ステップと、
分類されるデータを取得するステップと、
前記データを前記模範データセットを使用して分類するステップと
を含む、方法。 - 前記求めるステップは、
現在の模範データセットを取得すること、
サンプルデータセットを取得すること、
前記現在の模範データセットと、前記サンプルデータセットとを結合して、トレーニングデータセットを生成すること
をさらに含む、請求項1に記載の方法。 - 前記現在の模範データセットは最初は空である、請求項2に記載の方法。
- 前記EBEL手順は、
前記トレーニングデータセットSn内の各サンプルxに関して、前記サンプルxを条件とするクラス変数Cの条件付きエントロピー損失H(C|x)を求めるステップと、
前記トレーニングデータセットSnから、前記条件付きエントロピーH(C|x)の最小損失を結果的にもたらす、選択されたサンプルを除去するステップと
をさらに含む、請求項1に記載の方法。 - 前記メモリ制約は、前記模範データセットのサイズkであり、前記方法は、前記トレーニングデータセットが前記サイズkに達するまで、前記条件付きエントロピー損失を求めることと前記サンプルxを除去することとを繰り返すことをさらに含む、請求項4に記載の方法。
- 前記条件付きエントロピー損失を求めるステップは、前記トレーニングデータセットの前記サンプルの対ごとのカーネル値を使用する、請求項4に記載の方法。
- 前記検証データセットのサイズは、前記トレーニングデータセットのサイズの0.1に等しい、請求項8に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/210,289 US8108325B2 (en) | 2008-09-15 | 2008-09-15 | Method and system for classifying data in system with limited memory |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010067259A true JP2010067259A (ja) | 2010-03-25 |
Family
ID=41398944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009126696A Pending JP2010067259A (ja) | 2008-09-15 | 2009-05-26 | 限られたメモリを有するシステムにおいてデータを分類する方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8108325B2 (ja) |
EP (1) | EP2196952A3 (ja) |
JP (1) | JP2010067259A (ja) |
CN (1) | CN101676912A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014006795A (ja) * | 2012-06-26 | 2014-01-16 | Honda Motor Co Ltd | 記録可否判定装置、記録可否判定方法、及びプログラム |
US9323886B2 (en) | 2012-06-26 | 2016-04-26 | Honda Motor Co., Ltd. | Performance predicting apparatus, performance predicting method, and program |
JP2017508210A (ja) * | 2014-02-07 | 2017-03-23 | サイランス・インコーポレイテッドCylance Inc. | 識別のためのアンサンブル機械学習を利用するアプリケーション実行コントロール |
JP2019508775A (ja) * | 2015-12-24 | 2019-03-28 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 関連履歴の長さを決定するためのデバイス及び方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395551A (zh) * | 2019-08-15 | 2021-02-23 | 上海游昆信息技术有限公司 | 一种逻辑回归的优化方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167156A (en) * | 1996-07-12 | 2000-12-26 | The United States Of America As Represented By The Secretary Of The Navy | Compression of hyperdata with ORASIS multisegment pattern sets (CHOMPS) |
US6035057A (en) * | 1997-03-10 | 2000-03-07 | Hoffman; Efrem H. | Hierarchical data matrix pattern recognition and identification system |
WO2007064874A2 (en) * | 2005-12-01 | 2007-06-07 | Adchemy, Inc. | Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy |
US7788195B1 (en) * | 2006-03-24 | 2010-08-31 | Sas Institute Inc. | Computer-implemented predictive model generation systems and methods |
-
2008
- 2008-09-15 US US12/210,289 patent/US8108325B2/en not_active Expired - Fee Related
-
2009
- 2009-05-26 JP JP2009126696A patent/JP2010067259A/ja active Pending
- 2009-07-22 EP EP09009518A patent/EP2196952A3/en not_active Withdrawn
- 2009-08-03 CN CN200910166917A patent/CN101676912A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014006795A (ja) * | 2012-06-26 | 2014-01-16 | Honda Motor Co Ltd | 記録可否判定装置、記録可否判定方法、及びプログラム |
US9323886B2 (en) | 2012-06-26 | 2016-04-26 | Honda Motor Co., Ltd. | Performance predicting apparatus, performance predicting method, and program |
JP2017508210A (ja) * | 2014-02-07 | 2017-03-23 | サイランス・インコーポレイテッドCylance Inc. | 識別のためのアンサンブル機械学習を利用するアプリケーション実行コントロール |
JP2019508775A (ja) * | 2015-12-24 | 2019-03-28 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 関連履歴の長さを決定するためのデバイス及び方法 |
Also Published As
Publication number | Publication date |
---|---|
US20100094783A1 (en) | 2010-04-15 |
EP2196952A3 (en) | 2010-09-01 |
US8108325B2 (en) | 2012-01-31 |
CN101676912A (zh) | 2010-03-24 |
EP2196952A2 (en) | 2010-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10209974B1 (en) | Automated model management methods | |
US10783454B2 (en) | Scalable-effort classifiers for energy-efficient machine learning | |
CN110852983B (zh) | 用于检测半导体装置中的缺陷的方法 | |
Drolia et al. | Cachier: Edge-caching for recognition applications | |
US10223615B2 (en) | Learning based defect classification | |
US20220108157A1 (en) | Hardware architecture for introducing activation sparsity in neural network | |
US20150170053A1 (en) | Personalized machine learning models | |
US20150242760A1 (en) | Personalized Machine Learning System | |
US9037518B2 (en) | Classifying unclassified samples | |
US9842279B2 (en) | Data processing method for learning discriminator, and data processing apparatus therefor | |
JP2010231768A (ja) | マルチクラス分類器をトレーニングする方法 | |
US20210216831A1 (en) | Efficient Machine Learning (ML) Model for Classification | |
JP2010067259A (ja) | 限られたメモリを有するシステムにおいてデータを分類する方法 | |
Anukrishna et al. | A review on feature selection for high dimensional data | |
JP7268756B2 (ja) | 劣化抑制プログラム、劣化抑制方法および情報処理装置 | |
US20170132516A1 (en) | Adaptive sampling scheme for imbalanced large scale data | |
US20140279734A1 (en) | Performing Cross-Validation Using Non-Randomly Selected Cases | |
WO2020185101A1 (en) | Hybrid machine learning system and method | |
US9053434B2 (en) | Determining an obverse weight | |
Palli et al. | Online Machine Learning from Non-stationary Data Streams in the Presence of Concept Drift and Class Imbalance: A Systematic Review | |
US20100005043A1 (en) | Active learning system, active learning method and program for active learning | |
Tomani et al. | Beyond in-domain scenarios: robust density-aware calibration | |
Mohammadi et al. | Predictive Sampling for Efficient Pairwise Subjective Image Quality Assessment | |
US20230186150A1 (en) | Hyperparameter selection using budget-aware bayesian optimization | |
US10372719B2 (en) | Episode mining device, method and non-transitory computer readable medium of the same |