JP2010067259A - 限られたメモリを有するシステムにおいてデータを分類する方法 - Google Patents

限られたメモリを有するシステムにおいてデータを分類する方法 Download PDF

Info

Publication number
JP2010067259A
JP2010067259A JP2009126696A JP2009126696A JP2010067259A JP 2010067259 A JP2010067259 A JP 2010067259A JP 2009126696 A JP2009126696 A JP 2009126696A JP 2009126696 A JP2009126696 A JP 2009126696A JP 2010067259 A JP2010067259 A JP 2010067259A
Authority
JP
Japan
Prior art keywords
data set
training data
sample
size
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009126696A
Other languages
English (en)
Inventor
Ankur Jain
アンカー・ジェイン
Daniel N Nikovski
ダニエル・エヌ・ニコヴスキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2010067259A publication Critical patent/JP2010067259A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】限られたメモリを有するシステムにおいて、トレーニングデータセットを使用してデータを分類する。
【解決手段】模範学習(EL)手順をトレーニングデータセットに適用し、メモリのサイズに適合する模範データセットを生成する。EL手順は、エントロピーベース模範学習(EBEL)手順と、高度ブロードバンド対応学習(ABEL)手順とから構成されるグループから選択される。模範データセットは、システムデータにより取得され分類するのに用いられる。
【選択図】図1

Description

本発明は、包括的にはデータの分類に関し、より詳細には限られたメモリを有するシステムにおけるデータの分類に関する。
データ分類
データ分類は、或るデータ項目から抽出される何らかの定量的情報と、既にラベリングされた項目のトレーニングセットとに基づいて所定のラベルをこのデータ項目に割り当てる。たとえば、電子メール分類システムは、特定の電子メールを、電子メールの内容と、「スパム」又は「非スパム」と知られている電子メールのトレーニングデータセットとに基づいて、「スパム」又は「非スパム」にラベリングすることができる。分類器の性能は、分類されるデータの特性に大きく依存する。全ての分類問題に対して最良に動作する単一の分類器は存在しない。性能はまた、トレーニングデータの質に依存する。良好にトレーニングされる分類器は、様々な特性を有するラベリングされたサンプルを有する、大規模なトレーニングデータセットを必要とする。
分類器は、データ項目から情報を抽出するのに使用される数学的モデル、トレーニングデータの量、及びモデルの計算量に基づいて様々であり得る。分類器の選択は多くの場合、データ特性と、たとえばCPU使用量及びメモリ要件のような、自身の計算資源要件とに依存する。たとえば、幾つかの分類器は、カテゴリ化の結果がリアルタイムで必要とされる場合に適切でない場合がある。
組み込みシステム
組み込みシステムは通常、或る他の装置又は機械に一体化される。組み込みシステムは、専用機能を多くの場合リアルタイムで実行するように設計されることがある。組み込みシステムは、ポータブルビデオプレーヤ、カメラ、信号機、工場のコントローラ、及び監視システムのような多数の装置に普及している。多数の組み込みシステムが専用機能を実行するため、組み込みシステムは、サイズ、コスト、信頼性、及び性能に関して最適化される場合がある。
センサを備えると共に分類を実行する組み込みシステムは、トレーニングデータを使用してトレーニングすることができる。トレーニングされた組み込みシステムは、機能及び性能が向上し得る。たとえば、カメラ上の分類器は、「立入禁止」監視エリア内での侵入者の存在を警告することができる。しかしながら、組み込みシステムは典型的には、メモリが限られており、大規模なトレーニングデータセットを記憶することができない。
メモリが限られているという問題に対する1つの解決策は、有効な分類に十分な、トレーニングデータから入念に選択される少量の「模範」のみを記憶するということである。本明細書で定義される場合、模範は、或る大規模なトレーニングデータセットの特徴を示すサンプルデータである。
模範学習(EL)方法
模範学習(EL)方法を使用して、トレーニングデータの小規模なセットを大規模なトレーニングデータセットから選択することができる。ELは、その名前が暗示しているように、模範によって学習する。すなわち、分類器のエラー率を低減する「良好な」サンプルを保持し、「劣った」サンプルを破棄する。したがって、ELを使用して、メモリが限られている組み込みシステム内のメモリベース分類器のために、小規模なトレーニングデータセットを生成することができる。
従来のEL方法は、或る近傍構造に基づいて模範を学習する。そして、この方法は、従来の誤分類率を使用して、サンプルが除去されることによる性能の損益を測定する。
EL方法は、サンプルが処理されるのにつれて、連続してトレーニングデータセットを調整することができる、すなわち、良好な新しいサンプルを保持して、劣った新しいサンプルを破棄する。したがって、分類器は、組み込みシステムが動作する環境の変化に対して動的に適応することができる。ほぼ全てのEL方法は、以下の仮説に基づいてサンプルを破棄する。
仮説0(H):所与のトレーニングデータセット内でのサンプルの除去が、残りのサンプルの誤分類又はエラー率を増大しない場合、サンプルを破棄することができる。
EL方法は幾つかの欠点を有する。
インクリメンタル更新
従来のEL方法は、計算集約的であり、オフラインであり、且つ全くインクリメンタルでない。従来のEL方法は、トレーニングデータセット全体が、模範EL方法の実行全体を通じてメモリに記憶されることを必要とする。これは、これらの方法を、メモリが限られており且つトレーニングデータが定期的に更新される組み込みシステムに適用不可能にする。
クラス不均衡
仮説Hにおいて使用される誤分類率は、クラス不均衡に鈍感である。この問題は、サンプルの除去がクラス集合を変化させるELにおいて重大である。たとえば、90個の正クラスサンプル及び10個の負クラスサンプルを有するセットにおいて、1つの正クラスサンプルを除去することは、9回の正サンプル誤分類及び1回の負サンプル誤分類をもたらし、一方、1つの負サンプルを破棄することは、1回の正サンプル誤分類及び9回の負サンプル誤分類をもたらす。
エラー率が両方の場合で同じである、すなわち10%であるため、クラス不均衡によって、負サンプルが破棄されて、正クラスサンプルのみがトレーニングデータセット内に残るおそれがある。
より良好な結果を生成するために、全体の分類精度とは対照的な、2つのクラスを区別する分類器の能力の推定値を提供するEL方法を有することが望ましい。
順序除去
順序除去手順のほとんどは、アドホックであるか、又は、サイズが実行時間中に確定されるトレーニングデータセットを返す。これらの方法は、サンプルの順序除去を無視し、それによって所与のメモリサイズに最良のトレーニングデータセットを発見する。典型的には組み込みシステムにおいて見られるような所定のメモリサイズ制約を満たす最適なトレーニングデータセットを生成するEL方法を有することが望ましい。
検証整合性
従来のEL方法は、トレーニングデータセット内に残っているサンプルの分類エラー率が増大しない場合、サンプルを除去する。したがって、サンプルは2重の役割を果たす。すなわち、サンプルは、トレーニングデータセットの更新、及び分類されるセットの検定の両方に参加する。除去が進行するにつれて、トレーニングデータセットのサイズ及び性質が動的に変化し、したがって、一貫していなく且つ統計的有意性がより低い異なるセットにわたってエラー率が求められる。除去プロセス中に変化しないトレーニングデータセットとは互いに素である別個の検証データセットを有することが望ましい。
本発明の実施の形態は、データサンプルを分類する方法及びシステムを提供する。より詳細には、サンプルは、メモリが限られている組み込みシステム内のセンサによって検知される。したがって、この方法は、メモリのサイズに一致している所定のサイズの模範データセットを構築する。
一実施の形態では、この方法は、トレーニング中に変化しないままであるトレーニングデータセットと、このトレーニングデータセットとは互いに素である検証データセットとを使用する。
本発明の一実施の形態は、エントロピーベース模範学習(EBEL)手順を使用する。EBEL手順は、エラー率を使用する代わりに、トレーニングデータセットの情報内容に基づいてトレーニングデータセットからサンプルのインスタンスを除去する。
アドホック順位付けスキームを使用する代わりに、EBEL手順は、除去することによってクラス指示変数の条件付エントロピーの低減が最小化するトレーニングデータインスタンスを除去する。これによって、情報の損失が最小化される。EBEL方法は、低い計算オーバヘッドを有し、順序除去を提供し、クラス不均衡に敏感ではない。
本発明の別の実施の形態は、高度ブロードバンド対応学習(advanced broadband enabled learning)(ABEL)手順を使用して、受信者動作特性曲線下面積(AUC)を使用し、ABEL手順はAUCの成果(performance)に基づいてサンプルを除去する。ABEL手順は、検証データセットを使用し、サンプルの除去が検証データセットにわたって求められるAUCを低減しない場合に当該サンプルを除去する。
本発明の実施の形態は、模範データセットを求めるためのEBEL手順及びABEL手順を記載し、これらの手順は、メモリが限られている組み込みシステムにおけるデータ分類に使用することができる。EBEL手順及びABEL手順は、新しいトレーニングデータセットによって効率的に更新することができると同時に、任意のユーザ定義サイズを有する高品質模範データセットを維持する。
本発明の実施の形態による、データを分類する方法及びシステムのブロック図である。 本発明の一実施の形態による、模範データセットを求める方法及びシステムのブロック図である。 本発明の一実施の形態による、EBEL手順の擬似コードである。 本発明の一実施の形態による、ABEL手順の擬似コードである。
図1は、本発明の実施の形態による模範学習(EL)を使用して入力信号101を分類する方法及びシステム100を示す。システムは、或る他の機械又は装置105内に組み込まれるか、又は依存せずに動作することができる。システム100は、限られたサイズのメモリ130を有する。入力信号101を、リアルタイムでセンサ110によって取得し、分類する(140)。
センサ110は、信号101を環境103から取得する。本発明において、用語「環境」は概して、検知することができるあらゆるもの、たとえば温度、圧力、湿度、気体、液体、固体、機械、音響及びEM波形、カメラ画像等を意味するように使用される。典型的には、環境は、システム100が組み込まれる装置105の動作に関連する。センサはデータ102を生成する。
データ102を、分類して(140)、データ分類出力145を生成する。データ分類140は、プロセッサ150によって実行することができる。データ分類140は、模範データセット135を使用して、データ102を分類する。模範データセット135は、サイズが限られているメモリ130、すなわち所定の小さいサイズを有するメモリ内に記憶される。したがって、模範データセット135のサイズは、メモリのサイズに従ってメモリ130に適合するようになっている。
模範データセットを求めること
図2は、本発明の一実施の形態に従って模範データセット135を求める方法及びシステム200のブロック図を示す。模範データセット135はさらに、データ分類140のための方法及びシステム100において利用される。
本発明の実施の形態は、模範データセット135を学習する(210)ために、エントロピーベースEL(EBEL)手順又はAUCベースEL(ABEL)手順を使用することができる。EL手順210は、システム100の限られたメモリサイズk 220に従って、トレーニングデータセット230から模範データセット135を学習する。
トレーニングデータセット230を、サンプルデータセット260及び現在の模範データセット250から求める(240)。本発明の一実施の形態では、本明細書で説明される場合、求めること(240)は、サンプルデータセット260と現在の模範データセット250とを組み合わせる。
サンプルデータセット260は、トレーニングデータセット230を求めるためのデータサンプルを含む。サンプルデータセット260は、幾つかのアプリケーションによって生成することができるか、又は、センサ110によって生成されるデータ102から構築することができる。サンプルデータセット260は1つ又は複数のデータサンプルを含むことができる。
システム及び方法200は、模範データセット135を開始及び更新する。開始中、現在の模範データセット250は空であり、トレーニングデータセット230は、サンプルデータセット260のみから求められる(240)。更新中、現在の模範データセット250は、前に求められた模範データセット135である。
従来のEL手順とは対照的に、トレーニングデータセット230を、前に得られたトレーニングデータセットを使用して求める必要はない。
パーゼンカーネル密度推定ベース(PKDE)分類器
本発明の分類器140は、パーゼンカーネル密度推定(PKDE)分類器を使用する。PKDE分類器は、非パラメトリックにランダム変数の確率密度関数(pdf)を推定する。しかしながら、本発明は、任意の分類器に関して一般化することもできる。
所与のクラスc及びn個のサンプルから成るトレーニングセットSに関して、サブセットZ は以下の通りである。
Figure 2010067259
PKDE分類器に関して、カーネル関数κは帯域幅λを有する。トレーニングサブセットSに関して、クラスcに属するサンプルxの密度推定値fは以下の通りである。
Figure 2010067259
ここで、yはZ 内のサンプル要素である。
各クラスの事前確率π は以下の通りである。
Figure 2010067259
トレーニングデータセットSが与えられると、特定のクラスcに属する任意のサンプルxの事後確立pを以下のように求めることができる。
Figure 2010067259
2値分類問題では、2つのクラスがC及びCで表される場合、トレーニングデータセットSが与えられると、サンプルxのメリットスコア(merit score)γ(x)は以下の通りである。
Figure 2010067259
メリットスコアを使用して、受信者動作特性曲線下面積(AUC)又は閾値選択を使用して、分類の精度を分析することができる。
模範学習
本発明では、トレーニングデータセットを、
Figure 2010067259
となるように、
Figure 2010067259
で表す。ここで、Nはトレーニングデータセット内のサンプル数である。n個のサンプルを有するトレーニングサブセットは、
Figure 2010067259
且つ
Figure 2010067259
となるようなSである。トレーニングサブセットSが与えられると、本発明の実施の形態は、S+1からSへの移行における分類精度の低減が所定の閾値未満となるように、インクリメンタルに、除去されるサブセットを求める。
Figure 2010067259
単純な従来の解決策は、全てのサブセットの全ての可能な組み合わせを発見し、最良の成果を有するサブセットを選択し、これは、計算量O(2)を有する。
本発明の実施の形態は、SからSn−1を効率的に得るインクリメンタル解決策を使用する。
エントロピーベース模範学習(EBEL)方法
トレーニングデータセット230内の各サンプル
Figure 2010067259
に関して、EBELは、サブセット
Figure 2010067259
をトレーニングデータセット230として且つxを検定サンプルとして使用して、クラス変数の条件付きエントロピー損失を求める。EBELは、条件付きエントロピーにおける低減が最小化されるように、選択を行い、選択されたサンプルを除去する。
Cがクラスであり、p(x)がトレーニングインスタンスxに関する事前確率であり、且つH(C|x)が、インスタンスxの存在を条件とするクラス変数のエントロピーである場合、EBELは以下に従って選択を行い、選択されたサンプルを除去する。
Figure 2010067259
トレーニングデータセットは独立同一分布(I.I.D.)であるため、任意のサンプルインスタンスに関する事前確率p(x)は一定であり、無視することができる。分類器
Figure 2010067259
の分類エラーは以下のように、条件付エントロピーによって下方の境界を形成される。
Figure 2010067259
したがって、最小条件付エントロピーを有するサブセットを選択することは、分類精度を低減する可能性が最も低い。
本発明の実施の形態は、除去に最も適切な候補サンプルを効率的に求める。トレーニングデータセットの対ごとのカーネル値の和のみを記憶することによって、除去されるサンプルをO(N)時間内に発見することができる。
トレーニングサブセットSが与えられると、以下のように、各サンプル
Figure 2010067259
の、クラス内の全ての他のサンプルとのカーネル値の和を記憶する。
Figure 2010067259
そして、各インスタンス
Figure 2010067259
を有するクラス出力変数の条件付エントロピーを以下のように得ることができる。
Figure 2010067259
インスタンスyを、式(6)を使用して除去のために選択する場合、v行列は以下のように更新することができる。
Figure 2010067259
トレーニングデータセット230
Figure 2010067259
に関して、カーネル帯域幅は、たとえば、平均2乗誤差(MSE)を最小化する従来の帯域幅最適化スキームを使用して得られる。サンプルの密度
Figure 2010067259
がr次において連続し且つサンプルサイズと共に変化しない場合、MSEを最小化する最適な帯域幅λ(n)は以下のようにサンプルサイズnに関連する。
Figure 2010067259
ここで、kはカーネル関数k(.)の特有の成分である。r=2の場合、サイズnのサンプルの最適な帯域幅は、
Figure 2010067259
である。ここで、λ(N)は、サイズNのトレーニングデータセットを使用して得られる帯域幅であり、この帯域幅はMSEを最小化する。これは、サンプルサイズの変化に伴って著しい計算量で帯域幅最適化を繰り返すことを防止するが、帯域幅更新は依然として、式(10)におけるv行列の再計算を必要とする。帯域幅はn−0.2のようにサンプルサイズと共にゆっくりと変化するため、
Figure 2010067259
のとき、v行列を定期的に更新する。ここで、Nlastは、最後の帯域幅更新が生じたときのサンプルのサイズであり、αは、ユーザ指定の感度パラメータである。
EBEL手順におけるインクリメンタルステップの計算量は、トレーニングデータセット230のサイズにおいて線形である。したがって、サイズNのトレーニングデータセット230からサイズkの模範データセット135を得るためのEBEL手順の実行時計算量は、O((N−k)αN)である。
図3は、本発明の一実施の形態によるEBEL手順の擬似コードを示す。システムが既に分類140のための現在の模範データセット250
Figure 2010067259
を使用しており且つサンプルデータセット260
Figure 2010067259
によって更新されている場合、学習ステップ210におけるEBEL方法は、|S|=kとなるような模範データセット135 Sを発見する。所望の模範セットのサイズkはメモリ制約220によって左右される。
Figure 2010067259
に対応する帯域幅値λはオフラインで得られる。初期段階中、
Figure 2010067259
及び
Figure 2010067259
と設定することによって、サイズkの模範データセット135をサンプルデータセット
Figure 2010067259
から得る。
EBEL手順はまず、図3のステップ1に示されているように、現在の模範データセット250
Figure 2010067259
及びサンプルデータセット260
Figure 2010067259
の両方からのデータを結合し、これに応じて対応するカーネル帯域幅を更新する。
v行列を計算した後、EBEL手順は、サイズが所望の値kに達するまで、トレーニングデータセット230 Sのサイズを低減する。トレーニングデータセット230のインスタンスはステップ4〜8において1つずつ除去され、ステップ9〜12において、サンプルサイズが感度パラメータαによって可能にされるサイズよりも小さくなる場合、v行列が更新される。結果的に得られる模範データセット135 Sは、現在の模範データセット250
Figure 2010067259
に取って代わり、検知されたデータ102を分類する(140)のに使用される。
AUCベース模範学習(ABEL)方法
ABEL手順は、一貫した検証データセットにわたるAUC成果と、保持されているサンプルとの間の依存関係に基づいて、トレーニングデータセットのサンプルを除去することによって検証整合性の問題に対処する。したがって、サンプルは、除去されない限りにおけるトレーニングサンプルの役割と、式(6)の条件付確率を求めるときの検定サンプルの役割とから成る2重の役割を有する。
ABEL手順の異なる段階において、成果が検証される、すなわち異なるデータセットに関してエントロピーが求められ、それによって結果の統計的有意性が低減する。
ABEL手順では、検証データセットは、除去動作の最初においてトレーニングデータセットから抽出され、トレーニングデータセットのサンプルは、AUC成果が低減し、除去数の結果として最小化されるように除去される。
Figure 2010067259
となるように、トレーニングデータセット230 S及び検証データセットVが与えられると、ABEL手順は、以下に従ってサンプルxを除去する。
Figure 2010067259
ここで、
Figure 2010067259
は、検定のためにセットXを使用すると共にトレーニングデータセットとしてセットYを使用するAUC値である。ABEL手順は、任意の分類器に一般化される、単純な、しかし有効なELフレームワークを提供する。
検証データセット内のサンプルのメリットスコアが与えられると、
Figure 2010067259
時間内で、実際にROC曲線を生成することなくAUCが求められる。しかしながら、サンプルの有限のセットの場合、AUCは、既知の正規化ウィルコクソン・マン・ホイットニー(WMW)統計値
Figure 2010067259
に等しい。
Figure 2010067259
ここで、
Figure 2010067259
は正クラスのメリットスコアであり、
Figure 2010067259
Figure 2010067259
における負クラスサンプルのメリットスコアである。
この統計値は、2つのサンプルが同じ分布に由来するか否かを判定するために非パラメトリック検定を使用する。
統計値
Figure 2010067259
は、P(Γ>Γ)の推定量である、すなわち、全ての正クラスサンプルが負クラスサンプルより高いメリットスコアを得る確率であり、全てのメリットスコアを、rがγ の順位となるように非減少順にソートする場合、
Figure 2010067259
は、以下にさらに簡約することができる。
Figure 2010067259
式(15)は、検証データセットのメリットスコアが与えられると、AUC値を
Figure 2010067259
時間内に求めることができることを示す。
Figure 2010067259
が、分類器
Figure 2010067259
が、トレーニングデータセット
Figure 2010067259
を使用して検定サンプルを分類するのに要する時間である場合、ABELの実行時計算量は
Figure 2010067259
である。
図4は、本発明の一実施の形態によるABEL手順の擬似コードを示している。ABEL手順はまず、検証データセットの部分サイズ(η)が入力パラメータとして与えられると、検証データセットをトレーニングデータ230から抽出し(ステップ2)、その後、トレーニングデータセット230の残りのサンプルからインスタンスを除去する(ステップ3〜6)。部分サイズ(η)の最適値は、メモリのサイズと、分類140の計算量とに依存する。サイズηの大きな値が結果的に高メモリオーバヘッドをもたらす一方、小さな値は、検証データセット要素のAUCスコアの統計的有用性を低減し、より劣ったインスタンス除去決定を結果的にもたらす。本発明の一実施の形態はη=0.1を使用する。
様々な他の適合及び変更を本発明の精神及び範囲内で行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全てのそのような適合及び変更を包含することである。

Claims (10)

  1. 限られたメモリを有するシステムにおいてデータを分類する方法であって、
    トレーニングデータセットを求めるステップと、
    データを記憶するためのメモリのサイズを取得するステップと、
    模範学習(EL)手順を前記トレーニングデータセットに適用して、前記メモリの前記サイズに適合する模範データセットを生成するステップであって、前記EL手順は、エントロピーベース模範学習(EBEL)手順と、高度ブロードバンド対応学習(ABEL)手順とから構成されるグループから選択される、ステップと、
    分類されるデータを取得するステップと、
    前記データを前記模範データセットを使用して分類するステップと
    を含む、方法。
  2. 前記求めるステップは、
    現在の模範データセットを取得すること、
    サンプルデータセットを取得すること、
    前記現在の模範データセットと、前記サンプルデータセットとを結合して、トレーニングデータセットを生成すること
    をさらに含む、請求項1に記載の方法。
  3. 前記現在の模範データセットは最初は空である、請求項2に記載の方法。
  4. 前記EBEL手順は、
    前記トレーニングデータセットS内の各サンプルxに関して、前記サンプルxを条件とするクラス変数Cの条件付きエントロピー損失H(C|x)を求めるステップと、
    前記トレーニングデータセットSから、前記条件付きエントロピーH(C|x)の最小損失を結果的にもたらす、選択されたサンプルを除去するステップと
    をさらに含む、請求項1に記載の方法。
  5. 前記選択されたサンプルは、
    Figure 2010067259
    に従って求められる、請求項4に記載の方法。
  6. 前記メモリ制約は、前記模範データセットのサイズkであり、前記方法は、前記トレーニングデータセットが前記サイズkに達するまで、前記条件付きエントロピー損失を求めることと前記サンプルxを除去することとを繰り返すことをさらに含む、請求項4に記載の方法。
  7. 前記条件付きエントロピー損失を求めるステップは、前記トレーニングデータセットの前記サンプルの対ごとのカーネル値を使用する、請求項4に記載の方法。
  8. 前記ABEL手順は、
    検証データセット
    Figure 2010067259
    を前記トレーニングデータセットから抽出するステップと、
    前記トレーニングデータセットS内の各サンプルxに関して、サブセット
    Figure 2010067259
    の受信者動作曲線下面積(AUC)を求めるステップと、
    前記トレーニングデータセットから、前記AUCの最小損失に対応するサンプルxを除去するステップと
    をさらに含む、請求項1に記載の方法。
  9. 前記除去するステップは
    Figure 2010067259
    に従い、ここで、
    Figure 2010067259
    は、前記検証データセット
    Figure 2010067259
    及び前記トレーニングデータセットSのサンプルxに関して求められる前記AUCであり、Sn−1は、前記除去するステップ後の新しいトレーニングデータセットである、請求項8に記載の方法。
  10. 前記検証データセットのサイズは、前記トレーニングデータセットのサイズの0.1に等しい、請求項8に記載の方法。
JP2009126696A 2008-09-15 2009-05-26 限られたメモリを有するシステムにおいてデータを分類する方法 Pending JP2010067259A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/210,289 US8108325B2 (en) 2008-09-15 2008-09-15 Method and system for classifying data in system with limited memory

Publications (1)

Publication Number Publication Date
JP2010067259A true JP2010067259A (ja) 2010-03-25

Family

ID=41398944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009126696A Pending JP2010067259A (ja) 2008-09-15 2009-05-26 限られたメモリを有するシステムにおいてデータを分類する方法

Country Status (4)

Country Link
US (1) US8108325B2 (ja)
EP (1) EP2196952A3 (ja)
JP (1) JP2010067259A (ja)
CN (1) CN101676912A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006795A (ja) * 2012-06-26 2014-01-16 Honda Motor Co Ltd 記録可否判定装置、記録可否判定方法、及びプログラム
US9323886B2 (en) 2012-06-26 2016-04-26 Honda Motor Co., Ltd. Performance predicting apparatus, performance predicting method, and program
JP2017508210A (ja) * 2014-02-07 2017-03-23 サイランス・インコーポレイテッドCylance Inc. 識別のためのアンサンブル機械学習を利用するアプリケーション実行コントロール
JP2019508775A (ja) * 2015-12-24 2019-03-28 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 関連履歴の長さを決定するためのデバイス及び方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395551A (zh) * 2019-08-15 2021-02-23 上海游昆信息技术有限公司 一种逻辑回归的优化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167156A (en) * 1996-07-12 2000-12-26 The United States Of America As Represented By The Secretary Of The Navy Compression of hyperdata with ORASIS multisegment pattern sets (CHOMPS)
US6035057A (en) * 1997-03-10 2000-03-07 Hoffman; Efrem H. Hierarchical data matrix pattern recognition and identification system
WO2007064874A2 (en) * 2005-12-01 2007-06-07 Adchemy, Inc. Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
US7788195B1 (en) * 2006-03-24 2010-08-31 Sas Institute Inc. Computer-implemented predictive model generation systems and methods

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014006795A (ja) * 2012-06-26 2014-01-16 Honda Motor Co Ltd 記録可否判定装置、記録可否判定方法、及びプログラム
US9323886B2 (en) 2012-06-26 2016-04-26 Honda Motor Co., Ltd. Performance predicting apparatus, performance predicting method, and program
JP2017508210A (ja) * 2014-02-07 2017-03-23 サイランス・インコーポレイテッドCylance Inc. 識別のためのアンサンブル機械学習を利用するアプリケーション実行コントロール
JP2019508775A (ja) * 2015-12-24 2019-03-28 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 関連履歴の長さを決定するためのデバイス及び方法

Also Published As

Publication number Publication date
US20100094783A1 (en) 2010-04-15
EP2196952A3 (en) 2010-09-01
US8108325B2 (en) 2012-01-31
CN101676912A (zh) 2010-03-24
EP2196952A2 (en) 2010-06-16

Similar Documents

Publication Publication Date Title
US10209974B1 (en) Automated model management methods
US10783454B2 (en) Scalable-effort classifiers for energy-efficient machine learning
CN110852983B (zh) 用于检测半导体装置中的缺陷的方法
Drolia et al. Cachier: Edge-caching for recognition applications
US10223615B2 (en) Learning based defect classification
US20220108157A1 (en) Hardware architecture for introducing activation sparsity in neural network
US20150170053A1 (en) Personalized machine learning models
US20150242760A1 (en) Personalized Machine Learning System
US9037518B2 (en) Classifying unclassified samples
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
JP2010231768A (ja) マルチクラス分類器をトレーニングする方法
US20210216831A1 (en) Efficient Machine Learning (ML) Model for Classification
JP2010067259A (ja) 限られたメモリを有するシステムにおいてデータを分類する方法
Anukrishna et al. A review on feature selection for high dimensional data
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
US20170132516A1 (en) Adaptive sampling scheme for imbalanced large scale data
US20140279734A1 (en) Performing Cross-Validation Using Non-Randomly Selected Cases
WO2020185101A1 (en) Hybrid machine learning system and method
US9053434B2 (en) Determining an obverse weight
Palli et al. Online Machine Learning from Non-stationary Data Streams in the Presence of Concept Drift and Class Imbalance: A Systematic Review
US20100005043A1 (en) Active learning system, active learning method and program for active learning
Tomani et al. Beyond in-domain scenarios: robust density-aware calibration
Mohammadi et al. Predictive Sampling for Efficient Pairwise Subjective Image Quality Assessment
US20230186150A1 (en) Hyperparameter selection using budget-aware bayesian optimization
US10372719B2 (en) Episode mining device, method and non-transitory computer readable medium of the same