JP5683430B2 - 連続値回帰分析において用いられる特徴を選択する方法 - Google Patents

連続値回帰分析において用いられる特徴を選択する方法 Download PDF

Info

Publication number
JP5683430B2
JP5683430B2 JP2011230987A JP2011230987A JP5683430B2 JP 5683430 B2 JP5683430 B2 JP 5683430B2 JP 2011230987 A JP2011230987 A JP 2011230987A JP 2011230987 A JP2011230987 A JP 2011230987A JP 5683430 B2 JP5683430 B2 JP 5683430B2
Authority
JP
Japan
Prior art keywords
regression analysis
value
feature
features
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011230987A
Other languages
English (en)
Other versions
JP2012123782A5 (ja
JP2012123782A (ja
Inventor
ケヴィン・ダブリュ・ウィルソン
ユボ・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2012123782A publication Critical patent/JP2012123782A/ja
Publication of JP2012123782A5 publication Critical patent/JP2012123782A5/ja
Application granted granted Critical
Publication of JP5683430B2 publication Critical patent/JP5683430B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、包括的には連続値回帰分析(continuous-valued regression analysis)に関し、より詳細には、連続値回帰分析を実行するときに利用可能な特徴のセットから特徴のサブセットを選択することに関する。
回帰分析は、従属変数と1つ又は複数の独立変数との間の関係をモデリングする。回帰分析は、独立変数のうちの任意の1つが変化し、一方でその他の独立変数が同じままであるとき、通常の従属変数がどのように変化するかを求めることができる。最も一般的には、回帰分析は、独立変数を所与として従属変数の条件付き期待値を推定する。
この発明が特に対象とするのは、連続値回帰分析において用いられる特徴を選択することである。回帰分析のための手順は、ニューラルネットワーク及びサポートベクターマシン(SVM)を含む。回帰分析の通常の用途には、時系列予測、たとえば過去の値に基づいた電力需要の未来値の予測、及び利用可能な測定値に基づく対象となる未知の量の予測、たとえば身長、体重、血圧、及び髪の長さの測定値に基づくたとえば人間の寿命の予測が含まれる。
特徴選択は、回帰分析において用いられる利用可能な特徴のサブセットを求める。寿命を予測する用途の上記の例では、有用な特徴のサブセットは、身長、体重、及び血圧を含むことができる一方、髪の長さは有用でない。この用途では、特徴選択手順は、有用な特徴、たとえば身長、体重、及び血圧のサブセットのみを選択すべきであり、無用な特徴、たとえば髪の長さを除外すべきである。無用な特徴を除去することによって、特徴選択は後続の予測のための時間を低減することができる。無用な特徴を除去することによって、特徴選択は後続の予測の正確度を改善し、解釈がより容易なモデルをもたらすこともできる。
多くの特徴選択手順は、相関等の一次従属の単純な測度を用いて有用な特徴を選択する。これらの手法は、変数間の関係が非線形であるとき、失敗する可能性がある。ラッパー法は、特定の潜在的に非線形の回帰分析問題を評価することによって一度に少数の特徴を貪欲に選択する。ラッパー法は、特徴の小さなサブセットを貪欲に選択するので、特徴の最良な全体的な組み合わせを求めることができない。ラッパー法は多くの場合に計算集約的であり、回帰方法をサブルーチンとして直接組み込むので、その特定の回帰分析方法に直結する。
既知のRELIEF特徴選択手順によって、他の特徴選択方法の望ましくない特性のほとんどが回避される。参照によりこの明細書に援用される、2007年6月19日にLee他に発行された米国特許第7,233,931号「Feature regulation for hierarchical decision learning」を全体的に参照されたい。この方法は貪欲でなく、計算集約的でなく、特定の回帰分析方法に結びついていない。しかしながら、RELIEF手順は分類問題及びカテゴリー問題、すなわち従属変数が離散値の小さなセットからの値をとることができる問題の場合にのみ機能する。カテゴリー問題の例は、病気検出問題であり、この問題において、従属変数は病気の存否を示す2つの可能な値のうちの1つをとることができる。カテゴリー問題と対照的に連続値問題は値の無限集合からの値、たとえば全ての実数をとることができる。この場合、従属変数によってとられる値を「目標値」と呼ぶ。
この発明の実施の形態は、連続値回帰分析問題等の連続値問題のための特徴を選択する方法を提供する。この方法は貪欲でなく、特徴と目標値との間の非線形関係が存在する問題に適用することができ、この方法は任意の回帰分析方法と共に用いることができる。
この発明の実施の形態による連続値回帰分析において用いられる特徴を選択する方法の流れ図である。
この発明の実施の形態は、連続値回帰分析において用いられる特徴を選択するための方法を提供する。二項分類のための特徴選択は既知であり、特に既知であるのはRELIEF法である。上記の米国特許第7,233,931号を参照されたい。RELIEF法は、多数の無用な特徴が存在するときに良好に機能する。RELIEF法の基本的な着想は、局所トレーニングを用いて任意の非線形問題を局所線形問題のセットに分解し、次にl(エル)正則化を用いて大きなマージンフレームワークにおいて大域的に特徴関連性を推定することである。
RELIEF法は、通例同じクラスにある近傍の値を有する特徴を選択する。近傍の値を有する例が必ずしも同じクラスを共有しない特徴は選択されない。RELIEF法は同じクラス又は異なるクラスからの近傍の特徴を検査するので、当然二項分類に適用される。
しかしながら、RELIEF法は連続値回帰分析に適用されない。したがって、この発明の目的は、RELIEF法を連続値回帰分析に適応させることである。
RELIEF法を連続値回帰分析に適応させる1つの以前の試みは、特徴値に対する目標値の変化率を局所的に推定し、特徴値における変化が目標値の変化に対して予測可能な関係を有する特徴を選択する。米国特許第7,233,931号を参照されたい。この手法はいくつかの状況において機能するが、特徴と目標値との間の関係を推定するために選択される近傍のサイズの影響を非常に受けやすい可能性がある。
図1に示し以下でより詳細に説明するこの発明の方法では、連続出力をカテゴリ−離散値出力121にカテゴライズする。この方法は、連続値目標値yを、1つ又は複数の閾値yにおいて閾値処理する(120)。閾値は目標値が分割される2つ以上のクラスを定義する。
単一の閾値yをトレーニングデータセット110内の目標値の中央値となるように選択することによって、結果としてクラスの平衡が取られる、すなわち各クラス内の例の数が実質的に同じになる。用途に特有の知識を用いて他の閾値を選択することができる。
単一の閾値の場合、第1のクラス及び第2のクラスを以下のように定義する。
Figure 0005683430
ここで、y’は離散クラスラベルである。
を、トレーニングセットにわたる目標値yの中央値となるように選択することは、これによって第1のクラスの例の数が第2のクラスの例の数と実質的に同じになることが保証されるので、通例良好な閾値となる。
閾値処理を実行して二項クラスを割り当てた後、ロジスティックRELIEF法又は任意の他のカテゴリー特徴選択方法においてクラス値121を特徴値111と共に用いることができる。
非線形回帰分析方法
特徴選択を実行した後、選択された特徴を回帰分析方法140の入力として用いることができる。この発明の特徴選択方法は、予測値に対して非線形関係を有する特徴を選択することができる。したがって、当然ながら選択された特徴に非線形回帰分析方法を用いる。
回帰分析
この発明の回帰分析は、最小絶対偏差及びl正則化を用いた異分散(異なる分散を有する)サポートベクター回帰であり、トレーニングデータセットD110はM個の対のセット
Figure 0005683430
を含み、ここでXは入力パターンの空間、たとえばX=Rを示す。
各対は、入力ベクトルx、及び目標出力値yを含む。関数
Figure 0005683430
は、対応する入力ベクトルxから目標出力yを推定する。目標出力はトレーニングデータセット110から求められる。
この発明の回帰分析は、以下の最適化問題を解くことによってトレーニングされる。
Figure 0005683430
ここで、ξ及びξ はスラック変数、すなわち誤分類の度合いを示す変数であり、εは誤差許容度であり、λはl正則化の強度を制御するパラメーター、すなわちトレーニング誤差の最小化と比較したWのlノルムの最小化の相対的重要度であり、Wは線形係数ベクトルであり、Kはカーネル行列であり、βはカーネル行列のための係数ベクトルであり、Cは適合度を制御するパラメーターである。
新たな試験例のためのラベルが予測関数に従って推定される。
Figure 0005683430
予測関数における線形項は、高度に相関した特徴、すなわち従属変数と強力な線形関係にある特徴がトレーニングデータ内に存在する場合に有用である。この発明の回帰分析における非線形カーネル項の特性は、特徴と従属変数との間の非線形関係を利用することによる補完的役割を有する。
連続値回帰のための特徴選択方法
この発明の方法は以下を用いる。
1.カテゴリーデータにも適用することができる特徴選択方法。これを「カテゴリー特徴選択方法」と呼ぶ。この発明の実施態様において、カテゴリーデータのためのこの発明の特徴選択方法としてRELIEFの一変形を用いる。
2.回帰分析方法。この発明の実施態様では、最小絶対偏差及びl正則化を用いた異分散サポートベクター回帰を用いる。
図1は、連続値回帰分析のための特徴を選択するためのこの発明の方法100を示している。この方法は、当該技術分野において既知のメモリ及び入力/出力インターフェースを含むプロセッサ101において実行することができる。
この方法への入力はトレーニングデータ110である。トレーニングデータは、特徴111と、対応する連続目標値y112とを含む。
連続値目標値yは、1つ又は複数の閾値y119において閾値処理及び離散化され(120)、離散目標値121が生成される。閾値は目標値を分割することができる2つ以上のクラスを定義する。
閾値のうちの1つが、結果として2つの平衡が取られたクラスをもたらすための目標値の中央値として選択される。用途に特有の知識に基づいて他の閾値を選択することができる。
離散値目標121を用いてカテゴリー特徴選択130が特徴111に適用され、選択された特徴131がもたらされる。
選択された特徴131及び連続目標値112が回帰分析方法140に入力され、連続値目標を選択された特徴に関係付ける予測関数141が生成される。

Claims (5)

  1. 連続値回帰分析において用いられる特徴を選択する方法であって、
    入力としてトレーニングデータセットを提供するステップであって、該トレーニングデータセットは特徴及び対応する目標値を含み、該目標値は連続しており、前記特徴ごとに1つの目標値が存在するものと、
    閾値に対して各前記目標値を閾値処理及び離散化するステップであって、離散化された目標値を生成するものと、
    前記離散化された目標値を用いて前記特徴にカテゴリー特徴選択を適用するステップであって、選択された特徴をもたらすものと、
    を含み、
    前記閾値処理及び離散化するステップは、前記目標値が分割される1つ又は複数の閾値に対するものであり、
    単一の閾値を、前記トレーンングデータセットにおける前記目標値の中央値になるように選択するステップであって、結果として平衡の取れたクラスをもたらすものをさらに含み、
    前記ステップはプロセッサにおいて実行される、方法。
  2. 前記選択された特徴を用いて連続値回帰分析を実行するステップをさらに含む、請求項1に記載の方法。
  3. 前記1つ又は複数の閾値は用途に特有の知識に基づく、請求項1に記載の方法。
  4. 前記回帰分析は非線形である、請求項1に記載の方法。
  5. 前記回帰分析は最小絶対偏差及びl正則化を用いた異分散サポートベクター回帰である、請求項1に記載の方法。
JP2011230987A 2010-12-07 2011-10-20 連続値回帰分析において用いられる特徴を選択する方法 Expired - Fee Related JP5683430B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/961,895 US8429101B2 (en) 2010-12-07 2010-12-07 Method for selecting features used in continuous-valued regression analysis
US12/961,895 2010-12-07

Publications (3)

Publication Number Publication Date
JP2012123782A JP2012123782A (ja) 2012-06-28
JP2012123782A5 JP2012123782A5 (ja) 2014-10-02
JP5683430B2 true JP5683430B2 (ja) 2015-03-11

Family

ID=46163182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011230987A Expired - Fee Related JP5683430B2 (ja) 2010-12-07 2011-10-20 連続値回帰分析において用いられる特徴を選択する方法

Country Status (2)

Country Link
US (1) US8429101B2 (ja)
JP (1) JP5683430B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10007643B2 (en) * 2014-04-07 2018-06-26 International Business Machines Corporation Robust regression analysis techniques using exponential random variables
JP6187977B2 (ja) 2014-06-20 2017-08-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 解析装置、解析方法及びプログラム
US9398047B2 (en) * 2014-11-17 2016-07-19 Vade Retro Technology, Inc. Methods and systems for phishing detection
US10621535B1 (en) 2015-04-24 2020-04-14 Mark Lawrence Method and apparatus to onboard resources
JP6926978B2 (ja) * 2017-11-15 2021-08-25 日本電信電話株式会社 パラメータ推定装置、トリップ予測装置、方法、及びプログラム
US11315030B2 (en) 2018-03-06 2022-04-26 Tazi AI Systems, Inc. Continuously learning, stable and robust online machine learning system
WO2021161901A1 (ja) * 2020-02-13 2021-08-19 富士フイルム株式会社 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3534327B2 (ja) * 1995-02-06 2004-06-07 株式会社リコー 信号処理装置
US7505948B2 (en) * 2003-11-18 2009-03-17 Aureon Laboratories, Inc. Support vector regression for censored data
US7233931B2 (en) 2003-12-26 2007-06-19 Lee Shih-Jong J Feature regulation for hierarchical decision learning
US7685080B2 (en) * 2005-09-28 2010-03-23 Honda Motor Co., Ltd. Regularized least squares classification or regression with leave-one-out (LOO) error
US20100094784A1 (en) * 2008-10-13 2010-04-15 Microsoft Corporation Generalized kernel learning in support vector regression

Also Published As

Publication number Publication date
US20120143799A1 (en) 2012-06-07
JP2012123782A (ja) 2012-06-28
US8429101B2 (en) 2013-04-23

Similar Documents

Publication Publication Date Title
JP5683430B2 (ja) 連続値回帰分析において用いられる特徴を選択する方法
EP3620983B1 (en) Computer-implemented method, computer program product and system for data analysis
Mahmoudi et al. Multivoxel pattern analysis for FMRI data: a review
Kinkead et al. Towards explainable CNNs for Android malware detection
KR20210119479A (ko) 기계 학습을 사용하여 분자의 후각 특성을 예측하기 위한 시스템 및 방법
AU2019201857A1 (en) Sparse neural network based anomaly detection in multi-dimensional time series
Kejela et al. Predictive analytics of sensor data using distributed machine learning techniques
CN110109750B (zh) 虚拟资源获取方法、装置、计算机设备和存储介质
EP3564870A1 (en) Causality for machine learning systems
Omar et al. Using theoretical ROC curves for analysing machine learning binary classifiers
Siqueira et al. Performance comparison of feedforward neural networks applied to streamflow series forecasting.
JP6971514B1 (ja) 情報処理装置、情報処理方法及びプログラム
Koziel et al. Surrogate-based optimization
US11977978B2 (en) Finite rank deep kernel learning with linear computational complexity
Bellini Forward search outlier detection in data envelopment analysis
Zekany et al. CrystalBall: Statically analyzing runtime behavior via deep sequence learning
US10248462B2 (en) Management server which constructs a request load model for an object system, load estimation method thereof and storage medium for storing program
Jafarpour et al. Quantifying the determinants of outbreak detection performance through simulation and machine learning
Wang et al. Robust sparse Bayesian learning for broad learning with application to high-speed railway track monitoring
JP2016139336A (ja) 予測装置、予測方法および予測プログラム
De Vita et al. µ-ff: On-device forward-forward training algorithm for microcontrollers
Stojkovic et al. Distance Based Modeling of Interactions in Structured Regression.
KR20200092989A (ko) 아웃라이어 감지를 위한 비지도 파라미터 러닝을 이용한 생산용 유기체 식별
Xing et al. Radial basis function network-based transformation for nonlinear partial least-squares as optimized by particle swarm optimization: application to QSAR studies
Stepchenko NDVI index forecasting using a layer recurrent neural network coupled with stepwise regression and the PCA

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140820

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140820

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150113

R150 Certificate of patent or registration of utility model

Ref document number: 5683430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees