JP2009205615A - 変化分析システム、方法及びプログラム - Google Patents

変化分析システム、方法及びプログラム Download PDF

Info

Publication number
JP2009205615A
JP2009205615A JP2008049729A JP2008049729A JP2009205615A JP 2009205615 A JP2009205615 A JP 2009205615A JP 2008049729 A JP2008049729 A JP 2008049729A JP 2008049729 A JP2008049729 A JP 2008049729A JP 2009205615 A JP2009205615 A JP 2009205615A
Authority
JP
Japan
Prior art keywords
classifier
data
change
data set
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008049729A
Other languages
English (en)
Other versions
JP5159368B2 (ja
Inventor
Shohei Hito
将平 比戸
Takeshi Ide
剛 井手
Hisatsugu Kajima
久嗣 鹿島
Harunobu Kubo
晴信 久保
Yasushi Matsuzawa
裕史 松澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008049729A priority Critical patent/JP5159368B2/ja
Priority to US12/372,545 priority patent/US8417648B2/en
Publication of JP2009205615A publication Critical patent/JP2009205615A/ja
Application granted granted Critical
Publication of JP5159368B2 publication Critical patent/JP5159368B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 変化分析問題を効率的に解く方法を提供すること。
【解決手段】 2つのデータセットに、例えば、+1と-1というように、異なる仮想ラベルが付与される。そうして、その仮想ラベルにより、教師付き学習に帰着させる。すなわち、ロジスティック回帰、決定木、SVMなどの分類器を用意し、この分類器を、仮想ラベルを付与した2つのデータセットをマージしたデータセットで、訓練する。その結果の分類器の特徴選択機能を用いて、分類に寄与する属性を、その寄与度とともにランク付けして出力する。
【選択図】 図3

Description

この発明は、データ解析技法、特に、変化分析を行うためのシステムに関するものである。
データ解析の1つの分野に、変化検出問題がある。変化検出は伝統的には、注目しているデータセットの確率分布についての統計的検定の問題として定式化される。すなわち、ある基準となる分布と比べて、注目しているデータの分布が違っているか否かを判定することになる。
データの変化を知ることは工学的に重要な意味を持つ。1つの例として、自動車の障害診断がある。すなわち、正常時の自動車のセンサーデータを保存しておき、何か不具合があったときのデータと比較して、どの部品を換えればよいかについての知見を得たい。この場合、知りたいのは、取得したデータが基準データと比べて全体として異なっているかどうかではなく、「変化があるとすれば、どの変数が悪さをしているのか」という詳細情報である。
別の例としては、顧客プロファイルリストの変化分析がある。例えば、本年の1〜3月期の顧客プロファイルリストと、前年の1〜3月期の顧客プロファイルリストと比較して、どのようなマーケティング戦略を立てればよいかについての知見を得たいという要望がある。つまり、ある種の属性を持つ顧客が失われているとすれば、それをどう食い止めればよいかについての知見を得たい、ということである。
このように、データ解析の分野では、データの裏側に潜む構造をモデル化し、そこからなんらかの知見を得たり、意思決定を行ったりする。例えば、マーケティングの顧客プロファイル分析を行うとしよう。この場合、価値があるのは、知りたいのは2つのリストに変化があるか否かというよりは、「変化があることを前提にした時、どの属性がその変化に関与しているか」という情報である。
すなわち、実用上、「変化があったかどうか」というバルクの情報よりは、「何がどう変化したか」という詳細情報が必要となることが多い。本願明細書の文脈では、「何がどう変化したか」という詳細情報を知ることを、変化分析と呼ぶことにする。
ここで、形式的に問題を定義すると、NA個のベクトルの集合からなるデータセットXAと、NB個のベクトルの集合からなるデータセットXBを考える。式として書くと次のとおりである。
Figure 2009205615
ここで、各集合の要素はどれも、同一次元(d次元)のベクトルであると仮定する。変化検出問題が、XAとXBの相違度を与え、その有意さを判定する問題であるのに対し、変化分析問題とは、XAとXBとが与えられたとき、その相違を説明する規則を、データの属性で書き表すという問題である。このどちらの問題も、相違の有無についての事前情報は与えられていないから、機械学習の言葉で言えば、教師なし学習のクラスに分類される。本発明は特に、変化分析問題に関連する。
上述のような問題は、統計学的には、2標本検定によって扱われることが普通である。2標本検定にはいくつかの種類があるが、例として、正規母集団に対する2標本検定を考えてみる。これは、XAが、平均μA、分散共分散行列ΣAの多次元正規分布に従うと仮定したとき、XBが同じ正規分布に従うか否かに答えるものである。このとき、両者の共分散行列が同一であると仮定できるような特別の場合(すなわち、ΣA = ΣB)を除けば、データのどの属性が両者の差異に効いているかを調べるのは、容易ではない。データが10次元以上になれば、有限の共分散の値を考慮に入れた上で、差異に関与する属性を特定するのは、ほぼ絶望的になる。すなわち、2標本検定は、二つの分布が違うかどうかについて仮説検定の形で解を与えるが、変化分析問題という観点では、特に指針は与えない。このことは、確率分布の何らかの距離(尤度比、Kolmogorov-Smirnov統計量、Bregman距離など)を用いる他の定式化についても、同様である。
特開2001−22776は、データベースの時間変化を検知する目的で、異なる時点で抽出された相関ルールの集合を比較するという手法を教示する。しかし、この相関ルールは、単に2つのアイテムの共起を数えるだけのルールであり、前記自動車の障害診断や、顧客プロファイルリストの変化分析などに適用することはできない。しかも、この手法だと、重要なルールが、どうでもよいルールの山に埋もれてしまう、という原理的な問題もある。
特開2003−316797は、多次元データの集合に対して、ある特定の次元もしくはデータ項目が変化を起こした集合に着目して、その集合の特徴分析を行うことを開示する。特に、この技法は、変化を捉える次元もしくはデータ項目を保存する指定テーブルと、データ抽出処理機能を備えておき、データ抽出処理機能では指定テーブルで指定された次元もしくはデータ項目のデータが前回の抽出段階から変化したかどうかを判別し、変化していた場合には、当該のデータを通常分析用多次元分析用とは別の変化分析用多次元データベースに蓄積し、その変化分析用多次元データベースを分析する。しかし、変化分析という用語が言及されているものの、特開2003−316797には、具体的な変化分析の技法は、何も記述されていない。
下記非特許文献1と、非特許文献2は、変化分析において、教師付き学習により、特徴選択を行うことを開示する。この開示技法によれば、処理変数を入力として、時間を出力とする教師付き学習に、変化分析問題が帰着される。そうして、教師付き学習により、多変数のうち平均値が変化した変数が探し出される。
しかし、非特許文献1と、非特許文献2の技法も、多変数のうちの平均値の変化という、比較的単純な変化しか検出できず、複雑な対象に適用するには限界がある。
なお、ラベル付きデータが与えられており、問題が最初から教師あり学習(分類問題)に落ちるような状況であれば、変化検出と分類学習を結びつけることは技術的にさほど困難ではない。例えば、下記に示す非特許文献3は、コールセンターでの会議録を対象に、分類器を使ってデータの変化点を調べる方法を提案する。しかし、ここで扱われているのは、予約成立または不成立といったラベルが付されたデータであり、その変化の様相を調べるために使われている技法はχ2統計量に基づいている。よって、頻度ベースのデータ以外には直接適用できない。
特開2001−22776 特開2003−316797 Fang Li, George C. Runge, Eugene Tuv, "Supervised learning for change-point detection", International Journal of Production Research, Vol.44, No.14, 15 July 2006, 2853-2868 Victor Eruhimov, Vladimir Martyanov, Eugene Tuv, George C. Runger, "CHANGE-POINT DETECTION WITH SUPERVISED LEARNING AND FEATURE SELECTION", ICINCO 2007 - International Conference on Information in Control, Automation and Robotics Hironori Takeuchi, Venkata Subramaniam, Tetsuya Nasukawa, and Shourya Roy, "Automatic Identification of Important Segments and Expressions for Mining of Business- Oriented Conversations at Contract Centers', Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 458-467, Prague, June 2007.
この発明の目的は、変化分析問題を解くために、問題を教師付き学習に帰着させて、上記従来技術よりも汎用性が高く、複雑な問題にも適用可能な技法を提供することにある。
本願発明者は、変化分析問題を解くために、仮想ラベルに対する分類器(以下、仮想分類器と称する)を用いる技法に想到した。すなわち、この技法によれば、2つのデータセットXA、XBに対して、仮想分類器を用いて、好適には、変化検出問題と変化分析問題とが同時に解かれる。
更に、本発明の好適な実施例によれば、
・変化の度合いを、仮想ラベルに対する分類器の精度を使って評価する方法、
・その変化の度合いを、2項分布の信頼区間から導かれる閾値と比較することで、変化の有意さを評価する方法、
・仮想ラベルに対する分類器の属性選択機能により、変化分析問題を解く方法、
が提供される。
より具体的な手順は、次のとおりである。すなわち先ず、本発明によれば、適当な2値分類器Lが用意される。2値分類器Lとしては、ロジスティック回帰、決定木、SVM(support vector machine)などの既知のものでよい。
次に、2つのデータセットXA、XBが用意され、この各々に対して、仮想ラベル付与部で、仮想ラベルが付与される。仮想ラベルは、識別可能な値であれば何でもよいが、例えば、データセットXAのデータに対しては、+1というラベルを付与し、データセットXBのデータに対しては、-1というラベルを付与する。データセットXA、XBのサイズがそれぞれ、NA、NBとすると、こうして、ラベルを付与したデータセットを合わせて、サイズNA + NBのラベル付きデータセットを作る。
次に、サイズNA + NBのラベル付きデータセットに対して、分割数kの交差検定法を利用して、仮想分類器Lの分類精度pを求める(kはパラメターとして事前に与える)。また、事前に与えた有意水準αから、後述の方法で精度の許容幅γを求める。
そうして、p >= pbi(1+γ) のとき変化は有意とみなし、そうでなければ、変化なし、と判定する。
なお、pbiは、下記の式で与えられる。
Figure 2009205615
変化分析部では、サイズNA + NBのラベル付きデータセットを使って、仮想分類器Lを訓練する。次に、仮想分類器Lの特徴選択機能を用いて、分類に寄与する属性を、その寄与度とともにランク付けして出力する。
この発明によれば、もともと教師なし学習の問題である変化分析問題が、仮想分類器を用いることによって、教師あり学習の問題に帰着され、従来の技法では極めて困難であるか、実質的に無理であった、多数の変数を有する対象の変化分析問題、例えば自動車の障害診断や、顧客プロファイルリストの変化分析などの問題を、現実的な時間と信頼性で解くことができるシステムが提供される。
以下、図面に従って、本発明の実施例を説明する。これらの実施例は、本発明の好適な態様を説明するためのものであり、発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断わらない限り、同一符号は、同一の対象を指すものとする。
図1を参照すると、本発明の一実施例に係るシステム構成及び処理を実現するためのコンピュータ・ハードウェアのブロック図が示されている。図1において、システム・バス102には、CPU104と、主記憶(RAM)106と、ハードディスク・ドライブ(HDD)108と、キーボード110と、マウス112と、ディスプレイ114が接続されている。CPU104は、好適には、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のPentium(商標)4、インテル社のCore(商標) 2 DUO、AMD社のAthlon(商標)などを使用することができる。主記憶104は、好適には、512KB以上の容量、より好ましくは、1GB以上の容量をもつものである。
ハードディスク・ドライブ108には、個々に図示しないが、オペレーティング・システム及び本発明に係る処理プログラムなどが、予め格納されている。オペレーティング・システムは、Linux(商標)、マイクロソフト社のWindows Vista、Windows XP(商標)、Windows(商標)2000、アップルコンピュータのMac OS(商標)などの、CPU104に適合する任意のものでよい。
キーボード110及びマウス112は、オペレーティング・システムが提供するグラフィック・ユーザ・インターフェースに従い、ディスプレイ114に表示されたアイコン、タスクバー、ウインドウなどのグラフィック・オブジェクトを操作するために使用される。キーボード110及びマウス112はまた、変化分析のためのデータが格納されたファイルを指定するためにも使用される。
ディスプレイ114は、これには限定されないが、好適には、1024×768以上の解像度をもち、32ビットtrue colorのLCDモニタである。ディスプレイ114は、変化分析の結果のグラフなどを表示するために使用される。
ハードディスク・ドライブ108にはさらに、本発明に関する変化分析処理を行うためのプログラムが格納されている。このプログラムは、C++、C#、Java(商標)、Perl、Rubyなどの既存の任意のプログラム言語で書くことができる。オペレーティング・システムとして、Windows Vista、Windows XP(商標)、Windows(商標)2000などを使用する場合には、Win32 APIの機能を利用して、GUIも含むアプリケーション・プログラムとして実装することができる。しかし、本発明に関する変化分析処理を行うためのプログラムは、CUIとしても実装することが可能である。
図2は、本発明に関する変化分析処理を行うためのプログラムの概要機能ブロック図を示す。すなわち、このプログラムは、大きく分けて、データ入力部202と、仮想ラベル付与部204と、変化検出部206と、変化分析部208と、表示部210からなる。これらは、個別のモジュールとして実装してもよく、1つまたは複数からなる機能ブロック内のサブモジュールとして実装することもでき、この分野の熟練した当業者ならば、さまざまな実装について考え付くであろう。
データ入力部202は、CD−ROM、DVD、USB接続されたハードディスク・ドライブ(図示しない)、LAN接続されたドライブ、Webサーバなどから、分析するためのデータを受け取り、必要に応じて、仮想ラベル付与部204、変化検出部206及び変化分析部208で処理される内部データ形式に変換する機能をもつ。データ入力部202に入力されるデータの好適な1つの形式は、カンマで区切ったCSV形式であるが、XML、Excel形式など、複数の数値データを表現できる、コンピュータ可読な任意の形式をもちいることができる。
仮想ラベル付与部204は、データ入力部202によって取り込まれた、変化を比較すべき2つのデータセットの各々に、異なる仮想ラベルを付与する機能をもつ。
変化検出部206は、変化の有意水準を決定し、この有意水準をみたす変化があった場合に、変化ありと判断する機能をもつ。尚、もともと2つのデータセットで変化があったことが明らかであるような場合、変化検出部206での検出をスキップすることもできる。
変化分析部208は、変化検出部206によって変化あり、と判断された場合に、分類に寄与する属性を、その寄与度と共に、ランク付けして出力する機能をもつ。
表示部210は、変化分析部208の出力結果を、好適にはグラフィックイメージとして、ディスプレイ114に表示する。
なお、ここでは、仮想ラベル付与部204と、変化検出部206と、変化分析部208の機能の概要を述べただけであって、それらの詳細な機能については、後述する。
図3は、図2の機能ブロック図に対応する全体のフローチャートを示す。図3において処理部310が、データ入力部202及び仮想ラベル付与部204に対応し、処理部320が、変化検出部206に対応し、処理部330が、変化分析部208に対応する。
なお、以下では、説明の便宜上、下記の表記を、Xバーとも称する。特に別途断わらない限り、この実施例での記述では、Xバーは、データセットXに、仮想ラベルを付与したデータセットをあらわすものとする。
Figure 2009205615
図3の処理部310において、データ入力部202によってデータセットXA311と、データセットXB312が、好適にはハードディスク・ドライブ108に取り込まれ、その各々に、仮想ラベル付与部204によって、別個のラベルが付与される。ラベルは、任意の値でよいが、例えば、データセットXA311には+1が、データセットXA312には、-1が付与される。ラベルとしては、{+2,-2}, {A,B}なども使うことができる。こうして、データセットXAバー313、データセットXBバー314となる。データセットXAバー313、データセットXBバー314は、さらに合一されて、データセットXバー315となる。
データセットXバー315は、処理部320の処理ステップ322と、処理部330の処理ステップ332の両方で使用される。
処理部320のステップ322では、交差検定(cross validation)関数またはサブルーチンCVを用いて、分類精度pが求められる。すなわち、p = CV(L, k, Xバー) である。Lは、適当な分類器、kは適当な分割数、Xバーは、データセットXバー315である。サブルーチンCVの処理の詳細は、後述する。
ステップ322で、分類精度pが求められると、このpの値が、所定の閾値より大きいかどうかが、ステップ324で判断される。もしそうなら、有意な変化であるとして、ステップ332に進み、そこで、Xバーを用いて、分類器Lの学習が行われる。
ステップ334では、分類器Lの特徴選択機能を用いて、分類に寄与する属性を、その寄与度とともにランク付けして出力される。図3には示さないが、この出力は、必要に応じて、表示部210によって、ディスプレイ114に表示される。
次に、図3のステップの処理内容を、より詳細に説明する前に、前提として分類器の一般的な機能について説明する。
<分類器の一般的な説明>
分類器とは、一般的に、yを予測する関数F(x,w)とあらわされる。
ここで、xは、ある多次元ベクトル、
yは、データのクラス(ラベル)で、例えば、集合{-1, +1}
wは、分類器のパラメータで、多次元ベクトル、行列などであらわされる。
そこで、訓練集合Xt: {(x1,y1), ..., (xn,yn)}を使って、予測誤差を表す関数、例えば2乗誤差関数
Figure 2009205615
を最小とするようにwを変更することが、分類器の学習である。
このように学習された分類器が用意されたとき、
テスト集合訓練集合Xs: {(x'1,y'1), ..., (x'm,y'm)}に対して、分類器の性能を測るのが、次のステップである。すなわち、2乗誤差関数の例で言えば、
Figure 2009205615
が最小となるwが最良とみなす。
数式とフローチャートで説明すると、次のとおりである。すなわち、図4のフローチャートにおいて、ステップ402では、訓練集合Xtと、初期パラメータwが用意され、入力される。このとき、分類器の関数F(x,w)も用意される。
関数F(x,w)とは、例えば:
F(x,w) < 0なら、xのクラスを-1と予測し、
F(x,w) >= 0なら、xのクラスを+1と予測するようなものである。
ステップ404では、訓練データxiが、順次選ばれる。次に、ステップ406では、F(x,w)が計算され、yiと照合される。
ステップ408では、yiがF(x,w)に近づくように、wが更新される。この更新の例は、下記のとおである。すなわち:
w' = w + yi * xi
この式の意味は、次のようにしてみると理解しやすい。
すなわち、その両辺にxiを掛けてみると、
w'*xi = w*xi + yi * |xi|2
この式において、yi = -1の場合、w'*xiから値が|xi|2だけ減り、
F(x,w) < 0になりやすく、
yi = +1の場合、w'*xiから値が|xi|2だけ増え、
F(x,w) >= 0になりやすい。
このように計算されたw'で、wを置き換えることにより、wが更新される。
ステップ410では、終了条件を満たすかどうかが、判断される。終了条件とは例えば、
Figure 2009205615
の値が、ある閾値以下になることである。
こうして、終了条件が満たされていないなら、ステップ404に戻って、次の訓練データxiを入力し、終了条件が満たされていると判断されたなら、ステップ412に移って、パラメータwをもつ分類器が出力されて、完了する。
以上は、一般的な分類器の説明であるので、より具体的な例をいくつか、以下に示す。
<線形判別器>
これは、最も単純な線形判別器の例である。この例の場合、パラメータwは、スカラーではなく、データxと同じ、d次元のベクトルである。
図5のフローチャートを参照すると、ステップ502では、訓練集合Xtと、初期パラメータwが用意され、入力される。このとき、分類器の関数F(x,w)も用意される。wは、上述のように、ベクトルである。
この線形判別器では、F(x,w) = sgn(w・x)と定義される。w・xは、ベクトルwと、ベクトルxの内積であり、sgn()は、符号をあらわす関数である。
すなわち、w・x < 0なら、xのクラスを-1と予測し、
w・x >= 0なら、xのクラスを、+1と予測する。
ステップ504では、訓練データxiが、順次選ばれる。次に、ステップ506では、F(x,w)が計算され、yiと照合される。
ステップ508では、w・xiの正負が、yiと揃うように、w = w + yi*xiに従い、ベクトルwの値が更新される。このような更新を行う意味は、図4に関連して既に説明したのとほぼ同じように、w = w + yi*xiの両辺にxiを、内積的に掛けてみれば分かる。
ステップ510では、このように更新されたwを以って、終了条件を満たすかどうかが判断される。終了条件の判断の式は、図4のフローチャートに係る処理の場合と同様でよい。ステップ510で終了条件を満たさないと判断されると、処理は、ステップ504に戻る。
ステップ510で終了条件を満たすと判断されると、ステップ512で、パラメータwを持つ分類器が出力される。
<ロジスティック回帰>
ロジスティック回帰は、線形判別器の確率版の拡張と考えることもできる。ここでも、パラメータwは、スカラーではなく、データxと同じ、次元数のベクトルである。
図6のフローチャートを参照すると、ステップ602では、訓練集合Xtと、初期パラメータwが用意され、入力される。このとき、分類器の関数F(x,w)も用意される。wは、上述のように、ベクトルである。
ここでは、F(x,w) = 1 / (1 + exp(w・x)) で与えられる。w・xは、ベクトルの内積計算である。
ステップ604では、訓練データxiが、順次選ばれる。ステップ606では、F(x,w)が、上記式に従い計算されて、その確率値をyiと照合する。
すなわち、具体的には、F(x,w) < 0.5なら、xのクラスを-1と判断し、F(x,w) >= 0.5なら、xのクラスを+1と判断する。
ここで、P(y = +1)という関数を、括弧内が正しければ1、そうでなければ0という関数であると定義する。そこで、ステップ608では、下記の式を最小にするように、wを更新する。
Figure 2009205615
ステップ610では、このように更新されたwを以って、終了条件を満たすかどうかが判断される。終了条件は、この場合、ステップ608で計算された結果が、ある閾値よりも小さいかどうか、である。
ステップ610で終了条件を満たさないと判断されると、処理は、ステップ604に戻る。
ステップ610で終了条件を満たすと判断されると、ステップ612で、パラメータwを持つ分類器が出力される。
<SVM>
SVM(Support Vector Machine)は、訓練データ同士の類似度に基づいてパラメータwを決定し、F(x, w)の符号でテストデータの分類を行う。類似度の計算部分において、データの内積の代わりに何らかの非線形関数用いるカーネル・トリックにより、非線形な境界面による判別が可能となる。パラメータwは任意の非線形関数のパラメータであり、データxと同じ次元とは限らない。
図7のフローチャートを参照すると、ステップ702では、訓練集合Xtと、初期パラメータwが用意され、入力される。このとき、分類器の関数F(x,w)が用意されている。
関数F(x,w)は、一例として、sgn(x・W1・x + w1・x)で与えられる。
ここでは、w = {W1(行列), w1(ベクトル)}である。
F(x,w)は、非線形であり、好適には、二次関数である。
ステップ704では、訓練データxiが、順次選ばれる。ステップ706では、F(x,w)が、上記式に従い計算されて、その符号値が、yiと照合される。
F(x,w)の値は-1または+1で、クラスそのものを表しており、その点で、線形判別器と共通している。
すなわち、
x・W1・x + w1・x < 0なら、xのクラスを-1と予測し、
x・W1・x + w1・x >= 0なら、xのクラスを+1と予測する。
ステップ708では、F(x,w)の正負がyiの正負と揃うように、wが更新される。なお、上述のように、wとは、行列であるW1と、ベクトルであるw1の両方を含み、wを更新するとは、この両方を適宜更新することを意味する。このような逐次更新以外にも、全訓練データを含む凸2次計画問題として、最適なパラメータwを求める方法もある。
ステップ710では、このように更新されたwを以って、終了条件を満たすかどうかが判断される。終了条件の判断の式は、図4のフローチャートに係る処理の場合と同様でよい。ステップ710で終了条件を満たさないと判断されると、処理は、ステップ704に戻る。
ステップ710で終了条件を満たすと判断されると、ステップ712で、パラメータwを持つ分類器が出力される。
<決定木>
決定木は、上述の、線形判別器を変形または拡張した分類器とは、全く異なる概念の分類器である。すなわち、wは、各データxを2分割するルールの集合である。書き表すと次のとおりである。
w = {(次元数、閾値、クラス),(次元数、閾値、クラス),...}
ここで、次元数とは、ベクトルであるデータxの成分の番号である。閾値とは、その成分の値を判断するための値であり、すなわち、(次元数、閾値、クラス)とは、データxの対応する次元数の成分が、その閾値より小さいとき、当該クラスに属する、という意味である。すなわち、wがそのまま、決定木の形に対応している。
決定木の場合、関数F(x,w)が返す値は、決定木の終端ノードのクラスである。
図8のフローチャートを参照すると、ステップ802では、訓練集合Xtと、初期パラメータwが用意され、入力される。このとき、分類器の関数F(x,w)が用意されている。
ステップ804では、訓練データxiが、順次選ばれる。ステップ806では、wに従ってxiにルールを適用することによってラベルを予測し、yiと照合する。
ステップ808では、F(x,w)のラベルが、yiと揃うように、wに新たな要素が追加される。
ステップ810では、終了条件を満たすかどうかが、判断される。終了条件を満たすとは、これ以上要素を増やしても精度が改善しないか、決定木の大きさが、規定値を超えた、のどちらかである。ステップ810で終了条件を満たさないと判断されると、処理は、ステップ804に戻る。
以上の準備のもとで、再び図3を参照して、本発明のこの実施例に係る処理を詳細に説明する。この処理のために、適当な2値分類器Lが用意される。この2値分類器Lとして、それに限定されないが、上述したロジスティック回帰、決定木、SVMのどれかを使用することができる。
図3において、データセットXA311と、データセットXB312は、図2のデータ入力部202によって、CSVなどの形式で、主記憶106または、ハードディスク・ドライブ108に取り込まれる。
そのデータセットXA311と、データセットXB312を、下記のように書き表す。
Figure 2009205615
<仮想ラベル付与部>
次に、図2の仮想ラベル付与部204の処理を説明する。仮想ラベル付与部204では、下記の式に示すように、データセットXA311の各データに、+1のラベルが付与され、データセットXB312の各データに、-1のラベルが付与される。
Figure 2009205615
こうして、図3に示すデータセットXAバー313と、データセットXBバー314が用意される。
次に、下記の式により、マージされたデータセットXバーが用意される。
Figure 2009205615
なお、2つのデータセットXA311と、データセットXB312の各々には、+1と-1というラベルがそれぞれ与えられたが、これらに限定されず、データセット毎に別であるなら、異なる任意のラベルを用いることができる。
<変化検出部>
次に、図2の変化検出部206の処理を説明する。変化検出部206には予め、分割数kと有意水準αが与えられる。
そして、αから、許容幅γを求めるのであるが、この計算は、後で説明する。
次に、分類器Lの分類精度pを、サブルーチンCVにより計算し記録する。
p = CV(L,k,Xバー)
そうして、次の条件が満たされれば変化あり、そうでなければ、変化なし、と判定する。
p >= pbi(1 + γ)
ここで、pbiとは、下記の式で与えられるものである。
Figure 2009205615
また、サブルーチンCVの計算は、下記のような処理からなる。
(1) Xバーを、上記分割数kで、k等分する。Xバーのデータ数が、kで割り切れないとき、k番目の分割されたグループのデータ数が半端になっても構わないが、なるべく均一な分割数になるように、上記分割数kは選ばれる。
そうして、そのそれぞれを、
(1)バー、X(2)バー、・・・X(k)バーとする。
(2) ある 1 <= j <= kについて、X(j)バーを選び、
残りの{X(i)バー | i≠j, 1 <= i <= k}を用いて、分類器Lを訓練する。分類器Lの学習または訓練については、上述のとおりである。
(3) こうして訓練された分類器Lに、X(j)バーを通し、その分類精度pjを計算する。ここでいう分類精度pjとは、X(j)バーの個々のデータを通した結果、分類器Lによって予測されるラベルと、そのデータのラベルが一致する度合いである。
(4) こうして、k通りのjに対して、pjを求める。
(5) 下記の式で、戻り値pを求める。
Figure 2009205615
<変化分析部>
変化分析部208では、図3のステップ332に示すように、Xバーを使って、分類器Lを訓練する。ステップ334では、分類器Lの特徴選択機能を用いて、分類に寄与する属性を、その寄与度と共にランク付けして出力する。
分類器Lの特徴選択機能について追加の説明を行うと、各データxiがd次元ベクトルだとした時に、どの次元(特徴・属性と同義)の値の大小が、分類結果を大きく左右するかを分析し、その影響度が少ない次元の値を省いてしまうことを「特徴選択」と呼ぶ。すなわち、分類に寄与度の高い特徴のみを選択して、好適には他は削除することである。広義には、その寄与度を計算する手段のことを指す。
さらに具体的に述べると、決定木の例で言えば、出力された木構造のうち上位のノードで分割基準として使われている次元ほど、テスト時にそこで判別されるデータ数が多く、分類結果に対して大きな影響を持つことが分かる。一方、決定木に一度も出現しない次元は、どのような値であっても分類には無意味な、寄与度の低い次元と言うことができる。このような場合に、何らかの基準(たとえば木構造の上から何番目かなど)で各次元をランク付けして出力することが、分類器Lの特徴選択である。
線形判別やロジスティック回帰では、wというxと同じd次元ベクトルのパラメータが特徴選択で重要になる。wの各次元の絶対値が大きいほど、対応する次元のxの値の僅かな差が出力w・xの値に大きく反映されることがわかる。反対に、wのある次元の値が0であれば、対応する次元のxの値は出力にはまったく関係が無いということになる。つまり、wの絶対値をそのまま各次元の寄与度ランクとして扱うことが可能である。
どんな分類器構築アルゴリズムにも明示的な特徴選択機能がある訳ではないが、例えば全データ集合Xのあるj次元目を削除し、d-1次元ベクトルデータ集合X'として学習した場合に精度が低下すればj次元目は寄与度が高く、特に悪化しなければj次元目の寄与度は低い、というような原始的な方法を用いることにより、アルゴリズムによらず特徴選択を行うことは可能である。よって、仮想的に分類器Lでは何らかの特徴選択を行ってランク付けが可能である、と考えてよい。
上記の説明を補足するために、以下の説明を追加する。
<分布の一致の条件>
AとXBの分布が同一であるという条件は、「2値分類器の分類精度がPbi(1+γ)未満である」という条件に言い換えられる。このことを説明する。
AとXBが同一の分布に従うと考え、先に定義した仮想ラベル付きデータで2値分類器を訓練した時の精度がどうなるかを考える。仮定より、ラベルy を与えた時のデータの分布について、p(x|y=+1) = p(x|y=-1)が成り立つ。この関数をf(x)と表す。生成モデルの観点で見れば、分類器を学習するとは、本質的にはデータxを与えた時のラベルyの確率分布を与えることである。
ベイズの定理から
Figure 2009205615
が成り立つ。すなわち、この場合は、ラベルの分布は、ラベルの事前分布だけから決まる。それはAまたはBの占める割合から決まり、
A/(NA + NB)もしくはNB/(NA + NB)となる。分類精度としてはこれらのうち大きいほうを取るべきだから、結局、数12で定義されたpbiを得る。
あるいは、もっと素朴に、両者の分布が同一であることから、分類をコイン投げ(=ベルヌイ試行)と同一視し、「表」が出る確率qを最尤推定から求めることもできる。「表」がNA回、「裏」がNB回出たと考えれば対数尤度は
Figure 2009205615
となるから、これをqで微分して0と等値すると、直ちに、
q = NA / (NA + NB) を得る。分類精度としては、qと(1-q) のうち大きい方を取るべきだから、結局は上と同様に、数12で定義されたpbiを得る。
<精度のぶれ幅パラメータγの与え方>
変化検出部のp >= pbi(1 + γ)における、パラメータγの値は、有意水準αを適当に定めることにより合理的に決めることができるので、そのことを説明する。
いままでの説明から、変化が有意かどうかは、分類精度pが、pbiからどれだけ隔たっているか、したがって、分類がベルヌイ試行にどれだけ遠いかにより判断できる。
話を簡単にするため、以下NA > NBと仮定する。変化検出部における分岐条件は、Aの出現回数NAを確率変数にした2項検定により実現できる。すなわちpが
Figure 2009205615
を満たせば、帰無仮説「NAが2項分布に従う」は棄却される。すなわち、その分類結果は2項分布モデルにの下では照らしてほとんどありえないと判定される。ただし、N = NA + NBであり、Binは2項分布の確率関数
Figure 2009205615
である。
例えばN = 1000、pbi = 0.5ならば、5%有意水準(α=0.05)だと分類精度0.527以上で2項分布モデルは棄却(つまり変化ありと判定)され、1%有意水準(α=0.01)ならば、分類精度0.538以上でモデルは棄却される。γの値としては、それぞれ0.054、0.076となる。
なお、一般に、正例もしくは負例の出現回数の期待値が5以上ならば2項分布の正規近似が妥当とされるので、正規分布
NA 〜 N(NA|Npbi,Npbi(1-pbi))
を用いて、検定を行ってもよい。
精度のぶれ幅自体はかならずしも直感的に分かりやすい量ではないので、実用上はその値を決めるのはさほど簡単ではない。しかし有意信頼水準αの方は普遍的な意味を持つパラメータであり、容易に設定できる。有意水準とパラメータγの関係が、データ自体にパラメトリックな確率モデルを仮定することなくもたらされたことに注意したい。今は、分類器の分類精度に対して仮説検定を行うので、XAとXBに対してあらわに確率モデルを記述する必要はない。高次元データでは、データの確率密度推定は非常に困難となるが、分類の方は、属性選択機能を備えた分類器を用いればさほどの困難とはならない。密度推定を回避できるという点では、ノンパラメトリックな2標本検定、たとえば最近傍検定と同じであるが、それだと変化分析問題への指針が得られない。また、最近傍検定にせよ多次元Kolmogorov-Smirnov検定にせよ、かなり理想的な条件の下で漸近分布が理論的に得られているに過ぎず、多くの実用的な状況では信頼区間を求めるのは難しい現状がある。
なお、最近傍検定については、Norbert Henze, "A multivariate two-sample test based on the number of nearest neighbor type coincidences," Annals of Statistics Vol.16, No.2, pp.772-783 (1988)などの文献を参照されたい。
<ラベル付きデータへの応用>
今まで説明した例の手順は、基本的に、ラベルなしデータに対する変化解析を行うものである。しかし、以下に説明する前処理とともに用いることにより、本発明は、離散ラベル付きデータの変化分析にも適用できる。離散ラベル付きデータの変化分析は、2つの、仮想分類器ではない本物の分類器があったとき、その差異の詳細を得る目的にも使うことができるため、実用上重要である。コンセプトドリフトに関する従来研究の多くは、ドリフトを検知することに主眼が置かれ、変化の質を説明する能力に難があった。本発明によれば、ラベル付きデータの比較問題を、ラベルなしのデータの比較問題に帰着させることにより、分類器に対する変化分析問題を解くことができる。
以下では、ラベル付きデータDt及びDsを考える。すなわち、
Figure 2009205615
ここで、ys (i)などは、データセットsのi番目のデータである。ここでは、ラベルは、2値と仮定する。また、2値分類器L'を用意しておく。
下記の前処理は、2つのラベル付きデータDt及びDsの各々に対して、ラベルなしデータセットXAバーとXBバーに変換する。このうち、XAバーは、元の2つのデータセットの相違を特徴付けるものとなり、XBバーは、元の2つのデータセットの共通性を特徴づける。すなわち、データセットXAバーとXBバーは、元のラベルを取り去り、仮想ラベルを付与したものとなる。
この前処理サブルーチンを記述すると、
(1) データセットXAバーと、XBバーを、空に初期化する。
(2) Dtを用いてL'を訓練し、分類器Mtを作る。
(3) Dsを用いてL'を訓練し、分類器Msを作る。
(4) DtをMsで分類し、誤分類したxをXAバーに加え、正答したものをXBバーに加える。
(5) DsをMtで分類し、誤分類したxをXAバーに加え、正答したものをXBバーに加える。
(6) XAバーのサイズをNA、XBバーのサイズをNBとしたとき、誤分類率ρ = NA/(NA + NB)が、所定の値以下なら、「相違なし」を出力。それ以外なら、XAバーと、XBバーを出力。
これ以外にも、例えば、クラス毎にデータを分けて、分けたデータをラベルなしデータとして、入力に使うこともできる。
<3つ以上のデータセットの同時比較>
本発明は、3つ以上のデータセットの比較にも使うことができる。例えば、データセットXAバー、XBバー、XCバーがあったとすると、3値分類器を使うことによって、3つのデータセットの違いを特徴付けることができる。これは、上述の分類器同士の比較問題で重要である。なぜなら、例えば+1を-1と誤ったものをXA1バー、-1を+1と誤ったものをXA2バーのように分け、3クラス問題とすれば、より詳細な変化分析ができるからである。
ところで、3値を含む任意の多値分類器を原理的に構築できるアルゴリズムが存在する。この実施例では、決定木がそれに当たり、単に最後のクラス判別結果のところがAであったりBであったりCであったりするだけである。ロジスティック回帰も、内部的に複数のwを持つことで3値化できる。
一方、線形判別やSVMなど、そのままでは3値分類に適さない分類器も存在する。そのような場合、3値問題を、ある1クラスとそれ以外のクラスという組み合わせで、{A vs. (B or C)} {B vs. (A or C)} {C vs. (A or B)}という3つの2値分類問題に分割することで、2値分類器の組み合わせで解くことができる。例えば、上記の3つの問題において2値分類器を3つ構築し、あるデータに対する分類結果が(B or C), (A or C), Cであったとする。この場合、最終的な出力はCとなる。AやBを出力とする場合も同様である。
<実験1:人工データによる変化分析>
データセットXAバーとして、d =10次元正規分布から抽出した500個のサンプルを考える。ただし平均はゼロ(d 次元ゼロベクトル)とし、第1番目の変数(Attr1と表す)は標準偏差4、他は標準偏差1である。一方、データセットXBバーは、同じく、d=10次元のゼロ平均正規分布から抽出した500個のサンプルであるが、今度は第2番目の変数(Attr2と表す)だけが標準偏差4、他は標準偏差1である。
この実験の目的は、このような生成モデルに関する情報なしに、データだけを見て「XAバーとXBバーの相違に効いているのがAttr1とAttr2である」と同定することである。実験では、説明能力の観点から、分類器Lとして決定木(C4.5)を用いた。また、k=10、γ=0.05と置いた(有意水準約5%に相当)。
実験によれば、サブルーチンCVにより得られた分類精度は約80%であり、大幅に有意水準を越えた。変化分析部で生成された変化モデルを図9に示す。四角の内部の177/3などは、(そのノードに入ったサンプル数)/(誤分類されたサンプル数)を表している。図は、明らかに、最上位の4つまでの分岐規則がAtt1とAttr2によることを示しており、正しく二つの属性が同定されていることが分かる。
<実験2:ある破綻した会社のデータの変化分析>
実データの例として、ある破綻した会社の電子メールデータの変化分析を行った。この会社は、2001年末に破綻した。その過程の電子メールのデータが研究用に公開されている。データセットは約27万件の電子メールを含み、各電子メールはいわゆるBag-Of-Words表現で表されている。頻度の多い順に100ないし150の単語を選び、そのいわゆるTF-IDF(term frequency-inverse document frequency)のヒューリスティックスを用いて頻度を特徴ベクトルとを生成した。
ここでの問題は、2001年の下半期の中の前半と後半、(すなわち、2001年第3四半期と(3Q)と第4四半期(4Q))の間で、電子メール集合にどういう差異が検出されるかを調べることである。分類器としてはやはり決定木(C4.5)を用い、k = 10と設定した。
サブルーチンCVにより分類精度を調べると、d =100の方が各半期の中で比べた、最初のQとあとのQを比べた。62.8%、d =150の方が64.1%であった。これは5%有意水準をはるかに越えており、第3四半期(3Q)と第4四半期(4Q)の間で有意に差があることを示している。
その差についての詳細情報を調べるため、変化分析器を用いた。結果を図10に示す。四角の中の数字の意味は図9と同様である。図では上位の5個のノードのみを示しており、各ノードの(44)等の数字は、頻度のランクを示している。
実験では素朴に頻度上位の語から特徴ベクトルを作ったので、emailやWeektodayといった一般語が見かけ上分類に大きく寄与しているように見える。この傾向はd =100の分析でより強い。これはd が小さいと、一般語の占める割合が相対的に高く、それゆえ、変化分析モデルにもそのような傾向が現れるためと理解できる。一方、dを大きく取ると、より限定的な意味を持つ語の数が増える。
この観点から図を眺めると興味深い事実がわかる。d =150の方の変化分析モデルでは、position、Jeff、Davisといった非一般語がデータセットの差異をよく説明するものとして選択されている。破綻が現実味を帯びてくるにつれ、3Qあたりにpositionについてのメールが多く飛び交ったという可能性はありえる。ではJeffやDavisは誰かというと、実は、当該の破綻した会社の元CEOはJeffrey K. Skilling という名前であった。一方、当該会社破綻当時のカリフォルニア州知事の名前はGray Davisであった。おそらく、破綻寸前の当該会社内部では、これらの人物に対する怨嗟の声が渦巻いていたという可能性は高い。
以上の結果は、本発明が、会社内部のダイナミックスに関する分析的情報を、直接的な内部的情報を使うことなく見出し得たことを示しており、本発明の有用性の直接の実証例となっている。
<実験3:データベースの変化分析>
以下、<ラベル付きデータへの応用>の節で述べた、ラベル付きデータの変化解析問題について、具体例を示す。ある組織における学会活動を管理するデータベースにおいて、各活動の重要度の変化分析を考える。このデータベースには、入力された各活動について(ある観点から)重要であるか否かという2値のラベルが付与されている。入力される各活動は、レコードID、日付、社員番号、社員名、タイトル、カテゴリー、組織、グループなど15次元(d =15)で表現される。重要性というカラムには、入力された活動データが重要度の高いデータであるか否かという情報が含まれている。ここで、重要性カラムに入力される値は、Yes または No の2値であるとし、この値は機械的に入力されるのではなく、データベース管理担当者が年度毎に変更されるガイドラインやこれまでの慣例に従い入力しているものとする。従って、同じ内容の活動を行った場合であっても入力された時期により、Yes と入力されるか No と入力されるかが異なるということが発生する(DB管理担当者の交代なども原因の一つである)。
この実施例における目的は、担当者の交代による重要性の入力基準に関するして、どのような変化が発生したのかを知ることである。
Figure 2009205615
[仮想ラベルの付与] 上記データベースより、担当者が交代した時期(2006/09/01)の前後の4半期分のデータをそれぞれ抽出する。これらの二つのデータセットは<ラベル付きデータへの応用>節で説明したDtおよびDsに該当する。ここでは、変化のバリエーションとして、重要度の変化を 「Yes->Yes」, 「Yes->No」, 「No->No」, 「No->Yes」の4値として仮想ラベルの付与を行う。
前処理として、<ラベル付きデータへの応用>節でに示した手順に従い、はじめに、空にして初期化したデータセット XAバー、XBバー、XCバー、XDバーを用意した。そうして、
(1) Dtを用いて2値分類器L'を訓練して分類器Mtを作成し、
(2) Dsに対して、L'を訓練し、分類器Msを作成する。具体的にはMt、Msとして決定木を作成した。続けて、
(3) Dtに対して、Mで分類を行った。但し、ここでは、2値ではなく4値に分類するので、正しい値Yesに対してNoと誤分類したデータをXAバーに、Yesと分類したデータをXBバーに加え、また、正しい値Noに対して、Yesと誤分類したデータをXCバーに、Noと分類したデータをXDバーに加えた。同様に、
(4) DsをMtで分類し、それぞれ、XAバー、XBバー、XCバー、XDバーに加えた。得られたサイズNA、NB、NC、NDのXAバー、XBバー、XCバー、XDバーを加えたものをXバーとする。
[変化検出] 本来は、誤分類率ρ=(NA+NC)/(NA+NB+NC+ND) を計算して閾値と比較して、相違の有無を検定するべきであるが、担当者の変化によりラベル付与のポリシーに何らかの変化が存在することを前提にするものとして、変化の度合いの有意性の評価については議論を省略する。
[変化分析] 仮想ラベルが付与されたデータXバーを使って、分類器Lを訓練する。具体的には、図11に示す決定木を生成した。
生成された決定木上において、”SAMEY2Y”が Yes→Yes、”SAMEN2N” が No→No を表しており、”DIFFY2N” が Yes→No、 “DIFFN2Y”がNo→Yes に対応している。まず、決定木の各ノードで用いられているテストには、説明変数である ORG が多く用いられていることがわかる。さらに、決定木を細かく分析して見るために、DIFFY2N、あるいは、DIFFN2Y に落ちるパスを見つけることで、何が重要度の判断基準の変化の要因になったのかを知ることができる。例えば、DIFFY2N (”Yes→No”) となるノードを見つける。この例では、ノード1.2.2が、Yes→No へ変化したデータを多く含んでおり、決定木上で、ノード1.2.2 に降りてくるテストを見ることで、コンセプトドリフトの要因が分かる。 生成された決定木より、ノード1.2.2 は、最初のテスト(ノード1のテスト) ORG is in { "JAPAN", "PPL", "ARTIFICIAL INTELLIGENCE", "DATABASE SOCIETY OF JAPAN", "HPC", "SSME", "ACM SIGMOD JAPAN"} が False であり、かつ、次のテスト (ノード1.2 のテスト) ORG is in { "JAPAN SOCIETY OF MECHANICAL ENGINEERING", "INFORMATION SECURITY"} が False であるデータが集まったノードであることがわかる。この例では、即ち、ノード1とノード1.2のテストに出現しなかった ORG の値 については、2006年3Qでは Yes となっていたのに対し、2006年4Qでは No になったことを意味している。 また、その変化は全体のデータのうちの 77% にも達していることが読み取れる。
続いて、DIFFN2Y(”No→Yes”)と変化したデータを見つけることを考える。この例では、ノード1.1.1 が該当する。同様に、ノード1 とノード1.1のテストを調べることで、コンセプトドリフトの内容を知ることができる。また、このルールによる変化は、全体で2%程度しか存在していないこともわかる。
このように、決定木を分析することで、旧担当者が入力していた2006年3Qと、新担当者が入力していた2006年4Qの間で発生した変化の内容を知ることができた。
ハードウェア構成の概要ブロック図である。 機能論理構成の概要ブロック図である。 本発明の処理のフローチャートである。 分類器の一般的な処理を示すフローチャートである。 単純な線形判別器の処理を示すフローチャートである。 ロジスティック回帰の処理を示すフローチャートである。 SVMの処理を示すフローチャートである。 決定木の処理を示すフローチャートである。 人工データによる変化分析の場合の決定木を示す図である。 企業のメールの変化分析の場合の決定木を示す図である。 データベースの変化分析の場合の決定木を示す図である。

Claims (20)

  1. コンピュータの機能により、変化を比較すべき2つのデータセットの変化分析を行うための変化分析システムであって、
    第1のデータセットの各々のデータに第1の仮想ラベルを付与し、第2のデータセットの各々のデータに、該第1の仮想化ベルとは異なる第2の仮想ラベルを付与して、ラベル付きデータセットを用意するための仮想ラベル付与部と、
    前記仮想ラベルを使用して分類を行う分類器と、
    前記ラベル付きデータセットによって、前記分類器を訓練し、該分類器の分類に寄与する属性の寄与度を出力するための変化分析部とを有する、
    変化分析システム。
  2. 前記分類器が、ロジスティック回帰である、請求項1のシステム。
  3. 前記分類器が、SVM(support vector machine)である、請求項1のシステム。
  4. 前記分類器が、決定木である、請求項1のシステム。
  5. 前記第1及び第2の仮想ラベルが、それぞれ、+1と-1である、請求項1のシステム。
  6. コンピュータの機能により、変化を比較すべき2つのデータセットの変化分析を行うための変化分析システムであって、
    第1のデータセットの各々のデータに第1の仮想ラベルを付与し、第2のデータセットの各々のデータに、該第1の仮想化ベルとは異なる第2の仮想ラベルを付与して、ラベル付きデータセットを用意するための仮想ラベル付与部と、
    前記ラベル付きデータセットの間の有意な変化を検出するための変化検出部と、
    前記仮想ラベルを使用して分類を行う分類器と、
    前記変化検出部が有意な変化を検出したことに応答して、前記ラベル付きデータセットによって、前記分類器を訓練し、該分類器の分類に寄与する属性の寄与度を出力するための変化分析部とを有する、
    変化分析システム。
  7. 前記分類器が、ロジスティック回帰である、請求項6のシステム。
  8. 前記分類器が、SVMである、請求項6のシステム。
  9. 前記分類器が、決定木である、請求項6のシステム。
  10. 前記第1及び第2の仮想ラベルが、それぞれ、+1と-1である、請求項6のシステム。
  11. コンピュータの機能により、変化を比較すべき2つのデータセットの変化分析を行うための変化分析方法であって、
    第1のデータセットの各々のデータに第1の仮想ラベルを付与し、第2のデータセットの各々のデータに、該第1の仮想化ベルとは異なる第2の仮想ラベルを付与して、ラベル付きデータセットを用意するステップと、
    前記ラベル付きデータセットの間の有意な変化を検出する変化検出ステップと、
    前記変化検出ステップで有意な変化が検出されたことに応答して、前記ラベル付きデータセットによって、前記仮想ラベルを使用して分類を行う分類器を訓練し、該分類器の分類に寄与する属性の寄与度を出力するためのステップとを有する、
    変化分析方法。
  12. 前記分類器が、ロジスティック回帰である、請求項11の方法。
  13. 前記分類器が、SVMである、請求項11の方法。
  14. 前記分類器が、決定木である、請求項11の方法。
  15. 前記第1及び第2の仮想ラベルが、それぞれ、+1と-1である、請求項11の方法。
  16. コンピュータの機能により、変化を比較すべき2つのデータセットの変化分析を行うための変化分析プログラムあって、
    前記コンピュータに、
    第1のデータセットの各々のデータに第1の仮想ラベルを付与し、第2のデータセットの各々のデータに、該第1の仮想化ベルとは異なる第2の仮想ラベルを付与して、ラベル付きデータセットを用意するステップと、
    前記ラベル付きデータセットの有意な変化を検出する変化検出ステップと、
    前記変化検出ステップで有意な変化が検出されたことに応答して、前記ラベル付きデータセットによって、前記仮想ラベルを使用して分類を行う分類器を訓練し、該分類器の分類に寄与する属性の寄与度を出力するためのステップとを実行させる、
    変化分析プログラム。
  17. 前記分類器が、ロジスティック回帰である、請求項16のプログラム。
  18. 前記分類器が、SVMである、請求項16のプログラム。
  19. 前記分類器が、決定木である、請求項16のプログラム。
  20. 前記第1及び第2の仮想ラベルが、それぞれ、+1と-1である、請求項16のプログラム。
JP2008049729A 2008-02-29 2008-02-29 変化分析システム、方法及びプログラム Active JP5159368B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008049729A JP5159368B2 (ja) 2008-02-29 2008-02-29 変化分析システム、方法及びプログラム
US12/372,545 US8417648B2 (en) 2008-02-29 2009-02-17 Change analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008049729A JP5159368B2 (ja) 2008-02-29 2008-02-29 変化分析システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009205615A true JP2009205615A (ja) 2009-09-10
JP5159368B2 JP5159368B2 (ja) 2013-03-06

Family

ID=41013916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008049729A Active JP5159368B2 (ja) 2008-02-29 2008-02-29 変化分析システム、方法及びプログラム

Country Status (2)

Country Link
US (1) US8417648B2 (ja)
JP (1) JP5159368B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014055793A (ja) * 2012-09-11 2014-03-27 Tokai Kogaku Kk クラス判別方法
WO2016056095A1 (ja) * 2014-10-08 2016-04-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP2019016003A (ja) * 2017-07-03 2019-01-31 富士通株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
CN109947086A (zh) * 2019-04-11 2019-06-28 清华大学 基于对抗学习的机械故障迁移诊断方法及系统

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750734B (zh) * 2013-12-30 2018-05-11 华为技术有限公司 基于线性支持向量机的分类方法及装置
JP6187977B2 (ja) 2014-06-20 2017-08-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 解析装置、解析方法及びプログラム
US10504035B2 (en) 2015-06-23 2019-12-10 Microsoft Technology Licensing, Llc Reasoning classification based on feature pertubation
CN106056221B (zh) * 2016-05-27 2019-10-29 大连楼兰科技股份有限公司 基于FP-Tree序列模式挖掘和故障码分类的车辆远程诊断与备件检索的方法
CN106096736B (zh) * 2016-05-27 2020-03-24 大连楼兰科技股份有限公司 基于FP-Tree序列模式挖掘的故障诊断与估价的平台
CN106095785B (zh) * 2016-05-27 2020-03-24 大连楼兰科技股份有限公司 基于决策树分类的故障码诊断车辆工项与备件检索方法
CN106056223B (zh) * 2016-05-27 2020-04-14 大连楼兰科技股份有限公司 用于车辆远程诊断与备件检索的平台
CN106021545B (zh) * 2016-05-27 2019-12-24 大连楼兰科技股份有限公司 用于车辆远程诊断与备件检索的方法
CN106056222B (zh) * 2016-05-27 2020-03-24 大连楼兰科技股份有限公司 基于FP-Tree序列模式挖掘的故障诊断与估价的方法
CN106227768B (zh) * 2016-07-15 2019-09-03 国家计算机网络与信息安全管理中心 一种基于互补语料的短文本观点挖掘方法
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106650815A (zh) * 2016-12-28 2017-05-10 北京航天测控技术有限公司 动态粒子群算法优化的多核支持向量机吊舱故障诊断方法及装置
CN107728476B (zh) * 2017-09-20 2020-05-22 浙江大学 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法
CN107844799B (zh) * 2017-10-17 2021-06-08 西安建筑科技大学 一种集成svm机制的冷水机组故障诊断方法
CN108021931A (zh) 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
US11423052B2 (en) * 2017-12-14 2022-08-23 International Business Machines Corporation User information association with consent-based class rules
CN108537260A (zh) * 2018-03-29 2018-09-14 上海交通大学 一种起重机传动轴故障诊断方法和系统
CN108830302B (zh) * 2018-05-28 2022-06-07 苏州大学 一种图像分类方法、训练方法、分类预测方法及相关装置
CN108829088B (zh) * 2018-07-20 2021-11-05 深圳市道通科技股份有限公司 汽车诊断方法、装置及存储介质
CN109032872B (zh) * 2018-08-13 2021-08-10 广东电网有限责任公司广州供电局 基于贝叶斯网络的设备故障诊断方法及系统
CN109165687B (zh) * 2018-08-28 2021-06-15 哈尔滨理工大学 基于多分类支持向量机算法的车用锂电池故障诊断方法
CN109299732B (zh) * 2018-09-12 2020-05-05 北京三快在线科技有限公司 无人驾驶行为决策及模型训练的方法、装置及电子设备
EP3807821A1 (en) * 2018-09-28 2021-04-21 Apple Inc. Distributed labeling for supervised learning
US11481667B2 (en) * 2019-01-24 2022-10-25 International Business Machines Corporation Classifier confidence as a means for identifying data drift
US11537915B2 (en) * 2020-05-14 2022-12-27 International Business Machines Corporation Targeted data acquisition for model training
AU2022230326A1 (en) * 2021-03-01 2023-10-05 Medial Earlysign Ltd. Add-on to a machine learning model for interpretation thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132558A (ja) * 1998-10-22 2000-05-12 Nri & Ncc Co Ltd 分類ルール探求式クラスター分析装置
JP2004157814A (ja) * 2002-11-07 2004-06-03 Fuji Electric Holdings Co Ltd 決定木生成方法およびモデル構造生成装置
JP2005208709A (ja) * 2004-01-20 2005-08-04 Fuji Xerox Co Ltd データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022776A (ja) 1999-07-09 2001-01-26 Hitachi Ltd ルール生成結果通知システム
JP2003316797A (ja) 2002-04-26 2003-11-07 Hitachi Ltd 情報分析システムおよび方法
WO2006001896A2 (en) * 2004-04-26 2006-01-05 Iconix Pharmaceuticals, Inc. A universal gene chip for high throughput chemogenomic analysis
US7223234B2 (en) * 2004-07-10 2007-05-29 Monitrix, Inc. Apparatus for determining association variables
US8095389B2 (en) * 2006-07-17 2012-01-10 H. Lee Moffitt Cancer Center And Research Institute, Inc. Computer systems and methods for selecting subjects for clinical trials
US7899625B2 (en) * 2006-07-27 2011-03-01 International Business Machines Corporation Method and system for robust classification strategy for cancer detection from mass spectrometry data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132558A (ja) * 1998-10-22 2000-05-12 Nri & Ncc Co Ltd 分類ルール探求式クラスター分析装置
JP2004157814A (ja) * 2002-11-07 2004-06-03 Fuji Electric Holdings Co Ltd 決定木生成方法およびモデル構造生成装置
JP2005208709A (ja) * 2004-01-20 2005-08-04 Fuji Xerox Co Ltd データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
松澤裕史、外3名: "教師付き学習を用いた教師なし変化解析手法", 電子情報通信学会論文誌, vol. 第J93−D巻,第6号, JPN6012030980, 1 June 2010 (2010-06-01), JP, pages 816 - 825, ISSN: 0002386138 *
板倉弘幸、外2名: "ラフ集合理論援用によるWebページのテキスト分類", 情報処理学会研究報告(2004−ICS−136), vol. 第2004巻,第85号, JPN6012030975, 6 August 2004 (2004-08-06), JP, pages 147 - 154, ISSN: 0002253592 *
藤野昭典、外2名: "F値最大化学習に基づく文書の多重ラベリング", 情報処理学会研究報告(2007−NL−181), vol. 第2007巻,第94号, JPN6012030977, 25 September 2007 (2007-09-25), JP, pages 29 - 34, ISSN: 0002253593 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014055793A (ja) * 2012-09-11 2014-03-27 Tokai Kogaku Kk クラス判別方法
WO2016056095A1 (ja) * 2014-10-08 2016-04-14 株式会社Ubic データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP2019016003A (ja) * 2017-07-03 2019-01-31 富士通株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
CN109947086A (zh) * 2019-04-11 2019-06-28 清华大学 基于对抗学习的机械故障迁移诊断方法及系统
CN109947086B (zh) * 2019-04-11 2020-07-28 清华大学 基于对抗学习的机械故障迁移诊断方法及系统

Also Published As

Publication number Publication date
US20090222389A1 (en) 2009-09-03
US8417648B2 (en) 2013-04-09
JP5159368B2 (ja) 2013-03-06

Similar Documents

Publication Publication Date Title
JP5159368B2 (ja) 変化分析システム、方法及びプログラム
US10990901B2 (en) Training, validating, and monitoring artificial intelligence and machine learning models
Verma et al. Fairness definitions explained
EP3483797A1 (en) Training, validating, and monitoring artificial intelligence and machine learning models
US20180314975A1 (en) Ensemble transfer learning
Sarazin et al. Expert system dedicated to condition-based maintenance based on a knowledge graph approach: Application to an aeronautic system
García et al. On the use of data filtering techniques for credit risk prediction with instance-based models
Casillo et al. Detecting privacy requirements from User Stories with NLP transfer learning models
Poole et al. On statistic alignment for domain adaptation in structural health monitoring
Shabestari et al. A survey on the applications of machine learning in the early phases of product development
Perini et al. Class prior estimation in active positive and unlabeled learning
Mori et al. Inference in hybrid Bayesian networks with large discrete and continuous domains
Munger et al. The use of domain knowledge models for effective data mining of unstructured customer service data in engineering applications
Jabbari et al. Obtaining accurate probabilistic causal inference by post-processing calibration
Priya et al. Data analytics: feature extraction for application with small sample in classification algorithms
Pombo et al. Contribution of temporal sequence activities to predict bug fixing time
Noroozi Data Heterogeneity and Its Implications for Fairness
Arshad et al. Using CNN to Predict the Resolution Status of Bug Reports
Qazi et al. Discovering temporal patterns from insurance interaction data
Ueda et al. Mitigating Voter Attribute Bias for Fair Opinion Aggregation
Quaresmini et al. Data quality dimensions for fair AI
Kocyigit Process of machine learning methods
US20240062079A1 (en) Assigning trust rating to ai services using causal impact analysis
Ramos Understanding Fairness Bias in Missing Data Imputation
Chehoudi et al. A General Framework for Reliability Assurance of Machine Learning-based Driving Functions in Powertrain Software

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121211

R150 Certificate of patent or registration of utility model

Ref document number: 5159368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3