JP2008546046A - マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム - Google Patents

マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム Download PDF

Info

Publication number
JP2008546046A
JP2008546046A JP2008505320A JP2008505320A JP2008546046A JP 2008546046 A JP2008546046 A JP 2008546046A JP 2008505320 A JP2008505320 A JP 2008505320A JP 2008505320 A JP2008505320 A JP 2008505320A JP 2008546046 A JP2008546046 A JP 2008546046A
Authority
JP
Japan
Prior art keywords
variables
subset
mahalanobis distance
data
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008505320A
Other languages
English (en)
Inventor
ジェイ.グリシュニック アンソニー
セスキン マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Caterpillar Inc
Original Assignee
Caterpillar Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Caterpillar Inc filed Critical Caterpillar Inc
Publication of JP2008546046A publication Critical patent/JP2008546046A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

所望の変数部分集合を提供するためのコンピュータ処理方法。この方法は、複数の変数に対応する1組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。

Description

本発明は、一般に、コンピュータベースの数学的モデリングの技術、より詳細には、所望の変数部分集合を識別するための数学的モデリングの方法及びシステムに関する。
実験、シミュレーション、又は物理測定又は他の技術を通じて収集されたデータレコードを使用して変数間の関係を構築するのに、数学的モデリングの技術がしばしば使用されている。数学的モデルを作成するためには、データレコードが得られた後に、潜在変数を識別する必要があることがある。次いで、データレコードは、識別された変数間の関係を構築するよう分析されることがある。ある状況においては、データレコードの数は、そのデータレコードを生成するのに使用され得るシステムの数によって制限されることがある。このような状況においては、変数の数が利用可能なデータレコードの数を超えることがあり、これにより、いわゆるスパースデータシナリオ(sparse data scenarios)が作成される。
実験計画法(DOE)などの従来の解決方法が、変数及びそれらの相互作用を識別するために開発されてきた。実験計画法はまた、Genichiらによる(非特許文献1)に記述されているような、マハラノビスの距離の概念を使用することがある。Genichiらは、データ分析的であり、かつ測定されるシステムの特性の分布に依存しない、手段及び手順を使用する多寸法測定尺度(multidimensional measurement scales)を開発する方法であるマハラノビス田口法について例示している。しかし、このような従来の解決方法は、しばしば、スパースデータシナリオに関連する課題に効果的に対処していない。
「マハラノビス田口法、パターン技術方式」(ジョン・ワイリー&サンズ社(John Wiley & Sons、Inc.)、2002年)
開示されているシステムのある機能に合致している方法及びシステムの目的は、上記に記載した課題の1つ以上を解決することである。
本発明の一態様には、所望の変数部分集合を提供するためのコンピュータ処理方法が含まれる。この方法は、複数の変数に対応する1組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。
本発明の別の態様には、データセットから普通データ及び異常データを定義するためのコンピュータ処理方法が含まれる。この方法は、クラスタ化アルゴリズムをデータセットに適用することにより、2つ以上のクラスタを得ることと、正規化平均値(normalized means)の最大差を有する第1のクラスタ及び第2のクラスタを判断することと、第1のクラスタを普通データとして及び第2のクラスタを異常データとして定義することとを含むことがある。
本発明の別の態様には、コンピュータシステムが含まれる。コンピュータシステムは、コンソールと、少なくとも1つの入力デバイスとを含むことがある。コンピュータシステムはまた、中央演算処理装置(CPU)を含むことがある。CPUは、複数の変数に対応する1組のデータレコードを得るよう構成されることがあり、データレコードの総数は、複数の変数の総数未満であり得る。CPUは、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義するよう構成されることがある。CPUはまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムをさらに初期設定するよう、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算するよう、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別するよう構成されることがある。
本発明の別の態様には、変数減少手順を遂行するよう構成されたコンピュータシステムで使用するためのコンピュータ読取可能媒体が含まれる。コンピュータ読取可能媒体は、方法を遂行するためのコンピュータ実行可能命令を含むことがある。この方法は、複数の変数に対応する1組のデータレコードを得ることを含むことがある。データレコードの総数は、複数の変数の総数未満であり得る。この方法はまた、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義することと、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することとを含むことがある。この方法は、さらに、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することと、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することとを含むことがある。
次に、添付図面に例示されている例示的実施形態について詳細に言及する。図面全体を通じて、同じ又は同様の部品については、可能なかぎり同じ参照符号を使用する。
図1は、マハラノビスの距離を使用する、かつある開示された実施形態を組み込んでいる、例示的データ分析及び処理の流れ100を例示する流れ図である。マハラノビスの距離とは、データセット内の変数間の相関関係に基づいて、学習曲線、系列位置効果、及びグループプロファイルなどの、データプロファイルを測定するのに使用される数学的表示であり得る。次いで、異なるパターンが、識別され、分析され得る。マハラノビスの距離ではデータセットの相関関係を考慮するという点において、マハラノビスの距離はユークリッドの距離とは異なる。データセットXのマハラノビスの距離(たとえば、多変量ベクトル)は、
MD=(X−μ)Σ−1(X−μ)’ (1)
と表されることがある。
ここで、μとは、Xの平均値であり、Σ−1とは、Xの逆分散/共分散行列である。MDは、その平均値μからのデータポイントXの距離を重み付けして、同じ多変量正規密度輪郭(multivariate normal density contour)についての観測値が同じ距離を有するようにする。このような観測値は、異なる分散を有する別個のデータ群から、相関関係を有する変数を識別し、選択するのに使用されることがある。
図1に示されているように、データレコード又はデータセットは、最初に収集されて、関連する可能性のある変数を識別することがある(プロセス102)。データレコードは、適切な種類の方法によって収集されることがある。たとえば、データレコードは、実際の製品、標本、サービス、及び/又は他の物理的なエンティティからとられることがある。ある実施形態においては、スパースデータシナリオが生じることがある。つまり、データレコードの数が、関連する可能性のある変数の数より少ないことがある。次いで、データレコードは、明らかに誤った又は一貫性のないデータレコードを取り除くよう予め処理されることがある(プロセス104)。
予め処理されたデータは、多数の潜在変数を所望の部分集合の変数に減少させるよう、マハラノビスの距離の遺伝的アルゴリズム(MDGA)などの、あるアルゴリズムに提供されることがある(プロセス106)。次いで、その減少された部分集合の変数は、正確なデータモデルを作成するのに使用されることがある。その部分集合の変数は、さらに、後に検索するためにデータ記憶装置に出力されることがある(プロセス108)。その部分集合の変数はまた、そのデータセットをさらに分析する及び/又はモデル化するために、他のアプリケーションソフトウェアプログラムに直接出力されることがある(プロセス110)。アプリケーションソフトウェアプログラムには、適切な種類のデータ処理ソフトウェアプログラムが含まれることがある。上記に説明したプロセスは、1つ以上のコンピュータシステムによって遂行されることがある。
図2は、これらのプロセスを遂行する例示的コンピュータシステムを示す機能ブロック図である。図2に示されているように、コンピュータシステム200には、中央演算処理装置(CPU)202と、ランダムアクセスメモリ(RAM)204と、読取専用メモリ(ROM)206と、コンソール208と、入力デバイス210と、ネットワークインターフェース212と、データベース214−1及び214−2と、記憶装置216とが含まれることがある。列挙したデバイスの種類及び数は単なる例示であり、制限的なものではないことを理解されたい。列挙したデバイスの数は可変であり、他のデバイスが追加されることもある。
CPU202は、上記に説明した様々なプロセス遂行するために、コンピュータプログラム命令のシーケンスを実行することがある。コンピュータプログラム命令は、CPU202が読取専用メモリ(ROM)から実行するために、RAM204にロードされることがある。記憶装置216は、CPU202がプロセスを遂行するのに必要とする任意の種類の情報を格納するよう設けられた、適切な種類の大容量記憶装置であり得る。たとえば、記憶装置216には、記憶空間を設けるよう、1つ以上のハードディスクデバイス、光学ディスクデバイス、又は他の記憶装置が含まれることがある。
コンソール208には、情報をコンピュータシステム200のユーザに表示するために、グラフィックユーザインターフェース(GUI)が設けられることがある。コンソール208は、適切な種類のコンピュータ表示デバイス又はコンピュータモニターであり得る。ユーザが情報をコンピュータシステム200に入力するよう、入力デバイス210が設けられることがある。入力デバイス210には、キーボード、マウス、又は他の光学又はワイヤレスコンピュータ入力デバイスが含まれることがある。さらに、ネットワークインターフェース212には、コンピュータネットワークを通じてコンピュータシステム200に遠隔アクセスするよう、通信接続が設けられることがある。
データベース214−1及び214−2には、モデルデータと、訓練及び試験データなどの、分析されるデータレコードに関係する任意の情報とが含まれることがある。データベース214−1及び214−2はまた、データベース内の情報を分析するための分析ツールを含むことがある。CPU202は、データベース214−1及び214−2を使用して、変数間の相関関係を判断することがある。
上記に説明したように、コンピュータシステム200は、データセット機能を選択し、変数を減少させるために、プロセス106を遂行することがある。ある実施形態においては、コンピュータシステム200は、MDGAを使用して、プロセス106を遂行することがある。図3は、コンピュータシステム200により、より具体的にはコンピュータシステム200のCPU202により遂行されるプロセス106に含まれる変数減少プロセスを示す例示的流れ図である。
図3に示されているように、変数減少プロセスの開始時に、CPU202は、1組の変数に対応するデータセットを得ることがある(ステップ302)。データセットは、他のソフトウェアプログラムによって予め処理されたデータレコードを含むことがある。代替形態として、CPU202は、他のソフトウェアプログラムから直接、データセットを得ることがある。データセットを得た後、CPU202は、そのデータレコードを普通データ及び異常データとして定義することがある(ステップ304)。普通データは、ある所定の標準を満足させるデータであり得る。たとえば、普通データには、許容差内で製造された製品に関連する寸法又は機能特性データ、許容差内で遂行されたサービスプロセスの性能特性データ、及び/又は他の任意の製品及びプロセスの他の任意の特性データが含まれることがある。普通データにはまた、設計プロセスに関連する特性データが含まれることがある。他方、異常データは、許容差外であり、回避する又は調査する必要がある、任意の特性データであり得る。CPU202は、目標値からの偏差、事象の離散付値、許容しうる不具合、及び/又はデータが分布裾内にあるかどうかに基づいて、普通データ及び異常データを定義することがある。ある実施形態においては、普通データ及び異常データは、対応する技術分野の専門家の意見又は経験的なデータに基づいて定義されることがある。
普通データ及び異常データは、マハラノビスの距離によって分離されることがある。普通データ、異常データ、及びこれに対応するマハラノビスの距離との間の例示的関係が、図4に示されている。図4に示されているように、普通データセット402及び異常データセット404は、マハラノビスの距離によって分離されることがある。マハラノビスの距離MDnormalは、普通データセット402について計算され、マハラノビスの距離MDabnormalは、異常データセット404について計算されることがある。普通データセット402と異常データセット404との間のマハラノビスの距離の偏差又は差MDは、MD=MDx、normal−MDx、abnormalによって判断されることがある。ここで、xとは、データレコードの特定の組の変数である。平均マハラノビスの距離偏差
Figure 2008546046
は、普通データセット402と異常データセット404との間のマハラノビスの距離の偏差全体を評価するために、普通データセット402の平均マハラノビスの距離と異常データセット404の平均マハラノビスの距離とを使用して計算されることがある。他方、マハラノビスの距離MDminは、普通データセット402と異常データセット404との間の、最も近いマハラノビスの距離を示すために計算されることがある。
図3に戻って、普通データセット及び異常データセットを定義した後、CPU202は、マハラノビスの距離の計算と合わせて使用される遺伝的アルゴリズムをセットアップすることがある(ステップ306)。遺伝的アルゴリズムは、進化生物学をコンピュータサイエンスに取り入れる原理に基づいて、最適化された解決方法を発見するのに使用される、適切な種類の遺伝的アルゴリズムであり得る。潜在変数の所望の部分集合を探索するよう遺伝的アルゴリズムを適用した場合には、変数は、遺伝的アルゴリズムの評価手順を進めるのに使用されるパラメータのリストによって表されることがある。パラメータリストは、選択される場合も又は選択されない場合もある、すべての変数の符号化を表す、染色体又はゲノムと呼ばれることがある。たとえば、変数の「0」符号化は、その変数が選択されないことを示し、変数の「1」符号化は、その変数が選択されたことを示すことがある。染色体にはまた遺伝子が含まれることがあり、それぞれが、個々の変数の符号化であり得る。染色体又はゲノムは、数列のデータ及び/又は命令として実施されることがある。
まず、いくつかのこのようなパラメータリスト又は染色体が生成されて、母集団が作成される。母集団は、ある数の染色体の集合であり得る。母集団内の染色体は、適応度関数又は目標関数に基づいて評価され、適合度又は適応度の値が、適応度関数又は目標関数によって戻されることがある。次いで、母集団はソートされ、より良い適応度を有するものが、最高位にランクされる。
遺伝的アルゴリズムは、選択、交錯(又は複製)、及び突然変異などの、任意の又はすべての遺伝的操作を使用して、ソートされた最初の母集団から第2の母集団を生成することがある。選択中に、所定の閾値未満の適応度値を有する母集団内の染色体が、削除されることがある。ルーレットホイール選択及び/又はトーナメント選択などの選択方法も使用されることがある。選択後、複製オペレーションが、選択された染色体に遂行されることがある。2つの選択された染色体が、無作為に選択された交錯点に沿って交錯されることがある。次いで、2つの新しい子供の染色体が作られ、母集団に追加されることがある。母集団の大きさが復元されるまで、複製オペレーションが続行されることがある。母集団の大きさが復元されると、突然変異が、母集団に選択的に遂行されることがある。突然変異は、たとえば、染色体データ構造内のビットを無作為に変更することにより、無作為に選択された染色体に遂行されることがある。
選択、複製、及び突然変異により、最初世代とは異なる染色体を有する第2世代の母集団が生じることがある。第1世代からのより適合された染色体が選択されるので、第2世代のためのこの手順により、平均的な適応度が増加することがある。このプロセス全体は、遺伝的アルゴリズムが収束するまで、任意の適切な数の世代について繰り返されることがある。それぞれの世代中の遺伝的アルゴリズムの結果が向上し、かつ向上率が所定の率未満に達すると、収束と判断されることがある。この率は、特定のアプリケーションによって選ばれることがある。たとえば、率は、一般的なアプリケーションについては約1%に設定され、またより複雑なアプリケーションについては約0.1%に設定されることがある。
CPU202は、遺伝的アルゴリズムをセットアップした(ステップ306)場合には、所望の部分集合の最大数の変数を識別することがある。上記に説明したように、データセットは、データセット内の総データレコードより多い潜在変数を含むスパースデータセットであり得る。一実施形態においては、最大数は、データセット内の総データレコードの数以下であり得る。CPU202は、この最大数を遺伝的アルゴリズムの染色体符号化に対する制約条件として設定することがある。
CPU202はまた、染色体の適合度又は適応度を評価するために、遺伝的アルゴリズムのための目標関数を設定することがある。ある実施形態においては、目標関数は、普通データセット402と異常データセット404との間のマハラノビスの距離を最大限にすることを含むことがある。マハラノビスの距離の最大偏差は、上述したように、
Figure 2008546046
、MDmin、又はその両方に基づいて判断されることがある。オペレーション中、普通データセット402と異常データセット404との間のマハラノビスの距離偏差が所定の閾値を超えると、目標関数は満足される。マハラノビスの距離偏差の1つ以上の値はまた、収束を判断するなどの、さらなる評価のために目標関数によって戻されることがある。
遺伝的アルゴリズムをセットアップした後(ステップ306)、CPU202は、遺伝的アルゴリズムを開始することがある(ステップ308)。CPU202は、遺伝的アルゴリズムのために、変数の最初の部分集合又は複数の部分集合又はパラメータリストを選ぶことがある。CPU202は、ユーザ入力に基づいて、最初の部分集合を選ぶことがある。代替形態として、CPU202は、潜在変数の間の相関関係及び変数とアプリケーション110の結果との間の相関関係に基づいて、最初の部分集合を選ぶことがある。相関関係は、製造、サービス、財務、及び/又は調査研究アプリケーションなどの、特定のアプリケーションに依存することがある。たとえば、ユニット変数、価格変数、及び天候変数を含む、財務アプリケーションにおいては、ユニット変数及び価格変数は、相関関係を有する可能性があり得る。冗長性を回避するために、ユニット変数及び価格変数の1つのみが選ばれることがあり、天候変数は他の2つと余り相関関係を有する可能性がなく、これも選択されることもある。しかし、ユニット変数及び価格変数の両方が財務アプリケーションの結果、たとえば総費用と相関関係を有する場合、ユニット変数及び価格変数の両方が選択されることがある。
さらに、代替形態として、CPU202により、遺伝的アルゴリズムが、変数の1つ又は複数の部分集合を最初の染色体として無作為に選択することがある。部分集合を無作為に選択するのに使用される乱数の根が、所定の形態に基づいて、ユーザによって又は遺伝的アルゴリズムによって設定されることがある。次いで、CPU202は、選択された変数部分集合に基づいて、普通データ及び異常データの両方についてマハラノビスの距離を計算することがある(ステップ310)。この計算は、等式1に関係する一連のステップに従って、CPU202によって遂行されることがある。たとえば、CPU202は、記述統計を計算する、Z値を計算する、相関行列を構築する、相関行列を逆転させる、Z転置を計算する、マハラノビスの距離を計算することがある。
マハラノビスの距離(たとえば、MDnormal、MDabnormal
Figure 2008546046
及び/又はMDmin)が計算された後、目標関数が評価されることがある。CPU202は、さらに、遺伝的アルゴリズムが選択された部分集合の変数について収束するかどうかを判断することがある(ステップ312)。アプリケーションの種類によっては、所定の基準が使用されることがある。たとえば、遺伝的アルゴリズムが収束するかどうかを判断するのに、約0.1%の向上率が使用されることがある。遺伝的アルゴリズムが特定の部分集合について収束しない場合(ステップ312;いいえ)、上記に説明したように、遺伝的アルゴリズムは、次世代の染色体を作成するよう続行されることがある。変数減少プロセスは、ステップ310に進み、新しく作成された部分集合の変数又は染色体に基づいてマハラノビスの距離を再計算する。他方、遺伝的アルゴリズムが特定の部分集合で収束した場合(ステップ312;はい)、CPU202は、所望の又は最適化された変数部分集合が発見されたと判断することがある。
CPU202は、さらに、変数減少プロセスにより遺伝的アルゴリズムが収束する、最適化された部分集合の変数を保存することがある(ステップ314)。CPU202はまた、後に検索するために記憶装置216内に、或いはデータベース214−1及び/又はデータベース214−2内に、その部分集合を保存することがある。CPU202はまた、さらに処理又は分析するために、その部分集合の変数を他のアプリケーションソフトウェアプログラムに出力することがある(ステップ316)。
ある実施形態においては、CPU202はまた、ステップ304に関して記述したように、クラスタ化アルゴリズムを使用して、普通データセット及び異常データセットを定義することがある。クラスタ化アルゴリズムは、k−平均、ファジィk−平均、最隣接、kohonenネットワーク、及び/又はART(adaptive resonance theory)ネットワークなどの、適切な種類のクラスタ化アルゴリズムを含むことがある。一実施形態においては、「v−fold」交差検証法を用いたk−平均クラスタ化アルゴリズムが使用されることがある。普通データセット及び異常データセットの定義の開始時に、CPU202は、データセットの固有のデータクラスタ(たとえば、同様のデータ又は相関関係を有するデータ)を識別することがある。2つのクラスタのみが識別された場合、CPU202は、1つのクラスタを普通データセットとして使用し、他のクラスタを異常データセットとして使用することがある。ある状況においては、2つを超えるクラスタが識別されることがある。たとえば、CPU202は、データセットの、3つの、4つの、又はさらにより多くのクラスタを判断することがある。図5は、3つのクラスタが識別された、例示的データセットを例示している。
図5に示されているように、クラスタ502、504、及び506は、クラスタ化アルゴリズムを遂行した後、CPU202によって判断されることがある。CPU202は、正規化平均値の最大差を有する2つのクラスタを普通データセット及び異常データセットとして識別することを決定することがある(たとえば、クラスタ502は普通データセットを表し、クラスタ504は異常データセットを表すことがある)。CPU202は、さらに、クラスタ502とクラスタ506との間の正規化平均値の差、及びクラスタ504とクラスタ506との間の正規化平均値の差を判断することがある。これらの差を比較することにより、CPU202は、クラスタ506が普通データセット又は異常データセットのいずれに含まれるべきであるかどうかを決定することがある。たとえば、クラスタ502とクラスタ506との間の正規化平均値の差が、クラスタ504とクラスタ506との間の正規化平均値の差より大きい場合、CPU202は、クラスタ506を異常データとして定義することがある。他方、クラスタ502とクラスタ506との間の正規化平均値の差が、クラスタ504とクラスタ506との間の正規化平均値の差未満である場合、CPU202は、クラスタ506を普通データとして定義することがある。
代替形態として、CPU202は、クラスタ506及びクラスタ502及びクラスタ504のそれぞれの要素の間の差を判断することがある。次いで、CPU202は、その差に基づいて、クラスタ506の特定の要素が普通データとして定義されるべきであるか又は異常データとして定義されるべきであるかを決定することがある。図5には3つのクラスタが示されているが、任意の数のクラスタが使用されることもある。
さらに、変数間の関係はまた、クラスタ化アルゴリズムのオペレーション中に、特に、2つを超えるクラスタが判断され、データセットの1つの中に個々の要素が含まれることが決定された場合に、識別されることがある。このような関係は、さらに、CPU202により、部分集合の変数の最初の選択を判断するよう、遺伝的アルゴリズムに提供されることがある。たとえば、いくつかの変数がクラスタの判断にかなり寄与する場合、これらの変数は、所望の部分集合の変数内に含まれている可能性があり、したがって、遺伝的アルゴリズムの母集団の種となる(seed)よう提供されることがある。
開示されているマハラノビスの距離の遺伝的アルゴリズム(MDGA)の方法及びシステムは、他の従来の方法及びシステムでは達成するのが困難である又は実際的でない、スパースデータシナリオにおいて変数を効果的に減少させるための所望の解決方法を提供することがある。開示されている方法及びシステムは、より正確なモデルを作成するのに使用され得る、所望の部分集合の変数を識別するのに使用されることがある。開示されている方法及びシステムが組み込まれた場合には、他の統計的又は人工知能モデリングツールの性能が著しく向上することがある。
開示されている方法及びシステムはまた、寸法又は変数の数がそれぞれの変数がサポートする可能な動作数より大きい、データセットの寸法を効果的に減少させるのに使用されることがある。開示されている方法及びシステムは、スパースデータシナリオ又はデータが逆のシナリオなどの、様々なシナリオにおけるデータセットの寸法を減少させることがある。
開示されている方法及びシステムはまた、クラスタ化アルゴリズムを使用してデータ特性を定義する選択肢を提供することがある。開示されているクラスタ化アルゴリズムは、クラスタ数についての事前知識なしで、普通データセット及び異常データセットを分類するための所望のデータレコードを効果的に発見することがある。組み合わせられたクラスタ化されたMDGAは、異なるデータレコード間を定量的に区別し得る、最も経済的な解決方法のための、変数の候補部分集合を探索する能力などの、追加機能を提供することがある。このようなデータ特性は、さらに、モデリングツールの演算速度を増加するよう、知識ベースのモデリングツールに提供されることがある。
開示されている例示的システムの、他の実施形態、特徴、態様、及び原理は、当業者には自明であり、また作業現場の環境に制限されない様々な環境において実施されるものである。
ある開示された実施形態に合致している、例示的データ分析及び処理の流れを例示する流れ図である。 ある開示された実施形態に合致しているコンピュータシステムを例示するブロック図である。 コンピュータシステムによって遂行される例示的変数減少プロセスを例示する流れ図である。 普通データと異常データとこれに対応するマハラノビスの距離との間の例示的関係を例示する図である。 開示された実施形態に合致している、データセットの例示的クラスタを例示する図である。

Claims (10)

  1. 所望の変数部分集合を識別するためのコンピュータ処理方法であって、
    複数の変数に対応する1組のデータレコードを得ることと、
    所定の基準に基づいて、データレコードを普通データ又は異常データとして定義することと、
    複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することと、
    部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することと、
    マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することとを含むコンピュータ処理方法。
  2. データレコードの総数が、複数の変数の総数未満である請求項1に記載のコンピュータ処理方法。
  3. 定義することが、
    データレコードに対して遂行されるクラスタ化アルゴリズムからの1つ以上の結果に基づいて、データレコードを普通データ又は異常データとして定義することを含む請求項1に記載のコンピュータ処理方法。
  4. マハラノビスの距離を計算することが、
    部分集合の変数に基づいて、普通データの第1のマハラノビスの距離を計算することと、
    部分集合の変数に基づいて、異常データの第2のマハラノビスの距離を計算することと、
    第1のマハラノビスの距離と第2のマハラノビスの距離との間のマハラノビスの距離偏差を判断することとを含む請求項1に記載のコンピュータ処理方法。
  5. 識別することが、
    マハラノビスの距離偏差を最大限にするために、遺伝的アルゴリズムの目標関数を設定することと、
    遺伝的アルゴリズムを開始することと、
    遺伝的アルゴリズムが収束するかどうかを判断することと、
    遺伝的アルゴリズムが収束する場合、部分集合の変数を複数の変数の所望の部分集合変数として識別することとを含む請求項4に記載のコンピュータ処理方法。
  6. 識別することが、
    遺伝的アルゴリズムが収束しない場合、部分集合の変数に基づいて及び遺伝的アルゴリズムに従って、異なる部分集合の変数を選ぶことと、
    異なる部分集合の変数に基づいて、異なるマハラノビスの距離偏差を計算することと、
    異なる部分集合の変数に基づいて所望の部分集合の変数を識別するよう、遺伝的アルゴリズムを遂行することとをさらに含む請求項5に記載のコンピュータ処理方法。
  7. コンソール(208)と、
    少なくとも1つの入力デバイス(210)と、
    中央演算処理装置(CPU)(202)とを備えたコンピュータシステム(200)であって、
    中央演算処理装置(CPU)が、
    複数の変数に対応する1組のデータレコードを得るよう構成され、ここでデータレコードの総数が、複数の変数の総数未満であり、
    さらに、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義するよう、
    複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定するよう、
    部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算するよう、
    マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別するよう構成されたコンピュータシステム(200)。
  8. マハラノビスの距離を計算するために、CPU(202)が、
    部分集合の変数に基づいて、普通データの第1のマハラノビスの距離を計算するよう、
    部分集合の変数に基づいて、異常データの第2のマハラノビスの距離を計算するよう、
    第1のマハラノビスの距離と第2のマハラノビスの距離との間のマハラノビスの距離偏差を判断するよう構成された請求項7に記載のコンピュータシステム(200)。
  9. 所望の部分集合を識別するために、CPU(202)が、
    マハラノビスの距離偏差を最大限にするために、遺伝的アルゴリズムの目標関数を設定するよう、
    遺伝的アルゴリズムを開始するよう、
    遺伝的アルゴリズムが収束するかどうかを判断するよう、
    遺伝的アルゴリズムが収束した場合、部分集合の変数を複数の変数の所望の部分集合変数として識別するよう構成された請求項8に記載のコンピュータシステム(200)。
  10. 1つ以上のデータベース(214−1、214−2)と、
    1つ以上のネットワークインターフェース(212)とをさらに含む請求項に7記載のコンピュータシステム(200)。
JP2008505320A 2005-04-08 2006-03-13 マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム Withdrawn JP2008546046A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/101,556 US20060230018A1 (en) 2005-04-08 2005-04-08 Mahalanobis distance genetic algorithm (MDGA) method and system
PCT/US2006/008841 WO2006110244A2 (en) 2005-04-08 2006-03-13 Mahalanobis distance genetic algorithm method and system

Publications (1)

Publication Number Publication Date
JP2008546046A true JP2008546046A (ja) 2008-12-18

Family

ID=37046901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008505320A Withdrawn JP2008546046A (ja) 2005-04-08 2006-03-13 マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム

Country Status (5)

Country Link
US (1) US20060230018A1 (ja)
EP (1) EP1866814A2 (ja)
JP (1) JP2008546046A (ja)
AU (1) AU2006234877A1 (ja)
WO (1) WO2006110244A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523109A (ja) * 2008-11-25 2011-08-04 株式会社日立製作所 ライト完了を検知する機能を有するストレージシステム
JP2019125206A (ja) * 2018-01-17 2019-07-25 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2020052460A (ja) * 2018-09-21 2020-04-02 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209156B2 (en) 2005-04-08 2012-06-26 Caterpillar Inc. Asymmetric random scatter process for probabilistic modeling system for product design
US8364610B2 (en) 2005-04-08 2013-01-29 Caterpillar Inc. Process modeling and optimization method and system
US7877239B2 (en) 2005-04-08 2011-01-25 Caterpillar Inc Symmetric random scatter process for probabilistic modeling system for product design
US8478506B2 (en) 2006-09-29 2013-07-02 Caterpillar Inc. Virtual sensor based engine control system and method
US20080183449A1 (en) * 2007-01-31 2008-07-31 Caterpillar Inc. Machine parameter tuning method and system
CA2677087A1 (en) * 2007-02-05 2008-08-14 Andrew Corporation System and method for optimizing location estimate of mobile unit
US7924782B2 (en) * 2007-04-27 2011-04-12 Sharp Laboratories Of America, Inc. Systems and methods for assigning reference signals using a genetic algorithm
US7787969B2 (en) 2007-06-15 2010-08-31 Caterpillar Inc Virtual sensor system and method
US7831416B2 (en) 2007-07-17 2010-11-09 Caterpillar Inc Probabilistic modeling system for product design
US7788070B2 (en) * 2007-07-30 2010-08-31 Caterpillar Inc. Product design optimization method and system
US20090112533A1 (en) * 2007-10-31 2009-04-30 Caterpillar Inc. Method for simplifying a mathematical model by clustering data
US8036764B2 (en) 2007-11-02 2011-10-11 Caterpillar Inc. Virtual sensor network (VSN) system and method
US8224468B2 (en) * 2007-11-02 2012-07-17 Caterpillar Inc. Calibration certificate for virtual sensor network (VSN)
US8086640B2 (en) 2008-05-30 2011-12-27 Caterpillar Inc. System and method for improving data coverage in modeling systems
US8073652B2 (en) * 2008-07-03 2011-12-06 Caterpillar Inc. Method and system for pre-processing data using the mahalanobis distance (MD)
US7917333B2 (en) 2008-08-20 2011-03-29 Caterpillar Inc. Virtual sensor network (VSN) based control system and method
US8190536B2 (en) * 2008-09-10 2012-05-29 King Fahd University Of Petroleum & Minerals Method of performing parallel search optimization
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8738280B2 (en) * 2011-06-09 2014-05-27 Autotalks Ltd. Methods for activity reduction in pedestrian-to-vehicle communication networks
US8793004B2 (en) 2011-06-15 2014-07-29 Caterpillar Inc. Virtual sensor system and method for generating output parameters
CA2889382C (en) * 2012-11-05 2019-01-22 Landmark Graphics Corporation System, method and computer program product for wellbore event modeling using rimlier data
JP2017076334A (ja) * 2015-10-16 2017-04-20 株式会社日立製作所 管理サーバ及び管理システム及び管理方法
US10200382B2 (en) 2015-11-05 2019-02-05 Radware, Ltd. System and method for detecting abnormal traffic behavior using infinite decaying clusters
JP5973096B1 (ja) * 2016-01-14 2016-08-23 三菱日立パワーシステムズ株式会社 プラント分析装置、プラント分析方法、およびプログラム
CN109857804B (zh) * 2018-12-26 2021-05-18 同盾控股有限公司 一种分布式模型参数的搜索方法、装置和电子设备
CN110543151B (zh) * 2019-08-12 2021-04-09 科大智能物联技术有限公司 基于改进nsga-ⅱ求解车间节能调度问题的方法
US20210303441A1 (en) * 2020-03-27 2021-09-30 Paypal, Inc. Systems and methods for dynamically logging application data

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434796A (en) * 1993-06-30 1995-07-18 Daylight Chemical Information Systems, Inc. Method and apparatus for designing molecules with desired properties by evolving successive populations
US5566091A (en) * 1994-06-30 1996-10-15 Caterpillar Inc. Method and apparatus for machine health inference by comparing two like loaded components
US5604306A (en) * 1995-07-28 1997-02-18 Caterpillar Inc. Apparatus and method for detecting a plugged air filter on an engine
US6199007B1 (en) * 1996-07-09 2001-03-06 Caterpillar Inc. Method and system for determining an absolute power loss condition in an internal combustion engine
US5842202A (en) * 1996-11-27 1998-11-24 Massachusetts Institute Of Technology Systems and methods for data quality management
US5950147A (en) * 1997-06-05 1999-09-07 Caterpillar Inc. Method and apparatus for predicting a fault condition
US6086617A (en) * 1997-07-18 2000-07-11 Engineous Software, Inc. User directed heuristic design optimization search
US5914890A (en) * 1997-10-30 1999-06-22 Caterpillar Inc. Method for determining the condition of engine oil based on soot modeling
US6119074A (en) * 1998-05-20 2000-09-12 Caterpillar Inc. Method and apparatus of predicting a fault condition
US6442511B1 (en) * 1999-09-03 2002-08-27 Caterpillar Inc. Method and apparatus for determining the severity of a trend toward an impending machine failure and responding to the same
US20020042784A1 (en) * 2000-10-06 2002-04-11 Kerven David S. System and method for automatically searching and analyzing intellectual property-related materials
US6823675B2 (en) * 2002-11-13 2004-11-30 General Electric Company Adaptive model-based control systems and methods for controlling a gas turbine
US7379598B2 (en) * 2003-08-29 2008-05-27 The Johns Hopkins University Distance sorting algorithm for matching patterns

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011523109A (ja) * 2008-11-25 2011-08-04 株式会社日立製作所 ライト完了を検知する機能を有するストレージシステム
JP2019125206A (ja) * 2018-01-17 2019-07-25 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2020052460A (ja) * 2018-09-21 2020-04-02 東洋製罐グループホールディングス株式会社 異常検出システム、及び異常検出プログラム

Also Published As

Publication number Publication date
WO2006110244A3 (en) 2006-12-21
US20060230018A1 (en) 2006-10-12
EP1866814A2 (en) 2007-12-19
WO2006110244A2 (en) 2006-10-19
AU2006234877A1 (en) 2006-10-19

Similar Documents

Publication Publication Date Title
JP2008546046A (ja) マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム
Keedwell et al. Discovering gene networks with a neural-genetic hybrid
CN112070125A (zh) 一种基于孤立森林学习的不平衡数据集的预测方法
JP4934058B2 (ja) 共クラスタリング装置、共クラスタリング方法、共クラスタリングプログラム、および、そのプログラムを記録した記録媒体
US8364610B2 (en) Process modeling and optimization method and system
JP7085513B2 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
CN107810502A (zh) 用于拷贝数变异检测的方法和系统
JP2008538429A (ja) ゼータ統計を用いるモデル最適化方法及びシステム
CN110379521B (zh) 基于信息论的医疗数据集特征选择方法
KR20230004566A (ko) 머신 러닝 모델을 사용한 로컬 조상 추론
WO2018088277A1 (ja) 予測モデル生成システム、方法およびプログラム
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Vignes et al. Gene clustering via integrated Markov models combining individual and pairwise features
Lorena et al. Evaluation of noise reduction techniques in the splice junction recognition problem
US11435357B2 (en) System and method for discovery of gene-environment interactions
De Souza et al. A comprehensive comparison of ml algorithms for gene expression data classification
Peignier et al. Data-driven gene regulatory networks inference based on classification algorithms
Gamage et al. Filter feature selection based boolean modelling for genetic network inference
EP3989129A1 (en) A computer-implemented method for deriving a data processing and inference pipeline
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
Muraro et al. Inference of the genetic network regulating lateral root initiation in Arabidopsis thaliana
CN111553071B (zh) 一种基于随机嵌入辅助模型的高维多目标演化优化方法
US20220301713A1 (en) Systems and methods for disease and trait prediction through genomic analysis
Ramkumar et al. Research Article Healthcare Biclustering-Based Prediction on Gene Expression Dataset
Carballido et al. Preclas: an evolutionary tool for unsupervised feature selection

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090602