JP2008546046A

JP2008546046A - マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム

Info

Publication number: JP2008546046A
Application number: JP2008505320A
Authority: JP
Inventors: ジェイ．グリシュニックアンソニー; セスキンマイケル
Original assignee: Caterpillar Inc
Current assignee: Caterpillar Inc
Priority date: 2005-04-08
Filing date: 2006-03-13
Publication date: 2008-12-18
Also published as: WO2006110244A3; US20060230018A1; EP1866814A2; WO2006110244A2; AU2006234877A1

Abstract

所望の変数部分集合を提供するためのコンピュータ処理方法。この方法は、複数の変数に対応する１組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの１つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。

Description

本発明は、一般に、コンピュータベースの数学的モデリングの技術、より詳細には、所望の変数部分集合を識別するための数学的モデリングの方法及びシステムに関する。

実験、シミュレーション、又は物理測定又は他の技術を通じて収集されたデータレコードを使用して変数間の関係を構築するのに、数学的モデリングの技術がしばしば使用されている。数学的モデルを作成するためには、データレコードが得られた後に、潜在変数を識別する必要があることがある。次いで、データレコードは、識別された変数間の関係を構築するよう分析されることがある。ある状況においては、データレコードの数は、そのデータレコードを生成するのに使用され得るシステムの数によって制限されることがある。このような状況においては、変数の数が利用可能なデータレコードの数を超えることがあり、これにより、いわゆるスパースデータシナリオ（ｓｐａｒｓｅｄａｔａｓｃｅｎａｒｉｏｓ）が作成される。

実験計画法（ＤＯＥ）などの従来の解決方法が、変数及びそれらの相互作用を識別するために開発されてきた。実験計画法はまた、Ｇｅｎｉｃｈｉらによる（非特許文献１）に記述されているような、マハラノビスの距離の概念を使用することがある。Ｇｅｎｉｃｈｉらは、データ分析的であり、かつ測定されるシステムの特性の分布に依存しない、手段及び手順を使用する多寸法測定尺度（ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｍｅａｓｕｒｅｍｅｎｔｓｃａｌｅｓ）を開発する方法であるマハラノビス田口法について例示している。しかし、このような従来の解決方法は、しばしば、スパースデータシナリオに関連する課題に効果的に対処していない。

「マハラノビス田口法、パターン技術方式」（ジョン・ワイリー＆サンズ社（ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ、Ｉｎｃ．）、２００２年）

開示されているシステムのある機能に合致している方法及びシステムの目的は、上記に記載した課題の１つ以上を解決することである。

本発明の一態様には、所望の変数部分集合を提供するためのコンピュータ処理方法が含まれる。この方法は、複数の変数に対応する１組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの１つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。

本発明の別の態様には、データセットから普通データ及び異常データを定義するためのコンピュータ処理方法が含まれる。この方法は、クラスタ化アルゴリズムをデータセットに適用することにより、２つ以上のクラスタを得ることと、正規化平均値（ｎｏｒｍａｌｉｚｅｄｍｅａｎｓ）の最大差を有する第１のクラスタ及び第２のクラスタを判断することと、第１のクラスタを普通データとして及び第２のクラスタを異常データとして定義することとを含むことがある。

本発明の別の態様には、コンピュータシステムが含まれる。コンピュータシステムは、コンソールと、少なくとも１つの入力デバイスとを含むことがある。コンピュータシステムはまた、中央演算処理装置（ＣＰＵ）を含むことがある。ＣＰＵは、複数の変数に対応する１組のデータレコードを得るよう構成されることがあり、データレコードの総数は、複数の変数の総数未満であり得る。ＣＰＵは、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義するよう構成されることがある。ＣＰＵはまた、複数の変数からの１つの部分集合の変数を用いて遺伝的アルゴリズムをさらに初期設定するよう、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算するよう、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別するよう構成されることがある。

本発明の別の態様には、変数減少手順を遂行するよう構成されたコンピュータシステムで使用するためのコンピュータ読取可能媒体が含まれる。コンピュータ読取可能媒体は、方法を遂行するためのコンピュータ実行可能命令を含むことがある。この方法は、複数の変数に対応する１組のデータレコードを得ることを含むことがある。データレコードの総数は、複数の変数の総数未満であり得る。この方法はまた、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義することと、複数の変数からの１つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することとを含むことがある。この方法は、さらに、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することと、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することとを含むことがある。

次に、添付図面に例示されている例示的実施形態について詳細に言及する。図面全体を通じて、同じ又は同様の部品については、可能なかぎり同じ参照符号を使用する。

図１は、マハラノビスの距離を使用する、かつある開示された実施形態を組み込んでいる、例示的データ分析及び処理の流れ１００を例示する流れ図である。マハラノビスの距離とは、データセット内の変数間の相関関係に基づいて、学習曲線、系列位置効果、及びグループプロファイルなどの、データプロファイルを測定するのに使用される数学的表示であり得る。次いで、異なるパターンが、識別され、分析され得る。マハラノビスの距離ではデータセットの相関関係を考慮するという点において、マハラノビスの距離はユークリッドの距離とは異なる。データセットＸのマハラノビスの距離（たとえば、多変量ベクトル）は、
ＭＤ_ｉ＝（Ｘ_ｉ−μ_ｘ）Σ^−１（Ｘ_ｉ−μ_ｘ）’ （１）
と表されることがある。
ここで、μ_ｘとは、Ｘの平均値であり、Σ^−１とは、Ｘの逆分散／共分散行列である。ＭＤ_ｉは、その平均値μ_ｘからのデータポイントＸ_ｉの距離を重み付けして、同じ多変量正規密度輪郭（ｍｕｌｔｉｖａｒｉａｔｅｎｏｒｍａｌｄｅｎｓｉｔｙｃｏｎｔｏｕｒ）についての観測値が同じ距離を有するようにする。このような観測値は、異なる分散を有する別個のデータ群から、相関関係を有する変数を識別し、選択するのに使用されることがある。

図１に示されているように、データレコード又はデータセットは、最初に収集されて、関連する可能性のある変数を識別することがある（プロセス１０２）。データレコードは、適切な種類の方法によって収集されることがある。たとえば、データレコードは、実際の製品、標本、サービス、及び／又は他の物理的なエンティティからとられることがある。ある実施形態においては、スパースデータシナリオが生じることがある。つまり、データレコードの数が、関連する可能性のある変数の数より少ないことがある。次いで、データレコードは、明らかに誤った又は一貫性のないデータレコードを取り除くよう予め処理されることがある（プロセス１０４）。

予め処理されたデータは、多数の潜在変数を所望の部分集合の変数に減少させるよう、マハラノビスの距離の遺伝的アルゴリズム（ＭＤＧＡ）などの、あるアルゴリズムに提供されることがある（プロセス１０６）。次いで、その減少された部分集合の変数は、正確なデータモデルを作成するのに使用されることがある。その部分集合の変数は、さらに、後に検索するためにデータ記憶装置に出力されることがある（プロセス１０８）。その部分集合の変数はまた、そのデータセットをさらに分析する及び／又はモデル化するために、他のアプリケーションソフトウェアプログラムに直接出力されることがある（プロセス１１０）。アプリケーションソフトウェアプログラムには、適切な種類のデータ処理ソフトウェアプログラムが含まれることがある。上記に説明したプロセスは、１つ以上のコンピュータシステムによって遂行されることがある。

図２は、これらのプロセスを遂行する例示的コンピュータシステムを示す機能ブロック図である。図２に示されているように、コンピュータシステム２００には、中央演算処理装置（ＣＰＵ）２０２と、ランダムアクセスメモリ（ＲＡＭ）２０４と、読取専用メモリ（ＲＯＭ）２０６と、コンソール２０８と、入力デバイス２１０と、ネットワークインターフェース２１２と、データベース２１４−１及び２１４−２と、記憶装置２１６とが含まれることがある。列挙したデバイスの種類及び数は単なる例示であり、制限的なものではないことを理解されたい。列挙したデバイスの数は可変であり、他のデバイスが追加されることもある。

ＣＰＵ２０２は、上記に説明した様々なプロセス遂行するために、コンピュータプログラム命令のシーケンスを実行することがある。コンピュータプログラム命令は、ＣＰＵ２０２が読取専用メモリ（ＲＯＭ）から実行するために、ＲＡＭ２０４にロードされることがある。記憶装置２１６は、ＣＰＵ２０２がプロセスを遂行するのに必要とする任意の種類の情報を格納するよう設けられた、適切な種類の大容量記憶装置であり得る。たとえば、記憶装置２１６には、記憶空間を設けるよう、１つ以上のハードディスクデバイス、光学ディスクデバイス、又は他の記憶装置が含まれることがある。

コンソール２０８には、情報をコンピュータシステム２００のユーザに表示するために、グラフィックユーザインターフェース（ＧＵＩ）が設けられることがある。コンソール２０８は、適切な種類のコンピュータ表示デバイス又はコンピュータモニターであり得る。ユーザが情報をコンピュータシステム２００に入力するよう、入力デバイス２１０が設けられることがある。入力デバイス２１０には、キーボード、マウス、又は他の光学又はワイヤレスコンピュータ入力デバイスが含まれることがある。さらに、ネットワークインターフェース２１２には、コンピュータネットワークを通じてコンピュータシステム２００に遠隔アクセスするよう、通信接続が設けられることがある。

データベース２１４−１及び２１４−２には、モデルデータと、訓練及び試験データなどの、分析されるデータレコードに関係する任意の情報とが含まれることがある。データベース２１４−１及び２１４−２はまた、データベース内の情報を分析するための分析ツールを含むことがある。ＣＰＵ２０２は、データベース２１４−１及び２１４−２を使用して、変数間の相関関係を判断することがある。

上記に説明したように、コンピュータシステム２００は、データセット機能を選択し、変数を減少させるために、プロセス１０６を遂行することがある。ある実施形態においては、コンピュータシステム２００は、ＭＤＧＡを使用して、プロセス１０６を遂行することがある。図３は、コンピュータシステム２００により、より具体的にはコンピュータシステム２００のＣＰＵ２０２により遂行されるプロセス１０６に含まれる変数減少プロセスを示す例示的流れ図である。

図３に示されているように、変数減少プロセスの開始時に、ＣＰＵ２０２は、１組の変数に対応するデータセットを得ることがある（ステップ３０２）。データセットは、他のソフトウェアプログラムによって予め処理されたデータレコードを含むことがある。代替形態として、ＣＰＵ２０２は、他のソフトウェアプログラムから直接、データセットを得ることがある。データセットを得た後、ＣＰＵ２０２は、そのデータレコードを普通データ及び異常データとして定義することがある（ステップ３０４）。普通データは、ある所定の標準を満足させるデータであり得る。たとえば、普通データには、許容差内で製造された製品に関連する寸法又は機能特性データ、許容差内で遂行されたサービスプロセスの性能特性データ、及び／又は他の任意の製品及びプロセスの他の任意の特性データが含まれることがある。普通データにはまた、設計プロセスに関連する特性データが含まれることがある。他方、異常データは、許容差外であり、回避する又は調査する必要がある、任意の特性データであり得る。ＣＰＵ２０２は、目標値からの偏差、事象の離散付値、許容しうる不具合、及び／又はデータが分布裾内にあるかどうかに基づいて、普通データ及び異常データを定義することがある。ある実施形態においては、普通データ及び異常データは、対応する技術分野の専門家の意見又は経験的なデータに基づいて定義されることがある。

普通データ及び異常データは、マハラノビスの距離によって分離されることがある。普通データ、異常データ、及びこれに対応するマハラノビスの距離との間の例示的関係が、図４に示されている。図４に示されているように、普通データセット４０２及び異常データセット４０４は、マハラノビスの距離によって分離されることがある。マハラノビスの距離ＭＤ_{ｎｏｒｍａｌ}は、普通データセット４０２について計算され、マハラノビスの距離ＭＤ_{ａｂｎｏｒｍａｌ}は、異常データセット４０４について計算されることがある。普通データセット４０２と異常データセット４０４との間のマハラノビスの距離の偏差又は差ＭＤ_ｘは、ＭＤ_ｘ＝ＭＤ_{ｘ、ｎｏｒｍａｌ}−ＭＤ_{ｘ、ａｂｎｏｒｍａｌ}によって判断されることがある。ここで、ｘとは、データレコードの特定の組の変数である。平均マハラノビスの距離偏差

は、普通データセット４０２と異常データセット４０４との間のマハラノビスの距離の偏差全体を評価するために、普通データセット４０２の平均マハラノビスの距離と異常データセット４０４の平均マハラノビスの距離とを使用して計算されることがある。他方、マハラノビスの距離ＭＤ_ｍｉｎは、普通データセット４０２と異常データセット４０４との間の、最も近いマハラノビスの距離を示すために計算されることがある。

図３に戻って、普通データセット及び異常データセットを定義した後、ＣＰＵ２０２は、マハラノビスの距離の計算と合わせて使用される遺伝的アルゴリズムをセットアップすることがある（ステップ３０６）。遺伝的アルゴリズムは、進化生物学をコンピュータサイエンスに取り入れる原理に基づいて、最適化された解決方法を発見するのに使用される、適切な種類の遺伝的アルゴリズムであり得る。潜在変数の所望の部分集合を探索するよう遺伝的アルゴリズムを適用した場合には、変数は、遺伝的アルゴリズムの評価手順を進めるのに使用されるパラメータのリストによって表されることがある。パラメータリストは、選択される場合も又は選択されない場合もある、すべての変数の符号化を表す、染色体又はゲノムと呼ばれることがある。たとえば、変数の「０」符号化は、その変数が選択されないことを示し、変数の「１」符号化は、その変数が選択されたことを示すことがある。染色体にはまた遺伝子が含まれることがあり、それぞれが、個々の変数の符号化であり得る。染色体又はゲノムは、数列のデータ及び／又は命令として実施されることがある。

まず、いくつかのこのようなパラメータリスト又は染色体が生成されて、母集団が作成される。母集団は、ある数の染色体の集合であり得る。母集団内の染色体は、適応度関数又は目標関数に基づいて評価され、適合度又は適応度の値が、適応度関数又は目標関数によって戻されることがある。次いで、母集団はソートされ、より良い適応度を有するものが、最高位にランクされる。

遺伝的アルゴリズムは、選択、交錯（又は複製）、及び突然変異などの、任意の又はすべての遺伝的操作を使用して、ソートされた最初の母集団から第２の母集団を生成することがある。選択中に、所定の閾値未満の適応度値を有する母集団内の染色体が、削除されることがある。ルーレットホイール選択及び／又はトーナメント選択などの選択方法も使用されることがある。選択後、複製オペレーションが、選択された染色体に遂行されることがある。２つの選択された染色体が、無作為に選択された交錯点に沿って交錯されることがある。次いで、２つの新しい子供の染色体が作られ、母集団に追加されることがある。母集団の大きさが復元されるまで、複製オペレーションが続行されることがある。母集団の大きさが復元されると、突然変異が、母集団に選択的に遂行されることがある。突然変異は、たとえば、染色体データ構造内のビットを無作為に変更することにより、無作為に選択された染色体に遂行されることがある。

選択、複製、及び突然変異により、最初世代とは異なる染色体を有する第２世代の母集団が生じることがある。第１世代からのより適合された染色体が選択されるので、第２世代のためのこの手順により、平均的な適応度が増加することがある。このプロセス全体は、遺伝的アルゴリズムが収束するまで、任意の適切な数の世代について繰り返されることがある。それぞれの世代中の遺伝的アルゴリズムの結果が向上し、かつ向上率が所定の率未満に達すると、収束と判断されることがある。この率は、特定のアプリケーションによって選ばれることがある。たとえば、率は、一般的なアプリケーションについては約１％に設定され、またより複雑なアプリケーションについては約０．１％に設定されることがある。

ＣＰＵ２０２は、遺伝的アルゴリズムをセットアップした（ステップ３０６）場合には、所望の部分集合の最大数の変数を識別することがある。上記に説明したように、データセットは、データセット内の総データレコードより多い潜在変数を含むスパースデータセットであり得る。一実施形態においては、最大数は、データセット内の総データレコードの数以下であり得る。ＣＰＵ２０２は、この最大数を遺伝的アルゴリズムの染色体符号化に対する制約条件として設定することがある。

ＣＰＵ２０２はまた、染色体の適合度又は適応度を評価するために、遺伝的アルゴリズムのための目標関数を設定することがある。ある実施形態においては、目標関数は、普通データセット４０２と異常データセット４０４との間のマハラノビスの距離を最大限にすることを含むことがある。マハラノビスの距離の最大偏差は、上述したように、

、ＭＤ_ｍｉｎ、又はその両方に基づいて判断されることがある。オペレーション中、普通データセット４０２と異常データセット４０４との間のマハラノビスの距離偏差が所定の閾値を超えると、目標関数は満足される。マハラノビスの距離偏差の１つ以上の値はまた、収束を判断するなどの、さらなる評価のために目標関数によって戻されることがある。

遺伝的アルゴリズムをセットアップした後（ステップ３０６）、ＣＰＵ２０２は、遺伝的アルゴリズムを開始することがある（ステップ３０８）。ＣＰＵ２０２は、遺伝的アルゴリズムのために、変数の最初の部分集合又は複数の部分集合又はパラメータリストを選ぶことがある。ＣＰＵ２０２は、ユーザ入力に基づいて、最初の部分集合を選ぶことがある。代替形態として、ＣＰＵ２０２は、潜在変数の間の相関関係及び変数とアプリケーション１１０の結果との間の相関関係に基づいて、最初の部分集合を選ぶことがある。相関関係は、製造、サービス、財務、及び／又は調査研究アプリケーションなどの、特定のアプリケーションに依存することがある。たとえば、ユニット変数、価格変数、及び天候変数を含む、財務アプリケーションにおいては、ユニット変数及び価格変数は、相関関係を有する可能性があり得る。冗長性を回避するために、ユニット変数及び価格変数の１つのみが選ばれることがあり、天候変数は他の２つと余り相関関係を有する可能性がなく、これも選択されることもある。しかし、ユニット変数及び価格変数の両方が財務アプリケーションの結果、たとえば総費用と相関関係を有する場合、ユニット変数及び価格変数の両方が選択されることがある。

さらに、代替形態として、ＣＰＵ２０２により、遺伝的アルゴリズムが、変数の１つ又は複数の部分集合を最初の染色体として無作為に選択することがある。部分集合を無作為に選択するのに使用される乱数の根が、所定の形態に基づいて、ユーザによって又は遺伝的アルゴリズムによって設定されることがある。次いで、ＣＰＵ２０２は、選択された変数部分集合に基づいて、普通データ及び異常データの両方についてマハラノビスの距離を計算することがある（ステップ３１０）。この計算は、等式１に関係する一連のステップに従って、ＣＰＵ２０２によって遂行されることがある。たとえば、ＣＰＵ２０２は、記述統計を計算する、Ｚ値を計算する、相関行列を構築する、相関行列を逆転させる、Ｚ転置を計算する、マハラノビスの距離を計算することがある。

マハラノビスの距離（たとえば、ＭＤ_{ｎｏｒｍａｌ}、ＭＤ_{ａｂｎｏｒｍａｌ}、

及び／又はＭＤ_ｍｉｎ）が計算された後、目標関数が評価されることがある。ＣＰＵ２０２は、さらに、遺伝的アルゴリズムが選択された部分集合の変数について収束するかどうかを判断することがある（ステップ３１２）。アプリケーションの種類によっては、所定の基準が使用されることがある。たとえば、遺伝的アルゴリズムが収束するかどうかを判断するのに、約０．１％の向上率が使用されることがある。遺伝的アルゴリズムが特定の部分集合について収束しない場合（ステップ３１２；いいえ）、上記に説明したように、遺伝的アルゴリズムは、次世代の染色体を作成するよう続行されることがある。変数減少プロセスは、ステップ３１０に進み、新しく作成された部分集合の変数又は染色体に基づいてマハラノビスの距離を再計算する。他方、遺伝的アルゴリズムが特定の部分集合で収束した場合（ステップ３１２；はい）、ＣＰＵ２０２は、所望の又は最適化された変数部分集合が発見されたと判断することがある。

ＣＰＵ２０２は、さらに、変数減少プロセスにより遺伝的アルゴリズムが収束する、最適化された部分集合の変数を保存することがある（ステップ３１４）。ＣＰＵ２０２はまた、後に検索するために記憶装置２１６内に、或いはデータベース２１４−１及び／又はデータベース２１４−２内に、その部分集合を保存することがある。ＣＰＵ２０２はまた、さらに処理又は分析するために、その部分集合の変数を他のアプリケーションソフトウェアプログラムに出力することがある（ステップ３１６）。

ある実施形態においては、ＣＰＵ２０２はまた、ステップ３０４に関して記述したように、クラスタ化アルゴリズムを使用して、普通データセット及び異常データセットを定義することがある。クラスタ化アルゴリズムは、ｋ−平均、ファジィｋ−平均、最隣接、ｋｏｈｏｎｅｎネットワーク、及び／又はＡＲＴ（ａｄａｐｔｉｖｅｒｅｓｏｎａｎｃｅｔｈｅｏｒｙ）ネットワークなどの、適切な種類のクラスタ化アルゴリズムを含むことがある。一実施形態においては、「ｖ−ｆｏｌｄ」交差検証法を用いたｋ−平均クラスタ化アルゴリズムが使用されることがある。普通データセット及び異常データセットの定義の開始時に、ＣＰＵ２０２は、データセットの固有のデータクラスタ（たとえば、同様のデータ又は相関関係を有するデータ）を識別することがある。２つのクラスタのみが識別された場合、ＣＰＵ２０２は、１つのクラスタを普通データセットとして使用し、他のクラスタを異常データセットとして使用することがある。ある状況においては、２つを超えるクラスタが識別されることがある。たとえば、ＣＰＵ２０２は、データセットの、３つの、４つの、又はさらにより多くのクラスタを判断することがある。図５は、３つのクラスタが識別された、例示的データセットを例示している。

図５に示されているように、クラスタ５０２、５０４、及び５０６は、クラスタ化アルゴリズムを遂行した後、ＣＰＵ２０２によって判断されることがある。ＣＰＵ２０２は、正規化平均値の最大差を有する２つのクラスタを普通データセット及び異常データセットとして識別することを決定することがある（たとえば、クラスタ５０２は普通データセットを表し、クラスタ５０４は異常データセットを表すことがある）。ＣＰＵ２０２は、さらに、クラスタ５０２とクラスタ５０６との間の正規化平均値の差、及びクラスタ５０４とクラスタ５０６との間の正規化平均値の差を判断することがある。これらの差を比較することにより、ＣＰＵ２０２は、クラスタ５０６が普通データセット又は異常データセットのいずれに含まれるべきであるかどうかを決定することがある。たとえば、クラスタ５０２とクラスタ５０６との間の正規化平均値の差が、クラスタ５０４とクラスタ５０６との間の正規化平均値の差より大きい場合、ＣＰＵ２０２は、クラスタ５０６を異常データとして定義することがある。他方、クラスタ５０２とクラスタ５０６との間の正規化平均値の差が、クラスタ５０４とクラスタ５０６との間の正規化平均値の差未満である場合、ＣＰＵ２０２は、クラスタ５０６を普通データとして定義することがある。

代替形態として、ＣＰＵ２０２は、クラスタ５０６及びクラスタ５０２及びクラスタ５０４のそれぞれの要素の間の差を判断することがある。次いで、ＣＰＵ２０２は、その差に基づいて、クラスタ５０６の特定の要素が普通データとして定義されるべきであるか又は異常データとして定義されるべきであるかを決定することがある。図５には３つのクラスタが示されているが、任意の数のクラスタが使用されることもある。

さらに、変数間の関係はまた、クラスタ化アルゴリズムのオペレーション中に、特に、２つを超えるクラスタが判断され、データセットの１つの中に個々の要素が含まれることが決定された場合に、識別されることがある。このような関係は、さらに、ＣＰＵ２０２により、部分集合の変数の最初の選択を判断するよう、遺伝的アルゴリズムに提供されることがある。たとえば、いくつかの変数がクラスタの判断にかなり寄与する場合、これらの変数は、所望の部分集合の変数内に含まれている可能性があり、したがって、遺伝的アルゴリズムの母集団の種となる（ｓｅｅｄ）よう提供されることがある。

開示されているマハラノビスの距離の遺伝的アルゴリズム（ＭＤＧＡ）の方法及びシステムは、他の従来の方法及びシステムでは達成するのが困難である又は実際的でない、スパースデータシナリオにおいて変数を効果的に減少させるための所望の解決方法を提供することがある。開示されている方法及びシステムは、より正確なモデルを作成するのに使用され得る、所望の部分集合の変数を識別するのに使用されることがある。開示されている方法及びシステムが組み込まれた場合には、他の統計的又は人工知能モデリングツールの性能が著しく向上することがある。

開示されている方法及びシステムはまた、寸法又は変数の数がそれぞれの変数がサポートする可能な動作数より大きい、データセットの寸法を効果的に減少させるのに使用されることがある。開示されている方法及びシステムは、スパースデータシナリオ又はデータが逆のシナリオなどの、様々なシナリオにおけるデータセットの寸法を減少させることがある。

開示されている方法及びシステムはまた、クラスタ化アルゴリズムを使用してデータ特性を定義する選択肢を提供することがある。開示されているクラスタ化アルゴリズムは、クラスタ数についての事前知識なしで、普通データセット及び異常データセットを分類するための所望のデータレコードを効果的に発見することがある。組み合わせられたクラスタ化されたＭＤＧＡは、異なるデータレコード間を定量的に区別し得る、最も経済的な解決方法のための、変数の候補部分集合を探索する能力などの、追加機能を提供することがある。このようなデータ特性は、さらに、モデリングツールの演算速度を増加するよう、知識ベースのモデリングツールに提供されることがある。

開示されている例示的システムの、他の実施形態、特徴、態様、及び原理は、当業者には自明であり、また作業現場の環境に制限されない様々な環境において実施されるものである。

ある開示された実施形態に合致している、例示的データ分析及び処理の流れを例示する流れ図である。ある開示された実施形態に合致しているコンピュータシステムを例示するブロック図である。コンピュータシステムによって遂行される例示的変数減少プロセスを例示する流れ図である。普通データと異常データとこれに対応するマハラノビスの距離との間の例示的関係を例示する図である。開示された実施形態に合致している、データセットの例示的クラスタを例示する図である。

Claims

所望の変数部分集合を識別するためのコンピュータ処理方法であって、
複数の変数に対応する１組のデータレコードを得ることと、
所定の基準に基づいて、データレコードを普通データ又は異常データとして定義することと、
複数の変数からの１つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することと、
部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することと、
マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することとを含むコンピュータ処理方法。
データレコードの総数が、複数の変数の総数未満である請求項１に記載のコンピュータ処理方法。
定義することが、
データレコードに対して遂行されるクラスタ化アルゴリズムからの１つ以上の結果に基づいて、データレコードを普通データ又は異常データとして定義することを含む請求項１に記載のコンピュータ処理方法。
マハラノビスの距離を計算することが、
部分集合の変数に基づいて、普通データの第１のマハラノビスの距離を計算することと、
部分集合の変数に基づいて、異常データの第２のマハラノビスの距離を計算することと、
第１のマハラノビスの距離と第２のマハラノビスの距離との間のマハラノビスの距離偏差を判断することとを含む請求項１に記載のコンピュータ処理方法。
識別することが、
マハラノビスの距離偏差を最大限にするために、遺伝的アルゴリズムの目標関数を設定することと、
遺伝的アルゴリズムを開始することと、
遺伝的アルゴリズムが収束するかどうかを判断することと、
遺伝的アルゴリズムが収束する場合、部分集合の変数を複数の変数の所望の部分集合変数として識別することとを含む請求項４に記載のコンピュータ処理方法。
識別することが、
遺伝的アルゴリズムが収束しない場合、部分集合の変数に基づいて及び遺伝的アルゴリズムに従って、異なる部分集合の変数を選ぶことと、
異なる部分集合の変数に基づいて、異なるマハラノビスの距離偏差を計算することと、
異なる部分集合の変数に基づいて所望の部分集合の変数を識別するよう、遺伝的アルゴリズムを遂行することとをさらに含む請求項５に記載のコンピュータ処理方法。
コンソール（２０８）と、
少なくとも１つの入力デバイス（２１０）と、
中央演算処理装置（ＣＰＵ）（２０２）とを備えたコンピュータシステム（２００）であって、
中央演算処理装置（ＣＰＵ）が、
複数の変数に対応する１組のデータレコードを得るよう構成され、ここでデータレコードの総数が、複数の変数の総数未満であり、
さらに、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義するよう、
複数の変数からの１つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定するよう、
部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算するよう、
マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別するよう構成されたコンピュータシステム（２００）。
マハラノビスの距離を計算するために、ＣＰＵ（２０２）が、
部分集合の変数に基づいて、普通データの第１のマハラノビスの距離を計算するよう、
部分集合の変数に基づいて、異常データの第２のマハラノビスの距離を計算するよう、
第１のマハラノビスの距離と第２のマハラノビスの距離との間のマハラノビスの距離偏差を判断するよう構成された請求項７に記載のコンピュータシステム（２００）。
所望の部分集合を識別するために、ＣＰＵ（２０２）が、
マハラノビスの距離偏差を最大限にするために、遺伝的アルゴリズムの目標関数を設定するよう、
遺伝的アルゴリズムを開始するよう、
遺伝的アルゴリズムが収束するかどうかを判断するよう、
遺伝的アルゴリズムが収束した場合、部分集合の変数を複数の変数の所望の部分集合変数として識別するよう構成された請求項８に記載のコンピュータシステム（２００）。
１つ以上のデータベース（２１４−１、２１４−２）と、
１つ以上のネットワークインターフェース（２１２）とをさらに含む請求項に７記載のコンピュータシステム（２００）。