JP2004530967A

JP2004530967A - 予測用モデルを展開する方法及び装置

Info

Publication number: JP2004530967A
Application number: JP2002561698A
Authority: JP
Inventors: ケーダー・マティアス; ディロン・デイビッド・エス
Original assignee: ゼナリティクス・インコーポレイテッド
Priority date: 2001-01-19
Filing date: 2001-12-13
Publication date: 2004-10-07
Also published as: WO2002061595A8; CA2436352C; US20030004903A1; US7043461B2; EP1352331A4; WO2002061595A1; EP1352331A1; CA2436352A1

Abstract

開示内容の要約
本発明は、少なくとも１つの独立変数値に基づいて単一の従属変数値を予測するモデルを展開するコンピュータ実行法に関する。コンピュータ実行法は、各従属変数に対する値と少なくとも１つの独立変数に対する値とを各々含む複数の観察値を有するデータ集合体を構築する過程と、可能性のある予測用モデルを各々含む複数の最初の染色体をデータ集合体から構築する過程と、各染色体の量的な適応度測定値を展開する過程と、適応度測定値に基づいて多くの初期染色体を選択し、クローニング及び純粋な（標準の）交叉技術の少なくとも１つにより選択された最初の染色体を交叉させ、かつ交叉した染色体を突然変異させることにより、染色体の新世代を形成する過程とを含む。また、本発明の方法を実行する装置について記載する。
【選択図】図６

Description

【関連する出願に対する相互参照】
【０００１】
本願は、２００１年１月１９日付け米国特許仮出願第６０/２６３,０２４号「統計モデル及びニューラルネットワーク（神経回路網）モデルの解析の自動化」に関する利益を要求する。
【背景技術】
【０００２】
本発明は、１又は複数の独立変数の値に基づいて、単一又は複数の従属変数の値を予測するモデルを展開する方法及び装置に関する。また、本発明は、前記方法に使用する特有の染色体の構造に関する。
【０００３】
電子商取引の企業間及び企業−消費者間の市場取引（マーケティング）に統計（S）モデル及びニューラルネットワーク（NN）モデルを適用した解析法は非常に有効であるが、この方法には２つの重大な問題がある。第１の問題は、市場取引の問題を正確に示す解析変数の構築が必要となることである。一般に、この方法は、統計学の専門家を必要とし非常に長時間要する。
【０００４】
第２の問題は、モデルに含むことができる変数の異なる多数の組合せが存在することである。単純な例として、５０変数のデータ集合から１５変数の選択を解析で要求すると仮定する。この方法は、変数データ集合体の２兆２５００億の組合せを形成するであろう。作業が複雑になるほど解析の実行も複雑になる。１０００の独立変数から成るデータ集合体から構築すべき記号論理学上の回帰モデルを形成する適度に複雑な作業を検討する。有効な組合せモデル数は信じられないほど大きく、莫大な時間と労力を必要とするであろう。形成することを要する多数の組合せ変数の複雑性に加えて、追加の状況複雑性が存在する。例えば、ニューラルネットワークモデルは構造上の最適化、即ちヒドンノード（隠れ接続ポイント）及びヒドンレイヤー（隠れ階層）を識別することが必要である。独立変数を使用して、従属変数従ってその結果を予測するので、独立変数を慎重に選ぶ必要がある。構造の最適化の追加要件は、莫大な変数の組合せを生じるであろう。制約（小さい）ニューラルネットワークを必要としかつ前記値を使用する作業の非常に単純な例として、５０のリストから１５変数を選択して、２５以下の隠れ接続ポイントの選択を有する各隠れ階層と共に、１と２の隠れ階層の間の決定により形成できる組合せ変数の数は、信じられないほどに大きい。実際に、適度の大きさのニューラルネットワークを現に適用すると、可能な組合せ数が非常に増大するであろう。更に、モデル複雑性が増すので、問題の前記種類に対する組合せ数が非常に大きくなり、現行のコンピュータＣＰＵ速度では、特に大きい商業上の問題に対し、合理的な時間内に単一モデルの組合せ毎に検定することはほぼ不可能である。また、複数のモデル及びデータ集合体は両方とも劣化する欠点がある。これは、徹底的な検索の間にデータがやがてビジネス上の問題に同調しなくなることを意味する。このため、徹底的な検索により発見される解決法は、解決法が発見される時間までにもはや最適ではなくなるであろう。相関解析技術を利用して、より許容可能（かつ合理的）な数に変数を限定できる（ピアソンの相関を使用して、従属変数に対する１５の最強の相関を決定できる）が、従来の統計技術は、変数の数が減少する瞬間に、解析解空間の大部分が排除される１つの主固有欠陥を有する。相関解析が選択しない変数から最良の解が構成される場合、前記変数選択法により、統計的方法は、常に最良の又は最適な解を発見しない。
【０００５】
また、各独立変数に適用できる独立変数の変換及び操作の数は依然として無限数に近い。更に、交互作用項又は２つの独立変数の積である項を識別しなければならない。これは、個々にではなく互いに組み合わされてこれらの項が複雑な作用を表すためである。この問題は、従属変数の変化を正確かつ同時に記述するため、独立変数に対する正しい変換、操作及び交互作用を見い出すことである。
【０００６】
従って、電子商取引の企業間及び企業と消費者間の市場取引に対し、統計（S）モデル及びニューラルネットワーク（NN）モデルを適用して、独立変数に対して、データの変換、操作及び交互作用を決定する方法を最適化し、従属変数の変動を正確に表現する解析法が必要である。
【発明の開示】
【発明が解決しようとする課題】
【０００７】
従って、本発明は、予測用モデルを展開する進化論的方法を提供することを目的とする。
【０００８】
また、本発明は、大量の操作データ又は人口統計学的データを解析できる前記方法を提供し、精密かつ最適な予測用モデルを構築することを目的とする。
【０００９】
更に、本発明は、遺伝子上に統計的概念を位置付ける方法を提供することを目的とする。
【００１０】
更に、本発明は、本発明の方法を実行する装置を提供することを目的とする。
【００１１】
前記目的は、本発明による方法及び装置により達成される。
【課題を解決するための手段】
【００１２】
本発明では、少なくとも１つの独立変数値に基づき、単一の従属変数値を予測するモデルを展開するコンピュータ実行法を提供する。この方法は、(a) １つの従属変数値と少なくとも１つの独立変数値とを各々含む複数の観察値を有するデータ集合体を準備する過程と、(b) 可能性のある予測用モデルを各々含む染色体の初期世代をデータ集合体から形成する過程と、(c) 初期世代の各染色体に対して、量的な適応度測定値を決定する過程と、(d) 初期世代の多くの染色体を選択し、クローニング及び交叉法の少なくとも１により選択された初期世代の染色体を交叉させ、交叉された染色体を突然変異させることにより、染色体の次世代を形成する過程とを広く含む。過程(c)及び(d)を数多く反復して、精密な最適な結果を生ずる染色体の世代を形成できる。
【００１３】
本発明の方法を実行する装置は、略説すれば、可能性のある予測用モデルを含む初期世代の各染色体を有するデータ集合体から、染色体の初期世代を形成する手段と、初期世代の各染色体に対して、量的な適応度の測定値を決定する手段と、多くの初期世代染色体を選択し、クローニング及び交叉法の少なくとも１により選択される初期世代の染色体を交叉させ、新規な染色体を突然変異させる手段とを備える。
【００１４】
本発明の方法及び装置に付随する他の目的及び利点と同様に、以下の詳細な説明及び同一部分には同一の参照符号を付す添付の図面に本発明の方法及び装置を説明する。
【発明を実施するための最良の形態】
【００１５】
前記のように、本発明は、１又は多数の独立変数値に基づき、単一の従属変数値を予測する予測用モデルを展開するコンピュータ実行法に関する。このコンピュータ実行法は、公知の適切なコンピュータを使用し、公知の適切な言語によりプログラム制御し、限定しないがウインドウズ９８、ウインドウズＮＴ、ウインドウズ２０００、リナックス（Linux）及びサン・オーエス（Sun OS）のオペレーティングシステムにより実行できる。
【００１６】
本発明の方法は、複数の観察値を含むトレーニングデータ集合体の作成から始まる。各観察値は、単一の従属変数値及び好ましくはあらゆる数の独立変数値を含む。トレーニングデータ集合体は、未加工のデータから形成される。トレーニングデータ集合体を作成する間、ビジネスルール及び標本化を適用して、トレーニングデータ集合体のデータ観察値の数を減少させてもよい。ビジネスルールは、データ集合体の観察値の状態を検定する論理文である。異なる変数の値を検定する１又は２以上の比較器からビジネスルールを構成してもよい。例えば論理和、論理積又は論理否定等のブール演算子によって、２又はそれ以上の比較器を結合できる。ビジネスルールを使用して、有効なビジネスルールを満足しない観察値を除外することによって、未加工のデータファイルの大きさを減少させる。トレーニングデータ集合体が形成されると、コンピュータ100に接続された記憶装置内若しくはコンピュータ100のデータベース内又はその両方内にトレーニングデータ集合体を記憶してもよい。その後、トレーニングデータ集合体を使用する初期世代染色体を形成する方法を開始する。
【００１７】
本発明の方法は、世代と呼ばれる多くの染色体10を繰り返して評価することに基づく。１世代中の染色体10の数を固定し又は限定されたパターンに変更してもよい。例えば、固定された世代のシナリオでは、全世代が、第１の又は初期の世代と同一のサイズである。代わりに、可変世代のシナリオでは、比較的大きな世代サイズから開始して、所与の世代数にわたって目標サイズに減少させることができる。その後、全ての次世代に対して目標サイズの世代を使用する。この可変世代シナリオは、初期にコンピュータリソース（演算）をより必要とするが、大きな世代サイズでは、探索空間のより大きい部分を最初に探索し、小さい世代サイズを使用する場合より迅速に、解を識別できることがある。
【００１８】
本発明は、最良の解を含む可能性のある探索空間の有望な全領域を探索する方法を構築することを目的とする。これは、従属変数値を最も良く予測するモデルに対して、トレーニングデータ集合体の観察値により表される領域を探索することを意味する。初期の染色体世代を形成するのに使用される方法は、満足なモデルを識別するのに要求される世代数に影響を与えることができる。従って、使用者は、初期世代を形成するのに使用すべき方法だけでなく世代サイズを指定できる。初期世代サイズは、入力媒介変数（パラメータ）に基づくことが好ましい。初期世代サイズ及び目標世代サイズの両方を指定できる。２つのサイズを等しくすることにより、全世代に対して固定数の染色体を使用する。
【００１９】
本発明による好適な方法では、ランダム法又は分布法の何れかを使用して、初期世代の染色体10を形成できる。ランダム法は、各観察変数の断片（セグメント）12内の遺伝子の値を選択する無作為な方法を使用して各染色体10を形成する。同様の方法を使用して、無作為の選択に基づき観察変数、利用可能な演算子及び導入遺伝子を選択することによって、必要な数の交互作用変数断片14を形成できる。このように形成した染色体10は、異なる数の活性変数を有する。全ての染色体内では１又は２以上の変数が非活性とすることも可能である。
【００２０】
分布法は、単一の変数モデルを含む染色体10を形成し、正の係数及び負の係数を含む各観察変数の２つの染色体10を形成する。分布法により、初期世代に全ての変数が確実に表れる。この方法は、トレーニングデータ集合体内の変数に対して少なくとも２倍の染色体数を有する世代を形成する。
【００２１】
初期世代に形成される各染色体10は、予測用モデルの要素を含み、固定された長さを有することが好ましい。図１は、本発明による染色体10の構成を示す。図１から分かるように、各染色体10は、複数の観察された変数断片12を備え、各断片12は、トレーニングデータ集合体内の観察された変数を表す一群の遺伝子を含む。本発明の好適な実施の形態では、トレーニングデータ集合体内の各変数に対する可変遺伝子断片12は、各染色体10内に存在する。換言すると、観察される連続的な変数の断片12'と観察される区分（分類）変数断片12''とが存在する。また、各染色体10は、２つの観察される変数から誘導される変数を表す一群の遺伝子により各々形成される複数の交互作用変数の断片14を備えている。交互作用変数断片14の数は、モデルを展開する媒介変数として設定される。例えば、染色体毎に２０の交互作用変数の断片があってもよい。
【００２２】
更に、各染色体10は、切片遺伝子又は偏位遺伝子16を含む。複数の変数成分の合計がゼロのとき、切片又は偏位遺伝子16は組み込まれたモデル出力を指定する。切片又は偏位遺伝子16は、全ての交互作用変数の遺伝子断片14の後に染色体10内に配置される。切片又は偏位遺伝子16は、１の符号ビット、１１の指数ビット及び５２の仮数ビットを含む６４ビットから成る。
【００２３】
観察される連続的な各変数断片12'は、導入／排除遺伝子18、係数遺伝子20、最小外れ値（異常値）遺伝子22、最大外れ値（異常値）遺伝子24、変換遺伝子27及び順位付け遺伝子29を有する複数の遺伝子を含む。観察される各区分変数断片12''は、導入／排除遺伝子18、対比遺伝子26及び１又は２以上の係数遺伝子20を有する複数の遺伝子を含む。
【００２４】
連続的な変数は、あらゆる数の数値を含むことができる変数である。連続的な変数の例は、次週の株価又は顧客の会計収支でもよい。データ集合体にみられる数値が区分切断部媒介変数を超える場合、変数は連続的なものとして分類される。区分変数は、データ集合体内の限られた数の固有値を有する変数である。２進変数は、２つの可能な値又は区分のみを有する特別な分類の種類である。区分切断部媒介変数は、区分変数に対する区分の最大数を指定する。例えばその数を１から３２までの範囲とすることができる。
【００２５】
導入／排除遺伝子18は、各モデルの構築に重要な役割を担う。導入／排除遺伝子18は、特有のモデルに対してオンに切り換えられる変数の数を制限する。このように、データ集合体が１０００の変数を有する場合、各染色体は１０００の変数についてデータを含むが、変数の特定数、例えば１０〜２０だけオンに切り換わるに過ぎないであろう。「０」は特定の観察される変数をオフに切り換えることを示し、「１」は特定の観察される変数をオンに切り換えることを示す１ビットを消費する導入／排除遺伝子の２進構造を利用して切換えが実行される。従って、特定の観察される変数の遺伝子断片12に対して、導入／排除遺伝子18は、その断片12により記述される変数が、組込まれるモデルに含まれるか否かを指示する。導入／排除遺伝子により、この方法は、各解空間内の変数の適切な部分集合体を決定する。
【００２６】
係数遺伝子20は、変数断片により記述される観察された変数に対する係数値を含み、好ましくは６４ビット等の複数ビットを有する。ビットに何等かの変化がある場合、即ちビットの１つが反転する場合、全てが反転する多数ビットからなるスーパービットが前記複数のビット内に存在する。これは、モデルの最適化を促進する。スーパービットは、６４ビット内にいかなる多数の選択ビットを備えてもよい。係数遺伝子は、遺伝子に係数を組込むことにより、統計的な評価法の除去を促進する。
【００２７】
トレーニングデータ集合体内で連続的な変数に対し観察される値は、最大値と最小値とにより限定される範囲にわたって変化する。変数に対する値範囲が大きい（最大値及び／又は最小値が中央値から大きく相違する）とき、少数の極値は、モデル展開に不均衡な影響を与えることがある。その場合、極端に高い値又は低い値を正しい方法で中央値に近い値に書き換えることにより、より有効なモデルを展開できる。この方法は、トリミングアウトライア（trimming outliers）と呼ばれる。これは、如何なる偏りもない自然の適合性を得るために実行される。外れ値遺伝子22及び24は、トレーニングデータ集合体の記録を清掃して、予測上の偏りを最少にできる。
【００２８】
本発明の染色体形成法では、中央値と最大観察値との間の最大制約値と、中央値と最小観察値との間の最小制約値とが形成される。これらの制約値は、実際の範囲未満の目標範囲値を示す。制約範囲外の変数値は、最も精密な制約値を持つように書き換えられる。トリミング過程の結果として、制約値は、トリム領域内で観察される値に対して書き換えられた値になる。
【００２９】
既存の範囲の値に比率を適用することにより各制約値を展開させて、トリミングを要する値を識別する。中央値と変数に対する観察最小値との差に最小トリム比率を適用して、トリミングすべき値の領域を決定する。同様の方法により、中央値と最大値との差に最大トリム率を適用する。
【００３０】
図２は、At＝最小トリム率×A、Bt＝最大トリム率×Bである本発明に利用されるトリミングの概念を示す。
【００３１】
要求される各モデルに対して指定される多くの精密ビットを有しかつ外れ値ビット数と称する媒介変数である２進数として、前記比率の分子及び分母の両方を形成する。トリム率の分母は、外れ値ビットの指定数を有する２進数の最大値に等しい。例えば、１０ビットの精度は、１０進フォーマットの１０２３に等しい。各トリム率の分子は、遺伝子的に誘導される。
【００３２】
連続的な変数断片内の最大外れ値遺伝子24は、最大トリム率の分子を含む。最小外れ値遺伝子22は、最小トリム率に対する分子を含む。図３は、４つの外れ値ビットを有する最大トリムシナリオを示すダイアグラムである。このシナリオでは、最大外れ値遺伝子は５（２進形式の０１０１）であり、指定数の４の外れ値ビットを有する２進数の最大値は１５（２進数は１１１１）である。従って、最大トリム率は、０１０１／１１１１（５／１５）である。従って、中央値から観察最大値までの範囲の１／３が、最大外れ値遺伝子によりトリミングされる。
【００３３】
連続的な変数の遺伝子断片の外れ値遺伝子22及び24は、適応値を決定するとき、トリミング実行値の範囲及び変数使用値の範囲を限定する。外れ値遺伝子22及び24は、２本鎖遺伝子として、連続的な各変数の染色体10内に表現される。遺伝子22及び24を表現するのに使用されるビット数は、あらゆる応用に対して変動可能である。起動時にビット数を限定して、染色体の全世代を通じて一定に維持し、即ち使用されるビット数は、染色体毎又は世代毎に変化しない。遺伝子22及び24を表すビットは、正しい２進表示を使用して処理される。区分変数ではなく、連続的な変数にだけ外れ値のトリミングを適用できる点に留意すべきである。
【００３４】
本発明の方法では、使用者は外れ値ビット数を指定できるので、値の範囲を定めるのに使用されるユニット（単位）数を制御できる。ビット数が多いほど、より多くの単位及びより高精度のトリミングを与える。
【００３５】
トリム法を制御する他の方法は、各外れ値ビットの突然変異の確率を指定することにより行われる。各確率は、特定のビットが突然変異する可能性を制御する。１.０にトリム率を設定することは、突然変異の結果として、反転されるべき全可能性にその全ビットを暴露することを意味する。一方、例えば０.０１又は０.００１の小さな値にトリム確率を設定するは、突然変異によりビットが反転される可能性が非常に低いことを表す。図４は、４つの外れ値ビットを有するシナリオに対して、確率が如何に指定されるかを示す。表示法に依存して、第４ビットの位置は、最上位ビットであり、過剰なトリミングを回避するために変更する場合でも、最大量だけ全体的な値を変更するものであることに留意する必要がある。
【００３６】
区分として分類される変数に対して対比遺伝子26を使用して、区分変数に対して最適の対比を自動的に決定する。本発明の解析法に対し知的かつ数値的に区分変数を表示することによって、対比遺伝子は、区分変数を解析法に役立てる。前記のように、区分変数は、トレーニングデータ集合体内に限られた数の固有値を有し、固有値は、ある値を他の値と比較させる有意性がない。区分変数は、標準値と序数値との２つの種類に分割される。例えばある人の人種のような標準変数は順序がないが、序数変数は順序を有する。この遺伝子に関する表は、対比又は指標として知られたいかに多くの２進の変数又は標識を特定の区分変数から形成できるかを決定する。対比遺伝子により、別の方法では使用できない情報が使用可能となる。
【００３７】
本発明の方法により、区分切断部媒介変数を通じて、区分変数対連続的な変数として変数を分類するものを使用者が制御できる。本発明の方法は、指定数のビットを有する各変数区分に２進数を割当てる。この符号化方式によって、本発明の装置は、符号化に使用されるビット数に数が等しい対比媒介変数と称するサブグループを形成できる。最大対比媒介変数と称する媒介変数値を指定することによって、使用者は、各区分に割当てられる２進符号内の２進符号として形成可能な対比媒介変数の最大数を指定する。
【００３８】
前記から分かるように、本発明の方法は、一種の変数として区分変数に対する対比値を使用して、予測用モデルに有効な対比値（変数値）を識別する。最大対比の装置初期設定値は、統計的有意性の解析に基づいて展開され、これらの値は、トレーニングデータ集合体内の観察値の数と共に増大するが、対比遺伝子の有用性を変更せずに前記値を書き換えることができる。
【００３９】
変数遺伝子断片内の対比遺伝子26は、区分切断部媒介変数により指定される要求されるモデルに許される最大区分に数が等しい対比ビット列から構成される。変数に対して実際に使用される対比ビット列の数は、その変数に対する区分の数に依存する。
【００４０】
例えば、１０の区分切断部及び４の最大対比を有する要求されるモデルは、各区分変数遺伝子断片内の４ビットの１０列から構成される対比遺伝子を有するであろう。この種のモデルを図５に示す。６値（複数の区分）を有する区分変数では、最初の６つの対比列だけが関連する変数断片に使用される。
【００４１】
変換遺伝子27を使用して特定の観察変数に関連する分布から非対称性及び尖りを除去し、データ分布を変形して最大の有用性を与えることができる。変換遺伝子27は、例えば式x1＝x^Yのように、歪むデータ曲線を定義する値Yを決定する。Y値を１に決定する場合、変換を要しない。Y値が１以外の何れかの場合、変換が適切である。ゼロの値では、自然対数が実行される。Y値を決定するために、Yの可能性のある範囲（PR）と所望の精度とを最初に決定する。例えば、所望の精度が１０である場合、最大２進値は１０２３である。次に、次の過程はべき変換の値を決定する。Yを決定するために、染色体の値にYの範囲を掛け合わせる。続いて、得られた数を最大２進値で割って、中間値を決定する。Yに対する可能最小値を中間値に加えてY値を決定する。このように、染色体の値が７５０、Yの可能な範囲が１０、Yの最小値が−５、最大２進値が１０２３の場合、
Y＝１０*７５０／１０２３−５＝７.５−５＝２.５
である。
【００４２】
本発明では、変換遺伝子に対する条件及び基礎となる前提は、各連続的（非区分）変数が変換遺伝子を有することである。変換遺伝子を適用するために、最小許容可能なべき変換、最大許容可能なべき変換及びべき変換範囲を分割するビット数の情報が存在しなければならない。更に、１のべき変換はそれ自身等しいため、オン／オフ動作のスイッチを必要としない。全ての変換遺伝子は、１に初期化されるがそれに限定されない。
【００４３】
順位付け遺伝子29は、独立変数の予測性向上を促進し、連続的な変数にのみ適用する。この遺伝子は、配列される変数のランキングを助長しかつ固定された幅ランキングと可変幅ランキングとの生成を助長する。順位付け遺伝子は、使用者が命令した幅を有する多くの固定幅群に変数分布を分割する。順位付け遺伝子は、例えば１００ビットの多数の精密ビットと、例えば４ビットの多数の連続ビットとを含み、その範囲内の各群の境界を示す。見出される境界の数は、変数分布に順位付けされる変数幅群の数を決定する。順位付け遺伝子の能力は、異なる分布を形成することにより、使用不能な連続分布を有用な又は予測可能な情報に切り換えることができることである。
【００４４】
各交互作用遺伝子の断片14は、トレーニングデータ集合体に認められる２つの観察変数から誘導される交互作用変数を表す。観察される２つの変数に適用される６の演算子の１を使用して、交互作用項の値を形成できる。各交互作用の遺伝子断片14は、導入／排除遺伝子28、係数遺伝子30、第１の変数遺伝子32、演算子遺伝子34及び第２の変数遺伝子36を含む複数の遺伝子から成る。
【００４５】
交互作用変数の断片14内の導入／排除遺伝子28は、観察変数の断片12と同一の方法により使用される。導入／排除遺伝子28は、交互作用遺伝子の断片14により記述される交互作用変数が染色体モデルに含まれるか否かを示す。組み込まれたモデルに含まれる前記交互作用変数は、オン状態に設定される導入／排除遺伝子を有する。
【００４６】
係数遺伝子30は、交互作用遺伝子の断片14により記述される交互作用変数の係数値を含む。
【００４７】
第１の変数遺伝子32は、交互作用変数値の誘導に使用されるトレーニングデータ集合体の第１の２つの観察される変数を識別する。
【００４８】
第２の変数遺伝子36は、交互作用変数値の誘導に使用されるトレーニングデータ集合体の第２の２つの観察される変数を識別する。
【００４９】
本発明の好適な実施の形態では、第１及び第２の変数遺伝子32及び36に使用される第１及び第２の変数は、トレーニングデータ集合体から無作為に選択される。
【００５０】
演算子遺伝子34は、２つの観察される変数から交互作用値を誘導するのに使用される演算子を識別する。演算子は、加算（２つの観察される変数の合計値）、乗算（２つの観察される変数の積値）、除算（１の変数を第２の変数で割った値）、減算（２つの観察される値間の数的な差を表す数値）、差の２乗（２つの観察される変数間の差の二乗値）、又は絶対差（２つの観察される変数間の絶対差であり常に正又はゼロ）とすることができる。
【００５１】
観察される変数が絶対的であるとき、演算子は、各観察される変数の区分／値の率指標に適用される。
【００５２】
以下の観察される区分変数が交互作用変数（IA Var02）を誘導するのに使用されると仮定する。
【００５３】
変数区分／率

【００５４】
Var01が値10n、Var04が値SWを有する場合、IA Var02＝(6)＊(2)＝12である。遺伝子断片では、次に本結果をIA Var02の係数遺伝子の係数値に掛ける。
【００５５】
各染色体10の終端に付加される交互作用遺伝子の断片14の数は、固定された媒介変数により決定され、又はトレーニングデータ集合体の変数の数の二乗根等の予め決められた規則を適用することにより決定される。
【００５６】
初期世代に形成された染色体10は、統計モデルに使用されるデータを含むだけでなく統計モデルを組み込む方法を示す。従って、初期世代の各染色体10が予測値としてどれぐらい十分に作用するかを決定するのに好ましいものになる。
【００５７】
図６に示すように、コンピュータ100を使用して、初期世代の各染色体10の能力を評価しイベント又はモデルを予測する。このために、コンピュータ100は、未加工のデータを受信するデータパイプモジュール102と、データベース104とを含む。データベース104は、ユーザインタフェース部106（使用者毎に１つのユーザインタフェース）を使用して設定された全モデル媒介変数を加えた所要モデルに対する全データ集合体を含む。データベース104は、記憶装置（図示せず）を備えるか又は記憶装置に接続される。トレーニングデータ集合体、メタデータ、確認データ集合体、所要モデルの媒介変数及び最良のモデル要素がデータベース104内に記憶される。更に、コンピュータ100には、少なくとも１つ好ましくは複数のモデラモジュール108と、スケジューラモジュール110と、複数の適応度評価器112とが設けられる。モデル展開の間に、割り当てられたモデラモジュール108及び適応度評価器112は、データベース104から必要なデータを得て、データベース104に最良のモデルの要素を記憶する。例えばリフトチャート及び分類表の記録を準備し又は最良のモデルの要素を表示するとき、ユーザインタフェース部106は、データベース104からデータを得る。
【００５８】
各モデラモジュール108は、ユーザインタフェース部106からのモデル要求に応答して、予測用モデルを展開する。展開用所要モデルを使用者が入力するとき、装置は未使用のモデラモジュール108に作業を割り当てる。あらゆる所与の時間で送信できるモデルの要求の予想数に基づいて、装置（ユーザインターフェース106）はあらゆる数のモデラモジュール108を備えることができる。指定数の世代が形成されかつ評価されるまで、割り当てられたモデラモジュール108は、所要のモデル専用に維持される。使用者が連続的に実行を指定する場合、使用者が手動でモデルの展開を停止するまで、専用のモデラモジュール108は所要モデルに専念する。各モデラモジュール108は、染色体10の継続する世代を生成することによって、本発明の方法を実行する。モデラモジュール108はスケジューラモジュール110に各世代を送信し、スケジューラモジュール110は適応度評価器112に各世代を送信し、その後、次世代を形成するのに使用される結果を受信する。
【００５９】
スケジューラモジュール110は、全ての作動するモデラ108からの評価要求を受信する。各要求は、所要のモデルに対する染色体の世代を含む。前記のように、各染色体10は、トレーニングデータ集合体内の従属変数値をモデルがどれくらい適切に予測するかを決定するのに評価すべき予測用モデル要素を含む（適応値評価と称する方法）。スケジューラモジュール110は、全てのモデラ108により形成される染色体の世代の評価を調整する。スケジューラモジュール110は、未使用の適応度評価器112に各染色体を送信する。適応度評価器112は、使用者指定適応度測定基準の値を展開する。使用者により選択される適応度測定基準は、区分従属変数と共に使用可能に正確に分類される百分率、連続従属変数と共に使用可能な直線相関又は世代の最上変位値だけに基づく適応度測定値である上部リフトでもよい。適応度評価器112は、スケジューラモジュール110に適応度測定基準を返送して、
世代の全染色体に対する値も受信するとき、スケジューラモジュール110は、所要のモデラ108にその情報を返送する。
【００６０】
各適応度評価器112は、関連するトレーニングデータ集合体の各観察値に染色体モデルを適用して、従属変数の予測値を決定する。適応度評価は、各観察の予測値と実際値とを比較して、トレーニングデータ集合体の全観察値にわたって、予測値と実際値とがどれくらいよく一致するかを表す単一の適応度測定基準を展開する。本発明の装置は、あらゆる数の適応度評価器112を備えることができる。染色体の評価を完了した後に、適応度評価器112は、適応度測定基準をスケジューラモジュール110に送信して、同一の世代からの他の染色体又は他の所要モデルを評価するのに利用可能となる。
【００６１】
初期世代内の染色体10を評価し適応度測定基準を割り当てた後に、コンピュータ100内で割り当てられたモデラモジュール108は、遺伝的アルゴリズムを使用して、染色体の次世代を生成する。遺伝的アルゴリズムは、選択、交叉及び突然変異の過程を含む。図８は、初期世代及び複数の継続世代を形成する本発明の方法を示す。
【００６２】
選択過程は、染色体の次世代を形成するのに使用される初期世代の染色体10を識別する。染色体の選択は無作為であり回転式抽籤器に類似する。この選択は基本的にランダム法であるが、初期世代の各染色体10は、選択に対して同等の可能性を有しない。適応度評価によって、割り当てられた適応度測定値に比例して、選択の可能性を増大させる加重値により、初期世代の各染色体10は抽選で表される。
【００６３】
交叉の目的は、次世代候補の染色体を生成することである。選択された媒介変数は、各世代の染色体の目標数及びウイルス率を指定する。ランダム法により形成される各世代では、ウイルス率は、染色体数を決定する（目標数×ウイルス率）。ウイルス率により導出される染色体は、選択、交叉又は適応度の何等かの考察の結果ではない。
【００６４】
クローニング又は純粋な（標準の）交叉の２つの方法の１つに、増殖のために選択される染色体10を利用できる。使用者が交叉率を設定して、各種の交叉に使用される割合を制御できる。例えば、７０%の交叉率は、選択された染色体の７０%を使用して交叉法により子を形成し、残りの３０%を単純なクローニングに使用することを意味する。クローニング法は、現世代から選択された染色体の複製である新世代の染色体を形成する。
【００６５】
交叉法は、図７に示すように、２つの選択された親染色体64及び66に基づいて、次世代の２つの子染色体60及び62を形成する。前記方法は、各親からの遺伝子を使用して子染色体を各々生成する。
【００６６】
使用者は、多くの交叉点70を指定するか又は均一な交叉法を選択することにより交叉法を制御する。多くの交叉点70を指定するとき、本発明による装置は、染色体の無作為位置に各交叉点を配置する。交叉点70は、子を形成するのに交換される遺伝子の区画を限定する。図７は、２つの交叉点により如何に子が形成されるかを示す。
【００６７】
交叉法は、第１の交叉点までの遺伝子を一方の親から取り出し、第１と第２との交叉点間の遺伝子を他の親から取り出すことにより子を形成する。第２と第３との交叉点間の遺伝子を第１の親から取り出す。交互に取り出すこの方法は、あらゆる数の交叉点に対して継続できる。
【００６８】
一様交叉法は、染色体の各可能な点を交叉点として使用する。遺伝子の区画を交互に使用する代わりに、本装置は、他の親からの遺伝子を次の区画に使用するか否かを決定する無作為の方法を使用する。多数の遺伝子を有する染色体に対して、交叉（他の親からの遺伝子を使用する）は、選ぶに値する交叉点の半分で発生する。
【００６９】
交叉点は、変数遺伝子断片のあらゆる点に発生可能である。あらゆる変数に対して、子は、一方の親からの導入／排除遺伝子を含み、他方の親からの係数遺伝子を含むことができる。子染色体内の活性化変数（交叉により生成される）は、一方の両親内で活性でなければならないが、活性化変数の全体設定は、どちらか親とも相違する可能性がある。
【００７０】
増殖（クローニング及び交叉）により生成される染色体は、次世代候補と認められ突然変異を受ける。突然変異は、突然変異率として入力される確率値に基づいて、候補染色体の選択ビットを反転させる無作為の方法である。突然変異の間に、染色体内でビットが無作為に反転され、確実に世代の多様化が促進される。比較的小さい外れ値ビット率を割当てることにより、外れ値遺伝子の選択ビットを突然変異から保護できる点に留意すべきである。
【００７１】
前記のように、ウイルス率は、ランダム法により生成される染色体の数を決定する。本装置は、ランダム法を使用して、所望の個体サイズに適用されるウイルス率と等しい数の染色体を生成する。世代中の残部の染色体は、交叉により形成される。ウイルス率により導出される染色体は、適応度測定値又は現行世代の他の特性に無関係に形成されるので、探索領域の新領域を探索する新世代に多様性を導入する傾向がある。ウイルス率の増大は、新領域を探索する傾向がある反面、ウイルス率の減少は、既に達成された最良モデルを微調整する傾向がある。
【００７２】
次世代が形成された後に、次世代の各染色体は、前記の通り適応度を評価される。適応度評価に続いて、前記のように染色体の次世代に遺伝的アルゴリズムを適用して、染色体の新世代が生成される。染色体の形成、評価及び次世代染色体の形成の反復法は、コンピュータ100の一部の範囲内で、使用者が前記方法を停止するまで継続する。
【００７３】
本発明による方法の長所の１つは、染色体の各世代に見られる改善である。本発明による方法の他の長所は、人的な誤り（ヒューマンエラー）を顕著に減少し、予測用モデルを生成する能力を向上することである。更に本発明による方法の他の長所は、多種多様なビジネス環境に使用して、広範囲に役立つモデルを予測できることである。更に本発明の方法による他の長所は、各染色体の生成法に使用する遺伝子マッピングが、変数の正しい組合せを選択しない確率をほぼゼロに低減することである。
【００７４】
本発明による予測用モデルを展開する方法及び装置により、前記目的、手段及び長所を十分に満足することは明らかである。本発明は、特定の実施の形態の状況について記載されたが、他の代替、変更及び変形は、前記詳細な説明から当業者に明白であろう。従って、広範な特許請求の範囲内に包含される代替、変更及び変形を含むことを意図する。
【図面の簡単な説明】
【００７５】
【図１】本発明の方法により形成される染色体の構造を示す概略図
【図２】本発明の方法に使用されるトリム（刈り込み）法を示す概略図
【図３】４つの外れ値ビットを使用して、最大トリム範囲を示すグラフ
【図４】４つの外れ値ビットを有するシナリオの外れ値ビット確率を示すグラフ
【図５】４つの対比部を有する対比遺伝子及び１０の分割切断部の概略図
【図６】本発明の方法を実行するコンピュータ装置の概略図
【図７】本発明の方法に使用する交叉法の概略図
【図８】本発明の方法を示すフローチャート
【符号の説明】
【００７６】
(10)・・染色体、 (12)・・観察された変数断片、 (12')・・観察された連続的な変数の断片（観察された変数断片）、 (12'')・・観察された区分変数断片（観察された変数断片）、 (14)・・交互作用断片、 (16)・・切片遺伝子、 (18)・・導入／排除遺伝子、 (20)・・係数遺伝子、 (22)・・最小外れ値遺伝子、 (24)・・最大外れ値遺伝子、 (26)・・対比遺伝子、 (27)・・変換遺伝子、 (28)・・導入／排除遺伝子、 (29)・・順位付け遺伝子、 (30)・・係数遺伝子、 (32)・・第１の変数遺伝子、 (34)・・第２の変数遺伝子、 (36)・・演算子遺伝子、 (100)・・コンピュータ、 (106)・・ユーザインタフェースモジュール、 (108)・・モデラモジュール、 (110)・・スケジューラモジュール、 (112)・・適応度評価器、

Claims

少なくとも１つの独立変数値に基づいて、単一の従属変数値を予測するモデルを展開するコンピュータ実行法において、
(a) 従属変数に対する値と少なくと１つの独立変数に対する値とを各々有する複数の観察値を含むデータ集合体を準備する過程と、
(b) 予測用モデルを各々含む染色体の初期世代をデータ集合体から生成する過程と、
(c) 初期世代の各染色体の量的な適応度測定値を決定する過程と、
(d) 多くの染色体を初期世代から選択し、クローニング及び交叉技術の少なくとも１により選択された染色体を交叉し、かつ染色体を突然変異させることにより、染色体の次世代を生成する過程とを含むことを特徴とする方法。
(e) 次世代の染色体の新規な適応度測定値を決定する過程と、(f) 選択、交叉及び突然変異を繰り返して、染色体の継続世代を生成する過程とを含む請求項１に記載の方法。
染色体の継続世代を生成する過程(e)及び(f)を繰り返して、染色体の他の継続世代を生成する請求項２に記載の方法。
初期世代の染色体を生成する過程は、ランダム法を使用して実行される請求項１に記載の方法。
初期世代の染色体を生成する過程は、分布法を使用して実行される請求項１に記載の方法。
染色体を生成する過程は、複数の遺伝子により各々形成される複数の観察された変数断片と、複数の遺伝子により各々形成される複数の交互作用断片と、複数の交互作用断片の後に配置される切片遺伝子とを有する染色体を形成する過程を含む請求項１に記載の方法。
染色体の交互作用断片の数を固定した媒介変数に限定し、又は所定の規則を適用して交互作用の遺伝子断片の数を決定する過程を含む請求項６に記載の方法。
染色体を生成する過程は、導入／排除遺伝子、係数遺伝子、最小外れ値遺伝子、最大外れ値遺伝子、変換遺伝子及び順位付け遺伝子を含むように、少なくとも１つの観察された連続的な変数の遺伝子断片を形成する過程を含む請求項６に記載の方法。
複数の観察された連続的な変数の遺伝子断片を形成する過程と、観察された連続的な変数断片の特定の１の変数が、組込まれたモデルに含まれるか否かを導入／排除遺伝子を使用して示す過程とを含む請求項８に記載の方法。
観察された変数断片の特定の１により記述される観察された連続的な変数の係数値を識別する係数遺伝子を使用する過程を含む請求項９に記載の方法。
複数の２進ビットから係数遺伝子を形成し、特定の状態で全ビットが反転するスーパービットとして、多くの２進ビットを指定する過程を含む請求項１０に記載の方法。
観察された連続的な各変数断片の外れ値遺伝子を使用して、観察された連続的な変数断片内の観察値の分布範囲をトリミングする過程を含む請求項１０に記載の方法。
２本鎖形式の外れ値遺伝子を示す過程を含む請求項１２に記載の方法。
変換遺伝子を使用して、観察された連続的な変数断片内の観察された変数の分布範囲から非対称性及び尖りを除去し、可能な限り分布範囲を正規分布に近付けるように変換させる過程を含む請求項１２に記載の方法。
染色体を生成する過程は、導入／排除遺伝子、対比遺伝子及び少なくとも１つの係数遺伝子から成る少なくとも１つの観察された区分変数断片を形成する過程を含む請求項６に記載の方法。
複数の観察された区分変数断片を形成する過程と、導入／排除遺伝子を使用して、観察された区分変数の断片の特定の１つの変数が、組込まれたモデルに含まれるか否かを示す過程とを含む請求項１５に記載の方法。
係数遺伝子を使用して、観察された変数断片の特定の１つにより記述される観察された区分変数の係数値を識別する過程を含む請求項１６に記載の方法。
複数の２進ビットから係数遺伝子を形成する過程と、特定の状態でビットの全てが反転するスーパービットとして多くの２進ビットを指定する過程とを含む請求項１７に記載の方法。
要求されるモデルに許される区分の最大数を示す対比遺伝子を使用する過程を含む請求項１５に記載の方法。
染色体を生成する過程は、導入／排除遺伝子、係数遺伝子、第１の変数遺伝子、第２の変数遺伝子及び演算子遺伝子を含む各交互作用断片を形成する過程を含む請求項６に記載の方法。
導入／排除遺伝子を使用して、特定の交互作用断片により記述される特定の交互作用変数がモデル内に含まれるか否かを示す過程を含む請求項２０に記載の方法。
係数遺伝子を使用して、特定の交互作用断片により記述される交互作用変数の係数値を示す過程を含む請求項２１に記載の方法。
第１の変数遺伝子を使用して、交互作用変数値の誘導に使用される第１の観察された変数を識別する過程を含む請求項２２に記載の方法。
演算子遺伝子を使用して、２つの観察された変数から交互作用値の誘導に使用される演算子を選択する請求項２３に記載の方法。
演算子は、加算、乗算、減算、差の二乗、除算及び絶対差からなる群から選択される請求項２４に記載の方法。
第２の変数遺伝子を使用して、交互作用変数値の誘導に使用される観察された第２の２つの変数を識別する請求項２４に記載の方法。
各々の交互作用断片の第１及び第２の変数遺伝子を選択する過程を含む請求項２６に記載の方法。
適応度測定値を決定する過程は、１つのスケジューラモジュール及び複数の適応度評価器モジュールを準備する過程と、スケジューラモジュールを使用して、世代の染色体の１つを評価器モジュールの利用可能な１つに送出して計測する過程とを含む請求項１に記載の方法。
適応度測定値を決定する過程は、適応度測定基準を選択する過程と、適応度測定基準を使用する１つの染色体の適応度率を決定する過程とを含む請求項２８に記載の方法。
少なくとも１つのモデラモジュールを準備する過程と、各染色体の適応度測定値をスケジューラモジュール内に蓄積する過程と、スケジューラモジュールから少なくとも１つのモデラモジュールに蓄積された適応度測定値を送信する過程とを含む請求項２８に記載の方法。
少なくとも１つのモデラモジュールを使用して新世代の染色体を生成する過程を実行する過程を含む請求項３０に記載の方法。
世代の各染色体に加重する過程を含み、選択過程は、無作為に重みを付けた染色体を選択する過程を含む請求項３１に記載の方法。
交叉率及び複数の交叉点を選択する過程と、選択された交叉率及び複数の交叉点を使用する２つの選択された親染色体から２つの子染色体を形成する過程とを含む請求項３２に記載の方法。
予測用モデルを含む初期世代内の各染色体を有するデータ集合体から染色体の初期世代を生成する手段と、
初期世代の各染色体の量的な適応度測定値を決定する手段と、
多くの初期世代染色体を選択し、少なくとも１つのクローニング及び純粋な（標準の）交叉法により選択された初期世代染色体を交叉し、かつ交叉した染色体を染色体の次世代に突然変異させる手段とを備えることを特徴とする予測用モデルを構築する装置。
コンピュータと、コンピュータ内に少なくとも１つのモデラモジュールを有する初期世代の染色体を生成する手段とを備える請求項３４に記載の装置。
コンピュータ内に設けられるスケジューラモジュールと、コンピュータ内に設けられかつ量的な適応度測定値を決定する手段を形成する少なくとも１つの適応度評価器とを備える請求項３５に記載の装置。
コンピュータ内に設けられた複数の適応度評価器を備え、スケジューラモジュールは、複数の適応度評価器の何れにより、染色体の特定の１つの適応度測定値を決定すべきかを決定する請求項３６に記載の装置。
少なくとも１つのモデラモジュールは、多くの初期世代染色体を選択し、選択された初期世代染色体を交叉させ、かつ交叉した染色体を突然変異させる手段を形成する請求項３５に記載の装置。
ユーザインタフェースモジュールを備える請求項３５に記載の装置。
データ集合体及び最良の予測用モデルを記憶するコンピュータ内のデータベースと、データベースと連絡する少なくとも１つのモデラモジュールとを備える請求項３５に記載の装置。
観察された複数の変数断片と、複数の交互作用断片と、切片遺伝子とを備えることを特徴とするモデルを予測する染色体。
複数の交互作用断片の後に染色体上に配置される切片遺伝子を備える請求項４１に記載の染色体。
複数の交互作用断片は、所定の規則により又は所定の値に数を制限する請求項４１に記載の染色体。
観察された変数は、導入／排除遺伝子、係数遺伝子、最小外れ値遺伝子、最大外れ値遺伝子、変換遺伝子及び順位付け遺伝子を含む少なくとも１つの観察された連続的な変数断片を含む請求項４１に記載の染色体。
外れ値遺伝子の各々は、２本鎖の形式で表される請求項４４に記載の染色体。
観察された変数断片は、導入／排除遺伝子、対比遺伝子及び少なくとも１つの係数遺伝子を含む少なくとも１つの観察された区分変数の断片を含む請求項４１に記載の染色体。
交互作用断片の各々は、導入／排除遺伝子、係数遺伝子、第１の変数、第２の変数及び演算子を含む請求項４１に記載の染色体。
第１及び第２の変数のデータ集合体の多くの変数から無作為に選択する請求項４７に記載の染色体。