JP2002543538A - 実験データの分布状階層的発展型モデリングと可視化の方法 - Google Patents
実験データの分布状階層的発展型モデリングと可視化の方法Info
- Publication number
- JP2002543538A JP2002543538A JP2000615965A JP2000615965A JP2002543538A JP 2002543538 A JP2002543538 A JP 2002543538A JP 2000615965 A JP2000615965 A JP 2000615965A JP 2000615965 A JP2000615965 A JP 2000615965A JP 2002543538 A JP2002543538 A JP 2002543538A
- Authority
- JP
- Japan
- Prior art keywords
- data
- output
- feature
- subspace
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 395
- 238000012800 visualization Methods 0.000 title description 8
- 238000003860 storage Methods 0.000 claims abstract description 59
- 230000008569 process Effects 0.000 claims description 100
- 230000006870 function Effects 0.000 claims description 79
- 238000012360 testing method Methods 0.000 claims description 79
- 238000012549 training Methods 0.000 claims description 57
- 238000013139 quantization Methods 0.000 claims description 37
- 238000009826 distribution Methods 0.000 claims description 36
- 230000002068 genetic effect Effects 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000002829 reductive effect Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 17
- 230000008901 benefit Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000010076 replication Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000012248 genetic selection Methods 0.000 claims 7
- 238000005192 partition Methods 0.000 claims 2
- 230000004044 response Effects 0.000 claims 2
- 238000007794 visualization technique Methods 0.000 abstract 1
- 108090000623 proteins and genes Proteins 0.000 description 54
- 230000000875 corresponding effect Effects 0.000 description 41
- 238000011161 development Methods 0.000 description 37
- 239000000523 sample Substances 0.000 description 37
- 238000010586 diagram Methods 0.000 description 20
- 238000013459 approach Methods 0.000 description 16
- 239000000243 solution Substances 0.000 description 16
- 239000012634 fragment Substances 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 14
- 235000013305 food Nutrition 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 12
- 239000000499 gel Substances 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000010606 normalization Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000010429 evolutionary process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 241000607142 Salmonella Species 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 241001102832 Meseres Species 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 230000036961 partial effect Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000004090 dissolution Methods 0.000 description 5
- 239000000975 dye Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 229920000642 polymer Polymers 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 229910045601 alloy Inorganic materials 0.000 description 3
- 239000000956 alloy Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- ZMMJGEGLRURXTF-UHFFFAOYSA-N ethidium bromide Chemical compound [Br-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CC)=C1C1=CC=CC=C1 ZMMJGEGLRURXTF-UHFFFAOYSA-N 0.000 description 3
- 229960005542 ethidium bromide Drugs 0.000 description 3
- 238000001506 fluorescence spectroscopy Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000002844 melting Methods 0.000 description 3
- 230000008018 melting Effects 0.000 description 3
- 230000000704 physical effect Effects 0.000 description 3
- 235000013809 polyvinylpolypyrrolidone Nutrition 0.000 description 3
- 229920000523 polyvinylpolypyrrolidone Polymers 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 2
- 108091005804 Peptidases Proteins 0.000 description 2
- 239000004365 Protease Substances 0.000 description 2
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 2
- 244000000188 Vaccinium ovalifolium Species 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 239000011543 agarose gel Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002189 fluorescence spectrum Methods 0.000 description 2
- 238000001502 gel electrophoresis Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000006166 lysate Substances 0.000 description 2
- 239000012139 lysis buffer Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005293 physical law Methods 0.000 description 2
- 239000001253 polyvinylpolypyrrolidone Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000010186 staining Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000408551 Meza Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 101150039863 Rich gene Proteins 0.000 description 1
- 241001546666 Salmonella enterica subsp. enterica serovar Newport Species 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 229940098773 bovine serum albumin Drugs 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 244000078673 foodborn pathogen Species 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- QZIQJVCYUQZDIR-UHFFFAOYSA-N mechlorethamine hydrochloride Chemical compound Cl.ClCCN(C)CCCl QZIQJVCYUQZDIR-UHFFFAOYSA-N 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003068 molecular probe Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Physiology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
features)、モデル(models)、フレームワーク(frameworks)、そしてスーパ
ーフレームワーク(super-frameworks)、を創るために、データの画像的表現の
概念を情報理論(information theory)からの概念と組み合わせる。本発明はシ
ステムの実験型モデルを、前に取得されたデータ、すなわち、該システムへの入
力と該システムからの対応する出力を表すデータ、に基づいて創る方法と機械可
読記憶媒体(machine readable storage medium)とに関する。次いで該モデル
は次の取得入力からシステム出力を精確に予測するため使われる。本発明の方法
と機械可読記憶媒体は情報理論と熱力学の原理に基づく、エントロピー関数を使
用し、該方法は複雑な、多元処理(nulti-dimensional process)のモデリング
に特に好適である。本発明の方法はカテゴリー的モデリング(categorical mode
ling)、すなわち、出力変数が離散的状態(discrete states)をとる場合、及
び定量的モデリング、すなわち、出力変数が連続的な場合、の両者に使用出来る
。本発明の方法は、外見には混乱したシステムであるように見えるものの下にあ
る順序、又は構造を顕わすために、データ集合の最適表現、すなわち最も情報豊
富な表現(most information-rich representation)を同定(identifies)する
。発展型プログラミング(evolutionary programming)の使用は最適表現を同定
する1方法である。該方法は多元的フイーチャー空間(multi-dimensional feat
ure spaces)の情報コンテント(information content)を特徴付ける中でロー
カル及びグローバルの両情報メザー(both local and global information meas
ure)のその使用により際だっている。実験はローカル情報メザーがモデルの予
測能力(predictive capability)を支配することを示した。かくして、全体の
データ集合上でのグローバルな最適化を主として使う、多くの他の方法と対照的
に、本方法はグローバルに影響されるが、ローカルに最適化される技術、として
説明出来る。
tion)を使用する思想は、彼のパイオニヤ的業績、1948年発行の、ベルシス
テムテクニカルジャーナル(Bell System Technical Journal)、27,379
−423,623−656、”通信の数学的理論(A Mathematical Theory of C
ommunication)”でシー.イー.シャノン(C. E. Shannon)により初めて導入
された。シャノンは統計力学での対応する定義と形式的に同様なエントロピーの
定義が起こり得るイベントの総体(ensemble)内での特定のイベントの選択から
得られる情報を測定するため使用出来ることを示した。シャノンのエントロピー
関数は下記で表され、
足する、 1.H(p1,...,pn)はk=1,...,nでpk=1/nで最大となる
。これは均一な確率分布が最大エントロピーを有することを意味する。加えて、
Hmax(1/n、1/n,...,1/n)=ln n。従って、均一確率分布
のエントロピーは起こり得る状態の数と共に対数的に縮尺(scales)する。 2.H(AB)=H(A)+HA(B)ここでAとBは2つの有限スキーム(fin
ite schemes)である。H(AB)はスキームAとBの全エントロピーを表し、
HA(B)はスキームBを与えられたスキームAの条件的エントロピーである。
該2つのスキーム分布が相互に独立の時、HA(B)=H(B)である。 3.H(p1,p2,...,pn、0)=H(p1,p2,...,pn)。スキー
ム内の発生確率ゼロのどんなイベントもエントロピー関数を変化させない。
れた。1998年に、ケンブリッジ大学プレス(Cambridge University Press)
で発行された彼の本、フイッシャー情報からの物理学:ユニフイケーション(Ph
ysics from Fisher Information: A Unification)で、ロイフリーデン(Roy Fr
ieden)は”シャノンエントロピー(Shannon Entropy)”を全体のデータ集合間
のグローバルな情報メザーとして説明している。”フイッシャーエントロピー(
Fisher entropy)”として知られる、代わりの情報メザーも又データ集合間のロ
ーカルな情報の測定量としてフリーデンにより説明されている。数学的モデル化
で、フリーデンはフイッシャーエントロピーが物理的法則を発見するために特に
好適であることを最近示した。
規化された”情報エントロピー”関数を規定するために該シャノンのエントロピ
ー関数を使用した。1991年、京都、325、材料の機械的挙動に関する国際
会議論文集(Proceedings of the Intenational Conference on 'Mechanical Be
haviour of Materials VI')、ハヤシ、テー.及びニシ、テー.(Hayashi, T.
and Nishi, T.)著、”ポリマーアロイの形態学と物理的特性(Morphology and
Physical Properties of Polymer Alloys)”、参照。1992年発行、高分子
論文集(Kobunshi Ronbunshu)、49(4)、373−82、ハヤシ、テー.、
ワタナベ、エイ.、タナカ、エイチ.及びニシ、テー.(Hayashi, T., Watanab
e, A., Tanaka, H. and Nishi, T.)著、”3成分不相溶性ポリマーアロイの形
態学と物理的特性(Morphology and Physical Properties of Three-Components
Incompatible Polymer Alloys)”参照。
有するデータ集合(data set)D={d1,...,dn}を考える。もし全要素
の和dtotが次の様に定義されるならば、
様に規定することが出来る、
ty)を有する。fi=1/nの、完全に均一な分布(perfectly uniform distrib
ution )は1のE値となる。該分布がより不均一になるにつれ、Eの値は低下し
漸近的にゼロに近付く。該ニシの情報エントロピー関数Eの顕著な利点はそれが
分布の形状に無関係にどんな分布の均一性も特徴付けることである。対照的に、
普通使用される”標準偏差(standard deviation)”はガウス分布(Gaussian d
isribution)用でのみ標準的統計(standard distribution)に入ると通常解釈
される。
ression)、決定木法(decision tree methods)の様な従来技術の方法は或る本
質的限定を有する。ニューラルネットワークと他の統計的回帰方法はカテゴリー
的モデリングに使用されて来たが、それらは、該ネットワークのノード内で使用
される連続非線形シグモイド関数(continuous non-linear sigmoid function)
のために、定量的モデル化に遙かにより適合し、より良く動作する。決定木は、
連続的出力値に関する精確な定量的予測をする能力に欠けるためにカテゴリー的
モデリングに最も良く適合している。
合へ延長している。特に、シャノンにより表明された情報エントロピーの定量化
は修正され、1つ以上の入力、又はフイーチャー、と1つ以上の出力とを有する
システムから得られたデータに適用される。情報豊富(information-rich)であ
りかくして該システム出力(含む複数)の予測に有用なデータ入力の種々の部分
集合(subset)、又はフイーチャーの部分集合を同定(identify)するためにエ
ントロピー定量化(entropy quantification)が行われる。又該エントロピー定
量化は情報豊富な種々のフイーチャー部分集合内で領域(region)、又はセル(
cell)を同定する。該セルは固定的又は適合的なビニング過程(binning proces
s)を使用してフイーチャー部分空間内で規定される。
nation)、はフイーチャー部分空間を規定する。該フイーチャー部分空間は2進
ビット記号列(binary bit string)により表され、ここでは遺伝子(genes)と
して引用される。遺伝子はどの入力が特定部分空間にあるかを示し、従って特定
の部分空間の次元数(dimensionality)は該遺伝子数列(genes sequence)の”
1”のビットの数により決定される。望ましい情報特性を有する部分空間に対応
するそれら遺伝子を同定するために全てのフイーチャー部分空間の情報豊富さが
エグゾースチブ(exhaustively)に探索される。
チブな探索が最も情報豊富な部分空間を同定する好ましい方法であることは注意
すべきである。多くの場合、しかしながら、起こり得る部分空間の数は全ての起
こり得る部分空間をエグゾースチブに探索することが計算的に非現実的である程
充分大きい。それらの状況では、該部分空間は遺伝子数列を操作する遺伝的アル
ゴリズムを使用して探索されるのが好ましい。すなわち、遺伝子は望ましい情報
特性を有するフイーチャー部分空間の集合を進化させるよう組み合わされ及び/
又は選択的に突然変異(mutated)させられる。特に、該遺伝的フイーチャー部
分空間進化過程(evolution process)用の適応度関数(fitness function)は
その特定の遺伝子により表されるフイーチャー部分空間用情報エントロピーのメ
ザー(measure)である。情報コンテントの他のメザーは該出力に関する該部分
空間の均一度を示す(measure)。これらのメザーは分散(variance)、標準偏
差、又は或るしきい値を越える指定出力依存確率を有するセルの数(又はセルの
パーセンテージ)の様な発見的方法(heuristics)を含む。これらの情報的メザ
ーは望ましい情報特性、すなわち高い情報コンテントを有する遺伝子、又は部分
空間を同定するために使用されてもよい。加えて、決定木ベースの方法が使用さ
れてもよい。これらの代替えの方法はエグゾースチブな探索を行う時望ましい部
分空間を同定するため使用されてもよい。
ー部分空間エントロピーは、該部分空間内のセルのエントロピーメザーの加重平
均を計算することにより決定されるのが好ましい。出力特定的エントロピーメザ
ーも又使用されてもよい。セルエントロピーはここではローカルエントロピーと
呼ばれ、修正されたニシのエントロピー計算を使用して計算される。
トを有するよう決定されたフイーチャー部分空間の組み合わせを調べることによ
る。フイーチャー部分空間は、テストデータ(既知の対応出力を有するサンプル
入力データ点)を使用する高精度の予測を提供するフイーチャー部分空間の組み
合わせを見出すためにエグゾースチブな探索技術を使用して選択されそしてモデ
ル内へ組み合わされる。該モデルは又遺伝的アルゴリズムを使用して発展させら
れてもよい。この場合、該モデル遺伝子はどのフイーチャー部分空間が使用され
るかを指定し、該モデル遺伝子の長さは望ましい情報特性を有するとして前に同
定されたフイーチャー部分空間の数により決定される。該モデル発展過程で使用
される該適応度関数は考慮下の特定モデルの予測精度であるのが好ましい。
測するため、該システムへの対応する入出力を表す、前に取得されたデータに基
づきシステムの実験型モデルを創る方法が提供される。該方法は、 (a)該システムへの多数の入力と対応する該システムからの出力とからデー
タ集合を取得する過程と、 (b)該前に取得したデータ集合を、少なくとも1つのトレーニングデータ(
training data)集合と、少なくとも1つのテストデータ(test data)集合と、
そして少なくとも1つの検証データ(verification data)集合とにグループ分
けする過程を具備しており、該集合は相互に一致してもよく、或いは前に取得し
たデータの排他的(exclusive)又は非排他的(non-exclusive)部分集合であっ
てもよく、該方法は又、 (c)高いグローバルエントロピー加重(weights)を有する複数のフイーチ
ャー部分空間を、 (i)前記トレーニングデータ集合からフイーチャー部分空間を規定する複
数の入力を選択する過程と、 (ii)固定的か又は適合的か何れかの量子化方法(quantization)により
、各入力範囲を部分範囲(subrange)に分けることにより該フイーチャー部分空
間をセルに分ける過程と、 (iii)ローカルセルラーエントロピー加重による加重平均か、又は出力
特定的エントロピー加重による加重平均か何れかを形成することにより、グロー
バルエントロピー加重を決定する過程と、 により決定する過程と、 (d)オプション的に、高いエントロピー加重を有する該決定されたフイーチ
ャー部分空間内での各入力発生の頻度を調べ、削減された次元数データ集合を規
定するために最も頻繁に発生するそれらの入力のみを保持する過程と、そしてそ
の後過程(c)を繰り返す過程と、 (e)オプション的に、該削減された次元数フイーチャーデータ集合を規定す
るようにシステム入力から最も精密にシステム出力を予測する最適又は最適に近
い次元数と最適又は最適に近い量子化条件を決定するために、複数の量子化条件
下で該削減された次元数データ集合の複数の該次元(例えば、該次元の幾つか、
又は全て)上でエグゾースチブに探索する過程と、 (f)前記データ集合上のシステム入力からシステム出力を最も精密に予測す
る高いグローバルエントロピー加重(例えば、フイーチャーデータ集合の部分か
、又は全体か何れか)を有する該決定されたフイーチャー部分集合の組み合わせ
を決定する過程と、 (g)テストデータ集合上でシステム入力からシステム出力を最も精密に予測
する削減された次元数のフイーチャーデータ集合に部分集合(例えば、削減され
た次元数のフイーチャーデータ集合の部分か、又は全体かの何れか)を決定する
過程とを具備している。
デルのグループを見出すために種々のトレーニング及びテストデータ集合上で繰
り返されてもよい。この最適モデルのグループはそれらのモデルから生じる1つ
以上の予測を開発するために新しいデータについて”ポール(polled)”されて
もよい。これらの予測は、例えば、勝者1人占め(winner-takes-all)の投票ル
ールに基づいてもよい。システム入力から最も精密にシステム出力を予測する最
適モデルのグループの部分集合は次いで次の様に決定される。テストデータ集合
の入力がモデルの選択された部分集合のグループの各モデルに従属させられ(ラ
ンダムに選択されてよい)、各部分集合で予測された出力は各テストデータ出力
と比較される。該部分集合で予測された出力の計算過程は(b)−(e){又は
オプションとして(b)−(g)}と同様な仕方で行われ、そこでは個別のモデ
ル出力予測値を入力として、実際の出力値を出力として使用して新しいトレーニ
ング及びテストデータ集合が創られる。この過程はモデルの多数の選択された部
分集合グループ用に繰り返されてもよい。モデルの該選択された部分集合グルー
プは次いで、”フレームワーク”を規定するためにシステム入力からシステム出
力を最も精密に予測するモデルの最適部分集合ブループを見出すために発展(ev
olved)させられる。
モデル創生過程と同様な仕方で更に繰り返されてもよい。最適フレームワークの
このグループは、それらのフレームワークから生じる1つ以上の予測を開発する
ために新データ上で”ポール”され得る。これらの予測は、例えば、勝者1人占
めの投票ルールに基づくことが出来る。システム入力からシステム出力を最も精
密に予測する最適フレームワークのグループの部分集合は次いで次の様に決定さ
れる。テストデータ集合の入力はフレームワークの該選択された部分集合グルー
プの各フレームワークに印加され、各フレームワーク部分集合で予測された出力
が各テストデータ出力と比較される。該部分集合で予測される出力の計算過程は
(b)−(g)と同様な仕方で行われ、そこでは個別モデルフレームワークで予
測された値を入力としてそして実際の出力を出力として使用して新トレーニング
及びテストデータ集合が創られる。この過程はフレームワークの多数の選択され
た部分集合グループ用に繰り返される。フレームワークの該選択された部分集合
グループはシステム入力からシステム出力を最も精密に予測する、”スーパーフ
レームワーク”と呼ばれる、フレームワークの最適部分集合グループを見出すた
めに発展させられる。
ムワーク決定過程は予め決められた停止条件が達成されるまで繰り返される。該
停止条件は、例えば、1)発展型対象の族(family of evolutionary objects)
のポーリングから予め決められた予測精度の達成、又は2)予測精度でのインク
レメンタルな改善が予め決められたしきい値より低下した時、又は3)予測精度
での更に進んだ改善が達成されない時、として規定されてもよい。
ームワーク、スーパーフレームワーク他の様な逐次的により複雑に相互作用する
発展型”対象”のグループが、逐次的により大量の複雑なデータをモデル化し理
解するために、創られる発展型の過程である。
図から評価される様に、実験データから複雑なシステムのモデルを創生するため
に発展型過程(evolutionary process)が使用される。好ましい方法は、”発展
型対象(evolutionary objects)”、例えば、フイーチャー130、モデル14
0、フレームワーク150、そしてスーパーフレームワーク160他、の伸展す
る階層(extensible hierarchy)を創るために、データ110の多次元的表現を
情報理論120と組み合わせる。該過程は170で示した階層的な仕方で更に組
み合わせを発生するため続けられ得る。
み合わせは、初期のランダムに選択されたフイーチャー部分空間プールからエグ
ゾースチブな探索(exhautive search)又は発展型の過程により、同定(identi
fied)される。次いでモデルを創るためにフイーチャー部分空間の最適組み合わ
せ(optimum combination)が探索されるか又は発展(evolved)させられ、フレ
ームワークを創るためにモデルの最適組み合わせが更に探索されるか又は発展さ
せられ、そしてスーパーフレームワーク他を創るためにフレームワークの最適組
み合わせが更に探索されるか又は発展させられる。上記説明のより複雑な発展型
対象の逐次的発展は、予め決められた停止条件、例えば、予め決められたモデル
性能、が達成されるまで続く。ルールとして、該データ集合(data set)が大き
い程、これらの対象のより多くが創られるので、実験型モデル(empirical mode
l)の複雑さは、該入力の、該データが取得された該システムの出力との相互作
用の複雑さを反映する。
られた。該方法が、任意の非線形構造を有するデータ空間(data space)を成功
裡に処理することが必要である。該方法が、入力を知って出力を予測する”前向
き(foreward)”問題と、出力を知って入力を予測する”逆向き(inverse)”
問題との間を区別せず、それによりデータのモデル化と制御の問題を同じ足場(
footing)上に置くことも又望ましい。これは該データ集合それ自身の上に最小
の追加的モデルジオメトリー(additional model geometry)だけが重ね合わさ
れることを意味する。用語”ジオメトリー(geometry)”は、回帰技術(regres
sion technique)で導入される様な、線形及び非線形の両多様性を含む。対称性
(symmetry)もここでは目下のモデリングタスク用に最も情報豊富な(informat
ion-rich)入力又は入力の組み合わせを同定する利点を有する。この知識は意志
決定及び計画用の最適戦略を開発するため使用され得る。最後に、該方法は、そ
れが事実便利に実施されるために計算的に扱い易い(tractable)必要がある。
これらの設計目標を充たすために、幾つかの現在の線形及び非線形な方法が注意
深く解析され、共通のテーマが基本的な限定と機会とを同定する目標を用いて要
約された。
本的方法を説明することから始まる。より大きい。より複雑なデータ集合を説明
するために逐次的により複雑な対象の逐次的で階層的な発展に向かうために該方
法を更に伸展させることが次ぎに説明される。データ出力がなくても入力フイー
チャークラスター(input feature cluster)を発見する方法の下にある原理の
応用が次いで論じられ、それに多次元データ空間内で”情報可視化(informatio
n visualization)”を行う方法の説明が続く。ハイブリッドのモデリングスキ
ームを創るために本発明の方法をニューラルネットワーク(neural networks)
の様な他のモデリングパラダイム(modeling paradigms)と組み合わせることが
次いで詳述される。該説明は、遺伝的プログラミング(genetic programming)
の分野と結合された本発明の方法のデータモデル化の取り組みを使用して物理的
法則を発見する、新しい取り組みを結論としている。
に必要なコアツール(core tools)を提供し、簡単で統合的核(simple, unifyi
ng kernel)を該方法に提供することは述べるに値する。エントロピー(entropy
)の概念はデータ空間内の秩序(order){又は混乱(disorder)}の定量的メ
ザー(quantitative measure)を提供する。このメザーは、初期に混乱したシス
テムからの秩序の発生をドライブする発展型エンジン用の適応度関数(fitness
function)として使用され得る。この意味で、情報理論はドライバーを提供し、
発展型プログラミングは発見過程をシステム化するエンジンを提供する。最後に
、本発明の方法で説明されるパラダイムはデータドライブされている(is data
driven)が、それはデータ自身の中の情報コンテント(information content)
が予測(prediction)に使用されるからである。かくして、該方法は、下にある
数学のその固有の制限を有する数学的モデル化の分野と反対に、実験型モデル化
の分野に真正面(squarely)から属する。 データモデリング(DATA MODELING) 情報エントロピーの概念に基づくフレームワークは、入力の集合を与えられた
として1つか又は多数か何れかの出力が予測される必要がある様な、データモデ
リングの問題に適用されて来た。基本的方法は次の過程から成るが、すなわち 1.データ表現(data representation)又はデータ事前処理(data preproce
ssing)、 2.セル境界(cell boundary)を規定する固定的又は適合的(adaptive)な
方法を使用するデータ量子化(data quantization)、 3.遺伝的発展及び情報エントロピーを使用するフイーチャー組み合わせ選択
、 4.システム入力からシステム出力を最も精密に予測するフイーチャーデータ
集合の部分集合(subset)の決定である。 1.データ表現 典型的な実験的に得られたデータ集合で、幾つかの”測定”入力と出力とが提
供される。各システム入力とシステム出力は、ここでデータ点(data points)
と呼ぶ、データ値の入力及び出力のシーケンスを得るようにサンプリングされる
か他の仕方で測定される。目標(goal)は該データ点出力を最も精確に予測する
ために該データ点入力から最大の情報を抽出することである。多くの実システム
(real syatem)では、該データ点、又は実際の測定された入力は、それらが該
データの適切な表現として留まるに充分な程”情報豊富(information-rich)”
である。他の場合は、これはそうでないかも知れず、該データを表現するより適
切な”固有ベクトル(eigenvectors)”を創るために該データを変換することが
必要かも知れない。共通に使用される変換には特異値分解法(singular value d
ecomposition){エスブイデー(SVD)}、主成分分析法(principal component
analysis){ピーシーエイ(PCA)}、部分的最小2乗法(partial least squa
re method){ピーエルエス(PLS )法}が含まれる。
ル”(eigenvectors)が該データモデリング過程用入力として通常使われる。該
主成分選択法には2つの顕著な限定がある。
ードしない。多くのモデリング問題で、モデル化されつつある出力特性に関する
最も多くの情報を含む比較的低い固有値を有するのは固有ベクトルである。
に入力−出力関係が非常に非線形であるそれら用には最適変換ではないかも知れ
ない。
ャー(input features)”としても知られる、入力は初期には変換されない。も
し次の入力データ集合が、モデル化される必要のある出力に関する充分な情報を
現さないならば、上記で説明されたそれらの様なデータ変換が行われてもよい。
この戦略を使う主な理由は、変換の形式内に追加的ジオメトリーを課すよりも、
可能な所ではどこでも実際のデータを使用することである。この追加的ジオメト
リーが取る形式は未知であるかも知れない。加えて、データ変換過程を避けるこ
とは該変換過程の計算的オーバーヘッドを避け、かくして、特に非常に大きなデ
ータ集合用の計算効率を改善する。
入力よりも情報豊富な入力、又はフイーチャーを同定し、選択することにより次
元数(dimensionality)はなお減じられてもよい。これは、入力数が非常に多い
時は特に望ましく、最終モデルに起こり得るフイーチャーを全て使用することは
非実用的である。データ集合の”次元(dimension)”は入力の全部の数として
規定されてもよい。実験型モデルを開発する前に、好ましくは、当面のモデリン
グタスク用に最も情報豊富なフイーチャーを同定されるのがよい。入力数を減じ
る、又は該問題の次元数を減じる1つの技術は、少しの情報コンテントしか持た
ない入力を除くことである。これは入力と、対応する出力と、の相関(correlat
ion)を調べることに依りなされてもよい。しかしながら、好ましくは、次元数
削減は、下記で論じる様に、情報豊富と決定されたフイーチャー組み合わせで各
入力の発生頻度(each input's frequency of occurrence)を調べることにより
行われるのがよい。それで、より少ない発生頻度の入力(less-frequently-occu
rring inputs)はモデル発生過程から排除されてもよい。
の時の出力が、より早期の時の入力と出力との双方にも左右される事実から生ず
る。この様なシステムでは、該データ集合の正しい表現が非常に重要である。も
し特定時刻の測定出力に対応する入力がその時だけ測定されるならば、該時間遅
れ(time lags)(すなわち、入力発生と該結果としての出力発生の間の時間間
隔)内に含まれる情報は失われる。この問題を緩和するために、入力の拡張され
た集合から成るデータ表(data table)が作られるが、そこでは該入力の拡張さ
れた集合は入力の現在の集合のみならず多数の前の時刻(at multiple prior ti
mes)の入、出力からも成っている。この新データ表は次いで選択された時刻範
囲に亘り(spanning a selected time horizon)情報豊富な入力組み合わせ用に
解析され得る。
である。多くの場合、これは先験的には知られず、余りに長く早期までの時間間
隔{時間範囲(time span)}を含めることにより、該データ表の次元数は非常
に大きくなる。この事項を処理するために、多数のより短い時間範囲のデータ表
が元のデータ表から作られるが、各データ表は過去での与えられた時間間隔から
成る。これらのより新しいデータ表の各々の及ぶ時間間隔は重なったり、隣接し
たり又は分離していてもよい。これらのより小さいデータ表の各々からの最も情
報豊富な入力が次いで集められ、該小さなデータ表からの選択された入、出力を
含むハイブリッドデータ表を作るよう組み合わされる。この最後のハイブリッド
表は、該時間間隔間の起こり得る相互作用が今や含まれるので、次いでデータモ
デル化過程への入力として使用出来る。
lumber prices)に影響するが、約2ヶ月の推定時間遅れがあるのでないか、を
調査したいならば、この時間遅れを発見するために本発明用には該データ表は入
力が出力に2ヶ月先行する対応(matched)した入、出力を要する。これは、実
際の時間遅れがどれだけかを発見するために種々の入力が1つの出力に対し異な
る遅れを有する1つ以上のデータ表(すなわち、列は入、出力、行は連続した時
間)を形成することにより行われ得る。特に、1つの出力はX日の製材価格であ
ってもよい。入力がX日、X−1日、X−2日....からX−120日までの
住宅販売レートであるのみならず、X−1、X−2...からX−120までか
らの出力でもある。高い情報コンテントを持つ最も早期の入力が失われないこと
を保証するために、入力と対応する出力との間の推定時間遅れ(suspected time
lag)より長い時間間隔が選択される。次いで次の表の行はY日(例えば、X+
1又は幾らかもっと後れた日)の製材価格に等しい出力を有し、入力はY、Y−
1、Y−2,...Y−120の住宅販売レートであるのみならずY−1、Y−
2...からY−120日までからの出力でもある。次いで該システムは該出力
に影響する入力の組み合わせを同定することにより適当な時間遅れを同定する。 2.データ量子化とフイーチャー部分空間内のセル境界 一旦適当なデータ表現が確立されると、サンプル点を特徴付けるため使用され
る各入力で”量子化(quantization)”過程が行われる。入力値の範囲を部分範
囲に分ける、すなわち、当該技術で”ビニング(binning)”として公知の、ビ
ン(bins)に分けるために2つの量子化方法が使われるが。該ビニングは与えら
れたフイーチャー部分空間の各入力で行われるが、そこでは各入力は該部分空間
の次元に対応し、それはセルの領域に分けられる与えられたフイーチャー部分空
間となる。
定ビニング(fixed binning)”として知られる)に基づくが、そこでは各入力
に付随する値の全体範囲が等間隔又は等サイズの部分範囲又はビンに分けられる
。
呼ばれてもよく、図2Aで最も良く見られ、ここでは”適合的量子化(adaptive
quantization)”と呼ぶが、は値の該範囲を不等サイズの部分範囲に分けるこ
とに基づく。もしデータがデータビン210により示す様に均一に分布されてい
れば、該ビンサイズは大体等しい。しかしながら、該データ分布がクラスター(
clistered)されるならば、該ビンサイズは、ビン220により示される様に、
各ビンがデータ点の殆ど等しい数を含むように適合的に調整される。図2Bに見
られる様に、各部分範囲、又はビンのサイズは、入力範囲を等しい百分位数(pe
rcentile)の部分範囲に分け、それらの百分位数を該ビン240を作るフイーチ
ャー値の範囲上に射影(projecting)することにより、各入力の累積確率分布(
cumulative probability distribution)230(又はヒストグラム)に関係付
けられてもよい。
子化するため使われる。この方法では、各入力は別々に量子化され、すなわち、
量子化は入力毎ベースで行われる。該部分範囲又はビンのサイズ(幅)は与えら
れた入力内で一般に不均一で、その入力の累積確率分布の形を反映していること
を注意すべきである。該部分範囲のサイズは入力から入力へと変わってもよい。
適合的量子化(適合的ビンニング)は情報を含まない空の入力の部分範囲を有す
る確率を減らすが、それはさもないと最終モデル内の情報ギャップとなる。
間へと変わってもよい。すなわち、或る入力は、それらが高い次元の部分空間で
現れる時より低い次元の部分空間で現れる時の方がより精細な解像度のビニング
を有してもよい。これは或る全体のセルの解像度(セル当たりの点の数)は、デ
ータの意味のある量がセル内で一緒にグループ化又はビン化(binned)されるよ
うに、望まれる事実のためである。セル数は次元数に指数関数的に比例するので
、より高い次元のフイーチャー部分空間は、セル当たりの望ましい平均の点の数
を保持するように、個別入力用により粗いビニングを使用する。データ量子化が
モデル化の方法のローバストさ用に顕著な意味を有するのは該データの残りから
の外れ値の点の偏差の大きさが該量子化(ビニング)過程中に抑制されるからで
ある。例えば、もし入力値が最高部分範囲(ビン)内の上限を越えるなら、それ
はその値に無関係にその部分範囲(ビン)内に量子化(ビン化)される。
規定される。フイーチャー部分空間の画像的表現が創られてもよく、それも又簡
単に”部分空間”としてここでは呼ばれる。該部分空間は好ましくは複数の”セ
ル”に分けられるのがよく、該セルは該フイーチャー部分空間を含む入力の部分
範囲の組み合わせにより規定される。好ましい実施例では、データ量子化は更に
、(前の説明の固定的か又は適合的か何れかの方法を使用して)入力当たりの部
分範囲(ビン)の数を規定するか、又は、代わりに、該フイーチャー内のセル当
たりデータ点の平均数を規定するか、何れかで指定される。これは適合的量子化
法の多次元的拡張と見られる。
2そして3次元フイーチャー部分空間で示される。該データ集合は各々が4つの
入力、又はフイーチャーを有する4つのデータ点、DP1−DP4から成る。該
データ集合は全ての3つの図で同じである。該データ点はどのフイーチャー(又
はフイーチャー組み合わせ)が選択されるかにより特定のセルに分類される。図
3Aでは、もし該1次元部分空間が第3の入力(左端のビットに対応する第1入
力を用いて0010と呼ばれる)を表せば、DP1とDP4はセルC1に分類さ
れ(DP1=.5、DP4=.3)、DP2とDP3はセルC2に分類される(
DP2=1.2、DP3=1.7)。もし、しかしながら、該1次元部分空間が
第2入力(0100)であると取られるなら、DP2とDP4はC1に分類され
(DP2=.7、DP4=.4)、そしてDP1とDP3はC2に分類される(
DP1=1.5、DP3=1.9)。
ば、DP1はセルC2に分類される{DP1=(.5、1.5)}が、なお該第
1と第3入力(1010)により発生される部分空間ではセルC1に分類される
。図3Cでは、DP1は第1、第3そして第4入力(1011)で規定される部
分空間ではセルC1に分類され、第1、第2そして第4入力(1101)で規定
される部分空間ではセルC2に分類される。
合わせを同定することが望ましい。特定の入力組み合わせ、又はフイーチャー組
み合わせは多くのユニークな部分空間を規定することが上記例から分かる。有限
数の入力シーケンスを仮定すれば、の部分空間の数は勿論有限であるが、該数は
入力数と共に極めて急速に成長する。
。この様な相互作用が存在すれば、個別には情報貧弱な入力が高い情報エントロ
ピーを有する入力の組み合わせを作る相補的な仕方で組み合わされ得る。かくし
て、入力−入力相互作用の可能性を無視するどんなフイーチャー選択方法もモデ
ル化過程から有用な入力を排除する可能性があり得る。この制限を避けるために
、好ましい方法は、入力−入力関係を本質的に含み、該データ内にあるかも知れ
ぬ何等かの非線形性を非常に自然に処理する、情報理論ベースのフイーチャー部
分空間を選択する取り組みを使用する。
を含むが、それが好ましくは情報エントロピーのメザーを適応度関数として使う
遺伝的発展型アルゴリズム(genetic evolutionary algorithm)を含むのがよい
。 3.遺伝的発展と情報エントロピーを使用するフイーチャー部分空間選択 ここで説明する方法は好ましくは”遺伝的アルゴリズム”として公知の比較的
最近のアルゴリズム的取り組みを使用するのがよい。ジョンエイチ.ホランド(
John H. Holland){1975年発行、アナーバー、ミシガン大学プレス(Ann A
rbor:the University of Michigan Press)、”天然及び人工的システムでの適
合(Adaptation in Natural and Artificial Systems)”で}により定式化され
、又デー.イー.ゴルドバーグ(D. E. Goldberg){1989年発行、アデイソ
ン−ウエズレーパブリッシングカンパニー(Addison-Wesley Publishing Compan
y)、”探索、最適化及び機械学習に於ける遺伝的アルゴリズム(Genetic Algor
ithms in Search, Optimization and Machine Learning)”で}及びエム.ミッ
チェル(M. Mitchell){1997年発行、エムアイテープレス(M.I.T. Press
)、”遺伝的アルゴリズム入門(An Introduction to Genetic Algorithms)”
で}により説明された様に、該取り組みは最適化問題を解く強力で、一般的な方
法である。遺伝的アルゴリズムの取り組みは次の様である。
の母集団(population)としてエンコードする。ポピュラーなエンコード用フレ
ームワークは2進記号列(binary strings)に基づく。該ビット記号列の集まり
は”遺伝子プール(gene pool)”と呼ばれ、個別ビット記号列は”遺伝子(gen
e)”と呼ばれる。
する適応度関数(fitness function)を規定する。換言すれば、該適応度関数は
何等かの起こり得る解の良さ(goodness)(又は精度)を測定する。
通してより”適した(fit)”ビット記号列が”より適した(fitter)”子供(o
ffspring)の新しいプールを作るために優先的にメートする、選択的再組み合わ
せ(selective recombination)及び突然変異(mutation)の様な、遺伝子から
得られたアイデアを使用することにより、より適したビット記号列の次の世代が
発展出来る。”適応度(Fitness)”は情報エントロピーのメザーにより決定さ
れる。突然変異の役割は起こり得る解の探索空間を拡張することであり、該解は
改善された度合のローバストさ(robustness)を創る。
となる。最適解はこのプール内の”最適(fittest)”ビット記号列として選択
される。
n as a population of N-bit strings) 最適問題を解くために遺伝適アルゴリズムを使う最初の過程は、ビット記号列
として表される解となる方法で該問題を表すことである。簡単な例は4入力と1
出力を有するデータベースである。入力の種々の組み合わせが4ビット2進記号
列により表される。該ビット記号列1111は、全ての入力が該組み合わせ内に
含まれる入力組み合わせ、又はフイーチャー部分空間を表す。最左ビットを入力
A、第2の最左ビットをB、第3の最左ビットを入力Cそして最右ビットを入力
Dと呼ぶ。もしビットが値1に換わるなら、それは対応フイーチャーが該組み合
わせ内に含まれるべきことを意味する。逆に、もしビットが値0に換わるなら、
それは対応フイーチャーが該組み合わせ内で排除されるべきことを意味する。
力が排除される入力組み合わせを表す。この方法で、16の全可能性からのあら
ゆる起こり得る入力組み合わせは4ビット2進記号列により表される。一般に、
もしモデル化されるデータベースにN入力があるなら、全ての起こり得る入力組
み合わせはNビット2進記号列を使用して表される。4次元のフイーチャー部分
空間を表すサンプルの2進ビット記号列は図4に示される。図4の該ビット記号
列はDビットを有し、その4つだけが”1”のビットである。該”1”のビット
は4つのフイーチャーF1,F4,Fi、そしてFDと対応する。該変数iとD
は一般化された場合を表すために使用される。更に進んだ例が図3Aで示される
が、そこでは4入力システムを表し、1つの”1”ビットを有する、4ビット記
号列が1次元フイーチャー部分空間に対しコード化する。2つの”1”ビットが
図3Bに見られる2次元部分空間に対しコード化し、3つの”1”ビットが図3
Cで見られる3次元部分空間に対しコード化する。 b.ビット記号列の適応度を測定するための適応度関数の規定 最適化問題への解として最適ビット記号列を発展させるために、発展過程をド
ライブするため使用される定量評価(metric)を規定することが必要である。こ
の定量評価は遺伝的アルゴリズムでは適応度関数と呼ばれる。それは与えられた
ビット記号列が如何に良く目前の問題を解くかのメザー(measure)である。適
当な適応度関数を規定することは該ビット記号列がより良い解へ発展することを
保証する重要過程(critical step)である。
ドする。入力フイーチャー部分空間は、対応するビット記号列内でオンに換わる
入力フイーチャーを使用することにより作られ得る。データベース内のデータは
このフイーチャー部分空間内へ射影され得る。該適応度関数は、該入力フイーチ
ャー部分空間上で出力状態の分布を調べることにより情報豊富さのメザーを提供
する。もし該出力状態がこの部分空間上で非常にクラスターされてそして分離さ
れていれば、該対応する入力フイーチャー組み合わせは異なる出力状態を分離す
ることでよい仕事をしているので該適応度関数は高い値となる。逆に、もし全て
の出力状態が該部分空間上にランダムに分布されているならば、該対応する入力
フイーチャー組み合わせは該異なる出力状態を分離することで貧弱な仕事をして
いるので該適応度関数は低い値となる。代わりに、該適応度関数は、該部分空間
内の個別セルの情報豊富さを調べ、次いで該セルの加重平均を形成することによ
り該部分空間の情報豊富さのメザーを提供してもよい。
号列の発展をドライブする該適応度関数として使用される。このメザーは好まし
くはクラスタリングを規定する強力な方法であるエントロピー関数に基づくのが
よい。適応度関数のこのエントロピー的規定を用いて、該出力を最も良くクラス
ターし分離する入力組み合わせを表すビット記号列が該発展型過程から出現する
。代わりの適応度関数は、出力状態確率の標準偏差か分散か、又は少なくとも1
つの出力確率が他の出力確率より顕著に大きい部分空間内のセル数を表す値かを
含む。出力状態の集中を測定する他の同様な発見的方法(heuristics)、又はア
ドホック(ad hoc)な規則は発展型過程内で容易に交換される。 c.発展型過程の詳細 1.Nビット2進記号列のランダムなプールの創生 図5Aを参照すると、該発展型過程500は過程510で始まり、そこではN
ビットの2進記号列のランダムなプールが創られる。これらの初期2進記号列は
、それらがともかく最適であると云う先験的理由がないので一般的にそれらの適
応度関数用には非常に低い値しか持たない入力フイーチャー組み合わせをエンコ
ードする。この初期プールは該発展型過程を始動するため使われる。
算される。該データは過程520で示すようにバランスを取られる。各2進記号
列用にフイーチャー部分空間が発生され、データベース内のデータが対応する部
分空間内へ射影される。該部分空間は過程530で行われた選択に従って、等間
隔のビニング532又は適合的に隔てられたビニング534の選択に依りビンに
分けられる。考慮下の特定の遺伝子が過程540で選択され、そしてビンの数は
過程550で、好ましくはユーザー入力により、ビンの固定数552を指定する
か又はセル当たりサンプルの平均数554を指定することにより決定される。該
ビン配置は次いで過程560に示す様に、決定される。次いで対応2進記号列の
適応度を表す出力状態のクラスタリングと分離の程度を計算するためにエントロ
ピー関数又は他の規則が使用される。これは、データ点が各部分空間内に配置さ
れる過程570と、グローバル情報コンテントが決定される過程580で示され
る。過程585により示される様に、次の遺伝子シーケンスは過程540の開始
で動作する。
92が図5Cに示す様に創られる。これは、より高い適応度値(fitness value
)を有する2進記号列がより低い適応度値を有する2進記号列よりも比例してよ
り広いスロット幅に付随される過程と考えられる。これは、該ルーレットホイー
ルが廻されると、より低い適応度の2進記号列よりも、より高い適応度の2進記
号列の選択に、より重く加重する。この過程は下記で更に詳細に説明する。
応する2進記号列が選択される。もし元のプールにN個の2進記号列があるなら
、該ホイール592はN個の新親記号列を選択するためN回廻される。ここで重
要な点はもしそれが高い適応度値を有するなら該同じ2進記号列が1回より多く
選ばれ得ることである。逆に、低い適応度関数を有する2進記号列は、それが完
全に排除されることはないが、親として決して選択されないことが起こり得る。
次いでN個の親が、新しい子の2進記号列発生への先駆者としてN/2個の対に
対化される。
operation)594が行われるべきか否かを決定するために加重コインがフリッ
プされる。もしこれが交叉オペレーションとなるなら、クロシングサイトがビッ
ト位置1と該記号列内の最後のビット位置の次にあるの最後の起こり得るクロシ
ングサイトとの間でランダムに選択される。該クロシングサイトは各親を右側と
左側に分割する。図5Dに示す様に、各親の左側を他の親に右側と連結すること
により2つの子記号列が創られるが、そこでは該親遺伝子10001と0001
1は左半分100と000、そして右半分01と11に分割され、次いで100
11と00011を形成するよう組み合わされる。最後に、該2つの子記号列が
創られた後、該子記号列プールの多様性を増やすために該子記号列の小数の個別
ビットがランダムに逆にされる(突然変異される)。これは与えられたビットが
逆にされる確率に換算して指定出来る。逆転の確率は望ましいビット突然変異の
数と該記号列内ビット数に基づいて尺度合わせされる。すなわち、もし記号列当
たり平均5つの突然変異が望まれるならば、与えられたビット変更の確率は10
0ビット記号列用に0.05に、そして50ビット記号列用に0.1等に設定さ
れる。
代用の新しい親プールとして使用して、数回(又は数世代)繰り返される。該子
記号列プールが発展すると、それらの対応適応度は平均で改善すべきであるが、
それは各世代で、新しい子記号列を創るために、より適した記号列が優先的にメ
ートされるからである。
又は平均プール適応度か何れかが最早変化しない時か、何れかで停止出来る。
つの重要な項目がある。第1の項目はエンコーデイングスキームである。該問題
がビット記号列としてエンコードされ得る解の役に立つか?第2の項目は該適応
度関数の選出である。該発展型過程は該適応度関数により統制される(すなわち
、導かれる)ので、その解の質は間近な目標への適応度関数のマッチングに密接
に依存している。
がデータ集合のNの入力の1つと対応する、Nビット2進フイーチャービット記
号列を含む遺伝子を規定することにより解決される。該Nビット2進フイーチャ
ービット記号列の各ビットは対応入力を参照し、もし該対応入力が該フイーチャ
ー部分空間内にあれば該値1を、もし該対応入力が該フイーチャー部分空間内に
無ければ該値0を有する。
ピーを計算する情報エントロピーメザー(informational entropy measures)を
使用することにより解決される。該フイーチャー部分空間のグローバルエントロ
ピーは、それから最適モデルが発展させられ得る最適フイーチャー組み合わせの
プールの発展をドライブする適応度関数として使用される。該グローバルエント
ロピーは、フイーチャー部分空間内のセルのローカルエントロピーを最初に決定
し、そして該ローカルエントロピーの加重和として全体のフイーチャー部分空間
のグローバルエントロピーを計算することにより計算される。代わりに、部分空
間のグローバルエントロピーは、該全体の部分空間の間で、与えられる出力用の
点の分布を調べ、そして次いで全ての状態に亘り特定状態向けエントロピーの加
重平均を形成することにより決定されてもよい。フイーチャー部分空間プールを
保持する能力は、そのどちらも最終モデルのローバストさに寄与する該解空間内
の冗長度と多様性の双方を提供する。 ローカルセルエントロピーとグローバル部分空間エントロピーの決定 好ましい方法の側面に依れば、情報コンテントのレベルが測定される。特に、
セル又は部分空間の情報コンテントのレベルはデータ分布の均一性のメザーであ
る。すなわち、データが均一である程、システムのモデル化の目的にそれが持つ
予測価値は大きくなり、従って、情報コンテントのレベルは高くなる。該均一性
は多数の代替え的方法で測定されてもよい。1つのこの様な方法はクラスタリン
グパラメーター(clustering parameter)を使用する。用語クラスタリングパラ
メーターはローカルセルエントロピー、考慮下の特定部分空間上で計算された特
定出力のエントロピー、又はここで論じられる発見的方法、又は他の同様な方法
を指す。
テゴリー的出力システム及び方法602による連続する定量的モデル用に決定さ
れる。好ましい実施例では、前に論じたニシ(Nishi)の情報エントロピー規定
が、該情報コンテントを表すローカル及びグローバル両エントロピー加重を数学
的に規定するため使用される。本発明の実験型モデリング用には、ニシにより拡
張された、シャノンのエントロピーの概念が、該エントロピーのメザー(measur
e)が計算されるデータ集合用の適当なメザーであることが見出されて来た。ニ
シの式が出力状態に対応する確率の集合に適用される。等しい出力確率を有する
セル(各出力が等しく似ている)は少しの情報コンテントしか有しない。かくし
て、高い情報コンテントを有するデータ集合は他より高い、幾らかの確率を有す
る。より大きな確率的変動(greater probabilistic variations)は出力状態の
不平衡(imbalance in the output states)を反映し、従って該データ集合の高
い情報豊富さの指標を与える。
ng term)Wが規定され、W=1−Eの形式を有する。該エントロピー加重項W
はニシの情報エントロピー関数Eの補数(complement)であり、完全に不均一な
分布用に値1を有し、完全に均一な分布用に値0を有する。
項(local entropic weighting term)を計算することにより決定される。例え
ば、部分空間内の与えられたセル用に適当なものは次の仕方で規定され得るが、
すなわち最初に、過程610で、nCエントリーを有するデータ集合が創られ、
ここでnCは出力状態の数である。各エントリーは下記で与えられるセルi用の
特定状態向けローカル確率pC|iに対応しており、
全ての出力状態kに亘り延び、かくしてセルi内の全ての点を含む。与えられセ
ルi用に、値pC|iのシーケンスは種々の出力状態cにある確率を表す。過程6
20で該セルの情報コンテントは決定される。好ましくは、ニシの情報エントロ
ピー規定が部分空間S内の与えられたセルi用のローカルエントロピー項Eを規
定するため使用されるのがよく、
表し、そして
含まれる。
関数であることを呼称する。高い情報コンテントを有するセルは高いローカルエ
ントロピー加重を有する。すなわち、それらはWi Lsの高い値を有する。
ことによるか、又は何等かの1つの出力が予め規定されたしきい値を上回る付随
確率を有するかどうかを決定することによる様な、均一性のもう1つのメザーに
より測定されてもよい。例えば、セルの確率分布に基づきセルに値を割り当てて
もよい。特に、予め決められた値より大きい何等かの出力状態確率を有するセル
は1の値を割り当てられ、該出力状態確率のどれも予め決められた値より大きく
ないどのセルも値0を割り当てられる。該予め決められた値は該フイーチャー部
分空間(モデル、フレームワーク、スーパーフレームワーク等)の結果に基づき
実験的に選ばれた定数である。該定数は又出力状態の数に基づいてもよい。例え
ば、何れかの出力状態が平均より大きい発生の尤度(greater-than-average lik
elihood of occurring)を有するセルの数を数えたいと願ってもよい。それで、
nの出力状態システムについて、1/nより大きい何等か1つの出力状態確率を
有するどんなセルも1の値を与えられるか、又はk/nより大きければ、或る定
数kが与えられる。他のセルはゼロの値を与えられる。
づいて増加出来る。例えば、4出力状態システムでは、0.25より大きい発生
確率を有する2つの出力状態を有するセルは2の加重を与えられる。更に進んだ
代替えとして、セルの又はグローバルな加重は出力状態の分散に基づくことが出
来る。他の同様な発見的方法が考慮下のセルの情報コンテントを決定するため使
用されてもよい。
法602に示す様に計算される。過程630で、該セルに存在する出力値の全て
を含むデータ集合が創られる。該セルの情報コンテントは過程640で計算され
る。出力に特定的な確率を処理する時、高い情報コンテントを有するデータ集合
は他より高い或る確率を有することが思い出される。出力値を直接処理する時、
しかしながら、過程630−670でその場合である様に、情報豊富な集合はよ
り均一なデータ値を有するそれらである。すなわち、高い情報集合は出力値では
より少ない変動を有する。かくして、もし情報コンテントが該ニシのエントロピ
ー計算を使用して決定されれば、該補数的値1−Eを形成する必要はない。この
場合の加重係数は簡単にニシのエントロピーEに等しい。
るようにしきい値限定を適用することが望ましい。これはグローバルな計算が行
われる時意味のない情報コンテントを有するセルの情報コンテントを累積するこ
とに付随する誤った影響を制限する助けになる。ローカルなセルのエントロピー
の計算は過程670に示す様に完了する。
子化し、各量子化レベルでの確率を有するデータ集合を規定するために、過程6
10で示す上記方法の過程を使用することが可能である。残りの過程620も、
上記説明の様にエントロピー加重を計算することによって、該情報コンテントを
決定するため行われる。 ローカルエントロピーの加重和としてのグローバルエントロピーの計算 図7を参照すると、部分空間S用のグローバルエントロピーWgsは次いで、そ
の部分空間内の全セルに亘りローカルセルエントロピーWlsのセル母集団加重和
(cell-population-weighted sum)として計算される。
ント(データ点)数を表す。実際は、これは、それがその部分空間内のセルのピ
ューリテイ(purity)の全体的メザーを記述するので、グローバルエントロピー
の有用なメザーであることになった。図8はローカルとグローバルの情報コンテ
ントの計算を図解する。図9はローカルとグローバルのエントロピーパラメータ
ーの例を示す。高い情報コンテントを有する部分空間はWgsの高い値を有する。
出力状態依存のグローバルエントロピーを計算する代替え的方法 規定された基本的統計量は、該出力が部分空間S内の状態c内にあるとした場
合にセルi内にある確率を表す確率pi|cである。
の全てのセルjに亘って伸展する。
てグローバルエントロピー項Wgs cを規定するため使用出来る。最初に、与えら
れた状態c用のニシのエントロピーが計算される:
亘る和である、分母は1に等しいが、一貫性と明確化のために上記表現に含まれ
る。ES Cはかくして該部分空間S上の確率pS i|cの分布のグローバルな均一性を
表す。最後に、該グローバルエントロピー項Wc gsは下記で規定され Wc gs=1−ES c それは部分空間S内でのカテゴリーc用のグローバルな出力に特定的なエントロ
ピー加重項である。これは、それが全体の部分空間を通しての点の分布(出力c
に対応する)のクラスタリングを表す意味でグローバルなメザーである。高い情
報コンテントを有する部分空間は高い値のWc gSを有する。 グローバルエントロピー加重係数の代替え的規定用のカテゴリーから独立した一
般化 全カテゴリーに亘り加算することにより、代替え的グローバルエントロピー加
重係数はカテゴリーから独立したグローバルエントロピー加重係数として規定さ
れ
す。この代替えの規定は出力状態数が多く、そして計算効率が望まれる状況で有
用と信じられる。
(categorical)”であることが仮定されている。同じ方法は、エントロピー計
算の前に最初に出力値を離散的状態又はカテゴリーに人工的に量子化することに
より、例え該出力値が連続的であっても、ローカル及びグローバルエントロピー
を計算するため使用される。
性(ultimate validity)に付随されることは述べる価値がある。上記解析で、
該データ集合はバランスされていると仮定されてもいるが、しかしながら、この
様なことは常にはその場合ではない。2つの出力状態、AとBとがある問題を考
える。もし該トレーニングデータ集合が状態Aを表すデータ項目から主として成
るならば、該母集団の統計はアンバランスとなり、ことによると偏倚されたモデ
ルの創生となる。インバランスの理由は、データコレクター(data collector)
の部分での偏倚か、又は該データ集合の親母集団特性にある真性のインバランス
か何れかである。
の絶対数より寧ろ該セル内に存在する与えられた出力状態のデータ項目の部分を
参照するように簡単な正規化が行われ得る。この正規化は多くの実験データ集合
で成功裡に使われて来た。第2の場合では、該インバランスは”真実(real)”
であるので、正規化は適当ではないかも知れない。
に対応する75項目と状態Bに対応する25項目とがあると仮定する。状態Aに
対応する5項目と状態Bに対応する5項目を有する全部で10項目がある部分空
間内のセルを考える。絶対項では、我々は各エントリーが特定の状態用のカウン
トを参照する{5,5}に対応する”カウントデータ集合”を有するので、これ
はインピュアセル(impure cell)である。しかしながら、該データは次の様に
その状態用の全体のカウントに対して各カウントを正規化することによりバラン
スさせられてもよい。
/15を伴い、正規化されたデータ集合FはF={1/4,3/4}となる。エ
ントロピーEは次の様に計算される。
/2)=0.811 変型されたニシのエントロピーWは1−E、すなわち1−0.811=0.1
89である。図2Cはデータ集合内で与えられた出力状態が支配的な時データの
影響をバランスさせる方法を図解するブロック図である。 予測指向の適応度関数を用いたモデル発展 一旦入力が量子化され、フイーチャー部分空間のプールが遺伝的アルゴリズム
により初めに同定されると、それらの好ましい部分空間の組み合わせを形成する
ことによりモデルが発生される。上記説明の様に、データ又はトレーニングデー
タ集合と呼ばれるデータの部分集合は、そこから情報が抽出され得る多くのフイ
ーチャー部分空間トポグラフイ(feature subspace topographies)を創るため
に使用される。高い情報コンテントを有する部分空間が一旦同定されると、これ
らの部分空間は、出力予測の目的で該データが内部へ射影される”ルックアップ
(look up)”部分空間として使用される。
力状態の分布により決定される。すなわち、各データ点(又はテストデータ部分
空間内の各点)は、図3A−Cに関係して見られる様に、与えられた部分空間内
の1つのセル内に分類される。各データ点に付随する出力を予測しようとして、
人は、部分空間(全体のデータ集合、又はトレーニング部分集合)を占めるため
使用されるデータの分布を単に見て、予測に到達するためこれを使用する。特定
の部分空間による出力予測用に従う簡単な規則は、該出力が状態cにあるとなる
べき確率がpc|iにより与えられることである。この”ローカル”確率はフイー
チャー部分空間内の与えられたセルを占めるサンプル点の出力分布を単に表して
いる。
下の全ての部分空間に関して各点が調べられる。該ローカル確率は本質的に”ベ
ース(base)”量であり、それは次いでモデル内のローカル及びグローバルの両
エントロピーにより加重される。該用語”ローカルエントロピー”と”グローバ
ルエントロピー”は”エントロピー的係数”又は”エントロピー的加重”として
ここでは集合的に引用される。それは、簡単な確率的モデルと比較した時本方法
をかなりより精密化するモデル予測を決定するグローバル及びローカルの両方の
情報定量評価(information metrics)の追加である。このエントロピー係数の
目的は”情報豊富”な部分空間内の”情報豊富”なセルを際立たせ(emphasize
)、個別的に情報が貧弱か{すなわち、情報豊富さの少ない(less information
-rich)}、又は情報貧弱な部分空間内に置かれるか何れかであるセルを軽視(d
e-emphasize)することである。
せ又はモデル用の適応度関数は、予測のエントロピー的加重和と、該予測と該テ
ストデータ点に付随する実際の出力値との間の付随誤差率(associated error r
ate)とである(再び、全体データ集合か又は部分集合かの何れか)。
重係数は該フイーチャー部分空間の情報コンテントを特徴付けるために使用され
る。フイーチャー部分空間セルの寄与をローカル及びグローバルな情報メザーに
より加重することにより、該方法は種々の種類のノイズ源を有効に抑制すること
が出来る。1つのこの様なノイズ源はセル内のローカルノイズである。もしセル
内の出力状態の分布が均一であるなら、そのセルは少しの予測情報しか有しない
。与えられた出力状態の確率はセル内の出力状態の全分布の性質をほのめかすこ
とは出来るが、それは全体の物語は述べない。全ての他の出力状態の分布は与え
られた出力状態の確率内には含まれない。2進出力システムの他の何れでも、1
つの出力状態確率内に含まれた情報はかくして不完全である。個別セルに付随す
るローカルエントロピー項の計算は全体のローカル確率分布を特徴付ける加重係
数となる。
方法で計算出来る。部分空間のグローバルエントロピーを規定する好ましい技術
はグローバルエントロピーをローカルセルエントロピーのセル母集団加重和(ce
ll-population-weighted sum)として規定することである。該ローカルエントロ
ピーは部分空間内の各セル用に計算され、この部分空間用の該グローバルエント
ロピーは次いで全てのセルに亘りセル母集団加重和を行うことにより計算される
。これは部分空間について全体のグローバルセル情報エントロピーを測定する(
部分空間のセル全部上で)。
分布を調べる。もしこの分布が均一なら、関心のある該部分空間はその出力状態
について少しの予測情報しか有さない。この実施例で、部分空間内で各出力状態
用に別々のグローバルエントロピー項が計算される。この代わりのグローバルエ
ントロピー項は、各出力状態用に同じである、前に説明したグローバルエントロ
ピー項とは異なる。この代わりのグローバルエントロピーのメザーは、与えられ
た部分空間が1つの出力状態に関しては”情報豊富”であるが、異なる出力状態
に関しては”情報が貧弱”である可能性を受け入れる。
重係数の独立した計算を考慮する。これらの係数は最大の予測精度用にローカル
及びグローバル情報の間の最適バランスを得るために個別に調整、又は”ツイー
ク(tweaked)”される。多くの従来技術のデータモデリングシステムでは、ロ
ーカル及びグローバル加重係数の相対的大きさを便利に調整することは難しい。
前記の様に、大抵の従来技術の方法は解に到達するために全体のデータ集合上で
の目的関数(objective function)の最適化に依存する。
ーチャーは与えられた出力に関する本質的に同じ情報コンテントを含んでいる。
例え2つのフイーチャーが特定の出力状態に関する情報を含まなくても、それら
はなお相関しているかも知れない。冗長度は本発明の方法を本質的に制限せず、
事実、それは全体の計算コストを増やすけれども、創られるローバストさを該モ
デルに組み入れる方法として非常に役立ち得る。情報メザーを使用するクラスタ
リング方法はフイーチャー間の冗長度を同定するために利用可能であり、下記で
論じる。
amount of "structure")を測定する。分布がより少ししか均一でない、又は”
より多く構造化されて(more structured)”いる程、その対応するエントロピ
ー加重Wはより高い。データ空間の構造のこの側面はローカル及びグローバルの
統計の重要性を加重するため使用される。
グローバルな情報加重係数の別々な制御を考慮する。生ずる自然な問題はローカ
ルさの規定であり、ローカルとはどれ程ローカルなのか?この質問の回答は勿論
取り組まれる特定の問題による。好ましい実施例に依れば、該方法は該ビンの解
像を走査することによりローカルさの最良の説明をシステム的に探索するが、該
解像度は今度は最高の予測精度を提供するために多次元のセルサイズを決定する
。特に、情報豊富なフイーチャー部分空間の異なるグループが同定され(エグゾ
ースチブな探索か又はフイーチャー部分空間発展かの何れかにより)、そこでは
各グループは部分空間当たり異なる数のセルnを使用する。事実、セル数nは最
小値から最大値までエグゾースチブに探索される。セルの最大数はセル当たりの
点の最小平均の意味で指定されるが、それは余りに多くのビンで部分空間の分解
能を上げ過ぎることは望ましくないからである。最小数は1より例え小さくても
よい。
本発明の方法では、入力の量子化は多次元部分空間を創るために行われる。分類
問題では、該出力変数は離散的カテゴリー又は状態であり、かくして既に量子化
されている。定量的モデリングでは、出力変数は連続的である。この様な場合、
1つの起こり得る解は該出力状態空間の離散ビンへの人工的な量子化を行うこと
である。該出力データ空間が量子化された後、上記で説明した離散的モデリング
フレームワークがローカル及びグローバルエントロピー係数を測定するために使
用され得る。これらのエントロピー係数は下記説明の方法を用いて該出力の連続
値の予測に使用され得る。
団統計に対する比<npop>である。もしncが<npop>より遙かに大きければ
、大抵の出力状態はセル内で空いており、貧弱な統計となり、モデルでの起こり
得る劣化となる。これは再びより多くのデータを主張し(argues for)、それは
データドライブされるモデルには当然である。コンピユータハードウエア技術の
進歩と共に、多量のデータ集合の取得と記憶の能力は急激に増加し、本発明の方
法は該データからの情報抽出を可能にする。該方法は、ncの値が小さい(1−
10の桁で)多くの真実の世界の問題でncが<npop>より遙かに大きい時でも
驚く程良く作動することが分かった。これは多数の部分空間上での加算統計の協
力効果のためかも知れない。
、遺伝的アルゴリズムを使用して最も情報豊富なフイーチャーのプールを発展さ
せるため使用される適応度関数として使用され得る。このプールの決定は前に説
明したデータ量子化条件に依存する。セル当たりサンプル点の平均数が減少する
と、該ローカル及びグローバルエントロピー情報メザーは一般に増加する。しか
しながら、これは、これらの量子化条件が最終モデルの開発で良く一般化するこ
とを必ずしも意味しない。実際に、セル当たりサンプル点の平均数が1より可成
り少ない(すなわち、0.1以下)量子化条件下でフイーチャーを発展させるこ
とはなお精確なモデルに帰着する。これは主に、該フイーチャープール内の多数
の部分空間上での加算統計の協力効果のためである。 システム入力からシステム出力を最も精密に予測するフイーチャーデータ集合の
部分集合の決定 図10を参照すると、高い情報エントロピーを有するフイーチャーデータ集合
が一旦決定されると、このフイーチャー集合は予測モデルを直接開発するため使
用されてもよい。しかしながら、発展型方法(evolutionary method)を使用す
る該フイーチャー選択過程は、比較的高い情報エントロピーを有する高次元数デ
ータ空間内でそれらのフイーチャーのみを保持することによりいわゆる”次元数
の災い(curse of dimensionality)”を緩和する可成りの利点を有する。この
関係で、N次元空間内の起こり得る2進フイーチャービット記号列の総数は2N
であり、その量はNと共に指数関数的に増加することを注意すべきである。
出力状態確率ベクトルを計算することが出来る。図14を参照すると、このベク
トルを計算するためには、全加重係数を創るよう該ローカル及びグローバルエン
トロピー加重係数を組み合わせることが最初に必要である。本発明の方法では、
該ローカル及びグローバルエントロピー加重を含む一般的第3次表現が最適モデ
ル性能用に実験的に調整された係数を用いて規定される。該全加重係数用の一般
的表現はかくして次の様に見られる。
ル及びグローバル加重の組み合わせである付随する一般的加重係数WSを有する
(該式は又グローバル加重係数Wgsが出力状態依存性であり、従って該一般的
加重係数が出力状態依存性であることを示すことに注意を要す。該グローバル加
重係数が全ての出力状態に亘って計算される場合、出力状態cへの依存は除かれ
る)。
ム他を得るために実験的に調整される。多くの問題では、該グローバルエントロ
ピー回数も存在するが、該加重係数は該ローカルエントロピー加重係数により支
配される。それはここで説明される方法がフイーチャー部分空間内のローカル統
計に可成りの重要性を提供する点を強化し、それはここに説明される方法と従来
技術のモデル化の取り組みとの間を際立たせる特徴である。該モデル用の信頼限
界の確立の中では、該モデル係数は該誤差統計を計算するために変更され得る。
は次の様に計算出来る。
るセルid内へ射影するよう仮定され、該ローカル確率pc|idは該点がセルid内
へ写像する事実がある時、該出力が状態cである確率である。上記の様に、もし
一般的エントロピー加重が出力依存でないならば、一般的エントロピー加重の下
付き文字cは上記式で無視されてもよい。各出力状態c用確率は次いで確率ベク
トル内に組み合わされ得る。
でに亘り加算される。
含まれた情報を要約している。ニューラルネットワークの様な種々の従来技術の
モデル化の取り組みも同様なベクトルとなり、異なる取り組みは該結果を解釈す
ると取られた。1994年発行の、レビューオブサイエンテイフイックインスツ
ルメント(Review of Scientific Istruments)、65巻(6)、1803−1
832pp、ビショップ、シー.エム.(Bishop,C.M.)著”ニューラルネット
ワークとそれらの応用(Neural networks and Their Applications)”で説明さ
れる様に、共通に使用される方法は、予測された出力状態を発生の最も大きな確
率を有する状態として割り当てる”勝者1人占め(winner take all)”戦術を
使用することである。 フイーチャー部分空間の部分集合を使用する最適モデルの発展 高いグローバルエントロピー加重を有する部分空間を同定するための発展型方
法は上記で論じられた。これは次元数の災い(curse)が明らかな多くの入力フ
イーチャーを有する問題で特に有用である。第1の発展段階では、該発展をドラ
イブする適応度関数は部分空間のグローバルエントロピーである。最も良く予測
するモデルを決定するために発展の概念を使うことも可能である。第2の発展段
階では目標はテストデータ集合で最低誤差となる高いグローバルエントロピーを
有するフイーチャー部分空間の最適部分集合を同定することである。この第2の
発展段階は最良の予測モデルを作るために協力的仕方で”一緒に良く作用する(
work well together)”部分空間をグループ化する。同時に該モデリング過程で
追加的ノイズを導入する部分空間は第2発展段階中に間引かれる(culled)。図
15を参照すると、この第2発展段階での該適応度関数は次いで、フイーチャー
部分空間の特定の部分集合を使用することから得られるテスト集合内の全体の予
測誤差である。
エントロピーを有するフイーチャー部分空間の最後の遺伝子プール内に存在すれ
ば、フイーチャーの最適組み合わせを見出すために第2発展過程が使用される。
Mビットの”モデルベクトル”が規定されるが、そこでは各ビット位置は与えら
れたフイーチャーの在り、無しをエンコードする。該モデルベクトルによりエン
コードされた該フイーチャーを使用してトレーニングとテステイングが行われ、
該適応度関数はテスト集合上のモデリング過程から生じる適当な性能定量評価で
ある。分類問題用には、該適当な性能定量評価は該テスト集合内に正しく分類さ
れるサンプルのパーセントである。定量的モデリング問題用には、該適当な性能
定量評価は該テスト集合内の予測と実際の値の間の正規化された絶対差であり下
記で与えられ
はテスト点値の出力範囲の最大値、そしてdminはテスト点値の該範囲の最小出
力値である。
最適フイーチャー組み合わせを選択するため使用される。それで、第1発展段階
は高情報エントロピーのフイーチャーのプールを同定したが、該プールはテスト
集合内の予測誤差を最小にする最良部分集合のフイーチャーを見出すために該第
2発展段階で更に発展させられる。この全体の過程は該モデリング問題への最良
の実験的解を見出すために種々の発展的条件と制限下で繰り返される。
豊富なフイーチャーのみならず、最良予測モデルを開発するために必要なフイー
チャー部分空間の最適部分集合も、双方を同定するために、発展的方法が使用さ
れる。2つに発展段階を有することは該方法のユニークな利点を提供する。第1
段階は手元の問題に見通しを得るために何れの次のモデリング過程からも独立し
て調べ得るフイーチャー部分空間の情報豊富な部分集合を作る。この見通しは今
度は意志決定過程を導くため使用出来る。
内の何処に情報があるかを容易には明らかにしないことである。この欠点は従来
技術の方法の能力を戦略計画と意志決定に参画することを制限する。本発明の方
法では、第1発展段階の後の区切り点が、知的戦略計画と意志決定の可能性のみ
ならず、次のモデリング過程が進める価値があるかどうかを決定する機会も考慮
する。例えば、もし入力フイーチャーの充分豊富な集合が見出せないならば、本
発明の方法は、ローバストなモデルを開発する前に、より情報豊富なフイーチャ
ーを入力として含むデータへ戻るようモデル作成者(modeler)に指し示す。本
方法はどの情報がないかを指定はしないが、本方法は充たされる必要のある情報
ギャップがあることを指示する。情報ギャップ自体のこの指示は複雑な過程の理
解で非常に価値がある。 情報写像の創生(Creation of Information Map) 図11を参照すると、該第1発展段階の後、該問題の基本的理解を得るために
該発展したフイーチャーデータ集合内に存在する入力の発生頻度のヒストグラム
を作ることも又非常に有用である。このヒストグラムは該問題用の”情報写像(
Information Map)”と規定出来る。幾つかの問題用には、該情報写像の構造は
、入力の或る部分集合が入力の他の部分集合より可成り頻繁に起こるならば該問
題の次元数を減らすために使用出来る。該部分集合の次元数を減らすことは、セ
ル当たりサンプル点の平均数で部分空間を占めるために必要なデータ量が該次元
数の増加につれて指数関数的に増加する様な次元数の災いのもう1つの側面を緩
和する追加的利点を有する。図12は遺伝子リストとその付随情報写像の例であ
る。 エグゾースチブ(Exhausitve)な次元的モデリング 図13を参照すると、もしこの様な次元数削減が可能なら、予測モデルは減少
した入力データ集合を使用して開発可能である。本方法の好ましい実施例に依れ
ば、Nの最も共通に起こる入力が該情報写像から同定され、次いでNより小さい
か等しい全てのM用に該NのフイーチャーのMの部分次元(sub-dimensions)内
への全ての起こり得る射影(projection)が該フイーチャー部分空間を規定する
ため計算される。全てのこの様な射影を計算する帰納的アルゴリズム(recursiv
e algorithm)は次の様である。
e)は:各部分次元M用に、Nの数のリスト内で全てのMケ組のもの(M-tuples
)(長さMの組み合わせ)を同定する問題を考える。第1要素が最初に選択され
次いでN−1の数の残りのリスト内の全ての(M−1)ケ組のもの(長さM−1
の組み合わせ)が帰納的仕方で同定される必要がある。一旦全てのこの様な(M
−1)ケ組のものが同定され、該第1要素と組み合わされると、元のリストの第
2要素が新しい第1要素として選択され、次いで該第2要素の過ぎた該N−2の
残りの要素内の全ての(M−1)ケ組のものが同定される。この過程は該第1要
素が該元のリストの終わりからのM+1番目の要素を越えるまで続く。該アルゴ
リズムはそれがそれ自身を呼ぶので本質的に帰納的であり、それは又該要素の順
序付けが重要でないことを仮定している。
されると、このプールは、上記説明の方法を使用してテスト集合内の出力値を予
測するために使用されるフイーチャー部分空間の集合として直接使用され得る。
この過程は各部分次元M用の複数の量子化条件に亘って繰り返され得る。次いで
最適な(部分次元、量子化)−対{optimum(sub-dimension, quantization)-p
airs}がテスト集合上の全予測誤差を最小化することに基づいて選択される。最
適な(部分次元、量子化)対が選択された後、該最適な(部分次元、量子化)条
件に対応するフイーチャー部分空間のプールは該第2の発展段階用のスタート点
として使用され得る。この第2発展段階はテスト集合内に最小全予測誤差を有す
るこのプールからフイーチャー部分空間の最適部分集合を選択し、かくして最適
モデルを規定する。
い部分次元表現を決定することが有利と分かった。より低い部分次元で、より高
いセル母集団統計が量子化の比較的精細なレベルに於いてさえもなお保持され得
て、かくして該モデルの精度を改善する。
デリングの方法は元のデータ集合に直接適用され得る。これは高情報エントロピ
ーを有するフイーチャーのプールを同定する第1発展過程を行う必要性を取り除
く。 定量的モデリング 出力変数の人工的量子化を行うことによる定量的モデリング問題の分類問題へ
の変換はローカル及びグローバルエントロピー係数を計算するために有用である
。発生する自然な疑問は元のデータ集合内に存在する精度を如何に最終予測モデ
ル内に保存するかである。これは、もし出力ビン解像度が乏しいセル統計を避け
るためデータ集合のサイズにより抑制されるならば、特に重要である。伝統的分
類問題用には、出力変数が起こり得る状態の離散的総体(ensemble)の1つを仮
定出来るのみなので該精度問題(precision issue)は存在しない。
ーの計算が、サンプル点の数から共に独立したカテゴリー又はセル上で加算が行
われるシャノンの項に基づくことである。これはサンプル母集団統計を情報コン
テントから分離することを容易化する。定量的モデリング用には、出力変数の人
工的量子化は該ローカル及びグローバルエントロピーが同じ方法で計算されるこ
とを可能にして、かくしてサンプル母集団統計からの情報メザーの分離を保持す
る。
、生の出力変数内の精度は最終予測モデル内の精度を回復するため使用され得る
。
バランスを取られる。これは、各カテゴリー内の最終母集団が共通の目標値にあ
るように各出力カテゴリー内の各データ項目を或る尺度係数で有効に複製するこ
とにより達成される。典型的共通目標値はデータ点の全数を表す数である。
ific probabilities)はその状態に対応する点の数に基づき正規化される。デー
タを明確に複製することなくデータをバランス化する代わりの取り組みを下記で
説明する。ニシの情報エントロピー項の計算は、Nがデータ集合のサイズを表す
場合のln(1/N)係数を含む正規化項を有するが、この正規化は主にエント
ロピー項を0と1の間の値に制限するため役立っている。該正規化項は、均一性
の程度が該データ集合のサイズに依存する問題に直接向けられていない。
体への正規化は微妙な偏倚を招く。例えデータ内の絶対的変動が比肩されるもの
でも、より小さいデータ集合内の正規化されたデータ項目間の相対変動は、より
大きなデータ集合内の対応する項目間のそれより大きくなり得る。この偏倚を正
すために、データバランス化過程が導入される。該バランス化過程を下記に説明
する。
2出力状態に対応する入力を表す。D1はN1項目を有し、D2はN2項目を有する
。MがN1とN2の最小公倍数を、M1とM2が対応するデータ集合の各々用の掛け
算尺度係数(multiplying scale factors)を表す。もしD1をM1倍、そしてD2 をM2倍だけ複製するなら、最終両データ集合D’1とD’2はM項目を有する。
必要な代数計算を行った後、新データ集合の各々用のニシのエントロピー項は次
の様に変型される。
1/N1)} E’2={ln(1/M2)+Σf’ilnf’i}/{ln(1/M2)+ln
(1/N2)} ここでfiとf’iはそれぞれ元のデータ集合D1とD2上で正規化されたデータ部
分を表す。
に、もし該出力データが該セル内で全ての人工的出力カテゴリー上にばらまかれ
ていれば、Wlocalは低い。該グローバルエントロピーは簡単に該部分空間内の
セル上での数加重平均<Wi local>として規定出来る。Wglobalは該部分空間内
の情報の正規化総量を測定する。最後に、カテゴリーベースの分類で使用される
基本確率定量評価Ps icは平均(又は代わりに中央値又は他の代表的統計量)セ
ルアナログ出力値で置き換えられ得る。該部分空間上での平均セルアナログ出力
値の加重和は次いで出力値を予測する離散的な場合に於ける様に行われることも
出来る。それらの出力値で広いばらつき(spread)を有するセルは、個別セルが
情報豊富でない部分空間でそうなる様に、下げて加重されることを注意する。
ランス化されたデータ集合用にセル内平均値を計算するため使用される。該デー
タバランス化過程はトレーニングデータ集合内の出力値の分布により導入される
何等かの偏倚を除去するために行われる。
てMjは第j番のデータ項目に付随するデータ複製係数(data replication fact
or)を表すが、該データ複製係数は該第j番の項目が属する人工的に量子化され
た状態に依存する。
らすために、オプションとして下記の過程が行われる。最初に、情報豊富な部分
空間が離散出力状態の議論で前に説明した様に発展させられる。一旦最も情報豊
富な部分空間が発展させられると、ローカル及びグローバル両エントロピーしき
い値が、該情報豊富な部分空間に付随する平均値か又は中間値か何れかのエント
ロピー加重和の計算に向かって適用される。該ローカルエントロピーしきい値よ
り低いセル用ローカルエントロピー値はゼロ(0)に設定される。同様に、該平
均の計算で誤差が徐々に累積されるのを避けるために、該グローバルエントロピ
ーしきい値より低い部分空間用グローバルエントロピー値はゼロ(0)に設定さ
れる。
で、グローバルエントロピー関数の値の基づき該ローカルエントロピーの追加的
しきい値処理を行うことが望ましいことが屡々ある。与えられた部分空間射影用
のグローバルエントロピーがその対応するしきい値の下にあれば、その部分空間
内の全てのセル用の該ローカルエントロピー関数はそれらの個別値に関係なくオ
プション的にゼロに設定出来る。前記説明のしきい値処理方法は又離散型出力状
態モデリング用にもオプションとして行い得るが、クリープ誤差を最小化するた
めにより制限的過程が取られるべき定量的モデリング用でより高い価値がある。
ルのテスト集合上で最小全出力誤差に帰着する情報豊富な部分空間の最適組み合
わせを発展させ得る。又本発明の範囲内の定量的モデリングの方法は階層的発展
をも含む。第1発展段階で、最も情報豊富な部分空間が、グローバルエントロピ
ーを適応度関数として使用して、発展させられ、第2発展段階が続くがそこでは
最小テスト誤差に帰着する情報豊富な部分空間の最適組み合わせが発展させられ
る。
デリングに共通のパラダイムが使用されることである。実験型のモデリングと過
程理解とのための基礎としての分布状階層的発展の概念は、出力変数の唯1つ(
連続型か離散型か何れか)の種類用にしか最適化されない従来技術の方法と対照
的に、出力変数の両クラス(連続型及び離散型の両方)に適用される。 分布状階層的発展 ここに説明される方法は、”対象(object)”、例えば、フイーチャー、モデ
ル、フレームワーク、そしてスーパーフレームワーク、の階層を創るために、情
報理論からの概念を用いて、データの画像的表現、又はデータの多次元的表現の
概念を使用する。用語”分布状階層的発展(distributed hierachial evolution
)”は、モデル、フレームワーク、スーパーフレームワーク他の様な逐次より複
雑で相互作用する発展型”対象”のグループが複雑なデータの漸進的により大き
い量をモデル化し理解するため創られる発展型過程として規定される。大きな、
複雑なデータ集合用には、前に説明したモデル創生過程が、最適モデルのグルー
プを見出すために種々のトレーニング及びデータ集合上で繰り返される。最適モ
デルのグループの情報豊富な部分集合は次の様に決定される。
グループ(ランダムに選択されてよい)の各モデルに差し出され,各部分集合で
予測される出力が各テストデータ出力と比較される。該部分集合で予測される出
力の計算の過程は個別モデルを創るための過程と同様な仕方で行われ、そこでは
個別のモデルで予測される値を入力としてそして実際の出力値を該出力として使
用して、新しいトレーニング及びテストのデータ集合が創られる。この過程はモ
デルの多数の選択された部分集合グループ用に繰り返される。次いで該選択され
た部分集合グループは、”フレームワーク”と呼ばれるものを規定するためにシ
ステム入力からシステム出力を最も精確に予測するモデルの最適部分集合グルー
プを見出すために発展させられる。図17Aと17Bはフレームワーク発展の概
念を図解する。
クのグループを見出すためにモデル創生過程と同様な仕方で、繰り返される。最
適フレームワークのグループの情報豊富な部分集合は次の様に決定される。テス
トデータ集合の入力がフレームワークの選択された部分集合グループの各フレー
ムワークに印加され、各フレームワーク部分集合で予測される出力が各テストデ
ータ出力と比較される。フレームワーク部分集合で予測される出力を計算する過
程は個別モデルを創る過程と同様な仕方で行われるが、そこでは新しいトレーニ
ング及びテストのデータ集合が個別のフレームワークで予測された値を入力とし
て、そして実際の出力値を該出力として使用して創られる。この過程はフレーム
ワークの多数の選択された部分集合グループ用に繰り返される。該選択された部
分集合グルプは次いで、システム入力からシステム出力を最も精確に予測するフ
レームワークの最適部分集合グループ(これは”スーパーフレームワーク”と呼
ばれる)を見出すために発展させられる。図18Bはスーパーフレームワーク発
展用の考慮を図解する。
ームワーク決定過程は、予め決められた停止条件が達成されるまで、繰り返され
てもよい。該停止条件は、例えば、:1)予め決められた予測精度の達成、又は
2)予測精度で更に進む改善が達成されない時、の様に規定されてもよい。本発
明の方法はかくして実験データ集合上に分布した多数の相互作用する発展型対象
の階層が同定される伸長可能な発展型過程である。発展対象の該階層の深さは解
析されるべきデータ集合の複雑さにより決定される。簡単なデータ集合用には、
全データ集合の非常に小さな部分集合を使用する1つのコンパクトなモデルで該
全データ集合に亘りテストと検証(verification)のデータ集合値を精確に予測
するのに充分である。該データ集合の複雑性が増加すると、該全データ集合(検
証データ集合を含めて)を精確に説明するためにモデル、フレームワーク、スー
パーフレームワークの階層を展開することが必要になるかも知れない。
点は、1つの大きな、モノリシックな実験型モデル(monolithic empirical mod
el)の創生よりむしろ実験的モデルを規定するために大きなデータ集合に亘り分
布された多数の、コンパクトな発展型対象の創生から生じる。高度に非線形の過
程用には、大きなタスクを多くの小さいタスクに分けることが重要な実際的結果
を有する顕著な計算的利点を提供する。
での1つの、グローバル最適化上での顕著な性能改善となることは注意されるべ
きである。該大きなデータ集合内に含まれる益々増える情報は次々とより複雑な
発展対象の相互作用の中に閉じ込められ、該相互作用は該実験型モデリング過程
内の自由度の顕著な源として作用する。これは新データが現れた時該実験型モデ
ルの更新を簡単化する。該実験型モデルの更新の初期過程は、該新データをテス
ト集合として使用して現在の実験型モデル内に最も最近の又は”最も高い”発展
型対象の新グループを発展させることを含む。より早期のデータを使用して発展
させられたより早期の又は”より低い”発展型対象は全く変えられる必要はない
が該階層内の最も最近の発展型対象の新グループを創るため使用され得る。より
早期の発展型対象のこのリクラスタリング(reclustering)からもし不充分に精
確な新実験型モデルが生じるならば、その場合だけ、該新データの部分集合を使
用して該階層内の該より早期の発展型対象を再発展(re-evolve)(該発展の繰
り返し)させる必要がある。これが達成された時、最も最近の発展型対象の次ぎ
に新しいグループが該新データの異なる部分集合を使用して再発展させられる。
モデル更新へのこのトップダウン的取り組みは、大抵の従来技術のモデリングの
取り組みに共通なより伝統的なボトムアップのモデル更新に勝る顕著な計算的利
点を供する。 監視されないフイーチャークラスタリング 部分集合用グローバルエントロピーメザーの概念は又入力相関に基づいてフイ
ーチャークラスターを発展させるために適応度関数として使用される。例えフイ
ーチャー部分集合内のセルが出力状態に関し可成りの情報を含まなくても、該セ
ル母集団統計は該部分空間上でなお高度にクラスターされ得る。入力フイーチャ
ー間の相関は、”グローバルエントロピー加重係数の代替え的規定”の名称の節
で前に説明したグローバルエントロピーパラメーターの代替えの規定と非常に似
た情報エントロピー規定を使用して、出力状態から独立にセル母集団統計の均一
性を計算することにより同定され得る。この場合、情報エントロピーを計算する
ために使用されたニシのデータ集合内の基本量はセル母集団であり、該ニシのデ
ータ集合内のエントリーの数は該部分空間内のセルの数である。
用して、最も高くクラスターされたフイーチャー部分空間は発展させられ、図1
9A、19B、19Cそして19Dで示される。(19A及び19Bの発展過程
は図5A及び5Bの前に説明した過程と同様である。考慮下の特定の遺伝子が過
程700で選択される。過程740により示す様に、次の遺伝子シーケンスは過
程700で始めに作動させられる。) これは、クラスターを発見するための、1990年発行、アイイーイーイー論
文集(Proceedings of the IEEE)78巻4号1464ー1480頁、コーネン
、テー.(Kohnen, T.)著”自己組織化写像(The Self-Organizing Map)”で
説明される様に、コーネンニューラルネットワーク(Kohnen neural networks)
の様な他の監視されない方法の代替えである。この様な従来技術の方法に勝る本
発明の方法の魅力的側面は監視されない及び監視されるモデリングの間の区別が
、該エントロピー計算での出力状態情報の簡単な排除又は包含により非常に自然
に起こることである。
と、このプール内のフイーチャー部分空間のグループは、帰納用のドライブ条件
としての該部分空間を横切る入力の重なり用に、例えば、しきい値条件を使用し
てより大きなクラスターを作るよう帰納的に合併させられ得る。この方法で、よ
り大きなフイーチャークラスターのより小さなグループは、より大きなフイーチ
ャークラスターの直接の同定が計算的に手に負えない非常に高い次元のデータ集
合に於いても、効率良く同定され得る。 情報可視化 高いグローバル情報エントロピーのフイーチャーデータ集合を決定する第1の
発展段階中に、該発展過程で同定される、最も高いローカル情報エントロピーを
有するセルのリストを保持することも又可能である。
リストの選択では最小セルカウントしきい値が使用されてもよい。高いグローバ
ル情報を有するフイーチャー内に存在するセルを調べることにより第1の発展段
階の終わりでこの高いローカルエントロピーリストを創ることは可能である。計
算効率の理由で、該第1発展段階の終わりでこの高いローカルエントロピーリス
トを創ることが好ましい。
information visualization)”用にも使用出来る。多次元空間での情報可視化
はデータ削減の問題として見られる。容易に理解可能な仕方でデータ集合内の本
質的情報を取り込むために、最も情報豊富なセルのみが表示される必要がある。
前の段落で、最も情報豊富なセルを選択するシステム的方法が論じられた。一旦
これらのセルが全部分空間上で選択されると、カラー科学から得られた方法が視
覚的に魅力ある仕方で該選択されたセルを表示するため使用されてもよい。例え
ば、カラー空間の{色相(Hue)、彩度(Saturation)、明度(Lightness)}特
徴付けで、該色相座標が該セル出力カテゴリーへ写像され得る。該彩度座標はセ
ルピューリテイ(cell purity)のメザーであるローカルセルエントロピー(EL s i かWLs iの何れか)へ写像され得て、該明度座標は該セル内のデータ点の数(
すなわち、該母集団)へ写像され得る。他の視覚的写像も行える。該第1発展段
階の終わりでカテゴリー当たりのベースで最も情報豊富なセルのアクチブなリス
トを発生する過程は顕著なデータ減少過程に帰着したことは注意すべきである。
このデータ減少は大きなデータ空間内で高い情報のローカル化された定義域(do
main)の同定を容易にする。一旦全部分空間上の走査が該第1発展段階の終わり
で完了すると、このリストは適当な可視的写像方法を使用して適当な表示装置{
カラーシーアールテーモニター(color CRT monitor)の様な}上に表示され得
る。かくして多次元データ空間は表示目的で1次元リストへ減じられた。本発明
の方法のユニークな側面は情報可視化に用いた方法論でデータモデリング行うた
め使用された方法論の組み合わせである。両方法用の共通した統合するカーネル
(kernel)はセルと部分空間の形式でのデータの画像的表現を用いて情報エント
ロピーと発展を統合することにある。 ハイブリッドモデリング−分布状階層的発展のニューラルネットワーク又は他の
モデリングパラダイムとの組み合わせ 本方法はデータモデリング用の強力なフレームワークを開示するが、どんなモ
デリングフレームワークも完全なものはないことを述べることは重要である。全
てのモデリング方法は、その取り組み(approach)のためか又は該データに課さ
れた構造(geometries)のためか何れかで、”モデル偏倚(model bias)”を課
す。分布状階層的発展はハイブリッドモデルを創るために他のモデリングパラダ
イムと組み合わされ得る。これらの他のパラダイムはニューラルネットワーク又
は他の分類又はモデリングフレームワークであり得る。もし他の利用可能なモデ
リングツールが基本的に異なる哲学を有するなら、それらの1つ以上を分布状階
層的発展と組み合わせることはモデル偏倚をスムーズ化する効果を有する。加え
て、データ偏倚をスムーズ化するために種々のデータ集合を使用して多数の分散
されたモデルが各パラダイム内に作られ得る。最後の予測結果は各モデルから来
る個別予測の加重された又は加重されない組み合わせとなり得る。かくしてハイ
ブリッドモデリングは、それが種々のモデリング哲学の強さを取り入れるので、
極端に強力なフレームワークをモデリングに提供する。 法則の発見−分布状階層的発展の遺伝的プログラミングとの組み合わせ 第1発展段階の後、生じたフイーチャーデータ集合の情報コンテントを調べる
ことは教示的(instructive)である。多くの場合、多数の比較的情報豊富なフ
イーチャーがあり、それは一緒に用いられると、実験型モデルの次ぎの展開用ベ
ースを形成する。他方、もし、それらの絶対的情報コンテント(0と1の間で正
規化された)で測定された時、発展させられた情報豊富なフイーチャーがないな
ら、最も適当な次の過程は、有用でローバストなモデルを発展させるよう努める
代わりに該データへ戻ることである。
ータから際立ったフイーチャーが発展することがあるかも知れない。このフイー
チャーは極端に情報豊富で、事実、手元の問題用の”遺伝的コード(genetic co
de)”を表すかも知れない。この様な場合、より大きなデータ集合が該際立った
遺伝子によりコード化された入力を使用して構文解析され得て(can be parsd)
、この減少したデータ集合は、下にある法則を説明する数学的表現を発展させる
ために、遺伝的プログラミングフレームワーク内への入力として使用出来る。遺
伝的プログラミングは、例えば、1994年発行、エムアイテープレス(M.I.T.
Pres)、コザ、ジェイ.アール.(Koza, J.R.)著、”遺伝的プログラミング
−自然的選択によるコンピユータのプログラミングについて(Genetic Programm
ing-On the Programming of Computors by Natural Selection)”で説明されて
いる。この表現は研究される過程の解析的説明を表し、発展型発見過程の最後の
結果である。この過程を用いて、情報理論と発展の組み合わせは、見かけは混乱
したシステム内の下にある秩序を閉じ込める数学的表現を発見することに帰着す
る。情報コンテントのためにフイーチャーを調べ、次いで実験型モデリングか、
数学的発見か、又は該データに戻るか何れかに乗り込む、全体の過程はデータに
ドライブされるパラダイムに基づく”発見の科学(Science of Discovery)”へ
の体系的取り組みを説明する。
nature)か外挿的性質(extrapolative nature)へと該実験型モデルを変換する
。かくして数学的表現は、該実験型モデルの開発で使用されるトレーニング集合
の範囲の外側でデータ定義域内に於いてさえ出力値を予測するため使用出来る。
又数学的説明はモデル化されつつある過程又はシステム内への基本的見通しと恐
らくは下にある原理の発見とを得るための励まし(stimulus)を提供する。
}フラグメントの同定 本発明が均質ピーシーアールフラグメントの同定に適用された。本方法は最初
にデーエヌエイ溶解カーブ(DNA melting curve)の情報豊富な部分を同定し、
次いで該入力スペクトラムの情報豊富な部分集合を使用して最適モデルを発展さ
せる。 背景 デーエヌエイフラグメント同定は伝統的にゲル電気泳動(gel electrophoresi
s)により行われて来た。挿入染料(intercalated dyes)を使用する代替え方法
はあり得る時間と感度での利点を提案している。この方法は、加熱時2重螺旋デ
ーエヌエイが変性する(捲きほごれる)と該染料蛍光量(dye fluorescence)が
減少することの観察に基づいている。温度に対する蛍光量をプロットする、最終
のいわゆる”溶解曲線(melt curve)”のデータ解析は該デーエヌエイフラグメ
ントのユニークな同定のベースを提供する。しかしながら、該方法は、特定的デ
ーエヌエイフラグメントの精確な同定を、他の非特定的フラグメントの存在及び
背景基盤(background matrix)からの蛍光ノイズの存在の両場合で、要求して
いる。 スパイク(spiked)される食料サンプルの準備 この研究はピーシーアールを禁ずる知られる食料を評価した。該評価は、該禁
止食料の禁止効果を克服するために、該反応へのウシ血清アルブミン(bovine s
erum alubumin){ビーエスエイ(BSA)}の添加能力をテストした。加えて、溶
解曲線解析を使用したピーシーアール製品の均質性検出が臭化エチジウム染色(
ethidium bromide staining)を有する標準的ゲル電気泳動と比較された。
ビーエイエム(BAM)手順で事前強化(per-enriched)された。処方された強化
法(enrichment)に従い、サンプルはサルモネラニューポート(Salmonella new
port)でスパイクされるか又はスパイクされずに残されたが、表III参照。該
強化は次いでビーエイチアイ(BHI){デーアイエフシーオー(Difco)}内で1
:10に薄められ、次いで37℃で3時間培養された。
PVPP)}処理 グローバックサンプル(growback)の500マイクロリットル(500 ul)のア
リコート(aliquot)がピーブイピーピー{クアリコン社(Qualicon, Inc.)}
の50mgのタブレットを含むチューブに追加された。該チューブはボルテック
ス(vortexed)されそして該ピーブイピーピーは15分間澄むようにされた。最
終浮遊物は次いで溶解過程で使用される。 サルモネラサンプルの準備 2mlのスクリューカップチューブ(screw cup tube)で、強化すなわちピー
ブイピーピー処理サンプルの5マイクロリットルがデーエヌエイ挿入染料エスワ
イビーアールグリーン(DNA intercalating dye SYBRR Green){モレキュラー
プローブ(Molecular Probes)}の1:10、000希釈を含む溶解試薬{5m
lビーエイエックス溶解バッフアー(5ml BAXR lysis buffer)と62.5ul
(マイクロリットル)ビーエイエックスプロテアーゼ(62.5 ul BAXR Protease
)}の200ul(マイクロリットル)に加えられた。該チューブは37℃で2
0分間次いで95℃で10分間培養された。95℃の培養の後、4mg/mlの
ビーエスエイ(BSA)溶液の50ul(マイクロリットル)が該溶菌液(lysate
)に追加された。これはピーブイピーピー処理済みと未処理のサンプルに行われ
た。対照として、幾つかのサンプル未処理で残された。この未精製バクテリヤ溶
菌液の50マイクロリットルが、パーキンエルマー7700シークエンスデテク
ター計器(Perkin Elmer 7700 Sequence Detector instrument)で使用されるピ
ーシーアールチューブ内に含まれた1つのビーエイエックスサルモネラサンプル
タブレット(BAXR Salmonella sample tablet)を水和するため使用された。該
チューブはキャップを付けられ、パーキンエルマー9600サーマルサイクラー
(Perkin Elmer 9600 thermal cycler)内で次のプロトコルに依り熱サイクルに
かけられた。
イシークエンスデテクター(Perkin Elmer 7700 DNA Sequence Detector)上で
該溶解曲線が作られた。
equence Detection System) 運転: 実時間 染料層: エフエイエム(FAM) サンプルの種類: 未知である サンプル容積: 50ul(マイクロリットル) 運転条件: 70℃ 2分1サイクル データ収集せず 68℃ 10秒98サイクル データ収集する 自動インクレメント +0.3℃/サイクル 25℃ ”長期間” 該多成分データは該器械から移出され該分析に使用された。特定のデーエヌエ
イフラグメントの製作は該アンプリフアイ(amplified)されたサンプルにビー
エイエックスローデイングダイ(BAXR Loading Dye)の15マイクロリットルを
添加することにより検証された。次いで15マイクロリットルのアリコートが臭
化エチジウムを含む2%アガロースゲル(agarose gel)のウエル(well)内に
装填された。該ゲルは30分間180ボルトで運転された。特定の生成物は次い
でユーブイトランスイルミネーション(UV transillumination)を使用して可視
化された。 データ分析 生の蛍光量(raw fluorescence)データが処理用にマイクロソフトエクセル(
Microsoft Excel)に移入された。この段階からデータを可視化し該データから
予測をするため分岐的取り組みが使用された。 データ事前処理(Data Preprocessing) 蛍光ノイズを減らすために該データを事前処理することは成功するモデリング
の尤度(likelihood)を増すことが実験的に決定された。該データ事前処理は次
の過程から成り、すなわち、 a.蛍光データ(fluorescence data)の正規化、 b.0.1℃の解像度でキュービックスプライン関数(cubic spline functio
n)を用いた該正規化蛍光の内挿補間、 c.内挿補間された蛍光スペクトラムの対数を取る、 d.25点サビツスキーゴレイ平滑化関数(25 point Savitsky Golay smooth
ing function)を用いた該蛍光の対数の平滑化、 である。
て使用される。該温度スペクトラムを使用した2つの異なるモデリング例を説明
する。 過程a.データの正規化と可視化 該蛍光データは、最初にスペクトラム内の最低測定蛍光レベルを決定し、この
値を、直流オフセットを除くために、該スペクトラム内の各点から引くことによ
り正規化される。上記の過程a.の正規化されたデータは次いでサビツスキーゴ
レイの平滑化アルゴリズム(Savitzky-Golay smoothing algorithm)で平滑化され
る。温度に対する平滑化蛍光の負の導関数{−dlog(F)/dT}が取られ
、−dlog(F)/dT(y軸)対温度(x軸)としてプロットされる。 過程b.該データからの予測 該正規化されたデータからスタートして、キュービックスプライン内挿関数(
cubic spline interpolating function)を使用して0.1C分解能で該データ
は内挿補間される。次いで該内挿されたデータの対数が取られ、次いで2.5度
(すなわち0.1℃で25の点)上でサビツスキーゴレイの平滑化アルゴリズム
を用いて平滑化される。温度に対する該ログの蛍光の負の導関数が取られ{−d
(logF)/dT}、サルモネラ用データ範囲:82.0℃−93.0℃(1
2データ点)を用いて1.0C間隔でパース(parsed)された。
法:ニューラルネットワーク及びロジスティック回帰(logistic regression)
、と比較され、結果は下表で報告される。
をシーケンシャルな仕方で背中合わせで使うことを含んでいる。同定の第1レベ
ルはスメア(smear)を非スメア(non-smear)から分離することである。これに
、非スメアサンプル用に関心のある特定のデーエヌエイフラグメントを同定する
ことが続く。実際は、この階層的方法は、起こり得る出力カテゴリーを表す正、
負そしてスメアを有する1つの3状態モデルを使用するより精確であった。 1.特定ピーシーアールフラグメントに対する非特定ピーシーアールフラグメン
トのモデリング 該ピーシーアールアンプリフイケーション過程(PCR amplification process
)は、関心のあるデーエヌエイの特定の種類に対応するフラグメントのみならず
非特定ピーシーアールフラグメントも作る。第1例は本方法の該非特定と特定の
ピーシーアールフラグメント間を区別する能力を展示する。149のロックされ
たプロセス(すなわち、対照)特定的トレーニングスペクトルと、問題食料(ピ
ーシーアール用で問題があると知られる実際の食料)の309のテストスペクト
ルと、一緒に30の非特定的又は”スメア”の蛍光スペクトルのグループが創ら
れた。0.1℃の温度分解能を有して、111点を含む各サンプル用の温度スペ
クトル(11.1℃の範囲上の)が創られた。該ロックされたプロセスと問題食
料サンプルの両者が陽性と陰性の標本を含んだ。この例で、該陽性のサンプルは
特定のバクテリヤ(例えば、サルモネラ)でスパイクされ(すなわち汚染され)
そして陰性のサンプルはスパイクされぬ(汚染されぬ)ようにされた。該スメア
サンプルはロックされたプロセストレーニング集合(12スメアサンプル)と問
題食料テスト集合(18スメアサンプル)の両者にランダムに導入された。該陽
性及び陰性の両サンプル状態は合併され2進のゼロ”0”文字でラベル付けされ
、該スメアサンプル状態は2進の1”1”でラベル付けされた。
より情報豊富な部分集合に減じることである。前に説明した発展型フレームワー
クが該最も情報豊富なフイーチャーを発展させるために使用された。100の遺
伝子の初期遺伝子プールがランダムに発生され、そこでは各遺伝子は2進の11
1ビットの長さの記号列を有し、各ビットの状態は該対応入力フイーチャーが該
遺伝子内で賦活されたかどうかを表している。該発展過程はセル当たり1サンプ
ルとなるべき平均セル占有数(mean cell occupation number)により抑えられ
、そして該発展は5世代より多く進んだ。各遺伝子の発展をドライブするために
、グローバルエントロピー、又は適応度関数としてローカルエントロピーの数加
重和(number-weighted-sum of local entropies)が使用された。該発展は固定
サイズ化された部分範囲(すなわち、適応型ビニングよりむしろ、固定されたビ
ン)を使用して進みそして該データは、上記説明の様に、0及び1の出力状態の
数をバランスさせるようバランスさせられた。
持された。全ての111の入力フイーチャーのビット頻度のヒストグラムが、発
展した該情報豊富な遺伝子プール内で最も屡々発生するビットを同定するために
、該発展の各世代の終わりで分析された。このヒストグラムはどの温度点が該出
力状態に最も密接に付随したかについての情報を提供した。
下記31温度点が該発展型過程から選択された:12,14,16,18,20
,22,24,26,28,30,32,34,36,38,40,42,44
,46,50,52,54,56,58,60,62,64,80,82,84
,86,88。
数番号インデックス点(上記リスト)が選択されたことは注意されるべきである
。大抵の該選択された点が12から60の範囲に懸かることは注意されるべきで
ある。これは該スメアサンプル用溶解曲線スペクトラムが該ベースライン上に立
ち上がりそして該インデックス間隔[12,60]に対応する温度範囲内の陽性
及び陰性両サンプルから別れ始めるからである。例えスメアがそれらの正に規定
により可変溶解曲線構造を有するとは云え、主な構造的フイーチャーは該陽性の
サンプル内よりも低い温度で一般に現れる。該陰性のサンプルは本質的に構造か
ら自由である。かくして、本方法はより低い温度領域がスメアと非スメアの間の
最良の区別が起こる場所であることを確認する。
合がパースされた後、該減少したデータ集合は広いビニング範囲に亘り低次元で
エグゾースチブに探索された。固定ビンとデータ集合バランシングが該エグゾー
スチブな過程を通して使用された。このモデリング問題で、次元当たり26の固
定ビンを使用して全2次元射影内への該31次元入力空間の465の射影を発生
することが該最良エグゾースチブモデルに帰着することが分かった。Wl 2=10
、Wl=5,定数項=1のエントロピー加重係数が使用された。しかしながら、
全465の射影を使用する該エグゾースチブモデルは、該射影の多くが情報より
多くのノイズを導入するので、最適モデルであることを保証されない。それで、
各ビットが該モデル用遺伝子プール内の与えられた2次元射影の包含(inclusio
n)(2進で1)と排除(exclusion)(2進で0)を表す465ビットの長さの
2進記号列を使って第2の発展段階が行われた。
ストデータ集合内誤差を該発展型過程をドライブする適応度関数として使用して
計算された。該モデルは20世代より多く発展させられそして最も情報豊富な遺
伝子のグローバルなリストが保持された。最後に、この遺伝子プール内の最も情
報豊富な遺伝子(最小テスト誤差に帰着する遺伝子に対応する)がスメア検出用
遺伝子コードとして選択された。この遺伝子は該包含2次元射影の163を有し
残りの射影は排除された。これらの163の射影を使用した最小テスト誤差は該
327テストケースから3つのエラー(3 errors out of the 327 test cases)
(309問題食料サンプルと18スメアサンプル)であって99%より高いモデ
ル精度に帰着する! 2.陰性のサンプルに対する特定のサルモネラピーシーアールフラグメント(陽
性の)のモデリング ピーシーアールモデリングの第2例として、本方法は食料サンプル内サルモネ
ラに対応する特定のデーエヌエイフラグメントを同定するタスクを与えられた。
もう1度、該ロックされた過程スペクトルが該トレーニングデータ集合として使
用されそして該問題食料スペクトルが該テストデータ集合として使用された。上
記説明のものと同様な過程が最良予測モデルを発展させるために使用された。
から91の間)内にあることを注意する。これは余り驚くべきことではないが、
それはポジテイブな(positive)溶解曲線内の主な構造が温度インデックス(te
mperature index)80の周辺で起こるからである。
合がパースされた後、減少したデータ集合は広いビニング範囲上で低次元でエグ
ゾースチブに探索された。固定ビンとデータ集合バランシングが該エグゾースチ
ブな過程を通して使用された。このモデリング問題で、次元当たり19の固定ビ
ンを使用した全3次元射影内への該12次元入力空間の220の射影を発生する
ことが最良エグゾースチブモデルに帰着することが分かった。前のサンプルでと
同じエントロピー加重係数が使用された。この例で、全ての220の射影を使用
することが最良モデルに帰着することが分かった。該220の射影の部分集合を
発展させることは該テストデータ集合に関する予測精度を改良しなかった。全2
20の射影を用いて、該309の問題食料テストサンプル(スメアなしで)から
の301が97.4%の精度で適当と同定された。 結果 これらの実験中作られた該309のデータサンプルの中で、204はサルモネ
ラでスパイクされそして105のサンプルが”ブランク(blank)”反応であっ
た。該204のスパイクされたサンプルの中で、143のサンプルはアガロース
ゲルで陽性でありそして61は該ゲルで陰性であった。該陰性のサンプルはピー
シーアールの禁止か又は不適当なゲルか又はピーシーアール感度の結果と考えら
れ得る。該105の”ブランク”の反応の中で、95は該ゲルに関し陰性で、そ
して10は該ゲルに関し陽性であった。該陽性のサンプルは自然の食料汚染(例
えば、液状卵サンプル)又は技術的誤りの結果と考えられ得る。
出力は1かゼロの間の数である。”1”はスパイクされた予測を表す一方”0”
はスパイクされてない予測を表す。該数がゼロ又は1に近い程、該予測により高
い信頼を置くことが出来る。0.5のしきい値より高いどんな予測も陽性と考え
られた。下記方法の各々用数は期待予測と合致したサンプル数を示す
はゲル検出より敏感なので、均質な検出で陽性のサンプルを検出するがゲルベー
スの方法では見出さないことが起こり得る。パーセント合致度計算時、このカテ
ゴリーで全てのサンプルは正しいと仮定されている。2 ”期待される予測”列はスパイクステイタスとゲル結果とに基づき1又は0を
表示する。この数は該モデルが該トレーニングサンプルに基づき予測すると期待
されたものである。3 ”サンプル数”列は特定のスパイク/ゲルカテゴリーに分類されるサンプル数
を表示する。
が使われてもよい。
定用にも開発された。事実、より多くのデータが入手可能になると、多数のトレ
ーニング/テストデータ集合が発生され得て多数ニューラルネット及びインフオ
エボルブテーエムモデル(InfoEvolveTM model)に帰着した。未知のサンプルは
全てのモデルでテストされ得て個別モデル予測の統計に基づきカテゴリー化され
得る。付録Gで論じる様に、この取り組みは、多数のデータ集合とモデリングパ
ラダイムと上での多様化によりモデル偏倚のみならずデータ偏倚も減じる利点を
有する。加えて、2つの別々のモデリング段階を続けて使用する階層的取り組み
はモデル精度を更に改善する。 ハイブリッドモデリング 本方法はデータモデリング用の強力なフレームワークを開示するが、どんなモ
デリングフレームワークも完全ではないことを注意することは大切である。全て
のモデリング方法はその取り組みのためか又はデータに課されるジオメトリー(
geometries)のためか何れかで、”モデル偏倚”を課す。本方法は追加的ジオメ
トリーの最小の使用を行いそして上記説明の様に幾つかの利点を有するが、しか
しながら、本方法は基本的に外挿法的であるより寧ろ内挿法的である。比較的デ
ータの貧弱なシステムでは、この内挿法的特性は一般化の容易さを減じる。
ドモデルを創るために他のモデリングパラダイムと組み合わされることが可能で
ある。これらの他のパラダイムはニューラルネットワーク又は他の分類又はモデ
リングフレームワークであり得る。もし他のモデリングツール(含む複数ツール
)が基本的に異なる哲学を有するなら、1つ以上の他のモデリングツール(含む
複数ツール)を本方法と組み合わせることがモデル偏倚を平滑化する(smooth o
ut)効果を有する。加えて、データ偏倚を平滑化するために異なるデータ集合を
使用して各パラダイム内に多数のモデルが作られ得る。最後の予測結果は各モデ
ルから来る個別予測の加重又は非加重の組み合わせとすることが出来る。ハイブ
リッドモデリングは多様なモデリング哲学の強さを利用するために極端に強力な
フレームワークをモデリングに提供する。重要な意味で、この取り組みは実験型
モデリングの究極の目標を表す。
での上記説明例に於ける様に、偽陰性のパーセント(percento of false negati
ve)を最小化したい望みがあるなら、該モデルのどれか1つがスパイクされたサ
ンプルを予測したならば陽性の結果が報告されるであろう。もしこの規則がこの
例のデータに適用されたなら、ゲル結果に基づく偽陽性(false positive)の率
は0.7%より少なかったであろう。何れか1つのモデルについての偽陰性率は
それぞれ:本方法=3.9%、ニューラルネットワーク=4.5%そしてロジス
チック回帰=5.8%であった。 結論 この例は重要な実験型モデリング問題でのインフオエボルブテーエム(InfoEv
olveTM)のパワーを図解する。インフオエボルブテーエムは最初にデーエヌエイ
溶解曲線の情報豊富な部分を同定し次いで該入力スペクトラムの情報豊富な部分
集合を使用して最適モデルを発展させる。この例で追跡された一般的パラダイム
は種々の産業及びビジネス応用品でテストされ大きな成功をもたらし、この新し
い発見的フレームワークに強力な支持を提供している。 製造過程の例 ケルバーアール(KelvarR)製造過程での重要な変数は該ケルバーアールパル
プ(KelvarR pulp)内に保持された残留湿気(residual moisture)である。該
保持された湿気は該パルプの次の処理可能性と最終製品特性の両者に顕著な影響
を有する。かくして最適制御戦略を規定するために該パルプ内の湿気保持に影響
するキー要素、又はシステム入力を最初に同定することが重要である。製造シス
テム過程は、乾燥処理用の全体の時間枠のために該入力変数と最終パルプ湿気間
の多数の時間遅れの存在により複雑化される。パルプ乾燥処理のスプレッドシー
トモデルが創られ得るが、そこでは該入力は多くの前の時の幾つかの温度と機械
的変数を表し、該出力変数は現在時刻のパルプ湿気である。最も情報豊富なフイ
ーチャー組み合わせ(又は遺伝子)は、その変数の、より早期の時点でパルプ湿
気に影響するのに最も情報豊富であるのはどの変数であるかを発見するためにこ
こに説明された該インフオエボルブテーエム(InfoEvolveTM)を使用して発展さ
せられ得る。 フロード(fraud)検出例 既知のフロード的(fraudulent)な場合のトレーニング集合を作るのが難しい
からだけでなく、フロードが多くの形式を取るかも知れないので、フロード検出
は特に挑戦的応用である。フロードの検出は予測モデリングによりフロードを防
止出来るビジネス用に可成りのコスト節約へ導き得る。フロードが起こる或るし
きい値確率で決定出来る様なシステム入力の同定が望ましい。例えば、何が”ノ
ーマル(normal)”な記録かを最初に決定することにより、或るしきい値より多
く該ノーム(norm)から変化する記録が、より精密な精査用にフラグ建て(flag
ged)されてもよい。これは、クラスタリングアルゴリズムを適用し、次いでど
のクラスターにも分類されない記録を調べることに依るか、又は各分野用の値の
期待範囲を説明する規則を作ることに依るか、又は分野の異常な付随にフラグ建
てすることにより行われてもよい。クレデイット会社は期待しない使用量パター
ン(usage patterns)にフラグを建てるこのフイーチャーをそれらの課金正式化
過程内にルーチン的に組み込む。もしカード所有者(cardholder)が普通は彼/
彼女のカードを航空券、レンタルカー、そしてレストラン用に使用するが、或る
日それをステレオ機器か又は宝石を買うため使用するなら、その処理は、該カー
ド所有者が彼のアイデンテイテイを検証する該カード発行会社の代表者と話を出
来るまで、遅延してもよい。(参考文献:1997年発行、マイケル、ジェイ.
エイ.ベリー、及びゴードン、リンホフ(Michael J. A. Berry, and Gordon Li
nhoff)著、”マーケッテイング、販売及び顧客サポート用データマイニング技
術(Data Mining Techniques for Marketing, Sales, and customer Support)
、76ページ)。フロード検出でどの変数が最も情報豊富かを発見するために最
も情報豊富なフイーチャー組み合わせ(又は遺伝子)がここで説明した本発明を
使用して発展させられ得る。これらの変数は或る時間間隔に亘る購入の種類と量
、クレデイットバランス、最近の住所変更他を含んでもよい。一旦入力の情報豊
富な集合が同定されると、これらの入力を使用する実験型モデルは本発明を使用
して発展させられ得る。これらのモデルは、フロード検出用の適合学習型フレー
ムワークを創るために、新データが入ると規則的ベースで更新され得る。 マーケッテイング例 銀行は予防的アクションを行う時間を持つためにその要求払い預金勘定(dema
nd deposit accounts){例えば、銀行当座預金(checking accounts)}の顧客
のアトリッション(attrition)の充分な警報を望む。それが余りに遅くなる前
にトラブル範囲に見つけるために、起こり得る顧客のアトリッションをタイムリ
ーな仕方で予測するキー要素又はシステム入力を決定することが重要である。か
くして、勘定動向(account activity)の毎月の抄録はこの様なタイムリーな出
力を提供しないが、処理レベルでの詳細データは提供するかも知れない。システ
ム入力は、顧客が該銀行に置いて行く理由を含んでおり、この様な理由がもっと
もかどうかを決定するためにデータ源を同定し、次いで該データ源を処理経過デ
ータと組み合わせる。例えば、顧客の死亡が処理停止の出力を提供したり、或い
は顧客は最早2週間毎に支払われないか又は最早直接預金を有せずかくして規則
的な2週間ベースの直接預金は最早ない。しかしながら、内部決定で発生された
データは処理データ内に反映されない。例は、該銀行がかって無料であったデビ
ットカード処理用に今は課金しているから又は該顧客がローンのために拒絶され
たから、顧客が去って行くことを含んでいる。{1997年発行、マイケル、ジ
ェイ.エイ.ベリー、及びゴードン、リンホフ(Michael J. A. Berry, and Gor
don Linhoff)著、”マーケッテイング、販売及び顧客サポート用データマイニ
ング技術(Data Mining Techniques for Marketing, Sales, and Customer Supp
ort)、85ページ参照}。予測的アトリッションを決定する中でどの変数が最
も情報豊富であるかを発見するために、ここで説明した本発明を使用して最も情
報豊富なフイーチャー組合わせ(又は遺伝子)が発展させられ得る。顧客属性の
みならず銀行戦略に付随する内部管理も含めた両者が処理データパターンと組み
合わされるデータベースを創ることは銀行戦略、顧客属性そして発見されるべき
処理パターンの間の起こり得る情報豊富なリンケージを可能にする。これは今度
は処理挙動を予測する顧客挙動予報モデル(customer behaviour forcasting mo
del)の発展へ導くことが出来る。 金融予測例(Financial Forcasting Example) 金融予報{例えば、株、オプション、ポートフオリオ(portfolio)そして物
価指数(index pricing)}での重要な考慮は株式市場の様な動的で移り気な活
動場所では誤差の広いマージンを黙認する出力変数を決めることである。例えば
、実際の物価レベルよりむしろダウジョンズ平均株価指数(Dow Jones Index)
での変化を予測することは誤差のより広い許容限度(wider tolerance for erro
r)を有する。一旦有用な出力変数が同定されると、次の過程は最適予測戦略を
規定するために該選択された出力変数に影響するキー要素、又はシステム入力を
同定することである。例えば、ダウジョンズ平均株価指数の変化はダウジョンズ
平均株価指数での前の変化のみならず他に於ける国の及びグローバルの指数にも
依存するかも知れない。加えて、グローバルな利率、外国為替レート及び他のマ
クロ経済的メザー(macroeconomic measures)が重要な役割を演ずる。加えて、
最も金融的な予報問題は入力変数(例えば、前の価格変化)と終わりのタイムフ
レームでの最後の価格変化との間の多数の時間遅れの存在により複雑化する。か
くして、該入力は前の多数の時刻での市場変数{例えば、価格変化、市場の移り
気(volatility of the market)、移り気モデルの変化(change in volatility
model)、...}を表しそして該出力変数は現在の時刻での該価格変化である
。(参考文献:1996年発行、エドワードゲートレイ(Edward Gateley)著、
”金融予測用ニューラルネットワーク(Neural Networks for Financial Forcas
ting)、20ページ)。より早期の時期が指すどの変数が金融予測用市場変数へ
の影響で最も情報豊富であるかを発見するためにここで説明する本発明を使用し
て最も情報豊富なフイーチャー組み合わせ(又は遺伝子)が発展させられ得る。
一旦これら(変数、時点)の組み合わせが発見されると、それらは最適金融予測
モデルを発展させるために使用出来る。
ング(Pseude Code listing)である: LoadParameters(); //データ集合と、ビニングの種類の様な種 々のパラメーターとをロードし、データ選出、 エントロピー加重係数、データ部分集合の数 他...をバランスさせる Loop through subset_number{ CreateDashSubset(filename) //部分集合データをランダムに Loop through number of local models{ EvolveFeatures(); //情報豊富な遺伝子を発展させる CreateTrainTestSubset(); //データ部分集合をトレーン/テスト部分 集合に分ける EvolveModel(); //モデルを発展させる } } CreateDataSubset DetermineRangesofInputs; if(BalanceStatsPerCatFlag is TRUE) BalanceRandomize; else NaturalRandomize; DetermineRangeofInputs Loop through data records{ Loop through input features{ if(input feature value=max or input feature value=min{ LoadMinMaxArray(feature index, feature value); UpdateMinMax(feature value); } } //入力フイーチャーループ終了 } //データループ終了 BalanceRandomize /********************************** /データ集合を現在の部分集合と残りの部分集合とに分ける; /出力カテゴリー当たりの項目の数をユーザーが指定する。 /********************************** Loop through output stats{ InitializeCountingState(output) to 0; InitializeCountingRemainingState(output) to 0; } Loop through data records{ Set IncludeTrainFlag to FALSE; Loop through input features{ if(input features =min){ if(input FeatureMinFlag=CLEAR){ IncludeTrainFlag=TRUE; FeatureMaxFlag =SET; } } elseif(input feature=max){ if(input FeatureMaxFlag=CLEAR){ IncludeTrainFlag=TRUE; FeatureMaxFlag =SET; } } } //フイーチャーループ終了 output=ReadOutputState; //記録用に出力状態を読み出す guess=GuessRandomvalue; Threshold(output)=NUMITEMSPERCAT/TotalCountinState(output) //TotalCoutinState(output)は出力カテ ゴリー内の#データ項目を意味する /********************************** もしデータ記録がフイーチャー最小又は最大値の最初の場合なら、現在のデータ
部分集合と残りのデータ部分集合の両者へ記録をコピーする。 /********************************** if(IncludeTrainFlag=TRUE){ //現在の部分集合と残りのデータ部 分集合の両者へ記録をコピー CopyRecordtoCurrentDataSubset; IncrementCountinState(output); CopyRecordtoRemainingDataSubset; IncrementCountinRemainingState(output); } /********************************** 或いは他にもし該出力カテゴリーの項目の数が過剰にNOTであるなら、該データ
項目を該REMAININGデータ部分集合内に置き換える。 /********************************** elseif(Threshold(output)>MINIMUM_THRESHOLD){ CopyRecordtoRemainingData; IncrementCountinRemainingState(output); if(CountinState(output)<NUMITEMSPERCAT){ CopyRecordtoDataSubset; IncrementCountinState(output); } } //MINIMUM_THRESHOLDは、もう1つの現在の部分集合を創るために /残りのデータ部分集合内に充分なデータが残ることを保証する /よう典型的に0.5である /********************************** 或いは他にもし該ランダムな推定が該データ項目は現在のデータ部分集合へ行く
べきと決めたなら、NUMITEMSPERCATの望まれる割り当てが越えられたかどうかを
チェックして見る。もしそうでないなら、現在のデータ部分集合にデータ点を追
加し、CountinStateをインクレメントする。 /********************************** elseif(guess<= Threshold(output)){ if(CountinState(output)<NUMITEMSPERCAT){ CopyRecordtoDataSubset; IncrementCountinState(output); else{ CopyRecordtoRemainingData; IncrementCountinRemainingState(output); } } /********************************** 又は最後に、もし該ランダムな推定が該データ項目が該残りのデータ部分集合内
に行くべきことを決めるならば、該残りの部分集合用割り当てが越えられたかど
うかをチェックする。もしそうでないなら、該残りのデータ部分集合へ該データ
項目を追加する。もし該割り当てが越えられたなら、もしそのカテゴリー内でよ
り多くの項目が必要なら該データ項目を該現在のデータ部分集合に追加する。 /********************************** elseif(CountinRemainingState(output)<(1-Threshold(output))* TotalCountinState(output)){ CopyRecordtoRemainingDataSubset; IncrementCountinRemainingData(output); } elseif(CountinState(output)<NUMITEMSPERCAT){ CopyRecordtoDataSubset; IncrementCountinDataSubset(output); } } //データ記録ループの終了 //BalanceRandomizeの終了 NaturalRandomize SampleSize=NumberOfDataRecords/NumberOfModels; Threshold=1-SampleSize/NumberOfRemainingDataRecords; Loop through output state{ InitializeCountinState(output) to 0; InitializeCountinRemainingState(output) to 0; } Loop through data records{ Loop through input features{ if(input feature=min){ if(input FeatureMinFlag=CLEAR){ IncludeTrainFlag=TRUE; FeatureMinFlag =SET; } } elseif(input feature=max){ if(input FeatureMaxFlag=CLEAR){ IncludeTrainFlag=TRUE; FeatureMaxFlag =SET; } } } //フイーチャーループ終了 outpur=ReadOutputState; //記録用に出力状態を読み出す guess=GuessRandomValue; /********************************** もしデータ記録がフイーチャーの最小又は最大値の最初の場合なら、該データ部
分集合及び残りのデータ部分集合の両者に記録をコピーする。 /********************************** if(IncludeTrainFlag=TRUE){ //該データ部分集合と該残り //のデータ集合との両者に記 //録をコピーする CopyRecordtoCurrentDataSubset; CopyRecordtoRemainingDataSubset; } /********************************** 又はもし該ランダムな推定が該データ項目が該残りのデータ部分集合内に行くべ
きことを決めるなら、そのカテゴリー用に該残りの部分集合の統計的限界が越え
られたかどうかをチェックする。もし越えられないならば、該残りのデータ部分
集合に該データ項目を追加する。もし該割り当てが越えられたなら、該データ部
分集合に該データ項目を追加する。 /********************************** elseif(guess<= Threshold){ if(CountinRemainingState(output)< Threshold*TotalCountinState(output)) CopyRecordtoRemainingDataSubject; else CopyRecordtoCurrentDataSubject; } /********************************** 又はもし該ランダムな推定が該データ項目が現在のデータ部分集合内に入るべき
ことを決めるなら、そのカテゴリー用に該現在の部分集合の統計的限界が越えら
れたかどうかをチェックする。もしそうでないなら、該現在のデータ部分集合に
該データ項目を追加する。もし該割り当てが越えられたなら、該残りのデータ部
分集合に該データ項目を追加する。 /********************************** else{ if(CountinState(output)< (1-Threshold)*TotalCountinState){ CopyRecordtoCurrentDataSubject; else CopyRecordtoRemainingDataSubject; } } //データ記録ループ終了 /NaturalRandomizeの終了 EvolveFeatures SelectRandomStackofGenes(N); Loop Through each gene in Stack{ /*******遺伝子から部分空間を創る************/ ReadParameters(); ReadSubspaceAxesfromGene(); if(AdaptiveNumberofBinsFlag=SET) CalculateAdaptiveNumbins; else UseNumBinsinParameterList; if(AdaptiveBinPositionsFlag=SET) CalculateAdaptiveBinPositions; else CalculateFixedBinPositions; /********:遺伝子から部分空間を創ることの終了********/ ProjectTrainDataintoSubspace; CalculateGlobalEntropyforSubspace; } //遺伝子ループの終了 EvolveGenesUsingGlobalEntropy(); //遺伝的アルゴリズム } CreateTrainTestSubsets DetermineRangesofInputs; RandomizeTrainTestSubsets; RandomizeTrainTestSubsets { Threshold=ReadThresholdfromParameterList; Loop through data records in Data Subset{ Loop through input features{ if(iput feature=min){ if (input FeatureMinFlag=CLEAR){ IncludeTrainFlag=TRUE; FeatureMinFlag =SET; } } else{ if(input feature=max){ if(input FeatureMaxFlag=CLEAR){ IncludeTrainFlag=TRUE; FeatureMaxFlag =SET; } } } //フイーチャーループの終了 output=ReadOutputState; //記録用に出力状態を読み出す guess=GuessRandomValue; if(guess<= Threshold){ if(CountinTrainDataSubset(output)< Threshold(output)*TotalCountinState OR IncludeTrainFlag=TRUE) CopyRecordtoTrainDataSubset; else CopyRecordtoTestDataSubset; } else{ if(CountinTestDataSubset(output)< (1-Threshold)*TotalCountinState(output) AND IncludeTrainFlag=FALSE){ CopyRecordtoTestDataSubset; else CopyRecordtoTrainDataSubset; } } //データ記録ループの終了 //RandomizeTrainTestSubsetsの終了 ModelEvolution { GenerateRandomStackofModelGenes(); //モデル遺伝子が遺伝子のク //ラスターであるランダムモ //デル遺伝子を発生させる Loop through each model gene in stack{ CalculateMGFF(); //モデル遺伝子適応度関数 //{エムジーエフエフ(MGFF)} //の計算 } //モデル遺伝子ループの終了 EvolveFittestModelGene(); //最適モデル遺伝子を発展さ //せるため遺伝的アルゴリズム //をドライブするようエムジー //エフエフを使用 } CalculateMGFF−モデル遺伝子適応度関数(エムジーエフエフ)の計算 { IdentifyFeatureGenes(); //フイーチャー遺伝子の集合を //同定するためモデル遺伝子を //パース(parse)する Loop through each feature gene{ CreateFeatureSubspace(); Loop through each test record{ ProjectTestRecordintoSubspace(); UpdateTestRecordPrediction(); } } Total_Error=0; Loop through each test record{ if(RecordPrediction!=ActualRecordOutput) TotalError=TotalError+1; //インクレメント誤差 } MGFF=Total_Error; } 本発明の好ましい実施例がここで説明された。付属する請求項により規定され
た本発明の真の範囲から離れることなく変更や変型が該実施例内で行われ得るこ
とは勿論理解されるべきである。本実施例は好ましくは、コンピユータで実行可
能なソフトウエア命令のセットとしてソウトウエアモジュール内で説明された方
法を実施するロジックを含むのがよい。中央処理ユニット(”シーピーユー(CP
U)”)、又はマイクロプロセサーは該トランシーバーの動作を制御する該ロジ
ックを実行する。該マイクロプロセサーは説明された機能を提供するために当業
者によりプログラムされ得るソフトウエアを実行する。
可読な何等かの他の揮発性[例えば、ランダムアクセスメモリー{”ラム(RAM
)”}]又は不揮発性[例えば、読み出し専用メモリー{”ロム(ROM)”}]
フアームウエア記憶システムを含むコンピユータ可読の媒体上に保持される2進
のビットのシーケンスとして表され得る。データビットが保持される該メモリー
配置も又該記憶されるデータビットに対応する特定の電気的、磁気的、光学式又
は有機的特性を有する物理的配置を有している。ソフトウエア命令はメモリーシ
ステムを有する該シーピーユーによりデータビットとして実行され、該電気信号
表現の変換と該メモリーシステム内のメモリー位置でのデータビットの保持をも
たらし、それにより該ユニットの動作を再構成させるか又は他の仕方に変えさせ
る。該実行可能なソフトウエアコードは、例えば、上記説明の様な方法を実施し
てもよい。
てない限り、どんな特定の種類のコンピユータ又はネットワーク装置(ハードウ
エア又はソフトウエア)にも関係付けられず、限定されないことは理解されるべ
きである。種々の種類の汎用又は専用コンピユータ装置又は計算装置がここで説
明された開示に依って使用されてもよく、動作を行ってもよい。
単に例示的で本発明の範囲を限定すると取られるべきでないことを理解すべきで
ある。例えば、本発明は金融サービス市場、宣伝及びマーケッテイングサービス
、製造過程に関連するシステム又は大きなデータ集合を有する他のシステムで使
用されてもよい。加えて、該流れ線図の過程は説明されたものとは他のシーケン
スで用いられてもよく、そして該ブロック線図ではより多く又はより少ない要素
が使われてもよい。
である。該ハードウエアはカスタムゲートアレー(custom gate array)または
特定用途向け集積回路(application specific integrated circuit){”エイ
シック(ASIC)”}で集積回路として実施されてもよい。勿論、該実施例は個別
ハードウエア部品(discrete hardware components)と回路で実施されてもよい
。特に、ここに説明した論理構造と方法の過程はエイシックの様な専用ハードウ
エアで、又はマイクロプロセサー又は他の計算素子により行われるプログアム命
令として実施されてもよい。
れるとして読まれるべきでない。加えて、何れの請求項でも用語”手段(means
)”の使用は35ユー.エス.シー.§112、パラグラフ6を行使するよう意
図されており、該用語”手段”を有しない何れの請求項もそのように意図されて
ない。従って、下記請求項の範囲と精神に入る全ての実施例とその等価物は本発
明として請求されている。
を示す。
)を示す。
ある。
である。
例を示す。
。
線図である。
解するブロック線図である。
るブロック線図である。
図である。
Claims (104)
- 【請求項1】 高いグローバルな情報コンテントを有するフイーチャー集合
を選択する方法であるが、該フイーチャー集合はシステムへの入力に対応する入
力の初期フイーチャー集合から選択されている様な、該選択する方法が、 (a)該システムへの多数の入力データ点と該システムからの対応する出力デ
ータ点とを取得しそして該入力及び出力データ点を記憶装置内に記憶する過程と
、 (b)入力及び出力の対応する組み合わせを選択することにより前に取得され
たデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテス
トデータ集合とそして少なくとも1つの検証データ集合とにグループ化する過程
と、 (c)高いグローバルな情報コンテントのフイーチャー集合を、 (i)複数のフイーチャー部分空間を創るが、各前記フイーチャー部分空間
が該トレーニング集合の該データからのフイーチャー集合を含むように、該創る
ことと、 (ii)該トレーニング集合の該入力を量子化するが、該入力が値の範囲を
有し、それは該値の範囲を部分範囲に分け、それにより前記フイーチャー部分空
間を複数のセルに分けることによりするよう、該量子化することと、 (iii)各フイーチャー部分空間の情報コンテントの該グローバルなレベ
ルを決定することと、 (iv)高いグローバルな情報コンテントを有する少なくとも1つのフイー
チャー集合を選択することとにより決定する過程とを具備することを特徴とする
高いグローバルな情報コンテントを有するフイーチャー集合を選択する方法であ
るが、該フイーチャー集合はシステムへの入力に対応する入力の初期フイーチャ
ー集合から選択されている様な、該選択する方法。 - 【請求項2】 請求項1の方法に於いて、該トレーニング集合の該入力の量
子化の過程が各入力の値の該範囲を等しいサイズの部分範囲に分けることにより
行われることを特徴とする方法。 - 【請求項3】 請求項1の方法に於いて、該トレーニング集合の該入力を量
子化する過程が、各部分範囲内のデータの母集団が該部分範囲の平均母集団を近
似し、該平均母集団が部分範囲の数により割られた全体の選択されたデータの母
集団の比として規定されるように、該入力の値の該範囲を該部分範囲に適合式に
分けることにより行われることを特徴とする方法。 - 【請求項4】 請求項1の方法に於いて、過程(c)(ii)でフイーチャ
ー部分空間内の該複数のセルが予め決められた数であることを特徴とする方法。 - 【請求項5】 請求項1の方法に於いて、各入力の該部分範囲の数がセルの
予め決められた数のD次の根である整数値であり、Dは該フイーチャー集合内に
含まれる入力の総数であることを特徴とする方法。 - 【請求項6】 請求項1の方法に於いて、過程(c)(iii)の該情報コ
ンテントがニシの情報エントロピーを計算することにより決定されることを特徴
とする方法。 - 【請求項7】 請求項1の方法に於いて、複数のフイーチャー部分空間を創
る過程が適応度関数を使う遺伝的選択方法を使用して行われることを特徴とする
方法。 - 【請求項8】 請求項7の方法に於いて、該遺伝的選択方法用の適応度関数
は該フイーチャー部分空間の情報コンテントのグローバルなレベルを使用するこ
とを特徴とする方法。 - 【請求項9】 請求項8の方法に於いて、該フイーチャー部分空間の情報コ
ンテントの該グローバルなレベルが各部分空間用グローバルエントロピー加重に
基づくことを特徴とする方法。 - 【請求項10】 請求項9の方法に於いて、部分空間用の該グローバルエン
トロピー加重はクラスタリングパラメーターの出力状態母集団加重和により規定
され、各出力状態母集団はその出力状態に対応するトレーニング集合データ点の
総数に基づくことを特徴とする方法。 - 【請求項11】 請求項10の方法に於いて、各出力状態用クラスタリング
パラメーターは該部分空間上の該出力状態の母集団の分布に基づくことを特徴と
する方法。 - 【請求項12】 請求項9の方法に於いて、部分空間用グローバルエントロ
ピー加重は該部分空間内の各セル用のローカルエントロピー加重パラメーターの
セル母集団加重和に基づくことを特徴とする方法。 - 【請求項13】 請求項12の方法に於いて、該部分空間内の各セル用の該
ローカルエントロピー加重は該セル上の該出力状態の該母集団の分布に基づくこ
とを特徴とする方法。 - 【請求項14】 請求項12の方法に於いて、該部分空間内の各セル用の該
ローカルエントロピー加重は該セル上の該出力状態の正規化された母集団の分布
により規定され、各出力状態の該正規化された母集団は該セル上の出力状態の母
集団の該全出力状態母集団に対する比により規定されることを特徴とする方法。 - 【請求項15】 請求項9の方法に於いて、部分空間用該グローバルエント
ロピー加重はクラスタリングパラメーターのセル母集団加重和により規定され、
各セル母集団は該セル内のトレーニング集合データ点の総数を表すことを特徴と
する方法。 - 【請求項16】 請求項15の方法に於いて、該クラスタリングパラメータ
ーは該部分空間上での該セル母集団の分布により規定されることを特徴とする方
法。 - 【請求項17】 請求項1の方法に於いて、該前に取得されたデータを少な
くとも1つのトレーニングデータ集合と、少なくとも1つのテストデータ集合と
そして少なくとも1つの検証データ集合とにグループ化する過程(b)が入力デ
ータ点と出力データ点の対応する組み合わせをランダムに選択することにより行
われ、該少なくとも1つのトレーニングデータ集合と、少なくとも1つのテスト
データ集合とそして少なくとも1つの検証データ集合は同じデータ点を含まない
ことを特徴とする方法。 - 【請求項18】 請求項1の方法が更に、過程(b)の前に、該前に取得さ
れたデータに変換関数を適用することにより該前に所得されたデータを事前処理
する過程を具備することを特徴とする方法。 - 【請求項19】 請求項17の方法に於いて、該変換関数が該取得されたデ
ータの入力のみに適用されることを特徴とする方法。 - 【請求項20】 請求項1の方法に於いて、少なくとも1つのフイーチャー
集合を選択する該過程が複数のフイーチャー集合を選択する過程を備えており、
更に、 (d)テストデータ集合上のシステム入力からシステム出力を最も精確に予測
するフイーチャー集合のグループを選択する過程を有することを特徴とする方法
。 - 【請求項21】 請求項20の方法に於いて、フイーチャー集合のグループ
を選択する該過程が適応度関数を使う遺伝的選択方法を使用して行われることを
特徴とする方法。 - 【請求項22】 請求項21の方法に於いて、該遺伝的選択方法用の該適応
度関数が該全体のテスト集合用の予測誤差パラメーターに基づくことを特徴とす
る方法。 - 【請求項23】 請求項22の方法に於いて、離散型出力を有する、離散型
システム用該予測誤差が該テスト集合内の正しく分類されたサンプルの部分であ
ることを特徴とする方法。 - 【請求項24】 請求項23の方法に於いて、各データ点の該出力状態がそ
のデータ点用出力状態確率ベクトルの創生と解析により予測されることを特徴と
する方法。 - 【請求項25】 請求項24の方法に於いて、該出力状態が該出力状態確率
ベクトル内の最大確率を有する該状態により予測されることを特徴とする方法。 - 【請求項26】 請求項24の方法に於いて、該出力状態確率ベクトルが各
起こり得る出力状態の確率の集合に基づくことを特徴とする方法。 - 【請求項27】 請求項26の方法に於いて、各出力状態の該確率はその出
力状態内にある確率の全てのフイーチャー部分空間上での加重和であることを特
徴とする方法。 - 【請求項28】 請求項27の方法に於いて、該加重和はローカルなエント
ロピー加重とグローバルなエントロピー加重とを使用して計算されることを特徴
とする方法。 - 【請求項29】 請求項22の方法に於いて、定量的出力を有する、連続的
システム用の該予測誤差は該テスト集合の該予測値と該実際値との間の正規化さ
れた平均絶対差であることを特徴とする方法。 - 【請求項30】 請求項29の方法に於いて、該ローカル及びグローバルの
エントロピー加重の計算を容易化するために該出力値が離散出力状態の集合に人
工的に量子化されることを特徴とする方法。 - 【請求項31】 請求項29の方法に於いて、各データ点用該出力状態値が
部分空間用セル内の平均アナログ出力値を計算することにより予測されることを
特徴とする方法。 - 【請求項32】 請求項30の方法に於いて、該平均アナログ出力値が、全
ての該人工的に量子化された出力状態上で該データ集合をバランス化させるため
にデータ複製尺度係数を使用することにより計算されることを特徴とする方法。 - 【請求項33】 請求項31の方法に於いて、該平均アナログ出力値が全て
の該部分空間上での該平均セルアナログ出力値の加重和として計算されることを
特徴とする方法。 - 【請求項34】 請求項33の方法に於いて、該加重和はローカルエントロ
ピー加重とグローバルエントロピー加重とを使用して計算されることを特徴とす
る方法。 - 【請求項35】 請求項22の方法に於いて、定量的出力を有する連続的シ
ステム用該予測誤差は該テスト集合の該予測値と該実際値との間の正規化された
中間値の絶対差であることを特徴とする方法。 - 【請求項36】 請求項35の方法に於いて、該出力値は、該ローカル及び
グローバルエントロピー加重の計算を容易化するために離散出力状態の集合に人
工的に量子化されることを特徴とする方法。 - 【請求項37】 請求項35の方法に於いて、各データ点用該出力状態値は
部分空間用のセル内の中間値のアナログ出力値を計算することにより予測される
ことを特徴とする方法。 - 【請求項38】 請求項36の方法に於いて、該中間値のアナログ出力値は
全ての該人工的に量子化された出力状態上で該データ集合をバランス化させるた
めにデータ複製尺度係数を使用することにより計算されることを特徴とする方法
。 - 【請求項39】 請求項37の方法に於いて、該中間値のアナログ出力値が
全ての該部分空間上で該中間値のセルアナログ出力値の加重和として計算される
ことを特徴とする方法。 - 【請求項40】 請求項1の方法が更に、 (d)該フイーチャーデータ集合内の各入力の発生頻度を表すヒストグラムを
創る過程を具備することを特徴とする方法。 - 【請求項41】 請求項40の方法に於いて、該データ集合の次元数が該入
力数であり、更に、 (e)削減された次元数データ集合を規定するために該最も頻繁に発生する入
力を保持する過程を具備しており、該削減された次元数は該データ集合の次元数
より少ないか等しいことを特徴とする方法。 - 【請求項42】 請求項41の方法に於いて、該保持する過程(e)が更に
、 削減された次元数データ集合を創るために該入力の部分集合を選択するよう該
ヒストグラムを解析する自動化された方法を使用する過程を備えており、該部分
集合のサイズは該入力数より少ないか等しいことを特徴とする方法。 - 【請求項43】 請求項42の方法に於いて、該自動化された方法は該入力
の該部分集合を選択するためにピーク検出方法を有することを特徴とする方法。 - 【請求項44】 請求項43の方法に於いて、該自動化された方法は該入力
の該部分集合を選択するためにヒストグラム頻度を整列する過程を有することを
特徴とする方法。 - 【請求項45】 請求項41の方法に於いて、該保持する過程(e)が更に
、該ヒストグラムの可視的表現を創る過程と該入力の部分集合を主観的に選択す
る過程とを有しており、該選択された部分集合のサイズは該入力数より少ないか
等しいことを特徴とする方法。 - 【請求項46】 請求項41の方法に於いて、該保持する過程(e)が更に
、 該ヒストグラム内の各ピークを表すために1つ以上の入力を選択する主観的方
法を使用する過程を有していることを特徴とする方法。 - 【請求項47】 請求項41の方法が更に、 (f)フイーチャー集合の削減された次元数のグループを規定するが、その組
み合わせが、テストデータ集合上でシステム入力からシステム出力を最も精確に
予測する様な、最適又は最適に近い次元数と最適又は最適に近い量子化条件とを
決定するために、複数の量子化条件下で該削減された次元数データ集合の複数の
部分集合上をエグゾースチブに探索することにより上記規定する、過程を有する
ことを特徴とする方法。 - 【請求項48】 請求項47の方法が更に、 (g)テストデータ集合上でシステム入力からシステム出力を最も精確に予測
するフイーチャー集合の該削減された次元数グループからフイーチャー集合の最
終のグループを選択する過程を有することを特徴とする方法。 - 【請求項49】 請求項48の方法に於いて、システム出力を最も精確に予
測するフイーチャーの集合を選択する該過程が遺伝的選択方法を使用して行われ
ることを特徴とする方法。 - 【請求項50】 テスト集合上でシステム入力からシステム出力を最も精確
に予測するデータ集合からモデルを規定する方法が、 (a)該システムへの多数の入力と該システムからの対応する出力とを取得し
そして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程
と、 (b)入力と出力との対応する組み合わせを選択することにより該前に取得さ
れたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテ
ストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、 (c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過
程とを具備しており、該フイーチャー部分空間の次元は該組み合わせ内該入力数
であり、該方法は又、 (d)組み合わせが該テストデータ集合上のシステム入力からシステム出力を
最も精確に予測する様な、最適又は最適に近い次元数とセルの最適又は最適に近
い量子化条件とを決定するために、複数の量子化条件下で該データ集合の複数の
フイーチャー部分空間上をエグゾースチブに探索することによりモデルを規定す
る過程を具備することを特徴とするテスト集合上でシステム入力からシステム出
力を最も精確に予測するデータ集合からモデルを規定する方法。 - 【請求項51】 請求項50の方法が更に、高いローカルのエントロピー加
重を有する該セルの部分集合を該フイーチャー部分空間内に保持する過程を具備
することを特徴とする方法。 - 【請求項52】 請求項51の方法が更に、デイスプレー装置上にセルの該
部分集合を表示する過程を具備することを特徴とする方法。 - 【請求項53】 請求項52の方法に於いて、セルの情報コンテントは該出
力値、該ローカルなセルのエントロピー加重そして該セル母集団を含んでおり、
それらは該出力値、該ローカルなセルのエントロピー加重そして該セル母集団を
カラー空間内に写像することにより表示されることを特徴とする方法。 - 【請求項54】 システム入力からシステム出力を最も精確に予測するモデ
ルのグループを選択することによりフレームワークを規定する方法が、 (a)該システムへの多数の入力と該システムからの対応する出力とを取得し
そして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程
と、 (b)入力と出力との対応する組み合わせを選択することにより該前に取得さ
れたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテ
ストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、 (c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過
程とを具備しており、該フイーチャーの次元は該組み合わせ内該入力数であり、
該方法は又、 (d)高いグローバルな情報コンテントを有するフイーチャー部分空間の組み
合わせを、 (i)トレーニング集合のデータを選択することと、 (ii)該トレーニング集合の該データから複数のフイーチャー部分空間を
創ることと、 (iii)各フイーチャー部分空間に関する該トレーニング集合の該入力を
量子化するが、該入力が値の範囲を有し、それは該値の範囲を部分範囲に分け、
それにより各フイーチャー部分空間を複数のセルに分け、各セルは、各セルを占
めるトレーニング集合データ点の数として規定されるセル母集団を有しているよ
うに、前記範囲を有するよう、該量子化することと、 (iv)該部分空間内で各セルのローカル情報エントロピーを決定すること
と、 (v)各フイーチャー部分空間のグローバル情報コンテントを決定すること
と、 (vi)高いグローバル情報コンテントを有するフイーチャー部分空間の集
合を決定することとにより決定する過程と、 (e)テストデータ集合上でシステム入力からシステム出力を最も精確に予測
するフイーチャー部分空間の集合を含むモデルを選択する過程と、 (f)モデルのグループを規定するために種々のトレーニング及びテスト集合
上で過程(b)−(e)を繰り返す過程と、 (g)入力として個別モデル出力予測値をそして該出力として実際の出力値を
使用して新しいトレーニング及び新しいテストデータ集合を創る過程と、 (h)該フレームワークを規定するために該新しいテストデータ集合上でシス
テム入力からシステム出力を最も精確に予測するモデルのグループから最適モデ
ルの部分集合グループを選択する過程とを具備することを特徴とするシステム入
力からシステム出力を最も精確に予測するモデルのグループを選択することによ
りフレームワークを規定する方法。 - 【請求項55】 請求項54の方法に於いて、該選択する過程(h)は適応
度関数を使う遺伝的方法を使用して行われることを特徴とする方法。 - 【請求項56】 請求項55の方法に於いて、該遺伝的選択方法用の適応度
関数は過程(h)の全体の新しいテストデータ集合用の予測誤差パラメーターに
より規定されることを特徴とする方法。 - 【請求項57】 請求項54の方法に於いて、高いグローバル情報エントロ
ピーを有するフイーチャー部分空間の集合を決定する該過程(d)(vi)は適
応度関数を使う遺伝的方法を使用して行われることを特徴とする方法。 - 【請求項58】 システム入力からシステム出力を最も精確に予測するフレ
ームワークのグループを選択することによりスーパーフレームワークを規定する
方法が、 (a)該システムへの多数の入力と該システムからの対応する出力とを取得し
そして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程
と、 (b)入力と出力との対応する組み合わせを選択することにより該前に取得さ
れたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテ
ストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、 (c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過
程とを具備しており、該フイーチャー部分空間の次元は該組み合わせ内該入力数
であり、該方法は又、 (d)高いグローバルな情報コンテントのフイーチャー部分空間の組み合わせ
を、 (i)トレーニング集合のデータを選択することと、 (ii)該トレーニング集合の該データからフイーチャーの初期集合を創る
ことと、 (iii)該トレーニング集合の該入力を量子化するが、該入力が値の範囲
を有し、それは該値の範囲を部分範囲に分け、それにより各フイーチャー部分空
間を複数のセルに分け、該セルは入力の部分範囲の組み合わせにより規定されて
おり、各セルは、各セルを占めるトレーニング集合データ点の数として規定され
るセル母集団を有するよう該値の範囲を有するよう、該量子化することと、 (iv)該部分空間内で各セルのローカル情報エントロピーを決定すること
と、 (v)各フイーチャーのグローバル情報コンテントを決定することと、 (vi)高いグローバル情報コンテントを有するフイーチャー部分空間の集
合を決定することとにより決定する過程と、 (e)テストデータ集合上でシステム入力からシステム出力を最も精確に予測
するフイーチャー部分空間の組み合わせを含むモデルを選択する過程と、 (f)モデルのグループを規定するために種々のトレーニング及びテスト集合
上で過程(b)−(e)を繰り返す過程と、 (g)入力として個別モデル出力予測値をそして該出力として実際の出力値を
使用して新しいトレーニング及び新しいテストデータ集合を創る過程と、 (h)該新しいテストデータ集合上でシステム入力からシステム出力を最も精
確に予測するモデルのグループから最適モデルの部分集合グループを選択するこ
とによりフレームワークを規定する過程と、 (i)最適フレームワークのグループを規定するために種々のトレーニング及
びテスト集合上で過程(b)−(h)を繰り返す過程と、 (j)入力として個別フレームワーク出力予測値をそして該出力として実際の
出力値を使用して新しいトレーニング及び新しいテストデータ集合を創る過程と
、 (k)該新しいテストデータ集合上でシステム入力からシステム出力を最も精
確に予測する最適フレームワークのグループからフレームワークの部分集合グル
ープを選択することによりスーパーフレームワークを規定する過程を具備するこ
とを特徴とするシステム入力からシステム出力を最も精確に予測するフレームワ
ークのグループを選択することによりスーパーフレームワークを規定する方法。 - 【請求項59】 請求項58の方法に於いて、システム入力から最も精確に
システム出力を予測する該最適フレームワークのグループからフレームワークの
該部分集合グループを選択する該過程(h)が適応度関数を使う遺伝的方法を使
用して行われることを特徴とする方法。 - 【請求項60】 請求項59の方法に於いて、該遺伝的選択方法用の該適応
度関数は過程(k)の全体の新しいテストデータ集合用の予測誤差パラメーター
により規定されることを特徴とする方法。 - 【請求項61】 請求項58の方法に於いて、高いグローバルな情報エント
ロピーを有するフイーチャー部分空間の集合を決定する該過程(d)(vi)は
適応度関数を使う遺伝的方法を使用して行われることを特徴とする方法。 - 【請求項62】 実験型データ集合で入力と出力の間の数学的関係を発展さ
せる方法が、 (a)該システムへの多数の入力と該システムからの対応する出力とを取得し
そして該入力と出力とを前に取得されたデータとして記憶装置内に記憶する過程
と、 (b)入力と出力との対応する組み合わせを選択することにより該前に取得さ
れたデータを少なくとも1つのトレーニングデータ集合と、少なくとも1つのテ
ストデータ集合とそして少なくとも1つの検証データ集合とに分ける過程と、 (c)フイーチャー部分空間を1つ以上の入力の組み合わせとして規定する過
程とを具備しており、該フイーチャー部分空間の次元は該組み合わせ内該入力数
であり、該方法は又、 (d)高いグローバルな情報エントロピーのフイーチャー部分空間の組み合わ
せを、 (i)トレーニング集合のデータを選択することと、 (ii)該トレーニング集合の該データからフイーチャー部分空間の初期集
合を創ることと、 (iii)該トレーニング集合の該入力を量子化するが、該入力が値の範囲
を有し、それは該値の範囲を部分範囲に分け、それにより各フイーチャー部分空
間を複数のセルに分け、各セルは、各セルを占めるトレーニング集合データ点の
数として規定されるセル母集団を有することにより該値の範囲を有するよう、該
量子化することと、 (iv)該部分集合の各出力に対する該部分空間内の各セルのローカル情報
エントロピーを決定することと、 (v)各フイーチャーのグローバル情報エントロピーを決定することと、 (vi)高いグローバル情報エントロピーを有するフイーチャー部分空間の
集合を選択することとにより決定する過程と、 (e)該フイーチャーデータ集合から該最も高いグローバル情報エントロピー
を有する該フイーチャー部分空間を選択する過程と、 (f)該選択されたフイーチャー部分空間内に含まれる該データ集合からのそ
れら入力のみを選択することにより削減された次元数のデータ集合を創る過程と
、 (g)該削減された次元数のデータ集合の該入力と出力の間の数学的関係を発
展させるために遺伝的プログラム方法を適用する過程とを具備することを特徴と
する実験型データ集合で入力と出力の間の数学的関係を発展させる方法。 - 【請求項63】 実験データ集合の入力と出力との間の数学的関係を発展さ
せるハイブリッドの方法が、 (a)請求項50又は54又は58又は62の方法を使用してデータ集合から
第1モデルを発生する過程と、 (b)該第1モデル発生過程と異なるモデリング技術を使用して第2モデルを
発生する過程と、 (c)該データ集合を部分集合に分けそして各部分集合内の各モデルのローカ
ルな性能を決定する過程と、 (d)各部分集合内で該第1及び第2モデルの該ローカルな性能に基づき加重
関数を発生する過程と、そして (e)該加重関数を使用して該第1及び第2モデルを組み合わせ、それにより
該モデルの各々のローカルな性能の利点を組み合わせることを特徴とする実験デ
ータ集合の入力と出力との間の数学的関係を発展させるハイブリッドの方法。 - 【請求項64】 計算装置にシステムのモデルを、該システムの入力と出力
とを使用して発生させる命令の集合を含む機械可読記憶媒体に於いて、前記命令
は 高い情報フイーチャー部分空間を配置するために複数のフイーチャー部分空間
を探索する過程を具備しており、前記高い情報フイーチャー部分空間は1つ以上
の入力の組み合わせを有しており、該命令は又 複数のモデルを探索する過程を具備しており、前記モデルは前記高い情報フイ
ーチャー部分空間の1つ以上を備えており、前記モデルの各々は付随する出力予
測を有しており、そして該命令は更に、 少なくとも1つの他のモデルのそれより高い出力予測精度を有する前記モデル
の1つを選択する過程を具備することを特徴とする計算装置にシステムのモデル
を該システムの入力と出力とを使用して発生させる命令の集合を含む機械可読記
憶媒体。 - 【請求項65】 請求項64の記憶媒体に於いて、複数の部分空間を探索す
る前記過程は実質的に全ての起こり得る部分空間を調べることにより行われるこ
とを特徴とする記憶媒体。 - 【請求項66】 請求項64の記憶媒体に於いて、複数の部分空間を探索す
る前記過程が遺伝的発展型アルゴリズムにより行われることを特徴とする記憶媒
体。 - 【請求項67】 請求項66の記憶媒体に於いて、前記遺伝的発展型アルゴ
リズムが適応度関数として情報コンテントのメザーを使用することを特徴とする
記憶媒体。 - 【請求項68】 請求項67の記憶媒体に於いて、前記適応度関数はグロー
バルな部分空間エントロピーのメザーであることを特徴とする記憶媒体。 - 【請求項69】 請求項68の記憶媒体が更に、該複数のモデル内で発生の
最も低い頻度を有する1つ以上の入力を除き、そしてその後探索の過程を繰り返
す過程を具備しており、該フイーチャー部分空間が該残りの入力の1つ以上の組
み合わせを有することを特徴とする記憶媒体。 - 【請求項70】 請求項64の記憶媒体に於いて、複数のモデルを探索する
前記過程が遺伝的発展型アルゴリズムにより行われることを特徴とする記憶媒体
。 - 【請求項71】 請求項70の記憶媒体に於いて、前記遺伝的発展型アルゴ
リズムは適応度関数として予測精度のメザーを使用することを特徴とする記憶媒
体。 - 【請求項72】 請求項71の記憶媒体に於いて、予測精度の前記メザーは
前記1つ以上の情報フイーチャー部分空間内のローカル化されたセルの領域の予
測の加重組み合わせを含む予測に基づくことを特徴とする記憶媒体。 - 【請求項73】 請求項64の記憶媒体に於いて、前記探索過程は各前記部
分空間をセルに分ける過程を有することを特徴とする記憶媒体。 - 【請求項74】 請求項73の記憶媒体に於いて、該セル数は、少なくとも
1つの他のセル分割より高い情報コンテントを提供するセル分割を同定するため
に変えられることを特徴とする記憶媒体。 - 【請求項75】 請求項73の記憶媒体に於いて、該セル数は利用可能なデ
ータ点の数に基づき決定されることを特徴とする記憶媒体。 - 【請求項76】 請求項73の記憶媒体に於いて、セル境界は各次元を等し
いサイズの部分範囲に分割するにより決定されることを特徴とする記憶媒体。 - 【請求項77】 請求項73の記憶媒体に於いて、該セル境界は与えられた
部分空間の各次元を部分範囲に、各部分範囲が近似的に同じ数のデータ点を有す
るよう、分割することにより決定されることを特徴とする記憶媒体。 - 【請求項78】 請求項64の記憶媒体に於いて、部分空間の該情報コンテ
ントはセル情報コンテントの加重和であることを特徴とする記憶媒体。 - 【請求項79】 請求項78の記憶媒体に於いて、該セル情報コンテントは
出力がそのセル用の与えられた出力状態にある確率に基づくことを特徴とする記
憶媒体。 - 【請求項80】 請求項78の記憶媒体に於いて、該セル情報コンテントは
出力状態エントロピーに基づくことを特徴とする記憶媒体。 - 【請求項81】 請求項78の記憶媒体に於いて、該加重は該セル内点数に
基づくことを特徴とする記憶媒体。 - 【請求項82】 請求項64の記憶媒体に於いて、該情報コンテントは特定
出力確率の加重和であることを特徴とする記憶媒体。 - 【請求項83】 請求項82の記憶媒体に於いて、該特定出力確率は与えら
れた出力状態用の個別セル内にある確率に基づくことを特徴とする記憶媒体。 - 【請求項84】 請求項83の記憶媒体に於いて、該特定出力確率は与えら
れた出力状態用のセル分布のエントロピーに基づくことを特徴とする記憶媒体。 - 【請求項85】 請求項82の記憶媒体に於いて、該加重はその状態での部
分空間内の点の数に基づくことを特徴とする記憶媒体。 - 【請求項86】 請求項64の記憶媒体に於いて、高い情報の部分空間は発
見的方法のアルゴリズムにより同定されることを特徴とする記憶媒体。 - 【請求項87】 請求項86の記憶媒体に於いて、該発見的方法のアルゴリ
ズムは出力状態のクラスタリングを有する部分空間内のセル数を使用することを
特徴とする記憶媒体。 - 【請求項88】 請求項64の記憶媒体に於いて、各部分空間はセルに分か
れておりそして各部分空間内の各セルはセル確率ベクトルを有し、そして該確率
ベクトルの要素は各出力状態の該確率と対応することを特徴とする記憶媒体。 - 【請求項89】 請求項88の記憶媒体に於いて、各モデルはセル確率ベク
トルの加重和を含む付随確率ベクトルを有することを特徴とする記憶媒体。 - 【請求項90】 請求項89の記憶媒体に於いて、該加重はローカル及びグ
ローバルエントロピー加重の組み合わせであることを特徴とする記憶媒体。 - 【請求項91】 請求項64の記憶媒体に於いて、該出力予測精度は発生の
最も高い確率を有する該出力に等しい値を有する予測に基づくことを特徴とする
記憶媒体。 - 【請求項92】 請求項64の記憶媒体が更に、複数のモデルを選択する過
程と、そして 選択されたモデルの部分集合をフレームワークにグループ化する過程とを具備
する命令を含むことを特徴とする記憶媒体。 - 【請求項93】 請求項1,6,7,17,18,20,22,29,40
,45、47,50,54,58,62,又は63の何れかの方法により発生さ
れるモデルを表すデータを含む機械可読記憶媒体。 - 【請求項94】 データ構造を含む機械可読記憶媒体に於いて、前記データ
構造が、 複数の部分空間に対応する複数の入力組み合わせを表すデータを有する部分空
間データ構造と、 複数の部分空間組み合わせを表すデータを有するモデルデータ構造と、そして 該部分空間を占めるために必要なトレーニングデータ集合を表すデータを有す
るトレーニングデータ構造とを具備することを特徴とするデータ構造を含む機械
可読記憶媒体。 - 【請求項95】 請求項94の記憶媒体が更に、各部分空間用にセル領域を
指定するため使用されるデータを含むデータ構造を有することを特徴とする記憶
媒体。 - 【請求項96】 請求項95の記憶媒体が更に、各部分空間用にエントロピ
ー加重を含むデータ構造を有することを特徴とする記憶媒体。 - 【請求項97】 請求項95の記憶媒体が更に、各セル領域用にエントロピ
ー加重を含むデータ構造を有することを特徴とする記憶媒体。 - 【請求項98】 請求項95の記憶媒体が更に、各セル領域用に予測値を含
むデータ構造を有することを特徴とする記憶媒体。 - 【請求項99】 請求項95の記憶媒体が更に、複数のモデル組み合わせを
表すデータを含むフレームワークデータ構造を有することを特徴とする記憶媒体
。 - 【請求項100】 複数のデータ構造を含む機械可読記憶媒体であるが、前
記複数のデータ構造はシステム入力データ点へのシステム出力予測応答を決定す
るために使用されている該機械可読記憶媒体で、前記データ構造は、 入力データ点をセル予測値へ写像するために使用されるデータを有する写像用
データ構造と、そして 複数の部分空間組み合わせを表すデータを有するモデルデータ構造とを具備す
ることを特徴とする複数のデータ構造を含む機械可読記憶媒体であるが、前記複
数のデータ構造はシステム入力データ点へのシステム出力予測応答を決定するた
めに使用されている該機械可読記憶媒体。 - 【請求項101】 請求項100の記憶媒体に於いて、該予測値は加重確率
ベクトルであることを特徴とする記憶媒体。 - 【請求項102】 請求項100の記憶媒体が更に、ローカル及びグローバ
ルエントロピー加重を表すデータを含む加重データ構造を具備することを特徴と
する記憶媒体。 - 【請求項103】 請求項100の記憶媒体が更に、複数のモデル組み合わ
せを表すデータを含むフレームワークデータ構造を具備することを特徴とする記
憶媒体。 - 【請求項104】 実験データ集合内の入力と出力との間の数学的関係を発
展させるハイブリッドの方法が、 (a)請求項50又は54又は58又は62の方法を使用してデータ集合から
第1モデルを発生する過程と、 (b)該第1モデル発生過程と異なるモデリング技術を使用して第2モデルを
発生する過程と、 (c)各部分集合内の該第1及び第2モデルの性能に基づき加重用関数を発生
させる過程と、そして (d)該加重用関数を使用して該第1及び第2モデルを組み合わせ、それによ
り該モデルの各々の性能の利点を組み合わせる過程とを具備することを特徴とす
る実験データ集合内の入力と出力との間の数学的関係を発展させるハイブリッド
の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13180499P | 1999-04-30 | 1999-04-30 | |
US09/466,041 | 1999-12-17 | ||
US09/466,041 US6941287B1 (en) | 1999-04-30 | 1999-12-17 | Distributed hierarchical evolutionary modeling and visualization of empirical data |
US60/131,804 | 1999-12-17 | ||
PCT/US2000/010425 WO2000067200A2 (en) | 1999-04-30 | 2000-04-19 | Distributed hierarchical evolutionary modeling and visualization of empirical data |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011203096A Division JP5634363B2 (ja) | 1999-04-30 | 2011-09-16 | 実験データの分布状階層的発展型モデリングと可視化の方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002543538A true JP2002543538A (ja) | 2002-12-17 |
JP2002543538A5 JP2002543538A5 (ja) | 2011-01-20 |
JP4916614B2 JP4916614B2 (ja) | 2012-04-18 |
Family
ID=26829813
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000615965A Expired - Lifetime JP4916614B2 (ja) | 1999-04-30 | 2000-04-19 | 実験データの分布状階層的発展型モデリングと可視化の方法 |
JP2011203096A Expired - Lifetime JP5634363B2 (ja) | 1999-04-30 | 2011-09-16 | 実験データの分布状階層的発展型モデリングと可視化の方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011203096A Expired - Lifetime JP5634363B2 (ja) | 1999-04-30 | 2011-09-16 | 実験データの分布状階層的発展型モデリングと可視化の方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6941287B1 (ja) |
EP (1) | EP1185956A2 (ja) |
JP (2) | JP4916614B2 (ja) |
AU (1) | AU775191B2 (ja) |
BR (1) | BR0011221B1 (ja) |
CA (1) | CA2366782C (ja) |
WO (1) | WO2000067200A2 (ja) |
Families Citing this family (201)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8266025B1 (en) * | 1999-08-09 | 2012-09-11 | Citibank, N.A. | System and method for assuring the integrity of data used to evaluate financial risk or exposure |
US20040230546A1 (en) * | 2000-02-01 | 2004-11-18 | Rogers Russell A. | Personalization engine for rules and knowledge |
US6957172B2 (en) | 2000-03-09 | 2005-10-18 | Smartsignal Corporation | Complex signal decomposition and modeling |
US7739096B2 (en) * | 2000-03-09 | 2010-06-15 | Smartsignal Corporation | System for extraction of representative data for training of adaptive process monitoring equipment |
US6661922B1 (en) * | 2000-06-21 | 2003-12-09 | Hewlett-Packard Development Company, L.P. | Method of determining a nearest numerical neighbor point in multi-dimensional space |
US6728642B2 (en) | 2001-03-29 | 2004-04-27 | E. I. Du Pont De Nemours And Company | Method of non-linear analysis of biological sequence data |
US20030037016A1 (en) * | 2001-07-16 | 2003-02-20 | International Business Machines Corporation | Method and apparatus for representing and generating evaluation functions in a data classification system |
US20030041042A1 (en) * | 2001-08-22 | 2003-02-27 | Insyst Ltd | Method and apparatus for knowledge-driven data mining used for predictions |
WO2003038749A1 (en) * | 2001-10-31 | 2003-05-08 | Icosystem Corporation | Method and system for implementing evolutionary algorithms |
US7756804B2 (en) * | 2002-05-10 | 2010-07-13 | Oracle International Corporation | Automated model building and evaluation for data mining system |
WO2003107321A1 (en) * | 2002-06-12 | 2003-12-24 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
US7251639B2 (en) * | 2002-06-27 | 2007-07-31 | Microsoft Corporation | System and method for feature selection in decision trees |
CA2436400A1 (en) * | 2002-07-30 | 2004-01-30 | Abel G. Wolman | Geometrization for pattern recognition, data analysis, data merging, and multiple criteria decision making |
US7020593B2 (en) * | 2002-12-04 | 2006-03-28 | International Business Machines Corporation | Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model) |
US7089174B2 (en) * | 2003-02-21 | 2006-08-08 | Arm Limited | Modelling device behaviour using a first model, a second model and stored valid behaviour |
WO2004090692A2 (en) | 2003-04-04 | 2004-10-21 | Icosystem Corporation | Methods and systems for interactive evolutionary computing (iec) |
CA2521185A1 (en) * | 2003-05-22 | 2004-12-09 | Pershing Investments, Llc | Method and system for predicting attrition customers |
EP1636738A2 (en) * | 2003-05-23 | 2006-03-22 | Computer Associates Think, Inc. | Adaptive learning enhancement to auotmated model maintenance |
US7085981B2 (en) * | 2003-06-09 | 2006-08-01 | International Business Machines Corporation | Method and apparatus for generating test data sets in accordance with user feedback |
US7333960B2 (en) * | 2003-08-01 | 2008-02-19 | Icosystem Corporation | Methods and systems for applying genetic operators to determine system conditions |
US7356518B2 (en) * | 2003-08-27 | 2008-04-08 | Icosystem Corporation | Methods and systems for multi-participant interactive evolutionary computing |
US20050255483A1 (en) * | 2004-05-14 | 2005-11-17 | Stratagene California | System and method for smoothing melting curve data |
US7707220B2 (en) | 2004-07-06 | 2010-04-27 | Icosystem Corporation | Methods and apparatus for interactive searching techniques |
US8364610B2 (en) | 2005-04-08 | 2013-01-29 | Caterpillar Inc. | Process modeling and optimization method and system |
US7877239B2 (en) | 2005-04-08 | 2011-01-25 | Caterpillar Inc | Symmetric random scatter process for probabilistic modeling system for product design |
US7565333B2 (en) * | 2005-04-08 | 2009-07-21 | Caterpillar Inc. | Control system and method |
US8209156B2 (en) | 2005-04-08 | 2012-06-26 | Caterpillar Inc. | Asymmetric random scatter process for probabilistic modeling system for product design |
JP4646681B2 (ja) * | 2005-04-13 | 2011-03-09 | キヤノン株式会社 | 色処理装置及びその方法 |
US7818131B2 (en) * | 2005-06-17 | 2010-10-19 | Venture Gain, L.L.C. | Non-parametric modeling apparatus and method for classification, especially of activity state |
WO2007035848A2 (en) | 2005-09-21 | 2007-03-29 | Icosystem Corporation | System and method for aiding product design and quantifying acceptance |
US7487134B2 (en) | 2005-10-25 | 2009-02-03 | Caterpillar Inc. | Medical risk stratifying method and system |
US7499842B2 (en) | 2005-11-18 | 2009-03-03 | Caterpillar Inc. | Process model based virtual sensor and method |
US7505949B2 (en) | 2006-01-31 | 2009-03-17 | Caterpillar Inc. | Process model error correction method and system |
US20080040181A1 (en) * | 2006-04-07 | 2008-02-14 | The University Of Utah Research Foundation | Managing provenance for an evolutionary workflow process in a collaborative environment |
US8019593B2 (en) * | 2006-06-30 | 2011-09-13 | Robert Bosch Corporation | Method and apparatus for generating features through logical and functional operations |
US8275577B2 (en) * | 2006-09-19 | 2012-09-25 | Smartsignal Corporation | Kernel-based method for detecting boiler tube leaks |
US8478506B2 (en) | 2006-09-29 | 2013-07-02 | Caterpillar Inc. | Virtual sensor based engine control system and method |
US7657497B2 (en) | 2006-11-07 | 2010-02-02 | Ebay Inc. | Online fraud prevention using genetic algorithm solution |
US7698285B2 (en) * | 2006-11-09 | 2010-04-13 | International Business Machines Corporation | Compression of multidimensional datasets |
CN101535936B (zh) * | 2006-11-30 | 2015-12-02 | 联想创新有限公司(香港) | 信息选择辅助系统、信息选择辅助方法和程序 |
US8311774B2 (en) | 2006-12-15 | 2012-11-13 | Smartsignal Corporation | Robust distance measures for on-line monitoring |
US7483774B2 (en) | 2006-12-21 | 2009-01-27 | Caterpillar Inc. | Method and system for intelligent maintenance |
US7698249B2 (en) * | 2007-01-22 | 2010-04-13 | International Business Machines Corporation | System and method for predicting hardware and/or software metrics in a computer system using models |
US7792816B2 (en) | 2007-02-01 | 2010-09-07 | Icosystem Corporation | Method and system for fast, generic, online and offline, multi-source text analysis and visualization |
US9558184B1 (en) * | 2007-03-21 | 2017-01-31 | Jean-Michel Vanhalle | System and method for knowledge modeling |
US7787969B2 (en) | 2007-06-15 | 2010-08-31 | Caterpillar Inc | Virtual sensor system and method |
US7831416B2 (en) | 2007-07-17 | 2010-11-09 | Caterpillar Inc | Probabilistic modeling system for product design |
US7788070B2 (en) | 2007-07-30 | 2010-08-31 | Caterpillar Inc. | Product design optimization method and system |
US7542879B2 (en) | 2007-08-31 | 2009-06-02 | Caterpillar Inc. | Virtual sensor based control system and method |
US8180710B2 (en) * | 2007-09-25 | 2012-05-15 | Strichman Adam J | System, method and computer program product for an interactive business services price determination and/or comparison model |
US7593804B2 (en) | 2007-10-31 | 2009-09-22 | Caterpillar Inc. | Fixed-point virtual sensor control system and method |
US8224468B2 (en) | 2007-11-02 | 2012-07-17 | Caterpillar Inc. | Calibration certificate for virtual sensor network (VSN) |
US8036764B2 (en) | 2007-11-02 | 2011-10-11 | Caterpillar Inc. | Virtual sensor network (VSN) system and method |
US20090222308A1 (en) * | 2008-03-03 | 2009-09-03 | Zoldi Scott M | Detecting first party fraud abuse |
US20100049665A1 (en) * | 2008-04-25 | 2010-02-25 | Christopher Allan Ralph | Basel adaptive segmentation heuristics |
US8086640B2 (en) | 2008-05-30 | 2011-12-27 | Caterpillar Inc. | System and method for improving data coverage in modeling systems |
US7917333B2 (en) | 2008-08-20 | 2011-03-29 | Caterpillar Inc. | Virtual sensor network (VSN) based control system and method |
US8229867B2 (en) * | 2008-11-25 | 2012-07-24 | International Business Machines Corporation | Bit-selection for string-based genetic algorithms |
US8560283B2 (en) * | 2009-07-10 | 2013-10-15 | Emerson Process Management Power And Water Solutions, Inc. | Methods and apparatus to compensate first principle-based simulation models |
US8478012B2 (en) * | 2009-09-14 | 2013-07-02 | General Electric Company | Methods, apparatus and articles of manufacture to process cardiac images to detect heart motion abnormalities |
TWI416348B (zh) * | 2009-12-24 | 2013-11-21 | Univ Nat Central | 實施於電腦之資料叢集方法以及儲存其之電腦可讀取記錄媒體 |
CA2787170C (en) * | 2010-01-14 | 2018-05-08 | Venture Gain LLC | Multivariate residual-based health index for human health monitoring |
US20120226629A1 (en) * | 2011-03-02 | 2012-09-06 | Puri Narindra N | System and Method For Multiple Frozen-Parameter Dynamic Modeling and Forecasting |
US8793004B2 (en) | 2011-06-15 | 2014-07-29 | Caterpillar Inc. | Virtual sensor system and method for generating output parameters |
US9256224B2 (en) | 2011-07-19 | 2016-02-09 | GE Intelligent Platforms, Inc | Method of sequential kernel regression modeling for forecasting and prognostics |
US9250625B2 (en) | 2011-07-19 | 2016-02-02 | Ge Intelligent Platforms, Inc. | System of sequential kernel regression modeling for forecasting and prognostics |
US8620853B2 (en) | 2011-07-19 | 2013-12-31 | Smartsignal Corporation | Monitoring method using kernel regression modeling with pattern sequences |
EP2791745B1 (en) * | 2011-12-15 | 2020-09-09 | Valmet Automation Oy | A method of operating a process or machine |
US10222769B2 (en) | 2012-10-12 | 2019-03-05 | Emerson Process Management Power & Water Solutions, Inc. | Method for determining and tuning process characteristic parameters using a simulation system |
WO2014121019A1 (en) * | 2013-01-31 | 2014-08-07 | Zestfinance, Inc. | Methods and systems for automatically generating high quality adverse action notifications |
US10430709B2 (en) | 2016-05-04 | 2019-10-01 | Cognizant Technology Solutions U.S. Corporation | Data mining technique with distributed novelty search |
WO2015192239A1 (en) * | 2014-06-20 | 2015-12-23 | Miovision Technologies Incorporated | Machine learning platform for performing large scale data analytics |
KR102395556B1 (ko) * | 2014-12-18 | 2022-05-10 | 재단법인 포항산업과학연구원 | 오차의 정보량을 기반으로 한 모델의 입력 변수 선정 장치 및 방법 |
CN104794235B (zh) * | 2015-05-06 | 2018-01-05 | 曹东 | 金融时间序列分段分布特征计算方法及系统 |
US10311358B2 (en) * | 2015-07-10 | 2019-06-04 | The Aerospace Corporation | Systems and methods for multi-objective evolutionary algorithms with category discovery |
US10474952B2 (en) | 2015-09-08 | 2019-11-12 | The Aerospace Corporation | Systems and methods for multi-objective optimizations with live updates |
US10387779B2 (en) | 2015-12-09 | 2019-08-20 | The Aerospace Corporation | Systems and methods for multi-objective evolutionary algorithms with soft constraints |
KR101809599B1 (ko) | 2016-02-04 | 2017-12-15 | 연세대학교 산학협력단 | 약물과 단백질 간 관계 분석 방법 및 장치 |
JP7006585B2 (ja) * | 2016-03-28 | 2022-01-24 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
US10956823B2 (en) * | 2016-04-08 | 2021-03-23 | Cognizant Technology Solutions U.S. Corporation | Distributed rule-based probabilistic time-series classifier |
US10402728B2 (en) | 2016-04-08 | 2019-09-03 | The Aerospace Corporation | Systems and methods for multi-objective heuristics with conditional genes |
CN108960514B (zh) * | 2016-04-27 | 2022-09-06 | 第四范式(北京)技术有限公司 | 展示预测模型的方法、装置及调整预测模型的方法、装置 |
US11379730B2 (en) | 2016-06-16 | 2022-07-05 | The Aerospace Corporation | Progressive objective addition in multi-objective heuristic systems and methods |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US11676038B2 (en) | 2016-09-16 | 2023-06-13 | The Aerospace Corporation | Systems and methods for multi-objective optimizations with objective space mapping |
US10474953B2 (en) | 2016-09-19 | 2019-11-12 | The Aerospace Corporation | Systems and methods for multi-objective optimizations with decision variable perturbations |
GB201621438D0 (en) * | 2016-12-16 | 2017-02-01 | Trw Ltd | Method of determining the boundary of drivable space |
WO2018119443A1 (en) * | 2016-12-23 | 2018-06-28 | The Regents Of The University Of California | Method and device for digital high resolution melt |
US10909177B1 (en) * | 2017-01-17 | 2021-02-02 | Workday, Inc. | Percentile determination system |
US11481603B1 (en) * | 2017-05-19 | 2022-10-25 | Wells Fargo Bank, N.A. | System for deep learning using knowledge graphs |
US10685081B2 (en) * | 2017-06-20 | 2020-06-16 | Intel Corporation | Optimized data discretization |
US10387777B2 (en) | 2017-06-28 | 2019-08-20 | Liquid Biosciences, Inc. | Iterative feature selection methods |
US10692005B2 (en) | 2017-06-28 | 2020-06-23 | Liquid Biosciences, Inc. | Iterative feature selection methods |
WO2019005049A1 (en) * | 2017-06-28 | 2019-01-03 | Liquid Biosciences, Inc. | METHODS FOR SELECTING ITERATIVE CHARACTERISTICS |
US11972355B2 (en) * | 2017-07-18 | 2024-04-30 | iQGateway LLC | Method and system for generating best performing data models for datasets in a computing environment |
US10229092B2 (en) | 2017-08-14 | 2019-03-12 | City University Of Hong Kong | Systems and methods for robust low-rank matrix approximation |
US10282388B2 (en) | 2017-09-11 | 2019-05-07 | Bank Of America Corporation | Computer architecture for emulating an image output adapter for a correlithm object processing system |
US10409885B2 (en) | 2017-09-11 | 2019-09-10 | Bank Of America Corporation | Computer architecture for emulating a distance measuring device for a correlithm object processing system |
US10366141B2 (en) | 2017-09-11 | 2019-07-30 | Bank Of American Corporation | Computer architecture for emulating n-dimensional workspaces in a correlithm object processing system |
US10380082B2 (en) | 2017-09-11 | 2019-08-13 | Bank Of America Corporation | Computer architecture for emulating an image input adapter for a correlithm object processing system |
US10380221B2 (en) | 2017-09-11 | 2019-08-13 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system |
US10228940B1 (en) | 2017-09-11 | 2019-03-12 | Bank Of America Corporation | Computer architecture for emulating a hamming distance measuring device for a correlithm object processing system |
US10467499B2 (en) | 2017-09-11 | 2019-11-05 | Bank Of America Corporation | Computer architecture for emulating an output adapter for a correlithm object processing system |
US11847246B1 (en) * | 2017-09-14 | 2023-12-19 | United Services Automobile Association (Usaa) | Token based communications for machine learning systems |
US10783298B2 (en) | 2017-10-13 | 2020-09-22 | Bank Of America Corporation | Computer architecture for emulating a binary correlithm object logic gate |
US10599795B2 (en) | 2017-10-13 | 2020-03-24 | Bank Of America Corporation | Computer architecture for emulating a binary correlithm object flip flop |
US10783297B2 (en) | 2017-10-13 | 2020-09-22 | Bank Of America Corporation | Computer architecture for emulating a unary correlithm object logic gate |
US10355713B2 (en) | 2017-10-13 | 2019-07-16 | Bank Of America Corporation | Computer architecture for emulating a correlithm object logic gate using a context input |
US10810026B2 (en) | 2017-10-18 | 2020-10-20 | Bank Of America Corporation | Computer architecture for emulating drift-away string correlithm objects in a correlithm object processing system |
US10810028B2 (en) | 2017-10-18 | 2020-10-20 | Bank Of America Corporation | Computer architecture for detecting members of correlithm object cores in a correlithm object processing system |
US10824452B2 (en) | 2017-10-18 | 2020-11-03 | Bank Of America Corporation | Computer architecture for emulating adjustable correlithm object cores in a correlithm object processing system |
US10915337B2 (en) | 2017-10-18 | 2021-02-09 | Bank Of America Corporation | Computer architecture for emulating correlithm object cores in a correlithm object processing system |
US10719339B2 (en) | 2017-10-18 | 2020-07-21 | Bank Of America Corporation | Computer architecture for emulating a quantizer in a correlithm object processing system |
US10789081B2 (en) | 2017-10-18 | 2020-09-29 | Bank Of America Corporation | Computer architecture for emulating drift-between string correlithm objects in a correlithm object processing system |
US10037478B1 (en) | 2017-11-28 | 2018-07-31 | Bank Of America Corporation | Computer architecture for emulating master-slave controllers for a correlithm object processing system |
US10853107B2 (en) | 2017-11-28 | 2020-12-01 | Bank Of America Corporation | Computer architecture for emulating parallel processing in a correlithm object processing system |
US10853106B2 (en) | 2017-11-28 | 2020-12-01 | Bank Of America Corporation | Computer architecture for emulating digital delay nodes in a correlithm object processing system |
US11080604B2 (en) | 2017-11-28 | 2021-08-03 | Bank Of America Corporation | Computer architecture for emulating digital delay lines in a correlithm object processing system |
US10019650B1 (en) | 2017-11-28 | 2018-07-10 | Bank Of America Corporation | Computer architecture for emulating an asynchronous correlithm object processing system |
US10866822B2 (en) | 2017-11-28 | 2020-12-15 | Bank Of America Corporation | Computer architecture for emulating a synchronous correlithm object processing system |
US11062479B2 (en) | 2017-12-06 | 2021-07-13 | Axalta Coating Systems Ip Co., Llc | Systems and methods for matching color and appearance of target coatings |
US11347969B2 (en) | 2018-03-21 | 2022-05-31 | Bank Of America Corporation | Computer architecture for training a node in a correlithm object processing system |
US11113630B2 (en) | 2018-03-21 | 2021-09-07 | Bank Of America Corporation | Computer architecture for training a correlithm object processing system |
US10860349B2 (en) | 2018-03-26 | 2020-12-08 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that uses portions of correlithm objects and portions of a mapping table in a distributed node network |
US10915338B2 (en) | 2018-03-26 | 2021-02-09 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that places portions of correlithm objects in a distributed node network |
US10860348B2 (en) | 2018-03-26 | 2020-12-08 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that places portions of correlithm objects and portions of a mapping table in a distributed node network |
US10896052B2 (en) | 2018-03-26 | 2021-01-19 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that uses portions of a mapping table in a distributed node network |
US10810029B2 (en) | 2018-03-26 | 2020-10-20 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that uses portions of correlithm objects in a distributed node network |
US10838749B2 (en) | 2018-03-26 | 2020-11-17 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that uses multiple correlithm objects in a distributed node network |
US10915339B2 (en) | 2018-03-26 | 2021-02-09 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system that places portions of a mapping table in a distributed node network |
CA3095033C (en) * | 2018-03-27 | 2023-03-28 | Netflix, Inc. | Techniques for scheduled anti-entropy repair design |
US10915341B2 (en) | 2018-03-28 | 2021-02-09 | Bank Of America Corporation | Computer architecture for processing correlithm objects using a selective context input |
US10853392B2 (en) | 2018-04-30 | 2020-12-01 | Bank Of America Corporation | Computer architecture for offline node remapping in a cloud-based correlithm object processing system |
US11314537B2 (en) | 2018-04-30 | 2022-04-26 | Bank Of America Corporation | Computer architecture for establishing data encryption in a correlithm object processing system |
US10768957B2 (en) | 2018-04-30 | 2020-09-08 | Bank Of America Corporation | Computer architecture for establishing dynamic correlithm object communications in a correlithm object processing system |
US10915342B2 (en) | 2018-04-30 | 2021-02-09 | Bank Of America Corporation | Computer architecture for a cloud-based correlithm object processing system |
US10599685B2 (en) | 2018-04-30 | 2020-03-24 | Bank Of America Corporation | Computer architecture for online node remapping in a cloud-based correlithm object processing system |
US10609002B2 (en) | 2018-04-30 | 2020-03-31 | Bank Of America Corporation | Computer architecture for emulating a virtual private network in a correlithm object processing system |
US11409985B2 (en) | 2018-04-30 | 2022-08-09 | Bank Of America Corporation | Computer architecture for emulating a correlithm object converter in a correlithm object processing system |
US11010183B2 (en) | 2018-04-30 | 2021-05-18 | Bank Of America Corporation | Computer architecture for emulating correlithm object diversity in a correlithm object processing system |
US11657297B2 (en) | 2018-04-30 | 2023-05-23 | Bank Of America Corporation | Computer architecture for communications in a cloud-based correlithm object processing system |
US10481930B1 (en) | 2018-06-25 | 2019-11-19 | Bank Of America Corporation | Computer architecture for emulating a foveal mechanism in a correlithm object processing system |
US10762397B1 (en) | 2018-06-25 | 2020-09-01 | Bank Of America Corporation | Computer architecture for emulating image mapping in a correlithm object processing system |
JP6526356B1 (ja) * | 2018-08-27 | 2019-06-05 | 株式会社 みずほ銀行 | 銀行業務支援システム、銀行業務支援方法及び銀行業務支援プログラム |
US11055122B2 (en) | 2018-09-17 | 2021-07-06 | Bank Of America Corporation | Computer architecture for mapping discrete data values to a string correlithm object in a correlithm object processing system |
US11238072B2 (en) | 2018-09-17 | 2022-02-01 | Bank Of America Corporation | Computer architecture for mapping analog data values to a string correlithm object in a correlithm object processing system |
US10996965B2 (en) | 2018-09-17 | 2021-05-04 | Bank Of America Corporation | Computer architecture for emulating a string correlithm object generator in a correlithm object processing system |
US11093478B2 (en) | 2018-09-17 | 2021-08-17 | Bank Of America Corporation | Computer architecture for mapping correlithm objects to sub-string correlithm objects of a string correlithm object in a correlithm object processing system |
US10929709B2 (en) | 2018-09-17 | 2021-02-23 | Bank Of America Corporation | Computer architecture for mapping a first string correlithm object to a second string correlithm object in a correlithm object processing system |
DE102018124146A1 (de) * | 2018-09-29 | 2020-04-02 | Trumpf Werkzeugmaschinen Gmbh + Co. Kg | Schachteln von werkstücken für schneidprozesse einer flachbettwerkzeugmaschine |
US11093474B2 (en) | 2018-11-15 | 2021-08-17 | Bank Of America Corporation | Computer architecture for emulating multi-dimensional string correlithm object dynamic time warping in a correlithm object processing system |
US10997143B2 (en) | 2018-11-15 | 2021-05-04 | Bank Of America Corporation | Computer architecture for emulating single dimensional string correlithm object dynamic time warping in a correlithm object processing system |
US11436515B2 (en) | 2018-12-03 | 2022-09-06 | Bank Of America Corporation | Computer architecture for generating hierarchical clusters in a correlithm object processing system |
US11455568B2 (en) | 2018-12-03 | 2022-09-27 | Bank Of America Corporation | Computer architecture for identifying centroids using machine learning in a correlithm object processing system |
US11354533B2 (en) | 2018-12-03 | 2022-06-07 | Bank Of America Corporation | Computer architecture for identifying data clusters using correlithm objects and machine learning in a correlithm object processing system |
US11423249B2 (en) | 2018-12-03 | 2022-08-23 | Bank Of America Corporation | Computer architecture for identifying data clusters using unsupervised machine learning in a correlithm object processing system |
CN111325067B (zh) * | 2018-12-14 | 2023-07-07 | 北京金山云网络技术有限公司 | 违规视频的识别方法、装置及电子设备 |
US11321887B2 (en) * | 2018-12-24 | 2022-05-03 | Accenture Global Solutions Limited | Article design |
US11100120B2 (en) | 2019-03-11 | 2021-08-24 | Bank Of America Corporation | Computer architecture for performing error detection and correction in a correlithm object processing system |
US10990649B2 (en) | 2019-03-11 | 2021-04-27 | Bank Of America Corporation | Computer architecture for emulating a string correlithm object velocity detector in a correlithm object processing system |
US11080364B2 (en) | 2019-03-11 | 2021-08-03 | Bank Of America Corporation | Computer architecture for performing error detection and correction using demultiplexers and multiplexers in a correlithm object processing system |
US11036825B2 (en) | 2019-03-11 | 2021-06-15 | Bank Of America Corporation | Computer architecture for maintaining a distance metric across correlithm objects in a correlithm object processing system |
US11036826B2 (en) | 2019-03-11 | 2021-06-15 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system with transparency |
US11003735B2 (en) | 2019-03-11 | 2021-05-11 | Bank Of America Corporation | Computer architecture for emulating recording and playback in a correlithm object processing system |
US10949495B2 (en) | 2019-03-11 | 2021-03-16 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system with traceability |
US10915344B2 (en) | 2019-03-11 | 2021-02-09 | Bank Of America Corporation | Computer architecture for emulating coding in a correlithm object processing system |
US10949494B2 (en) | 2019-03-11 | 2021-03-16 | Bank Of America Corporation | Computer architecture for emulating a correlithm object processing system using mobile correlithm object devices |
EP3948692A4 (en) | 2019-03-27 | 2023-03-29 | Cognizant Technology Solutions U.S. Corporation | PROCESS AND SYSTEM CONTAINING A SCALABLE SUBSTITUTE-ASSISTED PRESCRIPTIONS OPTIMIZATION ENGINE |
US11107003B2 (en) | 2019-04-11 | 2021-08-31 | Bank Of America Corporation | Computer architecture for emulating a triangle lattice correlithm object generator in a correlithm object processing system |
US11094047B2 (en) | 2019-04-11 | 2021-08-17 | Bank Of America Corporation | Computer architecture for emulating an irregular lattice correlithm object generator in a correlithm object processing system |
US11250104B2 (en) | 2019-04-11 | 2022-02-15 | Bank Of America Corporation | Computer architecture for emulating a quadrilateral lattice correlithm object generator in a correlithm object processing system |
US11263290B2 (en) | 2019-04-11 | 2022-03-01 | Bank Of America Corporation | Computer architecture for emulating a bidirectional string correlithm object generator in a correlithm object processing system |
US10915345B2 (en) | 2019-04-11 | 2021-02-09 | Bank Of America Corporation | Computer architecture for emulating intersecting multiple string correlithm objects in a correlithm object processing system |
US10929158B2 (en) | 2019-04-11 | 2021-02-23 | Bank Of America Corporation | Computer architecture for emulating a link node in a correlithm object processing system |
US10990424B2 (en) | 2019-05-07 | 2021-04-27 | Bank Of America Corporation | Computer architecture for emulating a node in conjunction with stimulus conditions in a correlithm object processing system |
US11055120B2 (en) | 2019-05-07 | 2021-07-06 | Bank Of America Corporation | Computer architecture for emulating a control node in conjunction with stimulus conditions in a correlithm object processing system |
US10922109B2 (en) | 2019-05-14 | 2021-02-16 | Bank Of America Corporation | Computer architecture for emulating a node in a correlithm object processing system |
US20200410373A1 (en) * | 2019-06-27 | 2020-12-31 | Mohamad Zaim BIN AWANG PON | Predictive analytic method for pattern and trend recognition in datasets |
US11645096B2 (en) | 2019-07-24 | 2023-05-09 | Bank Of America Corporation | Computer architecture for performing multiplication using correlithm objects in a correlithm object processing system |
US10936348B2 (en) | 2019-07-24 | 2021-03-02 | Bank Of America Corporation | Computer architecture for performing subtraction using correlithm objects in a correlithm object processing system |
US11250293B2 (en) | 2019-07-24 | 2022-02-15 | Bank Of America Corporation | Computer architecture for representing positional digits using correlithm objects in a correlithm object processing system |
US11301544B2 (en) | 2019-07-24 | 2022-04-12 | Bank Of America Corporation | Computer architecture for performing inversion using correlithm objects in a correlithm object processing system |
US10936349B2 (en) | 2019-07-24 | 2021-03-02 | Bank Of America Corporation | Computer architecture for performing addition using correlithm objects in a correlithm object processing system |
US11468259B2 (en) | 2019-07-24 | 2022-10-11 | Bank Of America Corporation | Computer architecture for performing division using correlithm objects in a correlithm object processing system |
US10915346B1 (en) | 2019-07-24 | 2021-02-09 | Bank Of America Corporation | Computer architecture for representing an exponential form using correlithm objects in a correlithm object processing system |
US11334760B2 (en) | 2019-07-24 | 2022-05-17 | Bank Of America Corporation | Computer architecture for mapping correlithm objects to sequential values in a correlithm object processing system |
US11086647B2 (en) | 2020-01-03 | 2021-08-10 | Bank Of America Corporation | Computer architecture for determining phase and frequency components from correlithm objects in a correlithm object processing system |
US11347526B2 (en) | 2020-01-03 | 2022-05-31 | Bank Of America Corporation | Computer architecture for representing phase and frequency components using correlithm objects in a correlithm object processing system |
CN111243678B (zh) * | 2020-01-07 | 2023-05-23 | 北京唐颐惠康生物医学技术有限公司 | 一种基于锁定技术的细胞库存安全保障方法及系统 |
US11126450B2 (en) | 2020-01-30 | 2021-09-21 | Bank Of America Corporation | Computer architecture for emulating a differentiator in a correlithm object processing system |
US11055323B1 (en) | 2020-01-30 | 2021-07-06 | Bank Of America Corporation | Computer architecture for emulating a differential amlpifier in a correlithm object processing system |
US11055121B1 (en) | 2020-01-30 | 2021-07-06 | Bank Of America Corporation | Computer architecture for emulating an integrator in a correlithm object processing system |
US20210350426A1 (en) | 2020-05-07 | 2021-11-11 | Nowcasting.ai, Inc. | Architecture for data processing and user experience to provide decision support |
US11775841B2 (en) | 2020-06-15 | 2023-10-03 | Cognizant Technology Solutions U.S. Corporation | Process and system including explainable prescriptions through surrogate-assisted evolution |
CN111985530B (zh) * | 2020-07-08 | 2023-12-08 | 上海师范大学 | 一种分类方法 |
CN112287020B (zh) * | 2020-12-31 | 2021-03-26 | 太极计算机股份有限公司 | 一种基于图分析的大数据挖掘方法 |
US11620274B2 (en) * | 2021-04-30 | 2023-04-04 | Intuit Inc. | Method and system of automatically predicting anomalies in online forms |
CN113391987A (zh) * | 2021-06-22 | 2021-09-14 | 北京仁科互动网络技术有限公司 | 一种上线软件系统的质量预测方法及装置 |
CN113792878B (zh) * | 2021-08-18 | 2024-03-15 | 南华大学 | 一种数值程序蜕变关系的自动识别方法 |
US20230076130A1 (en) * | 2021-09-07 | 2023-03-09 | Cisco Technology, Inc. | Telemetry-based model driven manufacturing test methodology |
CN116698680B (zh) * | 2023-08-04 | 2023-09-29 | 天津创盾智能科技有限公司 | 一种生物气溶胶自动监测方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5140530A (en) | 1989-03-28 | 1992-08-18 | Honeywell Inc. | Genetic algorithm synthesis of neural networks |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5727128A (en) | 1996-05-08 | 1998-03-10 | Fisher-Rosemount Systems, Inc. | System and method for automatically determining a set of variables for use in creating a process model |
DE59705226D1 (de) | 1996-08-09 | 2001-12-06 | Siemens Ag | Rechnergestütztes verfahren zur auswahl von trainingsdaten für ein neuronales netz |
JPH1090001A (ja) * | 1996-09-17 | 1998-04-10 | Nisshin Soft Eng Kk | データ処理装置および方法 |
GB9622055D0 (en) * | 1996-10-23 | 1996-12-18 | Univ Strathclyde | Vector quantisation |
JP2873955B1 (ja) * | 1998-01-23 | 1999-03-24 | 東京工業大学長 | 画像処理方法および装置 |
-
1999
- 1999-12-17 US US09/466,041 patent/US6941287B1/en not_active Expired - Lifetime
-
2000
- 2000-04-19 CA CA2366782A patent/CA2366782C/en not_active Expired - Lifetime
- 2000-04-19 AU AU43596/00A patent/AU775191B2/en not_active Expired
- 2000-04-19 JP JP2000615965A patent/JP4916614B2/ja not_active Expired - Lifetime
- 2000-04-19 WO PCT/US2000/010425 patent/WO2000067200A2/en not_active Application Discontinuation
- 2000-04-19 BR BRPI0011221-6A patent/BR0011221B1/pt not_active IP Right Cessation
- 2000-04-19 EP EP00923480A patent/EP1185956A2/en not_active Withdrawn
-
2011
- 2011-09-16 JP JP2011203096A patent/JP5634363B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1185956A2 (en) | 2002-03-13 |
CA2366782A1 (en) | 2000-11-09 |
BR0011221B1 (pt) | 2014-11-25 |
US6941287B1 (en) | 2005-09-06 |
AU4359600A (en) | 2000-11-17 |
AU775191B2 (en) | 2004-07-22 |
JP2012053880A (ja) | 2012-03-15 |
BR0011221A (pt) | 2002-03-19 |
JP4916614B2 (ja) | 2012-04-18 |
WO2000067200A2 (en) | 2000-11-09 |
CA2366782C (en) | 2011-07-05 |
JP5634363B2 (ja) | 2014-12-03 |
WO2000067200A3 (en) | 2001-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5634363B2 (ja) | 実験データの分布状階層的発展型モデリングと可視化の方法 | |
US7283982B2 (en) | Method and structure for transform regression | |
CN112070125A (zh) | 一种基于孤立森林学习的不平衡数据集的预测方法 | |
WO2004053659A2 (en) | Method and system for analyzing data and creating predictive models | |
WO2013067461A2 (en) | Identifying associations in data | |
CN110659207A (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
KR20020030744A (ko) | 멀티플 지지벡터장치를 사용하여 멀티플 데이터세트로부터의 지식발견 강화방법 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN112270596A (zh) | 基于用户画像构建的风险控制系统及方法 | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
CN115526652A (zh) | 一种基于机器学习的客户流失预警方法及系统 | |
US20130304783A1 (en) | Computer-implemented method for analyzing multivariate data | |
Korobilis et al. | Bayesian approaches to shrinkage and sparse estimation | |
CN112991026A (zh) | 一种商品推荐方法、系统、设备及计算机可读存储介质 | |
AU2004202199B2 (en) | Distributed hierarchical evolutionary modeling and visualization of empirical data | |
El-Sheikh et al. | Four imputation methods for handling missing values in the ARDL model: An application on Libyan FDI | |
Falini et al. | Spline based Hermite quasi-interpolation for univariate time series | |
WO1992017853A2 (en) | Direct data base analysis, forecasting and diagnosis method | |
Himani et al. | A comparative study on machine learning based prediction of citations of articles | |
CN112884028A (zh) | 一种系统资源调整方法、装置及设备 | |
CN113222177A (zh) | 模型迁移方法、装置及电子设备 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
Neuvial et al. | A two-sample tree-based test for hierarchically organized genomic signals | |
Dwarakanath et al. | Optimal Stopping with Gaussian Processes | |
Korobchynskyi et al. | Optimization of Data Preprocessing Procedure in the Systems of High Dimensional Data Clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070418 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080916 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080916 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20081025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100824 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100831 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20101125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110916 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20111003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4916614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |