JP2002543525A - 多次元データの非線形マッピングのための方法、システムおよびコンピュータプログラム製品 - Google Patents

多次元データの非線形マッピングのための方法、システムおよびコンピュータプログラム製品

Info

Publication number
JP2002543525A
JP2002543525A JP2000615919A JP2000615919A JP2002543525A JP 2002543525 A JP2002543525 A JP 2002543525A JP 2000615919 A JP2000615919 A JP 2000615919A JP 2000615919 A JP2000615919 A JP 2000615919A JP 2002543525 A JP2002543525 A JP 2002543525A
Authority
JP
Japan
Prior art keywords
linear
points
dimensional
data set
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000615919A
Other languages
English (en)
Inventor
ディミトリス ケイ. アグラフィオティス,
ビクター エス. ロバノフ,
フランシス アール. セイレム,
Original Assignee
3−ディメンショナル ファーマシューティカルズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3−ディメンショナル ファーマシューティカルズ, インコーポレイテッド filed Critical 3−ディメンショナル ファーマシューティカルズ, インコーポレイテッド
Publication of JP2002543525A publication Critical patent/JP2002543525A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • G06F17/175Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method of multidimensional data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 多次元のデータセットをスケーリングまたは次元を下げる方法、システムおよびコンピュータプログラム製品。本発明は、n次元データセットからサンプル点を選択し、サンプル点を非線形マッピングすることにより、対応するm次元の点のセットを得る。任意の適切な非線形マッピング法または多次元スケーリング法が、採用され得る。次に、プロセスは、対応する点のセットを用いて、システム(例えば、ニューラルネットワーク)をトレーニングする。トレーニングプロセス中または終了時に、システムは、2つの点のセットの間の関係を生成または決定する。

Description

【発明の詳細な説明】
【0001】 (発明の背景) (発明の分野) 本発明は、多次元データセットのスケーリングに関し、より詳細には、多次元
データセットからのサンプルの点の非線形マッピング、そのマッピングされたサ
ンプルの点についての一つ以上の非線形関数の決定、およびその一つ以上の非線
形関数を用いたさらなる点のマッピング(元の多次元データセットの要素のマッ
ピングおよび新規な未確認の点のマッピングを含む)に関する。
【0002】 (関連分野) 多次元スケーリングに関する従来の技術は、大量の多次元データセットについ
て十分なスケーリングを行わない。
【0003】 求められているものは、多次元スケーリングのための方法、システムおよびコ
ンピュータプログラム製品である。これは大量の多次元データセットに対しても
速く、十分なものである。
【0004】 (発明の要旨) 多次元データセットをスケーリングする、または次元を減少させるための方法
、システムおよびコンピュータプログラム製品は、大量のデータセットに対して
十分にスケーリングを行う。本発明は、多次元データセットからのサンプルの点
と対応するセットの次元が減少された点との間の一つ以上の非線形関数を決定し
、その後さらなる点を非線形マッピングするためにその非線形関数を使用するこ
とにより、多次元データセットをスケーリングする。さらなる点は元の多次元デ
ータセットの要素であってもよいし、または新規な未確認の点であってもよい。
一つの実施形態では、本発明はn次元のデータセットからのサンプルの点と対応
するm次元のセットの点で開始する。あるいは、本発明はn次元のデータセット
からのサンプルの点を選択し、そしてこのサンプルの点を非線形マッピングして
対応するm次元のセットの点を得る。任意の適切な非線形マッピング技術または
多次元スケーリング技術が用いられ得る。そしてプロセスは、システム(例えば
、ニューラルネットワーク)を養成し、これは対応するセットの点を用いる。養
成プロセスの最中またはその終わりに、システムは二つのセットの点の間の関係
を生じさせるか、または決定する。一つの実施形態では、その関係は一つ以上の
非線形関数の形式である。そして一つ以上の非線形関数はシステムで実施される
。その後、さらなるn次元の点がこのシステムに提供される。このシステムは一
つ以上の非線形関数を用いてそのさらなる点をマッピングする。これは従来の多
次元スケーリング技術を用いる場合よりもずっと速い。一つの実施形態では、こ
の非線形関係の決定は、ニューラルネットワークのような自己学習システムによ
って行われる。そして、さらなる点がフィードフォワードの様式でこの自己学習
システムを使用してマッピングされる。
【0005】 本発明は、添付の図面を参照して記載される。
【0006】 図面において、同じ参照番号は同一または機能的に類似した要素を示す。さら
に、参照番号の一番左の数字により、関連する要素が最初に導入された図面を特
定する。
【0007】 (好適な実施形態の詳細な説明) (目次) I.非線形マッピングネットワーク A.はじめに B.次元下げ C.非線形マッピング D.非線形マッピングネットワーク E.組合せ化学 II.プロセスでの実行 A.点サンプルの選択 B.点サンプルの非線形マッピング C.1つ以上の非線形関数の決定 D.非線形関数を使用してさらなる点のマッピング III.システムでの実行 IV.本発明の追加特徴 A.複数の非線形関数 V.コンピュータプログラム製品での実行 VI.結論 I.非線形マッピングネットワーク A.はじめに 統計学に現われてきた多くの次元下げ技術の中でも、多次元スケーリングおよ
び非線形マッピングは、概念の簡潔性、および信頼のおける公平な方法でデータ
空間のトポロジーおよび構造を再現する能力において一人勝ちしている。残念な
がら、すべての既知のアルゴリズムは、既存のハードウェアを使用して効果的に
分析され得るデータセットのサイズに厳しい制限を課す、2次時間の複雑性を示
す。本明細書は、「従来の」非線形マッピング技術と、フィードフォワードニュ
ーラルネットワークとを結合させる新規なアプローチを記載し、これにより、従
来の方法論を使用してアクセスできるものよりはるかに大きいデータセットの処
理が可能となる。確率サンプリングの原理に基づき、本方法はアルゴリズムを採
用し、ランダムに選んだ小さなサンプルを多次元に拡大し、次いで逆伝播アルゴ
リズム(back−propagation algorithm)でトレーニ
ングされた多層パーセプトロンを使用して基本となる非線形変換を「学習する」
。一旦トレーニングされると、ニューラルネットワークは、フィードフォワード
方法で使用され、最小限の歪みを有する新しく、今だ見ないサンプルを投影し得
る。組合せ化学およびコンピュータビジョンの分野からの例を使用して、この方
法が、伝統的な方法論によって生ずる投影と事実上区別不能な投影を生成し得、
そしてこれらの技術によって必要なごくわずかな時間で投影できることを実証す
る。ニューラルネットワークの形状で非線形変換をエンコードする能力は、新し
い可能性を開き、これまでには考えられなかった状況下で適用可能な非線形マッ
ピングを作成する。
【0008】 B.次元下げ 次元下げおよび視覚化は、科学的データ分析において最も重要である。中でも
特に重要なものは、データの構造およびトポロジーを理解する能力、および発明
者らの研究の主題間の相互関係および関連性である。そのような関係はしばしば
、直接的な観察を介して、または非類似性または距離測定の何らかの形状におい
て以後結合される1組の特徴的な特性の測定を介して得られる、類似性指数によ
って記載される。確かに、距離は偏在的な概念であり、宇宙を理解するに最も信
頼のおける指導原理の1つ、すなわち人が理解し、快適さを感じ、そして安らぎ
と確信を持って操縦できるものを表す。
【0009】 本明細書は、高次元データを見る旧式の方法に対する新しいアプローチを記載
する。高次元空間は、人の2または3次元幾何学に関する経験から発達する直感
に挑戦およびしばしば矛盾する特性を所有する。この複雑性はしばしば、当初ベ
ルマンに紹介され、多次元にわたる結合の最適化の複雑性を記述する「次元の冒
涜」として呼ばれてきた(その全体が本明細書中に参考として援用される、ベル
マン、R.E.、Adaptive Control Processes、P
rinceton University Press、1961年、を参照さ
れたい)。統計学では、この表現はより高い次元におけるデータの分布を記載す
るために使用される。超球および超立法体の体積に対する次元の効果の古典的例
が示すように(双方の全体が本明細書中に参考として援用される、W式man、
E.J.Ann.Statist.、1970年、およびScott、D.W.
、Multivariate Density Estimation:The
ory、Practice and Visualization、Wiley
、New York、1992年、を参照されたい)、高次元空間の密度のほと
んどは、その境界線の近くに集中し、その「中心」を実質的に空にしている。確
かに、より高い次元における「周囲」の概念は、やや歪みされている。すなわち
、その周囲が「局所的」である場合、周囲は実質的に空である。周囲が空でない
場合、周囲は「局所的」ではない。これは、多くの統計学的用途において、重要
な影響を有する。
【0010】 しかしながら、高次元空間は、化学および物理学から、社会科学および心理学
まですべての科学分野において現われる。現代科学において、現象は、1組の特
性を測定および分析することによって理解され、そしてモデルを構築し、その構
造および因果関係を説明することによって理解される。特徴の数が少ない場合、
データ内のパターンが、1および2次元ヒストグラム、散布図および/または運
動力学技術など、従来のグラフィックによる方法を使用して抽出され得る。しか
しながら、より高い次元の設定では、そのような技術の有用性は制限される。な
ぜならば、それらの技術により、起こり得る組合せを爆発的に増加させ、そして
可能性のある高次(higher−order)関係が得られなくなるためであ
る。
【0011】 高次元の表現は、多くのさらなる問題を引き起こす。第1、および恐らく最も
重要な問題は、変数間の実質的な相関関係の存在である。相関関係の重要性は、
ドメイン依存的であるが、一般的には余剰変数はデータ分析において過度の影響
を及ぼす傾向にある。さらに、その特徴が、回帰または分類のために使用される
場合、オーバーフィッティングが深刻な問題となり得る。多数の変数の存在によ
り、ほとんどの回帰および分類技術は、個々のサンプルの特異性に焦点を当て、
トレーニング組を越えて一般化するために不可欠である広範な像を見失う可能性
がある。最後に、空間次元が増加するに従い、分析を実行するために必要な計算
労力のサイズが、今日の多くの高性能なコンピュータにとっても脅威となり得る
。幸運にも、
【0012】
【数1】 のほとんどの多変量データは、ほとんどd次元ではない。すなわち、データの基
本構造が、たいていdより低い次元である。省略化のために、そしてデータの分
析および表現を簡略化するために、全体像にほとんど何も付加しない次元を無視
することによって、空間の次元を下げることがしばしば望ましい。データに報告
されたほとんどの方法は、元の空間を、1以上2または3次元表現に投影するこ
とによって、空間の次元を下げようとしている。
【0013】 恐らく、最も一般的な次元下げ技術は、主成分分析(PCA)である。例えば
、その全体が本明細書中に参考として援用される、Cooley、W.、Loh
nes、P.、Multivariate Data Analysis、Wi
ley、New York、1971年、を参照されたい。PCAは、1組の部
分的に相互関係データを、変化に寄与する量として最小限の損失で、より小さな
1組の直交変数(主成分)へと縮小させる。結果、この方法は、同様に働く特徴
を検出して、直交、すなわち相関性のない新しい1組の変数へと結合する。主成
分は、変数−共分散行列を対角行列に変換することによって計算される。この行
列の固有ベクトルが主成分であり、固有ベクトルは主成分のそれぞれの変数であ
る。PCの数は入力変数の数と等しいが、データに何らかの冗長性がある場合、
元のサンプルの変数の「ほとんど」を説明するには、最初の数個のPCのみを所
有することで通常十分である。この制限は任意であり、発見的規則(典型的には
、90または95%の閾値が使用される)によって通常決定される。PCAの主
な利点は、元の変数の確率分布に関する前提を全く作らないことである。各固有
ベクトルの要素は、その固有ベクトルの元の変数の影響を反映し、変数間の自然
連関を確立するために使用される。
【0014】 PCAと密接に関連したものは、要素分析(FA)として知られる技術である
。要素分析とは、基本要素の形状の変数間の相関関係を説明しようとする試みで
ある。基本要素はそれ自体では直接観察できないが、これらの相関関係を作りだ
した基本プロセスの代表だと考えられている。表面的には、要素分析および主成
分分析は非常に似通っている。双方とも共分散行列の固有値分析に依存し、双方
は1組の観察を説明するために変数の線形結合を使用する。しかしながら、PC
Aにおいて関心のある量は、観察される変数自体である。つまり、これらの変数
の組合せは単に、それらの分析および解釈を簡略化するための手段なのである。
逆に、要素分析において、観察される変数はほとんど内因的な有用性はなく、そ
の関心のあるところのものは、基本要素である。
【0015】 残念ながら、PCAおよびFA双方は、乏しい分散変数に起因した、アウトラ
イアー、不足データおよび乏しい相関関係に影響されやすい。より重要なことに
は、これらの技術は入力空間の線形制約条件を仮定しており、高次元、非線形空
間においては十分に機能しない。最後に、これらの方法で手近の問題に向けて最
も重要な特徴を抽出することを保証する方法はまったくなく、そして何らかの決
定的に重要な情報が残されたまま、多くの冗長性の中に埋もれたままである可能
性が常にある。
【0016】 C.非線形マッピング 多次元スケーリング(MDS)、非線形マッピング(NLM)およびコホネン
のネットワークは、特に非線形空間を扱う、代替の次元下げ技術を表す。例えば
それぞれの全体が本明細書中に参考として援用される、Borg、I.、Gro
enen、P.、Modern Multidimensional Scal
ing、Springer−Verlag、New York、1997年、S
ammon、J.W.IEEE Trans. Comp.、1969年および
Kohonen、T.Self−Organizing Maps、Sprin
ger−Verlag、Heidelberg、1996年、を参照されたい。
【0017】 最初の2つは、距離行列から座標を再現するように設計されていた。一方後者
は、強力な自己組織規則を介して達成される試作品製造によるデータ抽出を特徴
とする。最初の2つの技術では、次元下げは、より高い次元表現から計算される
距離行列から低次元座標セットを再構築することによって影響を受ける。一方後
者においては、元の特性ベクトルが、元のデータセットのトポロジーおよび密度
を維持する方法で配列された2次元のセルアレイへとマッピングされる。これら
の次元下げされた表現は、種々のパターン認識および分類タスクのために以後使
用され得る。
【0018】 多次元スケーリング(MDS)は、類似性行列または非類似性行列によって記
載される1組のオブジェクトを視覚化する必要性から生じた。この技術は、心理
学の分野に始まり、Torgersonおよびクラスカルの研究にさかのぼり得
る。双方の全体が本明細書中に参考として援用される、Torgeson、W.
S.、Psychometrika、1952年、およびKruskal、J.
B.Phychometrika、1964年、を参照されたい。
【0019】 問題は、低次元空間における点の構造を、これらの点間の距離に関する情報か
ら構築することである。特に、入力空間{xi、i=1、2、...k}のkデ
ータセット、これらの点間で観察される非類似性の対称行列dij、およびd−次
元表示面
【0020】
【数2】 上の1組のxiの画像と仮定すると、その目的はユークリッド距離δij=||ξi −ξj||が対応する値dijにできるだけ近くなるように近似するような方法で
、その面にξiを置くことである。誤差関数の平方和は、埋め込みの質を決定す
るために使用され得る。最も一般的に使用される基準は、クラスカルのストレス
の、
【0021】
【数3】 である。
【0022】 実際の埋め込みは、反復の方法で実行される。このプロセスは、1)初期座標
の組ξiを生成することで始まり、2)距離δijを計算し、3)クラスカルの線
形回帰またはグットマンのランク像順列(rank−image permut
ation)などの最も急な下降アルゴリズムを使用して、新しい座標の組ξi
を見つけ、そして4)ストレス関数の変化が何らかの予め決められた閾値より低
くなるまで、ステップ2および3を繰り返す。
【0023】 非線形マッピング(NLM)は、1969年にSammonにより提唱された
技術に密接に関連する。例えば、上述の、Sammon、J.W.IEEE T
rans. Comp.、1969年を参照されたい。ちょうどMDSのように
、NLMは、2または3次元プロット上の局所的な幾何学的関係を近似させよう
とする。「正確な」投影は、距離行列が正に符合が定まっている場合のみ可能で
あるが、有意義な投影はこの基準が満たされない場合でさえも取得され得る。M
DSに同じく、プロセスは限定組のサンプル{xi、i=1、2、...、k}
、対称非類似行列dij、および表示面
【0024】
【数4】 上のxiの1組の像で始まり、そしてユークリッド距離δij=||ξi−ξj||
が対応する値dijにできるだけ近くなるように近似するような方法で、その面に
ξiを置くことを試みる。(近似したものでしかできないが)その埋め込みが、
誤差関数Eを最小化することによって反復の方法で実行される。ここで誤差関数
Eは、元のベクトルセットおよび投影されたベクトルセットである、
【0025】
【数5】 の距離行列間の差を測る。 Eは、最も急な下降アルゴリズムを使用して最小化される。初期座標ξiはラン
ダムに、またはPCAなどのその他の投影技術によって決定され、Eq.3を使
用して更新される。 ξpq(m+1)=ξpq(m)−λΔpq(m) 式3 ここで、mは繰り返し数であり、λは学習率パラメータであり、
【0026】
【数6】 である。
【0027】 コホネンのネットワークと比べ非線形マップの利点は、非線形マップはさらに
詳しい個々の詳細を提供し、対話型分析および視覚検査のためにそれらを見事に
役に立たせることである。投影されたマップ上の元のサンプルの距離を維持する
ことによって、MDSおよびNLMは、ユニークで誠実な方法でデータセットの
トポロジーおよび構造関係を表すことができる。ほとんどの場合、投影はいくら
かの情報の損失をもたらすが、NLMおよびMDSによって誘発される歪み量は
他の次元下げ技術と比べると最小のものである。残念ながら、これらの利点にも
かかわらず、すべての公知の非線形マッピングアルゴリズムは、データセットの
サイズとは逆に、2次時間の複雑性およびスケールを提示する。
【0028】 本明細書は、従来の非線形マッピング技術などの非線形マッピング技術と、フ
ィードフォワードニューラルネットワークとを結合し、従来の方法論を使用して
アクセスできたものより数桁大きいデータセットの処理を可能とする新規なアプ
ローチを記載する。下記のパラグラフは、要となるアルゴリズムの詳細の外観を
提供し、組合せ化学およびコンピュータビジョンの分野からの例を使用してこの
アプローチの利点を記載する。
【0029】 D.非線形マッピングネットワーク 本明細書に記載の方法は、確率サンプリングの規則にその基板を置く。すなわ
ち、所定の総数からランダムに選ばれた少数の要素は、総数全体と同じ割合で、
同じ特徴を有する傾向がある。発明者のアプローチは、データの全体構造を反映
する小さなランダムサンプルに多次元スケーリングをし、そして逆伝播アルゴリ
ズムでトレーニングされた多層パーセプトロンを使用して基本となる非線形変換
を「学習する」アルゴリズムを採用することである。例えば、Haykin、S
.Neural Networks:A Comprehensive Fou
ndation. Prentice−Hall、1998年を参照されたい。
【0030】 一旦トレーニングされると、ニューラルネットワークはフィードフォワード方
法にて使用され、最小限の歪みを有する新しく、今だ見ないサンプルと同様、総
数の内残りの要素を投影し得る。nからm次元への非線形投影のために、n入力
およびm出力ユニットを備えた3層ニューラルネットワークが採用される。隠れ
たニューロンの数は、入力空間の次元および構造ならびにトレーニングセットの
サイズに基づいて経験的に決定される。
【0031】 コンピュータビジョン学からのデータセットを使用して、発明者の分析を始め
る。データセットは、2,630個のデータ点から成る人間の顔の3次元画像で
ある。このタスクは、その画像を面に投影し、視覚的に結果を検査することであ
った。オブジェクトは、元の形式および投影された形式の双方で容易に認識され
得、そして線形と非線形次元下げ技術との間の微妙な差を説明する助けとなる。
元のデータが図1Aおよび図1Bのそれぞれ2つの直交する図に示される。
【0032】 まずクラスカルのストレス関数の特徴を検討する。クラスカルのストレス関数
は、元のベクトルセットおよび投影されたベクトルセットの距離行列間のフィッ
ティングの程度を測定する。式1から明らかなように、この関数は、集合体中に
あるアイテムの数の平方へとスケーリングする、数十万〜数億ものアイテムを含
むデータセットを計算することは不可能である。しかしながら、この種の多くの
量と同様、ストレスはよく定義された統計学的特性を有する。データ内の一対の
点間の距離の全体数のほんの一部分のみを調べることによってその量の信頼性の
ある推定値を得ることができる。図2は、顔のデータセットの2次元非線形マッ
プのためのサンプルを得るために使用される、サンプルサイズに対するストレス
依存性を示す。報告された数は、ランダムに1対の点を選択することによって得
られ、元のベクトル空間および投影されたベクトル空間においてそれらの一対の
点間の距離を測定し、式1におけるエラーを累積する。各サンプルサイズ、nに
対して、100のストレス評価が実行され、それぞれがランダムに選択された異
なる組のn個の一対の点間の距離を使用する。得られた分布の平均偏差および標
準偏差は図2にプロットされる。この方法で得られた「確率的な」ストレスがほ
とんど最小のサンプルにとって取るに足りないばらつきを示し、実際、発明者ら
が得る全体の距離の第1000番目を単にサンプリングすることによって、真の
値と小数点第4桁目までを同じくするストレスのように、真のストレスに漸近し
て近づいていくことは明らかである。これは、次元、構造、起原に関わらず、発
明者らが研究したあらゆるデータセットに当てはまることが判明した。
【0033】 図2では、最初の4つの棒およびそれぞれのエラーバーは、100、1,00
0、10,000および100,000個のランダムに選択された距離をそれぞ
れ使用して計算された、NLM投影のストレスの平均標準偏差を表す。最後の2
つの棒は、NLMおよびPC投影の真のストレスをそれぞれ表しており、これら
は3,457,135個のすべての一対の点間の距離を評価することによって計
算される。
【0034】 ここで注意を非線形マップ自体を得る際のサンプリングの効果に向ける。顔デ
ータの2−D PCAおよびNLM投影が、図3Aおよび3Bにそれぞれ示され
る。本研究で使用されたこのデータセットおよびその他のすべてのデータセット
に対し、PCA投影は、データ内のばらつきの多くの原因である最初の2つの主
成分から得られた。一方非線形マップは、発明者らのグループによって開発され
たSammonの元のアルゴリズムの変形例を用いて得られた。例えば、その全
体が本明細書中に参考として援用される「System,Method and
Computer Program Product for Repres
enting Proximity Data in a Multi−Dim
ensional Space」と題する、1998年5月7日に出願された、
米国特許出願第09/073,845号を参照されたい。概して、2つの投影は
非常に似通っているが、1つの重要な局面で異なっている。すなわち、主要構成
要素の投影において、1つの次元が完全に抑えられており、人間の輪郭のすべて
の特徴が実質的に失われている(図3Aを参照されたい)。対照的に、非線形マ
ップは、オブジェクト全体の重要で特有な特徴を結合する「混成」図を表す。一
般的な形状では依然正面図が優位を誇るのに対し、頭蓋骨後頭部の検出可能な隆
起(図3B)と同様、鼻、唇、あごなどの顔の輪郭の主な要素を明らかに認識し
得る。歪みの観点から、NLM投影に対する0.152のクラスカルのストレス
、およびPCA投影に対する0.218のクラスカルのストレスによって明らか
にされるように、NLMは、距離行列を維持する点でPCAよりよりよい仕事を
行う。
【0035】 距離関係を維持する線形方法の失敗は、空間の真の次元が増えるに従い、より
目立ったものになる。例えば、単位(超)立方体に均一に分布された1,000
のデータ点のPCAおよびNLM投影のストレスを考える。3から10次元の超
立方体の結果は図4に示される。NLMが高次元空間においてその効率性を維持
すると想定される一方、PCAの性能は急激に悪化し、その方法は2、3次元を
超えると実質的に意味のないものとなる。
【0036】 本発明は、解析関数の形で、古典的な反復アルゴリズムまたはその均等物によ
って生成される1つ以上の非線形変換を捕捉、または決定する。このような関係
の抽出に必要な点の数を決定するため、多層パーセプトロンを、非線形マッピン
グデバイスとして用いて、100〜1,600個の点の範囲のいくつかのサンプ
ルサイズを用いて、シミュレーションの拡張セットを実行する。実験は、以下の
工程からなる。各サンプルサイズnについて、100個の異なるランダムなn個
の点のサブセットが、元の3次元オブジェクトから抽出され、「古典的な」非線
形マッピングアルゴリズムを用いて、独立してマッピングされる。その後、NL
Mから得られた3D入力および2D出力座標が用いられて、論理活性化機能を有
する3個の入力ニューロン、10個の隠れたニューロン、および2個の出力ニュ
ーロンを有する、100個の別個のニューラルネットワークがトレーニングされ
る。全てのネットワークは、10,000エポックの間トレーニングされ、0.
5から0.01に学習率が線形的に低減し、運動量は0.8である。ネットワー
クがトレーニングされた後、2,630個の点のデータセット全体が、それぞれ
に対して提示され、2D座標の100個の新たなセットが得られる。上述したよ
うに、この手順は、それぞれ、100、200、400、800、および1,6
00個の点を含む5個の異なるサンプルサイズについて、繰り返される。表記を
簡略化するため、これらの100個のサブセットのそれぞれと、関連する全ての
データとを別個の「実行」と呼ぶ。
【0037】 この実験の結果を図5にまとめる。右の2つの棒は、それぞれ、完全なNLM
およびPC投影のストレスを表し、ニューラル近似の質を測定するための基準点
として機能を果たす。左にある5対の棒およびそれぞれのエラーバーは、特定の
サンプルサイズの各々について、トレーニングセットのNLM投影(ぬりつぶし
)、および全体的なデータセットのニューラル投影(斜線)のストレスの平均偏
差および標準偏差を表す。これらの結果は、我々の直感および予想と、完全に一
致する。まず、非線形マップの平均ストレスは、漸近的に、点の数と共に増大す
る。例えば、400個の点(全体の15%)の平均ストレスは、完全なNLMの
ストレスに対して0.001単位内であり、標準偏差は、0.006に過ぎない
。より重要なことに、対応するニューラル投影のストレスは、同じ漸近性の、類
似するが反対の傾向を示す。予想されるように、ニューラルネットワークをトレ
ーニングするために用いられる情報がより多くなると、より予測的になり、潜在
的な真の変換をより良く近似するようになる。興味深いことに、たった100個
の点でも、我々が試みた全ての単一のセットは、PCAで得られた近似より、よ
り良いニューラル近似が得られた。しかし、最も重大な観察結果は、ニューラル
ストレスの標準偏差が非常に小さく、許容誤差の限界内に十分に収まることであ
る。
【0038】 図5に、ストレスを、顔データセットのサンプルサイズの関数として示す。2
本の棒、およびそれぞれのエラーバーは、5個の異なるサンプルサイズについて
、100回の実行にわたる、トレーニングセットのNLM投影(ぬりつぶし)、
および全体的なデータセットのニューラル投影(斜線)のストレスの平均偏差お
よび標準偏差を表す。それぞれの実行は、トレーニングセットを含む点の異なる
セットを表す。最後の2つの棒は、それぞれ、全てのデータセットのNLM投影
およびPC投影のストレスを表す。
【0039】 構造のコンテキストにおいて、ストレス値が真に意味することをより良く理解
するため、図3Cに、「平均」400個の点のサンプルでトレーニングされるニ
ューラルネットワークから得られ、0.158のストレスを有する非線形マップ
を示す。マップは、NLMによって得られるマップと、より「標準的」な形では
あるが、実質的に同一であり、前面および背面による顔つきを混合したものと同
じ特性を表す。実際に、事前のデータ解析の目的に関しては、2つのイメージは
、実質的に識別不可能である。
【0040】 最後に、異なる視点からひずみを見る。図6に、ランダムに1,000対の点
を選択し、元の3−D空間における対応する距離対して固有の2−D空間におけ
る距離をプロットすることによって得られる3つの分散プロットを示す。図6A
、6B、および6Cは、それぞれ、PCA投影、NLM投影、およびNN投影に
対応する。PCAプロット(図6A)において、全ての距離は、変換による次元
および線形性の低下に一致した対角線の下にある。しかし、ひずみは、プロット
の左側部分の下側でより顕著であり、短い対による距離の保存がずっと悪いこと
を意味する。ひずみが非線形マップにおいても明白であるにも関わらず、誤差は
より均等に分布し得るように見え、スペクトルの下側の端における距離には、偏
りがより少ない。通常、異なる対象が、充分に離れているように見える限り、互
いに密接に関係する対象の近似性を保存することにより関心が集まるので、これ
は重要な違いである。もう1度いうと、NLMおよびNNプロットは、実質的に
同一であり、ニューラル近似の質に関する上記の記述を裏付ける。
【0041】 図6に、顔データセットの実際の距離対投影の距離を示す。
【0042】 (E.組合せ化学) 顔データは、有用なテストケースを提供するが、この方法が意図されているデ
ータセットと比較すると、サイズおよび次元の両方の面において、見劣りする。
我々にとって特に関心のある領域であり、大きいデータセットが普及している領
域は、組合せ化学である。近年、薬学および化学産業は、数百から数十万、場合
によっては数百万もの分子を含む大きな化学ライブラリの同時合成および生物学
的な評価を可能にする、新たな一組の技術を採り入れてきた。例えば、Thom
pson,L.A.、Ellman,J.A.、Chem.Rev.(1996
年)を参照のこと。この文献は、その全文を通じて、本明細書中で参考として援
用される。また、米国特許第5,463,564号を参照のこと。この特許は、
その全文を通じて、本明細書中で参考として援用される。
【0043】 組合せライブラリは、合成原理の所定のセットの構成単位への系統的な適用か
ら得られる、化学化合物のコレクションである。この同じ原理が、生物界の巨大
な多様性のもとであり、生物界のプロテオームは、ペプチド結合を介して無数の
組合せで互いに接続された20個のアミノ酸に過ぎないものからなる。組合せラ
イブラリの設計および解析は、現代の薬物設計に欠かせない部分となってきてお
り、本当に驚異的なサイズのデータセットを含む。例えば、以下の文献を参照の
こと。
【0044】 Agrafiotis,D.K. Diversity of Chemic
al Libraries、The Encyclopedia of Com
putational Chemistry、Schleyer,P.v.R.
、Allinger,N.L.、Clark,T.、Gasteiger,J.
、Kollman,P.A.、Schaefer III,H. F.、Sch
reiner,P.R.編、John Wiley & Sons、Chich
ester、1998、Vol.1、742−761 Agrafiotis,D.A.、Myslik,J.C.、Salemme
,F.R.、Molecular Diversity、1998、4(1)、
1−22、Advances in Diversity Profiling
and Combinatorial Series Design、Ann
ual Reports in Combinatorial Chemist
ry and Molecular Diersity、Pavia,M.、M
oos,W.編、Kluwer、1999、2、71−92 上記の文献は、両方とも、全文を通じて、本明細書中で参考として援用される。
【0045】 ライブラリ設計における非線形マッピングが、個々の細部を失うことなく、直
感的に複雑な関係を伝達する、並ぶ物のない能力のおかげで、重要であることを
、我々のグループが初めて実証した。例えば、Agrafiotis,D.K.
Stochastic algorithms for maximizin
g molecular、J.Chem.Info.Comput.Sci.(
1997年)を参照のこと。この文献は、その全文を通じて、本明細書中で参考
として援用される。この研究は、各々が一列に並べられた配列からなる339ア
ミノ酸を特性ベクターとして用い、390の複数の整列したタンパク質キナーゼ
ドメインの解析における、その以前の成功した適用例に続いている。例えば、A
grafiotis,D.K.Protein Science(1997年)
を参照のこと。この文献は、その全文を通じて、本明細書中で参考として援用さ
れる。実際に、非線形マップが距離マトリクスの不可欠な特徴を得ることができ
、これらのタンパク質の公知の基質特異性に一致したクラスターを表すというこ
とを見い出した。
【0046】 このセクションにおける残りの段落に、2つの組合せライブラリの多次元スケ
ーリングのためのニューラルネットワークの使用を記載する。第1の組合せライ
ブラリは、もともと、Gasteigerによって開発され、ライブラリ設計の
視覚化が重要であることを最初に実証したものの代表である。例えば、Sado
wski,J.、Wagener,M.、Gasteiger,J.、Ange
w.Chem.Int.Ed.Engl.(1996年)を参照のこと。この文
献は、その全文を通じて、本明細書中で参考として援用される。データセットは
、3つの固い中央の構造(scaffold)を19のLアミノ酸のセットで固
化することによって得られる3つのサブライブラリからなる。これらの構造は、
4つの酸塩化物基によって機能化される、クバン、アダマンタン、およびジメチ
ルキサンテンコアに基づく(図7)。(図7Aは、キサンテン、図7Bは、クバ
ン、図7Cは、アダマンタンを表す。)対称性に起因して、この式からは、合計
で、87,723種類の独自の化合物、あるいは、それぞれ、11,191種類
のクバン誘導体、11,191種類のアダマンタン誘導体、および65,341
種類のキサンテン誘導体が得られる。
【0047】 各化合物は、12次元空間自動相関ベクターによって記載される。12次元空
間自動相関ベクターは、分子表面のファンデルワースの電位の分布を表す。この
ベクターは、分子の表面上に均等に分布された点セット上の電位(MEP)を計
算し、これらの点間のペア毎の距離の全てを12個の所定の間隔に分割し、式5
に従って、各間隔におけるペア全体にわたってMEP値を合計することによって
得られる。
【0048】
【数7】 ただし、piおよびpjは、i番目およびj番目の表面点でのMEPの値であり、
ijは、これらの点間の距離であり、dlおよびduは、自動相関間隔の上限およ
び下限であり、Lは、[dl,du]における距離の総数である。解析は、経験的
な手法から得られる部分的な原子の電荷を用いる、単一の低エネルギー構造およ
び単純なクーロンアプローチに基づく。例えば、Gasteiger, J.
Marsili, M. Tetrahedron、1980、36、3219
−3228、およびAngew.Chem.Int.Ed.Engl.、198
5、24、687−689を参照のこと。これらの文献は、その全文を通じて、
本明細書中で参考として援用される。Gasteigerのオリジナルの出版物
においては、これらの自動相関ベクターは、コホネンのネットワークをトレーニ
ングするために用いられていた。コホネンのネットワークは、キサンテンを、構
造の3次元ジオメトリおよび4つのアミノ酸R基の相対的な配置と矛盾しないよ
うに、クバンおよびアダマンタン誘導体から分離することができた。
【0049】 このデータセットは、以前の例において用いられた解析と同じタイプの解析に
かけられる。特に、100回の独立した実行が、5個の異なるサンプルサイズ(
100、200、400、800および1600個の点)で実行され、それぞれ
が、トレーニングセットを含むランダムな点の異なるセットを含む。ネットワー
クは、12個の入力ユニット、10個の隠れたユニット、および2個の出力ユニ
ットからなり、合計で、140個の自由に調節可能なシナプス量を有する。同様
のトレーニングパラメータが用いられるが、それぞれ、100および200個の
点を含むサンプルについて、トレーニングエポックが10,000に限定され、
400、800、および1,600個の点を含むサンプルについて、5,000
、2,000および1,000に限定される点が異なる。各サンプルサイズにつ
いて、ストレス分布の平均偏差および標準偏差を、完全なNLMおよびPCA投
影のストレスと共に、図8に示す。そのグラフは、顔データの解析において確立
された傾向と同様の傾向を示す。ランダムサンプルの平均ストレスは、サンプル
サイズと共に増大する。サンプル自体の組成は、全体の比率をよりはっきりと表
すようになるにつれて、重要度が低くなる。最も重要な違いは、小さいトレーニ
ングセットを有するネットワークのかなり低い性能である。実際、100個の点
でトレーニングされたネットワークは、平均すると、PCAより僅かに良好に動
作するだけである。これは、PCAの平均ストレス0.221と比較して、平均
ストレスが、0.209であることから明らかである。2つの理由が、この問題
点の原因として挙げられる。第1に、トレーニングセットは、充分に表していな
いからであり、第2に、ネットワークが、100個のトレーニングケースに対し
てのみ140個のシナプス量があるので、オーバーフィッティングの影響を非常
に受けやすいからである。オーバーフィッティングは、トレーニングケースの数
が増加するにつれて要因とはならなくなり、実際に、平均ストレスは、400個
の点の場合、0.167±0.005まで、1,600個の点の場合、0.16
0±0.002まで下がる。これらのサンプルは、それぞれ、全体の収集の0.
45%および1.8%を表す。
【0050】 図8に、Gasteigerデータセットについてのサンプルサイズ関数とし
て、ストレスを表す。2本の棒、およびそれらのそれぞれのエラーバーは、5個
の異なるサンプルサイズの100回の実行にわたる、トレーニングセットのNL
M投影(ぬりつぶし)、およびデータセット全体のNN投影(斜線)のストレス
の平均偏差および標準偏差を表す。それぞれの実行は、トレーニングセットを含
む点の異なるセットを表す。最後の2つの棒は、それぞれ、データセット全体の
NLM投影およびPC投影のストレスを表す。
【0051】 3つのライブラリのPCA、NLMおよびニューラルマップを、図9に示す。
PCA、NLMおよびニューラルマップは、構造に従って、色分けされている(
キサンテンは青、クバンは緑、アダマンタンは赤)。図9Cのニューラルマップ
は、800個の点でトレーニングされ、0.162のストレスを有するネットワ
ークから得られる。再度、NLMおよびNNマップは、実質的に識別できず、両
方とも、オリジナルの自己組織化マップにおいて観察された平面系と立体系との
間のはっきりした分離を反映する。さらに、非線形マップは、コホネンネットワ
ークによって捕らえられない、クバンライブラリとアダマンタンライブラリとの
間のより微妙な差を明らかにする。しかし、Gasteiger記述子セットは
、相当に冗長である。主な成分解析によって、データのばらつきの99%が7P
C(表1)だけで回復できることが明らかになっている。最初の2つのPCだけ
で、ばらつきの80%がカバーされる。このことは、主な成分投影の比較的低い
ストレス(0.22)によって説明される。この低い有効な次元は、PCAマッ
プ自体(図9A)において反映される。図9Aの全体的な構造が、非線形投影の
構造と、劇的には異ならない。実際に、Gasteigerデータセットは、数
値的には、より綿密な非線形方法の使用に対して、少なくとも予備的なデータ解
析について、より優勢なケースを構築しない。しかし、以前に指摘したように、
これらの方法の間の違いは、空間の次元が増大するにつれて、より明らかになる
。最後の例は、かなり高い次元の第2の組合せデータセットを用いて、この点を
実証する。
【0052】 データセットは、Cramerらの研究から取った、3つの成分の組合せライ
ブラリである。例えば、Cramer,R.D、Patterson,D.E.
、Clark,R.D.、Soltanshahi,F.、Lawless,M
.S.、J.Chem.Info.Comput.Sci.(1998年)を参
照のこと。この文献は、その全文を通じて、本明細書中で参考として援用される
。2つの第1アミンまたは第2アミンを含むジアミン分子は、中央構造として役
割を果たし、還元型アニメーションの影響を受けやすい、アシル化剤、反応性ハ
ロゲン化物、または、カルボニル基を用いて、両方側で変性される。このライブ
ラリを生成するために必要な一連の合成は、アミンのうちの1つの選択的保護、
および第1の側鎖の導入、それに続く、脱保護および第2の側鎖の導入を含む(
図10)。オリジナルの著者が述べているように、市販されている試薬のみ(1
996 Available Chemical Directory、MDL
Information Systems,Inc.(140 Catali
na Street, San Leandro, CA 94577)により
市販、タイプHNXNHの試薬1750種類、タイプRXの試薬26,700種
類を有する)の使用によって、1012を越える可能性のある生成物(全世界で蓄
積されている化学的な資料の50,000倍を越える!)が産出され得る。
【0053】 この研究の目的が、非線形マッピングアルゴリズムを有効にすることであるの
で、我々は、42種類の市販のジアミン、ならびに37種類の酸塩化物およびア
ルキル化剤を用いる、より小さい57,498種類の化合物のライブラリを生成
した。各化合物は、分子グラフの本質的な特徴を捉えるように設計された117
種類の位相的指標によって記載される。分子グラフは、続いて、データの全体的
なばらつきの原因の99%を占める、16種類の直交主成分に低減された。これ
らの主成分は、上記の非線形次元低減技術への入力として用いられる。PCA事
前処理工程は、グラフ理論記述子において典型的なデータの重複および冗長をな
くすために必要である。
【0054】 結果を図11にまとめる。ネットワークは、16個の入力ニューロン、10
個の隠れたニューロン、および2個の出力ニューロン(すなわち、合計で180
このシナプス量)を有し、それぞれ、100および200個の点を含むトレーニ
ングセットについて、10,000エポックの間、トレーニングされ、400、
800、および1,600個の点を含むトレーニングセットについて、5,00
0、2,000、および1,000エポックの間、トレーニングされる。驚くべ
きことに、ネットワークは、1つのトレーニングケース当たりほぼ2つのシナプ
スがある、100個の点(ライブラリ全体の0.2%未満)のトレーニングセッ
トを用いる場合にさえ、オーバーフィッティングをしない。実際、我々がトレー
ニングしたネットワークは全て、PCAよりも大幅に性能が優れている。全体の
傾向として、2つの以前の例において観察された傾向と異ならない。サンプルサ
イズが増大すれば、より良好な近似が得られ、異なるサンプルにわたって、ばら
つきが低減する。400個の点(ライブラリ全体の0.7%)のランダムなサン
プルによって、0.193±0.006の平均ストレスを有するニューラルマッ
プが得られる。サンプルサイズが1,600個の点(ライブラリ全体の2.8%
)まで増加すると、ストレスが、実際のNLMストレス0.169近傍の0.1
83±0.002まで向上する。
【0055】 図11に、ストレスを、ジアミンデータセットのサンプルサイズの関数として
示す。2本の棒およびそれぞれのエラーバーは、5つの異なるサンプルサイズに
ついて、100回の実行にわたる、トレーニングセットのNLM投影(ぬりつぶ
し)、および全体的なデータセットのNN投影(斜線)のストレスの平均偏差お
よび標準偏差を表す。それぞれの実行は、トレーニングセットを含む点の異なる
セットを表す。最後の2つの棒は、それぞれ、データセット全体のNLM投影お
よびPC投影のストレスを表す。
【0056】 得られるマップ(図12)(図12A、ジアミンデータセット、12B、NL
M投影、12C、NN投影、400個の点のトレーニングセット)は、従来のマ
ッピングアルゴリズムとニューラル非線形マッピングアルゴリズムとの間に近い
一致を確認し、それらと、0.332のストレスを有するPCAとの間の実質的
な違いを確認する。表1の主成分のばらつきを見ることによって(図23)、こ
の場合において、なぜPCAがこのように不十分な方法なのかが明らかになる。
第1の2PCは、データの全体のばらつきの69%の原因でしかなく、Gast
eigerデータセットにおける第1の2PCによるばらつきより10%少なく
、顔データセットのそれぞれの成分におけるばらつきより、14%少ない。この
不明の「残余の」ばらつきは、主成分マップにおいて、大幅なひずみになり、ジ
アミンライブラリがデータの真の構造のヒントを殆ど提供しない場合、2つの不
均等に占められたクラスタの存在によってのみ証明される。最後に、距離プロッ
ト(図13)(ジアミンデータセット、実際の距離対投影された距離;13A、
PC投影;13B、NLM投影;13C、NN投影;400個の点データセット
)は、短距離が、PCAによってより激しくひずむことを示す。この問題点は、
顔データセット(図6)において、より少ない程度であった。反対に、非線形マ
ッピングは、全体にわたってより均一に誤差を分散し、それらの間にはわずかな
差しかない。
【0057】 上記の結果は、広範囲にわたる3つの全く違うデータセットの解析に基づくが
、この解析は、全てを網羅するものではない。2つの重要な観察が行われる必要
がある。第1に、特定のデータセットのそれぞれについて、ネットワークパラメ
ータを最適化するための試みがなされていない。この明細書における主な焦点は
、サンプリングに当てられており、ネットワークの位相がサンプルサイズの関数
として変化しないことを比較することを可能にすることである。トレーニングセ
ットは、サイズが大幅に異なり、オーバーフィッティングは、いくつかの結果、
特に、より小さいサンプルから得られる結果に寄与する要因である。第2に、特
定のサンプルサイズのそれぞれについて、100回の実行が行われるが、ネット
ワークは、特定のサンプルサイズのそれぞれについて、1度しかトレーニングさ
れない。結果として、観察されたストレスのばらつきの一部は、シナプス量空間
における局所的な最低値から離れられない、不十分にしか最適化されていないネ
ットワークに起因し得る。事前の計算によって、実際には、最適化の実行ごとに
ばらつきがあり、何回か最適化を行い、特定のトレーニングセットのそれぞれに
ついて最適なネットワークを選択する場合に、結果が大幅に良くなることが確認
された。大幅な向上は、トレーニングエポックの数を増加させること、または、
学習スケジュールおよび運動量のような他のトレーニングパラメータを微調整す
ることによっても達成され得、特に大きいサンプルについて、隠れたニューロン
の数を増加させることによっても達成され得る。ニューラルネットワークが、非
線形マップを「学習」するために用いられ得る多くの異なる非線形デバイスのう
ちの1つであり、これらのデバイスの構造は、任意の複合的な形態を取り得るこ
とも述べなければならない。この方法の有効な応用は、複数のサブネットワーク
の使用を含み、それぞれのサブネットワークが、特徴空間の特定のドメイン専用
である。最後に、これらの例は全て、2次元投影に基づくが、提案されるアーキ
テクチャは、汎用性であり、任意の所望の次元の制約された表面を抽出するため
に用いられ得る。
【0058】 (II.プロセスにおけるインプリメンテーション) 次に、本発明が、ハードウェア、ソフトウェア、ファームウェアまたはこれら
の任意の組み合わせを用いる装置によって手動で、または自動で(あるいはこれ
らを組み合わせて)実行され得る一連の工程について説明される。図14は、本
発明をインプリメントするプロセスフローチャート1402を示す。
【0059】 (A.点サンプルの選択) プロセスは、n次元のデータセットから点サンプルを選択することを含む工程
1404から始まる。n次元のデータセットを本明細書中において多次元データ
セットと区別なく呼ぶ。
【0060】 多次元データセットは、例えば、1組の性質によって特徴付けられた化合物の
ような種々のタイプの多次元データのうち任意のデータを含み得る。性質は、化
学的性質、物理的性質、生物学的性質、電気的性質、コンピュータ化された性質
およびこれらの性質の組み合わせを含み得る。多次元データセットはまた、ある
いは、1組の性質によって特徴付けられたタンパク質配列、および/または1組
の性質によって特徴付けられた遺伝子配列を含み得る。典型的には、多次元デー
タは、数値フィールドを有するレコードのデータベースに格納される。
【0061】 工程1404は、種々の方法のうち任意の方法で実行され得る。例えば、点サ
ンプルは、ランダムに、または何らかの性質あるいはそれらの点に関連する性質
に従って、選択され得る。点サンプルは、多次元データセットの特徴を反映する
ように、または多次元データセットのサブセットの特徴を反映するように選択さ
れ得る。
【0062】 (B.点サンプルの非線形マッピング) 工程1406は、n次元の点サンプルをm次元空間に非線形マッピングするこ
とを含む。ここで、nおよびmは、nがmよりも大きな値を満たす限り任意の値
を取り得る。工程1406はまた、低次元化とも呼ばれる。これは、工程140
6によって、n次元の点サンプルに関連する次元数をスケーリングまたは低減す
るためである。点サンプルは、1998年5月7日に出願された「System
, Method and Computer Program Produc
t for Representing Proximity Data in
Multi−Dimensional Space」と称される米国特許出願
第09/073,845号に開示される技術(但しこれに限定されないが)を含
む種々の適切な従来のマッピング技術、または開発途中にあるマッピング技術、
あるいはこれらの組み合わせのうち任意の技術を用いて非線形マッピングされる
【0063】 (C.1つ以上の非線形関数の決定) 工程1408は、マッピングされた点サンプルに基づいて1つ以上の非線形関
数を決定することを含む。すなわち、工程1408は、工程1404からのn次
元の点サンプルを工程1406から対応するm次元の点に相関させる1つ以上の
非線形関数を決定する。工程1408は、多層ニューラルネットワークおよび他
の検索および/または最適化技術(但しこれらに限定されないが)のような自己
学習または組織化技術を含む種々の技術のうち任意の技術を用いて実行され得る
。最適化技術には、モンテカルロ/ランダムサンプリング、グリーディ検索アル
ゴリズム、シミュレーションアニール、進化プログラミング、遺伝アルゴリズム
、遺伝プログラミング、グラディエント最小化法およびこれらの組み合わせを含
むが、これらの技術に限定されない。
【0064】 好ましくは、工程1408の1つ以上の非線形関数は、線形および/または非
線形の様態で組み合わされた線形および/または非線形関数の基本セットから導
出される。1実施形態において、線形および/または非線形関数の基本セットは
、分析関数、ルックアップテーブル、ソフトウェアモジュールおよび/またはサ
ブルーチン、ハードウェアおよびこれらの組み合わせを含み得るが、これらに限
定されない。
【0065】 (D.非線形関数を用いたさらなる点のマッピング) 工程1410は、工程1408で決定された1つ以上の非線形関数を用いてさ
らなる点をマッピングすることを含む。すなわち、次に1つ以上の非線形関数を
用いて、さらなるn次元の点をm次元空間にマッピングする。さらなる点は、も
とのn次元のデータセットの残りの要素および/またはもとのn次元のデータセ
ットに含まれない新しい以前に見られなかった点を含み得る。
【0066】 (III.システムにおけるインプリメンテーション) 本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み
合わせでインプリメントされ得る。図15Aは、本発明をインプリメントするシ
ステム1502に含まれ得るモジュールおよびデータフローの例示的なブロック
図を示す。図15Aのブロック図は、本発明の理解を助けることを目的としてい
る。本発明は、図15Aのブロック図に示される例示的な実施形態に限定されな
い。
【0067】 システム1502は、多次元格納またはデータ生成デバイス1504、サンプ
ル点選択モジュール1506、非線形マッピングモジュール1508、非線形関
数モジュール1510および出力デバイス1512を含む。出力デバイス151
2は、例えば、ディスプレイ、プリンタ、格納デバイス等であり得る。
【0068】 動作において、多次元格納またはデータ生成デバイス1504は、n次元のデ
ータセット1505をサンプル点選択モジュール1506に提供する。
【0069】 サンプル点選択モジュール1506は、工程1404において説明したように
、n次元のデータセット1505から点サンプル1505を選択する。点サンプ
ル1505は、非線形マッピングモジュール1508に提供される。
【0070】 非線形マッピングモジュール1508は、工程1406において説明したよう
に、n次元のサンプル点1507をm次元空間にマッピングする。非線形マッピ
ングモジュール1508は、m次元のサンプル点1509を非線形関数モジュー
ル1510に提供する。
【0071】 非線形関数モジュール1510は、m次元のサンプル点1509およびn次元
の点サンプル1507を受け取り、工程1408において説明したように、2つ
の間の1つ以上の関係を規定する1つ以上の非線形関数を決定する。m次元の点
1509は、任意で、表示、印刷、格納等のための出力デバイス1512に提供
される。
【0072】 非線形関数モジュール1510は、1つ以上の非線形関数を決定した後、非線
形関数モジュール1510は、工程1410において説明したように、フィード
フォワードの様態で動作して、さらなるn次元の点1513をm次元空間にマッ
ピングする。さらなるn次元の点1513は、n次元のデータセット1505の
残りの要素および/または他のソース1514からの新しい以前に見られなかっ
た点を含み得る。その結果をここではm次元のさらなる点1511として示す。
この結果は、任意で、出力デバイス1512に提供される。
【0073】 フィードフォワードモード動作において、非線形関数モジュール1510は、
非線形マッピングモジュール1508を用いることなくさらなるn次元の点15
13を多次元マッピングまたはスケーリングする。このことは、多くのさらなる
点が、非線形関数モジュールのうちの1つ以上の非線形関数によって効率的に処
理され得ることから重要である。一方、非線形マッピングモジュールに用いられ
る従来の非線形マッピング技術では、多くの多次元データセットを十分にスケー
リングしない。
【0074】 非線形関数モジュール1510は、ハードウェア、ソフトウェア、ファームウ
ェアまたはこれらの組み合わせを含み得る。図15Bは、非線形関数決定モジュ
ール1518および非線形関数インプリメンテーションモジュール1520を含
む非線形関数モジュール1510の例示的なインプリメンテーションを示す。
【0075】 非線形関数決定モジュール1518は、工程1408において説明したように
、1つ以上の非線形関数1519を決定する。好ましくは、非線形関数決定モジ
ュール1518は、線形および/または非線形の様態で組み合わされた線形およ
び/または非線形関数の基本セットから1つ以上の非線形関数を決定または導出
する。1実施形態において、線形および/または非線形関数の基本セットは、分
析関数、ルックアップテーブル、ソフトウェアモジュールおよび/またはサブル
ーチン、ハードウェアおよびこれらの組み合わせを含み得るが、これらに限定さ
れない。
【0076】 1実施形態において、非線形関数決定モジュール1518は、多層ニューラル
ネットワークおよび他の検索および/または最適化技術(但しこれらに限定され
ないが)のような自己学習または組織化技術を含む種々の技術のうち任意の技術
を用いて1つ以上の非線形関数を決定または導出する。最適化技術には、モンテ
カルロ/ランダムサンプリング、グリーディ検索アルゴリズム、シミュレーショ
ンアニール、進化プログラミング、遺伝アルゴリズム、遺伝プログラミング、グ
ラディエント最小化法およびこれらの組み合わせを含むが、これらの技術に限定
されない。
【0077】 1つ以上の非線形関数1519は、非線形関数インプリメンテーションモジュ
ール1520に提供される。非線形関数インプリメンテーションモジュール15
20は、工程1410で説明したように、これら1つ以上の非線形関数1519
をフィードフォワード様態で用いて、さらなるn次元の点1513をマッピング
する。
【0078】 非線形関数モジュール1510が、多層ニューラルネットワークのような自己
学習または訓練システムを含む場合、非線形関数決定モジュール1518は自己
学習システムの訓練を表し、非線形関数インプリメンテーションモジュール15
20は、フィードフォワード(予測的な)様態で自己学習システムの動作を表す
【0079】 (IV.発明のさらなる特性) 以下に、本発明のさらなる特性および任意のインプリメンテーション拡張が説
明される。
【0080】 (A.複数の非線形関数) 1実施形態において、n次元の点に対する複数の非線形関数を決定するまたは
導く。1実施形態において、点の異なるサブセットに対する非線形関数を決定す
る。1実施形態において、点の1つ以上のサブセットが重複する。別の実施形態
において、点の複数のサブセットは相互に排他的である。
【0081】 図16は、複数の非線形関数を決定し使用し、それによって多次元の点を非線
形マッピングする例示的なプロセスを示すプロセスフローチャート1602であ
る。プロセスは、前述のように工程1404および1406で始まる。工程14
06は、従来の、または古典的な非線形マッピング法、あるいは新しいおよび/
またはまだ未決定の方法により実行される。
【0082】 プロセスは、プロセスフローチャート1602において工程1610〜161
6として示される工程1408に進む。工程1610は、点の第1のサブセット
をサンプル点から選択する工程を包含する。工程1612は、点の第1のサブセ
ットに対する1つ以上の非線形関数の第1のセットを決定する工程を包含する。
工程1614は、点の第2のサブセットをサンプル点から選択する工程を包含す
る。工程1616は、点の第2のサブセットに対する1つ以上の非線形関数の第
2のサブセットを決定する工程を包含する。点のさらなるサブセットがサンプル
点から選択され得、点のさらなるサブセットに対する1つ以上の非線形関数のさ
らなるセットが決定され得、導かれ得る。1実施形態において、2つ以上のサブ
セットが重なる。別の実施形態において、点のサブセットは、相互に互いに排他
的である。
【0083】 工程1410は、フローチャート1602において工程1618として示され
る。工程1618は、1つ以上の非線形関数を使用し(すなわち、フィードフォ
ーワード、または予測的な様式(feed−forward,or predi
ctive manner)における非線形関数を演算し)、それによってさら
なるn次元の点をマッピングする工程を包含する。これは、工程1612および
1616において導かれる1つ以上の非線形関数にさらなる多次元の点を向ける
工程を包含する。これは、様々な方法において実行され得る。
【0084】 例示的な実施形態において、工程1612および1616で導かれた1つ以上
の非線形関数のセットそれぞれは、n次元空間の点または領域に関連付けられる
。さらなるn次元の点が非線形にマッピングされる場合、非線形関数のセットの
1つが選択され、それにより非線形関数のセットに関連付けられた点または領域
とのさらなるn次元の点の近接さ(proximity)に基づいてマッピング
を実行する。1実施形態において、さらなる点は、「最近接」の非線形関数(単
数または複数)によってマッピングされる。
【0085】 このプロセスは、図20Aのプロセスフローチャートにおいて示される。図1
7は、プロセスをインプリメンテーションする例示的な非線形関数モジュール1
701を示す。非線形関数モジュール1701は、図15Aの非線形関数モジュ
ール1510の例示的なインプリメンテーションである。図17において、非線
形関数モジュール1701は、工程1612および1616において導かれる非
線形関数の複数のセットを表す複数のサブネット1702a〜1702nを含む
。各サブネット1702は、以前に説明されたように任意の非線形技術(non
−linear technique)または非線形技術の組み合せを含んでも
よいし、使用してもよい。
【0086】 非線形関数モジュール1701はまた、さらなるn次元の点1513を1つ以
上のサブネット1702に向けるディスパッチャ1704を含む。選択されるサ
ブネット1702は、さらなるn次元の点1513をn次元からm次元まで非線
形的にマッピングする。
【0087】 ディスパッチャ1704は、1つ以上のサブネット1702を任意の適切な様
式で選択する。1実施形態において、各サブネット1702は、n次元空間の異
なる点または領域に関連付けられる。ディスパッチャ1704は、サブネット1
702に関連付けられた点または領域とさらなる点との近接さに基づいて1つ以
上のサブネット1702を選択する。通常、さらなる点1513に「最近接」す
るサブネット1702(単数または複数)を選択し、さらなる点を非線形的にマ
ッピングする。
【0088】 別の実施形態において、サブネット1702は、n次元空間ではなくm次元空
間の点または領域に関連付けられる。ディスパッチャ1704は、サブネット1
702に関連付けられたm次元の点または領域と、さらなる点1513の近似的
なm次元座標との近接さに基づき、さらなるn次元の点1513を1つ以上のサ
ブネット1702に向ける。
【0089】 このプロセスは、図20Bのプロセスフローチャートに示される。図19は、
マスターネット1902を含む例示的な非線形関数モジュール1701を示す。
非線形関数モジュール1701は、さらなるn次元の点1513に対するm次元
座標、または点1904を推定する。マスターネット1902は、好適には、工
程1406のトレーニング段階(phase)の間に決定されまたは導かれ得る
1つ以上の非線形関数を十分に使用する。例えば、マスターネット1902は、
サンプル点からまたはサンプル点のサブサンプルからトレーニングされ得る。
【0090】 ディスパッチャ1704は、サブネット1702に関連付けられたm次元の点
または領域と推定されたm次元座標1904との近接さに基づき、さらなるn次
元の点1513を1つ以上のサブネット1702に向ける。
【0091】 ディスパッチャ1704は、図17および19に示されるように、複数のサブ
ネット1702を選択し、それによってさらなる点1513を非線形マッピング
する場合、例えば、複数の選択されたサブネット1702の出力が適切な様式で
組み合わされ、それによってm次元座標、または点1511を生成する。
【0092】 図21Aおよび21Bは、複数のサブネット1702の出力を組み合わせる例
示的なプロセスフローチャートを示す。図18は、複数の選択されたサブネット
1702の出力を組み合わせる例示的なインプリメンテーションを示す。図18
では、非線形関数モジュール1701は、複数の選択されたサブネット1702
からの出力をさらなる点1513に対して積算する(accumulates)
アキュムレータ1802を含む。アキュムレータは、適切な様式で複数のサブネ
ット1702からの出力を組み合せ、m次元の点1511を出力する。1実施形
態において、アキュムレータ1802は、サブネット1702に関連付けられた
点または領域とさらなる点1513との近接さに基づき、複数のサブネット17
02の出力を重み付けまたは平均化する。
【0093】 (V.コンピュータプログラム製品のインプリメンテーション) 本発明は、1つ以上のコンピュータを使用してインプリメンテーションされ得
る。図22を参照すると、例示的なコンピュータ2202は、プロセッサ220
4等の1つ以上のプロセッサを含む。プロセッサ2204は、通信バス2206
に接続される。様々なソフトウェアの実施例がこの例示的なコンピュータシステ
ムという観点から説明される。この説明を読んだ後、当業者には、他のコンピュ
ータシステムおよび/またはコンピュータアーキテクチャを使用してどのように
本発明をインプリメンテーションをするかが明らかになる。
【0094】 コンピュータ2202はまた、主メモリ2208、好適にはランダムアクセス
メモリ(RAM)、および1つ以上の2次記憶デバイス2210を含む。2次記
憶デバイス2210は、例えば、ハードディスクドライブ2212および/また
はリムーバル記憶ドライブ2214(例えば、フロッピー(R)ディスクドライ
ブ、磁気テープドライブ、光ディスクドライブ等)を含み得る。リムーバル記憶
ドライブ2214は、周知の様式でリムーバル記憶ユニット2216から読み込
みおよび/またはリムーバル記憶ユニット2216に書き込む。リムーバル記憶
ドライブ2214によって読み込みまれ、書き込まれるリムーバル記憶ユニット
2216は、フロッピィ(R)ディスク、磁気テープ、光ディスク等を意味する
。リムーバル記憶ユニット2216は、コンピュータ内にコンピュータソフトウ
ェアおよび/またはデータを格納するコンピュータ使用可能記憶媒体を含む。
【0095】 別の実施形態において、コンピュータ2202は、コンピュータプログラムま
たは他の命令がコンピュータ2202をロード可能にする他の類似手段を含み得
る。そのような手段は、例えば、リムーバル記憶ユニット2220およびインタ
ーフェース2218を含み得る。そのような例は、ビデオゲームデバイスに見ら
れるようなプログラムカートリッジおよびカートリッジインターフェース、EP
ROM、またはPROM等のリムーバルメモリチップおよび関連ソケット、およ
び他のリムーバル記憶ユニット2220、ならびにリムーバル記憶ユニット22
20からコンピュータ2202にソフトウェアおよびデータを転送し得るインタ
ーフェース2218を含み得る。
【0096】 コンピュータ2202はまた、通信インターフェース2222を含み得る。通
信インターフェース2222は、コンピュータ2202と外部デバイスとの間に
ソフトウェアおよびデータを転送可能にする。通信インターフェース2222の
実施例は、モデムイーサネット(R)カード等のネットワークインターフェース
、通信ポート、PCMCIAスロットおよびカード等を含むが、それらに限定さ
れない。通信インターフェース2222を介して転送されるソフトウェアおよび
データは、信号(通常、搬送波のデータ)の形式である。その信号は、電気信号
、電磁気信号、光信号または通信インターフェース2222によって受信可能な
他の信号である。
【0097】 本明細書において、「コンピュータプログラム製品」という用語は、通常、リ
ムーバル記憶ユニット2216、2220、ハードドライブ2212等のメディ
アを指すのに使用される。これらのメディアは、コンピュータ2202から取り
外すことが可能であり、通信インターフェース2222によって受信される信号
搬送ソフトウェア(signals carrying software)で
ある。上記のコンピュータプログラム製品は、コンピュータ2202にソフトウ
ェアを提供する手段である。
【0098】 コンピュータ制御論理とも呼ばれるコンピュータプログラムは、主メモリおよ
び/または2次記憶デバイス2210に格納される。コンピュータプログラムは
また、通信インターフェース2222を介して受信され得る。そのようなコンピ
ュータプログラムが実行される場合に、コンピュータ2202は、本明細書中で
議論された本発明の特性を実行し得る。詳細には、コンピュータプログラムが実
行される場合、プロセッサ2204は、本発明の特性を実行し得る。従って、そ
のようなコンピュータプログラムはコンピュータ2202の制御を意味する。
【0099】 本発明が全体的または部分的にソフトウェアを用いてインプリメンテーション
される実施形態において、ソフトウェアは、コンピュータプログラム製品に格納
され、リムーバル記憶ドライブ2214、ハードドライブ2212、および/ま
たは通信インターフェース2222を使用してコンピュータ2202にロードさ
れ得る。制御論理(ソフトウェア)がプロセッサ2204によって実行される場
合、プロセッサ2204は、本明細書中で説明されるように本発明の機能を実行
する。
【0100】 別の実施形態において、本発明の自動的に実行される部分(automate
d portion)は、例えば、用途特定集積回路(ASICs)等のハード
ウェア構成要素を使用して主にまたは全体的にインプリメンテーションされる。
本明細書中で説明される機能を実行するためのハードウェア状態マシンのインプ
リメンテーションは、当業者には明らかである。
【0101】 さらに別の実施形態において、本発明は、ハードウェアおよびソフトウェアの
両方の組み合せを使用してインプリメンテーションされる。
【0102】 コンピュータ2202は、グラフィカルユーザインターフェースおよびウィン
ドウ環境を支援するオペレーティングシステムを実行するコンピュータシステム
等の任意の適切なコンピュータであり得る。適切なコンピュータシステムは、S
ilicon Graphics、Inc.(SGI)ワークステーション/サ
ーバ、Sunワークステーション/サーバ、DECワークステーション/サーバ
、IBMワークステーション/サーバ、IBM互換性PC、Apple Mac
intosh、またはIntel Pentium(R) ファミリー(fam
ily)からの1つ以上のプロセッサ(例えば、Pentium(R) Pro
またはPentium(R)II)の1つ等を使用する任意の他の適切なコンピ
ュータシステムである。適切なオペレーティングシステムは、IRIX、OS/
Solaris、Digital Unix(R)、AIX、Microsof
t Windows(R)95/NT、Apple Mac OS、または任意
の他のオペレーティングシステムである。例えば、例示的な実施形態において、
プログラムは、IRIX6.4オペレーティングシステムが起動し、Xウィンド
ウシステムに基づくMotifグラフィカルユーザインターフェースを使用する
Silicon Graphics Octaneワークステーション上でイン
プリメンテーションされ、実行され得る。
【0103】 本実施形態において、システム1502は、コンピュータ2202において全
体的にまたは部分的にインプリメンテーションされる。
【0104】 (VI.結論) 本明細書は、新しい非線形マッピングシステム、方法、およびコンピュータプ
ログラム製品、詳細には大容量のデータセット用に設計され、小容量のデータセ
ットに有用であるコンピュータプログラム製品を説明する。本実施形態において
、本発明は、「従来の」非線形マッピング技術をフィードフォワードニューラル
ネットワークを組み合せ、従来の方法論を用いてアクセス可能な量より大きなオ
ーダーのデータセットの処理を可能にする。本実施形態は、1つ以上の古典的な
技術、またはそれらと等価な技術を使用し、小さなランダムサンプルであり得る
サンプルを多次元的にスケーリングし、次いで、マルチレイヤ認識等を使用して
1つ以上の重要な非線形変換を「学習する」。一旦トレーニングされると、ニュ
ーラルネットワークは、フィードファワード様式で使用され、母集団の残りのメ
ンバ(members)および最小の歪みを備えた新しい、未知のサンプルを投
射する。この方法は、確率的サンプリング(probability samp
ling)の原理に基づいおり、ダイバースオリジン(diverse ori
gin)、構造、および次元性に関する広範な様々なデータセットにわたって非
常によく作用する。このアプローチにより、大容量のデータセットを多次元的に
スケーリングすることが可能になり、解析関数(analytical fun
ctions)の形式で非線形変換を取り込むことによって、この貴重な統計技
術を応用する新しい可能性を開く。
【0105】 本発明は、特定の機能およびそれらの関係の実行を示す機能的な構築ブロック
によって上記で説明されてきた。これらの機能的な構築ブロックの境界は、説明
の利便性のために本明細書中で任意に定義されてきた。特定の機能およびそれら
の関係が適切に実行される限り、代替的な境界が定義され得る。従って、任意の
そのような代替的な境界は、請求項で述べられる発明の範囲および意図を逸脱す
ることはなく、当業者には明らかである。
【0106】 これらの機能的な構築ブロックは、個別の要素、用途特定集積回路、適切なソ
フトウェアを実行するプロセッサおよびこれらの任意の組み合せ等によって、イ
ンプリメンテーションされ得る。適切なサーキットリーおよび/またはこれらの
機能的な構築ブロックを実行するためのソフトウェアを発展させることは、十分
に当該分野の範囲内である。
【0107】 上記の説明および実施例に基づき、当業者は、広範な様々な用途において本発
明をインプリメンテーションし得る。その用途全てが本範囲の範囲内にある。
【0108】 本発明の様々な実施形態が上記で説明されてきた一方で、それらが例示のみに
よって提供され、限定ではないことが理解されるべきである。従って、本発明の
大きさおよび範囲は、上記の例示的な実施形態によって限定されるべきではなく
、請求項およびその等価物に従ってのみ規定されるべきである。
【図面の簡単な説明】
【図1A】 図1Aは、顔データセットの側面図である。
【図1B】 図1Bは、顔データセットの正面図である。
【図2】 図2は、顔データセットのサンプルサイズの関数として非線形マッピングの確
率応力を示す。
【図3A】 図3Aは、顔データセットの二次元主成分投影を示す。
【図3B】 図3Bは、顔データセットの二次元非線形マッピング投影を示す。
【図3C】 図3Cは、顔データセットの二次元ニューラルネットワーク投影を示す。
【図4】 図4は、主成分分析と非線形マッピングとの応力の比較を示す。
【図5】 図5は、ニューラルネットワーク、非線形マッピングおよび主成分分析を用い
る投影についての応力の比較を示す。
【図6A】 図6Aは、主成分分析を用いる顔データセットについての実際の距離対投影さ
れた距離を示す。
【図6B】 図6Bは、非線形マッピングを用いる顔データセットについての実際の距離対
投影された距離を示す。
【図6C】 図6Cは、ニューラルネットワーク投影を用いる顔データセットについての実
際の距離対投影された距離を示す。
【図7A】 図7Aは、コンビナトリアル骨格を示す。
【図7B】 図7Bは、コンビナトリアル骨格を示す。
【図7C】 図7Cは、コンビナトリアル骨格を示す。
【図8】 図8は、Gasteignerデータセットについてのサンプルサイズの関数
としての応力を示す。
【図9A】 図9Aは、Gasteignerデータセットの主成分投影を示す。
【図9B】 図9Bは、Gasteignerデータセットの非線形マッピング投影を示す
【図9C】 図9Cは、Gasteignerデータセットのニューラルネットワーク投影
を示す。
【図10】 図10は、ジアミン(DIAMINE)ライブラリの世代についての合成シー
ケンスを示す。
【図11】 図11は、ジアミンデータセットについてのサンプルサイズの関数としての応
力を示す。
【図12A】 図12Aは、ジアミンデータセットの主成分投影を示す。
【図12B】 図12Bは、ジアミンデータセットの非線形マッピング投影を示す。
【図12C】 図12Cは、ジアミンデータセットのニューラルネットワーク投影を示す。
【図13A】 図13Aは、ジアミンデータセットの主成分投影についての実際の距離対投影
された距離を示す。
【図13B】 図13Bは、ジアミンデータセットの主な非線形マッピングについての実際の
距離対投影された距離を示す。
【図13C】 図13Cは、ジアミンデータセットのニューラルネットワーク投影についての
実際の距離対投影された距離を示す。
【図14】 図14は、本発明の実施のための例示のプロセスのフローチャートを示す。
【図15A】 図15Aは、本発明の実施のためのシステムおよびデータフローの例示のブロ
ック図を示す。
【図15B】 図15Bは、本発明の実施のためのシステムおよびデータフローの例示のブロ
ック図を示す。
【図16】 図16は、本発明に従う、複数の非線形関数の使用についての例示のプロセス
のフローチャートを示す。
【図17】 図17は、本発明に従う、複数の非線形関数の実施についてのシステムおよび
データフローの例示のブロック図を示す。
【図18】 図18は、本発明に従う、複数の非線形関数の実施についてのシステムおよび
データフローの例示のブロック図を示す。
【図19】 図19は、本発明に従う、複数の非線形関数の実施についてのシステムおよび
データフローの例示のブロック図を示す。
【図20A】 図20Aは、本発明に従う、複数の非線形関数の使用についての例示のプロセ
スのフローチャートを示す。
【図20B】 図20Bは、本発明に従う、複数の非線形関数の使用についての例示のプロセ
スのフローチャートを示す。
【図21A】 図21Aは、本発明に従う、複数の非線形関数の使用についての例示のプロセ
スのフローチャートを示す。
【図21B】 図21Bは、本発明に従う、複数の非線形関数の使用についての例示のプロセ
スのフローチャートを示す。
【図22】 図22は、本発明を実施するために使用され得る例示のコンピュータシステム
を示す。
【図23】 図23は、顔、Gasteigerおよびジアミンデータセットの主成分分析
を示す表を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AG,AL,AM,AT,AU, AZ,BA,BB,BG,BR,BY,CA,CH,C N,CR,CU,CZ,DE,DK,DM,DZ,EE ,ES,FI,GB,GD,GE,GH,GM,HR, HU,ID,IL,IN,IS,JP,KE,KG,K P,KR,KZ,LC,LK,LR,LS,LT,LU ,LV,MA,MD,MG,MK,MN,MW,MX, NO,NZ,PL,PT,RO,RU,SD,SE,S G,SI,SK,SL,TJ,TM,TR,TT,TZ ,UA,UG,UZ,VN,YU,ZA,ZW (72)発明者 ロバノフ, ビクター エス. アメリカ合衆国 ペンシルベニア 19067, ヤードリー, コーナーストーン ドラ イブ 24305 (72)発明者 セイレム, フランシス アール. アメリカ合衆国 ペンシルベニア 19067, ヤードリー, ティンバー レイクス 1970

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】 多次元のデータセットをマッピングする方法であって、 (1)多次元のデータセットからサンプル点を非線形にマッピングする工程と
    、 (2)該非線形にマッピングされたサンプル点について非線形関数を決定する
    工程と、 (3)該非線形関数を用いて、さらなる点をマッピングする工程と を包含する、多次元のデータセットをマッピングする方法。
  2. 【請求項2】 前記サンプル点をランダムに選択する工程をさらに包含する
    、請求項1に記載の方法。
  3. 【請求項3】 前記多次元のデータセットの特徴を反映するように、前記サ
    ンプル点を選択する工程をさらに包含する、請求項1に記載の方法。
  4. 【請求項4】 前記多次元のデータセットのサブセットの特徴を反映するよ
    うに、前記サンプル点を選択する工程をさらに包含する、請求項1に記載の方法
  5. 【請求項5】 前記工程(2)の非線形関数は、線形および/または非線形
    の様式で組み合わされた線形関数および/または非線形関数の基本セットから導
    出される、請求項1に記載の方法。
  6. 【請求項6】 前記線形関数および/または非線形関数のセットは、 1つ以上の解析関数と、 1つ以上のルックアップテーブルと、 1つ以上のソフトウェアモジュールおよび/またはサブルーチンと、 ハードウェアと のうち1つ以上を含む、請求項5に記載の方法。
  7. 【請求項7】 前記工程(2)の非線形関数は、システムによって決定され
    、該システムは、所与の入力セットから所与の出力セットを実質的に再生するよ
    うに構成され/トレーニングさせられ得る、請求項1に記載の方法。
  8. 【請求項8】 前記工程(2)において組み合わされる前記線形関数または
    非線形関数の様式は、検索プロセス/手順および/または最適化プロセス/手順
    により決定される、請求項5に記載の方法。
  9. 【請求項9】 前記工程(2)において組み合わされる前記線形関数または
    非線形関数の様式は、モンテカルロプロセス/手順 / ランダム検索プロセス
    /手順により決定される、請求項8に記載の方法。
  10. 【請求項10】 前記工程(2)において組み合わされる前記線形関数また
    は非線形関数の様式は、シミュレートされたアニーリングプロセス/手順により
    決定される、請求項8に記載の方法。
  11. 【請求項11】 前記工程(2)において組み合わされる前記線形関数また
    は非線形関数の様式は、進化的プログラミングプロセス/手順により決定される
    、請求項8に記載の方法。
  12. 【請求項12】 前記工程(2)において組み合わされる前記線形関数また
    は非線形関数の様式は、遺伝的アルゴリズムにより決定される、請求項8に記載
    の方法。
  13. 【請求項13】 前記工程(2)において組み合わされる前記線形関数また
    は非線形関数の様式は、遺伝的プログラミングプロセス/手順により決定される
    、請求項8に記載の方法。
  14. 【請求項14】 前記工程(2)において組み合わされる前記線形関数また
    は非線形関数の様式は、グラディエント最小化プロセス/手順により決定される
    、請求項8に記載の方法。
  15. 【請求項15】 前記工程(2)の非線形関数は、ニューラルネットワーク
    の形式でエンコードされる、請求項1に記載の方法。
  16. 【請求項16】 前記ニューラルネットワークのパラメータは、ニューラル
    ネットワークトレーニングアルゴリズムにより決定される、請求項15に記載の
    方法。
  17. 【請求項17】 前記工程(2)の非線形関数は、複数のニューラルネット
    ワークの形式でエンコードされる、請求項1に記載の方法。
  18. 【請求項18】 前記複数のニューラルネットワークのパラメータは、1つ
    以上のニューラルネットワークトレーニングアルゴリズムにより決定される、請
    求項17に記載の方法。
  19. 【請求項19】 前記工程(3)は、前記工程(2)の非線形関数を用いて
    、前記多次元のデータセットの1つ以上の残りの要素をマッピングする工程を包
    含し、該1つ以上の残りの要素は、該元の多次元のデータセットの一部である、
    請求項1に記載の方法。
  20. 【請求項20】 前記工程(3)は、前記工程(2)の非線形関数を用いて
    、前記元の多次元のデータセットの一部でない、1つ以上の新しい、これまでに
    見られなかった点をマッピングする工程を包含する、請求項1に記載の方法。
  21. 【請求項21】 前記多次元のデータセットは、数値フィールド有するデー
    タベースレコードのセットを含む、請求項1に記載の方法。
  22. 【請求項22】 前記多次元のデータセットは、特性のセットにより特徴づ
    けられる化合物を含む、請求項1に記載の方法。
  23. 【請求項23】 前記多次元のデータセットは、 化学的特性と、 物理的特性と、 生物学的特性と、 電気的特性と、 計算された特性と のうち1つ以上により特徴づけられる化合物を含む、請求項1に記載の方法。
  24. 【請求項24】 前記多次元のデータセットは、特性のセットにより特徴づ
    けられる化合物の集合体を含む、請求項1に記載の方法。
  25. 【請求項25】 前記多次元のデータセットは、特性のセットにより特徴づ
    けられるタンパク質配列を含む、請求項1に記載の方法。
  26. 【請求項26】 前記多次元のデータセットは、特性のセットにより特徴づ
    けられる遺伝子配列を含む、請求項1に記載の方法。
  27. 【請求項27】 多次元のデータセットをマッピングする方法であって、 (1)多次元のデータセットからサンプル点を非線形にマッピングする工程と
    、 (2)該サンプル点から第1のサブセットの点を選択する工程と、 (3)該第1のサブセットの点について第1の非線形関数を決定する工程と、 (4)該サンプル点から第2のサブセットの点を選択する工程と、 (5)該第2のサブセットの点について第2の非線形関数を決定する工程と、 (6)該非線形関数の1つ以上を用いて、さらなる点をマッピングする工程と を包含する、多次元のデータセットをマッピングする方法。
  28. 【請求項28】 前記サンプル点からさらなるサブセットの点について前記
    工程(4)および(5)を繰り返す工程をさらに包含する、請求項27に記載の
    方法。
  29. 【請求項29】 前記第1のサブセットの点の一部と前記第2のサブセット
    の点の一部とが重なり合う、請求項27に記載の方法。
  30. 【請求項30】 前記第1および第2のサブセットの点が互いに相互排反で
    ある、請求項27に記載の方法。
  31. 【請求項31】 前記工程(6)は、前記さらなる点のn次元座標に基づい
    て該さらなる点をマッピングするように、前記非線形関数の1つ以上を選択する
    工程を包含する、請求項27に記載の方法。
  32. 【請求項32】 前記工程(6)は、前記さらなる点の近似m次元座標に基
    づいて該さらなる点をマッピングするように、前記非線形関数の1つ以上を選択
    する工程を包含する、請求項27に記載の方法。
  33. 【請求項33】 前記工程(6)は、 (a)n次元の点または領域を前記非線形関数のそれぞれと関連させる工程と
    、 (b)さらなるn次元の点と該非線形関数と関連した該n次元の点または領域
    との間の近接を決定する工程と、 (c)該近接に基づいて該さらなるn次元の点を非線形にマッピングするよう
    に、該非線形関数の1つ以上を選択する工程と を包含する、請求項27に記載の方法。
  34. 【請求項34】 前記工程(6)は、 (a)m次元の点または領域を前記非線形関数のそれぞれと関連させる工程と
    、 (b)非線形マッピング法を用いて、さらなるn次元の点についてm次元座標
    を近似して求める工程と、 (c)該さらなるn次元の点の該m次元座標と該非線形関数と関連した該m次
    元の点または領域との間の近接を決定する工程と、 (d)該近接に基づいて該さらなるn次元の点を非線形にマッピングするよう
    に、該非線形関数の1つ以上を選択する工程と を包含する、請求項27に記載の方法。
JP2000615919A 1999-05-03 2000-05-03 多次元データの非線形マッピングのための方法、システムおよびコンピュータプログラム製品 Pending JP2002543525A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/303,671 US6571227B1 (en) 1996-11-04 1999-05-03 Method, system and computer program product for non-linear mapping of multi-dimensional data
US09/303,671 1999-05-03
PCT/US2000/011838 WO2000067148A1 (en) 1999-05-03 2000-05-03 Method, system and computer program product for non-linear mapping of multi-dimensional data

Publications (1)

Publication Number Publication Date
JP2002543525A true JP2002543525A (ja) 2002-12-17

Family

ID=23173164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000615919A Pending JP2002543525A (ja) 1999-05-03 2000-05-03 多次元データの非線形マッピングのための方法、システムおよびコンピュータプログラム製品

Country Status (8)

Country Link
US (2) US6571227B1 (ja)
EP (1) EP1175648A1 (ja)
JP (1) JP2002543525A (ja)
AU (1) AU4689700A (ja)
CA (1) CA2371649A1 (ja)
HU (1) HUP0201628A2 (ja)
IL (1) IL146227A0 (ja)
WO (1) WO2000067148A1 (ja)

Families Citing this family (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6571227B1 (en) * 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
JP2001507675A (ja) * 1996-11-04 2001-06-12 3―ディメンショナル ファーマシューティカルズ インコーポレイテッド 所望の特性を有する化合物を識別するシステム、方法、コンピュータ・プログラム製品
US6993186B1 (en) * 1997-12-29 2006-01-31 Glickman Jeff B Energy minimization for classification, pattern recognition, sensor fusion, data compression, network reconstruction and signal processing
US7321828B2 (en) * 1998-04-13 2008-01-22 Isis Pharmaceuticals, Inc. System of components for preparing oligonucleotides
US20030228597A1 (en) * 1998-04-13 2003-12-11 Cowsert Lex M. Identification of genetic targets for modulation by oligonucleotides and generation of oligonucleotides for gene modulation
US20040186071A1 (en) * 1998-04-13 2004-09-23 Bennett C. Frank Antisense modulation of CD40 expression
DE69904181D1 (de) * 1998-06-23 2003-01-09 Intellix As Frederiksberg Klassifizierungssystem und -verfahren mit n-tuple- oder ram-basiertem neuralem netzwerk
US11026768B2 (en) 1998-10-08 2021-06-08 Align Technology, Inc. Dental appliance reinforcement
CN1741036A (zh) 2000-06-19 2006-03-01 科雷洛吉克系统公司 构造分类属于不同状态的生物样本的模型的方法
US6925389B2 (en) * 2000-07-18 2005-08-02 Correlogic Systems, Inc., Process for discriminating between biological states based on hidden patterns from biological data
US7395250B1 (en) * 2000-10-11 2008-07-01 International Business Machines Corporation Methods and apparatus for outlier detection for high dimensional data sets
US7167851B2 (en) * 2001-01-31 2007-01-23 Accelrys Software Inc. One dimensional molecular representations
US6735336B2 (en) * 2001-05-16 2004-05-11 Applied Neural Computing Ltd. Apparatus for and method of pattern recognition and image analysis
GB0113212D0 (en) * 2001-05-31 2001-07-25 Oxford Biosignals Ltd Patient condition display
US7007035B2 (en) * 2001-06-08 2006-02-28 The Regents Of The University Of California Parallel object-oriented decision tree system
US6965895B2 (en) * 2001-07-16 2005-11-15 Applied Materials, Inc. Method and apparatus for analyzing manufacturing data
US7805266B1 (en) * 2001-07-17 2010-09-28 At&T Corp. Method for automated detection of data glitches in large data sets
US7363311B2 (en) * 2001-11-16 2008-04-22 Nippon Telegraph And Telephone Corporation Method of, apparatus for, and computer program for mapping contents having meta-information
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
EP1388812A1 (en) * 2002-07-04 2004-02-11 Ronald E. Dr. Kates Method for training a learning-capable system
TW200403434A (en) 2002-07-29 2004-03-01 Correlogic Systems Inc Quality assurance/quality control for electrospray ionization processes
US6947579B2 (en) * 2002-10-07 2005-09-20 Technion Research & Development Foundation Ltd. Three-dimensional face recognition
US7421098B2 (en) * 2002-10-07 2008-09-02 Technion Research & Development Foundation Ltd. Facial recognition and the open mouth problem
KR100477801B1 (ko) * 2002-12-26 2005-03-22 한국전자통신연구원 3차원 영상정보 기술장치와 그 방법 및 이를 이용한 3차원영상정보 검색장치 및 그 방법
US7730039B2 (en) 2002-12-27 2010-06-01 Honda Motor Co., Ltd. Enhanced trade compliance system: advanced shipment notice
US7792863B2 (en) * 2002-12-27 2010-09-07 Honda Motor Co., Ltd. Harmonized tariff schedule classification using decision tree database
US7389286B2 (en) * 2002-12-27 2008-06-17 Honda Motor Co., Ltd. Enhanced trade compliance system: audit processing, payment balancing process and amendment processing
US7844511B2 (en) * 2002-12-27 2010-11-30 Honda Motor Co., Ltd. Enhanced trade compliance system: audit processing, payment balancing and amendment processing
US7305369B2 (en) * 2003-03-10 2007-12-04 Cranian Technologies, Inc Method and apparatus for producing three dimensional shapes
US7557805B2 (en) * 2003-04-01 2009-07-07 Battelle Memorial Institute Dynamic visualization of data streams
US7155420B2 (en) * 2003-04-30 2006-12-26 Microsoft Corporation Boosted perceptron
US7243107B2 (en) * 2003-07-23 2007-07-10 Rami Ghandour Network resource categorization and tracking apparatus, method and computer-medium
WO2005011474A2 (en) * 2003-08-01 2005-02-10 Correlogic Systems, Inc. Multiple high-resolution serum proteomic features for ovarian cancer detection
CA2548842A1 (en) * 2003-12-11 2005-07-07 Correlogic Systems, Inc. Method of diagnosing biological states through the use of a centralized, adaptive model, and remote sample processing
US7904308B2 (en) 2006-04-18 2011-03-08 Align Technology, Inc. Method and system for providing indexing and cataloguing of orthodontic related treatment profiles and options
US9492245B2 (en) 2004-02-27 2016-11-15 Align Technology, Inc. Method and system for providing dynamic orthodontic assessment and treatment profiles
US11298209B2 (en) 2004-02-27 2022-04-12 Align Technology, Inc. Method and system for providing dynamic orthodontic assessment and treatment profiles
US8874452B2 (en) 2004-02-27 2014-10-28 Align Technology, Inc. Method and system for providing dynamic orthodontic assessment and treatment profiles
US7987099B2 (en) * 2004-02-27 2011-07-26 Align Technology, Inc. Dental data mining
US20050209983A1 (en) * 2004-03-18 2005-09-22 Macpherson Deborah L Context driven topologies
US20060085149A1 (en) * 2004-06-16 2006-04-20 Licentia, Ltd. Method and apparatus for computation of electrostatic potential
US7717849B2 (en) * 2004-07-06 2010-05-18 Gerneral Electric Company Method and apparatus for controlling ultrasound system display
US20060052943A1 (en) * 2004-07-28 2006-03-09 Karthik Ramani Architectures, queries, data stores, and interfaces for proteins and drug molecules
US7277893B2 (en) * 2004-07-28 2007-10-02 International Business Machines Corporation System and method of flexible data reduction for arbitrary applications
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
CA2500573A1 (en) * 2005-03-14 2006-09-14 Oculus Info Inc. Advances in nspace - system and method for information analysis
US20070003996A1 (en) * 2005-02-09 2007-01-04 Hitt Ben A Identification of bacteria and spores
AU2006218595A1 (en) * 2005-03-02 2006-09-08 Spacelabs Medical Trending display of patient wellness
US8956292B2 (en) * 2005-03-02 2015-02-17 Spacelabs Healthcare Llc Trending display of patient wellness
US7797320B2 (en) * 2005-03-15 2010-09-14 Hyperion Solutions Corporation Dimensionality reduction
FI20055198A (fi) * 2005-04-28 2006-10-29 Valtion Teknillinen Visualisointitekniikka biologista informaatiota varten
WO2006124628A2 (en) * 2005-05-12 2006-11-23 Correlogic Systems, Inc. A model for classifying a biological sample in relation to breast cancer based on mass spectral data
US8046348B1 (en) * 2005-06-10 2011-10-25 NetBase Solutions, Inc. Method and apparatus for concept-based searching of natural language discourse
US9158855B2 (en) 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US8279204B1 (en) * 2005-12-22 2012-10-02 The Mathworks, Inc. Viewer for multi-dimensional data from a test environment
US8402317B1 (en) * 2005-12-22 2013-03-19 The Math Works, Inc. Viewing multi-dimensional metric data from multiple test cases
JP2008045536A (ja) * 2006-07-20 2008-02-28 Toyota Industries Corp Dmeエンジンの燃料供給装置
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US20080221930A1 (en) 2007-03-09 2008-09-11 Spacelabs Medical, Inc. Health data collection tool
US7878805B2 (en) 2007-05-25 2011-02-01 Align Technology, Inc. Tabbed dental appliance
MY150234A (en) * 2007-06-29 2013-12-31 Ahn Gook Pharmaceutical Company Ltd Predictive markers for ovarian cancer
US8738394B2 (en) 2007-11-08 2014-05-27 Eric E. Kuo Clinical data file
WO2009067243A2 (en) * 2007-11-20 2009-05-28 Isis Pharmaceuticals Inc. Modulation of cd40 expression
US8108189B2 (en) 2008-03-25 2012-01-31 Align Technologies, Inc. Reconstruction of non-visible part of tooth
US8092215B2 (en) 2008-05-23 2012-01-10 Align Technology, Inc. Smile designer
US9492243B2 (en) 2008-05-23 2016-11-15 Align Technology, Inc. Dental implant positioning
US8452587B2 (en) * 2008-05-30 2013-05-28 Panasonic Corporation Encoder, decoder, and the methods therefor
US8172569B2 (en) 2008-06-12 2012-05-08 Align Technology, Inc. Dental appliance
US8463739B2 (en) * 2008-08-28 2013-06-11 Red Hat, Inc. Systems and methods for generating multi-population statistical measures using middleware
US8495007B2 (en) * 2008-08-28 2013-07-23 Red Hat, Inc. Systems and methods for hierarchical aggregation of multi-dimensional data sources
US8152518B2 (en) 2008-10-08 2012-04-10 Align Technology, Inc. Dental positioning appliance having metallic portion
US8352489B1 (en) * 2008-12-18 2013-01-08 Google Inc. Conditioning multi-class input data for a computer-implemented data classification system
US8292617B2 (en) 2009-03-19 2012-10-23 Align Technology, Inc. Dental wire attachment
US8765031B2 (en) 2009-08-13 2014-07-01 Align Technology, Inc. Method of forming a dental appliance
US9604020B2 (en) 2009-10-16 2017-03-28 Spacelabs Healthcare Llc Integrated, extendable anesthesia system
BR112012012147A2 (pt) 2009-10-16 2019-09-24 Spacelabs Healthcare Llc tubo melhorado de fluxo de luz
WO2011119512A1 (en) 2010-03-21 2011-09-29 Spacelabs Healthcare, Llc Multi-display bedside monitoring system
US9241774B2 (en) 2010-04-30 2016-01-26 Align Technology, Inc. Patterned dental positioning appliance
US9211166B2 (en) 2010-04-30 2015-12-15 Align Technology, Inc. Individualized orthodontic treatment index
US9122955B2 (en) * 2010-06-28 2015-09-01 Ramot At Tel-Aviv University Ltd. Method and system of classifying medical images
WO2012068567A1 (en) 2010-11-19 2012-05-24 Spacelabs Healthcare, Llc Dual serial bus interface
US9629566B2 (en) 2011-03-11 2017-04-25 Spacelabs Healthcare Llc Methods and systems to determine multi-parameter managed alarm hierarchy during patient monitoring
US9403238B2 (en) 2011-09-21 2016-08-02 Align Technology, Inc. Laser cutting
US9375300B2 (en) 2012-02-02 2016-06-28 Align Technology, Inc. Identifying forces on a tooth
US9220580B2 (en) 2012-03-01 2015-12-29 Align Technology, Inc. Determining a dental treatment difficulty
US9414897B2 (en) 2012-05-22 2016-08-16 Align Technology, Inc. Adjustment of tooth position in a virtual dental model
US9336498B2 (en) 2012-06-19 2016-05-10 Georges Harik Method and apparatus for improving resilience in customized program learning network computational environments
US9536206B2 (en) * 2012-06-19 2017-01-03 Pagebites, Inc. Method and apparatus for improving resilience in customized program learning network computational environments
US8521574B1 (en) * 2012-06-20 2013-08-27 International Business Machines Corporation Prioritizing client accounts
US9378464B2 (en) 2012-07-30 2016-06-28 International Business Machines Corporation Discriminative learning via hierarchical transformations
US10987026B2 (en) 2013-05-30 2021-04-27 Spacelabs Healthcare Llc Capnography module with automatic switching between mainstream and sidestream monitoring
US8744840B1 (en) 2013-10-11 2014-06-03 Realfusion LLC Method and system for n-dimentional, language agnostic, entity, meaning, place, time, and words mapping
US10449016B2 (en) 2014-09-19 2019-10-22 Align Technology, Inc. Arch adjustment appliance
US9610141B2 (en) 2014-09-19 2017-04-04 Align Technology, Inc. Arch expanding appliance
US9744001B2 (en) 2014-11-13 2017-08-29 Align Technology, Inc. Dental appliance with cavity for an unerupted or erupting tooth
US10504386B2 (en) 2015-01-27 2019-12-10 Align Technology, Inc. Training method and system for oral-cavity-imaging-and-modeling equipment
US11554000B2 (en) 2015-11-12 2023-01-17 Align Technology, Inc. Dental attachment formation structure
US11931222B2 (en) 2015-11-12 2024-03-19 Align Technology, Inc. Dental attachment formation structures
US11103330B2 (en) 2015-12-09 2021-08-31 Align Technology, Inc. Dental attachment placement structure
US11596502B2 (en) 2015-12-09 2023-03-07 Align Technology, Inc. Dental attachment placement structure
US10470847B2 (en) 2016-06-17 2019-11-12 Align Technology, Inc. Intraoral appliances with sensing
EP3988048B1 (en) 2016-06-17 2024-01-17 Align Technology, Inc. Orthodontic appliance performance monitor
JP2019523064A (ja) 2016-07-27 2019-08-22 アライン テクノロジー, インコーポレイテッド 歯科診断機能を有する口腔内スキャナ
CN117257492A (zh) 2016-11-04 2023-12-22 阿莱恩技术有限公司 用于牙齿图像的方法和装置
WO2018102770A1 (en) 2016-12-02 2018-06-07 Align Technology, Inc. Force control, stop mechanism, regulating structure of removable arch adjustment appliance
CN113440273A (zh) 2016-12-02 2021-09-28 阿莱恩技术有限公司 一系列腭扩张器及其形成方法和形成设备
US11026831B2 (en) 2016-12-02 2021-06-08 Align Technology, Inc. Dental appliance features for speech enhancement
EP3547952B1 (en) 2016-12-02 2020-11-04 Align Technology, Inc. Palatal expander
US10548700B2 (en) 2016-12-16 2020-02-04 Align Technology, Inc. Dental appliance etch template
US10779718B2 (en) 2017-02-13 2020-09-22 Align Technology, Inc. Cheek retractor and mobile device holder
US12090020B2 (en) 2017-03-27 2024-09-17 Align Technology, Inc. Apparatuses and methods assisting in dental therapies
US10613515B2 (en) 2017-03-31 2020-04-07 Align Technology, Inc. Orthodontic appliances including at least partially un-erupted teeth and method of forming them
US11045283B2 (en) 2017-06-09 2021-06-29 Align Technology, Inc. Palatal expander with skeletal anchorage devices
WO2018232299A1 (en) 2017-06-16 2018-12-20 Align Technology, Inc. Automatic detection of tooth type and eruption status
US10639134B2 (en) 2017-06-26 2020-05-05 Align Technology, Inc. Biosensor performance indicator for intraoral appliances
US10885521B2 (en) 2017-07-17 2021-01-05 Align Technology, Inc. Method and apparatuses for interactive ordering of dental aligners
WO2019018784A1 (en) 2017-07-21 2019-01-24 Align Technology, Inc. ANCHOR OF CONTOUR PALATIN
EP3658067B1 (en) 2017-07-27 2023-10-25 Align Technology, Inc. System and methods for processing an orthodontic aligner by means of an optical coherence tomography
CN110996842B (zh) 2017-07-27 2022-10-14 阿莱恩技术有限公司 牙齿着色、透明度和上釉
US10229092B2 (en) 2017-08-14 2019-03-12 City University Of Hong Kong Systems and methods for robust low-rank matrix approximation
US11116605B2 (en) 2017-08-15 2021-09-14 Align Technology, Inc. Buccal corridor assessment and computation
WO2019036677A1 (en) 2017-08-17 2019-02-21 Align Technology, Inc. SURVEILLANCE OF CONFORMITY OF DENTAL DEVICE
US10813720B2 (en) 2017-10-05 2020-10-27 Align Technology, Inc. Interproximal reduction templates
US20190130296A1 (en) * 2017-10-26 2019-05-02 Microsoft Technology Licensing, Llc Populating a user interface using quadratic constraints
WO2019084326A1 (en) 2017-10-27 2019-05-02 Align Technology, Inc. OTHER BORE ADJUSTMENT STRUCTURES
CN111295153B (zh) 2017-10-31 2023-06-16 阿莱恩技术有限公司 具有选择性牙合负荷和受控牙尖交错的牙科器具
EP3703607A2 (en) 2017-11-01 2020-09-09 Align Technology, Inc. Automatic treatment planning
US11534974B2 (en) 2017-11-17 2022-12-27 Align Technology, Inc. Customized fabrication of orthodontic retainers based on patient anatomy
US11219506B2 (en) 2017-11-30 2022-01-11 Align Technology, Inc. Sensors for monitoring oral appliances
WO2019118876A1 (en) 2017-12-15 2019-06-20 Align Technology, Inc. Closed loop adaptive orthodontic treatment methods and apparatuses
US10980613B2 (en) 2017-12-29 2021-04-20 Align Technology, Inc. Augmented reality enhancements for dental practitioners
KR20200115580A (ko) 2018-01-26 2020-10-07 얼라인 테크널러지, 인크. 구강 내 진단 스캔 및 추적
US11937991B2 (en) 2018-03-27 2024-03-26 Align Technology, Inc. Dental attachment placement structure
EP3773320B1 (en) 2018-04-11 2024-05-15 Align Technology, Inc. Releasable palatal expanders
CN114040710B (zh) 2019-06-26 2024-09-03 太空实验室健康护理有限公司 使用身体穿戴传感器的数据修改所监测的生理数据

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61223941A (ja) 1985-03-29 1986-10-04 Kagaku Joho Kyokai 化学構造の検索方法
US4773099A (en) 1985-10-10 1988-09-20 The Palantir Corporation Pattern classification means for use in a pattern recognition system
US4908773A (en) 1987-04-06 1990-03-13 Genex Corporation Computer designed stabilized proteins and method for producing same
US4859736A (en) 1987-03-30 1989-08-22 Ciba-Geigy Corporation Synthetic polystyrene resin and its use in solid phase peptide synthesis
US4939666A (en) 1987-09-02 1990-07-03 Genex Corporation Incremental macromolecule construction methods
US4935875A (en) 1987-12-02 1990-06-19 Data Chem, Inc. Chemical analyzer
US5147608A (en) 1988-04-29 1992-09-15 Millipore Corporation Apparatus and process for performing repetitive chemical processing
US5010175A (en) 1988-05-02 1991-04-23 The Regents Of The University Of California General method for producing and selecting peptides with specific properties
EP0355628B1 (de) 1988-08-24 1993-11-10 Siemens Aktiengesellschaft Verfahren zur chemischen Dekontamination der Oberfläche eines metallischen Bauteils einer Kernreaktoranlage
US5025388A (en) 1988-08-26 1991-06-18 Cramer Richard D Iii Comparative molecular field analysis (CoMFA)
US5095443A (en) 1988-10-07 1992-03-10 Ricoh Company, Ltd. Plural neural network system having a successive approximation learning method
US5265030A (en) 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
US5723289A (en) 1990-06-11 1998-03-03 Nexstar Pharmaceuticals, Inc. Parallel selex
IE66205B1 (en) 1990-06-14 1995-12-13 Paul A Bartlett Polypeptide analogs
US5650489A (en) 1990-07-02 1997-07-22 The Arizona Board Of Regents Random bio-oligomer library, a method of synthesis thereof, and a method of use thereof
US5167009A (en) 1990-08-03 1992-11-24 E. I. Du Pont De Nemours & Co. (Inc.) On-line process control neural network using data pointers
US5181259A (en) 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
US5155801A (en) 1990-10-09 1992-10-13 Hughes Aircraft Company Clustered neural networks
US5331573A (en) 1990-12-14 1994-07-19 Balaji Vitukudi N Method of design of compounds that mimic conformational features of selected peptides
US5260882A (en) 1991-01-02 1993-11-09 Rohm And Haas Company Process for the estimation of physical and chemical properties of a proposed polymeric or copolymeric substance or material
US5499193A (en) 1991-04-17 1996-03-12 Takeda Chemical Industries, Ltd. Automated synthesis apparatus and method of controlling the apparatus
WO1993001484A1 (en) 1991-07-11 1993-01-21 The Regents Of The University Of California A method to identify protein sequences that fold into a known three-dimensional structure
JPH07117950B2 (ja) 1991-09-12 1995-12-18 株式会社エイ・ティ・アール視聴覚機構研究所 パターン認識装置およびパターン学習装置
US5270170A (en) 1991-10-16 1993-12-14 Affymax Technologies N.V. Peptide library and screening method
US5240680A (en) 1991-12-19 1993-08-31 Chiron Corporation Automated apparatus for use in peptide synthesis
US6037135A (en) 1992-08-07 2000-03-14 Epimmune Inc. Methods for making HLA binding peptides and their uses
DE69328640T2 (de) 1992-02-07 2000-09-28 Canon K.K., Tokio/Tokyo Verfahren und Einrichtung zur Mustererkennung
US5573905A (en) 1992-03-30 1996-11-12 The Scripps Research Institute Encoded combinatorial chemical libraries
US5288514A (en) 1992-09-14 1994-02-22 The Regents Of The University Of California Solid phase and combinatorial synthesis of benzodiazepine compounds on a solid support
US5565325A (en) 1992-10-30 1996-10-15 Bristol-Myers Squibb Company Iterative methods for screening peptide libraries
JP2513395B2 (ja) 1992-11-09 1996-07-03 株式会社島津製作所 ペプチドアミド合成用リンカ―
US5703792A (en) 1993-05-21 1997-12-30 Arris Pharmaceutical Corporation Three dimensional measurement of molecular diversity
US6081766A (en) 1993-05-21 2000-06-27 Axys Pharmaceuticals, Inc. Machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5585277A (en) 1993-06-21 1996-12-17 Scriptgen Pharmaceuticals, Inc. Screening method for identifying ligands for target proteins
DE4320456A1 (de) 1993-06-21 1994-12-22 Basf Ag Verwendung von Aminotriarylmethanen zum Markieren von Kohlenwasserstoffen sowie neue Aminotriarylmethane
DK1156059T3 (da) 1993-06-21 2007-11-12 Aventis Pharma Inc Selektivt spaltelige linkere baseret på en methioningruppe og en estergruppe
US5679582A (en) 1993-06-21 1997-10-21 Scriptgen Pharmaceuticals, Inc. Screening method for identifying ligands for target proteins
US5434796A (en) 1993-06-30 1995-07-18 Daylight Chemical Information Systems, Inc. Method and apparatus for designing molecules with desired properties by evolving successive populations
JPH0744514A (ja) 1993-07-27 1995-02-14 Matsushita Electric Ind Co Ltd ニューラルネットの学習用データ縮約化方法
JP2948069B2 (ja) 1993-09-20 1999-09-13 株式会社日立製作所 化学分析装置
US5598510A (en) * 1993-10-18 1997-01-28 Loma Linda University Medical Center Self organizing adaptive replicate (SOAR)
CA2185918A1 (en) 1994-04-05 1995-10-12 Genzyme Corporation Determination and identification of active compounds in a compound library
US5602938A (en) 1994-05-20 1997-02-11 Nippon Telegraph And Telephone Corporation Method of generating dictionary for pattern recognition and pattern recognition method using the same
US5549974A (en) 1994-06-23 1996-08-27 Affymax Technologies Nv Methods for the solid phase synthesis of thiazolidinones, metathiazanones, and derivatives thereof
US5926804A (en) * 1994-07-01 1999-07-20 The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations Discriminant neural networks
DE69430528T2 (de) 1994-07-28 2003-01-02 International Business Machines Corp., Armonk Such/Sortier-Schaltung für Neuronalnetzwerke
US5463564A (en) 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
US5574844A (en) 1994-09-22 1996-11-12 International Business Machines Corporation Computer system and method for processing atomic data to calculate and exhibit the properties and structure of matter
US5553225A (en) 1994-10-25 1996-09-03 International Business Machines Corporation Method and apparatus for combining a zoom function in scroll bar sliders
US5712171A (en) 1995-01-20 1998-01-27 Arqule, Inc. Method of generating a plurality of chemical compounds in a spatially arranged array
US5845225A (en) 1995-04-03 1998-12-01 Mosher; Frederick A. Microcomputer controlled engine cleaning system
US5807754A (en) 1995-05-11 1998-09-15 Arqule, Inc. Combinatorial synthesis and high-throughput screening of a Rev-inhibiting arylidenediamide array
US5602755A (en) 1995-06-23 1997-02-11 Exxon Research And Engineering Company Method for predicting chemical or physical properties of complex mixtures
CA2203832A1 (en) 1995-09-08 1997-03-13 Jaime E. Arenas Screen for compounds with affinity for rna
US5811241A (en) 1995-09-13 1998-09-22 Cortech, Inc. Method for preparing and identifying N-substitued 1,4-piperazines and N-substituted 1,4-piperazinediones
US5734796A (en) * 1995-09-29 1998-03-31 Ai Ware, Inc. Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping
CA2184195C (en) 1995-10-25 2002-04-16 Andrew Pakula Screening method for identifying ligands for target proteins
JP2000502440A (ja) 1995-12-07 2000-02-29 スクリプトジェン・ファーマスーティカルズ,インコーポレイテッド リガンドを識別するための蛍光に基づくスクリーニング方法
US5712564A (en) 1995-12-29 1998-01-27 Unisys Corporation Magnetic ink recorder calibration apparatus and method
AU1847997A (en) 1996-01-26 1997-08-20 Robert D. Clark Method of creating and searching a molecular virtual library using validated molecular structure descriptors
US6185506B1 (en) 1996-01-26 2001-02-06 Tripos, Inc. Method for selecting an optimally diverse library of small molecules based on validated molecular structural descriptors
US5995938A (en) 1996-02-27 1999-11-30 Whaley; Susan S. Medication compliance system
US6014661A (en) 1996-05-06 2000-01-11 Ivee Development Ab System and method for automatic analysis of data bases and for user-controlled dynamic querying
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
EP0818744A3 (en) 1996-07-08 1998-07-08 Proteus Molecular Design Limited Process for selecting candidate drug compounds
US5833494A (en) * 1996-07-26 1998-11-10 Tandem Computers Incorporated Connector bracket for printed wiring board
US5839438A (en) * 1996-09-10 1998-11-24 Neuralmed, Inc. Computer-based neural network system and method for medical diagnosis and interpretation
US6453246B1 (en) 1996-11-04 2002-09-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing proximity data in a multi-dimensional space
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
JP2001507675A (ja) 1996-11-04 2001-06-12 3―ディメンショナル ファーマシューティカルズ インコーポレイテッド 所望の特性を有する化合物を識別するシステム、方法、コンピュータ・プログラム製品
US5861532A (en) 1997-03-04 1999-01-19 Chiron Corporation Solid-phase synthesis of N-alkyl amides
US5908960A (en) 1997-05-07 1999-06-01 Smithkline Beecham Corporation Compounds
US5933819C1 (en) 1997-05-23 2001-11-13 Scripps Research Inst Prediction of relative binding motifs of biologically active peptides and peptide mimetics
US5960443A (en) 1997-07-25 1999-09-28 Young; David E. Quantitative visual system for comparing parameters which characterize multiple complex entities
US6049797A (en) 1998-04-07 2000-04-11 Lucent Technologies, Inc. Method, apparatus and programmed medium for clustering databases with categorical attributes
US6993352B2 (en) 2001-12-20 2006-01-31 Qualcomm Incorporated Acknowledging missed messages broadcast on a control channel

Also Published As

Publication number Publication date
WO2000067148A1 (en) 2000-11-09
EP1175648A1 (en) 2002-01-30
CA2371649A1 (en) 2000-11-09
HUP0201628A2 (en) 2002-08-28
US6571227B1 (en) 2003-05-27
IL146227A0 (en) 2002-07-25
US7117187B2 (en) 2006-10-03
US20030195897A1 (en) 2003-10-16
AU4689700A (en) 2000-11-17

Similar Documents

Publication Publication Date Title
JP2002543525A (ja) 多次元データの非線形マッピングのための方法、システムおよびコンピュータプログラム製品
EP1078333B1 (en) System, method, and computer program product for representing proximity data in a multi-dimensional space
Bepler et al. Explicitly disentangling image content from translation and rotation with spatial-VAE
US7139739B2 (en) Method, system, and computer program product for representing object relationships in a multidimensional space
US7039621B2 (en) System, method, and computer program product for representing object relationships in a multidimensional space
Martinkus et al. Spectre: Spectral conditioning helps to overcome the expressivity limits of one-shot graph generators
Lu et al. Multilinear subspace learning: dimensionality reduction of multidimensional data
Wang et al. iCmSC: Incomplete cross-modal subspace clustering
Friedman Data analysis techniques for high energy particle physics
Karlov et al. Chemical space exploration guided by deep neural networks
Guo et al. Sparse deep nonnegative matrix factorization
Jia et al. Similarity-based spectral clustering ensemble selection
Wang et al. Efficient multiple kernel k-means clustering with late fusion
Iwasaki et al. Tensor SOM and tensor GTM: Nonlinear tensor analysis by topographic mappings
Turgut et al. RoseSegNet: An attention-based deep learning architecture for organ segmentation of plants
WO2012102990A2 (en) Method and apparatus for selecting clusterings to classify a data set
Hu et al. An adaptive multi-projection metric learning for person re-identification across non-overlapping cameras
Wang et al. Polynomial representation for persistence diagram
Rassokhin et al. Nonlinear mapping of massive data sets by fuzzy clustering and neural networks
US7054757B2 (en) Method, system, and computer program product for analyzing combinatorial libraries
CN117409260A (zh) 一种基于深度子空间嵌入的小样本图像分类方法及装置
He et al. Large-scale graph sinkhorn distance approximation for resource-constrained devices
Wang et al. Stochastic neighbor embedding algorithm and its application in molecular biological data
Zervou et al. Efficient dynamic analysis of low-similarity proteins for structural class prediction
Lu et al. Identification of Membrane Protein Types Based Using Hypergraph Neural Network

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070316

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070511