JP2004507821A - ライブラリー構築ブロックの特徴からのコンビナトリアルライブラリー生成物の特性を決定するための方法、システムおよびコンピュータプログラム製品 - Google Patents
ライブラリー構築ブロックの特徴からのコンビナトリアルライブラリー生成物の特性を決定するための方法、システムおよびコンピュータプログラム製品 Download PDFInfo
- Publication number
- JP2004507821A JP2004507821A JP2002521771A JP2002521771A JP2004507821A JP 2004507821 A JP2004507821 A JP 2004507821A JP 2002521771 A JP2002521771 A JP 2002521771A JP 2002521771 A JP2002521771 A JP 2002521771A JP 2004507821 A JP2004507821 A JP 2004507821A
- Authority
- JP
- Japan
- Prior art keywords
- product
- products
- training subset
- combinatorial library
- building block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J2219/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J2219/00274—Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
- B01J2219/0068—Means for controlling the apparatus of the process
- B01J2219/00686—Automatic
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J2219/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J2219/00274—Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
- B01J2219/0068—Means for controlling the apparatus of the process
- B01J2219/00686—Automatic
- B01J2219/00689—Automatic using computers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J2219/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J2219/00274—Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
- B01J2219/0068—Means for controlling the apparatus of the process
- B01J2219/00695—Synthesis control routines, e.g. using computer programs
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J2219/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J2219/00274—Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
- B01J2219/0068—Means for controlling the apparatus of the process
- B01J2219/007—Simulation or vitual synthesis
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J2219/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J2219/00274—Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
- B01J2219/0068—Means for controlling the apparatus of the process
- B01J2219/00702—Processes involving means for analysing and characterising the products
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J2219/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J2219/00274—Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
- B01J2219/00718—Type of compounds synthesised
- B01J2219/0072—Organic compounds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Image Analysis (AREA)
Abstract
本発明は、ライブラリー構築ブロックの特徴から、コンビナトリアルライブラリー生成物の特性を決定する。少なくとも1つの特徴は、複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについて決定される。生成物のトレーニングサブセットは、生成物から選択され、そして少なくとも1つの特性は、トレーニングサブセットの各生成物について決定される。構築ブロックセットは、トレーニングサブセットの各生成物について同定され、そしてインプット特徴ベクトルは、トレーニングサブセットの各生成物について、同定された構築ブロックの特徴から形成される。スーパーバイズされた機械学習アプローチを用いて、トレーニングサブセットの各生成物についてのインプット特徴ベクトルを、トレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数を推論する。
Description
【0001】
(発明の分野)
本発明は、コンビナトリアル化学およびコンピュータ支援分子設計に関する。本発明はまた、パターン分析、情報提示、情報カルトグラフィおよびデータマイニングに関する。特に、本発明は、コンビナトリアル化学ライブラリー中の生成物の測定可能な特性または計算した特性をそれらの対応する試薬の特徴に基づいて推測することに関する。
【0002】
(発明の背景)
アルゴリズムの効率は、コンピュータ薬物設計において長期にわたる目的である。効率についての必要性が、コンビナトリアル化学においてと同様に懇願されている他の問題は化学にはおそらく存在しない。関連分野の当業者によって理解されるように、大きなコンビナトリアル化学ライブラリーの仮想スクリーニングにおける重大な妨害は、生成物の明白な数え上げ法およびそれらの適切な特性の計算である。
【0003】
それが分子の多様性、分子の類似性、構造−活性の相関または構造に基づく設計に基づこうとそうでなかろうと、コンビナトリアル実験の設計は代表的に、仮想ライブラリーにおけるあらゆる可能な生成物の数え上げおよび手元のアプリケーションに適切であると考えられる重要な分子特性の計算を含む。
【0004】
【表1】
仮想ライブラリーをスクリーニングするための、生成物に基づくいくつかの方法論が開発されている。
【0005】
【表2】
しかし、生成物に基づくこれらの方法論は、大きなコンビナトリアルライブラリー、すなわち、多数の可能な生成物を含むライブラリーに適用する場合、非現実的となる。このような場合、最も通常の解決法は、仮想ライブラリーからの生成物のより小さなサブセットへと注目を制限すること、または各置換部位が他の全てから独立しているとみなすことである。
【0006】
【表3】
不幸にも、試薬に基づく設計と呼ばれる後者のアプローチはしばしば、最初の設計目的を満たすことに関して、劣った結果を生じる。
【0007】
【表4】
それゆえ、上記で考察した限界を有さない、大きなコンビナトリアル化学ライブラリーをスクリーニングするために用いられ得る、方法、システムおよびコンピュータプログラム製品についての必要性が存在する。
【0008】
(発明の要旨)
本発明は、ライブラリー構築ブロックの特徴から、コンビナトリアルライブラリー生成物の特性を決定するための、方法、システムおよびコンピュータプログラム製品を提供する。
【0009】
本明細書中で記載される通り、少なくとも1つの特徴は、複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについて決定される。生成物のトレーニングサブセットは、コンビナトリアルライブラリーの複数の生成物から選択され、そして少なくとも1つの特性は、生成物のトレーニングサブセットの各生成物について決定される。構築ブロックセットは、生成物のトレーニングサブセットの各生成物について同定され、そしてインプット特徴ベクトルは、生成物のトレーニングサブセットの各生成物について形成される。スーパーバイズされた機械学習アプローチを用いて、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルを、生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数を推論する。マッピング関数を推論した後、これは、このライブラリーの他の生成物の特性を決定、推定または予想するために用いられる。他の生成物の特性は、推論されたマッピング関数を用いて、それらの対応するインプット特徴ベクトルから決定、推定または予想される。構築ブロックセットは、コンビナトリアルライブラリーの複数のさらなる生成物について同定される。インプット特徴ベクトルは、複数のさらなる生成物について形成される。複数のさらなる生成物についてのインプット特徴ベクトルは、マッピング関数を用いて変換されて、複数のさらなる生成物の各々についての少なくとも1つの推定特性が得られる。
【0010】
本発明の実施形態では、測定値および/または計算値は両方とも、コンビナトリアルライブラリーの構築ブロックについての特徴として用いられる。測定値および/または計算値はまた両方とも、トレーニングサブセットの生成物についての特性として用いられる。本発明の実施形態では、構築ブロックの特徴の少なくとも1つは、生成物の特性の少なくとも1つと同じである。
【0011】
本発明の実施形態では、マッピング関数は、多層パーセプトロンを用いて実行される。多層パーセプトロンは、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルおよび対応する少なくとも1つの特性を用いて、マッピング関数を実行するためにトレーニングされる。
【0012】
本発明の実施形態では、コンビナトリアルライブラリーの構築ブロックとしては、コンビナトリアルライブラリーを構築するために用いられる試薬が挙げられる。他の実施形態では、コンビナトリアルライブラリーの構築ブロックとしては、コンビナトリアルライブラリーを構築するために用いられる試薬のフラグメントが挙げられる。なお他の実施形態では、コンビナトリアルライブラリーの構築ブロックとしては、コンビナトリアルライブラリーを構築するために用いられる試薬の改変フラグメントが挙げられる。
【0013】
本発明のさらなる実施形態、特徴および利点、ならびに本発明の種々の実施形態の構造および演算は、添付の図面を参照して、以下に詳細に記載される。
【0014】
(本発明の詳細な説明)
本発明の実施形態は、ここで、図面を参照して記載される。図面においては、同様の参照番号は、同一または機能的に類似の構成要素を示す。図面においてはまた、各参照番号の最も左側の桁は、最初にその参照番号が用いられた図面に対応する。特定の構成および配置を考察するが、これは、例示の目的のためにのみ行われることが理解されるべきである。関連技術分野の当業者は、本発明の趣旨および範囲から逸脱することなく、他の構成および配置が用いられ得ることを認識する。本発明が、種々の他のデバイスおよび適用においても用いられ得ることもまた、関連技術分野の当業者に明らかである。
【0015】
(本発明の概要)
本発明は、ライブラリー構築ブロックの特徴からコンビナトリアルライブラリー生成物の特性に関連した値を決定、推定または予測することをわからせる。演算時には、構築ブロックの少なくとも1つの特徴が決定されるか、検索されるかまたは入手される。生成物のトレーニングサブセットは、生成物から選択され、そして少なくとも1つの特性についての値が、トレーニングサブセットの各生成物について決定されるか、検索されるかまたは入手される。構築ブロックセットは、トレーニングサブセットの各生成物について同定され、そしてインプット特徴ベクトルは、トレーニングサブセットの各生成物について形成される。スーパーバイズされた機械学習アプローチを用いて、トレーニングサブセットの各生成物についてのインプット特徴ベクトルを、トレーニングサブセットの各生成物についての少なくとも1つの特性の対応する値へと変換するマッピング関数を推論する。マッピング関数を推論した後、これを用いて、対応するインプット特徴ベクトルから、ライブラリーの他の生成物の特性を決定するか、推定するかまたは予測する。
【0016】
(本発明の方法の実施形態)
1つの実施形態では、本発明は、化合物の電子ライブラリーに適用される。しかし、本発明は、この例に限定されない。
【0017】
コンビナトリアル化学ライブラリーは、多数の化学「構築ブロック」(例えば、試薬)を合わせることによって生成される化合物または「生成物」の収集物である。例えば、線形コンビナトリアル化学ライブラリー(例えば、ポリペプチドライブラリー)は、アミノ酸と呼ばれる化学構築ブロックのセットを、所定の化合物長さ(すなわち、ポリペプチド化合物中のアミノ酸数)について、あらゆる可能な方法でまたはほぼあらゆる可能な方法で合わせることによって形成される。理論的には、数百万の生成物が、構築ブロックのこのようなコンビナトリアル混合を介して合成され得る。あるコメンテーターは、100個の交換可能な化学構築ブロックの系統的コンビナトリアル混合が、1億のテトラマー化合物または100億のペンタマー化合物の理論的合成をもたらすことを観察した(Gallopら,「Applications of Combinatorial Technologies to Drug Discovery,Background and Peptide Combinatorial Libraries」,J.Med.Chem.37,1233−1250(1994))。関連技術分野の当業者によって理解されるように、コンビナトリアルライブラリーは、コンビナトリアルライブラリーP、{pl1j...lij...lrj、i=1、2、...、r;j=1,2...、ri}として数学的に表され得、ここで、rは、コンビナトリアルライブラリーP中の変化部位の数を表し、そしてriは、i番目の変化部位での構築ブロックの数を表す。
【0018】
本明細書中で用いられる場合、用語「構築ブロック」とは、試薬、試薬のフラグメント、および/または試薬の改変フラグメントをいう。本発明の実施形態では、コンビナトリアルライブラリーの構築ブロックは、コンビナトリアルライブラリーを構築するために用いられる試薬を含む。他の実施形態では、構築ブロックは、コンビナトリアルライブラリーを構築するために用いられる試薬のフラグメントおよび/またはコンビナトリアルライブラリーを構築するために用いられる試薬の改変フラグメントを含み得る。
【0019】
図1Aおよび図1Bは、コンビナトリアル化学ライブラリーの生成物の測定可能な特性または計算可能な特性を、それらの対応する試薬の特徴に基づいて決定、推定または予想するための方法100の工程のフローチャートを図示する。方法100はここで、図1Aおよび図1Bに図示される工程を参照して記載される。
【0020】
工程110では、少なくとも1つの特徴(記述子)が、複数の生成物{aijk、i=1、2、...、r;j=1、2、...、ri;k=1、2、...、ni}を有するコンビナトリアルライブラリーの各構築ブロックについて決定され、ここで、rは、コンビナトリアルライブラリーP中の変化部位の数を表し、riは、i番目の変化部位での構築ブロックの数を表し、そしてniは、i番目の変化部位での各構築ブロックを特徴付けるために用いられる特徴の数を表す。本明細書中で使用される場合、特徴の値は、例えば、値を計算すること、または予め計算された値もしくは測定された値を記憶媒体から検索することによって決定され得る。
【0021】
本発明の1つの実施形態では、位相記述子は、構築ブロックの特徴として計算される。本発明の別の実施形態では、全分散の99%を捕獲するために必要とされる主な成分は、この構築ブロックについて計算された位相記述子から計算される。決定され得る他の例の記述子または特徴としては、量子力学特性、ファルマコフォア(pharmacophoric)特性、BCUT特性および/または他の分子特性が挙げられる。決定され得るなお他の記述子または特徴は、本明細書中の本発明の説明を考慮すれば、関連技術分野の当業者に公知である。
【0022】
本発明の1つの実施形態では、構築ブロックの特徴の少なくとも1つは、計算値である。別の実施形態では、構築ブロックの特徴の少なくとも1つは、測定値である。いずれかの実施形態では、特徴値は、例えば、情報記憶デバイスから入手または検索され得る。
【0023】
工程120では、生成物のトレーニングサブセットが、コンビナトリアルライブラリーの複数の生成物から選択される。1つの実施形態では、生成物のトレーニングサブセット{pi、i=1、2、...、m;pi∈P}は、コンビナトリアルライブラリーPから選択され得る。この生成物のトレーニングサブセットは、いくつかの様式で選択され得る。例えば、生成物のトレーニングサブセットは、無作為に選択され得る。別の実施形態では、生成物のトレーニングサブセットは、コンビナトリアル設計方法を用いて選択され得る。なお別の実施形態では、生成物のトレーニングサブセットは、多様性に基づく選択技術を用いて選択され得る。無作為選択の場合、特定のトレーニングサブセットの組成は、トレーニングサブセットが充分に大きい限り、推論されたマッピングの質に対して、ほとんど影響を与えない。本明細書中の記載を考慮した関連技術分野の当業者によって理解されるように、トレーニングサブセットの大きさは、コンビナトリアルライブラリーの大きさおよび問題のライブラリーにおける変化部位の数に依存する。
【0024】
工程130では、少なくとも1つの特性(記述子)が、生成物のトレーニングサブセットの各生成物について決定される。本明細書中で使用される場合、特性値は、例えば、計算することまたは予め計算された値もしくは測定された値を記憶媒体から検索することによって決定され得る。1つの実施形態では、qの特性は、生成物の選択されたトレーニングサブセットyi={yij、i=1、2、...、m、j=1、2、...、q}において各化合物piについて決定され、ここでqは、1以上である。
【0025】
本発明の1つの実施形態では、生成物の特性の少なくとも1つは、計算値である。別の実施形態では、生成物の特性の少なくとも1つは、測定値である。いずれの実施形態においても、特性値は、例えば、情報記憶デバイスから入手または検索され得る。1つの実施形態では、工程110において決定される、構築ブロックの特徴の少なくとも1つは、工程130において決定される、生成物の特性の少なくとも1つと同じである。別の実施形態では、工程110において決定される、構築ブロックの特徴はいずれも、工程130において決定される、生成物の特性のいずれとも同じではない。
【0026】
工程140では、構築ブロックセットが、生成物のトレーニングサブセットの各生成物について同定される。本明細書中で使用される場合、用語「構築ブロックセット」とは、生成物を作製するために用いられる、少なくとも1つの試薬、試薬のフラグメントおよび/または試薬の改変フラグメントをいう。特定の生成物についての構築ブロックセットは、本明細書中では、この生成物に対応するといわれる。
【0027】
1つの実施形態では、対応する構築ブロック{tij、tij=1、2、...、rj、j=1、2、...、r}は、コンビナトリアルライブラリーPから選択される生成物のトレーニングサブセットの各生成物piについて同定される。
【0028】
工程150では、インプット特徴ベクトルが、生成物のトレーニングサブセットの各生成物について形成される。本明細書中で使用される場合、用語「インプット特徴ベクトル」とは、生成物の構築ブロックセットを構成する1以上の構築ブロックの各々について工程110において決定される特徴を連結することによって形成される、コンビナトリアルライブラリーの特定の生成物についての単一ベクトルをいう。1つの実施形態では、構築ブロックの特徴(例えば、試薬記述子)は、単一アレイへと連結され、そして同じ順番で本発明に従ってコンビナトリアルニューラルネットワークに対して提示される。
【0029】
1つの実施形態では、上記のコンビナトリアルライブラリーPについては、インプット特徴ベクトルは、各生成物piについて同定される、構築ブロックについて工程110において決定される特徴{tij、tij=1、2、...、rj、j=1、2、...、r}を連結して、以下の単一ベクトルとすることによって形成される:
【0030】
【数4】
工程160では、スーパーバイズされた機械学習アプローチを用いて、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルを、生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数を推論する。1つの実施形態では、工程160は、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルおよび対応する少なくとも1つの特性を用いて、本発明に従ってコンビナトリアルニューラルネットワークまたは多層パーセプトロンをトレーニングして、マッピング関数を実行する工程を含む。これは、トレーニングセットT={(xi,yi)、i=1、2、...、m}におけるインプット/アウトプット対からインプット値xiをアウトプット値yiへと変換するマッピング関数fを推論するために、スーパーバイズされた機械学習アプローチを用いた場合に数学的に表され得る。
【0031】
本明細書中で記載される場合、本発明の実施形態は、本明細書中でコンビナトリアルネットワークまたはコンビナトリアルニューラルネットワーク(CNN)と呼ばれる、それらのそれぞれの構築ブロックの特徴から、コンビナトリアル生成物の特性を決定するか、推定するかまたは予想するためにトレーニングされる、特別のクラスのニューラルネットワークを使用する。一般的にいって、コンビナトリアルネットワークは、n1×n2×...×nrニューロンを含むインプット層を含み、ここで、rは、コンビナトリアルライブラリーにおける変化部位の数であり、そしてniは、i番目の変化部位での各構築ブロックを特徴付けるために用いられる特徴の数である。代表的コンビナトリアルネットワークは、変換の複雑さに依存して、少なくとも2つのニューロンを含む1以上の隠れた層およびこのネットワークによって予想される各生成物特徴についての単一ニューロンを有するアウトプット層を含み得る。
【0032】
本発明の1つの実施形態では、3層の充分に連結した多層パーセプトロン(MLP)を用いて、コンビナトリアルネットワークを形成する。これらのネットワークは、標準誤差逆伝搬アルゴリズム(例えば、S.Haykin,Neural Networks,Macmillan,New York (1994)を参照のこと)を用いてトレーニングされ得、そしてロジスティック伝達関数f(x)=1/(1+e−x)は、隠れた層およびアウトプット層の両方について用いられ得る。本発明に従って、各コンビナトリアルネットワークは、固定された数のエポックについてトレーニングされ得るか、または例えば、1.0から0.01へと線形に減少する学習速度および0.8の固定された運動量を用いて、規定のエラー閾値が満たされるまでトレーニングされ得る。各エポックの間、トレーニングパターンまたはサンプルは、無作為化された順番でネットワークへと提示され得る。他の実施形態では、他のコンビナトリアルネットワークが用いられる。
【0033】
本発明によってコンビナトリアルネットワークをトレーニングした後、コンビナトリアルライブラリー(またはその任意のサブセット)を分析またはスクリーニングすることは、構築ブロックの予め計算した特徴を計算または検索する工程、これらを連結して、インプット特徴ベクトルとする工程、およびトレーニングされたコンビナトリアルネットワークを介してインプット特徴ベクトルを供給し、このネットワークが、生成物についての推定または予想された特性をアウトプットする工程を包含する。次いで、推定または予想された特性は、任意のその後の分析、検索または分類のために用いられ得る。本明細書中の記載を考慮した関連技術分野における当業者によって理解されるように、本発明は、起源および複雑さにかかわらず、広範な種々の分子特性に適用され得る。
【0034】
工程160は、マッピング関数を推論した場合またはCNNがトレーニングされてマッピング関数を実行した場合、終了する。
【0035】
工程170では、構築ブロックセットが、コンビナトリアルライブラリーの複数のさらなる生成物について同定される。この工程は、上記の工程140に類似する。
【0036】
工程180では、インプット特徴ベクトルが、複数のさらなる生成物について形成される。この工程は、上記の工程150に類似する。
【0037】
1つの実施形態では、工程170および工程180は、マッピング関数fが決定された後に、生成物pz∈Pについて、対応する試薬{tzj、j=1、2、...、r}を同定する工程、およびそれらの特徴
【0038】
【数5】
を連結して以下の単一ベクトルとする工程を包含する:
【0039】
【数6】
工程190では、複数のさらなる生成物についてのインプット特徴ベクトルは、工程160のマッピング関数を用いて変換されて、複数のさらなる生成物の各々について少なくとも1つの推定特性が得られる。これは、工程160において決定されるマッピング関数(例えば、マッピング関数f)を用いて、マッピングxz→yzとして数学的に表され得、ここで、yzは、生成物pzの特性を表す。本発明の実施形態では、推定または予想される特性は、その後の検索および分析のために記録される。
【0040】
本明細書中の記載を考慮した関連技術分野の当業者によって理解されるように、複数の実施形態では、本発明を用いて、コンビナトリアル化合物の量子力学特性を、それらのそれぞれの構築ブロックの量子力学および/または他の分子特性から推定または予想し得る。例えば、以下の量子力学特性は、本発明に従って予想され得る:分子軌道エネルギー;総電子エネルギー;総エネルギー;生成熱;イオン化ポテンシャル;および双極子モーメント。
【0041】
他の実施形態では、本発明を用いて、コンビナトリアル化合物のBCUT特性(固有値)が、それらのそれぞれの構築ブロックのBCUTおよび/または他の分子特性から予測され得る。関連技術分野の当業者に公知であるように、BCUT値は、固有値である。University of Texas,College of PharmacyのR.S.Pearlmanによって説明されるように、分子間相互作用の強さは、原子の電荷、原子分極および原子の水素結合能力に依存する。従って、Pearlmanは、3つのクラスの行列を構築して化合物を表すことを提案する:第1のクラスは、対角に、原子の電荷に関連した値を有し、第2のクラスは、対角に、原子分極に関連した値を有し、そして第3のクラスは、対角に、水素結合能力を有する。Pearlmanはまた、対角外要素について、原子間距離、重なり、計算した結合次数などの関数を含む種々のさらなる規定を用いて提案した(例えば、R.S.Pearlman,Novel Software Tools for Addressing Chemical Diversity,http://www.netsci.org/Science/Combichem/featrure08.html.を参照のこと)。Pearlmanによれば、これらの行列の最小および最大の固有値(すなわち、BCUT値)は、分子の構造の局面を反映する。
【0042】
複数の実施形態では、本発明をまた用いて、コンビナトリアル化合物のファルマコフォア特性を、それらのそれぞれの構築ブロックのファルマコフォア特性および/または他の分子特性から予想し得る。関連技術分野の当業者に公知であるように、ファルマコフォアは、レセプターまたはレセプターの活性部分によって認識されてこれらと相互作用するとみなされる、原子または原子の基の空間的相互配向である。レセプターは、係留または会合している細胞膜の複雑な分子構造の内在部分である、タンパク質、酵素またはポリヌクレオチドのような高分子構造として想像され得る。認識エレメントまたはレセプター部位は、リガンドとの相互作用の認識が起こり得て、薬理学的効果をもたらすように配向される。
【0043】
本明細書中の記載を考慮した関連分野における当業者によって理解されるように、本発明は、コンビナトリアル化合物の上記の特性だけを、それらのそれぞれの構築ブロックの特性から予想するために用いられることには制限されない。例えば、本発明を用いて、図9A〜図9Eに列挙される117個の位相記述子を推定または予想し得る。本発明をまた用いて、コンビナトリアル化合物の多くの他の特性を、それらのそれぞれの構築ブロックの特性から予想し得る。
【0044】
(結果および考察)
この節では、本発明の方法の実施形態について得られる結果を提示および考察する。本発明による3つの異なるコンビナトリアルネットワークアーキテクチャを、以下に記載される2つのコンビナトリアルライブラリーを用いて調べた。調べたネットワークアーキテクチャは、以下であった:(1)各試薬からの単一の特徴(記述子)をインプットとし、そして生成物についての単一の特性(記述子)を生じる、ネットワーク、(2)各試薬からの複数の特徴(記述子)をインプットとし、そして生成物についての単一の特性(記述子)を生じる、ネットワーク、ならびに(3)各試薬からの複数の特徴(主成分)をインプットとし、そして生成物についての単一の特性(主成分)を生じる、ネットワーク。第一のアーキテクチャカテゴリは、本明細書中で単一インプット単一アウトプット(SISO)パーセプトロンといわれる。第二および第三のアーキテクチャカテゴリは、本明細書中で複数インプット単一アウトプット(MISO)パーセプトロンといわれる。
【0045】
各アーキテクチャの性能を、3つの統計尺度を用いて評価した:(1)生成物の実際の特性(記述子)と予想された特性(記述子)との間の相関係数、(2)Pearson相関係数によって測定された場合の類似性行列のひずみの量、および(3)類似性検索および文脈に基づく検索に対するこのひずみの影響。関連技術分野の当業者にはわかるように、類似性検索は、最も通常の形態の仮想スクリーニングを表す。これは、「類似特性原理」、すなわち、構造的に類似した化合物は、類似した物理化学的特性および生物学的特性を示す傾向があるという基本的考えに基づく(Johnson,M.A.およびMaggiora,G.M.,Concepts and Applications of Molecular Similarity,Wiley(1990)を参照のこと)。従って、いくつかの所望の生物学的効果を有する化合物のセットを考慮して、これらのうちのいくつかがより強力であるか、より選択的であるか、または元のリードとは別のいくつかの他の方法において、より適切であることを予想して、類似した化合物を同定しようとする。本明細書中に記載される評価の目的のために、2つの化合物または2つの生成物の間の類似性を、元の位相特徴における分散の99%を保存した、主成分によって形成される、多次元空間におけるそれらのEuclidean距離(Willett,P.;Barnard,J.M.;Downs,G.M.Chemical Similarity Searching,J.Chem.Info.Comput.Sci.,38,983−996(1998)を参照のこと)によって測定した。
【0046】
最も単純なアーキテクチャは、一連のネットワークを含み、これらの各々は、対応する試薬のその記述子の値から単一生成物記述子の値を予想するためにトレーニングされる。従って、r成分を有するライブラリーについて、各生成物記述子は、rインプットおよび1アウトプットノード(本明細書以後、r−h−1と示される)を有するSISOネットワークによって評価され、ここで、hは、隠れたノードの数である。このアプローチは、トレーニングの単純さおよび容易さ、ならびに個々の生成物記述子へのアクセスを提供する。図9A〜図9Eに図示されるように、本発明のこの実施形態は、本発明を評価するために用いた117の位相記述子うちの約80%についてよくはたらく。図9A〜図9Eに列挙した記述子のうちの約20%は、この実施形態を用いて信頼性よくは予想されなかった。
【0047】
本発明によるCNNが、個々の記述子を推定する能力は、シナプスパラメーターの数を増やすこと、およびトレーニングデータに、好首尾の予測のために必要とされるさらなる情報を提供し得る他の試薬記述子を付加することによって改善され得る。これによって、形態r×n−h−1のネットワークトポロジーがもたらされ、ここで、nは、試薬あたりのインプット記述子の数である。本発明のこの実施形態と共に用いられるさらなる記述子は、種々の方法で選択され得る。例えば、段階的回帰分析において用いられる特徴選択アルゴリズムと類似の特徴選択アルゴリズムを用い得る。これは、記述子の全ての可能な対を試し、そして最良の対を選択し、次いで固定された最初の2つの記述子を保つ全ての可能なトリプレットを試し、そして最良のトリプレットを選択し、そして誤差閾値の所定の数の記述子が満たされるまでこのようにして続けることを含む。しかし、実際には、このかなり徹底的なアルゴリズムは不必要である。良好な結果は、以下のアプローチを用いて入手され得る。最初に、各試薬と各生成物記述子との間の相関係数が計算され、そして一連のSISOネットワークを本明細書中に記載される様式でトレーニングされる。次いで、適切にはモデル化され得ない各生成物記述子(例えば、0.9未満のトレーニングR2を有する生成物記述子)について、この生成物記述子に最も高度に相関している2つの試薬記述子は、このトレーニングデータに加えられ、そして新たなMISOネットワークがトレーニングされる。Ugiライブラリー(図11を参照のこと)に適用される場合、このアプローチは、トレーニングセットおよび試験セットの両方について高い精度で117全ての記述子を予想し得たニューラルネットワークのアレイをもたらした(図9A〜図9Eを参照のこと)。図9A〜図9Eに図示されるように、実際の記述子と予想された記述子との間の相関係数は、約0.77〜約1.0の範囲にわたった。より小さな値は代表的に、より複雑な特性(例えば、Bonchev−Trinajstic情報インデックス
【0048】
【数7】
(Bonchev,D.およびTrinajstic,N.,J.Chem.Phys.67,4517−4533(1977)を参照のこと)およびKappa型インデックス3κα(Hall L.H.およびKier,L.B,The Molecular Connectivity Chi Indexes and Kappa Shape Indexes in Structure−Property Relations,Reviews of Computational Chemistry,Boyd,D.B.およびLipkowitz,K.B.編,VCH Publishers,第9章,367−422(1991)を参照のこと)と関連する。
【0049】
分子類似性に対する影響を評価するために、最適化されたネットワークをフィード−フォワード様式で用いて、Ugiライブラリーにおける629万全ての化合物の記述子を推定した。これらの記述子をその後、トレーニングセットから誘導した回転行列を用いて脱相関(decorrelate)し、そして得られた対をなす距離のPearson相関係数を計算した。2セットの記述子(計算値対推定値)を用いて計算された類似性係数間の相関を測定する、この統計は、0.99の値を有し、これは、ほぼ完全な再現を示す。本明細書中で使用される場合、用語「計算された」とは、従来の方法で計算された記述子をいい、そして用語「推定された」とは、ニューラルネットワークによって生成された記述子をいう。
【0050】
この精度はまた、Ugiライブラリーから「リード」として無作為に選択された10の化合物を用いる類似性検索の文脈において反映された。特に、これらのリードの各々に対して最も類似した1000の化合物を、計算された記述子および推定された記述子の両方から誘導されたPCを用いて同定し、そしてこれらの類似性スコアを比較した。図10は、得られた結果のまとめを示す。
【0051】
直接比較を可能にするために、推定された記述子を用いて得られたヒットリストは充分に数え上げられ、そしてそれらの類似性スコアは、従来の様式で計算された、計算記述子を用いて再評価されたことに留意すること。図3に示すように、10全ての場合において、2つの設計は、ほぼ同一のスコアおよび非常に類似した内容を有し、重複は、75パーセント〜86パーセントの範囲にわたった(図10を参照のこと)。リードのうちの1つについてのこれらの選択の等価物を、図4A〜図4Dの非線形マップにおいてグラフとして図示する。図4Aおよび図4Cは、計算された記述子についての場合を図示する。図4Bおよび図4Dは、推定された記述子についての場合を図示する。図4Cおよび図4Dは、図4Aおよび図4Bにおいて輪郭を囲った領域の拡大図である。
【0052】
スクリーニングプロセス全体(トレーニングセットの数え上げ、ネットワークトレーニング、脱相関および類似性検索を含む)は、35分間のCPU時間しか必要としなかった。図6に図示するように、これは、直接的アプローチと比較して、30倍の処理量改善を表す。
【0053】
主成分はしばしば所望のアウトプットであるので、顕著な改善は、個々の記述子の評価が回避され、そしてコンビナトリアルネットワークをトレーニングして主成分を直接予想する場合、達成され得る。本明細書中で示される通り、高次元データセットは、ほぼ常に冗長である。例えば、図9A〜図9Eに図示される117の位相記述子は、偏差への寄与における何らかの有意な喪失を伴わずに、25〜30の潜在的変数に減らされ得る。相関した変数の存在は、2つの重要な方法において分子の類似性に影響を与える:(1)冗長な特徴は、より高い重みが有効に考慮され、そして(2)データ分析のために必要とされる計算機努力において実質的かつ不必要な増大が存在する。
【0054】
本発明を、以下の通りに本明細書中に記載されるコンビナトリアルライブラリーを用いて評価した。10,000の化合物のサンプルセットをUgiライブラリー全体から無作為に選択し、そして図9A〜図9Eに列挙した117の位相記述子のセットを用いて特徴付けた。これらの記述子を正規化し、そして25の主成分へと脱相関し、これは、このデータ中の総偏差の99%を占めた。さらに、Ugiライブラリー全体を作製する際に関与した全ての試薬を記述子の同じセットによって記載し、そして独立して正規化し、そして同じ偏差カットオフを用いて27の主成分に脱相関した。
【0055】
これらのデータを用いて25のCNNのアレイ(PC−MISOと示される)を開発し、この各々をトレーニングして、4つのインプット試薬の各々から、27全てのPCを用いて生成物PCのうちの1つを予想した。従って、各ニューラルネットワークは、108のインプットニューロン、2つの隠れたニューロンおよび1つのアウトプットニューロンから構成されていた。実験は、隠れたニューロンの数を2つを超えて増やすことは、得られるネットワークの予測能力における何の有意な改善も提供しないことを示した。
【0056】
10,000のインプット−アウトプット対のセットを、サンプルの90%を含むトレーニングセットおよびサンプルの残りの10%を含む試験セットへと無作為に分けた。各ニューラルネットワークを、100のエポックについてトレーニングセットでトレーニングしたかまたは所定の誤差閾値が満たされるまでトレーニングした。一旦トレーニングが完了したら、コンビナトリアルネットワークをフリー−フォワード様式で用いて、Ugiライブラリーにおける629万全ての化合物について25のPCを予想し、次いで、これを用いて、本明細書中に記載される10の「リード」の各々に対して最も類似した1000の化合物を同定した。
【0057】
得られた選択物を、「計算した」PCを用いて最終的に評価し、そして理想溶液と比較した(図10を参照のこと)。さらに、10全ての場合において、選択物は、「計算した」記述子を用いて誘導した選択物に対して非常に類似しており、そして選択された化合物のそれらの類似性スコアおよび80%〜85%の範囲にわたる同一性の両方に関して、通常のSISOおよびMISO CNNを用いて誘導された選択物よりもわずかに良好であった(図10を参照のこと)。
【0058】
スクリーニングプロセス全体は、800MHzのPentium(登録商標)IIIプロセッサで39分間しか必要としなかった。
【0059】
本発明の一般性を確認するために、3成分ジアミンライブラリーからの同様の型の選択を、試薬および生成物の両方について117の位相記述子の同じセットを用いて行った(図12を参照のこと)。この場合、29および28のPCは、それぞれ試薬記述子および生成物記述子の偏差の99%を捕捉するために必要であった。従って、3−3−1 SISOネットワークおよび9−3−1 MISOネットワークを用いて個々の記述子を予想し、そして87−3−1 PC−MISOネットワークを主成分の推定のために用いた。
【0060】
Ugiライブラリーについてと同様に、10のリードを、ライブラリー全体から無作為に選択し、そしてこれらのリードの各々について最も類似した1000の化合物を、正確な記述子および近似の記述子の両方から誘導したPCを用いて同定した。再度、近似のPCを用いて得られた選択物は、理想溶液に対して実質的に同一であり、PC−MISO予想によって、わずかに良好な類似性スコアがもたらされた(図5を参照のこと)。
【0061】
類似性行列の正確な再現は、性能における印象的な利得を伴う(図6を参照のこと)。両方のライブラリーについて、SISO、MISOおよびPC−MISO CNNのトレーニングは、匹敵する実行時間を必要としたが、後者は、わずかだが一貫して良好に実施された。一方、SISOネットワークおよびMISOネットワークは、個々の記述子に対するアクセスを提供し、これは、適用(例えば、多様性プロファイリング、ADMEモデリング、および構造−活性相関)においてさらなる有用性を有し得る。本明細書中に記載される評価に基づいて、複数のアウトプットノード(すなわち、複数の生成物記述子または主成分を生じる複数インプット複数アウトプット(MIMO)パーセプトロン)を有するネットワークは、トレーニングすることがより難しい傾向があり、そして単一アウトプットネットワークの集団を用いて得られた結果よりも精度の低い結果を生じた。
【0062】
上記のように、任意の機械学習アルゴリズムについての共通の関心は、トレーニングセットの性質に対するその依存性である。本明細書中に記載されるCNNによって得られる予想の質に対するトレーニングセットの組成の効果を調べるために、10,000の化合物のうちの10の無作為サンプルをUgiライブラリーから引き出し、そしてこれを用いて、25のPC−MISOネットワークのうちの10の異なるセットをトレーニングした。10全ての試行について「正確な」PCおよび「近似の」PCを用いて計算した、対をなす距離の間の平均R2は、トレーニングセットおよび試験セットについてそれぞれ、0.9951±0.0004および0.9951±0.0006であった。R2を、2つのPC空間において無作為に選択された1,000,000の化合物対の間のEuclidean距離を比較することによって計算した。類似した標準偏差もまた、ジアミンライブラリーについて観察された(トレーニングセットおよび試験セットについて、0.0003および0.0007)(図7を参照のこと)。この結果は、本発明によるCNNのトレーニングが、安定かつ収束性の両方であることを示唆する。
【0063】
無作為選択の場合、トレーニングセットのサイズは、このサイズが各試薬を充分にサンプルするに充分に大きいままである限り、予想の質に対して中程度の影響を有する。予想は、トレーニングセットのサイズが大きくなるにつれて改善され、そして数千のサンプルになった後は、最終的にプラトーに達する(図8を参照のこと)。Ugiライブラリーについて、予想での改善は、トレーニングセットのサイズが10,000の化合物から20,000の化合物へと二倍になった場合、実質的に全く存在しなかったが、これは、R2における差が依然として顕著な場合、ジアミンライブラリーには当てはまらなかった。この結果についての理由は、これらのライブラリーの構築に関与する試薬の数(Ugiライブラリーについては254、そしてジアミンライブラリーについては400)の差、および所定のサンプルサイズについては、各個々の試薬が、Ugiライブラリーにおいて、より広範囲にサンプリングされるという事実にほぼ確実に関連している。より大きなトレーニングセットを用いる欠点は、記述子の計算およびネットワークのトレーニングのために、より長い時間が必要とされることである。従って、一般に、サンプルサイズは、計算コストの増加に対して、より高い精度の利点を重み付けすることによって決定されるべきである。
【0064】
(コンビナトリアルライブラリー)
この節では、本発明を評価するために用いられる2つの例であるUgiコンビナトリアルライブラリーおよびジアミンコンビナトリアルライブラリーを記載する。
【0065】
本発明を評価するために用いられた最初のコンビナトリアルライブラリーは、629万の化合物を含むUgiライブラリーであった。図11は、Ugi反応に基づいて4成分コンビナトリアルライブラリーを作製するための反応スキーム1100を図示する。本発明を評価するために用いられるUgiライブラリーを、Available Chemicals Directory(MDL Information Systems,Inc.,140 Catalina Street,San Leandro,CA 94577)から無作為に選択した、100の酸、100のアミン、37のアルデヒドおよび17のイソニトリルのセットを用いて構築した。
【0066】
本発明を評価するために用いられた第二のコンビナトリアルライブラリーは、675万の化合物を含むジアミンライブラリーであった。図12は、ジアミンコアおよび2セットのアルキル化/アシル化剤を含む2工程還元的アミノ化反応に基づくコンビナトリアルライブラリーについての反応スキーム1200を図示する。本発明を評価するために用いられたジアミンライブラリーを、Available Chemicals Directoryから無作為に選択した、1セットの300のジアミンおよび2セットの150のアルキル化/アシル化剤を用いて構築した。
【0067】
Ugiライブラリーおよびジアミンライブラリーのサイズを、これらのライブラリーの徹底的検索が、本明細書中に記載された本発明の方法の実施形態を用いて得られた結果を確認するために可能であるように、意図的に制限した。これらのライブラリーの試薬および生成物の両方を、1セットの117の位相記述子(分子連結インデックス、κ形状インデックス、部分グラフカウント、情報の理論的インデックス、Bonchev−Trinajstisインデックスおよび位相状態インデックスを含む)によって特徴付けた。これらの記述子は、構造−活性分析において証明された追跡記録を有し、連結表から直接計算され得、そして医薬品化学者の分子類似性の認識と一貫している。さらに、これは、適切な「近傍挙動」を示すことが示され、従って、多様性分析および類似性検索によく適している。これらのデータを続いて正規化し、そして主成分分析(PCA)を用いて脱相関し、25〜29の潜在性変数の直交セットを得た。これは、このデータにおける総偏差の99%を占めた。PCAのプレプロセシング工程は、グラフ−理論的記述子に代表的な、データにおける重複および冗長性を除去するために必要であった。
【0068】
図4A〜図4Dにおいて図示される非線形マップについて、この多次元データを、「Method,System,And Computer Program Product For Representing Object Relationships In A Multidimensional Space」との発明の名称の、2001年4月3日に出願した米国特許出願第09/823,977号に記載される方法論を用いて二次元にさらに減らした。多次元主成分空間における点の間の対をなす距離を、図4A〜図4Dの二次元非線形マップにおいて保存した。図4A〜図4Dの二次元非線形マップを用いて、本明細書中に記載される生成物選択を可視化し、これを、全ての有意な主成分を用いて実施した。
【0069】
(まとめ)
上記に記載されるように、本発明の方法を用いて、試薬の特徴を用いて生成物の特性を推定または予想し得、それによって、仮想コンビナトリアル化学ライブラリーにおいてあらゆる個々の生成物を数え上げ、そして記載する必要性を効果的に除去し得る。数え上げを回避し、そして記述子の評価を、本発明によるコンビナトリアルニューラルネットワークを通した単一フィードフォワードパスと置換することによって、本発明は、他の手段によっては取扱いにくい、莫大なコンビナトリアルライブラリーのインシリコでの特徴付けおよびスクリーニングを可能にする。本発明によって生じる記述子または特性は、計算値というよりは予想値であるが、本発明の予想値と従来方法を用いて得られる計算値との間の何らかの差は最小であり、そして類似性検索に対してほとんどまたは全く影響を有さない。本発明の実施形態は、従来の数え上げ類似性検索方法論よりも1桁を超えて速く、そしてこの差は、調査している仮想ライブラリーのサイズおよびコンビナトリアルの複雑さに伴って増大する。
【0070】
(システムおよびコンピュータプログラム製品の実施形態)
本明細書中の記載を考慮した関連技術分野の当業者によって理解されるように、上記の本発明の方法の実施形態は、システムおよび/またはコンピュータプログラム製品として実行され得る。図13は、本発明の実行を支援する、例であるコンピュータシステム1300を示す。本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組合せを用いて実行され得る。これは、コンピュータシステムまたは他の処理システムにおいて実行され得る。コンピュータシステム1300は、1以上のプロセッサ(例えば、プロセッサ1304)を備える。プロセッサ1304は、コミュニケーションインフラストラクチャ1306(例えば、バスまたはネットワーク)へと連結される。種々のソフトウェアの実施形態は、この例であるコンピュータシステムに関して記載され得る。この説明を読んだ後、他のコンピュータシステムおよび/またはコンピュータアーキテクチャを用いてどのようにして本発明を実行するかが、関連技術分野における当業者に明らかになる。
【0071】
コンピュータシステム1300はまた、主記憶装置1308(好ましくはランダムアクセス記憶装置(RAM))を備え、そしてまた、第二記憶装置1310を備え得る。第二記憶装置1310は、例えば、ハードディスクドライブ1312および/または取り外し可能な記憶ドライブ1314(フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学ディスクドライブなどを表す)を備え得る。取り外し可能な記憶ドライブ1314は、周知の様式で、取り外し可能な記憶装置1318から読み取りおよび/またはこれに書き込みする。取り外し可能な記憶装置1318は、フロッピー(登録商標)ディスク、磁気テープ、光学ディスクなどを表す。理解されるように、取り外し可能な記憶装置1318は、コンピュータソフトウェアおよび/またはデータが記憶された、コンピュータ使用可能な記憶媒体を備える。本発明の1つの実施形態では、取り外し可能な記憶装置1318は、投影されるインプットデータを備え得る。
【0072】
第二記憶装置1310はまた、コンピュータプログラムまたはインプットデータがコンピュータシステム1300へとローディングされるのを可能にする他の類似の手段を備え得る。このような手段は、例えば、取り外し可能な記憶装置1322およびインターフェイス1320を備え得る。このようなものの例としては、プログラムカートリッジおよびカートリッジインターフェイス(例えば、ビデオゲームデバイスにおいて見出されるもの)、取り外し可能なメモリーチップ(例えば、EPROMまたはPROM)および関連ソケット、ならびにソフトウェアおよびデータが、取り外し可能な記憶装置1322からコンピュータシステム1300へと移動されるのを可能にする、他の取り外し可能な記憶装置1322およびインターフェイス1320が挙げられ得る。
【0073】
コンピュータシステム1300はまた、コミュニケーションインターフェイス1324を備え得る。コミュニケーションインターフェイス1324は、ソフトウェアおよびデータが、コンピュータシステム1300と外部デバイスとの間で移動するのを可能にする。コミュニケーションインターフェイス1324の例としては、モデム、ネットワークインターフェイス(例えば、Ethernet(登録商標)カード)、コミュニケーションポート、PCMCIAスロットおよびカードなどが挙げられ得る。コミュニケーションインターフェイス1324を介して移動されるソフトウェアおよびデータは、コミュニケーションインターフェイス1324によって受け取られ得る、電子シグナル、電磁シグナル、光学シグナルまたは他のシグナルであり得る、シグナル1328の形態である。これらのシグナル1328は、コミュニケーションインターフェイス1324へとコミュニケーションパス(すなわち、チャネル)1326を介して提供される。このチャネル1326はシグナル1328を保有し、そしてワイヤまたはケーブル、光ファイバー、電話線、セルラー電話リンク、RFリンクおよび他のコミュニケーションチャネルを用いて実行され得る。本発明の1つの実施形態では、シグナル1328は、投影されるインプットデータを含み得る。
【0074】
コンピュータプログラム(コンピュータ制御論理とも呼ばれる)は、主記憶装置1308および/または第二記憶装置1310に記憶される。コンピュータプログラムはまた、コミュニケーションインターフェイス1324を介して受け取られ得る。このようなコンピュータプログラムは、実行された場合、コンピュータシステム1300が、本明細書中に考察されるように、本発明の特徴を行うのを可能にする。特に、コンピュータプログラムは、実行される場合、プロセッサ1304が本発明の特徴を行うのを可能にする。従って、このようなコンピュータプログラムは、コンピュータシステム1300のコントローラを表す。
【0075】
(結論)
本発明の種々の実施形態を上記で記載してきたが、これらは、例として提示されており、そして限定ではないことが理解されるべきである。関連技術分野の当業者には、詳細な種々の変更が、本発明の趣旨および範囲を逸脱することなく行われ得ることが明らかである。従って、本発明は、上記の例の実施形態のいずれによっても制限されないべきであるが、添付の特許請求の範囲およびそれらの等価物に従ってのみ規定されるべきである。
【0076】
本発明は、添付の図面を参照して記載される。
【図面の簡単な説明】
【図1A】図1Aは、本発明の1つの実施形態に従って、コンビナトリアルライブラリーから、コンビナトリアル生成物の特性を決定するための方法のフローチャートを図示する。
【図1B】図1Bは、本発明の1つの実施形態に従って、コンビナトリアルライブラリーから、コンビナトリアル生成物の特性を決定するための方法のフローチャートを図示する。
【図2】図2は、本発明の1つの実施形態による、例となるコンビナトリアルニューラルネットワークを図示する。
【図3】図3は、本発明による629万のメンバーのUgiライブラリーから種々の方法論によって選択された場合に、10個の無作為に選択された「リード」の各々に対して最も類似する、10セットの1000個の化合物についての平均類似性スコアを図示する。
【図4A】図4Aは、計算された生成物特性を用いて無作為に選択された「リード」に対する最大類似性に基づいて選択された化合物の二次元非線形マップを図示する。
【図4B】図4Bは、本発明に従って、推定された生成物特性を用いて無作為に選択された「リード」に対する最大類似性に基づいて選択された化合物の二次元非線形マップを図示する。
【図4C】図4Cは、図4Aにおいて輪郭を囲った領域の拡大図を図示する。
【図4D】図4Dは、図4Bにおいて輪郭を囲った領域の拡大図を図示する。
【図5】図5は、本発明による675万のメンバーのジアミンライブラリーから種々の方法論によって選択した場合の10個の無作為に選択された「リード」の各々に対して最も類似する、10セットの1000個の化合物についての平均類似性スコアを図示する。
【図6】図6は、従来の方法論および本発明によるコンビナトリアルニューラルネットワーク方法論を用いた類似性検索について必要とされる中央処理装置時間の比較を図示する。
【図7】図7は、2つのコンビナトリアルライブラリーから選択された生成物のトレーニングセットと試験セットとを比較する、本発明によって推定された生成物の特性の質を図示する。
【図8】図8は、本発明によって推定された生成物特性の質を、トレーニングセットサイズの関数として図示する。
【図9A】図9Aは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9B】図9Bは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9C】図9Cは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9D】図9Dは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9E】図9Eは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図10】図10は、本発明による629万のメンバーのUgi仮想ライブラリーから種々の方法論によって選択された場合に、10個の無作為に選択された「リード」に対して最も類似する、10セットの1000個の化合物についての平均類似性スコアおよび同一性パーセントの表を図示する。
【図11】図11は、Ugi反応に基づく4成分コンビナトリアルライブラリーについての反応スキームを図示する。
【図12】図12は、ジアミンコアおよび2セットのアルキル化剤/アシル化剤を含む、2工程還元的アミノ化反応に基づく、3成分コンビナトリアルライブラリーについての反応スキームを図示する。
【図13】図13は、本発明が演算し得る例示的な計算環境を図示する。
(発明の分野)
本発明は、コンビナトリアル化学およびコンピュータ支援分子設計に関する。本発明はまた、パターン分析、情報提示、情報カルトグラフィおよびデータマイニングに関する。特に、本発明は、コンビナトリアル化学ライブラリー中の生成物の測定可能な特性または計算した特性をそれらの対応する試薬の特徴に基づいて推測することに関する。
【0002】
(発明の背景)
アルゴリズムの効率は、コンピュータ薬物設計において長期にわたる目的である。効率についての必要性が、コンビナトリアル化学においてと同様に懇願されている他の問題は化学にはおそらく存在しない。関連分野の当業者によって理解されるように、大きなコンビナトリアル化学ライブラリーの仮想スクリーニングにおける重大な妨害は、生成物の明白な数え上げ法およびそれらの適切な特性の計算である。
【0003】
それが分子の多様性、分子の類似性、構造−活性の相関または構造に基づく設計に基づこうとそうでなかろうと、コンビナトリアル実験の設計は代表的に、仮想ライブラリーにおけるあらゆる可能な生成物の数え上げおよび手元のアプリケーションに適切であると考えられる重要な分子特性の計算を含む。
【0004】
【表1】
仮想ライブラリーをスクリーニングするための、生成物に基づくいくつかの方法論が開発されている。
【0005】
【表2】
しかし、生成物に基づくこれらの方法論は、大きなコンビナトリアルライブラリー、すなわち、多数の可能な生成物を含むライブラリーに適用する場合、非現実的となる。このような場合、最も通常の解決法は、仮想ライブラリーからの生成物のより小さなサブセットへと注目を制限すること、または各置換部位が他の全てから独立しているとみなすことである。
【0006】
【表3】
不幸にも、試薬に基づく設計と呼ばれる後者のアプローチはしばしば、最初の設計目的を満たすことに関して、劣った結果を生じる。
【0007】
【表4】
それゆえ、上記で考察した限界を有さない、大きなコンビナトリアル化学ライブラリーをスクリーニングするために用いられ得る、方法、システムおよびコンピュータプログラム製品についての必要性が存在する。
【0008】
(発明の要旨)
本発明は、ライブラリー構築ブロックの特徴から、コンビナトリアルライブラリー生成物の特性を決定するための、方法、システムおよびコンピュータプログラム製品を提供する。
【0009】
本明細書中で記載される通り、少なくとも1つの特徴は、複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについて決定される。生成物のトレーニングサブセットは、コンビナトリアルライブラリーの複数の生成物から選択され、そして少なくとも1つの特性は、生成物のトレーニングサブセットの各生成物について決定される。構築ブロックセットは、生成物のトレーニングサブセットの各生成物について同定され、そしてインプット特徴ベクトルは、生成物のトレーニングサブセットの各生成物について形成される。スーパーバイズされた機械学習アプローチを用いて、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルを、生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数を推論する。マッピング関数を推論した後、これは、このライブラリーの他の生成物の特性を決定、推定または予想するために用いられる。他の生成物の特性は、推論されたマッピング関数を用いて、それらの対応するインプット特徴ベクトルから決定、推定または予想される。構築ブロックセットは、コンビナトリアルライブラリーの複数のさらなる生成物について同定される。インプット特徴ベクトルは、複数のさらなる生成物について形成される。複数のさらなる生成物についてのインプット特徴ベクトルは、マッピング関数を用いて変換されて、複数のさらなる生成物の各々についての少なくとも1つの推定特性が得られる。
【0010】
本発明の実施形態では、測定値および/または計算値は両方とも、コンビナトリアルライブラリーの構築ブロックについての特徴として用いられる。測定値および/または計算値はまた両方とも、トレーニングサブセットの生成物についての特性として用いられる。本発明の実施形態では、構築ブロックの特徴の少なくとも1つは、生成物の特性の少なくとも1つと同じである。
【0011】
本発明の実施形態では、マッピング関数は、多層パーセプトロンを用いて実行される。多層パーセプトロンは、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルおよび対応する少なくとも1つの特性を用いて、マッピング関数を実行するためにトレーニングされる。
【0012】
本発明の実施形態では、コンビナトリアルライブラリーの構築ブロックとしては、コンビナトリアルライブラリーを構築するために用いられる試薬が挙げられる。他の実施形態では、コンビナトリアルライブラリーの構築ブロックとしては、コンビナトリアルライブラリーを構築するために用いられる試薬のフラグメントが挙げられる。なお他の実施形態では、コンビナトリアルライブラリーの構築ブロックとしては、コンビナトリアルライブラリーを構築するために用いられる試薬の改変フラグメントが挙げられる。
【0013】
本発明のさらなる実施形態、特徴および利点、ならびに本発明の種々の実施形態の構造および演算は、添付の図面を参照して、以下に詳細に記載される。
【0014】
(本発明の詳細な説明)
本発明の実施形態は、ここで、図面を参照して記載される。図面においては、同様の参照番号は、同一または機能的に類似の構成要素を示す。図面においてはまた、各参照番号の最も左側の桁は、最初にその参照番号が用いられた図面に対応する。特定の構成および配置を考察するが、これは、例示の目的のためにのみ行われることが理解されるべきである。関連技術分野の当業者は、本発明の趣旨および範囲から逸脱することなく、他の構成および配置が用いられ得ることを認識する。本発明が、種々の他のデバイスおよび適用においても用いられ得ることもまた、関連技術分野の当業者に明らかである。
【0015】
(本発明の概要)
本発明は、ライブラリー構築ブロックの特徴からコンビナトリアルライブラリー生成物の特性に関連した値を決定、推定または予測することをわからせる。演算時には、構築ブロックの少なくとも1つの特徴が決定されるか、検索されるかまたは入手される。生成物のトレーニングサブセットは、生成物から選択され、そして少なくとも1つの特性についての値が、トレーニングサブセットの各生成物について決定されるか、検索されるかまたは入手される。構築ブロックセットは、トレーニングサブセットの各生成物について同定され、そしてインプット特徴ベクトルは、トレーニングサブセットの各生成物について形成される。スーパーバイズされた機械学習アプローチを用いて、トレーニングサブセットの各生成物についてのインプット特徴ベクトルを、トレーニングサブセットの各生成物についての少なくとも1つの特性の対応する値へと変換するマッピング関数を推論する。マッピング関数を推論した後、これを用いて、対応するインプット特徴ベクトルから、ライブラリーの他の生成物の特性を決定するか、推定するかまたは予測する。
【0016】
(本発明の方法の実施形態)
1つの実施形態では、本発明は、化合物の電子ライブラリーに適用される。しかし、本発明は、この例に限定されない。
【0017】
コンビナトリアル化学ライブラリーは、多数の化学「構築ブロック」(例えば、試薬)を合わせることによって生成される化合物または「生成物」の収集物である。例えば、線形コンビナトリアル化学ライブラリー(例えば、ポリペプチドライブラリー)は、アミノ酸と呼ばれる化学構築ブロックのセットを、所定の化合物長さ(すなわち、ポリペプチド化合物中のアミノ酸数)について、あらゆる可能な方法でまたはほぼあらゆる可能な方法で合わせることによって形成される。理論的には、数百万の生成物が、構築ブロックのこのようなコンビナトリアル混合を介して合成され得る。あるコメンテーターは、100個の交換可能な化学構築ブロックの系統的コンビナトリアル混合が、1億のテトラマー化合物または100億のペンタマー化合物の理論的合成をもたらすことを観察した(Gallopら,「Applications of Combinatorial Technologies to Drug Discovery,Background and Peptide Combinatorial Libraries」,J.Med.Chem.37,1233−1250(1994))。関連技術分野の当業者によって理解されるように、コンビナトリアルライブラリーは、コンビナトリアルライブラリーP、{pl1j...lij...lrj、i=1、2、...、r;j=1,2...、ri}として数学的に表され得、ここで、rは、コンビナトリアルライブラリーP中の変化部位の数を表し、そしてriは、i番目の変化部位での構築ブロックの数を表す。
【0018】
本明細書中で用いられる場合、用語「構築ブロック」とは、試薬、試薬のフラグメント、および/または試薬の改変フラグメントをいう。本発明の実施形態では、コンビナトリアルライブラリーの構築ブロックは、コンビナトリアルライブラリーを構築するために用いられる試薬を含む。他の実施形態では、構築ブロックは、コンビナトリアルライブラリーを構築するために用いられる試薬のフラグメントおよび/またはコンビナトリアルライブラリーを構築するために用いられる試薬の改変フラグメントを含み得る。
【0019】
図1Aおよび図1Bは、コンビナトリアル化学ライブラリーの生成物の測定可能な特性または計算可能な特性を、それらの対応する試薬の特徴に基づいて決定、推定または予想するための方法100の工程のフローチャートを図示する。方法100はここで、図1Aおよび図1Bに図示される工程を参照して記載される。
【0020】
工程110では、少なくとも1つの特徴(記述子)が、複数の生成物{aijk、i=1、2、...、r;j=1、2、...、ri;k=1、2、...、ni}を有するコンビナトリアルライブラリーの各構築ブロックについて決定され、ここで、rは、コンビナトリアルライブラリーP中の変化部位の数を表し、riは、i番目の変化部位での構築ブロックの数を表し、そしてniは、i番目の変化部位での各構築ブロックを特徴付けるために用いられる特徴の数を表す。本明細書中で使用される場合、特徴の値は、例えば、値を計算すること、または予め計算された値もしくは測定された値を記憶媒体から検索することによって決定され得る。
【0021】
本発明の1つの実施形態では、位相記述子は、構築ブロックの特徴として計算される。本発明の別の実施形態では、全分散の99%を捕獲するために必要とされる主な成分は、この構築ブロックについて計算された位相記述子から計算される。決定され得る他の例の記述子または特徴としては、量子力学特性、ファルマコフォア(pharmacophoric)特性、BCUT特性および/または他の分子特性が挙げられる。決定され得るなお他の記述子または特徴は、本明細書中の本発明の説明を考慮すれば、関連技術分野の当業者に公知である。
【0022】
本発明の1つの実施形態では、構築ブロックの特徴の少なくとも1つは、計算値である。別の実施形態では、構築ブロックの特徴の少なくとも1つは、測定値である。いずれかの実施形態では、特徴値は、例えば、情報記憶デバイスから入手または検索され得る。
【0023】
工程120では、生成物のトレーニングサブセットが、コンビナトリアルライブラリーの複数の生成物から選択される。1つの実施形態では、生成物のトレーニングサブセット{pi、i=1、2、...、m;pi∈P}は、コンビナトリアルライブラリーPから選択され得る。この生成物のトレーニングサブセットは、いくつかの様式で選択され得る。例えば、生成物のトレーニングサブセットは、無作為に選択され得る。別の実施形態では、生成物のトレーニングサブセットは、コンビナトリアル設計方法を用いて選択され得る。なお別の実施形態では、生成物のトレーニングサブセットは、多様性に基づく選択技術を用いて選択され得る。無作為選択の場合、特定のトレーニングサブセットの組成は、トレーニングサブセットが充分に大きい限り、推論されたマッピングの質に対して、ほとんど影響を与えない。本明細書中の記載を考慮した関連技術分野の当業者によって理解されるように、トレーニングサブセットの大きさは、コンビナトリアルライブラリーの大きさおよび問題のライブラリーにおける変化部位の数に依存する。
【0024】
工程130では、少なくとも1つの特性(記述子)が、生成物のトレーニングサブセットの各生成物について決定される。本明細書中で使用される場合、特性値は、例えば、計算することまたは予め計算された値もしくは測定された値を記憶媒体から検索することによって決定され得る。1つの実施形態では、qの特性は、生成物の選択されたトレーニングサブセットyi={yij、i=1、2、...、m、j=1、2、...、q}において各化合物piについて決定され、ここでqは、1以上である。
【0025】
本発明の1つの実施形態では、生成物の特性の少なくとも1つは、計算値である。別の実施形態では、生成物の特性の少なくとも1つは、測定値である。いずれの実施形態においても、特性値は、例えば、情報記憶デバイスから入手または検索され得る。1つの実施形態では、工程110において決定される、構築ブロックの特徴の少なくとも1つは、工程130において決定される、生成物の特性の少なくとも1つと同じである。別の実施形態では、工程110において決定される、構築ブロックの特徴はいずれも、工程130において決定される、生成物の特性のいずれとも同じではない。
【0026】
工程140では、構築ブロックセットが、生成物のトレーニングサブセットの各生成物について同定される。本明細書中で使用される場合、用語「構築ブロックセット」とは、生成物を作製するために用いられる、少なくとも1つの試薬、試薬のフラグメントおよび/または試薬の改変フラグメントをいう。特定の生成物についての構築ブロックセットは、本明細書中では、この生成物に対応するといわれる。
【0027】
1つの実施形態では、対応する構築ブロック{tij、tij=1、2、...、rj、j=1、2、...、r}は、コンビナトリアルライブラリーPから選択される生成物のトレーニングサブセットの各生成物piについて同定される。
【0028】
工程150では、インプット特徴ベクトルが、生成物のトレーニングサブセットの各生成物について形成される。本明細書中で使用される場合、用語「インプット特徴ベクトル」とは、生成物の構築ブロックセットを構成する1以上の構築ブロックの各々について工程110において決定される特徴を連結することによって形成される、コンビナトリアルライブラリーの特定の生成物についての単一ベクトルをいう。1つの実施形態では、構築ブロックの特徴(例えば、試薬記述子)は、単一アレイへと連結され、そして同じ順番で本発明に従ってコンビナトリアルニューラルネットワークに対して提示される。
【0029】
1つの実施形態では、上記のコンビナトリアルライブラリーPについては、インプット特徴ベクトルは、各生成物piについて同定される、構築ブロックについて工程110において決定される特徴{tij、tij=1、2、...、rj、j=1、2、...、r}を連結して、以下の単一ベクトルとすることによって形成される:
【0030】
【数4】
工程160では、スーパーバイズされた機械学習アプローチを用いて、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルを、生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数を推論する。1つの実施形態では、工程160は、生成物のトレーニングサブセットの各生成物についてのインプット特徴ベクトルおよび対応する少なくとも1つの特性を用いて、本発明に従ってコンビナトリアルニューラルネットワークまたは多層パーセプトロンをトレーニングして、マッピング関数を実行する工程を含む。これは、トレーニングセットT={(xi,yi)、i=1、2、...、m}におけるインプット/アウトプット対からインプット値xiをアウトプット値yiへと変換するマッピング関数fを推論するために、スーパーバイズされた機械学習アプローチを用いた場合に数学的に表され得る。
【0031】
本明細書中で記載される場合、本発明の実施形態は、本明細書中でコンビナトリアルネットワークまたはコンビナトリアルニューラルネットワーク(CNN)と呼ばれる、それらのそれぞれの構築ブロックの特徴から、コンビナトリアル生成物の特性を決定するか、推定するかまたは予想するためにトレーニングされる、特別のクラスのニューラルネットワークを使用する。一般的にいって、コンビナトリアルネットワークは、n1×n2×...×nrニューロンを含むインプット層を含み、ここで、rは、コンビナトリアルライブラリーにおける変化部位の数であり、そしてniは、i番目の変化部位での各構築ブロックを特徴付けるために用いられる特徴の数である。代表的コンビナトリアルネットワークは、変換の複雑さに依存して、少なくとも2つのニューロンを含む1以上の隠れた層およびこのネットワークによって予想される各生成物特徴についての単一ニューロンを有するアウトプット層を含み得る。
【0032】
本発明の1つの実施形態では、3層の充分に連結した多層パーセプトロン(MLP)を用いて、コンビナトリアルネットワークを形成する。これらのネットワークは、標準誤差逆伝搬アルゴリズム(例えば、S.Haykin,Neural Networks,Macmillan,New York (1994)を参照のこと)を用いてトレーニングされ得、そしてロジスティック伝達関数f(x)=1/(1+e−x)は、隠れた層およびアウトプット層の両方について用いられ得る。本発明に従って、各コンビナトリアルネットワークは、固定された数のエポックについてトレーニングされ得るか、または例えば、1.0から0.01へと線形に減少する学習速度および0.8の固定された運動量を用いて、規定のエラー閾値が満たされるまでトレーニングされ得る。各エポックの間、トレーニングパターンまたはサンプルは、無作為化された順番でネットワークへと提示され得る。他の実施形態では、他のコンビナトリアルネットワークが用いられる。
【0033】
本発明によってコンビナトリアルネットワークをトレーニングした後、コンビナトリアルライブラリー(またはその任意のサブセット)を分析またはスクリーニングすることは、構築ブロックの予め計算した特徴を計算または検索する工程、これらを連結して、インプット特徴ベクトルとする工程、およびトレーニングされたコンビナトリアルネットワークを介してインプット特徴ベクトルを供給し、このネットワークが、生成物についての推定または予想された特性をアウトプットする工程を包含する。次いで、推定または予想された特性は、任意のその後の分析、検索または分類のために用いられ得る。本明細書中の記載を考慮した関連技術分野における当業者によって理解されるように、本発明は、起源および複雑さにかかわらず、広範な種々の分子特性に適用され得る。
【0034】
工程160は、マッピング関数を推論した場合またはCNNがトレーニングされてマッピング関数を実行した場合、終了する。
【0035】
工程170では、構築ブロックセットが、コンビナトリアルライブラリーの複数のさらなる生成物について同定される。この工程は、上記の工程140に類似する。
【0036】
工程180では、インプット特徴ベクトルが、複数のさらなる生成物について形成される。この工程は、上記の工程150に類似する。
【0037】
1つの実施形態では、工程170および工程180は、マッピング関数fが決定された後に、生成物pz∈Pについて、対応する試薬{tzj、j=1、2、...、r}を同定する工程、およびそれらの特徴
【0038】
【数5】
を連結して以下の単一ベクトルとする工程を包含する:
【0039】
【数6】
工程190では、複数のさらなる生成物についてのインプット特徴ベクトルは、工程160のマッピング関数を用いて変換されて、複数のさらなる生成物の各々について少なくとも1つの推定特性が得られる。これは、工程160において決定されるマッピング関数(例えば、マッピング関数f)を用いて、マッピングxz→yzとして数学的に表され得、ここで、yzは、生成物pzの特性を表す。本発明の実施形態では、推定または予想される特性は、その後の検索および分析のために記録される。
【0040】
本明細書中の記載を考慮した関連技術分野の当業者によって理解されるように、複数の実施形態では、本発明を用いて、コンビナトリアル化合物の量子力学特性を、それらのそれぞれの構築ブロックの量子力学および/または他の分子特性から推定または予想し得る。例えば、以下の量子力学特性は、本発明に従って予想され得る:分子軌道エネルギー;総電子エネルギー;総エネルギー;生成熱;イオン化ポテンシャル;および双極子モーメント。
【0041】
他の実施形態では、本発明を用いて、コンビナトリアル化合物のBCUT特性(固有値)が、それらのそれぞれの構築ブロックのBCUTおよび/または他の分子特性から予測され得る。関連技術分野の当業者に公知であるように、BCUT値は、固有値である。University of Texas,College of PharmacyのR.S.Pearlmanによって説明されるように、分子間相互作用の強さは、原子の電荷、原子分極および原子の水素結合能力に依存する。従って、Pearlmanは、3つのクラスの行列を構築して化合物を表すことを提案する:第1のクラスは、対角に、原子の電荷に関連した値を有し、第2のクラスは、対角に、原子分極に関連した値を有し、そして第3のクラスは、対角に、水素結合能力を有する。Pearlmanはまた、対角外要素について、原子間距離、重なり、計算した結合次数などの関数を含む種々のさらなる規定を用いて提案した(例えば、R.S.Pearlman,Novel Software Tools for Addressing Chemical Diversity,http://www.netsci.org/Science/Combichem/featrure08.html.を参照のこと)。Pearlmanによれば、これらの行列の最小および最大の固有値(すなわち、BCUT値)は、分子の構造の局面を反映する。
【0042】
複数の実施形態では、本発明をまた用いて、コンビナトリアル化合物のファルマコフォア特性を、それらのそれぞれの構築ブロックのファルマコフォア特性および/または他の分子特性から予想し得る。関連技術分野の当業者に公知であるように、ファルマコフォアは、レセプターまたはレセプターの活性部分によって認識されてこれらと相互作用するとみなされる、原子または原子の基の空間的相互配向である。レセプターは、係留または会合している細胞膜の複雑な分子構造の内在部分である、タンパク質、酵素またはポリヌクレオチドのような高分子構造として想像され得る。認識エレメントまたはレセプター部位は、リガンドとの相互作用の認識が起こり得て、薬理学的効果をもたらすように配向される。
【0043】
本明細書中の記載を考慮した関連分野における当業者によって理解されるように、本発明は、コンビナトリアル化合物の上記の特性だけを、それらのそれぞれの構築ブロックの特性から予想するために用いられることには制限されない。例えば、本発明を用いて、図9A〜図9Eに列挙される117個の位相記述子を推定または予想し得る。本発明をまた用いて、コンビナトリアル化合物の多くの他の特性を、それらのそれぞれの構築ブロックの特性から予想し得る。
【0044】
(結果および考察)
この節では、本発明の方法の実施形態について得られる結果を提示および考察する。本発明による3つの異なるコンビナトリアルネットワークアーキテクチャを、以下に記載される2つのコンビナトリアルライブラリーを用いて調べた。調べたネットワークアーキテクチャは、以下であった:(1)各試薬からの単一の特徴(記述子)をインプットとし、そして生成物についての単一の特性(記述子)を生じる、ネットワーク、(2)各試薬からの複数の特徴(記述子)をインプットとし、そして生成物についての単一の特性(記述子)を生じる、ネットワーク、ならびに(3)各試薬からの複数の特徴(主成分)をインプットとし、そして生成物についての単一の特性(主成分)を生じる、ネットワーク。第一のアーキテクチャカテゴリは、本明細書中で単一インプット単一アウトプット(SISO)パーセプトロンといわれる。第二および第三のアーキテクチャカテゴリは、本明細書中で複数インプット単一アウトプット(MISO)パーセプトロンといわれる。
【0045】
各アーキテクチャの性能を、3つの統計尺度を用いて評価した:(1)生成物の実際の特性(記述子)と予想された特性(記述子)との間の相関係数、(2)Pearson相関係数によって測定された場合の類似性行列のひずみの量、および(3)類似性検索および文脈に基づく検索に対するこのひずみの影響。関連技術分野の当業者にはわかるように、類似性検索は、最も通常の形態の仮想スクリーニングを表す。これは、「類似特性原理」、すなわち、構造的に類似した化合物は、類似した物理化学的特性および生物学的特性を示す傾向があるという基本的考えに基づく(Johnson,M.A.およびMaggiora,G.M.,Concepts and Applications of Molecular Similarity,Wiley(1990)を参照のこと)。従って、いくつかの所望の生物学的効果を有する化合物のセットを考慮して、これらのうちのいくつかがより強力であるか、より選択的であるか、または元のリードとは別のいくつかの他の方法において、より適切であることを予想して、類似した化合物を同定しようとする。本明細書中に記載される評価の目的のために、2つの化合物または2つの生成物の間の類似性を、元の位相特徴における分散の99%を保存した、主成分によって形成される、多次元空間におけるそれらのEuclidean距離(Willett,P.;Barnard,J.M.;Downs,G.M.Chemical Similarity Searching,J.Chem.Info.Comput.Sci.,38,983−996(1998)を参照のこと)によって測定した。
【0046】
最も単純なアーキテクチャは、一連のネットワークを含み、これらの各々は、対応する試薬のその記述子の値から単一生成物記述子の値を予想するためにトレーニングされる。従って、r成分を有するライブラリーについて、各生成物記述子は、rインプットおよび1アウトプットノード(本明細書以後、r−h−1と示される)を有するSISOネットワークによって評価され、ここで、hは、隠れたノードの数である。このアプローチは、トレーニングの単純さおよび容易さ、ならびに個々の生成物記述子へのアクセスを提供する。図9A〜図9Eに図示されるように、本発明のこの実施形態は、本発明を評価するために用いた117の位相記述子うちの約80%についてよくはたらく。図9A〜図9Eに列挙した記述子のうちの約20%は、この実施形態を用いて信頼性よくは予想されなかった。
【0047】
本発明によるCNNが、個々の記述子を推定する能力は、シナプスパラメーターの数を増やすこと、およびトレーニングデータに、好首尾の予測のために必要とされるさらなる情報を提供し得る他の試薬記述子を付加することによって改善され得る。これによって、形態r×n−h−1のネットワークトポロジーがもたらされ、ここで、nは、試薬あたりのインプット記述子の数である。本発明のこの実施形態と共に用いられるさらなる記述子は、種々の方法で選択され得る。例えば、段階的回帰分析において用いられる特徴選択アルゴリズムと類似の特徴選択アルゴリズムを用い得る。これは、記述子の全ての可能な対を試し、そして最良の対を選択し、次いで固定された最初の2つの記述子を保つ全ての可能なトリプレットを試し、そして最良のトリプレットを選択し、そして誤差閾値の所定の数の記述子が満たされるまでこのようにして続けることを含む。しかし、実際には、このかなり徹底的なアルゴリズムは不必要である。良好な結果は、以下のアプローチを用いて入手され得る。最初に、各試薬と各生成物記述子との間の相関係数が計算され、そして一連のSISOネットワークを本明細書中に記載される様式でトレーニングされる。次いで、適切にはモデル化され得ない各生成物記述子(例えば、0.9未満のトレーニングR2を有する生成物記述子)について、この生成物記述子に最も高度に相関している2つの試薬記述子は、このトレーニングデータに加えられ、そして新たなMISOネットワークがトレーニングされる。Ugiライブラリー(図11を参照のこと)に適用される場合、このアプローチは、トレーニングセットおよび試験セットの両方について高い精度で117全ての記述子を予想し得たニューラルネットワークのアレイをもたらした(図9A〜図9Eを参照のこと)。図9A〜図9Eに図示されるように、実際の記述子と予想された記述子との間の相関係数は、約0.77〜約1.0の範囲にわたった。より小さな値は代表的に、より複雑な特性(例えば、Bonchev−Trinajstic情報インデックス
【0048】
【数7】
(Bonchev,D.およびTrinajstic,N.,J.Chem.Phys.67,4517−4533(1977)を参照のこと)およびKappa型インデックス3κα(Hall L.H.およびKier,L.B,The Molecular Connectivity Chi Indexes and Kappa Shape Indexes in Structure−Property Relations,Reviews of Computational Chemistry,Boyd,D.B.およびLipkowitz,K.B.編,VCH Publishers,第9章,367−422(1991)を参照のこと)と関連する。
【0049】
分子類似性に対する影響を評価するために、最適化されたネットワークをフィード−フォワード様式で用いて、Ugiライブラリーにおける629万全ての化合物の記述子を推定した。これらの記述子をその後、トレーニングセットから誘導した回転行列を用いて脱相関(decorrelate)し、そして得られた対をなす距離のPearson相関係数を計算した。2セットの記述子(計算値対推定値)を用いて計算された類似性係数間の相関を測定する、この統計は、0.99の値を有し、これは、ほぼ完全な再現を示す。本明細書中で使用される場合、用語「計算された」とは、従来の方法で計算された記述子をいい、そして用語「推定された」とは、ニューラルネットワークによって生成された記述子をいう。
【0050】
この精度はまた、Ugiライブラリーから「リード」として無作為に選択された10の化合物を用いる類似性検索の文脈において反映された。特に、これらのリードの各々に対して最も類似した1000の化合物を、計算された記述子および推定された記述子の両方から誘導されたPCを用いて同定し、そしてこれらの類似性スコアを比較した。図10は、得られた結果のまとめを示す。
【0051】
直接比較を可能にするために、推定された記述子を用いて得られたヒットリストは充分に数え上げられ、そしてそれらの類似性スコアは、従来の様式で計算された、計算記述子を用いて再評価されたことに留意すること。図3に示すように、10全ての場合において、2つの設計は、ほぼ同一のスコアおよび非常に類似した内容を有し、重複は、75パーセント〜86パーセントの範囲にわたった(図10を参照のこと)。リードのうちの1つについてのこれらの選択の等価物を、図4A〜図4Dの非線形マップにおいてグラフとして図示する。図4Aおよび図4Cは、計算された記述子についての場合を図示する。図4Bおよび図4Dは、推定された記述子についての場合を図示する。図4Cおよび図4Dは、図4Aおよび図4Bにおいて輪郭を囲った領域の拡大図である。
【0052】
スクリーニングプロセス全体(トレーニングセットの数え上げ、ネットワークトレーニング、脱相関および類似性検索を含む)は、35分間のCPU時間しか必要としなかった。図6に図示するように、これは、直接的アプローチと比較して、30倍の処理量改善を表す。
【0053】
主成分はしばしば所望のアウトプットであるので、顕著な改善は、個々の記述子の評価が回避され、そしてコンビナトリアルネットワークをトレーニングして主成分を直接予想する場合、達成され得る。本明細書中で示される通り、高次元データセットは、ほぼ常に冗長である。例えば、図9A〜図9Eに図示される117の位相記述子は、偏差への寄与における何らかの有意な喪失を伴わずに、25〜30の潜在的変数に減らされ得る。相関した変数の存在は、2つの重要な方法において分子の類似性に影響を与える:(1)冗長な特徴は、より高い重みが有効に考慮され、そして(2)データ分析のために必要とされる計算機努力において実質的かつ不必要な増大が存在する。
【0054】
本発明を、以下の通りに本明細書中に記載されるコンビナトリアルライブラリーを用いて評価した。10,000の化合物のサンプルセットをUgiライブラリー全体から無作為に選択し、そして図9A〜図9Eに列挙した117の位相記述子のセットを用いて特徴付けた。これらの記述子を正規化し、そして25の主成分へと脱相関し、これは、このデータ中の総偏差の99%を占めた。さらに、Ugiライブラリー全体を作製する際に関与した全ての試薬を記述子の同じセットによって記載し、そして独立して正規化し、そして同じ偏差カットオフを用いて27の主成分に脱相関した。
【0055】
これらのデータを用いて25のCNNのアレイ(PC−MISOと示される)を開発し、この各々をトレーニングして、4つのインプット試薬の各々から、27全てのPCを用いて生成物PCのうちの1つを予想した。従って、各ニューラルネットワークは、108のインプットニューロン、2つの隠れたニューロンおよび1つのアウトプットニューロンから構成されていた。実験は、隠れたニューロンの数を2つを超えて増やすことは、得られるネットワークの予測能力における何の有意な改善も提供しないことを示した。
【0056】
10,000のインプット−アウトプット対のセットを、サンプルの90%を含むトレーニングセットおよびサンプルの残りの10%を含む試験セットへと無作為に分けた。各ニューラルネットワークを、100のエポックについてトレーニングセットでトレーニングしたかまたは所定の誤差閾値が満たされるまでトレーニングした。一旦トレーニングが完了したら、コンビナトリアルネットワークをフリー−フォワード様式で用いて、Ugiライブラリーにおける629万全ての化合物について25のPCを予想し、次いで、これを用いて、本明細書中に記載される10の「リード」の各々に対して最も類似した1000の化合物を同定した。
【0057】
得られた選択物を、「計算した」PCを用いて最終的に評価し、そして理想溶液と比較した(図10を参照のこと)。さらに、10全ての場合において、選択物は、「計算した」記述子を用いて誘導した選択物に対して非常に類似しており、そして選択された化合物のそれらの類似性スコアおよび80%〜85%の範囲にわたる同一性の両方に関して、通常のSISOおよびMISO CNNを用いて誘導された選択物よりもわずかに良好であった(図10を参照のこと)。
【0058】
スクリーニングプロセス全体は、800MHzのPentium(登録商標)IIIプロセッサで39分間しか必要としなかった。
【0059】
本発明の一般性を確認するために、3成分ジアミンライブラリーからの同様の型の選択を、試薬および生成物の両方について117の位相記述子の同じセットを用いて行った(図12を参照のこと)。この場合、29および28のPCは、それぞれ試薬記述子および生成物記述子の偏差の99%を捕捉するために必要であった。従って、3−3−1 SISOネットワークおよび9−3−1 MISOネットワークを用いて個々の記述子を予想し、そして87−3−1 PC−MISOネットワークを主成分の推定のために用いた。
【0060】
Ugiライブラリーについてと同様に、10のリードを、ライブラリー全体から無作為に選択し、そしてこれらのリードの各々について最も類似した1000の化合物を、正確な記述子および近似の記述子の両方から誘導したPCを用いて同定した。再度、近似のPCを用いて得られた選択物は、理想溶液に対して実質的に同一であり、PC−MISO予想によって、わずかに良好な類似性スコアがもたらされた(図5を参照のこと)。
【0061】
類似性行列の正確な再現は、性能における印象的な利得を伴う(図6を参照のこと)。両方のライブラリーについて、SISO、MISOおよびPC−MISO CNNのトレーニングは、匹敵する実行時間を必要としたが、後者は、わずかだが一貫して良好に実施された。一方、SISOネットワークおよびMISOネットワークは、個々の記述子に対するアクセスを提供し、これは、適用(例えば、多様性プロファイリング、ADMEモデリング、および構造−活性相関)においてさらなる有用性を有し得る。本明細書中に記載される評価に基づいて、複数のアウトプットノード(すなわち、複数の生成物記述子または主成分を生じる複数インプット複数アウトプット(MIMO)パーセプトロン)を有するネットワークは、トレーニングすることがより難しい傾向があり、そして単一アウトプットネットワークの集団を用いて得られた結果よりも精度の低い結果を生じた。
【0062】
上記のように、任意の機械学習アルゴリズムについての共通の関心は、トレーニングセットの性質に対するその依存性である。本明細書中に記載されるCNNによって得られる予想の質に対するトレーニングセットの組成の効果を調べるために、10,000の化合物のうちの10の無作為サンプルをUgiライブラリーから引き出し、そしてこれを用いて、25のPC−MISOネットワークのうちの10の異なるセットをトレーニングした。10全ての試行について「正確な」PCおよび「近似の」PCを用いて計算した、対をなす距離の間の平均R2は、トレーニングセットおよび試験セットについてそれぞれ、0.9951±0.0004および0.9951±0.0006であった。R2を、2つのPC空間において無作為に選択された1,000,000の化合物対の間のEuclidean距離を比較することによって計算した。類似した標準偏差もまた、ジアミンライブラリーについて観察された(トレーニングセットおよび試験セットについて、0.0003および0.0007)(図7を参照のこと)。この結果は、本発明によるCNNのトレーニングが、安定かつ収束性の両方であることを示唆する。
【0063】
無作為選択の場合、トレーニングセットのサイズは、このサイズが各試薬を充分にサンプルするに充分に大きいままである限り、予想の質に対して中程度の影響を有する。予想は、トレーニングセットのサイズが大きくなるにつれて改善され、そして数千のサンプルになった後は、最終的にプラトーに達する(図8を参照のこと)。Ugiライブラリーについて、予想での改善は、トレーニングセットのサイズが10,000の化合物から20,000の化合物へと二倍になった場合、実質的に全く存在しなかったが、これは、R2における差が依然として顕著な場合、ジアミンライブラリーには当てはまらなかった。この結果についての理由は、これらのライブラリーの構築に関与する試薬の数(Ugiライブラリーについては254、そしてジアミンライブラリーについては400)の差、および所定のサンプルサイズについては、各個々の試薬が、Ugiライブラリーにおいて、より広範囲にサンプリングされるという事実にほぼ確実に関連している。より大きなトレーニングセットを用いる欠点は、記述子の計算およびネットワークのトレーニングのために、より長い時間が必要とされることである。従って、一般に、サンプルサイズは、計算コストの増加に対して、より高い精度の利点を重み付けすることによって決定されるべきである。
【0064】
(コンビナトリアルライブラリー)
この節では、本発明を評価するために用いられる2つの例であるUgiコンビナトリアルライブラリーおよびジアミンコンビナトリアルライブラリーを記載する。
【0065】
本発明を評価するために用いられた最初のコンビナトリアルライブラリーは、629万の化合物を含むUgiライブラリーであった。図11は、Ugi反応に基づいて4成分コンビナトリアルライブラリーを作製するための反応スキーム1100を図示する。本発明を評価するために用いられるUgiライブラリーを、Available Chemicals Directory(MDL Information Systems,Inc.,140 Catalina Street,San Leandro,CA 94577)から無作為に選択した、100の酸、100のアミン、37のアルデヒドおよび17のイソニトリルのセットを用いて構築した。
【0066】
本発明を評価するために用いられた第二のコンビナトリアルライブラリーは、675万の化合物を含むジアミンライブラリーであった。図12は、ジアミンコアおよび2セットのアルキル化/アシル化剤を含む2工程還元的アミノ化反応に基づくコンビナトリアルライブラリーについての反応スキーム1200を図示する。本発明を評価するために用いられたジアミンライブラリーを、Available Chemicals Directoryから無作為に選択した、1セットの300のジアミンおよび2セットの150のアルキル化/アシル化剤を用いて構築した。
【0067】
Ugiライブラリーおよびジアミンライブラリーのサイズを、これらのライブラリーの徹底的検索が、本明細書中に記載された本発明の方法の実施形態を用いて得られた結果を確認するために可能であるように、意図的に制限した。これらのライブラリーの試薬および生成物の両方を、1セットの117の位相記述子(分子連結インデックス、κ形状インデックス、部分グラフカウント、情報の理論的インデックス、Bonchev−Trinajstisインデックスおよび位相状態インデックスを含む)によって特徴付けた。これらの記述子は、構造−活性分析において証明された追跡記録を有し、連結表から直接計算され得、そして医薬品化学者の分子類似性の認識と一貫している。さらに、これは、適切な「近傍挙動」を示すことが示され、従って、多様性分析および類似性検索によく適している。これらのデータを続いて正規化し、そして主成分分析(PCA)を用いて脱相関し、25〜29の潜在性変数の直交セットを得た。これは、このデータにおける総偏差の99%を占めた。PCAのプレプロセシング工程は、グラフ−理論的記述子に代表的な、データにおける重複および冗長性を除去するために必要であった。
【0068】
図4A〜図4Dにおいて図示される非線形マップについて、この多次元データを、「Method,System,And Computer Program Product For Representing Object Relationships In A Multidimensional Space」との発明の名称の、2001年4月3日に出願した米国特許出願第09/823,977号に記載される方法論を用いて二次元にさらに減らした。多次元主成分空間における点の間の対をなす距離を、図4A〜図4Dの二次元非線形マップにおいて保存した。図4A〜図4Dの二次元非線形マップを用いて、本明細書中に記載される生成物選択を可視化し、これを、全ての有意な主成分を用いて実施した。
【0069】
(まとめ)
上記に記載されるように、本発明の方法を用いて、試薬の特徴を用いて生成物の特性を推定または予想し得、それによって、仮想コンビナトリアル化学ライブラリーにおいてあらゆる個々の生成物を数え上げ、そして記載する必要性を効果的に除去し得る。数え上げを回避し、そして記述子の評価を、本発明によるコンビナトリアルニューラルネットワークを通した単一フィードフォワードパスと置換することによって、本発明は、他の手段によっては取扱いにくい、莫大なコンビナトリアルライブラリーのインシリコでの特徴付けおよびスクリーニングを可能にする。本発明によって生じる記述子または特性は、計算値というよりは予想値であるが、本発明の予想値と従来方法を用いて得られる計算値との間の何らかの差は最小であり、そして類似性検索に対してほとんどまたは全く影響を有さない。本発明の実施形態は、従来の数え上げ類似性検索方法論よりも1桁を超えて速く、そしてこの差は、調査している仮想ライブラリーのサイズおよびコンビナトリアルの複雑さに伴って増大する。
【0070】
(システムおよびコンピュータプログラム製品の実施形態)
本明細書中の記載を考慮した関連技術分野の当業者によって理解されるように、上記の本発明の方法の実施形態は、システムおよび/またはコンピュータプログラム製品として実行され得る。図13は、本発明の実行を支援する、例であるコンピュータシステム1300を示す。本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組合せを用いて実行され得る。これは、コンピュータシステムまたは他の処理システムにおいて実行され得る。コンピュータシステム1300は、1以上のプロセッサ(例えば、プロセッサ1304)を備える。プロセッサ1304は、コミュニケーションインフラストラクチャ1306(例えば、バスまたはネットワーク)へと連結される。種々のソフトウェアの実施形態は、この例であるコンピュータシステムに関して記載され得る。この説明を読んだ後、他のコンピュータシステムおよび/またはコンピュータアーキテクチャを用いてどのようにして本発明を実行するかが、関連技術分野における当業者に明らかになる。
【0071】
コンピュータシステム1300はまた、主記憶装置1308(好ましくはランダムアクセス記憶装置(RAM))を備え、そしてまた、第二記憶装置1310を備え得る。第二記憶装置1310は、例えば、ハードディスクドライブ1312および/または取り外し可能な記憶ドライブ1314(フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学ディスクドライブなどを表す)を備え得る。取り外し可能な記憶ドライブ1314は、周知の様式で、取り外し可能な記憶装置1318から読み取りおよび/またはこれに書き込みする。取り外し可能な記憶装置1318は、フロッピー(登録商標)ディスク、磁気テープ、光学ディスクなどを表す。理解されるように、取り外し可能な記憶装置1318は、コンピュータソフトウェアおよび/またはデータが記憶された、コンピュータ使用可能な記憶媒体を備える。本発明の1つの実施形態では、取り外し可能な記憶装置1318は、投影されるインプットデータを備え得る。
【0072】
第二記憶装置1310はまた、コンピュータプログラムまたはインプットデータがコンピュータシステム1300へとローディングされるのを可能にする他の類似の手段を備え得る。このような手段は、例えば、取り外し可能な記憶装置1322およびインターフェイス1320を備え得る。このようなものの例としては、プログラムカートリッジおよびカートリッジインターフェイス(例えば、ビデオゲームデバイスにおいて見出されるもの)、取り外し可能なメモリーチップ(例えば、EPROMまたはPROM)および関連ソケット、ならびにソフトウェアおよびデータが、取り外し可能な記憶装置1322からコンピュータシステム1300へと移動されるのを可能にする、他の取り外し可能な記憶装置1322およびインターフェイス1320が挙げられ得る。
【0073】
コンピュータシステム1300はまた、コミュニケーションインターフェイス1324を備え得る。コミュニケーションインターフェイス1324は、ソフトウェアおよびデータが、コンピュータシステム1300と外部デバイスとの間で移動するのを可能にする。コミュニケーションインターフェイス1324の例としては、モデム、ネットワークインターフェイス(例えば、Ethernet(登録商標)カード)、コミュニケーションポート、PCMCIAスロットおよびカードなどが挙げられ得る。コミュニケーションインターフェイス1324を介して移動されるソフトウェアおよびデータは、コミュニケーションインターフェイス1324によって受け取られ得る、電子シグナル、電磁シグナル、光学シグナルまたは他のシグナルであり得る、シグナル1328の形態である。これらのシグナル1328は、コミュニケーションインターフェイス1324へとコミュニケーションパス(すなわち、チャネル)1326を介して提供される。このチャネル1326はシグナル1328を保有し、そしてワイヤまたはケーブル、光ファイバー、電話線、セルラー電話リンク、RFリンクおよび他のコミュニケーションチャネルを用いて実行され得る。本発明の1つの実施形態では、シグナル1328は、投影されるインプットデータを含み得る。
【0074】
コンピュータプログラム(コンピュータ制御論理とも呼ばれる)は、主記憶装置1308および/または第二記憶装置1310に記憶される。コンピュータプログラムはまた、コミュニケーションインターフェイス1324を介して受け取られ得る。このようなコンピュータプログラムは、実行された場合、コンピュータシステム1300が、本明細書中に考察されるように、本発明の特徴を行うのを可能にする。特に、コンピュータプログラムは、実行される場合、プロセッサ1304が本発明の特徴を行うのを可能にする。従って、このようなコンピュータプログラムは、コンピュータシステム1300のコントローラを表す。
【0075】
(結論)
本発明の種々の実施形態を上記で記載してきたが、これらは、例として提示されており、そして限定ではないことが理解されるべきである。関連技術分野の当業者には、詳細な種々の変更が、本発明の趣旨および範囲を逸脱することなく行われ得ることが明らかである。従って、本発明は、上記の例の実施形態のいずれによっても制限されないべきであるが、添付の特許請求の範囲およびそれらの等価物に従ってのみ規定されるべきである。
【0076】
本発明は、添付の図面を参照して記載される。
【図面の簡単な説明】
【図1A】図1Aは、本発明の1つの実施形態に従って、コンビナトリアルライブラリーから、コンビナトリアル生成物の特性を決定するための方法のフローチャートを図示する。
【図1B】図1Bは、本発明の1つの実施形態に従って、コンビナトリアルライブラリーから、コンビナトリアル生成物の特性を決定するための方法のフローチャートを図示する。
【図2】図2は、本発明の1つの実施形態による、例となるコンビナトリアルニューラルネットワークを図示する。
【図3】図3は、本発明による629万のメンバーのUgiライブラリーから種々の方法論によって選択された場合に、10個の無作為に選択された「リード」の各々に対して最も類似する、10セットの1000個の化合物についての平均類似性スコアを図示する。
【図4A】図4Aは、計算された生成物特性を用いて無作為に選択された「リード」に対する最大類似性に基づいて選択された化合物の二次元非線形マップを図示する。
【図4B】図4Bは、本発明に従って、推定された生成物特性を用いて無作為に選択された「リード」に対する最大類似性に基づいて選択された化合物の二次元非線形マップを図示する。
【図4C】図4Cは、図4Aにおいて輪郭を囲った領域の拡大図を図示する。
【図4D】図4Dは、図4Bにおいて輪郭を囲った領域の拡大図を図示する。
【図5】図5は、本発明による675万のメンバーのジアミンライブラリーから種々の方法論によって選択した場合の10個の無作為に選択された「リード」の各々に対して最も類似する、10セットの1000個の化合物についての平均類似性スコアを図示する。
【図6】図6は、従来の方法論および本発明によるコンビナトリアルニューラルネットワーク方法論を用いた類似性検索について必要とされる中央処理装置時間の比較を図示する。
【図7】図7は、2つのコンビナトリアルライブラリーから選択された生成物のトレーニングセットと試験セットとを比較する、本発明によって推定された生成物の特性の質を図示する。
【図8】図8は、本発明によって推定された生成物特性の質を、トレーニングセットサイズの関数として図示する。
【図9A】図9Aは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9B】図9Bは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9C】図9Cは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9D】図9Dは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図9E】図9Eは、本発明に従う、トレーニングされた単一アウトプットネットワークによる、コンビナトリアル生成物の記述子特性の例示的推定の表を図示する。
【図10】図10は、本発明による629万のメンバーのUgi仮想ライブラリーから種々の方法論によって選択された場合に、10個の無作為に選択された「リード」に対して最も類似する、10セットの1000個の化合物についての平均類似性スコアおよび同一性パーセントの表を図示する。
【図11】図11は、Ugi反応に基づく4成分コンビナトリアルライブラリーについての反応スキームを図示する。
【図12】図12は、ジアミンコアおよび2セットのアルキル化剤/アシル化剤を含む、2工程還元的アミノ化反応に基づく、3成分コンビナトリアルライブラリーについての反応スキームを図示する。
【図13】図13は、本発明が演算し得る例示的な計算環境を図示する。
Claims (40)
- コンビナトリアル化学ライブラリーPからの生成物の特性を、それらのそれぞれの構築ブロックの特徴を用いて決定するための方法であって、該方法は、以下の工程:
(1)該コンビナトリアルライブラリーP中の各構築ブロックについて少なくとも1つの特徴{aijk、i=1、2、...、r;j=1、2、...、ri;k=1、2、...、ni}を決定する工程であって、ここで、rは、該コンビナトリアルライブラリー中の変化部位の数を表し、riは、i番目の変化部位での構築ブロックの数を表し、そしてniは、i番目の変化部位での各構築ブロックを特徴付けるために用いられる特徴の数を表す、工程;
(2)生成物のトレーニングサブセット{pi、i=1、2、...、m;pi∈P}を該コンビナトリアルライブラリーPから選択する工程;
(3)該選択された生成物のトレーニングサブセットにおける各化合物piについてq特性を決定する工程であって、ここで、yi={yij、i=1、2、...、m、j=1、2、...、q}は、化合物piの該決定された特性を表し、そしてここで、qは、1以上である、工程;
(4)該生成物のトレーニングサブセットの各生成物piについて、対応する構築ブロック{tij、tij=1、2、...、rj、j=1、2、...、r}を同定して、工程(1)において決定された特徴を連結して、単一ベクトル
(5)スーパーバイズされた機械学習アプローチを用いて、トレーニングセットT={(xi,yi)、i=1、2、...、m}中のインプット/アウトプット対から、インプット値xiをアウトプット値yiへと変換するマッピング関数fを推論する工程;
(6)該マッピング関数fが決定された後、生成物pz∈Pについて、該対応する構築ブロック{tzj、j=1、2、...、r}を同定し、そしてそれらの特徴
(7)工程(5)において決定されたマッピング関数fを用いて、xz→yzをマッピングする工程であって、ここで、yzは、生成物の特性pzを表す、工程
を包含する、方法。 - 工程(1)が、測定値を各構築ブロックについての特徴として用いる工程を包含する、請求項1に記載の方法。
- 工程(1)が、計算値を各構築ブロックについての特徴として用いる工程を包含する、請求項1に記載の方法。
- 工程(3)が、測定値を前記トレーニングサブセットの各生成物についての特性として用いる工程を包含する、請求項1に記載の方法。
- 工程(3)が、計算値を前記トレーニングサブセットの各生成物についての特性として用いる工程を包含する、請求項1に記載の方法。
- 工程(5)が、多層パーセプトロンをトレーニングする工程を包含する、請求項1に記載の方法。
- 工程(1)において決定された特徴の少なくとも1つが、工程(3)において決定された特性の少なくとも1つと同じである、請求項1に記載の方法。
- 前記構築ブロックが、前記コンビナトリアルライブラリーPを構築するために用いられる複数の試薬を含む、請求項1に記載の方法。
- 前記構築ブロックが、前記コンビナトリアルライブラリーPを構築するために用いられる複数の試薬の複数のフラグメントを含む、請求項1に記載の方法。
- 前記構築ブロックが、前記コンビナトリアルライブラリーPを構築するために用いられる複数の試薬の複数の改変フラグメントを含む、請求項1に記載の方法。
- 工程(2)が、生成物のトレーニングサブセットを無作為に選択する工程を含む、請求項1に記載の方法。
- 工程(2)が、コンビナトリアル設計方法を用いて生成物のトレーニングサブセットを選択して、構築ブロックの全ての対をなす組合せを網羅する工程を包含する、請求項1に記載の方法。
- 工程(2)が、多様性測定規準を用いて生成物のトレーニングサブセットを選択して、生成物の多様なサブセットを選択する工程を包含する、請求項1に記載の方法。
- ライブラリー構築ブロックの特徴からコンビナトリアルライブラリー生成物の特性を決定するための方法であって、該方法は、以下の工程:
(1)複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについて、少なくとも1つの特徴を決定する工程;
(2)該コンビナトリアルライブラリーの該複数の生成物から生成物のトレーニングサブセットを選択する工程;
(3)該生成物のトレーニングサブセットの各生成物について、少なくとも1つの特性を決定する工程;
(4)該生成物のトレーニングサブセットの各生成物について、構築ブロックセットを同定する工程;
(5)該生成物のトレーニングサブセットの各生成物についての該構築ブロックセットから、該生成物のトレーニングサブセットの各生成物について、インプット特徴ベクトルを形成する工程;
(6)スーパーバイズされた機械学習アプローチを用いて、
該生成物のトレーニングサブセットの各生成物についての該インプット特徴ベクトルを、該生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性に変換するマッピング関数fを推論する工程;
(7)該コンビナトリアルライブラリーの複数のさらなる生成物について構築ブロックセットを同定する工程;
(8)該複数のさらなる生成物についての該構築ブロックセットから、複数のさらなる生成物についてのインプット特徴ベクトルを形成する工程;および
(9)該マッピング関数fを用いて該複数のさらなる生成物についての該インプット特徴ベクトルを変換して、該複数のさらなる生成物の各々についての少なくとも1つの推定特性を得る工程
を包含する、方法。 - 工程(1)が、測定値を前記コンビナトリアルライブラリーの各構築ブロックについての特徴として用いる工程を包含する、請求項14に記載の方法。
- 工程(1)が、計算値を前記コンビナトリアルライブラリーの各構築ブロックについての特徴として用いる工程を包含する、請求項14に記載の方法。
- 工程(3)が、測定値を前記生成物のトレーニングサブセットの各生成物についての特性として用いる工程を包含する、請求項14に記載の方法。
- 工程(3)が、計算値を前記生成物のトレーニングサブセットの各生成物についての特性として用いる工程を包含する、請求項14に記載の方法。
- 工程(6)が、前記生成物のトレーニングサブセットの各生成物についての前記インプット特徴ベクトルおよび前記対応する少なくとも1つの特性を用いて、多層パーセプトロンをトレーニングする工程を包含する、請求項14に記載の方法。
- 工程(1)において決定された特徴の少なくとも1つが、工程(3)において決定された特性の少なくとも1つと同じである、請求項14に記載の方法。
- 前記コンビナトリアルライブラリーの前記構築ブロックが、前記コンビナトリアルライブラリーを構築するために用いられる複数の試薬を含む、請求項14に記載の方法。
- 前記コンビナトリアルライブラリーの前記構築ブロックが、前記コンビナトリアルライブラリーを構築するために用いられる複数の試薬の複数のフラグメントを含む、請求項14に記載の方法。
- 前記コンビナトリアルライブラリーの前記構築ブロックが、前記コンビナトリアルライブラリーを構築するために用いられる複数の試薬の複数の改変フラグメントを含む、請求項14に記載の方法。
- 工程(2)が、生成物のトレーニングサブセットを無作為に選択する工程を含む、請求項14に記載の方法。
- 工程(2)が、コンビナトリアル設計方法を用いて生成物のトレーニングサブセットを選択して、構築ブロックの全ての対をなす組合せを網羅する工程を包含する、請求項14に記載の方法。
- 工程(2)が、多様性測定規準を用いて生成物のトレーニングサブセットを選択して、生成物の多様なサブセットを選択する工程を包含する、請求項14に記載の方法。
- ライブラリー構築ブロックの特徴からコンビナトリアルライブラリー生成物の特性を決定するためのシステムであって、以下:
複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについての少なくとも1つの特徴を決定するためのモジュール;
該コンビナトリアルライブラリーの該複数の生成物から生成物のトレーニングサブセットを選択するためのモジュール;
該生成物のトレーニングサブセットの各生成物について少なくとも1つの特性を決定するためのモジュール;
該生成物のトレーニングサブセットの各生成物について構築ブロックセットを同定するためのモジュール;
該生成物のトレーニングサブセットの各生成物についての該構築ブロックセットから、該生成物のトレーニングサブセットの各生成物についてインプット特徴ベクトルを形成するためのモジュール;
スーパーバイズされた機械学習アプローチを用いて、該生成物のトレーニングサブセットの各生成物についての該インプット特徴ベクトルを、該生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数fを推論するためのモジュール;
該コンビナトリアルライブラリーの複数のさらなる生成物について構築ブロックセットを同定するためのモジュール;
該複数のさらなる生成物についての該構築ブロックセットから、該複数のさらなる生成物についてインプット特徴ベクトルを形成するためのモジュール;および
該マッピング関数fを用いて、該複数のさらなる生成物についての該インプット特徴ベクトルを変換して、該複数のさらなる生成物の各々についての少なくとも1つの推定特性を得るためのモジュール
を備える、システム。 - ライブラリー構築ブロックの特徴から、コンビナトリアルライブラリー生成物の特性を決定するためのシステムであって、以下:
複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについての少なくとも1つの特徴を決定するための手段;
該コンビナトリアルライブラリーの該複数の生成物から生成物のトレーニングサブセットを選択するための手段;
該生成物のトレーニングサブセットの各生成物について少なくとも1つの特性を決定するための手段;
該生成物のトレーニングサブセットの各生成物について構築ブロックセットを同定するための手段;
該生成物のトレーニングサブセットの各生成物についての該構築ブロックセットから、該生成物のトレーニングサブセットの各生成物についてインプット特徴ベクトルを形成するための手段;
スーパーバイズされた機械学習アプローチを用いて、該生成物のトレーニングサブセットの各生成物についての該インプット特徴ベクトルを、該生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数fを推論するための手段;
該コンビナトリアルライブラリーの複数のさらなる生成物について構築ブロックセットを同定するための手段;
該複数のさらなる生成物についての該構築ブロックセットから、該複数のさらなる生成物についてインプット特徴ベクトルを形成するための手段;および
該マッピング関数fを用いて、該複数のさらなる生成物についての該インプット特徴ベクトルを変換して、該複数のさらなる生成物の各々についての少なくとも1つの推定特性を得るための手段
を備える、システム。 - ライブラリー構築ブロックの特徴からコンビナトリアルライブラリー生成物の特性を決定するためのコンピュータプログラム製品であって、該コンピュータプログラム製品は、プロセッサを制御するための、コンピュータプログラムロジックが記録されたコンピュータ使用可能媒体を備え、該コンピュータプログラムロジックは、以下:
該プロセッサが、複数の生成物を有するコンビナトリアルライブラリーの各構築ブロックについて少なくとも1つの特徴を決定するのを可能にするプロシージャ;
該プロセッサが、該コンビナトリアルライブラリーの該複数の生成物から生成物のトレーニングサブセットを選択するのを可能にするプロシージャ;
該プロセッサが、該生成物のトレーニングサブセットの各生成物について少なくとも1つの特性を決定するのを可能にするプロシージャ;
該プロセッサが、該生成物のトレーニングサブセットの各生成物について構築ブロックセットを同定するのを可能にするプロシージャ;
該プロセッサが、該生成物のトレーニングサブセットの各生成物についての該構築ブロックセットから、該生成物のトレーニングサブセットの各生成物についてインプット特徴ベクトルを形成するのを可能にするプロシージャ;
該プロセッサが、スーパーバイズされた機械学習アプローチを用いて、該生成物のトレーニングサブセットの各生成物についての該インプット特徴ベクトルを、該生成物のトレーニングサブセットの各生成物についての対応する少なくとも1つの特性へと変換するマッピング関数fを推論するのを可能にするプロシージャ;
該プロセッサが、該コンビナトリアルライブラリーの複数のさらなる生成物について構築ブロックセットを同定するのを可能にするプロシージャ;
該プロセッサが、該複数のさらなる生成物についての該構築ブロックセットから、該複数のさらなる生成物についてインプット特徴ベクトルを形成するのを可能にするプロシージャ;および
該プロセッサが、該マッピング関数fを用いて、該複数のさらなる生成物についての該インプット特徴ベクトルを変換して、該複数のさらなる生成物の各々についての少なくとも1つの推定特性を得るのを可能にするプロシージャ
を含む、コンピュータプログラム製品。 - 該プロセッサが、前記生成物のトレーニングサブセットの各生成物についての前記インプット特徴ベクトルおよび前記対応する少なくとも1つの特性を用いて、多層パーセプトロンをトレーニングするのを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、測定値を、前記生成物のトレーニングサブセットの各生成物について特性として用いることを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、計算値を、前記生成物のトレーニングサブセットの各生成物について特性として用いることを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、測定値を、前記コンビナトリアルライブラリーの各構築ブロックについての特徴として用いることを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、計算値を、前記コンビナトリアルライブラリーの各構築ブロックについての特徴として用いることを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記コンビナトリアルライブラリーの前記構築ブロックが、該コンビナトリアルライブラリーを構築するために用いられる複数の試薬を含む、請求項29に記載のコンピュータプログラム製品。
- 前記コンビナトリアルライブラリーの前記構築ブロックが、該コンビナトリアルライブラリーを構築するために用いられた複数の試薬の複数のフラグメントを含む、請求項29に記載のコンピュータプログラム製品。
- 前記コンビナトリアルライブラリーの前記構築ブロックが、前記コンビナトリアルライブラリーを構築するために用いられる複数の試薬の複数の改変フラグメントを含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、前記生成物のトレーニングサブセットを無作為に選択するのを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、コンビナトリアル設計方法を用いて生成物のトレーニングサブセットを選択して、構築ブロックの全ての対をなす組合せを網羅するのを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
- 前記プロセッサが、多様性測定規準を用いて生成物のトレーニングサブセットを選択して、生成物の多様なサブセットを選択するのを可能にするプロシージャをさらに含む、請求項29に記載のコンピュータプログラム製品。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22668200P | 2000-08-22 | 2000-08-22 | |
US23593700P | 2000-09-28 | 2000-09-28 | |
US27423801P | 2001-03-09 | 2001-03-09 | |
PCT/US2001/026144 WO2002017149A2 (en) | 2000-08-22 | 2001-08-22 | Method, system, and computer program product for determining properties of combinatorial library products from features of library building blocks |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004507821A true JP2004507821A (ja) | 2004-03-11 |
Family
ID=27397648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002521771A Pending JP2004507821A (ja) | 2000-08-22 | 2001-08-22 | ライブラリー構築ブロックの特徴からのコンビナトリアルライブラリー生成物の特性を決定するための方法、システムおよびコンピュータプログラム製品 |
Country Status (6)
Country | Link |
---|---|
US (2) | US6834239B2 (ja) |
EP (1) | EP1350193A2 (ja) |
JP (1) | JP2004507821A (ja) |
AU (1) | AU2001286601A1 (ja) |
CA (1) | CA2419600A1 (ja) |
WO (1) | WO2002017149A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005529158A (ja) * | 2002-05-28 | 2005-09-29 | ザ・トラスティーズ・オブ・ザ・ユニバーシティ・オブ・ペンシルベニア | 両親媒性ポリマーのコンピュータ分析および設計のための方法、システムおよびコンピュータプログラム製品 |
JPWO2020090848A1 (ja) * | 2018-10-30 | 2021-09-02 | 昭和電工株式会社 | 材料設計装置、材料設計方法、及び材料設計プログラム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7047137B1 (en) * | 2000-11-28 | 2006-05-16 | Hewlett-Packard Development Company, L.P. | Computer method and apparatus for uniform representation of genome sequences |
US7725299B2 (en) * | 2004-03-01 | 2010-05-25 | Purdue Research Foundation | Multi-tier and multi-domain distributed rapid product configuration and design system |
WO2006004986A1 (en) * | 2004-06-29 | 2006-01-12 | Pharmix Corporation | Estimating the accuracy of molecular property models and predictions |
EP2122542B1 (en) | 2006-12-08 | 2017-11-01 | Medhat Moussa | Architecture, system and method for artificial neural network implementation |
US10515715B1 (en) | 2019-06-25 | 2019-12-24 | Colgate-Palmolive Company | Systems and methods for evaluating compositions |
FR3103047B1 (fr) * | 2019-11-07 | 2021-11-26 | Thales Sa | Procede et dispositif d'apprentissage par reseau de neurones artificiels pour l'aide a l'atterrissage d'aeronef |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61223941A (ja) * | 1985-03-29 | 1986-10-04 | Kagaku Joho Kyokai | 化学構造の検索方法 |
US4773099A (en) * | 1985-10-10 | 1988-09-20 | The Palantir Corporation | Pattern classification means for use in a pattern recognition system |
US4908773A (en) * | 1987-04-06 | 1990-03-13 | Genex Corporation | Computer designed stabilized proteins and method for producing same |
US4859736A (en) * | 1987-03-30 | 1989-08-22 | Ciba-Geigy Corporation | Synthetic polystyrene resin and its use in solid phase peptide synthesis |
US4939666A (en) * | 1987-09-02 | 1990-07-03 | Genex Corporation | Incremental macromolecule construction methods |
US4935875A (en) * | 1987-12-02 | 1990-06-19 | Data Chem, Inc. | Chemical analyzer |
US5010175A (en) * | 1988-05-02 | 1991-04-23 | The Regents Of The University Of California | General method for producing and selecting peptides with specific properties |
US5025388A (en) * | 1988-08-26 | 1991-06-18 | Cramer Richard D Iii | Comparative molecular field analysis (CoMFA) |
US5095443A (en) * | 1988-10-07 | 1992-03-10 | Ricoh Company, Ltd. | Plural neural network system having a successive approximation learning method |
US5265030A (en) * | 1990-04-24 | 1993-11-23 | Scripps Clinic And Research Foundation | System and method for determining three-dimensional structures of proteins |
US5723289A (en) * | 1990-06-11 | 1998-03-03 | Nexstar Pharmaceuticals, Inc. | Parallel selex |
US5167009A (en) * | 1990-08-03 | 1992-11-24 | E. I. Du Pont De Nemours & Co. (Inc.) | On-line process control neural network using data pointers |
US5181259A (en) * | 1990-09-25 | 1993-01-19 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | General method of pattern classification using the two domain theory |
US5155801A (en) * | 1990-10-09 | 1992-10-13 | Hughes Aircraft Company | Clustered neural networks |
US5331573A (en) * | 1990-12-14 | 1994-07-19 | Balaji Vitukudi N | Method of design of compounds that mimic conformational features of selected peptides |
US5260882A (en) * | 1991-01-02 | 1993-11-09 | Rohm And Haas Company | Process for the estimation of physical and chemical properties of a proposed polymeric or copolymeric substance or material |
US5499193A (en) * | 1991-04-17 | 1996-03-12 | Takeda Chemical Industries, Ltd. | Automated synthesis apparatus and method of controlling the apparatus |
WO1993001484A1 (en) * | 1991-07-11 | 1993-01-21 | The Regents Of The University Of California | A method to identify protein sequences that fold into a known three-dimensional structure |
JPH07117950B2 (ja) * | 1991-09-12 | 1995-12-18 | 株式会社エイ・ティ・アール視聴覚機構研究所 | パターン認識装置およびパターン学習装置 |
US5270170A (en) * | 1991-10-16 | 1993-12-14 | Affymax Technologies N.V. | Peptide library and screening method |
US5240680A (en) * | 1991-12-19 | 1993-08-31 | Chiron Corporation | Automated apparatus for use in peptide synthesis |
US6037135A (en) * | 1992-08-07 | 2000-03-14 | Epimmune Inc. | Methods for making HLA binding peptides and their uses |
DE69328640T2 (de) * | 1992-02-07 | 2000-09-28 | Canon Kk | Verfahren und Einrichtung zur Mustererkennung |
US5573905A (en) | 1992-03-30 | 1996-11-12 | The Scripps Research Institute | Encoded combinatorial chemical libraries |
US5295030A (en) * | 1992-06-05 | 1994-03-15 | Seagate Technology, Inc. | Low profile disc clamp |
US5288514A (en) * | 1992-09-14 | 1994-02-22 | The Regents Of The University Of California | Solid phase and combinatorial synthesis of benzodiazepine compounds on a solid support |
US5565325A (en) * | 1992-10-30 | 1996-10-15 | Bristol-Myers Squibb Company | Iterative methods for screening peptide libraries |
JP2513395B2 (ja) * | 1992-11-09 | 1996-07-03 | 株式会社島津製作所 | ペプチドアミド合成用リンカ― |
AU7311994A (en) * | 1993-05-21 | 1994-12-20 | Arris Pharmaceutical Corporation | A machine-learning approach to modeling biological activity for molecular design and to modeling other characteristics |
US5703792A (en) * | 1993-05-21 | 1997-12-30 | Arris Pharmaceutical Corporation | Three dimensional measurement of molecular diversity |
US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
US5585277A (en) * | 1993-06-21 | 1996-12-17 | Scriptgen Pharmaceuticals, Inc. | Screening method for identifying ligands for target proteins |
US5679582A (en) * | 1993-06-21 | 1997-10-21 | Scriptgen Pharmaceuticals, Inc. | Screening method for identifying ligands for target proteins |
US5635598A (en) * | 1993-06-21 | 1997-06-03 | Selectide Corporation | Selectively cleavabe linners based on iminodiacetic acid esters for solid phase peptide synthesis |
US5434796A (en) * | 1993-06-30 | 1995-07-18 | Daylight Chemical Information Systems, Inc. | Method and apparatus for designing molecules with desired properties by evolving successive populations |
JPH0744514A (ja) * | 1993-07-27 | 1995-02-14 | Matsushita Electric Ind Co Ltd | ニューラルネットの学習用データ縮約化方法 |
JP2948069B2 (ja) * | 1993-09-20 | 1999-09-13 | 株式会社日立製作所 | 化学分析装置 |
US5598510A (en) * | 1993-10-18 | 1997-01-28 | Loma Linda University Medical Center | Self organizing adaptive replicate (SOAR) |
EP0754238A4 (en) * | 1994-04-05 | 1998-01-28 | Pharmagenics Inc | DETERMINATION AND IDENTIFICATION OF ACTIVE SUBSTANCES IN SUBSTANCE LIBRARIES |
US5602938A (en) * | 1994-05-20 | 1997-02-11 | Nippon Telegraph And Telephone Corporation | Method of generating dictionary for pattern recognition and pattern recognition method using the same |
US5549974A (en) * | 1994-06-23 | 1996-08-27 | Affymax Technologies Nv | Methods for the solid phase synthesis of thiazolidinones, metathiazanones, and derivatives thereof |
DE69430528T2 (de) * | 1994-07-28 | 2003-01-02 | Ibm | Such/Sortier-Schaltung für Neuronalnetzwerke |
US5463564A (en) * | 1994-09-16 | 1995-10-31 | 3-Dimensional Pharmaceuticals, Inc. | System and method of automatically generating chemical compounds with desired properties |
US5574844A (en) * | 1994-09-22 | 1996-11-12 | International Business Machines Corporation | Computer system and method for processing atomic data to calculate and exhibit the properties and structure of matter |
US5553225A (en) * | 1994-10-25 | 1996-09-03 | International Business Machines Corporation | Method and apparatus for combining a zoom function in scroll bar sliders |
US5712171A (en) * | 1995-01-20 | 1998-01-27 | Arqule, Inc. | Method of generating a plurality of chemical compounds in a spatially arranged array |
US5807754A (en) * | 1995-05-11 | 1998-09-15 | Arqule, Inc. | Combinatorial synthesis and high-throughput screening of a Rev-inhibiting arylidenediamide array |
US5602755A (en) * | 1995-06-23 | 1997-02-11 | Exxon Research And Engineering Company | Method for predicting chemical or physical properties of complex mixtures |
US5811241A (en) * | 1995-09-13 | 1998-09-22 | Cortech, Inc. | Method for preparing and identifying N-substitued 1,4-piperazines and N-substituted 1,4-piperazinediones |
US5734796A (en) * | 1995-09-29 | 1998-03-31 | Ai Ware, Inc. | Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping |
US5712564A (en) * | 1995-12-29 | 1998-01-27 | Unisys Corporation | Magnetic ink recorder calibration apparatus and method |
EP0892963A1 (en) | 1996-01-26 | 1999-01-27 | David E. Patterson | Method of creating and searching a molecular virtual library using validated molecular structure descriptors |
US6185506B1 (en) * | 1996-01-26 | 2001-02-06 | Tripos, Inc. | Method for selecting an optimally diverse library of small molecules based on validated molecular structural descriptors |
US6014661A (en) * | 1996-05-06 | 2000-01-11 | Ivee Development Ab | System and method for automatic analysis of data bases and for user-controlled dynamic querying |
US6026397A (en) * | 1996-05-22 | 2000-02-15 | Electronic Data Systems Corporation | Data analysis system and method |
EP0818744A3 (en) | 1996-07-08 | 1998-07-08 | Proteus Molecular Design Limited | Process for selecting candidate drug compounds |
WO1998020437A2 (en) | 1996-11-04 | 1998-05-14 | 3-Dimensional Pharmaceuticals, Inc. | System, method and computer program product for identifying chemical compounds having desired properties |
US5861532A (en) * | 1997-03-04 | 1999-01-19 | Chiron Corporation | Solid-phase synthesis of N-alkyl amides |
US5908960A (en) * | 1997-05-07 | 1999-06-01 | Smithkline Beecham Corporation | Compounds |
US5933819C1 (en) * | 1997-05-23 | 2001-11-13 | Scripps Research Inst | Prediction of relative binding motifs of biologically active peptides and peptide mimetics |
GB9800462D0 (en) | 1998-01-09 | 1998-03-04 | Everett Richard S H | Apparatus and method for use in the manufacture of chemical compounds |
US6049797A (en) * | 1998-04-07 | 2000-04-11 | Lucent Technologies, Inc. | Method, apparatus and programmed medium for clustering databases with categorical attributes |
-
2001
- 2001-08-22 CA CA002419600A patent/CA2419600A1/en not_active Abandoned
- 2001-08-22 JP JP2002521771A patent/JP2004507821A/ja active Pending
- 2001-08-22 EP EP01966058A patent/EP1350193A2/en not_active Withdrawn
- 2001-08-22 WO PCT/US2001/026144 patent/WO2002017149A2/en not_active Application Discontinuation
- 2001-08-22 US US09/934,084 patent/US6834239B2/en not_active Expired - Lifetime
- 2001-08-22 AU AU2001286601A patent/AU2001286601A1/en not_active Abandoned
-
2004
- 2004-11-29 US US10/999,863 patent/US20050153364A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005529158A (ja) * | 2002-05-28 | 2005-09-29 | ザ・トラスティーズ・オブ・ザ・ユニバーシティ・オブ・ペンシルベニア | 両親媒性ポリマーのコンピュータ分析および設計のための方法、システムおよびコンピュータプログラム製品 |
JPWO2020090848A1 (ja) * | 2018-10-30 | 2021-09-02 | 昭和電工株式会社 | 材料設計装置、材料設計方法、及び材料設計プログラム |
Also Published As
Publication number | Publication date |
---|---|
US6834239B2 (en) | 2004-12-21 |
EP1350193A2 (en) | 2003-10-08 |
WO2002017149A2 (en) | 2002-02-28 |
US20050153364A1 (en) | 2005-07-14 |
CA2419600A1 (en) | 2002-02-28 |
WO2002017149A8 (en) | 2003-09-04 |
WO2002017149A3 (en) | 2003-07-24 |
AU2001286601A1 (en) | 2002-03-04 |
US20020029114A1 (en) | 2002-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6421612B1 (en) | System, method and computer program product for identifying chemical compounds having desired properties | |
US7139739B2 (en) | Method, system, and computer program product for representing object relationships in a multidimensional space | |
US6571227B1 (en) | Method, system and computer program product for non-linear mapping of multi-dimensional data | |
Karlov et al. | Chemical space exploration guided by deep neural networks | |
JP5448447B2 (ja) | ケミカルゲノム情報に基づく、タンパク質−化合物相互作用の予測と化合物ライブラリーの合理的設計 | |
JP2004507821A (ja) | ライブラリー構築ブロックの特徴からのコンビナトリアルライブラリー生成物の特性を決定するための方法、システムおよびコンピュータプログラム製品 | |
US7054757B2 (en) | Method, system, and computer program product for analyzing combinatorial libraries | |
US20040117164A1 (en) | Method and system for artificial intelligence directed lead discovery in high throughput screening data | |
US20230154573A1 (en) | Method and system for structure-based drug design using a multi-modal deep learning model | |
Winkler et al. | Application of neural networks to large dataset QSAR, virtual screening, and library design | |
Agrafiotis et al. | Multidimensional scaling of combinatorial libraries without explicit enumeration | |
Pikalyova et al. | The chemical library space and its application to DNA-Encoded Libraries | |
US6671627B2 (en) | Method and computer program product for designing combinatorial arrays | |
EP4352736A1 (en) | Adversarial framework for molecular conformation space modeling in internal coordinates | |
Eichler et al. | Addressing the problem of molecular diversity | |
Verma et al. | SSnet-Secondary Structure based End-to-End Learning model for Protein-Ligand Interaction Prediction | |
US20050209838A1 (en) | Fast microarray expression data analysis method for network exploration | |
Sadowski | Optimization of the drug-likeness of chemical libraries | |
CN114186692A (zh) | 一种混合式框架下的量子隐马尔可夫算法的方法 | |
Livingstone | Multivariate data display using neural networks | |
Warmuth | Active Learning and Feature Selection in the Drug Discovery Process | |
Kozak et al. | Kernels for chemical compounds in biological screening | |
Kim et al. | A new hybrid approach for unsupervised gene selection | |
ARORA | Aligning Biomolecular Networks | |
SAP et al. | GENERALIZED KERNEL METHODS FOR UNSUPERVISED LEARNING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20070316 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20070511 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080427 |