ここで、例が添付図面に示されている実施形態を詳しく参照する。以下の発明を実施するための形態では、本開示の完全な理解を提供するために多数の具体的な詳細が説明される。しかしながら、本開示がこれらの具体的な詳細なしでも実践され得ることが当業者には明らかとなる。他の例では、実施形態の態様を不必要に分かりにくくしないように、周知の方法、手順、構成要素、回路、及びネットワークは詳細に説明されていない。
また、用語、第1の、第2の等は多様な要素を記述するために本明細書で使用されてよいが、これらの要素がこれらの用語によって制限されるべきではないことも理解される。これらの用語は、ある要素を別の要素から区別するために使用されるにすぎない。例えば、本開示の範囲から逸脱することなく、第1の対象者は第2の対象者と呼ぶことができ、同様に第2の対象者は第1の対象者と呼ぶことができるだろう。第1の対象者及び第2の対象者はともに対象者であるが、第1の対象者及び第2の対象者は同じ対象者ではない。
本開示で使用される用語は、特定の実施形態を説明する目的のためだけであり、本発明の制限することを意図としていない。本発明の明細書及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」、及び「the」は、文脈上明らかに他の意味に解釈すべき場合を除いて複数形も同様に含むことが意図される。また、本明細書で使用される用語「and/or(及び/または)」は、関連付けられ、示されている項目の1つ以上のありとあらゆる考えられる組合せを指し、包含することも理解される。さらに、用語「comprises(含む)」及び/または「comprising」は、本明細書で使用されるとき、記載されている特徴、整数、ステップ、動作、要素、及び/または構成要素の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び/もしくはその群の存在または追加を除外しないことが理解される。
本明細書で使用されるように、用語「if(場合)」は、状況に応じて、「when(とき)」または「upon(時)」または「in response to determining(〜判断することに応えて)」、または「in response to detecting(〜検出することに応えて)」、を意味すると解釈されてよい。同様に、句「if it is determined(が判断される場合)」または「if [a stated condition or event] is detected([記載される条件またはイベント]が検出される場合)」は、状況に応じて、「upon determining(判断時)」または「in response to determining(〜判断することに応えて)」、または「in response to detecting [the stated condition or event](〜[記載される状態またはイベント]を検出することに応えて)」、を意味すると解釈されてよい。
本開示は、テストオブジェクトの分類のためのシステム及び方法を提供する。テストオブジェクトは、ポーズと呼ばれる複数の異なるエネルギー的に許容可能な結合モードでターゲットオブジェクトとドッキングされて、対応する複数のボクセルマップを形成する。ターゲットオブジェクトの例は活性部位を有するポリマーであり、テストオブジェクトの例は、かなりの親和性で活性部位に結合することもあれば、結合しないこともある化合物である。一部の実施形態では、ボクセルマップはベクトル化され、連続して畳み込みニューラルネットワークに送り込まれる。一部の実施形態では、ボクセルマップは、ベクトル化なしで畳み込みニューラルネットワークに直接的に連続して送り込まれる。一部の実施形態では、各係るボクセルマップは、ターゲットオブジェクトに対するテストオブジェクトのポーズを表す。例えば、一部の実施形態では、各ボクセルマップは、ポリマーの活性部位で異なる向きで結合される化合物を表す。畳み込みニューラルネットワークは、入力層、複数の個々に重み付けされた畳み込み層、及び出力スコアラを含む。畳み込み層は初期層及び最終層を含む。入力に応えて、入力層は初期畳み込み層に値を送り込む。最終畳み込み層以外の各それぞれの畳み込み層は、それぞれの畳み込み層の重み及びそれぞれの畳み込み層の入力値の関数として中間値を畳み込み層の内の別の畳み込み層に送り込む。最終畳み込み層は、最終層の重み及び入力値の関数として値をスコアラに送り込む。このようにして、スコアラは入力ベクトル(または入力ボクセルマップ)のそれぞれを採点し、これらのスコアはテストオブジェクトを分類するために集合的に使用される。一部の実施形態では、スコアラは入力ベクトル(または入力ボクセルマップ)のそれぞれに単一のスコアを与え、これらのスコアの加重平均はテストオブジェクトを分類するために使用される。
図1は、上述された畳み込みニューラルネットワークを空間データに適用するコンピュータシステム100を示す。例えば、コンピュータシステム100は、1つ以上のターゲットオブジェクト(例えば、ポリマー)の集合との1つ以上のテストオブジェクト(例えば、化合物)の結合親和性に関する正確な予測を生成するために結合親和性予測システムとして使用できる。
図1を参照すると、典型的な実施形態では、分析コンピュータシステム100は1つ以上のコンピュータを含む。図1の説明のために、分析コンピュータシステム100は、開示される分析コンピュータシステム100の機能性のすべてを含む単一のコンピュータとして表される。しかしながら、本開示はこのように制限されていない。分析コンピュータシステム100の機能性は、任意の数のネットワーク化されたコンピュータ全体で拡散されてよい、及び/またはいくつかのネットワーク化されたコンピュータのそれぞれに常駐してよい。当業者は、分析コンピュータシステム100に対しては豊富な異なるコンピュータトポロジーが考えられ、すべての係るトポロジーが本開示の範囲内にあることを理解する。
上記を念頭に図1を見ると、分析コンピュータシステム100は、1つ以上の処理装置(CPU)74、ネットワークまたは他の通信インタフェース84、(例えば、ディスプレイ82及びキーボード80または他の形の入力装置を含む)ユーザインタフェース、メモリ92(例えば、ランダムアクセスメモリ)、1つ以上のコントローラ88によって任意選択でアクセスされる1つ以上の磁気ディスク記憶装置及び/または永続装置90、上述された構成要素を相互接続するための1つ以上の通信バス12、並びに上述された構成要素に電力を供給するための電源76を含む。メモリ92のデータは、例えばキャッシング等の既知のコンピューティング技術を使用し、不揮発メモリ90とシームレスに共用できる。メモリ92及び/またはメモリ90は、中央演算処理装置(複数可)74に関して遠隔に位置するマスストレージを含む場合がある。言い換えると、メモリ92及び/またはメモリ90に記憶される一部のデータは、事実上、分析コンピュータシステム100にとって外部であるが、ネットワークインタフェース84を使用し、インターネット、イントラネット、または他の形のネットワークもしくは電子ケーブルを介して分析コンピュータシステムによって電子的にアクセスできるコンピュータでホストされてよい。一部の実施形態では、分析コンピュータシステム100は、システムの速度及び性能を改善するために1つ以上の図形処理ユニット50と関連付けられたメモリ52から実行される畳み込みニューラルネットワークを利用する。一部の代替実施形態では、分析コンピュータシステム100は図形処理ユニット50と関連付けられたメモリよりむしろメモリ92から実行される畳み込みニューラルネットワークを利用する。
分析コンピュータシステム100のメモリ92は、
・多様な基本的なシステムサービスを扱うためのプロシージャを含むオペレーティングシステム54と、
・テストオブジェクト(またはトレーニングオブジェクト)のターゲットオブジェクトに対する結合等の空間データを評価するための空間データ評価モジュール56と、
・構造データ60及び任意選択で活性部位情報62を含む、1つ以上のターゲットオブジェクト58のためのデータと、
・複数のトレーニングオブジェクト66のそれぞれのためにターゲットオブジェクト58と対照して結合データ68を含むオブジェクトトレーニングライブラリ64と、
・複数のテストオブジェクト72のための情報を含むテストオブジェクト評価ライブラリ70と、
・各ボクセルマップがターゲットオブジェクト58と対照してトレーニングオブジェクト66またはテストオブジェクト72のポーズを表す、複数のボクセルマップ40と、
を記憶する。
分析コンピュータシステム100のメモリ52、または任意選択でメモリ92は、
・畳み込みニューラルネットワークを空間データに適用するため(例えば、ターゲットオブジェクトにドッキングされたテストオブジェクトまたはトレーニングオブジェクトに畳み込みニューラルネットワークを適用するため)の畳み込み評価モジュール20と、
・ボクセルマップ40の1つ以上の(任意選択で)ベクトル化された22表現と、
・入力層26、1つ以上の畳み込み層28、及び端末スコアラ30を含む畳み込みニューラルネットワーク24と、
を記憶する。
一部の実施形態では、分析コンピュータシステム100の上記に特定されたデータ要素またはモジュールの1つ以上は、上述されたメモリデバイスの1つ以上に記憶され、上述された機能を実行するための命令のセットに対応する。上記に特定されたデータ、モジュール、またはプログラム(例えば、命令のセット)は、別々のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要はなく、したがってこれらのモジュールの多様なサブセットは多様な実施態様で結合されてよい、またはそれ以外の場合再配置されてよい。一部の実施態様では、メモリ92及び/または90(及び任意選択で52)は、上記に特定されたモジュール及びデータ構造のサブセットを記憶する。さらに、一部の実施形態では、メモリ92及び/または90(及び任意選択で52)は、上述されていない追加のモジュール及びデータ構造を記憶する。
空間データを使用する、テストオブジェクトまたはトレーニングオブジェクトのターゲットオブジェクトの上へのドッキングの評価のためのシステムが開示されているので、係る評価を実行するための方法が図2に関して詳説され、以下に説明される。
ターゲットオブジェクトのために空間座標の入手すること202。図2によると、空間データを使用するテストオブジェクト72(またはトレーニングオブジェクト)の分類のための方法がコンピュータシステム100でまたはコンピュータシステム100を用いて実行される。コンピュータシステム100は、任意選択で図形処理メモリ52を有する図形処理ユニット50を含む。コンピュータシステム100は、汎用プロセッサ74及び汎用処理ユニットによってアドレス指定可能な汎用メモリ90/92を含む。汎用メモリは、該少なくとも1つの汎用プロセッサによる実行のための少なくとも1つのプログラム56を記憶する。少なくとも1つのプログラムは、ターゲットオブジェクト58のために空間座標60を入手する。
一部の実施形態では、ターゲットオブジェクト58はポリマー(204)である。ポリマーの例は、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはその任意の組合せのアセンブリを含むが、これに限定されるものではない(206)。開示されるシステム及び方法の一部の実施形態を使用し、研究されるポリマー等のポリマーは、繰り返す残留物から構成される巨大分子である。一部の実施形態では、ポリマーは天然材料である。一部の実施形態では、ポリマーは合成材料である。一部の実施形態では、ポリマーはエラストマ、セラック、琥珀、天然ゴムもしくは合成ゴム、セルロース、ベークライト、ナイロン、ポリスチレン、ポリエチレン、ポリプロピレン、ポリアクリロニトリル、ポリエチレングリコール、または多糖である。
一部の実施形態では、ターゲットオブジェクト58はヘテロポリマー(コポリマー)である。コポリマーは、1つのモノマーしか使用されないホモポリマーとは対照的に、2つ(以上の)単量体種から派生するポリマーである。共重合は、コポリマーを化学的に合成するために使用される方法を指す。コポリマーの例は、ABSプラスチック、SBR、ニトリルゴム、スチレンアクリロニトリル、スチレンイソプレンスチレン(SIS)、及びエチレン酢酸ビニールを含むが、これに限定されるものではない。コポリマーは少なくとも2つのタイプの成分単位(また、構造単位または粒子)から成るので、コポリマーはこれらの単位が鎖に沿ってどのように配置されるのかに基づいて分類できる。これらは、規則正しく交互に起こるA単位及びB単位を有する交互コポリマーを含む。例えば、参照によりその全体として本明細書に援用されるJenkins,1996,「Glossary of Basic Terms in Polymer Science」、Pure Appl.Chem.68(12):2287−2311を参照のこと。コポリマーの追加の例は、A単位及びB単位が繰り返すシーケンス(例えば、(A‐B‐A‐B‐B‐A‐A‐A‐A‐B‐B‐B)n)で配置される周期コポリマーである。コポリマーの更なる例は、コポリマー内のモノマー残留物のシーケンスが統計規則に従う統計コポリマーである。例えば、参照によりその全体として本明細書に援用される、Painter,1997,Fundamentals of Polymer Science, CRC Press,1997,14ページを参照のこと。開示されたシステム及び方法を使用し、評価されてよいコポリマーのさらに他の例は、同等な結合によってリンクされる2つ以上のホモポリマーサブユニットを含むブロックコポリマーである。ホモポリマーサブユニットの合体は、ジャンクションブロックとして知られる中間非循環サブユニット(intermediate non−repeating subunit)を必要とすることがある。2つまたは3つの異なったブロックを有するブロックコポリマーは、それぞれジブロックポリマー及びトリブロックポリマーと呼ばれる。
一部の実施形態では、ターゲットオブジェクト58は、事実上、複数のポリマーの内のそれぞれのポリマーがすべて同じ分子量を有するわけではない複数のポリマーである。一部の実施形態では、複数のポリマーの内のポリマーは、対応する鎖長の分布を有する重量範囲に該当する。一部の実施形態では、ポリマーは、1つ以上の置換された側鎖または側枝を有する主鎖を含む分岐ポリマー分子である。分岐ポリマーの種類は、スターポリマー、コームポリマー、ブラシポリマー、デンドロナイズドポリマー、ラダー、及びデンドリマーを含むが、これに限定されるものではない。例えば、参照によりその全体として本明細書に援用される、Rubinstein et al.,2003,Polymer physics,Oxford;New York:Oxford University Press.6ページを参照のこと。
一部の実施形態では、ターゲットオブジェクト58はポリペプチドである。本明細書に使用されるように、用語「ポリペプチド」は2つ以上のアミノ酸、またはペプチド結合によりリンクされる残留物を意味する。用語「ポリペプチド」及び「タンパク質」は本明細書において交互に使用され、オリゴペプチド及びペプチドを含む。「アミノ酸」、「残留物」、または「ペプチド」は、プロリン及びヒドロキシプロリン等のイミノ酸を含む、技術で既知のタンパク質の20の標準構造単位の内のいずれかを指す。アミノ酸異性体の名称は、D、L、R、及びSを含んでよい。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリシン、ランチオニン、2‐アミノイソ酪酸、ガンマアミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、及びホモシステインは、すべてアミノ酸と見なされる。アミノ酸の他の変種または類似体は技術で既知である。したがって、ポリペプチドはぺプトイド等の合成ペプチド模倣薬構造を含んでよい。参照によりその全体として本明細書に援用される、Simon et al.,1992,Proceedings of the National Academy of Sciences USA, 89, 9367を参照のこと。また、それぞれ参照によりその全体として本明細書に援用される、Chin et al.,2003,Science 301,964、及びChin et al.,2003,Chemistry & Biology 10,511も参照のこと。
また、開示されたシステム及び方法の一部の実施形態に従って評価されたターゲットオブジェクト58は、任意の数の翻訳後修飾を有してもよい。したがって、ターゲットオブジェクトは、アシル化、アルキル化、アミド化、ビオチン化、ホルミル化、γ‐カルボキシル化、グルタミン酸化(glutamylation)、グリコシル化、グリシル化、ヒドロキシル化、ヨード化、イソプレニル化、リポイル化、(例えば、ヘム、フラビン、金属等の)補因子添加、ヌクレオシド及びその派生物の添加、酸化、還元、PEG化、ホスファチジルイノシトール添加、ホスホパンテテニル化、リン酸化、ピログルタミン酸形成、ラセミ化、tRNAによるアミノ酸の添加(例えば、アルギニル化)、硫酸化、セレノイル化、ISG化(ISGylation)、SUMO化(SUMOylation)、ユビキチン化、化学修飾(例えば、シトルリン化及びアミド分解)、ならびに他の酵素(例えば、プロテアーゼ、ホスファターゼ、及びキナーゼ)による処理によって修飾されるそれらのポリマーを含む。他のタイプの翻訳後修飾も技術で既知であり、含まれる。
一部の実施形態では、ターゲットオブジェクト58は有機金属錯体である。有機金属錯体は炭素と金属との間の化学結合を含む化合物である。一部の例では、有機金属化合物は、例えば有機パラジウム化合物等、接頭辞「有機」で区別される。
一部の実施形態では、ターゲットオブジェクト58は界面活性剤である。界面活性剤は、液体の表面張力、2つの液体の間の界面張力、または液体と固体の間の界面張力を引き下げる化合物である。界面活性剤は、合成洗剤、湿潤材、乳化剤、発泡剤、及び分散剤の機能を果たしてよい。界面活性剤は通常、両親媒性である有機化合物であり、それらが疎水性基(その尾部)と親水性基(その頭部)の両方を含むことを意味する。したがって、界面活性剤分子は不水溶性(または油溶性)の成分と水溶性の成分の両方を含む。水が油と混合される場合、界面活性剤分子は水中で拡散し、空気と水との間の界面でまたは油と水との間の界面で吸着する。不溶性の疎水性基はバルク水相の中から空気の中へまたは油相の中に広がることがある。一方、水溶性の頭部基は水相に留まる。この界面活性剤分子の表面での位置合わせが、水/空気または水/油の界面での水の表面特性を修飾する。
イオン界面活性剤の例は、陰イオン性界面活性剤、陽イオン性界面活性剤、または双性(両性)イオン性活性剤を含む。一部の実施形態では、ターゲットオブジェクト58は、逆ミセルまたはリポソームである。
一部の実施形態では、ターゲットオブジェクト58はフラーレンである。フラーレンは、中空の球体、楕円体、または管の形をとる、完全に炭素から構成される任意の分子である。また、球形のフラーレンはC60構造分子とも呼ばれ、それらはサッカーで使用されるボールに似ている。円筒形のフラーレンは、カーボンナノチューブまたはバッキチューブと呼ばれる。フラーレンは構造で、リンクされた六角形の連鎖の積み重ねられたグラフェンシートから構成される黒鉛に類似するが、それらは五角形の(または七角形のこともある)連鎖を含むこともある。
一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は2.5Åまたはそれより良い分解能で分解されたポリマーの結晶構造のための3次元座標{x1、...、xN}の集合である(208)。一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は3.3Åまたはそれより良い分解能で分解されたポリマーの結晶構造の3次元座標{x1、...、xN}の集合である(210)。一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は、3.3Åもしくはそれより良い、3.2Åもしくはそれより良い、3.1Åもしくはそれより良い、3.0Åもしくはそれより良い、2.5Åもしくはそれより良い、2.2Åもしくはそれより良い、2.0Åもしくはそれより良い、1.9Åもしくはそれより良い、1.85Åもしくはそれより良い、1.80Åもしくはそれより良い、1.75Åもしくはそれより良い、または1.70Åもしくはそれより良い分解能で(例えば、X線結晶技法によって)分解されるポリマーの結晶構造の3次元座標{x1、...、xN}の集合である。
一部の実施形態では、ターゲットオブジェクト58はポリマーであり、空間座標は、核磁気共鳴によって決定されたポリマーの10以上、20以上、または30以上の3次元座標の集合体であり、集合体は1.0Åもしくはそれより良い、0.9Åもしくはそれより良い、0.8Åもしくはそれより良い、0.7Åもしくはそれより良い、0.6Åもしくはそれより良い、0.5Åもしくはそれより良い、0.4Åもしくはそれより良い、0.3Åもしくはそれより良い、または0.2Åもしくはそれより良いバックボーンRMSDを有する。一部の実施形態では、空間座標は、中性子回折または低温電子顕微鏡法によって決定される(212)。
一部の実施形態では、ターゲットオブジェクト58は、例えばポリペプチドに結合された核酸等の2つの異なるタイプのポリマーを含む。一部の実施形態では、天然のポリマーは互いに結合された2つのポリペプチドを含む。一部の実施形態では、研究中の天然のポリマーは1つ以上の金属イオン(例えば、1つ以上の亜鉛原子を有するメタロプロテイナーゼ)を含む。係る例では、金属イオン及びまたは有機小分子が、ターゲットオブジェクト58のための空間座標60に含まれてよい。
係る実施形態では、ターゲットオブジェクトはポリマーであり、ポリマーには10以上、20以上、30以上、50以上、100以上、100と1000の間、または500未満の残留物がある。
一部の実施形態では、ターゲットオブジェクト58の空間座標は、アブイニシオ法、密度関数法、半経験的方法及び経験的方法、分子力学、化学力学、または分子動力学等のモデル化方法を使用し、決定される。
実施形態では、空間座標は、ターゲットオブジェクトを含む原子の中心のデカルト座標によって表される。一部の代替実施形態では、ターゲットオブジェクト58の空間座標60は、例えばX線結晶構造解析法によって測定されるターゲットオブジェクトの電子密度によって表される。例えば、一部の実施形態では、空間座標60は、ターゲットオブジェクト58の計算された原子座標を使用し計算された2Fobserved−Fcalculated電子密度マップを含み、Fobservedは、ターゲットオブジェクトの観察された構造因子振幅であり、Fcはターゲットオブジェクト58の計算された原子座標から計算された構造因子振幅である。
したがって、ターゲットオブジェクトのための空間座標60は、溶液NMRにより生成される構造集合体、X線結晶構造解析から解釈される共複合体(co‐complexes)、中性子回折、または低温電子顕微鏡法、計算シミュレーションからのサンプリング、ホモロジーモデリング、または回転異性体ライブラリサンプリング、及びこれらの技術の組合せ等であるが、これに限定されるものではないさまざまなソースから入力データとして受け入れられてよい。
ターゲットオブジェクトでテストオブジェクトをモデル化する(214)。ステップ214で、テストオブジェクト72(またはトレーニングオブジェクト)は、複数の異なるポーズのそれぞれのターゲットオブジェクト58でモデル化される。ここでは、本開示に係る代表的なテストオブジェクト72(及びトレーニングオブジェクト66)が最初に説明される。次に、モデル化及び代表的なモデル化技術が説明される。
代表的なテストオブジェクト72(及びトレーニングオブジェクト66)。テストオブジェクト72とトレーニングオブジェクト66の重要な相違点は、テストオブジェクト72はラベルが付けられず、畳み込みニューラルネットワークがテストオブジェクト72を分類するために使用されるのに対し、トレーニングオブジェクト66は(例えば、ウェットラボ結合アッセイ等から入手される相補的結合データで)ラベルが付けられ、係るラベル付けが畳み込みニューラルネットワークを訓練するために使用される点である。言い換えると、トレーニングオブジェクトはすでにラベルによって分類されており、係る分類は、畳み込みニューラルネットワークが次いでテストオブジェクトを分類し得るように、畳み込みニューラルネットワークを訓練するために使用される。テストオブジェクトは、通常、畳み込みニューラルネットワークの適用前に分類されない。典型的な実施形態では、トレーニングオブジェクト66と関連付けられた分類は、ウェットラボ結合アッセイによって入手されるターゲットオブジェクト58のそれぞれに対照する結合データである。したがって、一部の実施形態では、各トレーニングオブジェクト58は、潜在的にいくつかの異なるターゲットオブジェクト58と対照してラベル付けされる。例えば、2つのターゲットオブジェクト58、つまり(阻害剤が求められる)第1の酵素A及び(阻害剤が求められず、有害な副作用を最小限に抑えるために阻害することが望ましくない)第2の酵素Bがある場合を考慮する。各トレーニングオブジェクト58は酵素Aを対照して第1のラベルを、酵素Bを対照して第2のラベルを受け取る。これらの第1のラベル及び第2のラベルは同じこともあれば、異なることもあり、例えば、トレーニングオブジェクト58が、それが酵素Bの阻止剤であるよりも酵素Aのより優れた阻止剤である場合、第1のラベル及び第2のラベルは異なる。
一部の実施形態では、テストオブジェクト72及びトレーニングオブジェクト66は、リピンスキーのルールオブファイブ、つまり(i)5つ以下の水素結合供与体(例えば、OH基及びNH基)、(ii)10以下の水素結合受容体(例えば、N及びO)、(iii)500ダルトン未満の分子量、及び(iv)5未満のLogPの2つ以上の規則、3つ以上の規則、または4つすべてのルールを満たす有機化合物である。「ルールオブファイブ」は、4つの基準の内の3つが数5を含むためにこのように呼ばれている。参照によりその全体として本明細書に援用される、Lipinski,1997,Adv.Drug Del.Rev.23,3を参照のこと。
一部の実施形態では、テストオブジェクト72またはトレーニングオブジェクト66は、リピンスキーのルールオブファイブに加えて1つ以上の基準を満たす。例えば、一部の実施形態では、テストオブジェクト72またはトレーニングオブジェクト66は、5つ以下の芳香環、4つ以下の芳香環、3つ以下の芳香環、または2つ以下の芳香環を有する。一部の実施形態では、テストオブジェクト72またはトレーニングオブジェクト66は、2000ダルトン未満の、4000ダルトン未満の、6000ダルトン未満の、8000ダルトン未満の、10000ダルトン未満の、または20000ダルトン未満の分子量を有する任意の有機化合物である。
しかしながら、本開示のシステム及び方法は、テストオブジェクト72またはトレーニングオブジェクト66のサイズに対する制限を有さない。例えば、一部の実施形態では、係るオブジェクトは、例えば抗体等の大きいポリマーである。
モデル化すること。図2Aの要素214を見ると、テストオブジェクト72及び/またはトレーニングオブジェクト66は、複数の異なるポーズのそれぞれのポーズにおいてターゲットオブジェクト58でモデル化される。一部の実施形態では、ターゲットオブジェクト58は活性部位を有するポリマーであり、テストオブジェクト(またはトレーニングオブジェクト)は化合物であり、モデル化は、テストオブジェクトをポリマーの活性部位の中にドッキングすることを含む(216)。一部の実施形態では、テストオブジェクト72またはトレーニングオブジェクト66はターゲットオブジェクト58の上に複数回ドッキングされて複数のポーズを形成する。一部の実施形態では、テストオブジェクト72またはトレーニングオブジェクト66はターゲットオブジェクト58の上に2回、3回、4回、5回以上、10回以上、50回以上、100回以上、または1000回以上ドッキングされる(218)。それぞれの係るドッキングは、ターゲットオブジェクト58の上にドッキングされたテストオブジェクト72またはトレーニングオブジェクト66の異なるポーズを表す。一部の実施形態では、ターゲットオブジェクト58は活性部位を含むポリマーであり、テストオブジェクト72またはトレーニングオブジェクト66は複数の異なる方法のそれぞれで活性部位の中にドッキングされ、それぞれの係る方法は異なるポーズを表す。これらのポーズの多くは正しくない、つまり係るポーズは、自然に発生するテストオブジェクト72(またはトレーニングオブジェクト66)とターゲットオブジェクト58との間の真の相互作用を表さないと予想される。正しくないポーズとトレーニングオブジェクトラベルとの間には一貫性のあるパターンが生じないため、有利なことに、トレーニングオブジェクト66での訓練中、畳み込みニューラルネットワークは正しくないポーズを除外する(重みを下げる(downweight))ことができる。特定の理論により制限されることを意図するものではないが、トレーニングオブジェクト66によって形成された正しいポーズによって形成されたオブジェクト間の相互作用は互いを強化し、このようにして経時的にネットワークの重みを訓練するのに対し、正しくないポーズの間で観察されるオブジェクト間(例えば、分子間)の相互作用はホワイトノイズのように互いを相殺することが予想される。したがって、正しくないポーズに関するトレーニングモード中、ニューラルネットは、(例えば、トレーニングオブジェクトのラベル付けデータを区別するために)アクティブなトレーニングオブジェクト66とイナクティブなトレーニングオブジェクト66との間の差を説明するパターンを見つけることができないだろう。正しくないポーズに関して、ネットワークは、トレーニングオブジェクト66の重み、そのサイズ、及び類似するグローバルサマリ記述子を学習するだろうが、本来トレーニングオブジェクトとテストオブジェクトとの間で形成される実際の分子間相互作用のどれも学習しないだろう。したがって、有利なことに、開示されるシステム及び方法は、特にトレーニングオブジェクト66あたり10を超えるポーズ、トレーニングオブジェクト66あたり100を超えるポーズ、またはトレーニングオブジェクト66あたり1000を超えるポーズがとられるとき、正しくないポーズに敏感ではない。同様に、テストオブジェクト72がサンプリングされるとき、複数のポーズもとられる。したがって、1つのテストオブジェクトまたはトレーニングオブジェクトの中でさえ、間違ったポーズが互い、及び本来発生するオブジェクト間相互作用(例えば、分子間結合)の種類に近い何かを暗示するほど十分に近いポーズを相殺すること、係るポーズが単一のテストオブジェクトまたはトレーニングオブジェクトのための複数のポーズにより生成される最終信号に寄与するポーズとなるだろうことが予想される。
一部の実施形態では、トレーニングオブジェクト66及びテストオブジェクト72は、ランダムポーズ生成技術によってまたは偏向されたポーズ生成によってのどちらでドッキングされる。一部の実施形態では、トレーニングオブジェクト66及びテストオブジェクト72はマルコフ連鎖モンテカルロサンプリングによってドッキングされる。一部の実施形態では、係るサンプリングはドッキング計算におけるトレーニングオブジェクト及び/またはテストオブジェクト、及びトレーニング(またはテスト)オブジェクトの配座エネルギーだけではなく、トレーニング(またはテスト)オブジェクトとターゲットオブジェクト58の間の相互作用エネルギーの合計であるスコア関数の完全な柔軟性を可能にする。例えば、参照により本明細書に援用される、Liu and Wang, 1999,「MCDOCK:A Monte Carlo simulation approach to the molecular docking problem」、Journal of Computer−Aided Molecular Design 13、435−451を参照のこと。
一部の実施形態では、DOCK(それぞれが参照により本明細書に援用される、Shoichet,Bodian,and Kuntz,1992,「Molecular docking using shape descriptors」,Journal of Computational Chemistry 13(3),380−397ページ、及びKnegtel,Kuntz,and Oshiro,1997,「Molecular docking to ensembles of protein structures」、Journal of Molecular Biology 266,424−440ページ)等のアルゴリズムが、ターゲットオブジェクト58のそれぞれと対照してテストオブジェクト72及び/またはトレーニングオブジェクト66のそれぞれのための複数のポーズを見つけるために使用される。係るアルゴリズムは、ターゲットオブジェクト及びテスト(またはトレーニング)オブジェクトを剛体としてモデル化する。ドッキングされた配座は、ポーズを見つけるために補完的な表面を使用し、検索される。
一部の実施形態では、AutoDOCK(それぞれが参照により本明細書に援用される、Morris et al.,2009,「AutoDock4 and AutoDockTools4: Automated Docking with Selective Receptor Flexibility」、J.Comput.Chem.30(16)、2785−2791ページ、Sotriffer et al.,2000,「Automated docking of ligands to antibodies: methods and applications」,Methods:A Companion to Methods in Enzymology 20,280−291ページ、及び「Morris et al.,1998,「Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Functions」、Journal of Computational Chemistry 19:1639−1662ページ)等のアルゴリズムが、ターゲットオブジェクト58のそれぞれに対してテストオブジェクト72及び/またはトレーニングオブジェクト66のそれぞれと対照して複数のポーズを見つけるために使用される。AutoDOCKはリガンドの運動モデルを使用し、モンテカルロ、シミュレーテッドアニーリング、ラマルク遺伝的アルゴリズム、及び遺伝的アルゴリズムを使用する。したがって、一部の実施形態では、(所与のテストオブジェクト‐ターゲットオブジェクトの対または所与のトレーニングオブジェクト‐テストオブジェクトの対のための)複数の異なるポーズは、ドッキングスコア関数を使用し、マルコフ連鎖モンテカルロサンプリング、シミュレーテッドアニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムによって入手される(220)。
一部の実施形態では、FlexX(参照により本明細書に援用される、Rarey et al.,1996,「A Fast Flexible Docking Method Using an Incremental Construction Algorithm」、Journal of Molecular Biology 261,470−489ページ)等のアルゴリズムが、ターゲットオブジェクト58のそれぞれと対照してテストオブジェクト72及び/またはトレーニングオブジェクト66のそれぞれのための複数のポーズを見つけるために使用される。FlexXは、欲張りアルゴリズムを使用し、ターゲットオブジェクト58の活性部位でテストオブジェクト72及び/またはトレーニングオブジェクト66の逐次構築を行う。したがって、一部の実施形態では、(所与のテストオブジェクト‐ターゲットオブジェクトの対または所与のトレーニングオブジェクト‐テストオブジェクトの対のための)複数の異なるポーズが欲張りアルゴリズムによって入手される(222)。
一部の実施形態では、GOLD(参照により本明細書に援用される、Jones et al.,1997,「Development and Validation of a Genetic Algorithm for flexible Docking」、Journal Molecular Biology 267、727−748ページ)等のアルゴリズムが、ターゲットオブジェクト58のそれぞれと対照してテストオブジェクト72及び/またはトレーニングオブジェクト66のそれぞれのための複数のポーズを見つけるために使用される。GOLDは、リガンドドッキングのための遺伝的最適化の略である。GOLDは、テストオブジェクト72及び/またはトレーニングオブジェクト66とターゲットオブジェクト58との間に遺伝子学的に最適化された水素結合ネットワークを構築する。
一部の実施形態では、モデル化は、ターゲットオブジェクト及びテストオブジェクトの分子動力学ランを実行することを含む。分子動力学ランの間、ターゲットオブジェクト及びテストオブジェクトの原子は、固定された期間、相互作用することを許され、システムの力学進化の図を示す。ターゲットオブジェクト及びテストオブジェクト(またはトレーニングオブジェクト)での原子の軌跡は、相互作用する粒子のシステムのためにニュートンの運動方程式を数値的に解くことによって決定され、粒子とそのポテンシャルエネルギーとの間の力が原子間ポテンシャルまたは分子力学力場を使用し、計算される。それぞれ参照により本明細書に援用される、Alder and Wainwright,1959,「Studies in Molecular Dynamics.I.General Method」.J.Chem.Phys.31(2):459、及びBibcode,1959,J.Ch.Ph.31,459A,doi:10.1063/1.1730376を参照のこと。したがって、このようにして、分子動力学ランは、ともにターゲットオブジェクト及びテストオブジェクトの軌跡を経時的に生じさせる。この軌跡は、ターゲットオブジェクト及びテストオブジェクトの原子の軌跡を含む。一部の実施形態では、複数の異なるポーズの部分集合は、ある期間にわたりこの軌跡のスナップショットを撮影することによって入手される。一部の実施形態では、ポーズはいくつかの異なる軌跡のスナップショットから入手され、各軌跡はテストオブジェクトと相互作用するターゲットオブジェクトの異なる分子動力学ランを含む。一部の実施形態では、分子動力学ランの前に、テストオブジェクト(またはトレーニングオブジェクト)は、ドッキング技術を使用し、ターゲットオブジェクトの活性部位に最初にドッキングされる。
どのモデル化方法が使用されるのかに関わりなく、任意の所与のテストオブジェクト72/トレーニングオブジェクト66‐ターゲットオブジェクト58の対のために達成されることは、ポーズの1つ以上が、所与のテストオブジェクト72/トレーニングオブジェクト66‐ターゲットオブジェクト58対の間の関連する分子間相互作用の一部を立証するために自然に発生するポーズに十分に近いことを見込んだ、テスト/トレーニングオブジェクトのターゲットオブジェクトとのポーズの多様な集合である。
一部の実施形態では、ターゲットオブジェクト58の活性部位でのテストオブジェクトまたはトレーニングオブジェクトのテストの初期ポーズは、上述された技術のいずれかを使用し、生成され、追加のポーズは、3つのX平面、Y平面、及びZ平面のいずれかの組合せで回転演算子、並進演算子、及びミラーリング演算子のなんらかの組合せの適用によって生成される。テストオブジェクトまたはトレーニングオブジェクトの回転及び並進は、(例えば、基点からプラスまたはマイナス5Å等の何らかの範囲内で)無作為に選択されてよい、またはなんらかの事前に指定されたインクリメント(例えば、円の回りのすべて5度のインクリメント)で均一に生成されてよい。図3は、ターゲットオブジェクト58の活性部位の2つの異なるポーズ302のテストオブジェクト72のサンプル例を提供する。
ボクセルマップを作成すること。図2Bの要素224を参照すると、ターゲットオブジェクト及び/またはテストオブジェクトのそれぞれのためのポーズのそれぞれの生成後、ボクセルマップ40が各ポーズに作成される。一部の実施形態では、複数のボクセルマップの内の各それぞれのボクセルマップ40は、(i)複数の異なるポーズの内のそれぞれのポーズでテストオブジェクト72(またはトレーニングオブジェクト68)を、及び3次元グリッドに基づいてターゲットオブジェクト58をサンプリングし、それによって対応する複数の空間充填(3次元)多面体セルを含む対応する3次元一様空間充填ハニカムを形成すること、及び(ii)対応する複数の3次元セルの内の各それぞれの3次元多面体セルのために、それぞれの3次元多面体セルの特性(例えば、化学特性)に基づいてそれぞれのボクセルマップ40の内のボクセル(規則正しく離間された多面体セル)をポピュレートすることを含む方法によって作成される(226)。したがって、特定のテストオブジェクトがターゲットオブジェクトに対して10のポーズを有する場合、10の対応するボクセルマップが作成され、特定のテストオブジェクトがターゲットオブジェクトに対して100のポーズを有する場合、100の対応するボクセルマップが作成される等々である。空間充填ハニカムの例は、平行6面体セルを有する立方体ハニカム、6角形の角柱セルを有する6角形角柱ハニカム、ひし形12面体セルを有するひし形12面体、細長い12面体セルを有する細長い12面体、及び切頂8面体セルを有する切頂8面体を含む。
一部の実施形態では、空間充填ハニカムは立方体セルを有する立方体ハニカムであり、係るボクセルの寸法がその分解能を決定する。例えば、1Åの分解能が選ばれてよく、各ボクセルが係る実施形態で1Å寸法(例えば、それぞれのセルのそれぞれの高さ、幅、及び深さで1Åx1Åx1Å)を有する幾何学的データの対応する立方体を表すことを意味する。しかしながら、一部の実施形態では、より細かい格子空間(例えば、0.1Åまたは0.01Åも)またはより粗い格子間隔(例えば、4Å)が使用され、間隔は入力された幾何学的データをカバーするために整数のボクセルを生じさせる。一部の実施形態では、サンプリングは0.1Åと10Åの間である分解能で行われる(227)。実例として、40Åの入力立方体の場合、1Åの分解能を用いると、係る配置は40*40*40=64,00入力ボクセルを生じさせるだろう。
一部の実施形態では、テストオブジェクト72(またはトレーニングオブジェクト66)は第1の化合物であり、ターゲットオブジェクト58は第2の化合物であり、サンプリング(i)で発生する原子の特徴はポピュレート(ii)によってそれぞれのボクセルマップの内の単一のボクセルに設置され、複数のボクセルの内の各ボクセルは1つの原子の最大値の特徴を表す(228)。一部の実施形態では、原子の特徴は、原子種類の列挙から成る(230)。一例として、生物学的データの場合、開示されるシステム及び方法の一部の実施形態は、ボクセルマップ40の内の所与のボクセルでのあらゆる原子の存在をそのエントリの異なる数として表すように構成される。例えば、炭素がボクセルにある場合、炭素の原子番号は6であるため、6という値がそのボクセルに割り当てられる。しかしながら、係る符号化は、密接な原子番号を有する原子は同様に動作し、これは特に用途によっては特に有用ではないことがあることを暗示するだろう。さらに、要素の挙動は基(周期表の列)の中でより類似してよく、したがって係る符号化は、畳み込みニューラルネットワーク24が復号する追加の作業を提起する。
一部の実施形態では、原子の特徴はバイナリカテゴリ変数としてボクセルで符号化される(232)。係る実施形態では、原子種類は「ワンホット」符号化と呼ばれるもので符号化される。つまり、あらゆる原子種類は別個のチャネルを有する。したがって、係る実施形態では、各ボクセルは複数のチャネルを有し、複数のチャネルの少なくとも1つの部分集合が原子種類を表す。例えば、各ボクセルの中の別のチャネルが酸素を表すことがあるのに対し、各ボクセルの中のあるチャネルが炭素を表すことがある。所与の原子種類が所与のボクセルに対応する3次元グリッド要素で見つけられるとき、所与のボクセルの中のその原子種類のチャネルは、例えば「1」等のバイナリカテゴリ変数の第1の値を割り当てられ、原子種類が所与のボクセルに対応する3次元グリッド要素で見つけられない場合、その原子種類のチャネルは、例えば所与のボクセルの中の「0」等のバイナリカテゴリ変数の第2の値を割り当てられる。
100以上の要素がある一方、大部分は生物学では遭遇されない。しかしながら、最も一般的な生物元素(つまり、H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)を表すことも、ボクセルあたり18のチャネルつまり10,483*18=188,694の入力を受容体フィールドに生じさせてよい。したがって、一部の実施形態では、複数のボクセルマップの内のボクセルマップ40の各それぞれのボクセルは複数のチャネルを含み、複数のチャネルの内の各チャネルは、それぞれのボクセルに対応する3次元空間充填多面体セルで生じることがある異なる特性を表す(233)。所与のボクセルに対して考えられるチャネルの数は、原子の追加の特徴(例えば、部分電荷、リガンドの存在対タンパク質ターゲット、電気陰性度、またはSYBYL原子種類)がさらにボクセルごとの独立したチャネルとして提示され、それ以外の場合同等な原子を区別するためにより多くの入力チャネルを必要とするそれらの実施形態ではなおさらに高い。
一部の実施形態では、各ボクセルは5つ以上の入力チャネルを有する(234)。一部の実施形態では、各ボクセルは15以上の入力チャネルを有する(236)。一部の実施形態では、各ボクセルは20以上の入力チャネル、25以上の入力チャネル、30以上の入力チャネル、50以上の入力チャネル、または100以上の入力チャネルを有する。一部の実施形態では、各ボクセルは以下の表1に記載される記述子から選択された5つ以上の入力チャネルを有する(240)。例えば、一部の実施形態では、各ボクセルは、それぞれがバイナリカテゴリ変数として符号化された5つ以上のチャネルを有し、係る各チャネルは以下の表1から選択されたSYBYL原子種類を表す。例えば、一部の実施形態では、ボクセルマップ40の内の各それぞれのボクセルはC.3(sp3炭素)原子種類のためのチャネルを含み、それぞれのボクセルで表される所与のテストオブジェクト‐ターゲットオブジェクト(またはトレーニングオブジェクト‐ターゲットオブジェクト)複合体の空間のグリッドがsp3炭素を包含する場合、チャネルは第1の値(例えば「1」)を採用し、それ以外の場合第2の値(例えば、「0」)であることを意味する。
一部の実施形態では、各ボクセルは、上記表1に記載される記述子から選択された10以上の入力チャネル、15以上の入力チャネル、または20以上の入力チャネルを含む。一部の実施形態では、各ボクセルはハロゲンのためのチャネルを含む。
一部の実施形態では、構造タンパク質リガンド相互作用フィンガープリント(structural protein‐ligand interaction fingerprint)(SPLIF)スコアが、ターゲットオブジェクトに対する所与のテストオブジェクト(またはトレーニングオブジェクト)の各ポーズに生成され、このSPLIFスコアは基本的なニューラルネットワークに対する追加入力として使用される、またはボクセルマップで個々に符号化される。SPLIFの説明については、参照により本明細書に援用される、Da and Kireev,2014,J.Chem.Inf.Model.54,2555−2561,「Structural Protein‐Ligand Interaction Fingerprints(SPLIF) for Structure‐Based Virtual Screening Method and Benchmark Study」を参照のこと。SPLIFは、テスト(またはトレーニング)オブジェクトとターゲットオブジェクト(例えば、π‐π、CH‐π、他)の相互作用するフラグメント間で発生することがあるすべての考えられる相互作用タイプを暗黙で符号化する。第1のステップでは、テスト(またはトレーニング)オブジェクト‐ターゲットオブジェクト複合体(ポーズ)は、分子間接触について検査される。2つの原子間の距離が指定閾値の範囲内(例えば、4.5Å)にある場合、2つの原子は接触していると見なされる。係る各分子間原子対の場合、それぞれのテスト(またはトレーニング)原子及びターゲットオブジェクト原子が円形フラグメント、例えば問題の原子及びそれらの連続する近傍を最大で特定の距離まで含むフラグメントに拡大される。各タイプの円形フラグメントは識別子を割り当てられる。一部の実施形態ではPipeline Pilotソフトウェアで定義される、最高で第1の最近傍までの拡張連結性フィンガープリント(Extended Connectivity Fingerprints up to the first closest neighbor)(ECFP2)が使用できる。参照により本明細書に援用される、Pipeline Pilot,ver. 8.5,Accelrys Software Inc.,2009を参照のこと。ECFPはすべての原子/結合タイプについての情報を保持し、1つの基礎構造(つまり、円形フラグメント)を表すために1つの一意の整数識別子を使用する。SPLIFフィンガープリントは、見つけられたすべての円形フラグメント識別子を符号化する。一部の実施形態では、SPLIFフィンガープリントは符号化された個々のボクセルではないが、以下に説明される畳み込みニューラルネットワーク24で別個の独立した入力としての機能を果たす。
一部の実施形態では、SPLIFよりむしろまたはSPLIFに加えて、構造相互作用フィンガープリント(SIFt)がターゲットオブジェクトに対する所与のテストオブジェクト(またはトレーニングオブジェクト)の各ポーズのために計算され、以下に説明される畳み込みニューラルネットワーク24への入力として個々に提供される、またはボクセルマップで符号化される。SIFtの計算については、参照により本明細書に援用される、Deng et al.,2003,「Structural Interaction Fingerprint(SIFt):A Novel Method for Analyzing Three−DImensional Protein−Ligand Binding Interactions」J.Med.Chem.47(2),337−344ページを参照のこと。
一部の実施形態では、SPLIF及びSIFTよりむしろ、またはSPLIF及びSIFTに加えて、原子対ベース相互作用フラグメント(atom‐pairs‐based interaction fragments)(APIF)が、ターゲットオブジェクトに対する所与のテストオブジェクト(またはトレーニングオブジェクト)の各ポーズのために計算され、以下に説明されるように畳み込みニューラルネットワーク24への入力として個々に提供される、またはボクセルマップで個々に符号化される。APIFの計算については、参照により本明細書に援用される、Perez−Nueno et al.,2009,「APIF:a new interaction fingerprint based on atom pairs and its application to virtual screening」J.Chem.Inf.Model,49(5)1245−1260ページを参照のこと。
データ表現は、例えば分子/タンパク質と関連付けられた多様な構造関係性の発現を可能にするように生物学的データで符号化されてよい。幾何学的表現は、多様な実施形態に従ってさまざまな方法及びトポグラフィーで実装されてよい。幾何学的表現は、データの視覚化及び分析のために使用される。例えば、実施形態では、幾何学形状は、2次元、3次元デカルト/ユークリッド空間、3次元非ユークリッド空間、多様体等の多様なトポロジーに配置されたボクセルを使用し、表現されてよい。例えば、図4は、実施形態に従って、一連のサブコンテナを含むサンプルの3次元グリッド構造400を示す。各サブコンテナ402はボクセルに対応してよい。座標系はグリッドのために定められてよく、これにより各サブコンテナは識別子を有する。開示されるシステム及び方法の一部の実施形態では、座標系は3次元空間のデカルト系であるが、システムの他の実施形態では、座標系は、とりわけ例えば偏球面、円筒座標系、球面座標系、極座標系、多様なマニホールド及びベクトル空間用に設計された他の座標系等の任意の他のタイプの座標系であってよい。一部の実施形態では、ボクセルは、とりわけ、例えばラベルを適用する、及び/またはその位置を決定することによって表されてよい、ボクセルに関連付けられた特定の値を有してよい。
ニューラルネットワークは固定された入力サイズを必要とするため、開示されるシステム及び方法の一部の実施形態は、適切な境界ボックスの中に収まるために幾何学的データ(ターゲット‐テストまたはターゲット‐トレーニングオブジェクト複合体)を切り取る。例えば、側面に対する25〜40Åの立方体が使用されてよい。ターゲットオブジェクト及び/またはテストオブジェクトがターゲットオブジェクト58の活性部位の中にドッキングされた一部の実施形態では、活性部位の中心は立方体の中心としての機能を果たす。
一部の実施形態では、ターゲットオブジェクトの活性部位を中心とする固定された寸法の四角い立方体は、ボクセルグリッドに空間を区分化するために使用されるが、開示されるシステムはこのように制限されない。一部の実施形態では、さまざまな形状のいずれかが空間をボクセルグリッドに区分化するために使用される。一部の実施形態では、直角プリズム、多面体形状等の多面体が空間を区分化するために使用される。
実施形態では、グリッド構造はボクセルの構成に類似するように構成されてよい。例えば、各基礎構造は分析されている各原子のためのチャネルと関連付けられてよい。また、符号化方法は各原子を数値で表現するために提供されてよい。
一部の実施形態では、ボクセルマップは時間の要因を考慮に入れ、したがって4次元(X、Y、Z、及び時間)であってよい。
一部の実施形態では、ピクセル、点、多角形、多面体、または複数の次元の任意の他のタイプの形状(例えば、3次元、4次元等)の他の実施態様がボクセルの代わりに使用されてよい。
一部の実施形態では、幾何学的データは、空洞フラッディング(cavity flooding)アルゴリズムによって決定されるターゲットオブジェクトの結合部位の質量の中心となるようにX座標、Y座標、及びZ座標の原点を選ぶことによって正規化される(256)。係るアルゴリズムの代表的な詳細については、それぞれが参照により本明細書に援用される、Ho and Marshall,1990,「Cavity search:An algorithm for the isolation and display of cavity−like binding regions」Journal of Computer−Aided Molecular Design 4,337−354ページ、及びHendlich et al.,1997,「Ligsite: automatic and efficient detection of potential small molecule‐binding sites in proteins」J.Mol.Graph.Model 15,no.6,を参照のこと。代わりに、一部の実施形態では、ボクセルマップの起点は(ターゲットオブジェクトに結合されたテストオブジェクトまたはターゲットオブジェクトに結合されたトレーニングオブジェクトの、単にターゲットオブジェクトの、または単にテストオブジェクトまたはトレーニングオブジェクトの)全体的な共複合体の質量の中心に中心がある。基底ベクトルは、任意選択で全体的な共重合体の、単にターゲットの、または単にテストオブジェクト/トレーニングオブジェクトの主要な慣性モーメントとなるように選ばれてよい。一部の実施形態では、ターゲットオブジェクト58は活性部位を有するポリマーであり、サンプリングはテストオブジェクト72(またはトレーニングオブジェクト66)のための複数の異なるポーズの内のそれぞれのポーズのそれぞれでテストオブジェクト72(またはトレーニングオブジェクト66)をサンプリングし、活性部位の質量の中心が起点、及びサンプリングのための対応する3次元の一様なハニカムとして解釈される3次元グリッドに基づいた活性部位は、ポリマーの一部分及び質量の中心を中心とするテストオブジェクト72(またはトレーニングオブジェクト66)を表す(248)。一部の実施形態では、一様なハニカムは規則正しい立方ハニカム、及びポリマーの一部であり、テストオブジェクトは所定の固定された寸法の立方体である。所定の固定された寸法の立方体の使用は、係る実施形態では、幾何学的データの関連する部分が使用されること、及び各ボクセルマップが同じサイズであることを確実にする。一部の実施形態では、立方体の所定の固定された寸法はNÅ x NÅ xNÅであり、Nは5と100との間の整数または実数値、8と50の間の整数、または15と40の間の整数である(250、252)。一部の実施形態では一様なハニカムは規則正しいプリズムハニカムであり、ポリマー及びテストオブジェクトの部分は、所定の固定された寸法QÅ x RÅ xSÅの直角プリズムであり、Qは5と100の間の第1の整数であり、Rは5と100の間の第2の整数であり、Sは5と100との間の第3の整数または実数値であり、集合{Q、R、S}の少なくとも1つの数は集合{Q、R、S}の別の値に等しくない。
実施形態では、あらゆるボクセルは、単純な実施態様ではオン/オフであるだろう、ボクセルと関連付けられた多様な値を有することがある1つ以上の入力チャネルを有し、原子の種類について符号化するように構成されてよい。原子種類は原子の元素を示してよい、または原子種類は他の原子特徴を区別するためにさらに精緻化されてよい。存在する原子は、次いで各ボクセルで符号化されてよい。多様なタイプの符号化は、多様な技術及び/または方法論を使用し、活用されてよい。例の符号化方法として、原子の原子番号は活用されてよく、水素の1からウンウンオクチウム(または任意の他の元素)の118までに及ぶボクセルあたり1つの値を生じさせる。
ただし、上述されたように、例えばあらゆるボクセルが多くの平行した入力チャネルを有し、チャネルのそれぞれがオンまたはオフのどちらかであり、原子の種類について符号化する「ワンホット符号化」等の他の方法が活用されてよい。原子種類は、原子の元素を示してよい、または原子種類は他の原子特徴を区別するためにさらに精緻化されてよい。例えば、SYBYL原子種類は、二重結合炭素、三重結合炭素、または芳香族炭素から単結合炭素を区別する。SYBYL原子種類については、参照により本明細書に援用される、Clark et al.,1989,「Validation of the General Purpose Tripos Force Field,1989,J.Comput.Chem.10,982−1012ページを参照のこと。
一部の実施形態では、各ボクセルは、ターゲットオブジェクト58の一部または共同因子対テストオブジェクト72若しくはトレーニングオブジェクト66の部分である原子を区別するために1つ以上のチャネルをさらに含む。例えば、一実施形態では、各ボクセルは、ターゲットオブジェクト58のための第1のチャネル、及びテストオブジェクト72またはトレーニングオブジェクト66のための第2のチャネルをさらに含む(238)。ボクセルによって表される空間の部分での原子がターゲットオブジェクト58からであるとき、(例えば、ボクセルによって表される空間の部分が原子を含まない、またはテストオブジェクト72若しくはトレーニングオブジェクト66からの1つ以上の原子を含むため)第1のチャネルは例えば「1」等の値に設定され、それ以外の場合はゼロである。さらに、ボクセルによって表される空間の部分の原子がテストオブジェクト72またはトレーニングオブジェクト66からであるとき、(例えば、ボクセルによって表される空間の部分は原子を含まない、またはテストオブジェクト58からの1つ以上の原子を含むため)第2のチャネルは例えば「1」等の値に設定され、それ以外の場合ゼロである。同様に、他のチャネルはさらに(または代わりに)例えば部分電荷、分極率、電気陰性度、溶媒接触可能空間、及び電子密度等の追加の情報を指定してよい。例えば、一部の実施形態では、ターゲットオブジェクトの電子密度マップは3次元座標の集合を覆い、ボクセルマップの作成はさらに電子密度マップをサンプリングする(258)。適切な電子密度マップの例は、複数同形置換マップ、異常信号マップを用いる単一同形置換、単一波長異常分散マップ、多重波長異常分散マップ、及び2Fo−Fcマップを含むが、これに限定されるものではない(260)。参照により本明細書に援用される、McRee,1993,Practical Protein Crystallography,Academic Press,を参照のこと。
一部の実施形態では、開示されるシステム及び方法に係るボクセル符号化は、追加の任意選択の符号化精緻化を含んでよい。以下の2つが実施例として提供される。
第1の符号化精緻化では、必要とされるメモリは、生物系では大部分の元素がめったに発生しないことに基づいて、ボクセルによって表される原子の集合を削減することによって(例えば、ボクセルによって表されるチャネル数を削減することによって)削減されてよい。原子は、珍しい原子を結合することによって、(したがってシステムの性能にめったに影響を及ぼさないことがある)または類似した特性を有する原子を結合することによって(したがって結合の不正確さを最小限の抑えることができるだろう)のどちらかでボクセルの同じチャネルを共用するためにマッピングされてよい。
符号化精緻化は、部分的に近隣のボクセルを活性化することによってボクセルに原子を表させる。これは、以後のニューラルネットワークで近隣のニューロンの部分的な活性化につながり、ワンホット符号化から「セベラルウォーム(several‐warm)」符号化に移る。例えば、1Å3グリッドが設置されるとき、3.5Åのファンデルワールス直径、したがって22.4Å3の体積を有する塩素原子を検討することが例示的である場合があり、塩素原子の内部のボクセルは完全に充填され、原子の端縁でのボクセルは部分的にしか充填されない。したがって、部分充填ボクセルで塩素を表すチャネルは、係るボクセルが塩素原子に該当する量に比例してオンにされる。例えば、ボクセル体積の50パーセントが塩素原子の範囲に入る場合、塩素を表すボクセル内のチャネルは50パーセント活性化される。これは、離散ワンホット符号化に対して「円滑化され」より正確な表現を生じさせてよい。したがって、一部の実施形態では、テストオブジェクトは第1の化合物であり、ターゲットオブジェクトは第2の化合物であり、サンプリングで生じる原子の特徴は、それぞれのボクセルマップ40の内のボクセルの部分集合全体に拡散され、ボクセルのこの部分集合は2つ以上のボクセル、3つ以上のボクセル、5つ以上のボクセル、10以上のボクセル、または25以上のボクセルを含む(242)。一部の実施形態では、原子の特徴は原子種類の列挙から成る(244)(例えば、SYBYL原子種類の1つ)。
したがって、符号化された幾何学的データのボクセレーション(voxelation)(ラスタ化)(テストオブジェクトまたはトレーニングオブジェクトのターゲットオブジェクト上へのドッキング)は、入力データに適用される多様な規則に基づく。
図5及び図6は、一部の実施形態に従って、ボクセルの2次元グリッド500の上に符号化された2つの分子502の例を示す。図5は、2次元グリッドの上に重ね合わされた2つの分子を示す。図6は、酸素、窒素、炭素、及び空間の存在をそれぞれ符号化するために異なる陰影化パターンを使用し、符号化を示す。上述されたように、係る符号化は「ワンホット」符号化と呼ばれてよい。図6は、分子502が省略された図5のグリッド500を示す。図7は、ボクセルが番号を付けられた、図6のボクセルの2次元グリッドの図を示す。
一部の実施形態では、素性ジオメトリは、ボクセル以外の形で表される。図8は、特徴(例えば、原子中心)が0次元点(表現802)、1次元点(表現804)、2次元点(表現806)、または3次元点(表現808)として表される多様な表現の図を示す。当初、点の間の間隔は無作為に選ばれてよい。しかしながら、予測モデルが訓練されるにつれ、点は互いにより近くに、またはより遠くに離れて移動してよい。図9は、点ごとに考えられる位置の範囲を示す。
対応するベクトルにボクセルマップを展開すること。要素262を参照すると、各ボクセルマップ40は、任意選択で対応するベクトルに展開され、それによって複数のベクトルを作成し、複数のベクトルの内の各ベクトルは同じサイズである。一部の実施形態では、複数のベクトルの内の各ベクトルは1次元ベクトルである(264)。例えば、一部の実施形態では、各側面の20Åの立方体はターゲットオブジェクト58の活性部位を中心とし、1Åの3次元固定グリッド間隔でサンプリングされて、ボクセルマップの対応するボクセルを形成する。対応するボクセルは、上述されたように、任意選択でより複雑なテストオブジェクト‐ターゲットオブジェクトの記述子だけではなく、原子種類等のボクセル構造特徴の基本をそれぞれのチャネルに保持する。一部の実施形態では、この3次元のボクセルマップのボクセルは一次元の浮動小数点ベクトルに展開される。
ベクトル22を畳み込みニューラルネットワークにさらすこと。図2の要素266を参照すると、ボクセルマップ22のベクトル化された表現は畳み込みネットワーク24にさらされる。一部の実施形態では、図2に示されるように、ボクセルマップ22のベクトル化された表現は畳み込み評価モジュール20及び畳み込みニューラルネットワーク24とともにメモリ52に記憶される。これは、より高速に畳み込みニューラルネットワーク24を通してボクセルマップ22のベクトル化された表現を処理する優位点を提供する。しかしながら、他の実施形態では、ボクセルマップ22、畳み込み評価モジュール20、及び畳み込みニューラルネットワーク24のベクトル化された表現のいずれかまたはすべては、システム100のメモリ92内にある、または単にネットワーク全体でシステム92によってアドレス指定可能である。一部の実施形態では、ボクセルマップ22、畳み込み評価モジュール20、及び畳み込みニューラルネットワーク24のベクトル化された表現のいずれかまたはすべてはクラウドコンピューティング環境にある。
一部の実施形態では、複数のベクトル22は図形処理ユニットメモリ52に提供され、図形処理ユニットメモリは、複数のベクトルを連続して受け入れるための入力層26、複数の畳み込み層28、及びスコアラ30を備える畳み込みニューラルネットワーク24を含むネットワークアーキテクチャを含む。複数の畳み込み層は初期畳み込み層及び最終畳み込み層を含む。一部の実施形態では、畳み込みニューラルネットワーク24はGPUメモリ内にないが、システム100の汎用メモリ内にある。一部の実施形態では、ボクセルマップは、ネットワーク24に入力される前にベクトル化されない。
一部の実施形態では、複数の畳み込み層の畳み込み層28は学習可能フィルタ(カーネルとも呼ばれる)の集合を含む。各フィルタは、畳み込み層の入力体積の深さ、高さ、及び幅にわたってコンボリュ−ションされる(所定のステップ速度でステッピングされる)固定された3次元サイズを有し、フィルタのエントリ(重み)と入力との間のドット積(または他の関数)を計算し、それによってそのフィルタの多次元活性化マップを作成する。一部の実施形態では、フィルタステップ速度は入力空間の1要素、2要素、3要素、4要素、5要素、6要素、7要素、8要素、9要素、10要素、または10を超える要素である。このようにして、フィルタがサイズ53を有する場合を考える。一部の実施形態では、このフィルタは、ボクセルチャネルあたり125の入力空間の値の総数について、5要素の深さ、5つの要素の幅と、5つの要素の高さを有する入力スペースの隣接する立方体との間のドット積(または他の数学関数)を計算する。
初期畳み込み層に対する入力空間(例えば、入力層26からの出力)は、ボクセルマップ40またはボクセルマップ22のベクトル化された表現のどちらかから形成される。一実施形態では、ボクセルマップのベクトル化された表現は、初期畳み込み層に対する入力空間の役割を果たすボクセルマップの1次元ベクトル化表現である。それにも関わらず、フィルタがその入力空間をコンボリュ−ションし、入力空間がボクセルマップの1次元ベクトル化表現であるとき、フィルタはまだ1次元ベクトル化表現から、ターゲットオブジェクト‐テスト(またはトレーニング)オブジェクトの複合体で固定空間の対応する隣接立方体を表すそれらの要素を入手する。一部の実施形態では、フィルタはターゲットオブジェクト‐テスト(またはトレーニング)オブジェクトの複合体の固定空間の対応する隣接立方体を形成する1次元ベクトル化表現の中からそれらの要素を選択するために標準的な簿記技術を使用する。したがって、一部の例では、これは必ず、ターゲットオブジェクト‐テスト(またはトレーニング)オブジェクトの複合体の固定空間の対応する隣接立方体の要素値を入手するために、1次元のベクトル化表現の要素の非隣接部分集合を取ることを伴う。
一部の実施形態では、フィルタは、フィルタに対応する活性化層の第1の単一の値(または値の集合)を計算するために、(例えばガウス雑音に)初期化される、または125の入力空間値のドット積(または図14に開示される関数等のなんらかの他の形の数学演算)をとるために(入力チャネルあたり)125の対応する重みを有するように訓練される。一部の実施形態では、フィルタによって計算される値は合計され、重み付けされ、及び/またはバイアスをかけられる。フィルタに対応する活性化層の追加の値を計算するために、フィルタは次いでフィルタと関連付けられたステップレート(ストライド)により入力体積の3次元の1つでステッピング(コンボリュ−ション)され、その点で、フィルタ重みと(チャネルあたりの)125の入力空間値との間のドット積((または図14に開示される関数等のなんらかの他の形の数学演算)は入力体積での新しい場所でとられる。このステッピング(コンボリュ−ション)は、フィルタがステップレートに従って入力空間全体をサンプリングするまで繰り返される。一部の実施形態では、畳み込み層によって生じる出力空間の空間体積を制御するために入力空間の境界はゼロを埋め込まれる。典型的な実施形態では、畳み込み層のフィルタのそれぞれはこのようにして3次元入力体積をキャンバスで覆い(canvas)、それによって対応する活性化マップを形成する。畳み込み層のフィルタからの活性化マップの集合体は、集合的に1つの畳み込み層の3次元出力体積を形成し、それによって以後の畳み込み層の3次元(3つの空間次元)としての機能を果たす。出力体積のあらゆるエントリは、このようにして、畳み込み層に対する入力空間内の小さい領域を見て、同じ活性化マップのニューロンとパラメータを共用する単一のニューロン(またはニューロンの集合)の出力として解釈することもできる。したがって、一部の実施形態では、複数の畳み込み層の内の畳み込み層は複数のフィルタを有し、複数のフィルタの内の各フィルタは(3つの空間次元で)ストライドYでN3の立体入力空間をコンボリュ−ションし、Nは2以上(例えば、2、3、4、5、6、7、8、9、10、または10以上)の整数であり、Yは正の整数(例えば、1、2、3、4、5、6、7、8、9、10、または10以上)である(268)。
複数の畳み込み層の各層は重みの異なる集合と関連付けられる。より詳細には、複数の畳み込み層の内の各層は複数のフィルタを含み、各フィルタは独立した複数の重みを含む(270)。一部の実施形態では、畳み込み層は、次元53の128のフィルタを有し、したがって畳み込み層はボクセルマップのチャネルあたり128x5x5x5、つまり16000の重みを有する。したがって、ボックスマップに5つのチャネルがある場合、畳み込み層は16,000x5の重み、つまり80,000の重みを有する。一部の実施形態では、所与の畳み込み層のあらゆるフィルタの一部のまたはすべての係る重み(及び任意選択でバイアス)はともに結び付けられ、つまり、同一となるように制約されてよい。
複数のベクトルの内のそれぞれのベクトル22の入力に応えて、入力層26はそれぞれのベクトルの値の第1の関数として第1の複数の値を初期の畳み込み層に送り込み、第1の関数は任意選択で図形処理ユニット50を使用し、計算される。
最終畳み込み層以外の各それぞれの畳み込み層28は、(i)それぞれの畳み込み層と関連付けられた重みの異なる集合、及び(ii)それぞれの畳み込み層で受け取られる入力値、のそれぞれの第2の関数として複数の畳み込み層の別の畳み込み層に中間値を送り込み、第2の関数は図形処理ユニット50を使用し、計算される。例えば、それぞれの畳み込み層28の各それぞれのフィルタは、畳み込み層の特徴的な3次元ストライドに従って畳み込み層に対し(3つの空間次元の)入力体積をカンバスで覆い、各それぞれのフィルタ位置で、それぞれのフィルタのフィルタ重み及びそれぞれのフィルタ位置での入力体積(総入力空間の部分集合である隣接する立方体)の値のドット積(またはなんらかの他の数学関数)をとり、それによってそれぞれのフィルタ位置に対応する活性化層に計算された点(または点の集合)を生じさせる。それぞれの畳み込み層のフィルタの活性化層は集合的にそれぞれの畳み込み層の中間値を表す。
最終畳み込み層は、(i)最終畳み込み層と関連付けられた重みの異なる集合、及び(ii)図形処理ユニット50を使用し、任意で計算される最終畳み込み層によって受け取られる入力値の第3の関数として、最終値をスコアラに送り込む。例えば、最終畳み込み層28のそれぞれの各フィルタは、畳み込み層の特徴的な3次元ストライドに従って、最終畳み込み層に対して(3つの空間次元の)入力体積をカンバスで覆い、各それぞれのフィルタ位置で、フィルタのフィルタ重み及びそれぞれのフィルタ位置での入力体積の値のドット積(またはなんらかの他の数学関数)をとって、それによってそれぞれのフィルタ位置に対応する活性化層の点(または点の集合)を計算する。最終畳み込み層のフィルタの活性化層は、スコアラ30に送り込まれる最終値を集合的に表す。
一部の実施形態では、畳み込みニューラルネットワークは1つ以上の活性化層を有する。一部の実施形態では、活性化層は、不飽和活性化関数f(x)=max(0,x)を適用するニューロンの層である。活性化層は、畳み込み層のそれぞれのフィールドに影響を及ぼすことなく、決定関数の及び全体的なネットワークの非線形特性を高める。他の実施形態では、活性化層は非線形性を高める関数、例えば飽和する双曲線正接関数f(x)=tanh、f(x)=|tanh(x)|、及びシグモイド関数f(x)=(1+e−x)−1を有する。ニューラルネットワークの一部の実施形態の他の活性化層で見つけられる他の活性化関数の非制限例は、ロジスティック曲線(またはシグモイド)、ソフトマックス、ガウス、ボルツマン重み付け平均化、絶対値、線形、修正(rectified)線形、有界修正(bounded rectified)線形、ソフト修正(soft rectified)線形、パラメータ化正規化(rectified)線形、平均、最大、最小、なんらかのベクトルノルムLP(p=1、2、3、...、∞の場合)、符号、平方、平方根、複二次(multiquadric)、逆二次項(inverse quadratic)、逆複二次(inverse multiquadric)、多高調波(polyharmonic)スプライン、及び薄板スプラインを含んでよいが、これに限定されるものではない。
ネットワーク24は、畳み込み層28が入力の何らかの空間位置で特定のタイプの特徴を見るとき、活性化する畳み込み層28の中のフィルタを学習する。以下のネットワークトレーニングの項に説明されるように、一部の実施形態では、畳み込み層の各フィルタの初期重みは、以下に説明されるようにオブジェクトトレーニングライブラリ64と対照して畳み込みニューラルネットワークを訓練することによって得られる。したがって、畳み込みニューラルネットワーク24の動作は、結合親和性予測を実施するために従来使用される特徴よりもより複雑な特徴を生じさせてよい。例えば、水素結合検出器としての機能を果たすネットワーク24の所与の畳み込み層のフィルタは、水素結合供与体及び水素結合受容体が所与の距離及び角度にあることを認識するだけではなく、供与体及び受容体の回りの生物化学環境が結合を強化または弱体化することも認識する。さらに、ネットワーク24の中のフィルタは基礎データで結合剤と非結合剤を効果的に区別するように訓練されてよい。
一部の実施形態では、畳み込みニューラルネットワーク24は、例えばターゲットオブジェクトとテストオブジェクトの両方が動くにつれ遭遇されてよい代替位置等、動的システムのために適応するように構成される。係るターゲットオブジェクト‐テストオブジェクト複合体では、各形状の自由エネルギーのボルツマン分布に基づいた相対的比率でいくつかの異なる構成が採用される。ターゲットオブジェクト‐テストオブジェクト複合体の自由エネルギーのエンタルピー成分とエントロピー成分の両方ともオブジェクトによって採用されるポーズに依存する場合がある(△G=△H‐T △S)。最終的な結合親和性は、ターゲットオブジェクト‐テストオブジェクト複合体が利用可能なポーズの集合のエネルギーの加重平均の関数であることが判明することがある。この物理現象をモデル化するために、畳み込みニューラルネットワーク24は、ターゲットオブジェクト及びテストオブジェクトの動きに起因する多数の代替位置をサンプリングし、(例えば、これらの多様な代替位置のすべてのネットワーク24のスコアの加重平均をとることによって)その結合親和性予測を複合体の構成のこのサンプリングされた集合に基づかせるように構成されてよい。
上述されたように、一部の実施形態では、ニューラルネットワーク24は、3次元畳み込み層を展開させるように構成される。最低レベルの畳み込み層28への入力領域は、それぞれのフィールドからのボクセルチャネルの立方体(または他の隣接する領域)であってよい。高い方の畳み込み層28は、その出力を(3次元ユークリッド距離で)互いに近いボクセルの有界領域の関数としながらも、低い方の畳み込み層からの出力を評価する。
生物活動は並進だけではなく回転の下でも不変であってよく、これによりネットワーク24は任意選択で空間分割の回転対称を利用する回転特徴マップを生成するように構成されてよい。例えば、システムが入力データを区分化するために立方体を使用するように構成されると、システムは、90度の回転後に関数計算の重みをともに結び付けることによって回転特徴マップを生成するように構成できるだろう。
右回りに回転される立方体を考慮することは例示的であってよい。つまり、1つのフィルタの上面での重みは異なるフィルタの右面での重みに結び付けられる。言い換えると、重みは同一となるように制約されてよい。回転は、3つのXY平面/XZ平面/YZ平面のそれぞれのために90度、180度、270度右回りに回転することによって24の特徴マップを生成してよい。重み結束なしで、あらゆるフィルタは独自の重みを有するので、この配置は、回転重み結束なしの24分の1にパラメータの数を削減する。
代替例として、システムが入力データを区分化するために他の多面体を使用するように構成される場合、システムはその対称性群に適切な等成写像にアクセスするために他の回転を使用するように構成されてよい。例えば、空間が切頂8面体を使用し、区分化される場合、90度の回転対称の3軸、120度の回転対称の4軸、及び180度の対称の6軸があるだろう。
実施形態では、ネットワーク24は、トレーニングオブジェクト66及びトレーニング結合データ68を過剰適合するモデルの傾向を削減するために正規化法を適用するように構成される。
ネットワーク24のネットワーク層のゼロ以上はプーリング層から成ってよい。畳み込み層においてのように、プーリング層は、異なる空間的に局所的な入力のパッチ上で同じ関数を適用する関数計算の集合である。プーリング層の場合、出力は、例えばいくつかのボクセルの上でp=1、2、3、...、∞の場合のなんらかのベクトルノルムLP等のプーリング演算子によって与えられる。プーリングは、通常、チャネル全体よりもチャネルごとに行われる。プーリングは入力空間を3次元ボックスの集合に区分化し、係る小領域ごとに最大値を出力する。プーリング演算は並進不変の形を提供する。プーリング層の機能は、ネットワークでのパラメータ及び計算の量を削減し、したがって過剰適合を制御するためにも表現の空間サイズを漸次的に削減することである。一部の実施形態では、プーリング層はネットワーク24の連続畳み込み28層の間に挿入される。係るプーリング層は入力の深さスライスごとに独立して作用し、スライスのサイズを空間的に変更する。最大値プーリングに加えて、プーリングユニットは、例えば平均プーリングまたはL2−ノルムプーリング等の他の機能も実行できる。
ネットワーク24の層のゼロ以上は、同じ位置のチャネル全体にまたは特定のチャネルの場合いくつかの位置にわたって適用されてよい、局所反応正規化または局所コントラスト正規化等の正規化層から成ってよい。これらの正規化層は、同じ入力に対するいくつかの関数計算の反応での多様性を促進してよい。
一部の実施形態では、スコアラ30は、複数の完全接続層及び1つの評価層を含み、複数の完全接続層の完全接続層は評価層に流れ込む(272)。完全接続層のニューロンは、規則正しいニューラルネットワークで見られるように、以前の層のすべての活性化に対する完全接続を有する。したがって、その活性化はバイアスオフセットが続く行列乗算で計算できる。一部の実施形態では、各完全接続層は512の隠れたユニット、1024の隠れたユニット、または2048の隠れたユニットを有する。一部の実施形態では、スコアラに、完全接続層はない、1つの完全接続層、2つの完全接続層、3つの完全接続層、4つの完全接続層、5つの完全接続層、6以上の完全接続層、または10以上の完全接続層がある。
一部の実施形態では、評価層は複数の活動クラスを区別する。一部の実施形態では、評価層は、2つの活動クラス、3つの活動クラス、4つの活動クラス、5つの活動クラス、または6つ以上の活動クラス上でロジスティック回帰コスト層を含む。
一部の実施形態では、評価層は複数の活動クラスの上でロジスティック回帰コスト層を含む。一部の実施形態では、評価層は2つの活動クラス、3つの活動クラス、4つの活動クラス、5つの活動クラス、または6つ以上の活動クラス上でロジスティック回帰コスト層を含む。
一部の実施形態では、評価層は2つの活動クラスを区別し、第1の活動クラス(第1の分類)は、第1の結合値を上回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値を下回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIである。一部の実施形態では、第1の結合値は1ナノモル、10ナノモル、100ナノモル、1ミクロモル、10ミクロモル、100ミクロモル、または1ミリモルである。
一部の実施形態では、評価層は、2つの活動クラスの上のロジスティック回帰コスト層を含み、第1の活動クラス(第1の分類)は、第1の結合値を上回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値を下回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIである。一部の実施形態では、第1の結合値は1ナノモル、10ナノモル、100ナノモル、1ミクロモル、10ミクロモル、100ミクロモル、または1ミリモルである。
一部の実施形態では、評価層は3つの活動クラスを区別し、第1の活動クラス(第1の分類)は、第1の結合値を上回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値と第2の結合値の間であるターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIであり、第3の活動クラス(第3の分類)は、第1の結合値を下回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIであり、第1の結合値は第2の結合値以外である。
一部の実施形態では、評価層は3つの活動クラスの上のロジスティック回帰コスト層を含み、第1の活動クラス(第1の分類)は、第1の結合値を上回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値と第2の結合値の間であるターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIであり、第3の活動クラス(第3の分類)は、第1の結合値を下回るターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIであり、第1の結合値は第2の結合値以外である。
一部の実施形態では、スコアラ30は完全接続単一層または多層の知覚対象を含む。一部の実施形態では、スコアラはサポートベクトルマシン、ランダムフォレスト、最近傍を含む。一部の実施形態では、スコアラ30は、多様な出力カテゴリへの入力を分類する強度(または確実性または可能性)を示す数値スコアを割り当てる。一部の場合、カテゴリは結合剤及び非結合剤、または代わりに効力レベル(例えば、<1モル、<1ミリモル、<100ミクロモル、<10ミクロモル、<1ミクロモル、<100ナノモル、<10ナノモル、<1ナノモル、のIC50、EC50、またはKIの効能)である。
スコアラから複数のスコアを入手すること(276)及びテストオブジェクトを特徴付けるために畳み込みニューラルネットワークからスコアを使用すること(278)。テストオブジェクト72(またはトレーニングオブジェクト68)とターゲットオブジェクト58との間の複合体のためにニューラルネットワーク24からスコアラスコアを入手するための詳細は上述された。上述されたように、各テストオブジェクト72(またはトレーニングオブジェクト66)はターゲットオブジェクトに関して複数のポーズにドッキングされる。すべての係るポーズを一度に畳み込みニューラルネットワーク24に提示することは、きわめて大きい入力フィールド(例えば、ボクセル数*チャネル数*ポーズ数、に等しいサイズの入力フィールド)を必要とすることがある。一部の実施形態では、すべてのポーズはネットワーク24に同時に提示されるが、好ましい実施形態では、それぞれの係るポーズはボクセルマップに処理され、ベクトル化され、畳み込みニューラルネットワーク24への連続入力としての機能を果たす。図2Eを参照すると、このようにして、複数のスコアはスコアラ30から入手され、複数のスコアの内の各スコアはスコアラ30の入力層26への複数のベクトルの内のベクトルの入力に対応する(276)。一部の実施形態では、所与のテストオブジェクト72(またはトレーニングオブジェクト66)及び所与のターゲットオブジェクト58のポーズのそれぞれのスコアは互いに結合されて、テストオブジェクト72(またはトレーニングオブジェクト66)全体の最終的なスコアを生じさせる。
スコアラ出力が数値である実施形態では、出力は、既知であるまたは展開される本明細書で説明される活性化関数のいずれかを使用し、結合されてよい。例は、不飽和活性化関数f(x)=max(0,x)、飽和双曲線正接関数f(x)=tanh、f(x)=|tanh(x)|、シグモイド関数f(x)=(1+e-x)-1、ロジスティック曲線(またはシグモイド)、ソフトマックス、ガウス、ボルツマン重み付け平均化、絶対値、線形、修正線形、有界修正線形、ソフト修正線形、パラメータ化正規化線形、平均、最大、最小、なんらかのベクトルノルムLP(p=1、2、3、...、∞の場合)、符号、平方、平方根、複二次、逆二次項、逆複二次、多高調波スプライン、及び薄板スプラインを含んでよいが、これに限定されるものではない。
本開示の一部の実施形態では、出力が結合エネルギーを示すと解釈される場合、これがポーズの物理的な可能性を適合するので、システムは出力を結合するためにボルツマン分布を活用するように構成されてよい。本発明の他の実施形態では、max()関数はボルツマンに妥当な近似を提供してもよく、計算上効率的である。
スコアラ出力が数値ではない実施形態では、スコアラ30は、例示的として、とりわけ非制限例、過半数、重み付け平均化、コンドルセ方式、ボルダ方式を含んでよい、多様なアンサンブル投票方式を使用し、出力を結合するように構成されてよい。
実施形態では、システムは、例えば結合親和性のインジケータを生成するためにスコアラ30のアンサンブルを適用するように構成されてよい。
図2Eの要素280を参照すると、一部の実施形態では、テストオブジェクト72(またはトレーニングオブジェクト66)は化合物であり、テスト(またはトレーニング)オブジェクトを特徴付ける(例えば、テスト(またはトレーニング)オブジェクトの分類を決定する)ために(テストオブジェクトまたはトレーニングオブジェクトのための複数のポーズから)複数のスコアを使用することは、複数のスコアの中心傾向の測定値をとることを含む。中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトは第1の分類を有すると見なされる。中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは第2の分類を有すると見なされる(280)。
図2Eの要素282を参照すると、一部の実施形態では、テストオブジェクト72(またはトレーニングオブジェクト66)を特徴付けるために複数のスコアを使用することは、(テストオブジェクトまたはトレーニングオブジェクトのための複数のポーズから)複数のスコアの加重平均をとることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、オブジェクトは第1の分類を有すると見なされる。加重平均が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは第2の分類を有すると見なされる。一部の実施形態では、加重平均は複数のスコアのボルツマン平均である(284)。一部の実施形態では、第1の分類は、第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1ミクロモル、10ミクロモル、100ミクロモル、または1ミリモル)を超えるターゲットオブジェクトに関してテストオブジェクト(またはトレーニングオブジェクト)のためのIC50、EC50、またはKIであり、第2の分類は第1の結合値を下回るターゲットオブジェクトに関してテストオブジェクトのためのIC50、EC50,Kd、またはKIである(286)。
図2Eの要素288を参照すると、一部の実施形態では、テストオブジェクト72(またはトレーニングオブジェクト66)を特徴付けるために複数のスコアを使用することは、(テストオブジェクトまたはトレーニングオブジェクトの複数のポーズから)複数のスコアの加重平均をとることを含む。加重平均が複数の閾値範囲の内のそれぞれの閾値を満たすとき、テスト(またはトレーニング)オブジェクトは、それぞれの閾値範囲に一意に対応する複数のそれぞれの分類の内のそれぞれの分類を有すると見なされる。一部の実施形態では、複数の分類の内の各それぞれの分類は、ターゲットオブジェクトに関してテストオブジェクトのためのIC50、EC50、Kd、またはKI範囲(例えば、1ミクロモルと10ミクロモルの間、1ナノモルと100ナノモルの間)である(290)。
一部の実施形態では、所与のターゲットオブジェクトに対する各それぞれのテストオブジェクトのための単一のポーズはニューラルネットワーク24を通して実行され、これに基づいてそれぞれのテストオブジェクトのそれぞれのためのニューラルネットワーク24により割り当てられるそれぞれのスコアはテストオブジェクトを分類するために使用される。
一部の実施形態では、本明細書に開示される技術を使用し、ニューラルネットワーク24によって評価される複数のターゲットオブジェクト58のそれぞれと対照するテストオブジェクトの1つ以上のポーズのネットワーク24のスコアの加重平均は、テストオブジェクトを分類するために使用される。例えば、一部の実施形態では、複数のターゲットオブジェクト58は分子動力学ランからとられ、分子動力学ランでは、複数のターゲットオブジェクトの内の各ターゲットオブジェクトが分子動力学ランの間の異なる時間ステップで同じポリマーを表す。これらのターゲットオブジェクトのそれぞれと対照するテストオブジェクトの1つ以上のポーズのそれぞれのボクセルマップは、独立したポーズ‐ターゲットオブジェクト対ごとにスコアを得るためにネットワーク24と対照して評価され、これらのスコアの加重平均はターゲットオブジェクトを分類するために使用される。
予測モデルを訓練すること。ディープニューラルネットワークが実装される(例えば、畳み込みニューラルネットワーク24)一部の実施形態では、畳み込み評価モジュール20は、幾何学的データ入力を受け取り、所与のテストオブジェクトがターゲットオブジェクトに結合するかどうかの予測(可能性)を出力するためにネットワーク24を訓練するように構成される。例えば、一部の実施形態では、(その関連付けられた結合データ68のために)ターゲットオブジェクトと対照して既知の結合データを有するトレーニングオブジェクト66は、図2に関して上述された技術を使用し、ニューラルネットワーク24を通して連続して実行され、ニューラルネットワークは、各それぞれのトレーニングオブジェクトに単一の値を提供する。
一部の係る実施形態では、ニューラルネットワークは所与のターゲットオブジェクトと対照して各トレーニングオブジェクトのために2つの考えられる活動クラスの1つを出力する。例えば、ニューラルネットワーク24によって各それぞれのトレーニングオブジェクトのために提供される単一値は、それが所定の閾値以下であるときに第1の活動クラス(例えば、結合剤)の中にあり、数字が所定の閾値を上回るときに第2の活動クラス(例えば、非結合剤)の中にある。ニューラルネットワーク24によって割り当てられる活動クラスは、トレーニングオブジェクト結合データ68によって表される実際の活動クラスに比較される。典型的な非制限的実施形態では、係るトレーニングオブジェクト結合データ68は、独立したウェットラボ結合アッセイからである。ニューラルネットワークによってなされる活動クラス割り当てのエラーは、結合データ68と対照して検証されるように、次いでニューラルネットワーク24を訓練するためにニューラルネットワークの重みにより逆誤差伝搬される。例えば、ネットワークの畳み込み層28のそれぞれのフィルタのフィルタ重みは、係るバックプロパゲーションで調整される。例示的な実施形態では、ニューラルネットワーク24は、AdaDelta適応学習法(参照により本明細書に援用される、Zeiler,2012「ADADELTA:an adaptive learning rate method」,CoRR,vol.abs/1212.5701)、及び参照により本明細書に援用される、Rumelhart et al.,1988,「Neurocomputing Foundations of research」ch.Learning Representations by Backpropagating Errors,696−699ページ、Cambridge,MA,USA:MIT Pressに示されるバックプロパゲーションアルゴリズムを用いる確率的勾配降下法によって結合データ68を考慮してネットワーク24によって行われる活動クラス割り当てでのエラーに対して訓練される。一部の係る実施形態では、2つの考えられる活動クラスは、それぞれ、所与の閾値量(例えば、1ナノモル、10ナノモル、100ナノモル、1ミクロモル、10ミクロモル、100ミクロモル、または1ミリモルよりも大きいターゲットオブジェクトに関するトレーニングオブジェクトのためのIC50、EC50、またはKI等)よりも大きい結合定数、及び所与の閾値量(例えば、1ナノモル、10ナノモル、100ナノモル、1ミクロモル、10ミクロモル、100ミクロモル、または1ミリモル未満であるターゲットオブジェクトに関するトレーニングオブジェクトのためのIC50、EC50、またはKI)を下回る結合定数である。一部の係る実施形態では、所与のターゲットオブジェクトと対照して各トレーニングオブジェクトのための複数のポーズがニューラルネットワークを通して連続して実行され、ニューラルネットワーク24によって計算されるこれらのポーズのスコアの加重平均は、ウェットラボ結合アッセイにより取得される結合データ68に比較される。
一部の係る実施形態では、ニューラルネットワークは、所与のターゲットオブジェクトと対照して各トレーニングオブジェクトのために複数の考えられる活動クラス(例えば、3つ以上の活動クラス、4つ以上の活動クラス、5つ以上の活動クラス)の内の1つを出力する。例えば、ニューラルネットワーク24によって各それぞれのトレーニングオブジェクトに提供される単一値(例えば、複数のポーズの加重平均または単一のポーズからの単一値)は、数字が第1の範囲に該当するとき第1の活動クラスに入り、数字が第2の範囲に該当するとき第2の活動クラスに入り、数字が第3の範囲に該当するとき第3の活動クラスに入る等々である。ニューラルネットワーク24によって割り当てられる活動クラスは、トレーニングオブジェクト結合データ68によって表される実際の活動クラスに比較される。ニューラルネットワークによってなされる活動クラス割り当てのエラーは、結合データ68と対照して検証されるように、次いで上述された技術を使用し、ニューラルネットワーク24を訓練するために使用される。一部の実施形態では、複数の分類の内の各それぞれの分類は、ターゲットオブジェクトに関してはトレーニングオブジェクトのためのIC50、EC50、またはKI範囲である。
一部の実施形態では、所与のターゲットオブジェクトと対照する各それぞれのトレーニングオブジェクトのための単一のポーズはニューラルネットワークを通して実行され、各それぞれのトレーニングオブジェクトのためのニューラルネットワーク24によって割り当てられる、結果として生じるそれぞれのスコアは、1つ以上のウェットラボ結合アッセイ技術によって別々に取得されているそれぞれのトレーニングオブジェクトのための結合データ68に比較される。次いで、トレーニングオブジェクトためのニューラルネットワーク24によってなされる活動クラス割り当てでのエラーは、トレーニングオブジェクトのための結合データ68と対照して検証されるように、上述された技術を使用し、ニューラルネットワーク24を訓練するために使用される。
一部の実施形態では、本明細書に開示される技術を使用し、ニューラルネットワーク24によって評価される複数のターゲットオブジェクト58のそれぞれと対照するトレーニングオブジェクトの1つ以上のポーズの加重平均は、1つ以上のウェットラボ結合アッセイ技術によって別々に取得されるそれぞれのトレーニングオブジェクトのための結合データ68に比較される。例えば、一部の実施形態では、複数のターゲットオブジェクト58は分子動力学ランからとられ、分子動力学ランでは、複数のターゲットオブジェクトの内の各ターゲットオブジェクトが分子動力学ランの間の異なる時間ステップで同じポリマーを表す。ニューラルネットワーク24によるターゲットオブジェクト分類とウェットラボ結合アッセイによるオブジェクト分類との間の不一致は次いで、上述された技術を使用し、ニューラルネットワーク24を訓練するために使用される。
一部の実施形態では、複数のトレーニングオブジェクトのニューラルネットワーク24分類は、ノンパラメトリック手法を使用し、結合データ68に比較される。例えば、ニューラルネットワーク24は、所与の特性(例えば、所与のターゲットオブジェクトと対照する結合)に関して複数のトレーニングオブジェクトを順位付けするために使用され、この順位は複数のトレーニングオブジェクトのためのウェットラボ結合アッセイによって取得される結合データ68によって提供される順位に比較される。これは、上述されたネットワーク24エラー訂正技術を使用し、計算された順位のエラーに対して、ネットワーク24を訓練する能力を生じさせる。一部の実施形態では、ニューラルネットワーク24によるトレーニングオブジェクトによるランキングと結合データ68によって決定されるトレーニングオブジェクトのランキングとの間の誤差(差異)は、ウィルコクソンマンホイットニー関数(ウィルコクソン符号付き順位検定)または他のノンパラメトリック検定を使用し、計算され、この誤差は、上述されたニューラルネットワーク24エラー訂正値術を使用し、ネットワークをさらに訓練するためにニューラルネットワーク24を通して逆誤差伝搬される。
ディープラーニング技術が上述されたようにニューラルネットワーク24を活用する実施形態では、畳み込み評価モジュール20は、ネットワーク層のバイアスだけではなく畳み込み層28のフィルタの重みも修正することによって、その予測の精度を改善するためにネットワーク24を訓練するように構成されてよい。重み及びバイアスは、例えばL1、L2、重み減衰、及びドロップアウト等の多様な形式の正規化でさらに制約されてよい。
実施形態では、ニューラルネットワーク24は任意選択で、対照分岐(contrastive divergence)アルゴリズムを使用するトレーニングオブジェクトと対照して貪欲的、層別、生成的(generative)事前訓練を通してトレーニングデータの入力分布をモデル化するためにネットワークの重みを調整するように構成されてよい。
実施形態では、トレーニングデータが(例えば、結合データ68で)ラベル付けされる場合、ニューラルネットワーク24は任意選択でネットワーク24の中の重みを調整して、ニューラルネットワークの予測される結合親和性及び/またはカテゴリ化と、トレーニングデータの報告される結合親和性及び/またはカテゴリ化との間の誤差を潜在的に最小限に抑えてよい。対数損失、平方誤差の総計、ヒンジ損失方法を含んでよいが、これに限定されるものではない傾斜降下法等の多様な方法が、誤差関数を最小限に抑えるために使用されてよい。これらの方法は、二次方法または運動量、脱へシアン推定、ネステロフの加速勾配、adagrad等の近似を含んでよい。ラベルが付いていない生成的事前訓練及びラベルが付けられた識別訓練も結合されてよい。
入力された幾何学的データは、トレーニング例にグループ化されてよい。例えば、分子、共同因子、及びプロテインの単一の集合が複数の幾何学的な測定値を有することが多く、各「スナップショット」は、ターゲットオブジェクト及びトレーニングオブジェクト(またはテストオブジェクト)が採用してよい代替の配座及びポーズを記述する。同様に、ターゲットオブジェクトがタンパク質である例では、タンパク質側鎖、共同因子、及びトレーニング(またはテスト)オブジェクトのための異なる互変異性体がサンプリングされてもよい。これらの状態はすべて生物系の挙動に貢献するため、ボルツマン分布に従って、結合親和性を予測するためのシステムは、(例えば、これらのサンプリングの加重平均をとることによって)これらの状態をともに検討するように構成されてよい。任意選択で、これらのトレーニング例は結合情報でラベルを付けられてよい。定量的な結合情報が利用可能である(例えば、結合データ68)場合、ラベルは数値の結合親和性であってよい。代わりに、トレーニング例は、2つ以上の順位付けられたカテゴリ(例えば、結合剤及び非結合剤の2つのカテゴリ、または効能<1モル、<1ミリモル、<100ミクロモル、<10ミクロモル、<1ミクロモル、<100ナノモル、<10ナノモル、<1ナノモルの結合剤としてリガンドを記述するいくつかのおそらく重複するカテゴリ)の集合からラベルを割り当てられてよい。結合データ68は、例えば実験的測定、計算推定、専門家洞察、または推測(例えば、分子及びタンパク質の無作為な対はきわめて結合しそうにない)等さまざまなソースから引き出されてよい、または受け取られてよい。
実施例1‐実験ベンチマークの構築
開示されるシステム及び方法の適用は、3つのベンチマーク、つまり有用なデコイ増強のディレクトリ(DUDE)ベンチマーク(参照により本明細書に援用される、Mysinger et al.,2012「Directory of useful decoys, enhanced(dud−e):Better ligands and decoys for better benchmarking」、Journal of Medicinal Chemistry 55,no.14,6582−6594ページ、PMID:22716043)、内部DUDE状のベンチマーク、及び実験で検証されたイナクティブ分子を有するベンチマークに対して明示される。これらのベンチマークのそれぞれは、開示されるシステム及び方法の性能の異なった優遇評価を提供する。標準的なベンチマークとして、DUDEは他の構造ベースの結合親和性予測システムに対する直接的な比較を可能にする。残念なことに、DUDEは別個のトレーニングセットを指定することなく、特定のテストセットだけを指定する。独自のDUDE状のベンチマークを構築することによって、私たちはトレーニング分子とテスト分子との間に重複がないことを確実にする。構造上類似する分子が異なるラベルを有する場合があるため、実験で検証されたアクティブな分子及びイナクティブな分子を正しく分類することは困難な試験である。参照により本明細書に援用される、Hu et al.,「Systematic identification and classification of three−dimensional activity cliffs」、Journal of Chemical Information and Modeling 52,no.6,1490−1498ページを参照のこと。デコイはイナクティブであると推測するために、係る場合は、相違要件のため、特性が一致したデコイを使用し、ベンチマークから除外される。
DUDEベンチマークの方法論は、参照により本明細書に援用される、Mysinger et al.,2012「Directory of useful decoys, enhanced(dud−e):Better ligands and decoys for better benchmarking」,Journal of Medicinal Chemistry 55,no.14,6582−6594ページ,PMID:22716043によって十分に説明される。内部ベンチマークは、この実施例のために同様に構築された。簡略には、両方のベンチマークとも、ターゲットタンパク質の集合のためにアクティブ分子の多様な集合を最初に収集することによって構築される。アナログバイアスは、類似アクティブ(similar actives)を削除することによって緩和される。類似アクティブは、最初にスカフォード類似性に基づいてアクティブをクラスタ化し、次いで各クラスタから例示的なアクティブを選択することによって排除される。次いで、各アクティブ分子は、プロパティ一致デコイ(PMD)の集合と対にされる。それぞれが参照により本明細書に援用される、Wallach and Lilien,2011,「Virtual Decoy Sets for Molecular Docking Benchmarks」,J.Chem.Inf. and Model,51,no.2,196−202ページ、及びWallach et al.,2011「Normalizing molecular clocking rankings using virtually generated decoys」,J.Chem.Inf.and Model.,51,no.8,1817−1830ページを参照のこと。PMDは、一部の2次元フィンガープリント(例えば、参照により本明細書に援用される、Rogers and Hahn,「Extended−connectivity fingerprints」,2010,Journal of Chemical Information and Modeling 50,no.5,742−754ページに説明される、ECFP)に基づいてトポロジー的に異なっていながら、なんらかの1次元物理科学記述子(例えば、分子量)に関して、互いに及び既知のアクティブに類似するように選択される。トポロジーの相違の主張は、デコイが任意の既知のアクティブとは化学的に異なるため、デコイがイナクティブである可能性が高い旨の仮定を裏付ける。
DUDE。DUDEは、UCSFのShoichet Labの構造に基づく仮想スクリーニング方法のための周知のベンチマークである。参照により本明細書に援用される、Mysinger et al.,2012,「Directory of useful decoys, enhanced(dud−e):Better ligands and decoys for better benchmarking」,Journal of Medicinal Chemistry 55,no.14,6582−6594ページ,PMID:22716043を参照のこと。DUDEは、102のターゲット、22,886のアクティブ(ターゲットあたり224のアクティブの平均)、及びアクティブあたり50のPMDから成る。30のターゲットが、テストセットとして無作為に選択され、残りの72のターゲットがトレーニングセットとして指定された。
ChEMBL−20 PMD。ChEMBLバージョン20(参照により本明細書に援用される、Bento et al.,2014,「The chembl bioactivity database: an update」,Nucleic Acids Research 42,no.D1,D1083−D1090ページ)から導出されたDUDE状のデータセットが構築された。以下のフィルタを通過したすべての活動測定値が考慮された。(i)IC50またはKi、及び1μM以下で測定された親和性ユニット、(ii)6以上のターゲット確実性、(iii)ターゲットはscPDBデータベース(参照により本明細書に援用される、Desaphy et al.,2014「sc−pclb:a 3d−database of ligandable binding sites 10 years on」,Nucleic Acids Research D399−404)に注釈付きの結合部位及び分解能<2.5Åを有し、(iv)リガンドはPAINSフィルタ(参照により本明細書に援用される、Baell and Holloway,2010,「New substructure filters for removal of pan assay interference compounds(pains) from screening libraries and for their exclusion in bioassays」,Journal of Medicinal Chemistry 53,no.7,2719−2740ページ)及び混乱規則(参照により本明細書に援用される、Bruns and Watson,2012,「Rules for identifying potentially reactive or promiscuous compounds」,Journal of Medicinal Chemistry 55,no.22,9763−9772ページ)を通過した。Mysingerらに従って、ターゲット親和性はそのUniProt遺伝子名接頭辞(参照により本明細書に援用される、Bruns and Watson,2012,「Rules for identifying potentially reactive or promiscuous compounds」、Journal of Medicinal Chemistry 55,no.22,9763−9772ページ)別にグループ化され、10未満のアクティブリガンドがあったターゲットは削除された。このフィルタリングプロセスは、123,102のアクティブ及び348のターゲットの集合を生じさせた。第2に、各アクティブは、参照により本明細書に援用される、Mysinger et al.,2012,「Directory of useful decoys, enhanced(dud−e):Better ligands and decoys for better benchmarking」,Journal of Medicinal Chemistry 55,no.14,6582−6594ページ,PMID:22716043と同様に、ZINCデータベース(参照により本明細書に援用される、Irwin and Shoichet,2005,「ZINC−a free database of commercially available compounds for virtual screening」,J.Chem.Inf.Model.45,no.1,177−182ページ)から選択された30のPMDのセットと対にされた。第3に、データは、最初にそのBemis−Murckoスカフォード(Bemis and Murcko,1996,「The properties of known drugs.I.molecular frameworks」,Journal of Medicinal Chemistry 39,no.15,2887−1893ページ)に基づいて、各ターゲットのためにアクティブリガンドをクラスタ化し、クラスタ例として少なくとも3μM離れていたリガンドを選ぶことによってトレーニングセット、バリデーションセット、及びテストセットに区分化された。10例未満のクラスタは除外された。第4に、テストセットはその対応するアクティブ及びデコイを有する50のターゲットを無作為に選択することによって定義された。最後に、トレーニングセットは、クラスタ上で5倍の相互検証セットにさらに区分化された。最終データセットは78,904のアクティブ、2,367,120のデコイ、及び290のターゲットから成る。
実験で検証されたイナクティブ。PMDに基づいたベンチマークの制限は、ベンチマークが、アクティブ分子に類似するデコイを除外する点である。この設計の決定は、実験によるバリデーションなしに、選択されたデコイがイナクティブである可能性が高い旨の仮定を裏付けるために実施されている。アクティブとデコイとの間のこの主張される相違は、PMDベンチマークが、アクティブ分子及びイナクティブ分子がきわめて似ているいくつかの困難なケースを欠くことを意味する(参照により本明細書に援用される、Hu et al.,2012,「Systematic identification and classification of three−dimensional activity cliffs」、Journal of Chemical Information and Modeling 52,no.6,1490−1498ページ)。係る困難なケースは、デコイをイナクティブであると実験で確証された分子で置換することによって含まれた。ChEMBL−20 PMDベンチマークに類似するベンチマークが構築されたが、PMDはイナクティブ分子で置き換えられた。分子の測定された活動が30μMよりも高い場合、分子はここでイナクティブと定義される。これは、Bemis−Murckoクラスタの上で3倍の相互検証セットに区分化された78,904のアクティブ、363,187のイナクティブ、及び290のターゲットの集合を生じさせた。そのときのクラスタ未満を有するターゲットは絶対にバリデーション集合に割り当てられなかった。したがって、バリデーション集合のターゲットの数は149であった。
構造に基づいたディープ畳み込みニューラルネットワーク。この実験(AtomNet)の畳み込みニューラルネットワーク24のためのネットワークトポロジーは、複数の3次元畳み込み28、並びにアクティブクラス及びイナクティブクラスで可能性を割り当てるロジスティックコスト層が最上位になる完全接続層から成るスコアラ30が後に続く入力層26から成り立っていた。隠れ層のすべてのユニットは、ReLU活性化関数(参照により本明細書に援用される、第27回International Conference on Machine Learning(ICML−10)、2010年6月21〜24日、ハイファ、イスラエルの議事録、807−814ページの、Nair and Hinton、2010,「Rectified linear units improve restricted Boltzmann machines」)で実装される。
入力表現。入力層26は、ターゲットタンパク質(ターゲットオブジェクト58)及びターゲットの結合部位の中でサンプリングされる小分子(トレーニングオブジェクト/テストオブジェクト)の共複合体状に設置された1Åの3次元グリッドのベクトル化されたバージョンを受け取る。第1に、結合部位は、scPDBデータベースで注釈される有界リガンドによってシード値を与えられるフラッディングアルゴリズム(参照により本明細書に援用される、Hendlich et al.,1997,「Ligsite: automatic and efficient detection of potential small molecule-binding sites in proteins」,J.Mol.Graph.Model 15,no.6を参照のこと。)を使用し、定義される(参照により本明細書に援用される、Desaphy et al.,2014,「sc−pdb:A 3d−database of ligandable binding sites 10 years on」,Nucleic Acids Research D399−404を参照のこと)。第2に、共複合体の座標は結合部位の質量の中心で発生した3次元デカルト系にシフトされる。第3に、結合部位空洞の中の複数のポーズがサンプリングされる。第4に、幾何学的データは、適切な境界ボックスの中に収まるように切り取られる。この研究では、基点で中心に置かれる20Åの立方体が使用される。第5に、入力データは、1Åの間隔を有する固定サイズグリッドの中に並進される。各グリッドセルは、その場所での一部の基本的な構造特徴の存在を表す値を保持する。基本構造特徴は、原子種類の簡略な列挙からより、SPLIF(参照により本明細書に援用される、Da and Kireev,「Structural protein ligand interaction fingerprints(splif) for structure−based virtual screening:Method and benchmark study」,2014,Journal of Chemical Information and Modeling 54,no.9,2555−2561ページ)、SIFt(参照により本明細書に援用される、Deng et al.,2004,「Structural interaction fingerprint(SIFt):a novel method foranalyzing three−dimensional protein−ligand binding interactions」,J.Med.Chem.47,no.2,337−344ページ)またはAPIF(Prez−Nueno、2009,「Apif:A new interaction fingerprint based on atom pairs and its application to virtual screening」,Journal of Chemical Information and Modeling 49,no.5号,1245−1260ページ)等のより複雑なたんぱく質‐リガンド記述子に変わる場合がある。最後に、3次元グリッドは1次元浮動小数点ベクトルに展開される。
ネットワークアーキテクチャ。3次元畳み込み層28は、Advances in Neural Information Processing System 2,Pereira、Burges、Bottou、Weinberger,eds.,1097−1105ページ、Curran Associates,Inc.のKrizhevsky et al.,2012,「Imagenet classification with deep convolutional neural networks」の実施態様に類似したやり方で、フィルタサイズ、ストライド、パディング等のパラメータをサポートするために実装された。畳み込みニューラルネットワーク24のネットワークアーキテクチャは、128x53、256x33、256x33、256x33(フィルタ数 x フィルタ寸法の数)の4つの畳み込み層28、及び2つの活動クラス上でロジスティック回帰コスト層が最上位になる、それぞれ1024の隠れユニットを有する2つの完全接続層が後に続く、上述された入力層26から成り立っていた。
畳み込みニューラルネットワーク24のトレーニング。畳み込みニューラルネットワーク24をトレーニングすることは、AdaDelta適応学習方法を用いる確率論的な傾斜降下(参照により本明細書に援用される、Zeiler,2012「ADADELTA: an adaptive learning rate method」、CoRR、vol.abs/1212.5701)、バックプロパゲーションアルゴリズム(参照により本明細書に援用される、Rumelhart et al.,1988,「Neurocomputing Foundations of research」,ch.Learning Representations by Backpropagating Errors,696−699ページ,Cambridge,MA,USA:MIT Press)、及び傾斜ステップあたり768の例のミニバッチを使用し、実行された。モデルをGPUメモリに嵌めこむことの制限を除き、メタパラメータを最適化しようとする試みは行われなかった。トレーニング時間は、6つのNvidia−K10 GPUで約1週間であった。
比較のためのベースライン方法。Smina(参照により本明細書に援用される、Koes et al.,2013,「Lessons learned in empirical scoring with smina from the csar2011 benchmarking exercise」,Journal of Chemical Information and Modeling 53,no.8,1893−1904ページ、2013を参照のこと)、つまりAutoDock Vina(参照により本明細書に援用される、Trott and Olson,2010,「Autodock vina:Improving the speed and accuracy of docking with a new scoring function,efficient optimization, and multithreading」,Journal of Computational Chemistry 31,no.2,455−461ページ)の分岐が、構造に基づいた評価のためのベースラインとして使用された。Sminaは、その先行バージョンに優り、GPLv2ライセンスの下で自由に利用できる改善された経験的スコアリング関数及び最適化ルーチンを実装する。
結果。受信機動作特徴(AUC)及びlogAUCの下の領域は、3つのベンチマークに優る結果を報告するために使用された。AUCは、真陽性率対偽陽性率の曲線の下の領域を測定することによって分類(または順位)性能を示す。1.0のAUC値は完全な分離を意味するのに対し、0.5の値は無作為な分離を暗示する。LogAUCは、順位付けされたリストの上位に正しく分類されたケースが後のケースよりもスコアにより貢献するように、曲線の始まりにより多くの重みを置くことによって早期強化性能を強調するAUCに類似した測定値である。ここでは、10の対数ベースが使用され、これは、順位付けされた結果の最初の1%の重みが次の10%の重みに等しいことを意味する。logAUC値の非線形性は解釈することを困難にするため、対数スケールの(log‐scaled)ランダム曲線(0.14462)はlogAUCから差し引かれ、調整されたlogAUC(参照により本明細書に援用される、Mysinger and Shoichet,2010,「Rapid context‐dependent ligand desolvation in molecular docking」、Journal of Chemical Information and Modeling 50,no.9,1561−1573ページを参照のこと)を得た。したがって、負の調整されたlogAUCが無作為な性能よりも悪いことを暗示するのに対して、正の調整されたlogAUC値は無作為な性能よりも優れていることを暗示する。簡略にするために、調整されたlogAUC及びlogAUCは、本明細書で交互に用いられる。
表2及び図10〜図13は、3つの異なるベンチマークにわたる結果を要約する。本開示の例示的なシステム及び方法は、ChEMBL‐20‐PMDベンチマーク及びDUDEベンチマークに対して同様に機能する。本開示の例示的なシステム及び方法は、それぞれChEMBL‐20‐PMDで平均AUC 0.78及び0.32の平均logAUC、ならびにDUDEで0.8及び0.33を達成する。2つのベンチマークは同様に構築されたため、この類似する性能は驚くべきことではない。
図10は、AtomNet及びSminaの50のChEMBL‐20‐PMDターゲットのAUC値及びlogAUC値の分布を示す。図11は、AtomNet及びSminaの102のDUDEターゲットのAUC値及びlogAUC値の分布を示す。図12は、AtomNet及びSminaの149のChEMBL‐20‐イナクティブターゲットのAUC値及びlogAUC値の分布を示す。図13A及び図13Bは、早期強化に関してAUC測定値とlogAUC測定値の差の説明を提供する。
表2:DUDE、ベンチマーク、ChEMBL‐20‐PMDベンチマーク、及びChEMBL‐20‐イナクティブベンチマークでのAtomNet及びSminaの比較。DUDE‐102は完全データセットを指すのに対し、DUDE‐30は30のターゲットの提供された(held‐out)セットを指す。
表3:AtomNet及びSminaが所与のAUC閾値を上回るターゲットの数。例えば、CHEMBL‐20PMDセットでは、AtomNetは、(50の考えられるターゲットの中から)24のターゲットのために0.8またはそれより良いAUCを達成する。ChEMBL‐20 PMDは50のターゲットを含み、DUDE‐30は30のターゲットを含み、DUDE‐102は102のターゲットを含み、ChEMBL‐20イナクティブは149のターゲットを含む。
表4:AtomNet及びSminaが所与の調整logAUC閾値を上回るターゲットの数。例えば、CHEMBL‐20 PMDセットでは、AtomNetは、(50の考えられるターゲットの中から)27のターゲットのために0.3またはそれより良い調整logAUCを達成する。ChEMBL‐20 PMDは50のターゲットを含み、DUDE‐30は30のターゲットを含み、DUDE‐102は102のターゲットを含み、ChEMBL‐20イナクティブは149のターゲットを含む。
本発明による4つの評価データセットのそれぞれで、開示されるシステム及び方法(AtomNet)は、創薬に役立つ精度レベルでSminaに優る1桁の改善を達成する。完全DUDEセットで、AtomNetは59のターゲットで0.9AUCを達成または上回る(つまり57.8%)。Sminaは単一のターゲット(wee1)に対して0.9AUC、つまりベンチマークの約1パーセントを達成するに過ぎない。AtomNetは88のターゲット(86.3%)に対して0.8またはそれより良いAUCを達成する。一方、Sminaは17のターゲット(16.7%)に対してそれを達成する。評価が、DUDEの提供された30のターゲット部分集合に制限されるとき、AtomNetは、それぞれ14のターゲット(46.7%)及び22のターゲット(73.3%)に対して0.9及び0.8のAUCを超える。Sminaはそれぞれ1つのターゲット(3.3%)及び5つのターゲット(16.7%)に対して同じ精度を達成する。AtomNetは、Sminaによって達成された0.7及び0.694に比較して提供されたセットで0.855及び0.875の平均AUC及び中央値AUCを達成し、利用可能な平均誤差を51.6%削減する。予想されるように、Sminaの性能は低下しないのに対し、AtomNetの性能は、その提供された例に対してわずかに低下する。
PMDデータセットでは、AtomNetは、10の提供されたターゲット(集合の20%)に対して0.9またはそれより良いAUCを達成する。一方、Sminaはゼロのターゲットでそれを達成する。精度の基準が0.8またはそれより良いAUCに削減されるとき、AtomNetは25のターゲット(50%)で成功する。一方、Sminaは1つのターゲット(2%)でしか成功しない。
適切に一致したデコイの代わりにイナクティブを使用する第3のベンチマークは、他の2つよりもより困難であると考えられる。AtomNetは10のターゲット(6.7%)に対して0.9またはそれより良いAUCで予測する。一方、Sminaはゼロで成功する。0.8AUCを満たすまたは超える場合、AtomNetは45のターゲット(30.2%)について成功し、Sminaは4つ(2.70%)について成功する。AtomnetとSminaの両方とも以前のベンチマークよりも良くない性能であるが、AtomNetはまだ、全体的な及び早期の強化性能に関してSminaより著しく性能が優れている。このベンチマークはイナクティブを使用するため、ベンチマークは、異なるラベルを有する構造上類似する分子の困難な分類ケースを含む。(Hu et al.,「Systematic identification and classification of three−dimensional activity cliffs」,2012,Journal of Chemical Information and Modeling 52,no.6,1490−1498ページ)。デコイは、デコイがイナクティブとしてラベルを付けることができると推測するために構造上異ならなければならないため、これらのケースは、PMDを使用するベンチマークから除外される。
さらに、きわめて確実なlogAUC値によって示されるように、AtomNetは優れた早期強化性能を示す。AtomNetは、その早期強化に関してSminaより性能が優れており、Sminaの0.153と比較して0.321の平均logAUCを達成する。ROC曲線を視覚化することは、早期強化に関してAUC測定値とlogAUC測定値の差異を示す。例えば、図13Aは、ターゲットIm9mのためのAUC値が、平凡な性能を暗示することがある0.66であることを示す。しかしながら、そのターゲットに対してlogAUCによって示される早期強化は、多くのアクティブが順位付けられた結果の非常に上位に集中することを示唆する0.25である。同様に、ターゲットlqzyは0.76のAUC値を有するが、log‐BLscaleプロットは、そのアクティブの35%が0.44のlogAUCを有する順位付けされたリストの非常に上位に集中することを示唆する。
説明‐フィルタ視覚化。畳み込み層28は、受容野全体で繰り返しこれらのフィルタを適用することによって測定の局所的に関係する特徴を識別することを学習する複数の異なるフィルタから成る。画像を処理するとき、人は、モデルが関連する特徴を学習できることを検証するためにこれらのフィルタを視覚化できる。例えば、参照により本明細書に援用される、Krizhevsky et al.,2012,Advances in Neural Information Processing System 2、Pereira、Burges、Bottou、Weinberger,eds.,1097−1105ページ、Currant Associates,Inc.の「Imagenet classification with deep convolutional neural networks」は、彼らのモデルの第1の畳み込み層のフィルタが線、端縁、及び色のグラデーションを検出できることを明示した。しかしながら、本発明の場合では、(i)フィルタが3次元である、及び(ii)入力チャネルが個別であるため、フィルタは容易に視覚化されない。例えば、2つの近いRGB値は2つの類似する色で生じるが、炭素は酸素に対してよりも窒素に対してより近くない。すなわち、類似した値は類似した機能性を暗示しない。これらの制限を克服するために、間接的な手法がとられる。フィルタの特殊化を理解するためにフィルタを直接的に視覚化する代わりに、フィルタは入力データに適用され、フィルタが最大限に始動する(fire)場所が調べられる。この技術を使用し、フィルタは化学的機能に写像された。例えば、第1の畳み込み層28からの特定のフィルタが始動するターゲットオブジェクトでの3次元場所の目視は、このフィルタがスルホニル/スルホンアミド検出器として特殊化することを明らかにする。例えば、係る相互作用を示す図15A及び図15Bを参照のこと。これは、モデルが複雑な化学的特徴をより簡略な化学的特徴から学習する能力を明示する。この場合、フィルタは、化学的な事前知識がなくても入力原子種類の有意な空間配置を推論している。
他の構造に基づいた方法の比較。この例は、他の構造に基づいた方法への直接の比較を報告するよりむしろ、生物活性予測にディープ畳み込みニューラルネットワーク24を適用するための開示されるシステム及び方法の実施形態を提供する。結果を文脈の中でとらえるために、一般的なプログラムSminaがベースライン基準点として使用された。Sminaは実際的な優位点を有する。つまり、Sminaは高速、無料、及び積極的に開発されているため、タイムリ且つ効率的に大きいベンチマークを分析するのに適している。それにも関わらず、公開されている製作物を使用すると、AtomNetを文献で報告される他の商業的なドッキングアルゴリズムに比較することによってより幅広い視点が提供される。Sminaのように、DUDEは公表されており、幅広く使用されている。DUDEは特定の制限を有する。例えば、アクティブとデコイとの間で多様性を強化するために使用される同じ記述子がリガンドベーススコアラを訓練するために使用されるため、DUDE及び他のPMDベンチマークはリガンドベースのモデルの評価には不適切である(参照により本明細書に援用される、Irwin,「Community benchmarks for virtual screening」,2008,J.Comput.‐Aided Mol.Des22、no.3−4,193−199ページを参照のこと)。さらに、上述されたように、DUDEに対して評価するとき、トレーニングとテストとの間に汚染が存在しないことを保証できず、これが開示されたChEMBL‐20‐PMDベンチマークを構築するための主要な動機であった。しかしながら、これらの2つのベンチマークに対する類似性能は、結果がロバストであることを示唆する。したがって、上述された結果に対する以下の比較が提示される。Gabelら(参照により本明細書に援用される、Gabel et al.,2014「Beware of machine learning−based scoring functions on the danger of developing black boxes」,Journal of Chemical Information and Modeling 54,no.10,2807−2815ページを参照のこと)は、DUDEからの10のターゲットの代表的な集合に関して、Surflex‐Dock(参照により本明細書に援用される、Spitzer and Jain,2012「Surftex‐dock:Docking benchmarks and real‐world application」,Journal of Computer−Aided Molecular Design26,no.6,687−699ページ)を評価した。Surfiex‐Dockの中央値AUCは、AtomNetによって達成される0.83に比較して0.76であった。Colemanら(参照により本明細書に援用される、Coleman et al.,2014,「Samp14&dock3.7:lessons for automated docking procedures」、Journal of Computer−Aided Molecular Design 28,no.3,201−209ページを参照のこと)は、DUDEベンチマーク全体で完全に自動化された方法でDOCK‐3.7(Coleman et al.,「Ligand pose and orientational sampling in molecular docking」、PLoS ONE 8、p.e75992)を評価した。彼らは、本発明の0.792のAUC及び0.306のlogAUCに比較して0.674の平均AUC及び0.164のlogAUCを達成した。
結論。この実施例(AtomNet)に提示される、開示されるシステム及び方法は、創薬用途のための小分子の生物活性を予測するように設計された第1の構造に基づいたディープ畳み込みニューラルネットワークである。局所的に制約されたディープ畳み込みアーキテクチャは、システムが、近接する基本的な化学的特徴をより入り組んだ化学的特徴に階層的に組み立てることによって分子結合の複雑な非線形現象をモデル化できるようにする。構造ターゲット情報を組み込むことによって、AtomNetは以前に既知のモジュレーターを有さないターゲットに対しても新しいアクティブ分子を予測できる。AtomNetは、ターゲットの57.8%、つまり幅広く使用されるドッキング方法の59倍多いターゲットで0.9を超えるAUCを達成する、幅広く使用される構造に基づいたベンチマークに対する目覚ましい結果を示している。
実施例2‐使用事例
以下は、本発明の一部の実施形態のいくつかの応用例を説明する、例示的な目的のためだけに提供されるサンプル使用事例である。他の使用が検討されてよく、以下に示される例は非制限的であり、変形形態、省略を受けることがある、または追加の要素を含むことがある。
以下の各実施例は結合親和性予測を示すが、実施例は、予測が単一の分子に対して行われるのか、集合に対して行われるのか、それとも一連の繰り返し改変される分子に対して行われるのか、予測が単一ターゲットのために行われるのか、それとも多数のターゲットのために行われるのかどうか、ターゲットに対する活動が所望されるのか、それとも回避されるのか、及び重要な量が絶対活動であるのか、それとも相対活動であるのかで異なることが判明することがある、または分子またはターゲットの集合が具体的に選ばれるかどうか(例えば、分子の場合、既存の薬物または殺虫剤であるために、タンパク質の場合、既知の毒性または副作用を有するのか)で異なることが判明することがある。
化合物の発見(Hit discovery)。製薬会社は、新しい薬物候補の先例を発見するためにスクリーニング化合物に数百万ドルを費やしている。関心のある疾病ターゲットと何らかの相互作用を有する少数の化合物を見つけるために大きな化合物集合体が試験される。残念なことに、ウェットラボスクリーニングは実験誤差を被り、アッセイ実験を実行するための費用及び時間に加えて、大きなスクリーニング集合体の収集は、保管の制約、保存性、または化学薬品費により重要な課題を課す。最大の製薬会社でさえ、数千万の市販されている分子及び数億のシミュレーション可能な分子に対して、数十万から数百万の間の化合物を有するにすぎない。
物理的な実験に対する潜在的により効率的な代替策は、仮想高スループットスクリーニングである。物理学シミュレーションが、航空宇宙エンジニアが、モデルが物理的に使用される前に考えられる翼の設計を評価するのに役立つ場合があるのと同じように、分子のコンピュータによるスクリーニングは高い可能性のある分子の小さい部分集合に実験テストを集中させることができる。これはスクリーニングのコスト及び時間を削減してよく、擬陽性を削減し、成功率を改善する、及び/またはより高範囲の化学的環境をカバーする。
本応用では、タンパク質ターゲットはシステムに対する入力として提供されてよい。また、分子の大きい集合も提供されてよい。分子ごとに、結合親和性がタンパク質ターゲットを対照して予測される。結果として生じるスコアは分子を順位付けするために使用され得、最善のスコアの分子はターゲットタンパク質を結合する可能性が最も高い。任意選択で、順位付けされた分子リストは類似分子のクラスタがないか分析されてよく、大きいクラスタは分子結合のより強力な予測として使用されてよい、または分子は確認実験で多様性を保証するためにクラスタ全体で選択されてよい。
オフターゲット副作用予測。多くの薬物は副作用を有することが判明する場合がある。多くの場合、これらの副作用は、薬物の治療効果の原因となるもの以外の生物学的経路との相互作用に起因する。これらのオフターゲット副作用は不快または危険であり、薬物の使用が安全である患者集団を制限する場合がある。したがって、オフターゲット副作用は、どの薬物候補をさらに開発するのかを評価するために用いる重要な基準である。薬物の多くの代替の生物学的ターゲットとの相互作用を特徴付けることは重要であるが、係る試験は、開発し、実行するのが高価且つ多大な時間を必要とする場合がある。コンピュータによる予測はこのプロセスをより効率的にすることができる。
本発明の実施形態を適用する際に、重要な生物学的反応及び/または副作用と関連付けられる生物学的ターゲットのパネルが構築されてよい。システムは、次いで、順番にパネルの各タンパク質を対照して結合を予測するように構成されてよい。特定のターゲットに対する強力な活動(すなわち、オフターゲットタンパク質を活性化することが既知である化合物と同程度に効力がある活動)は、オフターゲット効果に起因する副作用において分子を関与させることがある。
毒性予測。毒性予測は、オフターゲット副作用予測の特に重要な特別な事例である。後期臨床試験における薬物候補の約半分は、容認できない毒性のために不合格になる。新薬承認プロセスの一部として(及び薬物候補を人間で試験できる前に)、FDAは(その抑制が薬物‐薬物相互作用からの毒性につながる場合がある)シトクロムP450肝臓酵素、または(その結合が心室性不整脈及び他の心臓有害影響につながるQT延長につながる場合がある)hERGチャネルを含むターゲットの集合と対照する毒性試験データを要求する。
毒性予測では、システムはオフターゲットタンパク質を重要な抗ターゲット(例えば、CYP450、hERG、または5−HT2B受容体)になるように制約するように構成されてよい。薬物候補の結合親和性は、次いでこれらのタンパク質と対照して予測されてよい。任意選択で、分子は、抗ターゲットに対する結合について分析することもできる、代謝産物(元の分子の代謝作用/劣化の間に体によって生成される以後の分子)の集合を予測するために分析されてよい。問題のある分子は、毒性を回避するために識別され、修正されてよい、または分子シリーズに関する開発は追加の資源を無駄にすることを避けるために中止されてよい。
効能最適化。薬物候補の重要な要件の1つは、その疾病ターゲットに対する強力な結合である。鑑別が臨床上効果的となるほど十分に強力に結合する化合物を見つけることはまれである。したがって、初期化合物は最適化の長いプロセスの始まりを与え(seed)、医薬品化学者は、ターゲット結合の長所が強化された新しい分子を提案するために分子構造を繰り返し修正する。それぞれの新しい分子は、変化が無事に結合を改善したかどうかを判断するために合成され、試験される。システムは物理試験をコンピュータによる予測で置き換えることによってこのプロセスを容易にするように構成されてよい。
この応用では、疾病ターゲット及びリード分子の集合がシステムに入力されてよい。システムは、リードの集合の結合親和性予測を作り出すように構成されてよい。任意選択で、システムは、結合親和性の予測される差の理由を知らせるのに役立つだろう候補分子間の差を強調できるだろう。医薬品化学者ユーザはこの情報を使用して、願わくはターゲットに対する活動が改善された分子の新しい集合を提案できる。これらの新しい代替分子は同様に分析されてよい。
選択性の最適化。上述されたように、分子はさまざまな強度で多数のタンパク質を結合する傾向がある。例えば、(よく知られている化学療法ターゲットである)タンパク質キナーゼの結合ポケットは非常に類似しており、大部分のキナーゼ阻害剤は多くの異なるキナーゼに影響を及ぼす。つまり、多様な生物学的経路が同時に修正され、これは「汚れた」医薬プロファイル及び多くの副作用を生じさせる。したがって、多くの薬物の設計における重大な課題は、本質的に活動ではなく、特異度、つまりおそらく密接に関係しているタンパク質の集合から1つのタンパク質(またはタンパク質の集合)を選択的にターゲットとする能力である。
本発明のシステムは、候補薬物の選択性を最適化する時間及びコストを削減できる。この応用では、ユーザはタンパク質の2つの集合を入力してよい。一方の集合は、化合物がそれに対してアクティブである必要があるタンパク質を記述する。一方、他方の集合は、化合物がイナクティブである必要があるタンパク質を記述する。システムは、両方の集合のタンパク質のすべてと対照して分子の予測を行い、相互作用の強度のプロファイルを確立するように構成されてよい。任意選択で、これらのプロファイルはタンパク質の説明パターンを示唆するために分析できるだろう。ユーザはシステムによって生成される情報を使用して、異なるタンパク質の集合への相対的な結合を改善するだろう分子に対する構造的変化を考慮し、より優れた特異度を有する新しい候補分子を設計できる。任意選択で、システムは、選択性の予測される差の理由を知らせるのに役立つだろう候補分子間の差を強調するように構成できるだろう。提案される候補は、その活動プロファイルの特異度をさらに精緻化するために繰り返し分析できる。
自動分子設計のための適合度関数。上述の最適化を実行するための自動ツールは貴重である。成功した分子は、最適化、ならびに効能、選択性、及び毒性の間のバランスを必要とする。「スカフォードホッピング」(リード化合物の活動が保たれるが、化学構造が大幅に改変されるとき)は、改善された薬物動態、薬力学、毒性、または知的財産のプロファイルを生じさせることができる。例えば分子の無作為な生成、所与の結合部位を充填するための分子フラグメントの成長、分子の集団を「突然変異させ」「異種交配させる」ための遺伝アルゴリズム、及び分子の部分の生物等立体性置換との交換等のアルゴリズムは、新しい分子を繰り返し示唆するために存在する。これらの方法のそれぞれによって生成される薬物候補は、上述された複数の目的(効能、選択性、毒性)に対照して評価されなければならず、技術が上述の手動設定(結合予測、選択性、副作用、及び毒性予測)のそれぞれに関して参考になるのと同様に、それは自動分子設計システムに組み込むことができる。
薬物の別の目的での使用。すべての薬物は副作用を有し、ときおり、これらの副作用は有益である。最もよく知られている例は、一般に頭痛の試料として使用されるが、心臓血管の健康のためにも服用されるアスピリンである可能性がある。薬物はすでに人間で安全であることが示され、迅速な吸収及びパターンの好ましい安定性について最適化されているため、薬物リポジショニングは、創薬のコスト、時間、及びリスクを大幅に削減できる。残念なことに、薬物リポジショニングは、大部分は偶然に見付けられてきた。例えば、シルデナフィル(バイアグラ)は血圧降下薬として開発され、勃起障害に対する効果的な治療であることが思いがけず観察された。オフターゲット効果のコンピュータによる予測は、代替疾患を治療するために使用できるだろう化合物を識別するための薬物の別の目的での使用との関連で使用できる。
この応用では、オフターゲット副作用予測においてのように、ユーザは考えられるターゲットタンパク質の集合を集めてよく、各タンパク質は疾患にリンクされる。すなわち、各タンパク質の抑制は(おそらく異なる)疾病を治療するだろう。例えば、xa因子の阻害剤は抗凝固剤として使用できるのに対し、シクロオキシゲナーゼ‐2は炎症の軽減を提供できる。これらのタンパク質は、存在する場合、承認された薬物の結合親和性で注釈を付けられる。本発明は次いで分子の集合を集め、集合を人間での使用のために承認または調査された分子に制限する。最後に、タンパク質と分子の各対について、ユーザは結合親和性を予測するためにシステムを使用してよい。薬物の別の目的での使用のための候補は、分子の予測される結合親和性がタンパク質にとって効果的な薬物の結合親和性に近い場合に識別されてよい。
薬物耐性の予測。薬物耐性は、病原体集団を迅速に分割し、突然変異させることに対して選択圧力をかける、薬剤使用の不可避の結果である。薬物耐性はウィルス(HIV)、外生的な微生物(MRSA)、及び調節不全にされた宿主細胞(ガン)等の多様な病原体で見られる。経時的に、薬剤が抗生物質であるのか、それとも化学療法であるのかに関わりなく、所与の薬剤は効き目が悪くなる。その点で、介入は、願わくはまだ効力がある異なる薬剤にシフトする場合がある。HIVでは、患者が治療されている間に、ウィルスがどの突然変異体を蓄積するのかによって定義される、周知の疾患の進行経路がある。
病原体が医学的な介入にどのようにして適応するのかを予測することにかなりの関心がある。1つの手法は、治療中にどの突然変異体が病原体で発生するのかを特徴付けることである。具体的には、薬剤のタンパク質は、同時にその天然基質を結合し続けながら、薬物を結合するのを回避するように突然変異する必要がある。
この応用では、ターゲットタンパク質の考えられる突然変異体の集合が提案されてよい。突然変異体ごとに、結果として生じるタンパク質の形状が予測されてよい。これらの変異タンパク質の形のそれぞれについて、システムは、天然基質と薬物の両方の結合親和性を予測するように構成されてよい。タンパク質にもはや薬物に結合させないが、天然基質に対する結合を続行させる突然変異体は、薬物耐性を与えるための候補である。これらの変異したタンパク質は、例えばこれらのタンパク質をこれらの他の予測使用事例の1つに対する入力として使用することによって、それと対照して薬物を設計するターゲットとして使用され得る。
個人向けの薬剤。効果がない薬剤は投与されるべきではない。コスト及び煩わしさに加えて、すべての薬剤は副作用を有する。倫理的考慮及び経済的考慮は、利点がこれらの害を上回るときにだけ薬剤を与えることを不可欠にする。薬剤がいつ役に立つのかを予測できることが重要であってよい。人は少数の突然変異体によって互いとは異なる。しかしながら、小さい突然変異体が計り知れない影響を有することがある。これらの突然変異体が疾病ターゲットの活性(オルソステリック)部位または調節(アロステリック)部位で発生するとき、突然変異体は薬物が結合するのを防ぎ、したがって薬剤の活動を遮る場合がある。特定の人のタンパク質構造が既知である(または予測される)とき、システムは、薬物が効果的であるかどうかを予測するように構成することができる、またはシステムは、薬物がいつ機能しないのかを予測するように構成されてよい。
この応用のために、システムは、入力として薬物の化学構造及び特定の患者の特定の発現タンパク質を受け取るように構成されてよい。システムは薬物とタンパク質との間の結合を予測するように構成されてよく、特定の患者のタンパク質構造が薬物の予測される結合親和性が弱すぎて臨床上効果的ではない場合、臨床医または開業医はその薬物が患者のために無益に処方されるのを防ぎ得る。
治験設計。この応用は上記の個人向けの薬剤の使用事例を患者集団の事例に一般化する。システムが、薬物が特定の患者の表現型に効果的であるかどうかを予測できるとき、この情報は、治験実験を設計するのに役立てるために使用できる。特定の疾病ターゲットが薬物によって十分に影響を及ぼされない患者を除外することによって、治験実験はより少ない患者を使用し、統計的検出力を達成できる。より少ない患者は治験実験のコスト及び複雑さを直接的に削減する。
この応用のために、ユーザは考えられる患者集団を、(例えば、突然変異体またはイソ型に起因する)異なるタンパク質の発現により特徴付けられる亜集団に分割してよい。システムは、異なるタンパク質タイプと対照して薬物候補の結合強度を予測するように構成されてよい。特定のタンパク質タイプに対する予測される結合強度が、(例えば、試験管、動物モデル、または健常ボランティアにおける物理的な特徴付けに基づいてのように)臨床上達成可能な入院患者濃度を下回る必要な薬物濃度を示す場合、次いで薬物候補はそのタンパク質亜集団に対して不合格になると予測される。そのタンパク質を有する患者は次いで治験から除外されてよい。
農薬設計。製薬応用に加えて、農薬業界は新しい殺虫剤の設計で結合予測を使用する。例えば、殺虫剤の1つの必要なものは、殺虫剤が、あらゆる他の種に悪影響を与えずに関心のある単一の種を止めることである。環境安全性のため、人はマルハナバチを殺すことなくゾウムシを殺すことを望むだろう。
この応用のために、ユーザは、検討中の異なる種から、タンパク質構造の集合をシステムに入力できるだろう。タンパク質の部分集合はそれに対してアクティブになるタンパク質として指定できるだろう。一方、残りは、それに対して分子がイナクティブになる必要があるタンパク質として指定されるだろう。上記の使用事例と同様に、(既存のデータベースに入っているのか、それとも新たに生成されるのかに関わりなく)分子の一部の集合は、各ターゲットと対照して検討され、システムは、第2のグループを避けながら、タンパク質の第1のグループに対して最大の効果を有する分子を返すだろう。
物質科学。新しい物質の挙動及び特性を予測するために、分子相互作用を分析することが役立つことがある。例えば、溶媒化を研究するために、ユーザは所与の小分子の繰り返される結晶構造を入力し、結晶の表面での小分子の別の例の結合親和性を評価してよい。ポリマー強度を研究するために、ポリマーストランドの集合が、タンパク質ターゲット構造に類似して入力されてよく、ポリマーのオリゴマーは小分子として入力されてよい。したがって、ポリマーストランド間の結合親和性はシステムによって予測され得る。
1つの具体的な例では、システムは、例えば水素結合及びパイ結合スタックの強度を予測することによって、ケプラー(Kevlar)等の材料の強度を予測するために使用されてよい。したがって、本明細書に開示される結合親和性予測は、ケプラー(KEVLAR)等の改善された材料の開発を促進するために使用されてよい。
シミュレーション。分子のタンパク質の部位に留まる傾向は、そこでその結合親和性に相互に関連するため、シミュレータは多くの場合、タンパク質に対する分子の結合親和性を測定する。結合を支配する特徴の正確な記述は、特に高いまたは低い結合エネルギーを有する部位及びポーズを識別するために使用できるだろう。エネルギー記述は、分子の運動及びタンパク質結合部位の占有を説明するためにモンテカルロシミュレーションに折り畳むことができる。同様に、システム生物学を研究し、モデル化するための確率的シミュレータは、分子濃度の小さい変化がどのようにして生物ネットワークに影響を与えるのかの正確な予測から恩恵を受けることができるだろう。
結論
説明のための上記の記述は具体的な実施態様を参照して説明された。しかしながら、上記の例示的な説明は網羅的になること、または実施態様を開示された正確な形に制限することを目的としていない。上記教示を考慮して、多くの修正形態及び変形形態が可能である。実施態様は、原理及びその実際的な応用を最もよく説明し、それによって当業者が実施態様を最もうまく活用できるようにするために選ばれ、説明され、多様な修正形態を有する多様な実施態様は、意図された特定の使用に適している。