JP6975140B2

JP6975140B2 - 畳み込みネットワークを空間データに適用するためのシステム及び方法

Info

Publication number: JP6975140B2
Application number: JP2018516040A
Authority: JP
Inventors: ハイフェッツ，エイブラハム，サミュエル; ワラッチ，イズハール; ザンバ，マイケル
Original assignee: アトムワイズ，インコーポレイテッド
Priority date: 2015-10-04
Filing date: 2016-10-04
Publication date: 2021-12-01
Anticipated expiration: 2036-10-04
Also published as: EP3356999B1; JP2019501433A; DK3356999T3; HUE047807T2; SG11201802759YA; EP3680820A1; ES2772687T3; WO2017062382A1; CN108140131A; EP3680820B1; CN108140131B; EP3356999A4; EP3356999A1

Description

関連出願の相互参照
本願は、それぞれが参照により本明細書に援用される、２０１６年２月２３日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＡｐｐｌｙｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｔｏＳｐａｔｉａｌＤａｔａ」と題する米国特許第９，３７３，０５９号の継続出願である、２０１６年６月２０日に出願された「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＡｐｐｌｙｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｔｏＳｐａｔｉａｌＤａｔａ」と題する米国特許出願第１５／１８７，０１８号の優先権を主張する。また、本願は、参照により本明細書に援用される、２０１５年１０月４日に出願された「ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＢｉｏａｃｔｉｖｉｔｙＰｒｅｄｉｃｔｉｏｎｉｎＳｔｒｕｃｔｕｒｅ−ＢａｓｅｄＤｉｓｃｏｖｅｒｙ」と題する米国仮特許出願第６２／２３６，９６２号の優先権も主張する。

以下は、概して畳み込みニューラルネットワークを空間データに適用することに関する。

ターゲットオブジェクト（複合体）にドッキングされたテストオブジェクトの３次元空間データの中で構造モチーフを検出することは、重要なパターン認識タスクであり、係るドッキングに影響を与えるターゲットオブジェクトに対するテストオブジェクトの親和性の予測を含むが、これに制限されるものではない広範囲の用途を有する。同時に、係る構造モチーフの検出は、３次元空間データの精度の不確実性及びテストオブジェクトがターゲットオブジェクトに結合する方法の不確実性によって妨害される。例えば、テストオブジェクトとターゲットオブジェクトの間の所与の相互作用は、距離、角度、原子種類、電荷及び分極、ならびに関与する周囲の安定化環境要因または不安定環境要因によって影響を及ぼされる場合がある。

先行技術は、（ｉ）知識ベースである、（ｉｉ）経験的である、または（ｉｉｉ）力場ベースのスコアリング関数を含むシステム及び方法を含む。知識ベースの特徴は、通常、原子または官能基の対が複合体の所与の距離によって分離される回数のカウントから成り立つ。これらの特徴は単純（距離によって分離される２つの点）であるため、特徴は上述された影響要因の複雑な集合を取り込むことはできない。経験的なスコアリング関数は、回転可能な結合の数、水素結合供与体‐受容体の対、芳香族スタック、静電気、立体構造の相補性若しくは歪み、または溶媒接触可能な疎水性領域等の、少数の（数十の）手で操作された（ｈａｎｄ‐ｅｎｇｉｎｅｅｒｅｄ）特徴に相対的な重要性の重みの集合を適合する。これらの特徴の開発は専門家の知識及び広範囲の手作業による調整を必要とするが、上述されたように、テストオブジェクトとターゲットオブジェクトの間の相互作用を支配する力を絶えず解放することはできないので、いかなる係る特徴も必ず限られた近似値となる。力場ベースのスコアリング関数は計算上効率的となるように設計され、これは気相の予測からの理論的な結果に対する近似値を必要とする。例えば、係るシステムは溶媒による場の強さの重要な仲介を無視する、または調整せずに近似する。

上記の背景を考慮すると、テストオブジェクトのターゲットオブジェクトに対するドッキングに影響する複合体の３次元空間データの中での構造モチーフのより正確及び／またはより効率的な検出を提供する解決策が必要とされる。

テストオブジェクトが複数の異なるポーズのターゲットオブジェクトでモデル化されてボクセルマップを形成する、テストオブジェクト分類のためのシステム及び方法が提供される。ボクセルマップはベクトル化され、連続して畳み込みニューラルネットワークに送り込まれる。畳み込みニューラルネットワークは、入力層、複数の個々に重みを付けられた、連続して接続された畳み込み層、及び出力スコアラを含む。畳み込み層は初期層及び最終層を含む。ベクトル化された入力に応えて、入力層は値を初期畳み込み層に送り込む。最終畳み込み層以外の各それぞれの畳み込み層は、それぞれの畳み込み層の重み及びそれぞれの畳み込み層の入力値の関数として、畳み込み層の別の畳み込み層に中間値を送り込む。最終畳み込み層は、最終層の重み及び入力値の関数としてスコアラに値を送り込む。このようにして、スコアラは入力ベクトルのそれぞれを採点し、これらのスコアはテストオブジェクトを特徴付けるために集合的に使用される。

本開示の一態様は、空間データを使用するテストオブジェクトの特徴付けのためのコンピュータシステムを提供する。コンピュータシステムは、少なくとも１つの汎用プロセッサ、及び少なくとも１つの汎用プロセッサによってアドレス指定可能な汎用メモリを含む。汎用メモリは、少なくとも１つの汎用プロセッサによる実行のための少なくとも１つのプログラムを記憶する。少なくとも１つのプログラムは、ターゲットオブジェクトのために空間座標を入手するための命令を含む。少なくとも１つのプログラムは、複数の異なるポーズの各ポーズのターゲットオブジェクトでテストオブジェクトをモデル化し、それによって複数のボクセルマップを作成するための命令をさらに含む。複数のボクセルマップの内の各それぞれのボクセルマップは、複数の異なるポーズの内のそれぞれのポーズのテストオブジェクトを含む。

少なくとも１つのプログラムはさらに、複数のボクセルマップの内の各ボクセルマップを対応するベクトルに展開し、それによって複数のベクトルを作成するための命令を含む。一部の実施形態では、複数のベクトルの内の各ベクトルは同じサイズである。

一部の実施形態では、複数のベクトルの内の各それぞれのベクトルは、（ｉ）複数のベクトルを連続して受け取るための入力層、（ｉｉ）複数の畳み込み層、及び（ｉｉｉ）スコアラを含むネットワークアーキテクチャに入力される。複数の畳み込み層は初期畳み込み層及び最終畳み込み層を含む。複数の畳み込み層の内の各層は、重みの異なる集合と関連付けられる。複数のベクトルの内のそれぞれのベクトルの入力に応えて、入力層は、それぞれのベクトルの内の値の第１の関数として第１の複数の値を初期畳み込み層に送り込む。最終畳み込み層以外の各それぞれの畳み込み層は、（ｉ）それぞれの畳み込み層と関連付けられた重みの異なる集合、及び（ｉｉ）それぞれの畳み込み層によって受け取られる入力値のそれぞれの第２の関数として中間値を複数の畳み込み層の内の別の畳み込み層に送り込む。最終畳み込み層は、（ｉ）最終畳み込み層と関連付けられた重みの異なる集合、及び（ｉｉ）最終畳み込み層によって受け取られる入力値の第３の関数として第１の最終値をスコアラに送り込む。

少なくとも１つのプログラムは、スコアラから複数のスコアを入手するための命令をさらに含み、複数のスコアの内の各スコアは複数のベクトルの内のベクトルの入力層への入力に対応する。少なくとも１つのプログラムは、テストオブジェクトの特徴付けを提供するために複数のスコアを使用するための命令をさらに含む。

一部の実施形態では、スコアラは完全接続層及び１つの評価層を含む。さらに、複数の完全接続層の内の完全接続層は評価層に流れ込む。

一部の実施形態では、スコアラは、決定木、多重加法回帰ツリー、クラスタ化アルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポートベクタマシン、発展的方法、射影追跡、及びその集合体を含む。

一部の実施形態では、複数のベクトルの内の各ベクトルは１次元ベクトルである。

一部の実施形態では、複数の異なるポーズは２つ以上のポーズ、１０以上のポーズ、１００以上のポーズ、または１０００以上のポーズを含む。

一部の実施形態では、複数の異なるポーズは、マークアップ連鎖（ｍａｒｋｕｐｃｈａｉｎ）モンテカルロサンプリング、シミュレーテッドアニーリング、ラマルク遺伝的アルゴリズム（ＬａｍａｒｃｋｉａｎＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ）、または遺伝的アルゴリズムの内の１つでドッキングスコア関数を使用し、入手される。

一部の実施形態では、複数の異なるポーズは、欲張りアルゴリズムを使用するインクリメンタルサーチによって入手される。

一部の実施形態では、ターゲットオブジェクトはポリマー（例えば、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸（ｐｏｌｙｒｉｂｏｎｕｃｌｅｉｃａｃｉｄ）、多糖、またはその任意の組合せのアセンブリ）である。

一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は、２．５Åまたはそれより良い分解能または３．３Åまたはそれより良い分解能で分解されたポリマーの結晶構造のための３次元座標｛Ｘ_１、．．．、Ｘ_Ｎ｝の集合である。

一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は、核磁気共鳴、中性子回折、または低温電子顕微鏡法によって決定されるポリマーの３次元座標の集合体である。

一部の実施形態では、テストオブジェクトは化合物であり、テストオブジェクトを特徴付けるために複数のスコアを使用することは、複数のスコアの中心傾向の測定値をとることを含む。一部の係る実施形態では、中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすとき、特徴付けは、テストオブジェクトが第１の分類を有すると見なすことを含み、中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすことができないとき、特徴付けはテストオブジェクトが第２の分類を有すると見なすことを含む。一部の係る実施形態では、第１の分類は、テストオブジェクトが宿主生物にとって有毒ではない旨の判断であり、第２の分類は、テストオブジェクトが宿主生物にとって有毒である旨の判断である。一部の係る実施形態では、第１の分類は、テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する分子病ターゲットに結合する旨の予測であり、第２の分類は、テストオブジェクトが、第１の結合値を上回るＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する分子病ターゲットに結合する旨の予測である。一部の係る実施形態では、第１の分類は、テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及びテストオブジェクトが、第１の結合値を上回るＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測であり、第２の分類は、テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及びテストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測である。一部の係る実施形態では、第１の結合値は１ミクロモルである。一部の係る実施形態では、第１の結合値は１０ミクロモルである。

一部の実施形態では、テストオブジェクトを特徴付けるために複数のスコアを使用することは、複数のスコアの加重平均をとることを含み、加重平均が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトが第１の分類を有すると見なされ、加重平均が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトが第２の分類を有すると見なされる。一部の係る実施形態では、加重平均は複数のスコアのボルツマン平均である。一部の係る実施形態では、第１の分類は、第１の結合値を上回るターゲットオブジェクトに関してテストオブジェクトのためのＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、第２の分類は、第１の結合値未満であるターゲットオブジェクトに関してテストオブジェクトのためのＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩである。一部の係る実施形態では、第１の結合値は１ミクロモルである。一部の係る実施形態では、第１の結合値は１０ミクロモルである。一部の係る実施形態は、第１の結合値は、ターゲットオブジェクトに関して異なるテストオブジェクトのための予測されたＩＣ５０、ＥＣ５０、Ｋｄ、またはＫＩである。一部の係る実施形態では、第１の分類は、テストオブジェクトは宿主生物にとって有毒ではない旨の判断であり、第２の分類は、テストオブジェクトが宿主生物にとって有毒である旨の判断である。一部の係る実施形態では、第１の分類は、テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及びテストオブジェクトが、第１の結合値を上回るＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測であり、第２の分類は、テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及びテストオブジェクトが第１の結合値未満である（例えば、第１の結合値は１ミクロモルまたは１０ミクロモル等である）ＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測である。

一部の実施形態では、テストオブジェクトを特徴付けるために複数のスコアを使用することは、複数のスコアの加重平均を取ることを含み、加重平均が複数の閾値範囲の内のそれぞれの閾値を満たすとき、テストオブジェクトは、それぞれの閾値範囲に一意に一致する複数のそれぞれの分類の内のそれぞれの分類を有すると見なされる。一部の係る実施形態では、複数の分類の内の各それぞれの分類は、ターゲットオブジェクトに関してテストオブジェクトのためのＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩの範囲である。一部の係る実施形態では、複数の分類の内の第１の分類は、１ミクロモルと１０ミクロモルの間である。一部の係る実施形態では、複数の分類の内の第１の分類は１ナノモルと１００ナノモルの間である。

一部の実施形態では、ターゲットオブジェクトは活性部位を有するポリマーであり、テストオブジェクトは化学組成物であり、モデル化することはテストオブジェクトをポリマーの活性部位の中にドッキングすることを含む。

一部の実施形態では、複数の畳み込み層の内の畳み込み層は複数のフィルタを有し、複数のフィルタの内の各フィルタは、ストライド（ｓｔｒｉｄｅ）ＹでＮ^３の３次元の入力空間をコンボリュ−ションし、Ｎは２以上の整数であり、Ｙは正の整数である。一部の係る実施形態では、畳み込み層と関連付けられた重みの異なる集合は、複数のフィルタの内のそれぞれのフィルタと関連付けられる。

一部の実施形態では、スコアラは、複数の完全接続層及び１つのロジスティック回帰コスト層を含み、複数の完全接続層の内の完全接続層はロジスティック回帰コスト層に流れ込む。

一部の実施形態では、ターゲットオブジェクトは活性部位を有するポリマーであり、テストオブジェクトは化学組成物であり、モデル化することはターゲットオブジェクト及びテストオブジェクトの分子動力学ランを実行し、それによって経時的にターゲットオブジェクト及びテストオブジェクトの軌跡をともに形成することを含み、複数の異なるポーズの部分集合は、ある期間にわたり軌跡のスナップショットを撮影することによって入手される。

一部の実施形態では、コンピュータシステムは、図形処理メモリを有する図形処理ユニットをさらに含み、図形処理メモリはネットワークアーキテクチャを含み、提供すること（Ｄ）を実行し、少なくとも１つの汎用プロセッサは使用すること（Ｆ）を実行する。

一部の実施形態では、テストオブジェクトの特徴付けはテストオブジェクトの毒性予測である。

一部の実施形態では、テストオブジェクトの特徴付けは、分子病ターゲットと対照するテストオブジェクトの効能の予測である。例えば、一部の係る実施形態では、効能は分子病ターゲットと対照するテストオブジェクトの結合親和性予測である。

一部の実施形態では、テストオブジェクトの特徴付けは、第１の分子ターゲット対第２の分子ターゲットと対照するテストオブジェクトの選択性の予測であり、第１の分子ターゲットは疾病にリンクされる。

一部の実施形態では、ターゲットオブジェクトは疾病とリンクされ、ターゲットオブジェクトに対するテストオブジェクトの結合によるターゲットオブジェクトの阻止は、疾病を緩和すると予測される。

図面中、本開示のシステム及び方法は例として示される。説明及び図面は説明のため及び理解の一助としてだけであり、本開示のシステム及び方法の制限の定義として意図されていないことが明示的に理解されるべきである。

類似する番号は、図面のいくつかの図を通して対応する部分を指す。

一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するコンピュータシステムを示す図である。一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するためのコンピュータシステム及び方法を示す図である。一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するためのコンピュータシステム及び方法を示す図である。一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するためのコンピュータシステム及び方法を示す図である。一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するためのコンピュータシステム及び方法を示す図である。一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するためのコンピュータシステム及び方法を示す図である。一部の実施形態に従って、畳み込みニューラルネットワークを空間データに適用するためのコンピュータシステム及び方法を示す図である。実施形態に従って、ターゲットオブジェクトに対する２つの異なるポーズの例のテストオブジェクトの概略図である。実施形態に従って、ボクセルの３次元グリッドの形をとる入力特徴の幾何学的表現の概略図である。実施形態に従って、ボクセルの２次元グリッドの上に符号化された２つのオブジェクトの図である。実施形態に従って、ボクセルの２次元グリッドの上に符号化された２つのオブジェクトの図である。実施形態に従って、ボクセルが番号を付けられた図６の視覚化の図である。実施形態に従って、原子中心の座標位置の形をとる入力特徴の幾何学的表現の概略図である。実施形態に従って、一連の位置を有する図８の座標位置の概略図である。実施形態に係るＡｔｏｍＮｅｔ及びＳｍｉｎａのための５０のＣｈＥＭＢＬ‐２０‐ＰＭＤターゲットのＡＵＣ値及びｌｏｇＡＵＣ値の分布を示す図である。実施形態に係るＡｔｏｍＮｅｔ及びＳｍｉｎａのための１０２のＤＵＤＥターゲットのＡＵＣ値及びｌｏｇＡＵＣ値の分布を示す図である。実施形態に係るＡｔｏｍ‐Ｎｅｔ及びＳｍｉｎａの１４９のＣｈＥＭＢＬ‐２０‐イナクティブターゲットのＡＵＣ値及びｌｏｇＡＵＣ値の分布を示す図である。実施形態に係る早期強化（ｅａｒｌｙｅｎｒｉｃｈｍｅｎｔ）に関してＡＵＣ測定とｌｏｇＡＵＣ測定の間の差を示す図である。実施形態に係る早期強化に関してＡＵＣ測定とｌｏｇＡＵＣ測定の間の差を示す図である。実施形態に従って、複数の関数計算要素（ｇ１、ｇ２、．．．）をボクセル入力（ｘ１、ｘ２、．．．、ｘ１００）に適用し、ｇ（）を使用し、関数計算要素出力をともに構成することの図である。一部の実施形態に従って、第１の畳み込み層からの特定のフィルタが始動する（ｆｉｒｅ）ターゲットオブジェクトでの３次元位置を示す図である。一部の実施形態に従って、第１の畳み込み層からの特定のフィルタが始動するターゲットオブジェクトでの３次元位置を示す図である。

ここで、例が添付図面に示されている実施形態を詳しく参照する。以下の発明を実施するための形態では、本開示の完全な理解を提供するために多数の具体的な詳細が説明される。しかしながら、本開示がこれらの具体的な詳細なしでも実践され得ることが当業者には明らかとなる。他の例では、実施形態の態様を不必要に分かりにくくしないように、周知の方法、手順、構成要素、回路、及びネットワークは詳細に説明されていない。

また、用語、第１の、第２の等は多様な要素を記述するために本明細書で使用されてよいが、これらの要素がこれらの用語によって制限されるべきではないことも理解される。これらの用語は、ある要素を別の要素から区別するために使用されるにすぎない。例えば、本開示の範囲から逸脱することなく、第１の対象者は第２の対象者と呼ぶことができ、同様に第２の対象者は第１の対象者と呼ぶことができるだろう。第１の対象者及び第２の対象者はともに対象者であるが、第１の対象者及び第２の対象者は同じ対象者ではない。

本開示で使用される用語は、特定の実施形態を説明する目的のためだけであり、本発明の制限することを意図としていない。本発明の明細書及び添付の特許請求の範囲で使用されるように、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈上明らかに他の意味に解釈すべき場合を除いて複数形も同様に含むことが意図される。また、本明細書で使用される用語「ａｎｄ／ｏｒ（及び／または）」は、関連付けられ、示されている項目の１つ以上のありとあらゆる考えられる組合せを指し、包含することも理解される。さらに、用語「ｃｏｍｐｒｉｓｅｓ（含む）」及び／または「ｃｏｍｐｒｉｓｉｎｇ」は、本明細書で使用されるとき、記載されている特徴、整数、ステップ、動作、要素、及び／または構成要素の存在を指定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び／もしくはその群の存在または追加を除外しないことが理解される。

本明細書で使用されるように、用語「ｉｆ（場合）」は、状況に応じて、「ｗｈｅｎ（とき）」または「ｕｐｏｎ（時）」または「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（〜判断することに応えて）」、または「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ（〜検出することに応えて）」、を意味すると解釈されてよい。同様に、句「ｉｆｉｔｉｓｄｅｔｅｒｍｉｎｅｄ（が判断される場合）」または「ｉｆ［ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］ｉｓｄｅｔｅｃｔｅｄ（［記載される条件またはイベント］が検出される場合）」は、状況に応じて、「ｕｐｏｎｄｅｔｅｒｍｉｎｉｎｇ（判断時）」または「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ（〜判断することに応えて）」、または「ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ［ｔｈｅｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ］（〜［記載される状態またはイベント］を検出することに応えて）」、を意味すると解釈されてよい。

本開示は、テストオブジェクトの分類のためのシステム及び方法を提供する。テストオブジェクトは、ポーズと呼ばれる複数の異なるエネルギー的に許容可能な結合モードでターゲットオブジェクトとドッキングされて、対応する複数のボクセルマップを形成する。ターゲットオブジェクトの例は活性部位を有するポリマーであり、テストオブジェクトの例は、かなりの親和性で活性部位に結合することもあれば、結合しないこともある化合物である。一部の実施形態では、ボクセルマップはベクトル化され、連続して畳み込みニューラルネットワークに送り込まれる。一部の実施形態では、ボクセルマップは、ベクトル化なしで畳み込みニューラルネットワークに直接的に連続して送り込まれる。一部の実施形態では、各係るボクセルマップは、ターゲットオブジェクトに対するテストオブジェクトのポーズを表す。例えば、一部の実施形態では、各ボクセルマップは、ポリマーの活性部位で異なる向きで結合される化合物を表す。畳み込みニューラルネットワークは、入力層、複数の個々に重み付けされた畳み込み層、及び出力スコアラを含む。畳み込み層は初期層及び最終層を含む。入力に応えて、入力層は初期畳み込み層に値を送り込む。最終畳み込み層以外の各それぞれの畳み込み層は、それぞれの畳み込み層の重み及びそれぞれの畳み込み層の入力値の関数として中間値を畳み込み層の内の別の畳み込み層に送り込む。最終畳み込み層は、最終層の重み及び入力値の関数として値をスコアラに送り込む。このようにして、スコアラは入力ベクトル（または入力ボクセルマップ）のそれぞれを採点し、これらのスコアはテストオブジェクトを分類するために集合的に使用される。一部の実施形態では、スコアラは入力ベクトル（または入力ボクセルマップ）のそれぞれに単一のスコアを与え、これらのスコアの加重平均はテストオブジェクトを分類するために使用される。

図１は、上述された畳み込みニューラルネットワークを空間データに適用するコンピュータシステム１００を示す。例えば、コンピュータシステム１００は、１つ以上のターゲットオブジェクト（例えば、ポリマー）の集合との１つ以上のテストオブジェクト（例えば、化合物）の結合親和性に関する正確な予測を生成するために結合親和性予測システムとして使用できる。

図１を参照すると、典型的な実施形態では、分析コンピュータシステム１００は１つ以上のコンピュータを含む。図１の説明のために、分析コンピュータシステム１００は、開示される分析コンピュータシステム１００の機能性のすべてを含む単一のコンピュータとして表される。しかしながら、本開示はこのように制限されていない。分析コンピュータシステム１００の機能性は、任意の数のネットワーク化されたコンピュータ全体で拡散されてよい、及び／またはいくつかのネットワーク化されたコンピュータのそれぞれに常駐してよい。当業者は、分析コンピュータシステム１００に対しては豊富な異なるコンピュータトポロジーが考えられ、すべての係るトポロジーが本開示の範囲内にあることを理解する。

上記を念頭に図１を見ると、分析コンピュータシステム１００は、１つ以上の処理装置（ＣＰＵ）７４、ネットワークまたは他の通信インタフェース８４、（例えば、ディスプレイ８２及びキーボード８０または他の形の入力装置を含む）ユーザインタフェース、メモリ９２（例えば、ランダムアクセスメモリ）、１つ以上のコントローラ８８によって任意選択でアクセスされる１つ以上の磁気ディスク記憶装置及び／または永続装置９０、上述された構成要素を相互接続するための１つ以上の通信バス１２、並びに上述された構成要素に電力を供給するための電源７６を含む。メモリ９２のデータは、例えばキャッシング等の既知のコンピューティング技術を使用し、不揮発メモリ９０とシームレスに共用できる。メモリ９２及び／またはメモリ９０は、中央演算処理装置（複数可）７４に関して遠隔に位置するマスストレージを含む場合がある。言い換えると、メモリ９２及び／またはメモリ９０に記憶される一部のデータは、事実上、分析コンピュータシステム１００にとって外部であるが、ネットワークインタフェース８４を使用し、インターネット、イントラネット、または他の形のネットワークもしくは電子ケーブルを介して分析コンピュータシステムによって電子的にアクセスできるコンピュータでホストされてよい。一部の実施形態では、分析コンピュータシステム１００は、システムの速度及び性能を改善するために１つ以上の図形処理ユニット５０と関連付けられたメモリ５２から実行される畳み込みニューラルネットワークを利用する。一部の代替実施形態では、分析コンピュータシステム１００は図形処理ユニット５０と関連付けられたメモリよりむしろメモリ９２から実行される畳み込みニューラルネットワークを利用する。

分析コンピュータシステム１００のメモリ９２は、
・多様な基本的なシステムサービスを扱うためのプロシージャを含むオペレーティングシステム５４と、
・テストオブジェクト（またはトレーニングオブジェクト）のターゲットオブジェクトに対する結合等の空間データを評価するための空間データ評価モジュール５６と、
・構造データ６０及び任意選択で活性部位情報６２を含む、１つ以上のターゲットオブジェクト５８のためのデータと、
・複数のトレーニングオブジェクト６６のそれぞれのためにターゲットオブジェクト５８と対照して結合データ６８を含むオブジェクトトレーニングライブラリ６４と、
・複数のテストオブジェクト７２のための情報を含むテストオブジェクト評価ライブラリ７０と、
・各ボクセルマップがターゲットオブジェクト５８と対照してトレーニングオブジェクト６６またはテストオブジェクト７２のポーズを表す、複数のボクセルマップ４０と、
を記憶する。

分析コンピュータシステム１００のメモリ５２、または任意選択でメモリ９２は、
・畳み込みニューラルネットワークを空間データに適用するため（例えば、ターゲットオブジェクトにドッキングされたテストオブジェクトまたはトレーニングオブジェクトに畳み込みニューラルネットワークを適用するため）の畳み込み評価モジュール２０と、
・ボクセルマップ４０の１つ以上の（任意選択で）ベクトル化された２２表現と、
・入力層２６、１つ以上の畳み込み層２８、及び端末スコアラ３０を含む畳み込みニューラルネットワーク２４と、
を記憶する。

一部の実施形態では、分析コンピュータシステム１００の上記に特定されたデータ要素またはモジュールの１つ以上は、上述されたメモリデバイスの１つ以上に記憶され、上述された機能を実行するための命令のセットに対応する。上記に特定されたデータ、モジュール、またはプログラム（例えば、命令のセット）は、別々のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要はなく、したがってこれらのモジュールの多様なサブセットは多様な実施態様で結合されてよい、またはそれ以外の場合再配置されてよい。一部の実施態様では、メモリ９２及び／または９０（及び任意選択で５２）は、上記に特定されたモジュール及びデータ構造のサブセットを記憶する。さらに、一部の実施形態では、メモリ９２及び／または９０（及び任意選択で５２）は、上述されていない追加のモジュール及びデータ構造を記憶する。

空間データを使用する、テストオブジェクトまたはトレーニングオブジェクトのターゲットオブジェクトの上へのドッキングの評価のためのシステムが開示されているので、係る評価を実行するための方法が図２に関して詳説され、以下に説明される。

ターゲットオブジェクトのために空間座標の入手すること２０２。図２によると、空間データを使用するテストオブジェクト７２（またはトレーニングオブジェクト）の分類のための方法がコンピュータシステム１００でまたはコンピュータシステム１００を用いて実行される。コンピュータシステム１００は、任意選択で図形処理メモリ５２を有する図形処理ユニット５０を含む。コンピュータシステム１００は、汎用プロセッサ７４及び汎用処理ユニットによってアドレス指定可能な汎用メモリ９０／９２を含む。汎用メモリは、該少なくとも１つの汎用プロセッサによる実行のための少なくとも１つのプログラム５６を記憶する。少なくとも１つのプログラムは、ターゲットオブジェクト５８のために空間座標６０を入手する。

一部の実施形態では、ターゲットオブジェクト５８はポリマー（２０４）である。ポリマーの例は、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはその任意の組合せのアセンブリを含むが、これに限定されるものではない（２０６）。開示されるシステム及び方法の一部の実施形態を使用し、研究されるポリマー等のポリマーは、繰り返す残留物から構成される巨大分子である。一部の実施形態では、ポリマーは天然材料である。一部の実施形態では、ポリマーは合成材料である。一部の実施形態では、ポリマーはエラストマ、セラック、琥珀、天然ゴムもしくは合成ゴム、セルロース、ベークライト、ナイロン、ポリスチレン、ポリエチレン、ポリプロピレン、ポリアクリロニトリル、ポリエチレングリコール、または多糖である。

一部の実施形態では、ターゲットオブジェクト５８はヘテロポリマー（コポリマー）である。コポリマーは、１つのモノマーしか使用されないホモポリマーとは対照的に、２つ（以上の）単量体種から派生するポリマーである。共重合は、コポリマーを化学的に合成するために使用される方法を指す。コポリマーの例は、ＡＢＳプラスチック、ＳＢＲ、ニトリルゴム、スチレンアクリロニトリル、スチレンイソプレンスチレン（ＳＩＳ）、及びエチレン酢酸ビニールを含むが、これに限定されるものではない。コポリマーは少なくとも２つのタイプの成分単位（また、構造単位または粒子）から成るので、コポリマーはこれらの単位が鎖に沿ってどのように配置されるのかに基づいて分類できる。これらは、規則正しく交互に起こるＡ単位及びＢ単位を有する交互コポリマーを含む。例えば、参照によりその全体として本明細書に援用されるＪｅｎｋｉｎｓ，１９９６，「ＧｌｏｓｓａｒｙｏｆＢａｓｉｃＴｅｒｍｓｉｎＰｏｌｙｍｅｒＳｃｉｅｎｃｅ」、ＰｕｒｅＡｐｐｌ．Ｃｈｅｍ．６８（１２）：２２８７−２３１１を参照のこと。コポリマーの追加の例は、Ａ単位及びＢ単位が繰り返すシーケンス（例えば、（Ａ‐Ｂ‐Ａ‐Ｂ‐Ｂ‐Ａ‐Ａ‐Ａ‐Ａ‐Ｂ‐Ｂ‐Ｂ）_ｎ）で配置される周期コポリマーである。コポリマーの更なる例は、コポリマー内のモノマー残留物のシーケンスが統計規則に従う統計コポリマーである。例えば、参照によりその全体として本明細書に援用される、Ｐａｉｎｔｅｒ，１９９７，ＦｕｎｄａｍｅｎｔａｌｓｏｆＰｏｌｙｍｅｒＳｃｉｅｎｃｅ，ＣＲＣＰｒｅｓｓ，１９９７，１４ページを参照のこと。開示されたシステム及び方法を使用し、評価されてよいコポリマーのさらに他の例は、同等な結合によってリンクされる２つ以上のホモポリマーサブユニットを含むブロックコポリマーである。ホモポリマーサブユニットの合体は、ジャンクションブロックとして知られる中間非循環サブユニット（ｉｎｔｅｒｍｅｄｉａｔｅｎｏｎ−ｒｅｐｅａｔｉｎｇｓｕｂｕｎｉｔ）を必要とすることがある。２つまたは３つの異なったブロックを有するブロックコポリマーは、それぞれジブロックポリマー及びトリブロックポリマーと呼ばれる。

一部の実施形態では、ターゲットオブジェクト５８は、事実上、複数のポリマーの内のそれぞれのポリマーがすべて同じ分子量を有するわけではない複数のポリマーである。一部の実施形態では、複数のポリマーの内のポリマーは、対応する鎖長の分布を有する重量範囲に該当する。一部の実施形態では、ポリマーは、１つ以上の置換された側鎖または側枝を有する主鎖を含む分岐ポリマー分子である。分岐ポリマーの種類は、スターポリマー、コームポリマー、ブラシポリマー、デンドロナイズドポリマー、ラダー、及びデンドリマーを含むが、これに限定されるものではない。例えば、参照によりその全体として本明細書に援用される、Ｒｕｂｉｎｓｔｅｉｎｅｔａｌ．，２００３，Ｐｏｌｙｍｅｒｐｈｙｓｉｃｓ，Ｏｘｆｏｒｄ；ＮｅｗＹｏｒｋ：ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ．６ページを参照のこと。

一部の実施形態では、ターゲットオブジェクト５８はポリペプチドである。本明細書に使用されるように、用語「ポリペプチド」は２つ以上のアミノ酸、またはペプチド結合によりリンクされる残留物を意味する。用語「ポリペプチド」及び「タンパク質」は本明細書において交互に使用され、オリゴペプチド及びペプチドを含む。「アミノ酸」、「残留物」、または「ペプチド」は、プロリン及びヒドロキシプロリン等のイミノ酸を含む、技術で既知のタンパク質の２０の標準構造単位の内のいずれかを指す。アミノ酸異性体の名称は、Ｄ、Ｌ、Ｒ、及びＳを含んでよい。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリシン、ランチオニン、２‐アミノイソ酪酸、ガンマアミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、及びホモシステインは、すべてアミノ酸と見なされる。アミノ酸の他の変種または類似体は技術で既知である。したがって、ポリペプチドはぺプトイド等の合成ペプチド模倣薬構造を含んでよい。参照によりその全体として本明細書に援用される、Ｓｉｍｏｎｅｔａｌ．，１９９２，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＵＳＡ，８９，９３６７を参照のこと。また、それぞれ参照によりその全体として本明細書に援用される、Ｃｈｉｎｅｔａｌ．，２００３，Ｓｃｉｅｎｃｅ３０１，９６４、及びＣｈｉｎｅｔａｌ．，２００３，Ｃｈｅｍｉｓｔｒｙ＆Ｂｉｏｌｏｇｙ１０，５１１も参照のこと。

また、開示されたシステム及び方法の一部の実施形態に従って評価されたターゲットオブジェクト５８は、任意の数の翻訳後修飾を有してもよい。したがって、ターゲットオブジェクトは、アシル化、アルキル化、アミド化、ビオチン化、ホルミル化、γ‐カルボキシル化、グルタミン酸化（ｇｌｕｔａｍｙｌａｔｉｏｎ）、グリコシル化、グリシル化、ヒドロキシル化、ヨード化、イソプレニル化、リポイル化、（例えば、ヘム、フラビン、金属等の）補因子添加、ヌクレオシド及びその派生物の添加、酸化、還元、ＰＥＧ化、ホスファチジルイノシトール添加、ホスホパンテテニル化、リン酸化、ピログルタミン酸形成、ラセミ化、ｔＲＮＡによるアミノ酸の添加（例えば、アルギニル化）、硫酸化、セレノイル化、ＩＳＧ化（ＩＳＧｙｌａｔｉｏｎ）、ＳＵＭＯ化（ＳＵＭＯｙｌａｔｉｏｎ）、ユビキチン化、化学修飾（例えば、シトルリン化及びアミド分解）、ならびに他の酵素（例えば、プロテアーゼ、ホスファターゼ、及びキナーゼ）による処理によって修飾されるそれらのポリマーを含む。他のタイプの翻訳後修飾も技術で既知であり、含まれる。

一部の実施形態では、ターゲットオブジェクト５８は有機金属錯体である。有機金属錯体は炭素と金属との間の化学結合を含む化合物である。一部の例では、有機金属化合物は、例えば有機パラジウム化合物等、接頭辞「有機」で区別される。

一部の実施形態では、ターゲットオブジェクト５８は界面活性剤である。界面活性剤は、液体の表面張力、２つの液体の間の界面張力、または液体と固体の間の界面張力を引き下げる化合物である。界面活性剤は、合成洗剤、湿潤材、乳化剤、発泡剤、及び分散剤の機能を果たしてよい。界面活性剤は通常、両親媒性である有機化合物であり、それらが疎水性基（その尾部）と親水性基（その頭部）の両方を含むことを意味する。したがって、界面活性剤分子は不水溶性（または油溶性）の成分と水溶性の成分の両方を含む。水が油と混合される場合、界面活性剤分子は水中で拡散し、空気と水との間の界面でまたは油と水との間の界面で吸着する。不溶性の疎水性基はバルク水相の中から空気の中へまたは油相の中に広がることがある。一方、水溶性の頭部基は水相に留まる。この界面活性剤分子の表面での位置合わせが、水／空気または水／油の界面での水の表面特性を修飾する。

イオン界面活性剤の例は、陰イオン性界面活性剤、陽イオン性界面活性剤、または双性（両性）イオン性活性剤を含む。一部の実施形態では、ターゲットオブジェクト５８は、逆ミセルまたはリポソームである。

一部の実施形態では、ターゲットオブジェクト５８はフラーレンである。フラーレンは、中空の球体、楕円体、または管の形をとる、完全に炭素から構成される任意の分子である。また、球形のフラーレンはＣ６０構造分子とも呼ばれ、それらはサッカーで使用されるボールに似ている。円筒形のフラーレンは、カーボンナノチューブまたはバッキチューブと呼ばれる。フラーレンは構造で、リンクされた六角形の連鎖の積み重ねられたグラフェンシートから構成される黒鉛に類似するが、それらは五角形の（または七角形のこともある）連鎖を含むこともある。

一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は２．５Åまたはそれより良い分解能で分解されたポリマーの結晶構造のための３次元座標｛ｘ１、．．．、ｘＮ｝の集合である（２０８）。一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は３．３Åまたはそれより良い分解能で分解されたポリマーの結晶構造の３次元座標｛ｘ１、．．．、ｘＮ｝の集合である（２１０）。一部の実施形態では、ターゲットオブジェクトはポリマーであり、空間座標は、３．３Åもしくはそれより良い、３．２Åもしくはそれより良い、３．１Åもしくはそれより良い、３．０Åもしくはそれより良い、２．５Åもしくはそれより良い、２．２Åもしくはそれより良い、２．０Åもしくはそれより良い、１．９Åもしくはそれより良い、１．８５Åもしくはそれより良い、１．８０Åもしくはそれより良い、１．７５Åもしくはそれより良い、または１．７０Åもしくはそれより良い分解能で（例えば、Ｘ線結晶技法によって）分解されるポリマーの結晶構造の３次元座標｛ｘ１、．．．、ｘＮ｝の集合である。

一部の実施形態では、ターゲットオブジェクト５８はポリマーであり、空間座標は、核磁気共鳴によって決定されたポリマーの１０以上、２０以上、または３０以上の３次元座標の集合体であり、集合体は１．０Åもしくはそれより良い、０．９Åもしくはそれより良い、０．８Åもしくはそれより良い、０．７Åもしくはそれより良い、０．６Åもしくはそれより良い、０．５Åもしくはそれより良い、０．４Åもしくはそれより良い、０．３Åもしくはそれより良い、または０．２Åもしくはそれより良いバックボーンＲＭＳＤを有する。一部の実施形態では、空間座標は、中性子回折または低温電子顕微鏡法によって決定される（２１２）。

一部の実施形態では、ターゲットオブジェクト５８は、例えばポリペプチドに結合された核酸等の２つの異なるタイプのポリマーを含む。一部の実施形態では、天然のポリマーは互いに結合された２つのポリペプチドを含む。一部の実施形態では、研究中の天然のポリマーは１つ以上の金属イオン（例えば、１つ以上の亜鉛原子を有するメタロプロテイナーゼ）を含む。係る例では、金属イオン及びまたは有機小分子が、ターゲットオブジェクト５８のための空間座標６０に含まれてよい。

係る実施形態では、ターゲットオブジェクトはポリマーであり、ポリマーには１０以上、２０以上、３０以上、５０以上、１００以上、１００と１０００の間、または５００未満の残留物がある。

一部の実施形態では、ターゲットオブジェクト５８の空間座標は、アブイニシオ法、密度関数法、半経験的方法及び経験的方法、分子力学、化学力学、または分子動力学等のモデル化方法を使用し、決定される。

実施形態では、空間座標は、ターゲットオブジェクトを含む原子の中心のデカルト座標によって表される。一部の代替実施形態では、ターゲットオブジェクト５８の空間座標６０は、例えばＸ線結晶構造解析法によって測定されるターゲットオブジェクトの電子密度によって表される。例えば、一部の実施形態では、空間座標６０は、ターゲットオブジェクト５８の計算された原子座標を使用し計算された２Ｆ_{ｏｂｓｅｒｖｅｄ}−Ｆ_{ｃａｌｃｕｌａｔｅｄ}電子密度マップを含み、Ｆ_{ｏｂｓｅｒｖｅｄ}は、ターゲットオブジェクトの観察された構造因子振幅であり、Ｆｃはターゲットオブジェクト５８の計算された原子座標から計算された構造因子振幅である。

したがって、ターゲットオブジェクトのための空間座標６０は、溶液ＮＭＲにより生成される構造集合体、Ｘ線結晶構造解析から解釈される共複合体（ｃｏ‐ｃｏｍｐｌｅｘｅｓ）、中性子回折、または低温電子顕微鏡法、計算シミュレーションからのサンプリング、ホモロジーモデリング、または回転異性体ライブラリサンプリング、及びこれらの技術の組合せ等であるが、これに限定されるものではないさまざまなソースから入力データとして受け入れられてよい。

ターゲットオブジェクトでテストオブジェクトをモデル化する（２１４）。ステップ２１４で、テストオブジェクト７２（またはトレーニングオブジェクト）は、複数の異なるポーズのそれぞれのターゲットオブジェクト５８でモデル化される。ここでは、本開示に係る代表的なテストオブジェクト７２（及びトレーニングオブジェクト６６）が最初に説明される。次に、モデル化及び代表的なモデル化技術が説明される。

代表的なテストオブジェクト７２（及びトレーニングオブジェクト６６）。テストオブジェクト７２とトレーニングオブジェクト６６の重要な相違点は、テストオブジェクト７２はラベルが付けられず、畳み込みニューラルネットワークがテストオブジェクト７２を分類するために使用されるのに対し、トレーニングオブジェクト６６は（例えば、ウェットラボ結合アッセイ等から入手される相補的結合データで）ラベルが付けられ、係るラベル付けが畳み込みニューラルネットワークを訓練するために使用される点である。言い換えると、トレーニングオブジェクトはすでにラベルによって分類されており、係る分類は、畳み込みニューラルネットワークが次いでテストオブジェクトを分類し得るように、畳み込みニューラルネットワークを訓練するために使用される。テストオブジェクトは、通常、畳み込みニューラルネットワークの適用前に分類されない。典型的な実施形態では、トレーニングオブジェクト６６と関連付けられた分類は、ウェットラボ結合アッセイによって入手されるターゲットオブジェクト５８のそれぞれに対照する結合データである。したがって、一部の実施形態では、各トレーニングオブジェクト５８は、潜在的にいくつかの異なるターゲットオブジェクト５８と対照してラベル付けされる。例えば、２つのターゲットオブジェクト５８、つまり（阻害剤が求められる）第１の酵素Ａ及び（阻害剤が求められず、有害な副作用を最小限に抑えるために阻害することが望ましくない）第２の酵素Ｂがある場合を考慮する。各トレーニングオブジェクト５８は酵素Ａを対照して第１のラベルを、酵素Ｂを対照して第２のラベルを受け取る。これらの第１のラベル及び第２のラベルは同じこともあれば、異なることもあり、例えば、トレーニングオブジェクト５８が、それが酵素Ｂの阻止剤であるよりも酵素Ａのより優れた阻止剤である場合、第１のラベル及び第２のラベルは異なる。

一部の実施形態では、テストオブジェクト７２及びトレーニングオブジェクト６６は、リピンスキーのルールオブファイブ、つまり（ｉ）５つ以下の水素結合供与体（例えば、ＯＨ基及びＮＨ基）、（ｉｉ）１０以下の水素結合受容体（例えば、Ｎ及びＯ）、（ｉｉｉ）５００ダルトン未満の分子量、及び（ｉｖ）５未満のＬｏｇＰの２つ以上の規則、３つ以上の規則、または４つすべてのルールを満たす有機化合物である。「ルールオブファイブ」は、４つの基準の内の３つが数５を含むためにこのように呼ばれている。参照によりその全体として本明細書に援用される、Ｌｉｐｉｎｓｋｉ，１９９７，Ａｄｖ．ＤｒｕｇＤｅｌ．Ｒｅｖ．２３，３を参照のこと。

一部の実施形態では、テストオブジェクト７２またはトレーニングオブジェクト６６は、リピンスキーのルールオブファイブに加えて１つ以上の基準を満たす。例えば、一部の実施形態では、テストオブジェクト７２またはトレーニングオブジェクト６６は、５つ以下の芳香環、４つ以下の芳香環、３つ以下の芳香環、または２つ以下の芳香環を有する。一部の実施形態では、テストオブジェクト７２またはトレーニングオブジェクト６６は、２０００ダルトン未満の、４０００ダルトン未満の、６０００ダルトン未満の、８０００ダルトン未満の、１００００ダルトン未満の、または２００００ダルトン未満の分子量を有する任意の有機化合物である。

しかしながら、本開示のシステム及び方法は、テストオブジェクト７２またはトレーニングオブジェクト６６のサイズに対する制限を有さない。例えば、一部の実施形態では、係るオブジェクトは、例えば抗体等の大きいポリマーである。

モデル化すること。図２Ａの要素２１４を見ると、テストオブジェクト７２及び／またはトレーニングオブジェクト６６は、複数の異なるポーズのそれぞれのポーズにおいてターゲットオブジェクト５８でモデル化される。一部の実施形態では、ターゲットオブジェクト５８は活性部位を有するポリマーであり、テストオブジェクト（またはトレーニングオブジェクト）は化合物であり、モデル化は、テストオブジェクトをポリマーの活性部位の中にドッキングすることを含む（２１６）。一部の実施形態では、テストオブジェクト７２またはトレーニングオブジェクト６６はターゲットオブジェクト５８の上に複数回ドッキングされて複数のポーズを形成する。一部の実施形態では、テストオブジェクト７２またはトレーニングオブジェクト６６はターゲットオブジェクト５８の上に２回、３回、４回、５回以上、１０回以上、５０回以上、１００回以上、または１０００回以上ドッキングされる（２１８）。それぞれの係るドッキングは、ターゲットオブジェクト５８の上にドッキングされたテストオブジェクト７２またはトレーニングオブジェクト６６の異なるポーズを表す。一部の実施形態では、ターゲットオブジェクト５８は活性部位を含むポリマーであり、テストオブジェクト７２またはトレーニングオブジェクト６６は複数の異なる方法のそれぞれで活性部位の中にドッキングされ、それぞれの係る方法は異なるポーズを表す。これらのポーズの多くは正しくない、つまり係るポーズは、自然に発生するテストオブジェクト７２（またはトレーニングオブジェクト６６）とターゲットオブジェクト５８との間の真の相互作用を表さないと予想される。正しくないポーズとトレーニングオブジェクトラベルとの間には一貫性のあるパターンが生じないため、有利なことに、トレーニングオブジェクト６６での訓練中、畳み込みニューラルネットワークは正しくないポーズを除外する（重みを下げる（ｄｏｗｎｗｅｉｇｈｔ））ことができる。特定の理論により制限されることを意図するものではないが、トレーニングオブジェクト６６によって形成された正しいポーズによって形成されたオブジェクト間の相互作用は互いを強化し、このようにして経時的にネットワークの重みを訓練するのに対し、正しくないポーズの間で観察されるオブジェクト間（例えば、分子間）の相互作用はホワイトノイズのように互いを相殺することが予想される。したがって、正しくないポーズに関するトレーニングモード中、ニューラルネットは、（例えば、トレーニングオブジェクトのラベル付けデータを区別するために）アクティブなトレーニングオブジェクト６６とイナクティブなトレーニングオブジェクト６６との間の差を説明するパターンを見つけることができないだろう。正しくないポーズに関して、ネットワークは、トレーニングオブジェクト６６の重み、そのサイズ、及び類似するグローバルサマリ記述子を学習するだろうが、本来トレーニングオブジェクトとテストオブジェクトとの間で形成される実際の分子間相互作用のどれも学習しないだろう。したがって、有利なことに、開示されるシステム及び方法は、特にトレーニングオブジェクト６６あたり１０を超えるポーズ、トレーニングオブジェクト６６あたり１００を超えるポーズ、またはトレーニングオブジェクト６６あたり１０００を超えるポーズがとられるとき、正しくないポーズに敏感ではない。同様に、テストオブジェクト７２がサンプリングされるとき、複数のポーズもとられる。したがって、１つのテストオブジェクトまたはトレーニングオブジェクトの中でさえ、間違ったポーズが互い、及び本来発生するオブジェクト間相互作用（例えば、分子間結合）の種類に近い何かを暗示するほど十分に近いポーズを相殺すること、係るポーズが単一のテストオブジェクトまたはトレーニングオブジェクトのための複数のポーズにより生成される最終信号に寄与するポーズとなるだろうことが予想される。

一部の実施形態では、トレーニングオブジェクト６６及びテストオブジェクト７２は、ランダムポーズ生成技術によってまたは偏向されたポーズ生成によってのどちらでドッキングされる。一部の実施形態では、トレーニングオブジェクト６６及びテストオブジェクト７２はマルコフ連鎖モンテカルロサンプリングによってドッキングされる。一部の実施形態では、係るサンプリングはドッキング計算におけるトレーニングオブジェクト及び／またはテストオブジェクト、及びトレーニング（またはテスト）オブジェクトの配座エネルギーだけではなく、トレーニング（またはテスト）オブジェクトとターゲットオブジェクト５８の間の相互作用エネルギーの合計であるスコア関数の完全な柔軟性を可能にする。例えば、参照により本明細書に援用される、ＬｉｕａｎｄＷａｎｇ，１９９９，「ＭＣＤＯＣＫ：ＡＭｏｎｔｅＣａｒｌｏｓｉｍｕｌａｔｉｏｎａｐｐｒｏａｃｈｔｏｔｈｅｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｐｒｏｂｌｅｍ」、ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ１３、４３５−４５１を参照のこと。

一部の実施形態では、ＤＯＣＫ（それぞれが参照により本明細書に援用される、Ｓｈｏｉｃｈｅｔ，Ｂｏｄｉａｎ，ａｎｄＫｕｎｔｚ，１９９２，「Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｕｓｉｎｇｓｈａｐｅｄｅｓｃｒｉｐｔｏｒｓ」，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１３（３），３８０−３９７ページ、及びＫｎｅｇｔｅｌ，Ｋｕｎｔｚ，ａｎｄＯｓｈｉｒｏ，１９９７，「Ｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇｔｏｅｎｓｅｍｂｌｅｓｏｆｐｒｏｔｅｉｎｓｔｒｕｃｔｕｒｅｓ」、ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６６，４２４−４４０ページ）等のアルゴリズムが、ターゲットオブジェクト５８のそれぞれと対照してテストオブジェクト７２及び／またはトレーニングオブジェクト６６のそれぞれのための複数のポーズを見つけるために使用される。係るアルゴリズムは、ターゲットオブジェクト及びテスト（またはトレーニング）オブジェクトを剛体としてモデル化する。ドッキングされた配座は、ポーズを見つけるために補完的な表面を使用し、検索される。

一部の実施形態では、ＡｕｔｏＤＯＣＫ（それぞれが参照により本明細書に援用される、Ｍｏｒｒｉｓｅｔａｌ．，２００９，「ＡｕｔｏＤｏｃｋ４ａｎｄＡｕｔｏＤｏｃｋＴｏｏｌｓ４：ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇｗｉｔｈＳｅｌｅｃｔｉｖｅＲｅｃｅｐｔｏｒＦｌｅｘｉｂｉｌｉｔｙ」、Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．３０（１６）、２７８５−２７９１ページ、Ｓｏｔｒｉｆｆｅｒｅｔａｌ．，２０００，「Ａｕｔｏｍａｔｅｄｄｏｃｋｉｎｇｏｆｌｉｇａｎｄｓｔｏａｎｔｉｂｏｄｉｅｓ：ｍｅｔｈｏｄｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ」，Ｍｅｔｈｏｄｓ：ＡＣｏｍｐａｎｉｏｎｔｏＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ２０，２８０−２９１ページ、及び「Ｍｏｒｒｉｓｅｔａｌ．，１９９８，「ＡｕｔｏｍａｔｅｄＤｏｃｋｉｎｇＵｓｉｎｇａＬａｍａｒｃｋｉａｎＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍａｎｄＥｍｐｉｒｉｃａｌＢｉｎｄｉｎｇＦｒｅｅＥｎｅｒｇｙＦｕｎｃｔｉｏｎｓ」、ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ１９：１６３９−１６６２ページ）等のアルゴリズムが、ターゲットオブジェクト５８のそれぞれに対してテストオブジェクト７２及び／またはトレーニングオブジェクト６６のそれぞれと対照して複数のポーズを見つけるために使用される。ＡｕｔｏＤＯＣＫはリガンドの運動モデルを使用し、モンテカルロ、シミュレーテッドアニーリング、ラマルク遺伝的アルゴリズム、及び遺伝的アルゴリズムを使用する。したがって、一部の実施形態では、（所与のテストオブジェクト‐ターゲットオブジェクトの対または所与のトレーニングオブジェクト‐テストオブジェクトの対のための）複数の異なるポーズは、ドッキングスコア関数を使用し、マルコフ連鎖モンテカルロサンプリング、シミュレーテッドアニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムによって入手される（２２０）。

一部の実施形態では、ＦｌｅｘＸ（参照により本明細書に援用される、Ｒａｒｅｙｅｔａｌ．，１９９６，「ＡＦａｓｔＦｌｅｘｉｂｌｅＤｏｃｋｉｎｇＭｅｔｈｏｄＵｓｉｎｇａｎＩｎｃｒｅｍｅｎｔａｌＣｏｎｓｔｒｕｃｔｉｏｎＡｌｇｏｒｉｔｈｍ」、ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６１，４７０−４８９ページ）等のアルゴリズムが、ターゲットオブジェクト５８のそれぞれと対照してテストオブジェクト７２及び／またはトレーニングオブジェクト６６のそれぞれのための複数のポーズを見つけるために使用される。ＦｌｅｘＸは、欲張りアルゴリズムを使用し、ターゲットオブジェクト５８の活性部位でテストオブジェクト７２及び／またはトレーニングオブジェクト６６の逐次構築を行う。したがって、一部の実施形態では、（所与のテストオブジェクト‐ターゲットオブジェクトの対または所与のトレーニングオブジェクト‐テストオブジェクトの対のための）複数の異なるポーズが欲張りアルゴリズムによって入手される（２２２）。

一部の実施形態では、ＧＯＬＤ（参照により本明細書に援用される、Ｊｏｎｅｓｅｔａｌ．，１９９７，「ＤｅｖｅｌｏｐｍｅｎｔａｎｄＶａｌｉｄａｔｉｏｎｏｆａＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｆｏｒｆｌｅｘｉｂｌｅＤｏｃｋｉｎｇ」、ＪｏｕｒｎａｌＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ２６７、７２７−７４８ページ）等のアルゴリズムが、ターゲットオブジェクト５８のそれぞれと対照してテストオブジェクト７２及び／またはトレーニングオブジェクト６６のそれぞれのための複数のポーズを見つけるために使用される。ＧＯＬＤは、リガンドドッキングのための遺伝的最適化の略である。ＧＯＬＤは、テストオブジェクト７２及び／またはトレーニングオブジェクト６６とターゲットオブジェクト５８との間に遺伝子学的に最適化された水素結合ネットワークを構築する。

一部の実施形態では、モデル化は、ターゲットオブジェクト及びテストオブジェクトの分子動力学ランを実行することを含む。分子動力学ランの間、ターゲットオブジェクト及びテストオブジェクトの原子は、固定された期間、相互作用することを許され、システムの力学進化の図を示す。ターゲットオブジェクト及びテストオブジェクト（またはトレーニングオブジェクト）での原子の軌跡は、相互作用する粒子のシステムのためにニュートンの運動方程式を数値的に解くことによって決定され、粒子とそのポテンシャルエネルギーとの間の力が原子間ポテンシャルまたは分子力学力場を使用し、計算される。それぞれ参照により本明細書に援用される、ＡｌｄｅｒａｎｄＷａｉｎｗｒｉｇｈｔ，１９５９，「ＳｔｕｄｉｅｓｉｎＭｏｌｅｃｕｌａｒＤｙｎａｍｉｃｓ．Ｉ．ＧｅｎｅｒａｌＭｅｔｈｏｄ」．Ｊ．Ｃｈｅｍ．Ｐｈｙｓ．３１（２）：４５９、及びＢｉｂｃｏｄｅ，１９５９，Ｊ．Ｃｈ．Ｐｈ．３１，４５９Ａ，ｄｏｉ：１０．１０６３／１．１７３０３７６を参照のこと。したがって、このようにして、分子動力学ランは、ともにターゲットオブジェクト及びテストオブジェクトの軌跡を経時的に生じさせる。この軌跡は、ターゲットオブジェクト及びテストオブジェクトの原子の軌跡を含む。一部の実施形態では、複数の異なるポーズの部分集合は、ある期間にわたりこの軌跡のスナップショットを撮影することによって入手される。一部の実施形態では、ポーズはいくつかの異なる軌跡のスナップショットから入手され、各軌跡はテストオブジェクトと相互作用するターゲットオブジェクトの異なる分子動力学ランを含む。一部の実施形態では、分子動力学ランの前に、テストオブジェクト（またはトレーニングオブジェクト）は、ドッキング技術を使用し、ターゲットオブジェクトの活性部位に最初にドッキングされる。

どのモデル化方法が使用されるのかに関わりなく、任意の所与のテストオブジェクト７２／トレーニングオブジェクト６６‐ターゲットオブジェクト５８の対のために達成されることは、ポーズの１つ以上が、所与のテストオブジェクト７２／トレーニングオブジェクト６６‐ターゲットオブジェクト５８対の間の関連する分子間相互作用の一部を立証するために自然に発生するポーズに十分に近いことを見込んだ、テスト／トレーニングオブジェクトのターゲットオブジェクトとのポーズの多様な集合である。

一部の実施形態では、ターゲットオブジェクト５８の活性部位でのテストオブジェクトまたはトレーニングオブジェクトのテストの初期ポーズは、上述された技術のいずれかを使用し、生成され、追加のポーズは、３つのＸ平面、Ｙ平面、及びＺ平面のいずれかの組合せで回転演算子、並進演算子、及びミラーリング演算子のなんらかの組合せの適用によって生成される。テストオブジェクトまたはトレーニングオブジェクトの回転及び並進は、（例えば、基点からプラスまたはマイナス５Å等の何らかの範囲内で）無作為に選択されてよい、またはなんらかの事前に指定されたインクリメント（例えば、円の回りのすべて５度のインクリメント）で均一に生成されてよい。図３は、ターゲットオブジェクト５８の活性部位の２つの異なるポーズ３０２のテストオブジェクト７２のサンプル例を提供する。

ボクセルマップを作成すること。図２Ｂの要素２２４を参照すると、ターゲットオブジェクト及び／またはテストオブジェクトのそれぞれのためのポーズのそれぞれの生成後、ボクセルマップ４０が各ポーズに作成される。一部の実施形態では、複数のボクセルマップの内の各それぞれのボクセルマップ４０は、（ｉ）複数の異なるポーズの内のそれぞれのポーズでテストオブジェクト７２（またはトレーニングオブジェクト６８）を、及び３次元グリッドに基づいてターゲットオブジェクト５８をサンプリングし、それによって対応する複数の空間充填（３次元）多面体セルを含む対応する３次元一様空間充填ハニカムを形成すること、及び（ｉｉ）対応する複数の３次元セルの内の各それぞれの３次元多面体セルのために、それぞれの３次元多面体セルの特性（例えば、化学特性）に基づいてそれぞれのボクセルマップ４０の内のボクセル（規則正しく離間された多面体セル）をポピュレートすることを含む方法によって作成される（２２６）。したがって、特定のテストオブジェクトがターゲットオブジェクトに対して１０のポーズを有する場合、１０の対応するボクセルマップが作成され、特定のテストオブジェクトがターゲットオブジェクトに対して１００のポーズを有する場合、１００の対応するボクセルマップが作成される等々である。空間充填ハニカムの例は、平行６面体セルを有する立方体ハニカム、６角形の角柱セルを有する６角形角柱ハニカム、ひし形１２面体セルを有するひし形１２面体、細長い１２面体セルを有する細長い１２面体、及び切頂８面体セルを有する切頂８面体を含む。

一部の実施形態では、空間充填ハニカムは立方体セルを有する立方体ハニカムであり、係るボクセルの寸法がその分解能を決定する。例えば、１Åの分解能が選ばれてよく、各ボクセルが係る実施形態で１Å寸法（例えば、それぞれのセルのそれぞれの高さ、幅、及び深さで１Åｘ１Åｘ１Å）を有する幾何学的データの対応する立方体を表すことを意味する。しかしながら、一部の実施形態では、より細かい格子空間（例えば、０．１Åまたは０．０１Åも）またはより粗い格子間隔（例えば、４Å）が使用され、間隔は入力された幾何学的データをカバーするために整数のボクセルを生じさせる。一部の実施形態では、サンプリングは０．１Åと１０Åの間である分解能で行われる（２２７）。実例として、４０Åの入力立方体の場合、１Åの分解能を用いると、係る配置は４０＊４０＊４０＝６４，００入力ボクセルを生じさせるだろう。

一部の実施形態では、テストオブジェクト７２（またはトレーニングオブジェクト６６）は第１の化合物であり、ターゲットオブジェクト５８は第２の化合物であり、サンプリング（ｉ）で発生する原子の特徴はポピュレート（ｉｉ）によってそれぞれのボクセルマップの内の単一のボクセルに設置され、複数のボクセルの内の各ボクセルは１つの原子の最大値の特徴を表す（２２８）。一部の実施形態では、原子の特徴は、原子種類の列挙から成る（２３０）。一例として、生物学的データの場合、開示されるシステム及び方法の一部の実施形態は、ボクセルマップ４０の内の所与のボクセルでのあらゆる原子の存在をそのエントリの異なる数として表すように構成される。例えば、炭素がボクセルにある場合、炭素の原子番号は６であるため、６という値がそのボクセルに割り当てられる。しかしながら、係る符号化は、密接な原子番号を有する原子は同様に動作し、これは特に用途によっては特に有用ではないことがあることを暗示するだろう。さらに、要素の挙動は基（周期表の列）の中でより類似してよく、したがって係る符号化は、畳み込みニューラルネットワーク２４が復号する追加の作業を提起する。

一部の実施形態では、原子の特徴はバイナリカテゴリ変数としてボクセルで符号化される（２３２）。係る実施形態では、原子種類は「ワンホット」符号化と呼ばれるもので符号化される。つまり、あらゆる原子種類は別個のチャネルを有する。したがって、係る実施形態では、各ボクセルは複数のチャネルを有し、複数のチャネルの少なくとも１つの部分集合が原子種類を表す。例えば、各ボクセルの中の別のチャネルが酸素を表すことがあるのに対し、各ボクセルの中のあるチャネルが炭素を表すことがある。所与の原子種類が所与のボクセルに対応する３次元グリッド要素で見つけられるとき、所与のボクセルの中のその原子種類のチャネルは、例えば「１」等のバイナリカテゴリ変数の第１の値を割り当てられ、原子種類が所与のボクセルに対応する３次元グリッド要素で見つけられない場合、その原子種類のチャネルは、例えば所与のボクセルの中の「０」等のバイナリカテゴリ変数の第２の値を割り当てられる。

１００以上の要素がある一方、大部分は生物学では遭遇されない。しかしながら、最も一般的な生物元素（つまり、Ｈ、Ｃ、Ｎ、Ｏ、Ｆ、Ｐ、Ｓ、Ｃｌ、Ｂｒ、Ｉ、Ｌｉ、Ｎａ、Ｍｇ、Ｋ、Ｃａ、Ｍｎ、Ｆｅ、Ｃｏ、Ｚｎ）を表すことも、ボクセルあたり１８のチャネルつまり１０，４８３＊１８＝１８８，６９４の入力を受容体フィールドに生じさせてよい。したがって、一部の実施形態では、複数のボクセルマップの内のボクセルマップ４０の各それぞれのボクセルは複数のチャネルを含み、複数のチャネルの内の各チャネルは、それぞれのボクセルに対応する３次元空間充填多面体セルで生じることがある異なる特性を表す（２３３）。所与のボクセルに対して考えられるチャネルの数は、原子の追加の特徴（例えば、部分電荷、リガンドの存在対タンパク質ターゲット、電気陰性度、またはＳＹＢＹＬ原子種類）がさらにボクセルごとの独立したチャネルとして提示され、それ以外の場合同等な原子を区別するためにより多くの入力チャネルを必要とするそれらの実施形態ではなおさらに高い。

一部の実施形態では、各ボクセルは５つ以上の入力チャネルを有する（２３４）。一部の実施形態では、各ボクセルは１５以上の入力チャネルを有する（２３６）。一部の実施形態では、各ボクセルは２０以上の入力チャネル、２５以上の入力チャネル、３０以上の入力チャネル、５０以上の入力チャネル、または１００以上の入力チャネルを有する。一部の実施形態では、各ボクセルは以下の表１に記載される記述子から選択された５つ以上の入力チャネルを有する（２４０）。例えば、一部の実施形態では、各ボクセルは、それぞれがバイナリカテゴリ変数として符号化された５つ以上のチャネルを有し、係る各チャネルは以下の表１から選択されたＳＹＢＹＬ原子種類を表す。例えば、一部の実施形態では、ボクセルマップ４０の内の各それぞれのボクセルはＣ．３（ｓｐ３炭素）原子種類のためのチャネルを含み、それぞれのボクセルで表される所与のテストオブジェクト‐ターゲットオブジェクト（またはトレーニングオブジェクト‐ターゲットオブジェクト）複合体の空間のグリッドがｓｐ３炭素を包含する場合、チャネルは第１の値（例えば「１」）を採用し、それ以外の場合第２の値（例えば、「０」）であることを意味する。

表１‐ＳＹＢＹＬ原子種類

一部の実施形態では、各ボクセルは、上記表１に記載される記述子から選択された１０以上の入力チャネル、１５以上の入力チャネル、または２０以上の入力チャネルを含む。一部の実施形態では、各ボクセルはハロゲンのためのチャネルを含む。

一部の実施形態では、構造タンパク質リガンド相互作用フィンガープリント（ｓｔｒｕｃｔｕｒａｌｐｒｏｔｅｉｎ‐ｌｉｇａｎｄｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔ）（ＳＰＬＩＦ）スコアが、ターゲットオブジェクトに対する所与のテストオブジェクト（またはトレーニングオブジェクト）の各ポーズに生成され、このＳＰＬＩＦスコアは基本的なニューラルネットワークに対する追加入力として使用される、またはボクセルマップで個々に符号化される。ＳＰＬＩＦの説明については、参照により本明細書に援用される、ＤａａｎｄＫｉｒｅｅｖ，２０１４，Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．５４，２５５５−２５６１，「ＳｔｒｕｃｔｕｒａｌＰｒｏｔｅｉｎ‐ＬｉｇａｎｄＩｎｔｅｒａｃｔｉｏｎＦｉｎｇｅｒｐｒｉｎｔｓ（ＳＰＬＩＦ）ｆｏｒＳｔｒｕｃｔｕｒｅ‐ＢａｓｅｄＶｉｒｔｕａｌＳｃｒｅｅｎｉｎｇＭｅｔｈｏｄａｎｄＢｅｎｃｈｍａｒｋＳｔｕｄｙ」を参照のこと。ＳＰＬＩＦは、テスト（またはトレーニング）オブジェクトとターゲットオブジェクト（例えば、π‐π、ＣＨ‐π、他）の相互作用するフラグメント間で発生することがあるすべての考えられる相互作用タイプを暗黙で符号化する。第１のステップでは、テスト（またはトレーニング）オブジェクト‐ターゲットオブジェクト複合体（ポーズ）は、分子間接触について検査される。２つの原子間の距離が指定閾値の範囲内（例えば、４．５Å）にある場合、２つの原子は接触していると見なされる。係る各分子間原子対の場合、それぞれのテスト（またはトレーニング）原子及びターゲットオブジェクト原子が円形フラグメント、例えば問題の原子及びそれらの連続する近傍を最大で特定の距離まで含むフラグメントに拡大される。各タイプの円形フラグメントは識別子を割り当てられる。一部の実施形態ではＰｉｐｅｌｉｎｅＰｉｌｏｔソフトウェアで定義される、最高で第１の最近傍までの拡張連結性フィンガープリント（ＥｘｔｅｎｄｅｄＣｏｎｎｅｃｔｉｖｉｔｙＦｉｎｇｅｒｐｒｉｎｔｓｕｐｔｏｔｈｅｆｉｒｓｔｃｌｏｓｅｓｔｎｅｉｇｈｂｏｒ）（ＥＣＦＰ２）が使用できる。参照により本明細書に援用される、ＰｉｐｅｌｉｎｅＰｉｌｏｔ，ｖｅｒ．８．５，ＡｃｃｅｌｒｙｓＳｏｆｔｗａｒｅＩｎｃ．，２００９を参照のこと。ＥＣＦＰはすべての原子／結合タイプについての情報を保持し、１つの基礎構造（つまり、円形フラグメント）を表すために１つの一意の整数識別子を使用する。ＳＰＬＩＦフィンガープリントは、見つけられたすべての円形フラグメント識別子を符号化する。一部の実施形態では、ＳＰＬＩＦフィンガープリントは符号化された個々のボクセルではないが、以下に説明される畳み込みニューラルネットワーク２４で別個の独立した入力としての機能を果たす。

一部の実施形態では、ＳＰＬＩＦよりむしろまたはＳＰＬＩＦに加えて、構造相互作用フィンガープリント（ＳＩＦｔ）がターゲットオブジェクトに対する所与のテストオブジェクト（またはトレーニングオブジェクト）の各ポーズのために計算され、以下に説明される畳み込みニューラルネットワーク２４への入力として個々に提供される、またはボクセルマップで符号化される。ＳＩＦｔの計算については、参照により本明細書に援用される、Ｄｅｎｇｅｔａｌ．，２００３，「ＳｔｒｕｃｔｕｒａｌＩｎｔｅｒａｃｔｉｏｎＦｉｎｇｅｒｐｒｉｎｔ（ＳＩＦｔ）：ＡＮｏｖｅｌＭｅｔｈｏｄｆｏｒＡｎａｌｙｚｉｎｇＴｈｒｅｅ−ＤＩｍｅｎｓｉｏｎａｌＰｒｏｔｅｉｎ−ＬｉｇａｎｄＢｉｎｄｉｎｇＩｎｔｅｒａｃｔｉｏｎｓ」Ｊ．Ｍｅｄ．Ｃｈｅｍ．４７（２），３３７−３４４ページを参照のこと。

一部の実施形態では、ＳＰＬＩＦ及びＳＩＦＴよりむしろ、またはＳＰＬＩＦ及びＳＩＦＴに加えて、原子対ベース相互作用フラグメント（ａｔｏｍ‐ｐａｉｒｓ‐ｂａｓｅｄｉｎｔｅｒａｃｔｉｏｎｆｒａｇｍｅｎｔｓ）（ＡＰＩＦ）が、ターゲットオブジェクトに対する所与のテストオブジェクト（またはトレーニングオブジェクト）の各ポーズのために計算され、以下に説明されるように畳み込みニューラルネットワーク２４への入力として個々に提供される、またはボクセルマップで個々に符号化される。ＡＰＩＦの計算については、参照により本明細書に援用される、Ｐｅｒｅｚ−Ｎｕｅｎｏｅｔａｌ．，２００９，「ＡＰＩＦ：ａｎｅｗｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔｂａｓｅｄｏｎａｔｏｍｐａｉｒｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ」Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ，４９（５）１２４５−１２６０ページを参照のこと。

データ表現は、例えば分子／タンパク質と関連付けられた多様な構造関係性の発現を可能にするように生物学的データで符号化されてよい。幾何学的表現は、多様な実施形態に従ってさまざまな方法及びトポグラフィーで実装されてよい。幾何学的表現は、データの視覚化及び分析のために使用される。例えば、実施形態では、幾何学形状は、２次元、３次元デカルト／ユークリッド空間、３次元非ユークリッド空間、多様体等の多様なトポロジーに配置されたボクセルを使用し、表現されてよい。例えば、図４は、実施形態に従って、一連のサブコンテナを含むサンプルの３次元グリッド構造４００を示す。各サブコンテナ４０２はボクセルに対応してよい。座標系はグリッドのために定められてよく、これにより各サブコンテナは識別子を有する。開示されるシステム及び方法の一部の実施形態では、座標系は３次元空間のデカルト系であるが、システムの他の実施形態では、座標系は、とりわけ例えば偏球面、円筒座標系、球面座標系、極座標系、多様なマニホールド及びベクトル空間用に設計された他の座標系等の任意の他のタイプの座標系であってよい。一部の実施形態では、ボクセルは、とりわけ、例えばラベルを適用する、及び／またはその位置を決定することによって表されてよい、ボクセルに関連付けられた特定の値を有してよい。

ニューラルネットワークは固定された入力サイズを必要とするため、開示されるシステム及び方法の一部の実施形態は、適切な境界ボックスの中に収まるために幾何学的データ（ターゲット‐テストまたはターゲット‐トレーニングオブジェクト複合体）を切り取る。例えば、側面に対する２５〜４０Åの立方体が使用されてよい。ターゲットオブジェクト及び／またはテストオブジェクトがターゲットオブジェクト５８の活性部位の中にドッキングされた一部の実施形態では、活性部位の中心は立方体の中心としての機能を果たす。

一部の実施形態では、ターゲットオブジェクトの活性部位を中心とする固定された寸法の四角い立方体は、ボクセルグリッドに空間を区分化するために使用されるが、開示されるシステムはこのように制限されない。一部の実施形態では、さまざまな形状のいずれかが空間をボクセルグリッドに区分化するために使用される。一部の実施形態では、直角プリズム、多面体形状等の多面体が空間を区分化するために使用される。

実施形態では、グリッド構造はボクセルの構成に類似するように構成されてよい。例えば、各基礎構造は分析されている各原子のためのチャネルと関連付けられてよい。また、符号化方法は各原子を数値で表現するために提供されてよい。

一部の実施形態では、ボクセルマップは時間の要因を考慮に入れ、したがって４次元（Ｘ、Ｙ、Ｚ、及び時間）であってよい。

一部の実施形態では、ピクセル、点、多角形、多面体、または複数の次元の任意の他のタイプの形状（例えば、３次元、４次元等）の他の実施態様がボクセルの代わりに使用されてよい。

一部の実施形態では、幾何学的データは、空洞フラッディング（ｃａｖｉｔｙｆｌｏｏｄｉｎｇ）アルゴリズムによって決定されるターゲットオブジェクトの結合部位の質量の中心となるようにＸ座標、Ｙ座標、及びＺ座標の原点を選ぶことによって正規化される（２５６）。係るアルゴリズムの代表的な詳細については、それぞれが参照により本明細書に援用される、ＨｏａｎｄＭａｒｓｈａｌｌ，１９９０，「Ｃａｖｉｔｙｓｅａｒｃｈ：Ａｎａｌｇｏｒｉｔｈｍｆｏｒｔｈｅｉｓｏｌａｔｉｏｎａｎｄｄｉｓｐｌａｙｏｆｃａｖｉｔｙ−ｌｉｋｅｂｉｎｄｉｎｇｒｅｇｉｏｎｓ」ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ４，３３７−３５４ページ、及びＨｅｎｄｌｉｃｈｅｔａｌ．，１９９７，「Ｌｉｇｓｉｔｅ：ａｕｔｏｍａｔｉｃａｎｄｅｆｆｉｃｉｅｎｔｄｅｔｅｃｔｉｏｎｏｆｐｏｔｅｎｔｉａｌｓｍａｌｌｍｏｌｅｃｕｌｅ‐ｂｉｎｄｉｎｇｓｉｔｅｓｉｎｐｒｏｔｅｉｎｓ」Ｊ．Ｍｏｌ．Ｇｒａｐｈ．Ｍｏｄｅｌ１５，ｎｏ．６，を参照のこと。代わりに、一部の実施形態では、ボクセルマップの起点は（ターゲットオブジェクトに結合されたテストオブジェクトまたはターゲットオブジェクトに結合されたトレーニングオブジェクトの、単にターゲットオブジェクトの、または単にテストオブジェクトまたはトレーニングオブジェクトの）全体的な共複合体の質量の中心に中心がある。基底ベクトルは、任意選択で全体的な共重合体の、単にターゲットの、または単にテストオブジェクト／トレーニングオブジェクトの主要な慣性モーメントとなるように選ばれてよい。一部の実施形態では、ターゲットオブジェクト５８は活性部位を有するポリマーであり、サンプリングはテストオブジェクト７２（またはトレーニングオブジェクト６６）のための複数の異なるポーズの内のそれぞれのポーズのそれぞれでテストオブジェクト７２（またはトレーニングオブジェクト６６）をサンプリングし、活性部位の質量の中心が起点、及びサンプリングのための対応する３次元の一様なハニカムとして解釈される３次元グリッドに基づいた活性部位は、ポリマーの一部分及び質量の中心を中心とするテストオブジェクト７２（またはトレーニングオブジェクト６６）を表す（２４８）。一部の実施形態では、一様なハニカムは規則正しい立方ハニカム、及びポリマーの一部であり、テストオブジェクトは所定の固定された寸法の立方体である。所定の固定された寸法の立方体の使用は、係る実施形態では、幾何学的データの関連する部分が使用されること、及び各ボクセルマップが同じサイズであることを確実にする。一部の実施形態では、立方体の所定の固定された寸法はＮÅ ｘＮÅ ｘＮÅであり、Ｎは５と１００との間の整数または実数値、８と５０の間の整数、または１５と４０の間の整数である（２５０、２５２）。一部の実施形態では一様なハニカムは規則正しいプリズムハニカムであり、ポリマー及びテストオブジェクトの部分は、所定の固定された寸法ＱÅ ｘＲÅ ｘＳÅの直角プリズムであり、Ｑは５と１００の間の第１の整数であり、Ｒは５と１００の間の第２の整数であり、Ｓは５と１００との間の第３の整数または実数値であり、集合｛Ｑ、Ｒ、Ｓ｝の少なくとも１つの数は集合｛Ｑ、Ｒ、Ｓ｝の別の値に等しくない。

実施形態では、あらゆるボクセルは、単純な実施態様ではオン／オフであるだろう、ボクセルと関連付けられた多様な値を有することがある１つ以上の入力チャネルを有し、原子の種類について符号化するように構成されてよい。原子種類は原子の元素を示してよい、または原子種類は他の原子特徴を区別するためにさらに精緻化されてよい。存在する原子は、次いで各ボクセルで符号化されてよい。多様なタイプの符号化は、多様な技術及び／または方法論を使用し、活用されてよい。例の符号化方法として、原子の原子番号は活用されてよく、水素の１からウンウンオクチウム（または任意の他の元素）の１１８までに及ぶボクセルあたり１つの値を生じさせる。

ただし、上述されたように、例えばあらゆるボクセルが多くの平行した入力チャネルを有し、チャネルのそれぞれがオンまたはオフのどちらかであり、原子の種類について符号化する「ワンホット符号化」等の他の方法が活用されてよい。原子種類は、原子の元素を示してよい、または原子種類は他の原子特徴を区別するためにさらに精緻化されてよい。例えば、ＳＹＢＹＬ原子種類は、二重結合炭素、三重結合炭素、または芳香族炭素から単結合炭素を区別する。ＳＹＢＹＬ原子種類については、参照により本明細書に援用される、Ｃｌａｒｋｅｔａｌ．，１９８９，「ＶａｌｉｄａｔｉｏｎｏｆｔｈｅＧｅｎｅｒａｌＰｕｒｐｏｓｅＴｒｉｐｏｓＦｏｒｃｅＦｉｅｌｄ，１９８９，Ｊ．Ｃｏｍｐｕｔ．Ｃｈｅｍ．１０，９８２−１０１２ページを参照のこと。

一部の実施形態では、各ボクセルは、ターゲットオブジェクト５８の一部または共同因子対テストオブジェクト７２若しくはトレーニングオブジェクト６６の部分である原子を区別するために１つ以上のチャネルをさらに含む。例えば、一実施形態では、各ボクセルは、ターゲットオブジェクト５８のための第１のチャネル、及びテストオブジェクト７２またはトレーニングオブジェクト６６のための第２のチャネルをさらに含む（２３８）。ボクセルによって表される空間の部分での原子がターゲットオブジェクト５８からであるとき、（例えば、ボクセルによって表される空間の部分が原子を含まない、またはテストオブジェクト７２若しくはトレーニングオブジェクト６６からの１つ以上の原子を含むため）第１のチャネルは例えば「１」等の値に設定され、それ以外の場合はゼロである。さらに、ボクセルによって表される空間の部分の原子がテストオブジェクト７２またはトレーニングオブジェクト６６からであるとき、（例えば、ボクセルによって表される空間の部分は原子を含まない、またはテストオブジェクト５８からの１つ以上の原子を含むため）第２のチャネルは例えば「１」等の値に設定され、それ以外の場合ゼロである。同様に、他のチャネルはさらに（または代わりに）例えば部分電荷、分極率、電気陰性度、溶媒接触可能空間、及び電子密度等の追加の情報を指定してよい。例えば、一部の実施形態では、ターゲットオブジェクトの電子密度マップは３次元座標の集合を覆い、ボクセルマップの作成はさらに電子密度マップをサンプリングする（２５８）。適切な電子密度マップの例は、複数同形置換マップ、異常信号マップを用いる単一同形置換、単一波長異常分散マップ、多重波長異常分散マップ、及び２Ｆｏ−Ｆｃマップを含むが、これに限定されるものではない（２６０）。参照により本明細書に援用される、ＭｃＲｅｅ，１９９３，ＰｒａｃｔｉｃａｌＰｒｏｔｅｉｎＣｒｙｓｔａｌｌｏｇｒａｐｈｙ，ＡｃａｄｅｍｉｃＰｒｅｓｓ，を参照のこと。

一部の実施形態では、開示されるシステム及び方法に係るボクセル符号化は、追加の任意選択の符号化精緻化を含んでよい。以下の２つが実施例として提供される。

第１の符号化精緻化では、必要とされるメモリは、生物系では大部分の元素がめったに発生しないことに基づいて、ボクセルによって表される原子の集合を削減することによって（例えば、ボクセルによって表されるチャネル数を削減することによって）削減されてよい。原子は、珍しい原子を結合することによって、（したがってシステムの性能にめったに影響を及ぼさないことがある）または類似した特性を有する原子を結合することによって（したがって結合の不正確さを最小限の抑えることができるだろう）のどちらかでボクセルの同じチャネルを共用するためにマッピングされてよい。

符号化精緻化は、部分的に近隣のボクセルを活性化することによってボクセルに原子を表させる。これは、以後のニューラルネットワークで近隣のニューロンの部分的な活性化につながり、ワンホット符号化から「セベラルウォーム（ｓｅｖｅｒａｌ‐ｗａｒｍ）」符号化に移る。例えば、１Å^３グリッドが設置されるとき、３．５Åのファンデルワールス直径、したがって２２．４Å^３の体積を有する塩素原子を検討することが例示的である場合があり、塩素原子の内部のボクセルは完全に充填され、原子の端縁でのボクセルは部分的にしか充填されない。したがって、部分充填ボクセルで塩素を表すチャネルは、係るボクセルが塩素原子に該当する量に比例してオンにされる。例えば、ボクセル体積の５０パーセントが塩素原子の範囲に入る場合、塩素を表すボクセル内のチャネルは５０パーセント活性化される。これは、離散ワンホット符号化に対して「円滑化され」より正確な表現を生じさせてよい。したがって、一部の実施形態では、テストオブジェクトは第１の化合物であり、ターゲットオブジェクトは第２の化合物であり、サンプリングで生じる原子の特徴は、それぞれのボクセルマップ４０の内のボクセルの部分集合全体に拡散され、ボクセルのこの部分集合は２つ以上のボクセル、３つ以上のボクセル、５つ以上のボクセル、１０以上のボクセル、または２５以上のボクセルを含む（２４２）。一部の実施形態では、原子の特徴は原子種類の列挙から成る（２４４）（例えば、ＳＹＢＹＬ原子種類の１つ）。

したがって、符号化された幾何学的データのボクセレーション（ｖｏｘｅｌａｔｉｏｎ）（ラスタ化）（テストオブジェクトまたはトレーニングオブジェクトのターゲットオブジェクト上へのドッキング）は、入力データに適用される多様な規則に基づく。

図５及び図６は、一部の実施形態に従って、ボクセルの２次元グリッド５００の上に符号化された２つの分子５０２の例を示す。図５は、２次元グリッドの上に重ね合わされた２つの分子を示す。図６は、酸素、窒素、炭素、及び空間の存在をそれぞれ符号化するために異なる陰影化パターンを使用し、符号化を示す。上述されたように、係る符号化は「ワンホット」符号化と呼ばれてよい。図６は、分子５０２が省略された図５のグリッド５００を示す。図７は、ボクセルが番号を付けられた、図６のボクセルの２次元グリッドの図を示す。

一部の実施形態では、素性ジオメトリは、ボクセル以外の形で表される。図８は、特徴（例えば、原子中心）が０次元点（表現８０２）、１次元点（表現８０４）、２次元点（表現８０６）、または３次元点（表現８０８）として表される多様な表現の図を示す。当初、点の間の間隔は無作為に選ばれてよい。しかしながら、予測モデルが訓練されるにつれ、点は互いにより近くに、またはより遠くに離れて移動してよい。図９は、点ごとに考えられる位置の範囲を示す。

対応するベクトルにボクセルマップを展開すること。要素２６２を参照すると、各ボクセルマップ４０は、任意選択で対応するベクトルに展開され、それによって複数のベクトルを作成し、複数のベクトルの内の各ベクトルは同じサイズである。一部の実施形態では、複数のベクトルの内の各ベクトルは１次元ベクトルである（２６４）。例えば、一部の実施形態では、各側面の２０Åの立方体はターゲットオブジェクト５８の活性部位を中心とし、１Åの３次元固定グリッド間隔でサンプリングされて、ボクセルマップの対応するボクセルを形成する。対応するボクセルは、上述されたように、任意選択でより複雑なテストオブジェクト‐ターゲットオブジェクトの記述子だけではなく、原子種類等のボクセル構造特徴の基本をそれぞれのチャネルに保持する。一部の実施形態では、この３次元のボクセルマップのボクセルは一次元の浮動小数点ベクトルに展開される。

ベクトル２２を畳み込みニューラルネットワークにさらすこと。図２の要素２６６を参照すると、ボクセルマップ２２のベクトル化された表現は畳み込みネットワーク２４にさらされる。一部の実施形態では、図２に示されるように、ボクセルマップ２２のベクトル化された表現は畳み込み評価モジュール２０及び畳み込みニューラルネットワーク２４とともにメモリ５２に記憶される。これは、より高速に畳み込みニューラルネットワーク２４を通してボクセルマップ２２のベクトル化された表現を処理する優位点を提供する。しかしながら、他の実施形態では、ボクセルマップ２２、畳み込み評価モジュール２０、及び畳み込みニューラルネットワーク２４のベクトル化された表現のいずれかまたはすべては、システム１００のメモリ９２内にある、または単にネットワーク全体でシステム９２によってアドレス指定可能である。一部の実施形態では、ボクセルマップ２２、畳み込み評価モジュール２０、及び畳み込みニューラルネットワーク２４のベクトル化された表現のいずれかまたはすべてはクラウドコンピューティング環境にある。

一部の実施形態では、複数のベクトル２２は図形処理ユニットメモリ５２に提供され、図形処理ユニットメモリは、複数のベクトルを連続して受け入れるための入力層２６、複数の畳み込み層２８、及びスコアラ３０を備える畳み込みニューラルネットワーク２４を含むネットワークアーキテクチャを含む。複数の畳み込み層は初期畳み込み層及び最終畳み込み層を含む。一部の実施形態では、畳み込みニューラルネットワーク２４はＧＰＵメモリ内にないが、システム１００の汎用メモリ内にある。一部の実施形態では、ボクセルマップは、ネットワーク２４に入力される前にベクトル化されない。

一部の実施形態では、複数の畳み込み層の畳み込み層２８は学習可能フィルタ（カーネルとも呼ばれる）の集合を含む。各フィルタは、畳み込み層の入力体積の深さ、高さ、及び幅にわたってコンボリュ−ションされる（所定のステップ速度でステッピングされる）固定された３次元サイズを有し、フィルタのエントリ（重み）と入力との間のドット積（または他の関数）を計算し、それによってそのフィルタの多次元活性化マップを作成する。一部の実施形態では、フィルタステップ速度は入力空間の１要素、２要素、３要素、４要素、５要素、６要素、７要素、８要素、９要素、１０要素、または１０を超える要素である。このようにして、フィルタがサイズ５^３を有する場合を考える。一部の実施形態では、このフィルタは、ボクセルチャネルあたり１２５の入力空間の値の総数について、５要素の深さ、５つの要素の幅と、５つの要素の高さを有する入力スペースの隣接する立方体との間のドット積（または他の数学関数）を計算する。

初期畳み込み層に対する入力空間（例えば、入力層２６からの出力）は、ボクセルマップ４０またはボクセルマップ２２のベクトル化された表現のどちらかから形成される。一実施形態では、ボクセルマップのベクトル化された表現は、初期畳み込み層に対する入力空間の役割を果たすボクセルマップの１次元ベクトル化表現である。それにも関わらず、フィルタがその入力空間をコンボリュ−ションし、入力空間がボクセルマップの１次元ベクトル化表現であるとき、フィルタはまだ１次元ベクトル化表現から、ターゲットオブジェクト‐テスト（またはトレーニング）オブジェクトの複合体で固定空間の対応する隣接立方体を表すそれらの要素を入手する。一部の実施形態では、フィルタはターゲットオブジェクト‐テスト（またはトレーニング）オブジェクトの複合体の固定空間の対応する隣接立方体を形成する１次元ベクトル化表現の中からそれらの要素を選択するために標準的な簿記技術を使用する。したがって、一部の例では、これは必ず、ターゲットオブジェクト‐テスト（またはトレーニング）オブジェクトの複合体の固定空間の対応する隣接立方体の要素値を入手するために、１次元のベクトル化表現の要素の非隣接部分集合を取ることを伴う。

一部の実施形態では、フィルタは、フィルタに対応する活性化層の第１の単一の値（または値の集合）を計算するために、（例えばガウス雑音に）初期化される、または１２５の入力空間値のドット積（または図１４に開示される関数等のなんらかの他の形の数学演算）をとるために（入力チャネルあたり）１２５の対応する重みを有するように訓練される。一部の実施形態では、フィルタによって計算される値は合計され、重み付けされ、及び／またはバイアスをかけられる。フィルタに対応する活性化層の追加の値を計算するために、フィルタは次いでフィルタと関連付けられたステップレート（ストライド）により入力体積の３次元の１つでステッピング（コンボリュ−ション）され、その点で、フィルタ重みと（チャネルあたりの）１２５の入力空間値との間のドット積（（または図１４に開示される関数等のなんらかの他の形の数学演算）は入力体積での新しい場所でとられる。このステッピング（コンボリュ−ション）は、フィルタがステップレートに従って入力空間全体をサンプリングするまで繰り返される。一部の実施形態では、畳み込み層によって生じる出力空間の空間体積を制御するために入力空間の境界はゼロを埋め込まれる。典型的な実施形態では、畳み込み層のフィルタのそれぞれはこのようにして３次元入力体積をキャンバスで覆い（ｃａｎｖａｓ）、それによって対応する活性化マップを形成する。畳み込み層のフィルタからの活性化マップの集合体は、集合的に１つの畳み込み層の３次元出力体積を形成し、それによって以後の畳み込み層の３次元（３つの空間次元）としての機能を果たす。出力体積のあらゆるエントリは、このようにして、畳み込み層に対する入力空間内の小さい領域を見て、同じ活性化マップのニューロンとパラメータを共用する単一のニューロン（またはニューロンの集合）の出力として解釈することもできる。したがって、一部の実施形態では、複数の畳み込み層の内の畳み込み層は複数のフィルタを有し、複数のフィルタの内の各フィルタは（３つの空間次元で）ストライドＹでＮ^３の立体入力空間をコンボリュ−ションし、Ｎは２以上（例えば、２、３、４、５、６、７、８、９、１０、または１０以上）の整数であり、Ｙは正の整数（例えば、１、２、３、４、５、６、７、８、９、１０、または１０以上）である（２６８）。

複数の畳み込み層の各層は重みの異なる集合と関連付けられる。より詳細には、複数の畳み込み層の内の各層は複数のフィルタを含み、各フィルタは独立した複数の重みを含む（２７０）。一部の実施形態では、畳み込み層は、次元５^３の１２８のフィルタを有し、したがって畳み込み層はボクセルマップのチャネルあたり１２８ｘ５ｘ５ｘ５、つまり１６０００の重みを有する。したがって、ボックスマップに５つのチャネルがある場合、畳み込み層は１６，０００ｘ５の重み、つまり８０，０００の重みを有する。一部の実施形態では、所与の畳み込み層のあらゆるフィルタの一部のまたはすべての係る重み（及び任意選択でバイアス）はともに結び付けられ、つまり、同一となるように制約されてよい。

複数のベクトルの内のそれぞれのベクトル２２の入力に応えて、入力層２６はそれぞれのベクトルの値の第１の関数として第１の複数の値を初期の畳み込み層に送り込み、第１の関数は任意選択で図形処理ユニット５０を使用し、計算される。

最終畳み込み層以外の各それぞれの畳み込み層２８は、（ｉ）それぞれの畳み込み層と関連付けられた重みの異なる集合、及び（ｉｉ）それぞれの畳み込み層で受け取られる入力値、のそれぞれの第２の関数として複数の畳み込み層の別の畳み込み層に中間値を送り込み、第２の関数は図形処理ユニット５０を使用し、計算される。例えば、それぞれの畳み込み層２８の各それぞれのフィルタは、畳み込み層の特徴的な３次元ストライドに従って畳み込み層に対し（３つの空間次元の）入力体積をカンバスで覆い、各それぞれのフィルタ位置で、それぞれのフィルタのフィルタ重み及びそれぞれのフィルタ位置での入力体積（総入力空間の部分集合である隣接する立方体）の値のドット積（またはなんらかの他の数学関数）をとり、それによってそれぞれのフィルタ位置に対応する活性化層に計算された点（または点の集合）を生じさせる。それぞれの畳み込み層のフィルタの活性化層は集合的にそれぞれの畳み込み層の中間値を表す。

最終畳み込み層は、（ｉ）最終畳み込み層と関連付けられた重みの異なる集合、及び（ｉｉ）図形処理ユニット５０を使用し、任意で計算される最終畳み込み層によって受け取られる入力値の第３の関数として、最終値をスコアラに送り込む。例えば、最終畳み込み層２８のそれぞれの各フィルタは、畳み込み層の特徴的な３次元ストライドに従って、最終畳み込み層に対して（３つの空間次元の）入力体積をカンバスで覆い、各それぞれのフィルタ位置で、フィルタのフィルタ重み及びそれぞれのフィルタ位置での入力体積の値のドット積（またはなんらかの他の数学関数）をとって、それによってそれぞれのフィルタ位置に対応する活性化層の点（または点の集合）を計算する。最終畳み込み層のフィルタの活性化層は、スコアラ３０に送り込まれる最終値を集合的に表す。

一部の実施形態では、畳み込みニューラルネットワークは１つ以上の活性化層を有する。一部の実施形態では、活性化層は、不飽和活性化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）を適用するニューロンの層である。活性化層は、畳み込み層のそれぞれのフィールドに影響を及ぼすことなく、決定関数の及び全体的なネットワークの非線形特性を高める。他の実施形態では、活性化層は非線形性を高める関数、例えば飽和する双曲線正接関数ｆ（ｘ）＝ｔａｎｈ、ｆ（ｘ）＝｜ｔａｎｈ（ｘ）｜、及びシグモイド関数ｆ（ｘ）＝（１＋ｅ^−ｘ）^−１を有する。ニューラルネットワークの一部の実施形態の他の活性化層で見つけられる他の活性化関数の非制限例は、ロジスティック曲線（またはシグモイド）、ソフトマックス、ガウス、ボルツマン重み付け平均化、絶対値、線形、修正（ｒｅｃｔｉｆｉｅｄ）線形、有界修正（ｂｏｕｎｄｅｄｒｅｃｔｉｆｉｅｄ）線形、ソフト修正（ｓｏｆｔｒｅｃｔｉｆｉｅｄ）線形、パラメータ化正規化（ｒｅｃｔｉｆｉｅｄ）線形、平均、最大、最小、なんらかのベクトルノルムＬＰ（ｐ＝１、２、３、．．．、∞の場合）、符号、平方、平方根、複二次（ｍｕｌｔｉｑｕａｄｒｉｃ）、逆二次項（ｉｎｖｅｒｓｅｑｕａｄｒａｔｉｃ）、逆複二次（ｉｎｖｅｒｓｅｍｕｌｔｉｑｕａｄｒｉｃ）、多高調波（ｐｏｌｙｈａｒｍｏｎｉｃ）スプライン、及び薄板スプラインを含んでよいが、これに限定されるものではない。

ネットワーク２４は、畳み込み層２８が入力の何らかの空間位置で特定のタイプの特徴を見るとき、活性化する畳み込み層２８の中のフィルタを学習する。以下のネットワークトレーニングの項に説明されるように、一部の実施形態では、畳み込み層の各フィルタの初期重みは、以下に説明されるようにオブジェクトトレーニングライブラリ６４と対照して畳み込みニューラルネットワークを訓練することによって得られる。したがって、畳み込みニューラルネットワーク２４の動作は、結合親和性予測を実施するために従来使用される特徴よりもより複雑な特徴を生じさせてよい。例えば、水素結合検出器としての機能を果たすネットワーク２４の所与の畳み込み層のフィルタは、水素結合供与体及び水素結合受容体が所与の距離及び角度にあることを認識するだけではなく、供与体及び受容体の回りの生物化学環境が結合を強化または弱体化することも認識する。さらに、ネットワーク２４の中のフィルタは基礎データで結合剤と非結合剤を効果的に区別するように訓練されてよい。

一部の実施形態では、畳み込みニューラルネットワーク２４は、例えばターゲットオブジェクトとテストオブジェクトの両方が動くにつれ遭遇されてよい代替位置等、動的システムのために適応するように構成される。係るターゲットオブジェクト‐テストオブジェクト複合体では、各形状の自由エネルギーのボルツマン分布に基づいた相対的比率でいくつかの異なる構成が採用される。ターゲットオブジェクト‐テストオブジェクト複合体の自由エネルギーのエンタルピー成分とエントロピー成分の両方ともオブジェクトによって採用されるポーズに依存する場合がある（△Ｇ＝△Ｈ‐Ｔ △Ｓ）。最終的な結合親和性は、ターゲットオブジェクト‐テストオブジェクト複合体が利用可能なポーズの集合のエネルギーの加重平均の関数であることが判明することがある。この物理現象をモデル化するために、畳み込みニューラルネットワーク２４は、ターゲットオブジェクト及びテストオブジェクトの動きに起因する多数の代替位置をサンプリングし、（例えば、これらの多様な代替位置のすべてのネットワーク２４のスコアの加重平均をとることによって）その結合親和性予測を複合体の構成のこのサンプリングされた集合に基づかせるように構成されてよい。

上述されたように、一部の実施形態では、ニューラルネットワーク２４は、３次元畳み込み層を展開させるように構成される。最低レベルの畳み込み層２８への入力領域は、それぞれのフィールドからのボクセルチャネルの立方体（または他の隣接する領域）であってよい。高い方の畳み込み層２８は、その出力を（３次元ユークリッド距離で）互いに近いボクセルの有界領域の関数としながらも、低い方の畳み込み層からの出力を評価する。

生物活動は並進だけではなく回転の下でも不変であってよく、これによりネットワーク２４は任意選択で空間分割の回転対称を利用する回転特徴マップを生成するように構成されてよい。例えば、システムが入力データを区分化するために立方体を使用するように構成されると、システムは、９０度の回転後に関数計算の重みをともに結び付けることによって回転特徴マップを生成するように構成できるだろう。

右回りに回転される立方体を考慮することは例示的であってよい。つまり、１つのフィルタの上面での重みは異なるフィルタの右面での重みに結び付けられる。言い換えると、重みは同一となるように制約されてよい。回転は、３つのＸＹ平面／ＸＺ平面／ＹＺ平面のそれぞれのために９０度、１８０度、２７０度右回りに回転することによって２４の特徴マップを生成してよい。重み結束なしで、あらゆるフィルタは独自の重みを有するので、この配置は、回転重み結束なしの２４分の１にパラメータの数を削減する。

代替例として、システムが入力データを区分化するために他の多面体を使用するように構成される場合、システムはその対称性群に適切な等成写像にアクセスするために他の回転を使用するように構成されてよい。例えば、空間が切頂８面体を使用し、区分化される場合、９０度の回転対称の３軸、１２０度の回転対称の４軸、及び１８０度の対称の６軸があるだろう。

実施形態では、ネットワーク２４は、トレーニングオブジェクト６６及びトレーニング結合データ６８を過剰適合するモデルの傾向を削減するために正規化法を適用するように構成される。

ネットワーク２４のネットワーク層のゼロ以上はプーリング層から成ってよい。畳み込み層においてのように、プーリング層は、異なる空間的に局所的な入力のパッチ上で同じ関数を適用する関数計算の集合である。プーリング層の場合、出力は、例えばいくつかのボクセルの上でｐ＝１、２、３、．．．、∞の場合のなんらかのベクトルノルムＬＰ等のプーリング演算子によって与えられる。プーリングは、通常、チャネル全体よりもチャネルごとに行われる。プーリングは入力空間を３次元ボックスの集合に区分化し、係る小領域ごとに最大値を出力する。プーリング演算は並進不変の形を提供する。プーリング層の機能は、ネットワークでのパラメータ及び計算の量を削減し、したがって過剰適合を制御するためにも表現の空間サイズを漸次的に削減することである。一部の実施形態では、プーリング層はネットワーク２４の連続畳み込み２８層の間に挿入される。係るプーリング層は入力の深さスライスごとに独立して作用し、スライスのサイズを空間的に変更する。最大値プーリングに加えて、プーリングユニットは、例えば平均プーリングまたはＬ２−ノルムプーリング等の他の機能も実行できる。

ネットワーク２４の層のゼロ以上は、同じ位置のチャネル全体にまたは特定のチャネルの場合いくつかの位置にわたって適用されてよい、局所反応正規化または局所コントラスト正規化等の正規化層から成ってよい。これらの正規化層は、同じ入力に対するいくつかの関数計算の反応での多様性を促進してよい。

一部の実施形態では、スコアラ３０は、複数の完全接続層及び１つの評価層を含み、複数の完全接続層の完全接続層は評価層に流れ込む（２７２）。完全接続層のニューロンは、規則正しいニューラルネットワークで見られるように、以前の層のすべての活性化に対する完全接続を有する。したがって、その活性化はバイアスオフセットが続く行列乗算で計算できる。一部の実施形態では、各完全接続層は５１２の隠れたユニット、１０２４の隠れたユニット、または２０４８の隠れたユニットを有する。一部の実施形態では、スコアラに、完全接続層はない、１つの完全接続層、２つの完全接続層、３つの完全接続層、４つの完全接続層、５つの完全接続層、６以上の完全接続層、または１０以上の完全接続層がある。

一部の実施形態では、評価層は複数の活動クラスを区別する。一部の実施形態では、評価層は、２つの活動クラス、３つの活動クラス、４つの活動クラス、５つの活動クラス、または６つ以上の活動クラス上でロジスティック回帰コスト層を含む。

一部の実施形態では、評価層は複数の活動クラスの上でロジスティック回帰コスト層を含む。一部の実施形態では、評価層は２つの活動クラス、３つの活動クラス、４つの活動クラス、５つの活動クラス、または６つ以上の活動クラス上でロジスティック回帰コスト層を含む。

一部の実施形態では、評価層は２つの活動クラスを区別し、第１の活動クラス（第１の分類）は、第１の結合値を上回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩを表し、第２の活動クラス（第２の分類）は、第１の結合値を下回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩである。一部の実施形態では、第１の結合値は１ナノモル、１０ナノモル、１００ナノモル、１ミクロモル、１０ミクロモル、１００ミクロモル、または１ミリモルである。

一部の実施形態では、評価層は、２つの活動クラスの上のロジスティック回帰コスト層を含み、第１の活動クラス（第１の分類）は、第１の結合値を上回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩを表し、第２の活動クラス（第２の分類）は、第１の結合値を下回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩである。一部の実施形態では、第１の結合値は１ナノモル、１０ナノモル、１００ナノモル、１ミクロモル、１０ミクロモル、１００ミクロモル、または１ミリモルである。

一部の実施形態では、評価層は３つの活動クラスを区別し、第１の活動クラス（第１の分類）は、第１の結合値を上回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩを表し、第２の活動クラス（第２の分類）は、第１の結合値と第２の結合値の間であるターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩであり、第３の活動クラス（第３の分類）は、第１の結合値を下回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩであり、第１の結合値は第２の結合値以外である。

一部の実施形態では、評価層は３つの活動クラスの上のロジスティック回帰コスト層を含み、第１の活動クラス（第１の分類）は、第１の結合値を上回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩを表し、第２の活動クラス（第２の分類）は、第１の結合値と第２の結合値の間であるターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩであり、第３の活動クラス（第３の分類）は、第１の結合値を下回るターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ_５０、ＥＣ_５０、またはＫＩであり、第１の結合値は第２の結合値以外である。

一部の実施形態では、スコアラ３０は完全接続単一層または多層の知覚対象を含む。一部の実施形態では、スコアラはサポートベクトルマシン、ランダムフォレスト、最近傍を含む。一部の実施形態では、スコアラ３０は、多様な出力カテゴリへの入力を分類する強度（または確実性または可能性）を示す数値スコアを割り当てる。一部の場合、カテゴリは結合剤及び非結合剤、または代わりに効力レベル（例えば、＜１モル、＜１ミリモル、＜１００ミクロモル、＜１０ミクロモル、＜１ミクロモル、＜１００ナノモル、＜１０ナノモル、＜１ナノモル、のＩＣ_５０、ＥＣ_５０、またはＫＩの効能）である。

スコアラから複数のスコアを入手すること（２７６）及びテストオブジェクトを特徴付けるために畳み込みニューラルネットワークからスコアを使用すること（２７８）。テストオブジェクト７２（またはトレーニングオブジェクト６８）とターゲットオブジェクト５８との間の複合体のためにニューラルネットワーク２４からスコアラスコアを入手するための詳細は上述された。上述されたように、各テストオブジェクト７２（またはトレーニングオブジェクト６６）はターゲットオブジェクトに関して複数のポーズにドッキングされる。すべての係るポーズを一度に畳み込みニューラルネットワーク２４に提示することは、きわめて大きい入力フィールド（例えば、ボクセル数＊チャネル数＊ポーズ数、に等しいサイズの入力フィールド）を必要とすることがある。一部の実施形態では、すべてのポーズはネットワーク２４に同時に提示されるが、好ましい実施形態では、それぞれの係るポーズはボクセルマップに処理され、ベクトル化され、畳み込みニューラルネットワーク２４への連続入力としての機能を果たす。図２Ｅを参照すると、このようにして、複数のスコアはスコアラ３０から入手され、複数のスコアの内の各スコアはスコアラ３０の入力層２６への複数のベクトルの内のベクトルの入力に対応する（２７６）。一部の実施形態では、所与のテストオブジェクト７２（またはトレーニングオブジェクト６６）及び所与のターゲットオブジェクト５８のポーズのそれぞれのスコアは互いに結合されて、テストオブジェクト７２（またはトレーニングオブジェクト６６）全体の最終的なスコアを生じさせる。

スコアラ出力が数値である実施形態では、出力は、既知であるまたは展開される本明細書で説明される活性化関数のいずれかを使用し、結合されてよい。例は、不飽和活性化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）、飽和双曲線正接関数ｆ（ｘ）＝ｔａｎｈ、ｆ（ｘ）＝｜ｔａｎｈ（ｘ）｜、シグモイド関数ｆ（ｘ）＝（１＋ｅ^-ｘ）^-１、ロジスティック曲線（またはシグモイド）、ソフトマックス、ガウス、ボルツマン重み付け平均化、絶対値、線形、修正線形、有界修正線形、ソフト修正線形、パラメータ化正規化線形、平均、最大、最小、なんらかのベクトルノルムＬＰ（ｐ＝１、２、３、．．．、∞の場合）、符号、平方、平方根、複二次、逆二次項、逆複二次、多高調波スプライン、及び薄板スプラインを含んでよいが、これに限定されるものではない。

本開示の一部の実施形態では、出力が結合エネルギーを示すと解釈される場合、これがポーズの物理的な可能性を適合するので、システムは出力を結合するためにボルツマン分布を活用するように構成されてよい。本発明の他の実施形態では、ｍａｘ（）関数はボルツマンに妥当な近似を提供してもよく、計算上効率的である。

スコアラ出力が数値ではない実施形態では、スコアラ３０は、例示的として、とりわけ非制限例、過半数、重み付け平均化、コンドルセ方式、ボルダ方式を含んでよい、多様なアンサンブル投票方式を使用し、出力を結合するように構成されてよい。

実施形態では、システムは、例えば結合親和性のインジケータを生成するためにスコアラ３０のアンサンブルを適用するように構成されてよい。

図２Ｅの要素２８０を参照すると、一部の実施形態では、テストオブジェクト７２（またはトレーニングオブジェクト６６）は化合物であり、テスト（またはトレーニング）オブジェクトを特徴付ける（例えば、テスト（またはトレーニング）オブジェクトの分類を決定する）ために（テストオブジェクトまたはトレーニングオブジェクトのための複数のポーズから）複数のスコアを使用することは、複数のスコアの中心傾向の測定値をとることを含む。中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトは第１の分類を有すると見なされる。中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは第２の分類を有すると見なされる（２８０）。

図２Ｅの要素２８２を参照すると、一部の実施形態では、テストオブジェクト７２（またはトレーニングオブジェクト６６）を特徴付けるために複数のスコアを使用することは、（テストオブジェクトまたはトレーニングオブジェクトのための複数のポーズから）複数のスコアの加重平均をとることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、オブジェクトは第１の分類を有すると見なされる。加重平均が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは第２の分類を有すると見なされる。一部の実施形態では、加重平均は複数のスコアのボルツマン平均である（２８４）。一部の実施形態では、第１の分類は、第１の結合値（例えば、１ナノモル、１０ナノモル、１００ナノモル、１ミクロモル、１０ミクロモル、１００ミクロモル、または１ミリモル）を超えるターゲットオブジェクトに関してテストオブジェクト（またはトレーニングオブジェクト）のためのＩＣ５０、ＥＣ５０、またはＫＩであり、第２の分類は第１の結合値を下回るターゲットオブジェクトに関してテストオブジェクトのためのＩＣ５０、ＥＣ５０，Ｋｄ、またはＫＩである（２８６）。

図２Ｅの要素２８８を参照すると、一部の実施形態では、テストオブジェクト７２（またはトレーニングオブジェクト６６）を特徴付けるために複数のスコアを使用することは、（テストオブジェクトまたはトレーニングオブジェクトの複数のポーズから）複数のスコアの加重平均をとることを含む。加重平均が複数の閾値範囲の内のそれぞれの閾値を満たすとき、テスト（またはトレーニング）オブジェクトは、それぞれの閾値範囲に一意に対応する複数のそれぞれの分類の内のそれぞれの分類を有すると見なされる。一部の実施形態では、複数の分類の内の各それぞれの分類は、ターゲットオブジェクトに関してテストオブジェクトのためのＩＣ５０、ＥＣ５０、Ｋｄ、またはＫＩ範囲（例えば、１ミクロモルと１０ミクロモルの間、１ナノモルと１００ナノモルの間）である（２９０）。

一部の実施形態では、所与のターゲットオブジェクトに対する各それぞれのテストオブジェクトのための単一のポーズはニューラルネットワーク２４を通して実行され、これに基づいてそれぞれのテストオブジェクトのそれぞれのためのニューラルネットワーク２４により割り当てられるそれぞれのスコアはテストオブジェクトを分類するために使用される。

一部の実施形態では、本明細書に開示される技術を使用し、ニューラルネットワーク２４によって評価される複数のターゲットオブジェクト５８のそれぞれと対照するテストオブジェクトの１つ以上のポーズのネットワーク２４のスコアの加重平均は、テストオブジェクトを分類するために使用される。例えば、一部の実施形態では、複数のターゲットオブジェクト５８は分子動力学ランからとられ、分子動力学ランでは、複数のターゲットオブジェクトの内の各ターゲットオブジェクトが分子動力学ランの間の異なる時間ステップで同じポリマーを表す。これらのターゲットオブジェクトのそれぞれと対照するテストオブジェクトの１つ以上のポーズのそれぞれのボクセルマップは、独立したポーズ‐ターゲットオブジェクト対ごとにスコアを得るためにネットワーク２４と対照して評価され、これらのスコアの加重平均はターゲットオブジェクトを分類するために使用される。

予測モデルを訓練すること。ディープニューラルネットワークが実装される（例えば、畳み込みニューラルネットワーク２４）一部の実施形態では、畳み込み評価モジュール２０は、幾何学的データ入力を受け取り、所与のテストオブジェクトがターゲットオブジェクトに結合するかどうかの予測（可能性）を出力するためにネットワーク２４を訓練するように構成される。例えば、一部の実施形態では、（その関連付けられた結合データ６８のために）ターゲットオブジェクトと対照して既知の結合データを有するトレーニングオブジェクト６６は、図２に関して上述された技術を使用し、ニューラルネットワーク２４を通して連続して実行され、ニューラルネットワークは、各それぞれのトレーニングオブジェクトに単一の値を提供する。

一部の係る実施形態では、ニューラルネットワークは所与のターゲットオブジェクトと対照して各トレーニングオブジェクトのために２つの考えられる活動クラスの１つを出力する。例えば、ニューラルネットワーク２４によって各それぞれのトレーニングオブジェクトのために提供される単一値は、それが所定の閾値以下であるときに第１の活動クラス（例えば、結合剤）の中にあり、数字が所定の閾値を上回るときに第２の活動クラス（例えば、非結合剤）の中にある。ニューラルネットワーク２４によって割り当てられる活動クラスは、トレーニングオブジェクト結合データ６８によって表される実際の活動クラスに比較される。典型的な非制限的実施形態では、係るトレーニングオブジェクト結合データ６８は、独立したウェットラボ結合アッセイからである。ニューラルネットワークによってなされる活動クラス割り当てのエラーは、結合データ６８と対照して検証されるように、次いでニューラルネットワーク２４を訓練するためにニューラルネットワークの重みにより逆誤差伝搬される。例えば、ネットワークの畳み込み層２８のそれぞれのフィルタのフィルタ重みは、係るバックプロパゲーションで調整される。例示的な実施形態では、ニューラルネットワーク２４は、ＡｄａＤｅｌｔａ適応学習法（参照により本明細書に援用される、Ｚｅｉｌｅｒ，２０１２「ＡＤＡＤＥＬＴＡ：ａｎａｄａｐｔｉｖｅｌｅａｒｎｉｎｇｒａｔｅｍｅｔｈｏｄ」，ＣｏＲＲ，ｖｏｌ．ａｂｓ／１２１２．５７０１）、及び参照により本明細書に援用される、Ｒｕｍｅｌｈａｒｔｅｔａｌ．，１９８８，「ＮｅｕｒｏｃｏｍｐｕｔｉｎｇＦｏｕｎｄａｔｉｏｎｓｏｆｒｅｓｅａｒｃｈ」ｃｈ．ＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＢａｃｋｐｒｏｐａｇａｔｉｎｇＥｒｒｏｒｓ，６９６−６９９ページ、Ｃａｍｂｒｉｄｇｅ，ＭＡ，ＵＳＡ：ＭＩＴＰｒｅｓｓに示されるバックプロパゲーションアルゴリズムを用いる確率的勾配降下法によって結合データ６８を考慮してネットワーク２４によって行われる活動クラス割り当てでのエラーに対して訓練される。一部の係る実施形態では、２つの考えられる活動クラスは、それぞれ、所与の閾値量（例えば、１ナノモル、１０ナノモル、１００ナノモル、１ミクロモル、１０ミクロモル、１００ミクロモル、または１ミリモルよりも大きいターゲットオブジェクトに関するトレーニングオブジェクトのためのＩＣ５０、ＥＣ５０、またはＫＩ等）よりも大きい結合定数、及び所与の閾値量（例えば、１ナノモル、１０ナノモル、１００ナノモル、１ミクロモル、１０ミクロモル、１００ミクロモル、または１ミリモル未満であるターゲットオブジェクトに関するトレーニングオブジェクトのためのＩＣ５０、ＥＣ５０、またはＫＩ）を下回る結合定数である。一部の係る実施形態では、所与のターゲットオブジェクトと対照して各トレーニングオブジェクトのための複数のポーズがニューラルネットワークを通して連続して実行され、ニューラルネットワーク２４によって計算されるこれらのポーズのスコアの加重平均は、ウェットラボ結合アッセイにより取得される結合データ６８に比較される。

一部の係る実施形態では、ニューラルネットワークは、所与のターゲットオブジェクトと対照して各トレーニングオブジェクトのために複数の考えられる活動クラス（例えば、３つ以上の活動クラス、４つ以上の活動クラス、５つ以上の活動クラス）の内の１つを出力する。例えば、ニューラルネットワーク２４によって各それぞれのトレーニングオブジェクトに提供される単一値（例えば、複数のポーズの加重平均または単一のポーズからの単一値）は、数字が第１の範囲に該当するとき第１の活動クラスに入り、数字が第２の範囲に該当するとき第２の活動クラスに入り、数字が第３の範囲に該当するとき第３の活動クラスに入る等々である。ニューラルネットワーク２４によって割り当てられる活動クラスは、トレーニングオブジェクト結合データ６８によって表される実際の活動クラスに比較される。ニューラルネットワークによってなされる活動クラス割り当てのエラーは、結合データ６８と対照して検証されるように、次いで上述された技術を使用し、ニューラルネットワーク２４を訓練するために使用される。一部の実施形態では、複数の分類の内の各それぞれの分類は、ターゲットオブジェクトに関してはトレーニングオブジェクトのためのＩＣ５０、ＥＣ５０、またはＫＩ範囲である。

一部の実施形態では、所与のターゲットオブジェクトと対照する各それぞれのトレーニングオブジェクトのための単一のポーズはニューラルネットワークを通して実行され、各それぞれのトレーニングオブジェクトのためのニューラルネットワーク２４によって割り当てられる、結果として生じるそれぞれのスコアは、１つ以上のウェットラボ結合アッセイ技術によって別々に取得されているそれぞれのトレーニングオブジェクトのための結合データ６８に比較される。次いで、トレーニングオブジェクトためのニューラルネットワーク２４によってなされる活動クラス割り当てでのエラーは、トレーニングオブジェクトのための結合データ６８と対照して検証されるように、上述された技術を使用し、ニューラルネットワーク２４を訓練するために使用される。

一部の実施形態では、本明細書に開示される技術を使用し、ニューラルネットワーク２４によって評価される複数のターゲットオブジェクト５８のそれぞれと対照するトレーニングオブジェクトの１つ以上のポーズの加重平均は、１つ以上のウェットラボ結合アッセイ技術によって別々に取得されるそれぞれのトレーニングオブジェクトのための結合データ６８に比較される。例えば、一部の実施形態では、複数のターゲットオブジェクト５８は分子動力学ランからとられ、分子動力学ランでは、複数のターゲットオブジェクトの内の各ターゲットオブジェクトが分子動力学ランの間の異なる時間ステップで同じポリマーを表す。ニューラルネットワーク２４によるターゲットオブジェクト分類とウェットラボ結合アッセイによるオブジェクト分類との間の不一致は次いで、上述された技術を使用し、ニューラルネットワーク２４を訓練するために使用される。

一部の実施形態では、複数のトレーニングオブジェクトのニューラルネットワーク２４分類は、ノンパラメトリック手法を使用し、結合データ６８に比較される。例えば、ニューラルネットワーク２４は、所与の特性（例えば、所与のターゲットオブジェクトと対照する結合）に関して複数のトレーニングオブジェクトを順位付けするために使用され、この順位は複数のトレーニングオブジェクトのためのウェットラボ結合アッセイによって取得される結合データ６８によって提供される順位に比較される。これは、上述されたネットワーク２４エラー訂正技術を使用し、計算された順位のエラーに対して、ネットワーク２４を訓練する能力を生じさせる。一部の実施形態では、ニューラルネットワーク２４によるトレーニングオブジェクトによるランキングと結合データ６８によって決定されるトレーニングオブジェクトのランキングとの間の誤差（差異）は、ウィルコクソンマンホイットニー関数（ウィルコクソン符号付き順位検定）または他のノンパラメトリック検定を使用し、計算され、この誤差は、上述されたニューラルネットワーク２４エラー訂正値術を使用し、ネットワークをさらに訓練するためにニューラルネットワーク２４を通して逆誤差伝搬される。

ディープラーニング技術が上述されたようにニューラルネットワーク２４を活用する実施形態では、畳み込み評価モジュール２０は、ネットワーク層のバイアスだけではなく畳み込み層２８のフィルタの重みも修正することによって、その予測の精度を改善するためにネットワーク２４を訓練するように構成されてよい。重み及びバイアスは、例えばＬ１、Ｌ２、重み減衰、及びドロップアウト等の多様な形式の正規化でさらに制約されてよい。

実施形態では、ニューラルネットワーク２４は任意選択で、対照分岐（ｃｏｎｔｒａｓｔｉｖｅｄｉｖｅｒｇｅｎｃｅ）アルゴリズムを使用するトレーニングオブジェクトと対照して貪欲的、層別、生成的（ｇｅｎｅｒａｔｉｖｅ）事前訓練を通してトレーニングデータの入力分布をモデル化するためにネットワークの重みを調整するように構成されてよい。

実施形態では、トレーニングデータが（例えば、結合データ６８で）ラベル付けされる場合、ニューラルネットワーク２４は任意選択でネットワーク２４の中の重みを調整して、ニューラルネットワークの予測される結合親和性及び／またはカテゴリ化と、トレーニングデータの報告される結合親和性及び／またはカテゴリ化との間の誤差を潜在的に最小限に抑えてよい。対数損失、平方誤差の総計、ヒンジ損失方法を含んでよいが、これに限定されるものではない傾斜降下法等の多様な方法が、誤差関数を最小限に抑えるために使用されてよい。これらの方法は、二次方法または運動量、脱へシアン推定、ネステロフの加速勾配、ａｄａｇｒａｄ等の近似を含んでよい。ラベルが付いていない生成的事前訓練及びラベルが付けられた識別訓練も結合されてよい。

入力された幾何学的データは、トレーニング例にグループ化されてよい。例えば、分子、共同因子、及びプロテインの単一の集合が複数の幾何学的な測定値を有することが多く、各「スナップショット」は、ターゲットオブジェクト及びトレーニングオブジェクト（またはテストオブジェクト）が採用してよい代替の配座及びポーズを記述する。同様に、ターゲットオブジェクトがタンパク質である例では、タンパク質側鎖、共同因子、及びトレーニング（またはテスト）オブジェクトのための異なる互変異性体がサンプリングされてもよい。これらの状態はすべて生物系の挙動に貢献するため、ボルツマン分布に従って、結合親和性を予測するためのシステムは、（例えば、これらのサンプリングの加重平均をとることによって）これらの状態をともに検討するように構成されてよい。任意選択で、これらのトレーニング例は結合情報でラベルを付けられてよい。定量的な結合情報が利用可能である（例えば、結合データ６８）場合、ラベルは数値の結合親和性であってよい。代わりに、トレーニング例は、２つ以上の順位付けられたカテゴリ（例えば、結合剤及び非結合剤の２つのカテゴリ、または効能＜１モル、＜１ミリモル、＜１００ミクロモル、＜１０ミクロモル、＜１ミクロモル、＜１００ナノモル、＜１０ナノモル、＜１ナノモルの結合剤としてリガンドを記述するいくつかのおそらく重複するカテゴリ）の集合からラベルを割り当てられてよい。結合データ６８は、例えば実験的測定、計算推定、専門家洞察、または推測（例えば、分子及びタンパク質の無作為な対はきわめて結合しそうにない）等さまざまなソースから引き出されてよい、または受け取られてよい。

実施例１‐実験ベンチマークの構築
開示されるシステム及び方法の適用は、３つのベンチマーク、つまり有用なデコイ増強のディレクトリ（ＤＵＤＥ）ベンチマーク（参照により本明細書に援用される、Ｍｙｓｉｎｇｅｒｅｔａｌ．，２０１２「Ｄｉｒｅｃｔｏｒｙｏｆｕｓｅｆｕｌｄｅｃｏｙｓ，ｅｎｈａｎｃｅｄ（ｄｕｄ−ｅ）：Ｂｅｔｔｅｒｌｉｇａｎｄｓａｎｄｄｅｃｏｙｓｆｏｒｂｅｔｔｅｒｂｅｎｃｈｍａｒｋｉｎｇ」、ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５５，ｎｏ．１４，６５８２−６５９４ページ、ＰＭＩＤ：２２７１６０４３）、内部ＤＵＤＥ状のベンチマーク、及び実験で検証されたイナクティブ分子を有するベンチマークに対して明示される。これらのベンチマークのそれぞれは、開示されるシステム及び方法の性能の異なった優遇評価を提供する。標準的なベンチマークとして、ＤＵＤＥは他の構造ベースの結合親和性予測システムに対する直接的な比較を可能にする。残念なことに、ＤＵＤＥは別個のトレーニングセットを指定することなく、特定のテストセットだけを指定する。独自のＤＵＤＥ状のベンチマークを構築することによって、私たちはトレーニング分子とテスト分子との間に重複がないことを確実にする。構造上類似する分子が異なるラベルを有する場合があるため、実験で検証されたアクティブな分子及びイナクティブな分子を正しく分類することは困難な試験である。参照により本明細書に援用される、Ｈｕｅｔａｌ．，「Ｓｙｓｔｅｍａｔｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌａｃｔｉｖｉｔｙｃｌｉｆｆｓ」、ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５２，ｎｏ．６，１４９０−１４９８ページを参照のこと。デコイはイナクティブであると推測するために、係る場合は、相違要件のため、特性が一致したデコイを使用し、ベンチマークから除外される。

ＤＵＤＥベンチマークの方法論は、参照により本明細書に援用される、Ｍｙｓｉｎｇｅｒｅｔａｌ．，２０１２「Ｄｉｒｅｃｔｏｒｙｏｆｕｓｅｆｕｌｄｅｃｏｙｓ，ｅｎｈａｎｃｅｄ（ｄｕｄ−ｅ）：Ｂｅｔｔｅｒｌｉｇａｎｄｓａｎｄｄｅｃｏｙｓｆｏｒｂｅｔｔｅｒｂｅｎｃｈｍａｒｋｉｎｇ」，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５５，ｎｏ．１４，６５８２−６５９４ページ，ＰＭＩＤ：２２７１６０４３によって十分に説明される。内部ベンチマークは、この実施例のために同様に構築された。簡略には、両方のベンチマークとも、ターゲットタンパク質の集合のためにアクティブ分子の多様な集合を最初に収集することによって構築される。アナログバイアスは、類似アクティブ（ｓｉｍｉｌａｒａｃｔｉｖｅｓ）を削除することによって緩和される。類似アクティブは、最初にスカフォード類似性に基づいてアクティブをクラスタ化し、次いで各クラスタから例示的なアクティブを選択することによって排除される。次いで、各アクティブ分子は、プロパティ一致デコイ（ＰＭＤ）の集合と対にされる。それぞれが参照により本明細書に援用される、ＷａｌｌａｃｈａｎｄＬｉｌｉｅｎ，２０１１，「ＶｉｒｔｕａｌＤｅｃｏｙＳｅｔｓｆｏｒＭｏｌｅｃｕｌａｒＤｏｃｋｉｎｇＢｅｎｃｈｍａｒｋｓ」，Ｊ．Ｃｈｅｍ．Ｉｎｆ．ａｎｄＭｏｄｅｌ，５１，ｎｏ．２，１９６−２０２ページ、及びＷａｌｌａｃｈｅｔａｌ．，２０１１「Ｎｏｒｍａｌｉｚｉｎｇｍｏｌｅｃｕｌａｒｃｌｏｃｋｉｎｇｒａｎｋｉｎｇｓｕｓｉｎｇｖｉｒｔｕａｌｌｙｇｅｎｅｒａｔｅｄｄｅｃｏｙｓ」，Ｊ．Ｃｈｅｍ．Ｉｎｆ．ａｎｄＭｏｄｅｌ．，５１，ｎｏ．８，１８１７−１８３０ページを参照のこと。ＰＭＤは、一部の２次元フィンガープリント（例えば、参照により本明細書に援用される、ＲｏｇｅｒｓａｎｄＨａｈｎ，「Ｅｘｔｅｎｄｅｄ−ｃｏｎｎｅｃｔｉｖｉｔｙｆｉｎｇｅｒｐｒｉｎｔｓ」，２０１０，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５０，ｎｏ．５，７４２−７５４ページに説明される、ＥＣＦＰ）に基づいてトポロジー的に異なっていながら、なんらかの１次元物理科学記述子（例えば、分子量）に関して、互いに及び既知のアクティブに類似するように選択される。トポロジーの相違の主張は、デコイが任意の既知のアクティブとは化学的に異なるため、デコイがイナクティブである可能性が高い旨の仮定を裏付ける。

ＤＵＤＥ。ＤＵＤＥは、ＵＣＳＦのＳｈｏｉｃｈｅｔＬａｂの構造に基づく仮想スクリーニング方法のための周知のベンチマークである。参照により本明細書に援用される、Ｍｙｓｉｎｇｅｒｅｔａｌ．，２０１２，「Ｄｉｒｅｃｔｏｒｙｏｆｕｓｅｆｕｌｄｅｃｏｙｓ，ｅｎｈａｎｃｅｄ（ｄｕｄ−ｅ）：Ｂｅｔｔｅｒｌｉｇａｎｄｓａｎｄｄｅｃｏｙｓｆｏｒｂｅｔｔｅｒｂｅｎｃｈｍａｒｋｉｎｇ」，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５５，ｎｏ．１４，６５８２−６５９４ページ，ＰＭＩＤ：２２７１６０４３を参照のこと。ＤＵＤＥは、１０２のターゲット、２２，８８６のアクティブ（ターゲットあたり２２４のアクティブの平均）、及びアクティブあたり５０のＰＭＤから成る。３０のターゲットが、テストセットとして無作為に選択され、残りの７２のターゲットがトレーニングセットとして指定された。

ＣｈＥＭＢＬ−２０ＰＭＤ。ＣｈＥＭＢＬバージョン２０（参照により本明細書に援用される、Ｂｅｎｔｏｅｔａｌ．，２０１４，「Ｔｈｅｃｈｅｍｂｌｂｉｏａｃｔｉｖｉｔｙｄａｔａｂａｓｅ：ａｎｕｐｄａｔｅ」，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ４２，ｎｏ．Ｄ１，Ｄ１０８３−Ｄ１０９０ページ）から導出されたＤＵＤＥ状のデータセットが構築された。以下のフィルタを通過したすべての活動測定値が考慮された。（ｉ）ＩＣ５０またはＫｉ、及び１μＭ以下で測定された親和性ユニット、（ｉｉ）６以上のターゲット確実性、（ｉｉｉ）ターゲットはｓｃＰＤＢデータベース（参照により本明細書に援用される、Ｄｅｓａｐｈｙｅｔａｌ．，２０１４「ｓｃ−ｐｃｌｂ：ａ３ｄ−ｄａｔａｂａｓｅｏｆｌｉｇａｎｄａｂｌｅｂｉｎｄｉｎｇｓｉｔｅｓ１０ｙｅａｒｓｏｎ」，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈＤ３９９−４０４）に注釈付きの結合部位及び分解能＜２．５Åを有し、（ｉｖ）リガンドはＰＡＩＮＳフィルタ（参照により本明細書に援用される、ＢａｅｌｌａｎｄＨｏｌｌｏｗａｙ，２０１０，「Ｎｅｗｓｕｂｓｔｒｕｃｔｕｒｅｆｉｌｔｅｒｓｆｏｒｒｅｍｏｖａｌｏｆｐａｎａｓｓａｙｉｎｔｅｒｆｅｒｅｎｃｅｃｏｍｐｏｕｎｄｓ（ｐａｉｎｓ）ｆｒｏｍｓｃｒｅｅｎｉｎｇｌｉｂｒａｒｉｅｓａｎｄｆｏｒｔｈｅｉｒｅｘｃｌｕｓｉｏｎｉｎｂｉｏａｓｓａｙｓ」，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５３，ｎｏ．７，２７１９−２７４０ページ）及び混乱規則（参照により本明細書に援用される、ＢｒｕｎｓａｎｄＷａｔｓｏｎ，２０１２，「Ｒｕｌｅｓｆｏｒｉｄｅｎｔｉｆｙｉｎｇｐｏｔｅｎｔｉａｌｌｙｒｅａｃｔｉｖｅｏｒｐｒｏｍｉｓｃｕｏｕｓｃｏｍｐｏｕｎｄｓ」，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５５，ｎｏ．２２，９７６３−９７７２ページ）を通過した。Ｍｙｓｉｎｇｅｒらに従って、ターゲット親和性はそのＵｎｉＰｒｏｔ遺伝子名接頭辞（参照により本明細書に援用される、ＢｒｕｎｓａｎｄＷａｔｓｏｎ，２０１２，「Ｒｕｌｅｓｆｏｒｉｄｅｎｔｉｆｙｉｎｇｐｏｔｅｎｔｉａｌｌｙｒｅａｃｔｉｖｅｏｒｐｒｏｍｉｓｃｕｏｕｓｃｏｍｐｏｕｎｄｓ」、ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５５，ｎｏ．２２，９７６３−９７７２ページ）別にグループ化され、１０未満のアクティブリガンドがあったターゲットは削除された。このフィルタリングプロセスは、１２３，１０２のアクティブ及び３４８のターゲットの集合を生じさせた。第２に、各アクティブは、参照により本明細書に援用される、Ｍｙｓｉｎｇｅｒｅｔａｌ．，２０１２，「Ｄｉｒｅｃｔｏｒｙｏｆｕｓｅｆｕｌｄｅｃｏｙｓ，ｅｎｈａｎｃｅｄ（ｄｕｄ−ｅ）：Ｂｅｔｔｅｒｌｉｇａｎｄｓａｎｄｄｅｃｏｙｓｆｏｒｂｅｔｔｅｒｂｅｎｃｈｍａｒｋｉｎｇ」，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ５５，ｎｏ．１４，６５８２−６５９４ページ，ＰＭＩＤ：２２７１６０４３と同様に、ＺＩＮＣデータベース（参照により本明細書に援用される、ＩｒｗｉｎａｎｄＳｈｏｉｃｈｅｔ，２００５，「ＺＩＮＣ−ａｆｒｅｅｄａｔａｂａｓｅｏｆｃｏｍｍｅｒｃｉａｌｌｙａｖａｉｌａｂｌｅｃｏｍｐｏｕｎｄｓｆｏｒｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ」，Ｊ．Ｃｈｅｍ．Ｉｎｆ．Ｍｏｄｅｌ．４５，ｎｏ．１，１７７−１８２ページ）から選択された３０のＰＭＤのセットと対にされた。第３に、データは、最初にそのＢｅｍｉｓ−Ｍｕｒｃｋｏスカフォード（ＢｅｍｉｓａｎｄＭｕｒｃｋｏ，１９９６，「Ｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｋｎｏｗｎｄｒｕｇｓ．Ｉ．ｍｏｌｅｃｕｌａｒｆｒａｍｅｗｏｒｋｓ」，ＪｏｕｒｎａｌｏｆＭｅｄｉｃｉｎａｌＣｈｅｍｉｓｔｒｙ３９，ｎｏ．１５，２８８７−１８９３ページ）に基づいて、各ターゲットのためにアクティブリガンドをクラスタ化し、クラスタ例として少なくとも３μＭ離れていたリガンドを選ぶことによってトレーニングセット、バリデーションセット、及びテストセットに区分化された。１０例未満のクラスタは除外された。第４に、テストセットはその対応するアクティブ及びデコイを有する５０のターゲットを無作為に選択することによって定義された。最後に、トレーニングセットは、クラスタ上で５倍の相互検証セットにさらに区分化された。最終データセットは７８，９０４のアクティブ、２，３６７，１２０のデコイ、及び２９０のターゲットから成る。

実験で検証されたイナクティブ。ＰＭＤに基づいたベンチマークの制限は、ベンチマークが、アクティブ分子に類似するデコイを除外する点である。この設計の決定は、実験によるバリデーションなしに、選択されたデコイがイナクティブである可能性が高い旨の仮定を裏付けるために実施されている。アクティブとデコイとの間のこの主張される相違は、ＰＭＤベンチマークが、アクティブ分子及びイナクティブ分子がきわめて似ているいくつかの困難なケースを欠くことを意味する（参照により本明細書に援用される、Ｈｕｅｔａｌ．，２０１２，「Ｓｙｓｔｅｍａｔｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌａｃｔｉｖｉｔｙｃｌｉｆｆｓ」、ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５２，ｎｏ．６，１４９０−１４９８ページ）。係る困難なケースは、デコイをイナクティブであると実験で確証された分子で置換することによって含まれた。ＣｈＥＭＢＬ−２０ＰＭＤベンチマークに類似するベンチマークが構築されたが、ＰＭＤはイナクティブ分子で置き換えられた。分子の測定された活動が３０μＭよりも高い場合、分子はここでイナクティブと定義される。これは、Ｂｅｍｉｓ−Ｍｕｒｃｋｏクラスタの上で３倍の相互検証セットに区分化された７８，９０４のアクティブ、３６３，１８７のイナクティブ、及び２９０のターゲットの集合を生じさせた。そのときのクラスタ未満を有するターゲットは絶対にバリデーション集合に割り当てられなかった。したがって、バリデーション集合のターゲットの数は１４９であった。

構造に基づいたディープ畳み込みニューラルネットワーク。この実験（ＡｔｏｍＮｅｔ）の畳み込みニューラルネットワーク２４のためのネットワークトポロジーは、複数の３次元畳み込み２８、並びにアクティブクラス及びイナクティブクラスで可能性を割り当てるロジスティックコスト層が最上位になる完全接続層から成るスコアラ３０が後に続く入力層２６から成り立っていた。隠れ層のすべてのユニットは、ＲｅＬＵ活性化関数（参照により本明細書に援用される、第２７回ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ−１０）、２０１０年６月２１〜２４日、ハイファ、イスラエルの議事録、８０７−８１４ページの、ＮａｉｒａｎｄＨｉｎｔｏｎ、２０１０，「ＲｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔｓｉｍｐｒｏｖｅｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ」）で実装される。

入力表現。入力層２６は、ターゲットタンパク質（ターゲットオブジェクト５８）及びターゲットの結合部位の中でサンプリングされる小分子（トレーニングオブジェクト／テストオブジェクト）の共複合体状に設置された１Åの３次元グリッドのベクトル化されたバージョンを受け取る。第１に、結合部位は、ｓｃＰＤＢデータベースで注釈される有界リガンドによってシード値を与えられるフラッディングアルゴリズム（参照により本明細書に援用される、Ｈｅｎｄｌｉｃｈｅｔａｌ．，１９９７，「Ｌｉｇｓｉｔｅ：ａｕｔｏｍａｔｉｃａｎｄｅｆｆｉｃｉｅｎｔｄｅｔｅｃｔｉｏｎｏｆｐｏｔｅｎｔｉａｌｓｍａｌｌｍｏｌｅｃｕｌｅ-ｂｉｎｄｉｎｇｓｉｔｅｓｉｎｐｒｏｔｅｉｎｓ」，Ｊ．Ｍｏｌ．Ｇｒａｐｈ．Ｍｏｄｅｌ１５，ｎｏ．６を参照のこと。）を使用し、定義される（参照により本明細書に援用される、Ｄｅｓａｐｈｙｅｔａｌ．，２０１４，「ｓｃ−ｐｄｂ：Ａ３ｄ−ｄａｔａｂａｓｅｏｆｌｉｇａｎｄａｂｌｅｂｉｎｄｉｎｇｓｉｔｅｓ１０ｙｅａｒｓｏｎ」，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈＤ３９９−４０４を参照のこと）。第２に、共複合体の座標は結合部位の質量の中心で発生した３次元デカルト系にシフトされる。第３に、結合部位空洞の中の複数のポーズがサンプリングされる。第４に、幾何学的データは、適切な境界ボックスの中に収まるように切り取られる。この研究では、基点で中心に置かれる２０Åの立方体が使用される。第５に、入力データは、１Åの間隔を有する固定サイズグリッドの中に並進される。各グリッドセルは、その場所での一部の基本的な構造特徴の存在を表す値を保持する。基本構造特徴は、原子種類の簡略な列挙からより、ＳＰＬＩＦ（参照により本明細書に援用される、ＤａａｎｄＫｉｒｅｅｖ，「Ｓｔｒｕｃｔｕｒａｌｐｒｏｔｅｉｎｌｉｇａｎｄｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔｓ（ｓｐｌｉｆ）ｆｏｒｓｔｒｕｃｔｕｒｅ−ｂａｓｅｄｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ：Ｍｅｔｈｏｄａｎｄｂｅｎｃｈｍａｒｋｓｔｕｄｙ」，２０１４，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５４，ｎｏ．９，２５５５−２５６１ページ）、ＳＩＦｔ（参照により本明細書に援用される、Ｄｅｎｇｅｔａｌ．，２００４，「Ｓｔｒｕｃｔｕｒａｌｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔ（ＳＩＦｔ）：ａｎｏｖｅｌｍｅｔｈｏｄｆｏｒａｎａｌｙｚｉｎｇｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｐｒｏｔｅｉｎ−ｌｉｇａｎｄｂｉｎｄｉｎｇｉｎｔｅｒａｃｔｉｏｎｓ」，Ｊ．Ｍｅｄ．Ｃｈｅｍ．４７，ｎｏ．２，３３７−３４４ページ）またはＡＰＩＦ（Ｐｒｅｚ−Ｎｕｅｎｏ、２００９，「Ａｐｉｆ：Ａｎｅｗｉｎｔｅｒａｃｔｉｏｎｆｉｎｇｅｒｐｒｉｎｔｂａｓｅｄｏｎａｔｏｍｐａｉｒｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ」，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ４９，ｎｏ．５号，１２４５−１２６０ページ）等のより複雑なたんぱく質‐リガンド記述子に変わる場合がある。最後に、３次元グリッドは１次元浮動小数点ベクトルに展開される。

ネットワークアーキテクチャ。３次元畳み込み層２８は、ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍ２，Ｐｅｒｅｉｒａ、Ｂｕｒｇｅｓ、Ｂｏｔｔｏｕ、Ｗｅｉｎｂｅｒｇｅｒ，ｅｄｓ．，１０９７−１１０５ページ、ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．のＫｒｉｚｈｅｖｓｋｙｅｔａｌ．，２０１２，「Ｉｍａｇｅｎｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ」の実施態様に類似したやり方で、フィルタサイズ、ストライド、パディング等のパラメータをサポートするために実装された。畳み込みニューラルネットワーク２４のネットワークアーキテクチャは、１２８ｘ５^３、２５６ｘ３^３、２５６ｘ３^３、２５６ｘ３^３（フィルタ数ｘフィルタ寸法の数）の４つの畳み込み層２８、及び２つの活動クラス上でロジスティック回帰コスト層が最上位になる、それぞれ１０２４の隠れユニットを有する２つの完全接続層が後に続く、上述された入力層２６から成り立っていた。

畳み込みニューラルネットワーク２４のトレーニング。畳み込みニューラルネットワーク２４をトレーニングすることは、ＡｄａＤｅｌｔａ適応学習方法を用いる確率論的な傾斜降下（参照により本明細書に援用される、Ｚｅｉｌｅｒ，２０１２「ＡＤＡＤＥＬＴＡ：ａｎａｄａｐｔｉｖｅｌｅａｒｎｉｎｇｒａｔｅｍｅｔｈｏｄ」、ＣｏＲＲ、ｖｏｌ．ａｂｓ／１２１２．５７０１）、バックプロパゲーションアルゴリズム（参照により本明細書に援用される、Ｒｕｍｅｌｈａｒｔｅｔａｌ．，１９８８，「ＮｅｕｒｏｃｏｍｐｕｔｉｎｇＦｏｕｎｄａｔｉｏｎｓｏｆｒｅｓｅａｒｃｈ」，ｃｈ．ＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｂｙＢａｃｋｐｒｏｐａｇａｔｉｎｇＥｒｒｏｒｓ，６９６−６９９ページ，Ｃａｍｂｒｉｄｇｅ，ＭＡ，ＵＳＡ：ＭＩＴＰｒｅｓｓ）、及び傾斜ステップあたり７６８の例のミニバッチを使用し、実行された。モデルをＧＰＵメモリに嵌めこむことの制限を除き、メタパラメータを最適化しようとする試みは行われなかった。トレーニング時間は、６つのＮｖｉｄｉａ−Ｋ１０ＧＰＵで約１週間であった。

比較のためのベースライン方法。Ｓｍｉｎａ（参照により本明細書に援用される、Ｋｏｅｓｅｔａｌ．，２０１３，「Ｌｅｓｓｏｎｓｌｅａｒｎｅｄｉｎｅｍｐｉｒｉｃａｌｓｃｏｒｉｎｇｗｉｔｈｓｍｉｎａｆｒｏｍｔｈｅｃｓａｒ２０１１ｂｅｎｃｈｍａｒｋｉｎｇｅｘｅｒｃｉｓｅ」，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５３，ｎｏ．８，１８９３−１９０４ページ、２０１３を参照のこと）、つまりＡｕｔｏＤｏｃｋＶｉｎａ（参照により本明細書に援用される、ＴｒｏｔｔａｎｄＯｌｓｏｎ，２０１０，「Ａｕｔｏｄｏｃｋｖｉｎａ：Ｉｍｐｒｏｖｉｎｇｔｈｅｓｐｅｅｄａｎｄａｃｃｕｒａｃｙｏｆｄｏｃｋｉｎｇｗｉｔｈａｎｅｗｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎ，ｅｆｆｉｃｉｅｎｔｏｐｔｉｍｉｚａｔｉｏｎ，ａｎｄｍｕｌｔｉｔｈｒｅａｄｉｎｇ」，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉｓｔｒｙ３１，ｎｏ．２，４５５−４６１ページ）の分岐が、構造に基づいた評価のためのベースラインとして使用された。Ｓｍｉｎａは、その先行バージョンに優り、ＧＰＬｖ２ライセンスの下で自由に利用できる改善された経験的スコアリング関数及び最適化ルーチンを実装する。

結果。受信機動作特徴（ＡＵＣ）及びｌｏｇＡＵＣの下の領域は、３つのベンチマークに優る結果を報告するために使用された。ＡＵＣは、真陽性率対偽陽性率の曲線の下の領域を測定することによって分類（または順位）性能を示す。１．０のＡＵＣ値は完全な分離を意味するのに対し、０．５の値は無作為な分離を暗示する。ＬｏｇＡＵＣは、順位付けされたリストの上位に正しく分類されたケースが後のケースよりもスコアにより貢献するように、曲線の始まりにより多くの重みを置くことによって早期強化性能を強調するＡＵＣに類似した測定値である。ここでは、１０の対数ベースが使用され、これは、順位付けされた結果の最初の１％の重みが次の１０％の重みに等しいことを意味する。ｌｏｇＡＵＣ値の非線形性は解釈することを困難にするため、対数スケールの（ｌｏｇ‐ｓｃａｌｅｄ）ランダム曲線（０．１４４６２）はｌｏｇＡＵＣから差し引かれ、調整されたｌｏｇＡＵＣ（参照により本明細書に援用される、ＭｙｓｉｎｇｅｒａｎｄＳｈｏｉｃｈｅｔ，２０１０，「Ｒａｐｉｄｃｏｎｔｅｘｔ‐ｄｅｐｅｎｄｅｎｔｌｉｇａｎｄｄｅｓｏｌｖａｔｉｏｎｉｎｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇ」、ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５０，ｎｏ．９，１５６１−１５７３ページを参照のこと）を得た。したがって、負の調整されたｌｏｇＡＵＣが無作為な性能よりも悪いことを暗示するのに対して、正の調整されたｌｏｇＡＵＣ値は無作為な性能よりも優れていることを暗示する。簡略にするために、調整されたｌｏｇＡＵＣ及びｌｏｇＡＵＣは、本明細書で交互に用いられる。

表２及び図１０〜図１３は、３つの異なるベンチマークにわたる結果を要約する。本開示の例示的なシステム及び方法は、ＣｈＥＭＢＬ‐２０‐ＰＭＤベンチマーク及びＤＵＤＥベンチマークに対して同様に機能する。本開示の例示的なシステム及び方法は、それぞれＣｈＥＭＢＬ‐２０‐ＰＭＤで平均ＡＵＣ０．７８及び０．３２の平均ｌｏｇＡＵＣ、ならびにＤＵＤＥで０．８及び０．３３を達成する。２つのベンチマークは同様に構築されたため、この類似する性能は驚くべきことではない。

図１０は、ＡｔｏｍＮｅｔ及びＳｍｉｎａの５０のＣｈＥＭＢＬ‐２０‐ＰＭＤターゲットのＡＵＣ値及びｌｏｇＡＵＣ値の分布を示す。図１１は、ＡｔｏｍＮｅｔ及びＳｍｉｎａの１０２のＤＵＤＥターゲットのＡＵＣ値及びｌｏｇＡＵＣ値の分布を示す。図１２は、ＡｔｏｍＮｅｔ及びＳｍｉｎａの１４９のＣｈＥＭＢＬ‐２０‐イナクティブターゲットのＡＵＣ値及びｌｏｇＡＵＣ値の分布を示す。図１３Ａ及び図１３Ｂは、早期強化に関してＡＵＣ測定値とｌｏｇＡＵＣ測定値の差の説明を提供する。

表２

表２：ＤＵＤＥ、ベンチマーク、ＣｈＥＭＢＬ‐２０‐ＰＭＤベンチマーク、及びＣｈＥＭＢＬ‐２０‐イナクティブベンチマークでのＡｔｏｍＮｅｔ及びＳｍｉｎａの比較。ＤＵＤＥ‐１０２は完全データセットを指すのに対し、ＤＵＤＥ‐３０は３０のターゲットの提供された（ｈｅｌｄ‐ｏｕｔ）セットを指す。

表３

表３：ＡｔｏｍＮｅｔ及びＳｍｉｎａが所与のＡＵＣ閾値を上回るターゲットの数。例えば、ＣＨＥＭＢＬ‐２０ＰＭＤセットでは、ＡｔｏｍＮｅｔは、（５０の考えられるターゲットの中から）２４のターゲットのために０．８またはそれより良いＡＵＣを達成する。ＣｈＥＭＢＬ‐２０ＰＭＤは５０のターゲットを含み、ＤＵＤＥ‐３０は３０のターゲットを含み、ＤＵＤＥ‐１０２は１０２のターゲットを含み、ＣｈＥＭＢＬ‐２０イナクティブは１４９のターゲットを含む。

表４

表４：ＡｔｏｍＮｅｔ及びＳｍｉｎａが所与の調整ｌｏｇＡＵＣ閾値を上回るターゲットの数。例えば、ＣＨＥＭＢＬ‐２０ＰＭＤセットでは、ＡｔｏｍＮｅｔは、（５０の考えられるターゲットの中から）２７のターゲットのために０．３またはそれより良い調整ｌｏｇＡＵＣを達成する。ＣｈＥＭＢＬ‐２０ＰＭＤは５０のターゲットを含み、ＤＵＤＥ‐３０は３０のターゲットを含み、ＤＵＤＥ‐１０２は１０２のターゲットを含み、ＣｈＥＭＢＬ‐２０イナクティブは１４９のターゲットを含む。

本発明による４つの評価データセットのそれぞれで、開示されるシステム及び方法（ＡｔｏｍＮｅｔ）は、創薬に役立つ精度レベルでＳｍｉｎａに優る１桁の改善を達成する。完全ＤＵＤＥセットで、ＡｔｏｍＮｅｔは５９のターゲットで０．９ＡＵＣを達成または上回る（つまり５７．８％）。Ｓｍｉｎａは単一のターゲット（ｗｅｅ１）に対して０．９ＡＵＣ、つまりベンチマークの約１パーセントを達成するに過ぎない。ＡｔｏｍＮｅｔは８８のターゲット（８６．３％）に対して０．８またはそれより良いＡＵＣを達成する。一方、Ｓｍｉｎａは１７のターゲット（１６．７％）に対してそれを達成する。評価が、ＤＵＤＥの提供された３０のターゲット部分集合に制限されるとき、ＡｔｏｍＮｅｔは、それぞれ１４のターゲット（４６．７％）及び２２のターゲット（７３．３％）に対して０．９及び０．８のＡＵＣを超える。Ｓｍｉｎａはそれぞれ１つのターゲット（３．３％）及び５つのターゲット（１６．７％）に対して同じ精度を達成する。ＡｔｏｍＮｅｔは、Ｓｍｉｎａによって達成された０．７及び０．６９４に比較して提供されたセットで０．８５５及び０．８７５の平均ＡＵＣ及び中央値ＡＵＣを達成し、利用可能な平均誤差を５１．６％削減する。予想されるように、Ｓｍｉｎａの性能は低下しないのに対し、ＡｔｏｍＮｅｔの性能は、その提供された例に対してわずかに低下する。

ＰＭＤデータセットでは、ＡｔｏｍＮｅｔは、１０の提供されたターゲット（集合の２０％）に対して０．９またはそれより良いＡＵＣを達成する。一方、Ｓｍｉｎａはゼロのターゲットでそれを達成する。精度の基準が０．８またはそれより良いＡＵＣに削減されるとき、ＡｔｏｍＮｅｔは２５のターゲット（５０％）で成功する。一方、Ｓｍｉｎａは１つのターゲット（２％）でしか成功しない。

適切に一致したデコイの代わりにイナクティブを使用する第３のベンチマークは、他の２つよりもより困難であると考えられる。ＡｔｏｍＮｅｔは１０のターゲット（６．７％）に対して０．９またはそれより良いＡＵＣで予測する。一方、Ｓｍｉｎａはゼロで成功する。０．８ＡＵＣを満たすまたは超える場合、ＡｔｏｍＮｅｔは４５のターゲット（３０．２％）について成功し、Ｓｍｉｎａは４つ（２．７０％）について成功する。ＡｔｏｍｎｅｔとＳｍｉｎａの両方とも以前のベンチマークよりも良くない性能であるが、ＡｔｏｍＮｅｔはまだ、全体的な及び早期の強化性能に関してＳｍｉｎａより著しく性能が優れている。このベンチマークはイナクティブを使用するため、ベンチマークは、異なるラベルを有する構造上類似する分子の困難な分類ケースを含む。（Ｈｕｅｔａｌ．，「Ｓｙｓｔｅｍａｔｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌａｃｔｉｖｉｔｙｃｌｉｆｆｓ」，２０１２，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５２，ｎｏ．６，１４９０−１４９８ページ）。デコイは、デコイがイナクティブとしてラベルを付けることができると推測するために構造上異ならなければならないため、これらのケースは、ＰＭＤを使用するベンチマークから除外される。

さらに、きわめて確実なｌｏｇＡＵＣ値によって示されるように、ＡｔｏｍＮｅｔは優れた早期強化性能を示す。ＡｔｏｍＮｅｔは、その早期強化に関してＳｍｉｎａより性能が優れており、Ｓｍｉｎａの０．１５３と比較して０．３２１の平均ｌｏｇＡＵＣを達成する。ＲＯＣ曲線を視覚化することは、早期強化に関してＡＵＣ測定値とｌｏｇＡＵＣ測定値の差異を示す。例えば、図１３Ａは、ターゲットＩｍ９ｍのためのＡＵＣ値が、平凡な性能を暗示することがある０．６６であることを示す。しかしながら、そのターゲットに対してｌｏｇＡＵＣによって示される早期強化は、多くのアクティブが順位付けられた結果の非常に上位に集中することを示唆する０．２５である。同様に、ターゲットｌｑｚｙは０．７６のＡＵＣ値を有するが、ｌｏｇ‐ＢＬｓｃａｌｅプロットは、そのアクティブの３５％が０．４４のｌｏｇＡＵＣを有する順位付けされたリストの非常に上位に集中することを示唆する。

説明‐フィルタ視覚化。畳み込み層２８は、受容野全体で繰り返しこれらのフィルタを適用することによって測定の局所的に関係する特徴を識別することを学習する複数の異なるフィルタから成る。画像を処理するとき、人は、モデルが関連する特徴を学習できることを検証するためにこれらのフィルタを視覚化できる。例えば、参照により本明細書に援用される、Ｋｒｉｚｈｅｖｓｋｙｅｔａｌ．，２０１２，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍ２、Ｐｅｒｅｉｒａ、Ｂｕｒｇｅｓ、Ｂｏｔｔｏｕ、Ｗｅｉｎｂｅｒｇｅｒ，ｅｄｓ．，１０９７−１１０５ページ、ＣｕｒｒａｎｔＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．の「Ｉｍａｇｅｎｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ」は、彼らのモデルの第１の畳み込み層のフィルタが線、端縁、及び色のグラデーションを検出できることを明示した。しかしながら、本発明の場合では、（ｉ）フィルタが３次元である、及び（ｉｉ）入力チャネルが個別であるため、フィルタは容易に視覚化されない。例えば、２つの近いＲＧＢ値は２つの類似する色で生じるが、炭素は酸素に対してよりも窒素に対してより近くない。すなわち、類似した値は類似した機能性を暗示しない。これらの制限を克服するために、間接的な手法がとられる。フィルタの特殊化を理解するためにフィルタを直接的に視覚化する代わりに、フィルタは入力データに適用され、フィルタが最大限に始動する（ｆｉｒｅ）場所が調べられる。この技術を使用し、フィルタは化学的機能に写像された。例えば、第１の畳み込み層２８からの特定のフィルタが始動するターゲットオブジェクトでの３次元場所の目視は、このフィルタがスルホニル／スルホンアミド検出器として特殊化することを明らかにする。例えば、係る相互作用を示す図１５Ａ及び図１５Ｂを参照のこと。これは、モデルが複雑な化学的特徴をより簡略な化学的特徴から学習する能力を明示する。この場合、フィルタは、化学的な事前知識がなくても入力原子種類の有意な空間配置を推論している。

他の構造に基づいた方法の比較。この例は、他の構造に基づいた方法への直接の比較を報告するよりむしろ、生物活性予測にディープ畳み込みニューラルネットワーク２４を適用するための開示されるシステム及び方法の実施形態を提供する。結果を文脈の中でとらえるために、一般的なプログラムＳｍｉｎａがベースライン基準点として使用された。Ｓｍｉｎａは実際的な優位点を有する。つまり、Ｓｍｉｎａは高速、無料、及び積極的に開発されているため、タイムリ且つ効率的に大きいベンチマークを分析するのに適している。それにも関わらず、公開されている製作物を使用すると、ＡｔｏｍＮｅｔを文献で報告される他の商業的なドッキングアルゴリズムに比較することによってより幅広い視点が提供される。Ｓｍｉｎａのように、ＤＵＤＥは公表されており、幅広く使用されている。ＤＵＤＥは特定の制限を有する。例えば、アクティブとデコイとの間で多様性を強化するために使用される同じ記述子がリガンドベーススコアラを訓練するために使用されるため、ＤＵＤＥ及び他のＰＭＤベンチマークはリガンドベースのモデルの評価には不適切である（参照により本明細書に援用される、Ｉｒｗｉｎ，「Ｃｏｍｍｕｎｉｔｙｂｅｎｃｈｍａｒｋｓｆｏｒｖｉｒｔｕａｌｓｃｒｅｅｎｉｎｇ」，２００８，Ｊ．Ｃｏｍｐｕｔ．‐ＡｉｄｅｄＭｏｌ．Ｄｅｓ２２、ｎｏ．３−４，１９３−１９９ページを参照のこと）。さらに、上述されたように、ＤＵＤＥに対して評価するとき、トレーニングとテストとの間に汚染が存在しないことを保証できず、これが開示されたＣｈＥＭＢＬ‐２０‐ＰＭＤベンチマークを構築するための主要な動機であった。しかしながら、これらの２つのベンチマークに対する類似性能は、結果がロバストであることを示唆する。したがって、上述された結果に対する以下の比較が提示される。Ｇａｂｅｌら（参照により本明細書に援用される、Ｇａｂｅｌｅｔａｌ．，２０１４「Ｂｅｗａｒｅｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇ−ｂａｓｅｄｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎｓｏｎｔｈｅｄａｎｇｅｒｏｆｄｅｖｅｌｏｐｉｎｇｂｌａｃｋｂｏｘｅｓ」，ＪｏｕｒｎａｌｏｆＣｈｅｍｉｃａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＭｏｄｅｌｉｎｇ５４，ｎｏ．１０，２８０７−２８１５ページを参照のこと）は、ＤＵＤＥからの１０のターゲットの代表的な集合に関して、Ｓｕｒｆｌｅｘ‐Ｄｏｃｋ（参照により本明細書に援用される、ＳｐｉｔｚｅｒａｎｄＪａｉｎ，２０１２「Ｓｕｒｆｔｅｘ‐ｄｏｃｋ：Ｄｏｃｋｉｎｇｂｅｎｃｈｍａｒｋｓａｎｄｒｅａｌ‐ｗｏｒｌｄａｐｐｌｉｃａｔｉｏｎ」，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ２６，ｎｏ．６，６８７−６９９ページ）を評価した。Ｓｕｒｆｉｅｘ‐Ｄｏｃｋの中央値ＡＵＣは、ＡｔｏｍＮｅｔによって達成される０．８３に比較して０．７６であった。Ｃｏｌｅｍａｎら（参照により本明細書に援用される、Ｃｏｌｅｍａｎｅｔａｌ．，２０１４，「Ｓａｍｐ１４＆ｄｏｃｋ３．７：ｌｅｓｓｏｎｓｆｏｒａｕｔｏｍａｔｅｄｄｏｃｋｉｎｇｐｒｏｃｅｄｕｒｅｓ」、ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒ−ＡｉｄｅｄＭｏｌｅｃｕｌａｒＤｅｓｉｇｎ２８，ｎｏ．３，２０１−２０９ページを参照のこと）は、ＤＵＤＥベンチマーク全体で完全に自動化された方法でＤＯＣＫ‐３．７（Ｃｏｌｅｍａｎｅｔａｌ．，「Ｌｉｇａｎｄｐｏｓｅａｎｄｏｒｉｅｎｔａｔｉｏｎａｌｓａｍｐｌｉｎｇｉｎｍｏｌｅｃｕｌａｒｄｏｃｋｉｎｇ」、ＰＬｏＳＯＮＥ８、ｐ．ｅ７５９９２）を評価した。彼らは、本発明の０．７９２のＡＵＣ及び０．３０６のｌｏｇＡＵＣに比較して０．６７４の平均ＡＵＣ及び０．１６４のｌｏｇＡＵＣを達成した。

結論。この実施例（ＡｔｏｍＮｅｔ）に提示される、開示されるシステム及び方法は、創薬用途のための小分子の生物活性を予測するように設計された第１の構造に基づいたディープ畳み込みニューラルネットワークである。局所的に制約されたディープ畳み込みアーキテクチャは、システムが、近接する基本的な化学的特徴をより入り組んだ化学的特徴に階層的に組み立てることによって分子結合の複雑な非線形現象をモデル化できるようにする。構造ターゲット情報を組み込むことによって、ＡｔｏｍＮｅｔは以前に既知のモジュレーターを有さないターゲットに対しても新しいアクティブ分子を予測できる。ＡｔｏｍＮｅｔは、ターゲットの５７．８％、つまり幅広く使用されるドッキング方法の５９倍多いターゲットで０．９を超えるＡＵＣを達成する、幅広く使用される構造に基づいたベンチマークに対する目覚ましい結果を示している。

実施例２‐使用事例
以下は、本発明の一部の実施形態のいくつかの応用例を説明する、例示的な目的のためだけに提供されるサンプル使用事例である。他の使用が検討されてよく、以下に示される例は非制限的であり、変形形態、省略を受けることがある、または追加の要素を含むことがある。

以下の各実施例は結合親和性予測を示すが、実施例は、予測が単一の分子に対して行われるのか、集合に対して行われるのか、それとも一連の繰り返し改変される分子に対して行われるのか、予測が単一ターゲットのために行われるのか、それとも多数のターゲットのために行われるのかどうか、ターゲットに対する活動が所望されるのか、それとも回避されるのか、及び重要な量が絶対活動であるのか、それとも相対活動であるのかで異なることが判明することがある、または分子またはターゲットの集合が具体的に選ばれるかどうか（例えば、分子の場合、既存の薬物または殺虫剤であるために、タンパク質の場合、既知の毒性または副作用を有するのか）で異なることが判明することがある。

化合物の発見（Ｈｉｔｄｉｓｃｏｖｅｒｙ）。製薬会社は、新しい薬物候補の先例を発見するためにスクリーニング化合物に数百万ドルを費やしている。関心のある疾病ターゲットと何らかの相互作用を有する少数の化合物を見つけるために大きな化合物集合体が試験される。残念なことに、ウェットラボスクリーニングは実験誤差を被り、アッセイ実験を実行するための費用及び時間に加えて、大きなスクリーニング集合体の収集は、保管の制約、保存性、または化学薬品費により重要な課題を課す。最大の製薬会社でさえ、数千万の市販されている分子及び数億のシミュレーション可能な分子に対して、数十万から数百万の間の化合物を有するにすぎない。

物理的な実験に対する潜在的により効率的な代替策は、仮想高スループットスクリーニングである。物理学シミュレーションが、航空宇宙エンジニアが、モデルが物理的に使用される前に考えられる翼の設計を評価するのに役立つ場合があるのと同じように、分子のコンピュータによるスクリーニングは高い可能性のある分子の小さい部分集合に実験テストを集中させることができる。これはスクリーニングのコスト及び時間を削減してよく、擬陽性を削減し、成功率を改善する、及び／またはより高範囲の化学的環境をカバーする。

本応用では、タンパク質ターゲットはシステムに対する入力として提供されてよい。また、分子の大きい集合も提供されてよい。分子ごとに、結合親和性がタンパク質ターゲットを対照して予測される。結果として生じるスコアは分子を順位付けするために使用され得、最善のスコアの分子はターゲットタンパク質を結合する可能性が最も高い。任意選択で、順位付けされた分子リストは類似分子のクラスタがないか分析されてよく、大きいクラスタは分子結合のより強力な予測として使用されてよい、または分子は確認実験で多様性を保証するためにクラスタ全体で選択されてよい。

オフターゲット副作用予測。多くの薬物は副作用を有することが判明する場合がある。多くの場合、これらの副作用は、薬物の治療効果の原因となるもの以外の生物学的経路との相互作用に起因する。これらのオフターゲット副作用は不快または危険であり、薬物の使用が安全である患者集団を制限する場合がある。したがって、オフターゲット副作用は、どの薬物候補をさらに開発するのかを評価するために用いる重要な基準である。薬物の多くの代替の生物学的ターゲットとの相互作用を特徴付けることは重要であるが、係る試験は、開発し、実行するのが高価且つ多大な時間を必要とする場合がある。コンピュータによる予測はこのプロセスをより効率的にすることができる。

本発明の実施形態を適用する際に、重要な生物学的反応及び／または副作用と関連付けられる生物学的ターゲットのパネルが構築されてよい。システムは、次いで、順番にパネルの各タンパク質を対照して結合を予測するように構成されてよい。特定のターゲットに対する強力な活動（すなわち、オフターゲットタンパク質を活性化することが既知である化合物と同程度に効力がある活動）は、オフターゲット効果に起因する副作用において分子を関与させることがある。

毒性予測。毒性予測は、オフターゲット副作用予測の特に重要な特別な事例である。後期臨床試験における薬物候補の約半分は、容認できない毒性のために不合格になる。新薬承認プロセスの一部として（及び薬物候補を人間で試験できる前に）、ＦＤＡは（その抑制が薬物‐薬物相互作用からの毒性につながる場合がある）シトクロムＰ４５０肝臓酵素、または（その結合が心室性不整脈及び他の心臓有害影響につながるＱＴ延長につながる場合がある）ｈＥＲＧチャネルを含むターゲットの集合と対照する毒性試験データを要求する。

毒性予測では、システムはオフターゲットタンパク質を重要な抗ターゲット（例えば、ＣＹＰ４５０、ｈＥＲＧ、または５−ＨＴ_２Ｂ受容体）になるように制約するように構成されてよい。薬物候補の結合親和性は、次いでこれらのタンパク質と対照して予測されてよい。任意選択で、分子は、抗ターゲットに対する結合について分析することもできる、代謝産物（元の分子の代謝作用／劣化の間に体によって生成される以後の分子）の集合を予測するために分析されてよい。問題のある分子は、毒性を回避するために識別され、修正されてよい、または分子シリーズに関する開発は追加の資源を無駄にすることを避けるために中止されてよい。

効能最適化。薬物候補の重要な要件の１つは、その疾病ターゲットに対する強力な結合である。鑑別が臨床上効果的となるほど十分に強力に結合する化合物を見つけることはまれである。したがって、初期化合物は最適化の長いプロセスの始まりを与え（ｓｅｅｄ）、医薬品化学者は、ターゲット結合の長所が強化された新しい分子を提案するために分子構造を繰り返し修正する。それぞれの新しい分子は、変化が無事に結合を改善したかどうかを判断するために合成され、試験される。システムは物理試験をコンピュータによる予測で置き換えることによってこのプロセスを容易にするように構成されてよい。

この応用では、疾病ターゲット及びリード分子の集合がシステムに入力されてよい。システムは、リードの集合の結合親和性予測を作り出すように構成されてよい。任意選択で、システムは、結合親和性の予測される差の理由を知らせるのに役立つだろう候補分子間の差を強調できるだろう。医薬品化学者ユーザはこの情報を使用して、願わくはターゲットに対する活動が改善された分子の新しい集合を提案できる。これらの新しい代替分子は同様に分析されてよい。

選択性の最適化。上述されたように、分子はさまざまな強度で多数のタンパク質を結合する傾向がある。例えば、（よく知られている化学療法ターゲットである）タンパク質キナーゼの結合ポケットは非常に類似しており、大部分のキナーゼ阻害剤は多くの異なるキナーゼに影響を及ぼす。つまり、多様な生物学的経路が同時に修正され、これは「汚れた」医薬プロファイル及び多くの副作用を生じさせる。したがって、多くの薬物の設計における重大な課題は、本質的に活動ではなく、特異度、つまりおそらく密接に関係しているタンパク質の集合から１つのタンパク質（またはタンパク質の集合）を選択的にターゲットとする能力である。

本発明のシステムは、候補薬物の選択性を最適化する時間及びコストを削減できる。この応用では、ユーザはタンパク質の２つの集合を入力してよい。一方の集合は、化合物がそれに対してアクティブである必要があるタンパク質を記述する。一方、他方の集合は、化合物がイナクティブである必要があるタンパク質を記述する。システムは、両方の集合のタンパク質のすべてと対照して分子の予測を行い、相互作用の強度のプロファイルを確立するように構成されてよい。任意選択で、これらのプロファイルはタンパク質の説明パターンを示唆するために分析できるだろう。ユーザはシステムによって生成される情報を使用して、異なるタンパク質の集合への相対的な結合を改善するだろう分子に対する構造的変化を考慮し、より優れた特異度を有する新しい候補分子を設計できる。任意選択で、システムは、選択性の予測される差の理由を知らせるのに役立つだろう候補分子間の差を強調するように構成できるだろう。提案される候補は、その活動プロファイルの特異度をさらに精緻化するために繰り返し分析できる。

自動分子設計のための適合度関数。上述の最適化を実行するための自動ツールは貴重である。成功した分子は、最適化、ならびに効能、選択性、及び毒性の間のバランスを必要とする。「スカフォードホッピング」（リード化合物の活動が保たれるが、化学構造が大幅に改変されるとき）は、改善された薬物動態、薬力学、毒性、または知的財産のプロファイルを生じさせることができる。例えば分子の無作為な生成、所与の結合部位を充填するための分子フラグメントの成長、分子の集団を「突然変異させ」「異種交配させる」ための遺伝アルゴリズム、及び分子の部分の生物等立体性置換との交換等のアルゴリズムは、新しい分子を繰り返し示唆するために存在する。これらの方法のそれぞれによって生成される薬物候補は、上述された複数の目的（効能、選択性、毒性）に対照して評価されなければならず、技術が上述の手動設定（結合予測、選択性、副作用、及び毒性予測）のそれぞれに関して参考になるのと同様に、それは自動分子設計システムに組み込むことができる。

薬物の別の目的での使用。すべての薬物は副作用を有し、ときおり、これらの副作用は有益である。最もよく知られている例は、一般に頭痛の試料として使用されるが、心臓血管の健康のためにも服用されるアスピリンである可能性がある。薬物はすでに人間で安全であることが示され、迅速な吸収及びパターンの好ましい安定性について最適化されているため、薬物リポジショニングは、創薬のコスト、時間、及びリスクを大幅に削減できる。残念なことに、薬物リポジショニングは、大部分は偶然に見付けられてきた。例えば、シルデナフィル（バイアグラ）は血圧降下薬として開発され、勃起障害に対する効果的な治療であることが思いがけず観察された。オフターゲット効果のコンピュータによる予測は、代替疾患を治療するために使用できるだろう化合物を識別するための薬物の別の目的での使用との関連で使用できる。

この応用では、オフターゲット副作用予測においてのように、ユーザは考えられるターゲットタンパク質の集合を集めてよく、各タンパク質は疾患にリンクされる。すなわち、各タンパク質の抑制は（おそらく異なる）疾病を治療するだろう。例えば、ｘａ因子の阻害剤は抗凝固剤として使用できるのに対し、シクロオキシゲナーゼ‐２は炎症の軽減を提供できる。これらのタンパク質は、存在する場合、承認された薬物の結合親和性で注釈を付けられる。本発明は次いで分子の集合を集め、集合を人間での使用のために承認または調査された分子に制限する。最後に、タンパク質と分子の各対について、ユーザは結合親和性を予測するためにシステムを使用してよい。薬物の別の目的での使用のための候補は、分子の予測される結合親和性がタンパク質にとって効果的な薬物の結合親和性に近い場合に識別されてよい。

薬物耐性の予測。薬物耐性は、病原体集団を迅速に分割し、突然変異させることに対して選択圧力をかける、薬剤使用の不可避の結果である。薬物耐性はウィルス（ＨＩＶ）、外生的な微生物（ＭＲＳＡ）、及び調節不全にされた宿主細胞（ガン）等の多様な病原体で見られる。経時的に、薬剤が抗生物質であるのか、それとも化学療法であるのかに関わりなく、所与の薬剤は効き目が悪くなる。その点で、介入は、願わくはまだ効力がある異なる薬剤にシフトする場合がある。ＨＩＶでは、患者が治療されている間に、ウィルスがどの突然変異体を蓄積するのかによって定義される、周知の疾患の進行経路がある。

病原体が医学的な介入にどのようにして適応するのかを予測することにかなりの関心がある。１つの手法は、治療中にどの突然変異体が病原体で発生するのかを特徴付けることである。具体的には、薬剤のタンパク質は、同時にその天然基質を結合し続けながら、薬物を結合するのを回避するように突然変異する必要がある。

この応用では、ターゲットタンパク質の考えられる突然変異体の集合が提案されてよい。突然変異体ごとに、結果として生じるタンパク質の形状が予測されてよい。これらの変異タンパク質の形のそれぞれについて、システムは、天然基質と薬物の両方の結合親和性を予測するように構成されてよい。タンパク質にもはや薬物に結合させないが、天然基質に対する結合を続行させる突然変異体は、薬物耐性を与えるための候補である。これらの変異したタンパク質は、例えばこれらのタンパク質をこれらの他の予測使用事例の１つに対する入力として使用することによって、それと対照して薬物を設計するターゲットとして使用され得る。

個人向けの薬剤。効果がない薬剤は投与されるべきではない。コスト及び煩わしさに加えて、すべての薬剤は副作用を有する。倫理的考慮及び経済的考慮は、利点がこれらの害を上回るときにだけ薬剤を与えることを不可欠にする。薬剤がいつ役に立つのかを予測できることが重要であってよい。人は少数の突然変異体によって互いとは異なる。しかしながら、小さい突然変異体が計り知れない影響を有することがある。これらの突然変異体が疾病ターゲットの活性（オルソステリック）部位または調節（アロステリック）部位で発生するとき、突然変異体は薬物が結合するのを防ぎ、したがって薬剤の活動を遮る場合がある。特定の人のタンパク質構造が既知である（または予測される）とき、システムは、薬物が効果的であるかどうかを予測するように構成することができる、またはシステムは、薬物がいつ機能しないのかを予測するように構成されてよい。

この応用のために、システムは、入力として薬物の化学構造及び特定の患者の特定の発現タンパク質を受け取るように構成されてよい。システムは薬物とタンパク質との間の結合を予測するように構成されてよく、特定の患者のタンパク質構造が薬物の予測される結合親和性が弱すぎて臨床上効果的ではない場合、臨床医または開業医はその薬物が患者のために無益に処方されるのを防ぎ得る。

治験設計。この応用は上記の個人向けの薬剤の使用事例を患者集団の事例に一般化する。システムが、薬物が特定の患者の表現型に効果的であるかどうかを予測できるとき、この情報は、治験実験を設計するのに役立てるために使用できる。特定の疾病ターゲットが薬物によって十分に影響を及ぼされない患者を除外することによって、治験実験はより少ない患者を使用し、統計的検出力を達成できる。より少ない患者は治験実験のコスト及び複雑さを直接的に削減する。

この応用のために、ユーザは考えられる患者集団を、（例えば、突然変異体またはイソ型に起因する）異なるタンパク質の発現により特徴付けられる亜集団に分割してよい。システムは、異なるタンパク質タイプと対照して薬物候補の結合強度を予測するように構成されてよい。特定のタンパク質タイプに対する予測される結合強度が、（例えば、試験管、動物モデル、または健常ボランティアにおける物理的な特徴付けに基づいてのように）臨床上達成可能な入院患者濃度を下回る必要な薬物濃度を示す場合、次いで薬物候補はそのタンパク質亜集団に対して不合格になると予測される。そのタンパク質を有する患者は次いで治験から除外されてよい。

農薬設計。製薬応用に加えて、農薬業界は新しい殺虫剤の設計で結合予測を使用する。例えば、殺虫剤の１つの必要なものは、殺虫剤が、あらゆる他の種に悪影響を与えずに関心のある単一の種を止めることである。環境安全性のため、人はマルハナバチを殺すことなくゾウムシを殺すことを望むだろう。

この応用のために、ユーザは、検討中の異なる種から、タンパク質構造の集合をシステムに入力できるだろう。タンパク質の部分集合はそれに対してアクティブになるタンパク質として指定できるだろう。一方、残りは、それに対して分子がイナクティブになる必要があるタンパク質として指定されるだろう。上記の使用事例と同様に、（既存のデータベースに入っているのか、それとも新たに生成されるのかに関わりなく）分子の一部の集合は、各ターゲットと対照して検討され、システムは、第２のグループを避けながら、タンパク質の第１のグループに対して最大の効果を有する分子を返すだろう。

物質科学。新しい物質の挙動及び特性を予測するために、分子相互作用を分析することが役立つことがある。例えば、溶媒化を研究するために、ユーザは所与の小分子の繰り返される結晶構造を入力し、結晶の表面での小分子の別の例の結合親和性を評価してよい。ポリマー強度を研究するために、ポリマーストランドの集合が、タンパク質ターゲット構造に類似して入力されてよく、ポリマーのオリゴマーは小分子として入力されてよい。したがって、ポリマーストランド間の結合親和性はシステムによって予測され得る。

１つの具体的な例では、システムは、例えば水素結合及びパイ結合スタックの強度を予測することによって、ケプラー（Ｋｅｖｌａｒ）等の材料の強度を予測するために使用されてよい。したがって、本明細書に開示される結合親和性予測は、ケプラー（ＫＥＶＬＡＲ）等の改善された材料の開発を促進するために使用されてよい。

シミュレーション。分子のタンパク質の部位に留まる傾向は、そこでその結合親和性に相互に関連するため、シミュレータは多くの場合、タンパク質に対する分子の結合親和性を測定する。結合を支配する特徴の正確な記述は、特に高いまたは低い結合エネルギーを有する部位及びポーズを識別するために使用できるだろう。エネルギー記述は、分子の運動及びタンパク質結合部位の占有を説明するためにモンテカルロシミュレーションに折り畳むことができる。同様に、システム生物学を研究し、モデル化するための確率的シミュレータは、分子濃度の小さい変化がどのようにして生物ネットワークに影響を与えるのかの正確な予測から恩恵を受けることができるだろう。

結論
説明のための上記の記述は具体的な実施態様を参照して説明された。しかしながら、上記の例示的な説明は網羅的になること、または実施態様を開示された正確な形に制限することを目的としていない。上記教示を考慮して、多くの修正形態及び変形形態が可能である。実施態様は、原理及びその実際的な応用を最もよく説明し、それによって当業者が実施態様を最もうまく活用できるようにするために選ばれ、説明され、多様な修正形態を有する多様な実施態様は、意図された特定の使用に適している。

Claims

空間データを使用するテストオブジェクトの特徴付けのためのコンピュータシステムであって、
少なくとも１つの汎用プロセッサと、
前記少なくとも１つの汎用プロセッサによってアドレス指定可能な汎用メモリであって、前記汎用メモリが前記少なくとも１つの汎用プロセッサによる実行のための少なくとも１つのプログラムを記憶し、前記少なくとも１つのプログラムが、
（Ａ）ターゲットオブジェクトのための空間座標を入手することと、
（Ｂ）複数の異なるポーズの内の各ポーズで、前記ターゲットオブジェクトで前記テストオブジェクトをモデル化し、それによって複数のボクセルマップを作成することであって、前記複数のボクセルマップの内の各それぞれのボクセルマップが前記複数の異なるポーズの内のそれぞれのポーズで前記テストオブジェクトを含む、前記複数のボクセルマップを作成することと、
（Ｃ）前記複数のボクセルマップの内の各ボクセルマップを対応するベクトルに展開し、それによって複数のベクトルを作成することであって、前記複数のベクトルの内の各ベクトルが同じサイズである、前記複数のベクトルを作成することと、
（Ｄ）前記複数のベクトルの内に各それぞれのベクトルを、（ｉ）前記複数のベクトルを連続して受け取るための入力層と、（ｉｉ）複数の畳み込み層と、（ｉｉｉ）スコアラとを含むネットワークアーキテクチャに入力することであって、
前記複数の畳み込み層が初期畳み込み層及び最終畳み込み層を含み、
前記複数の畳み込み層の各層が重みの異なる集合と関連付けられ、
前記複数のベクトルの内のそれぞれのベクトルの入力に応えて、前記入力層が前記それぞれのベクトルの値の第１の関数として第１の複数の値を前記初期畳み込み層に送り込み、
前記最終畳み込み層以外の各それぞれの畳み込み層が、（ｉ）前記それぞれの畳み込み層と関連付けられた前記重みの異なる集合と、（ｉｉ）前記それぞれの畳み込み層によって受け取られる入力値のそれぞれの第２の関数として中間値を前記複数の畳み込み層の内の別の畳み込み層に送り込み、
前記最終畳み込み層が、（ｉ）前記最終畳み込み層と関連付けられた前記重みの異なる集合と、（ｉｉ）前記最終畳み込み層によって受け取られる入力値の第３の関数として、最終値を前記スコアラに送り込む、
前記ネットワークアーキテクチャに入力すること、
（Ｅ）前記スコアラから複数のスコアを入手することであって、前記複数のスコアの内の各スコアが前記入力層の中への前記複数のベクトルの内のベクトルの前記入力に対応する、前記複数のスコアを入手することと、
（Ｆ）前記テストオブジェクトの特徴付けを提供するために前記複数のスコアを使用すること
のための命令を含む、前記汎用メモリと、
を備える、前記コンピュータシステム。
前記スコアラが複数の完全接続層及び１つの評価層を備え、前記複数の完全接続層の内の完全接続層が前記評価層の中に流れ込む、請求項１に記載のコンピュータシステム。
前記スコアラが、決定木、多重加法回帰ツリー、クラスタ化アルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポートベクタマシン、発展的方法、射影追跡、及びその集合体を備える、請求項１に記載のコンピュータシステム。
前記複数のベクトルの内の各ベクトルが１次元ベクトルである、請求項１〜３のいずれか１項に記載のコンピュータシステム。
前記複数の異なるポーズが２つ以上のポーズ、１０以上のポーズ、１００以上のポーズ、または１０００以上のポーズを備える、請求項１〜４のいずれか１項に記載のコンピュータシステム。
前記複数の異なるポーズが、マークアップ連鎖モンテカルロサンプリング、シミュレーテッドアニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムの内の１つでドッキングスコア関数を使用し、入手される、請求項１〜５のいずれか１項に記載のコンピュータシステム。
前記複数の異なるポーズが、欲張りアルゴリズムを使用するインクリメンタルサーチによって入手される、請求項１〜５のいずれか１項に記載のコンピュータシステム。
前記ターゲットオブジェクトがポリマーである、請求項１〜７のいずれか１項に記載のコンピュータシステム。
前記ポリマーが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはその任意の組合せのアセンブリである、請求項８に記載のコンピュータシステム。
前記ターゲットオブジェクトがポリマーであり、前記空間座標が２．５Åまたはそれより良い分解能で分解された前記ポリマーの結晶構造のための３次元座標｛Ｘ_１、．．．、Ｘ_Ｎ｝の集合である、請求項１〜７のいずれかに記載のコンピュータシステム。
前記ターゲットオブジェクトがポリマーであり、前記空間座標が、核磁気共鳴、中性子回折、または低温電子顕微鏡法によって決定される前記ポリマーの３次元座標の集合体である、請求項１〜７のいずれかに記載のコンピュータシステム。
前記テストオブジェクトが化合物であり、前記テストオブジェクトを特徴付けるために前記複数のスコアを使用することが、前記複数のスコアの中心傾向の測定値をとることを含み、
前記中心傾向の測定値が所定の閾値または所定の閾値範囲を満たすとき、前記特徴付けが、前記テストオブジェクトが第１の分類を有すると見なすことと、
前記中心傾向の測定値が前記所定の閾値または前記所定の閾値範囲を満たすことができないとき、前記特徴付けが、前記テストオブジェクトが第２の分類を有すると見なすことと、
を含む、請求項１〜１１のいずれか１項に記載のコンピュータシステム。
前記テストオブジェクトを特徴付けるために前記複数のスコアを前記使用することが、前記複数のスコアの加重平均をとることを含み、
前記加重平均が所定の閾値または所定の閾値範囲を満たすとき、前記テストオブジェクトが第１の分類を有すると見なされ、
前記加重平均が前記所定の閾値または前記所定の閾値範囲を満たすことができないとき、前記テストオブジェクトが第２の分類を有すると見なされる、
請求項１〜１１のいずれか１項に記載のコンピュータシステム。
前記加重平均が前記複数のスコアのボルツマン平均である、請求項１３に記載のコンピュータシステム。
前記第１の分類が、第１の結合値を上回る前記ターゲットオブジェクトに関して前記テストオブジェクトのためのＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩであり、
前記第２の分類が、前記第１の結合値未満である前記ターゲットオブジェクトに関して前記テストオブジェクトのためのＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩである、
請求項１３に記載のコンピュータシステム。
前記第１の結合値が１ミクロモルである、請求項１５に記載のコンピュータシステム。
前記第１の結合値が、前記ターゲットオブジェクトに関して異なるテストオブジェクトについて予測されたＩＣ５０、ＥＣ５０、Ｋｄ、またはＫＩである、請求項１５に記載のコンピュータシステム。
前記テストオブジェクトを特徴付けるために前記複数のスコアを前記使用することが、前記複数のスコアの加重平均をとることを含み、前記加重平均が複数の閾値範囲の内のそれぞれの閾値範囲を満たすとき、前記使用すること（Ｆ）が、前記テストオブジェクトを、前記それぞれの閾値範囲に一意に対応する複数のそれぞれの分類の内のそれぞれの分類を有すると見なすことを含む、請求項１〜１１のいずれか１項に記載のコンピュータシステム。
前記複数の分類の各それぞれの分類が、前記ターゲットオブジェクトに関して前記テストオブジェクトのためのＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩの範囲である、請求項１８に記載のコンピュータシステム。
前記複数の分類の第１の分類が１ミクロモルと１ミクロモルの間である、請求項１９に記載のコンピュータシステム。
前記ターゲットオブジェクトが活性部位を有するポリマーであり、前記テストオブジェクトが化学組成物であり、前記モデル化することは前記テストオブジェクトを前記ポリマーの前記活性部位の中にドッキングすることを含む、請求項１〜７のいずれか１項に記載のコンピュータシステム。
前記複数の畳み込み層の内の畳み込み層が複数のフィルタを有し、前記複数のフィルタの各フィルタがストライドＹでＮ^３の３次元の入力空間をコンボリュ−ションし、Ｎは２以上の整数であり、Ｙは正の整数である、請求項１に記載のコンピュータシステム。
前記畳み込み層と関連付けられた前記重みの異なる集合が前記複数のフィルタのそれぞれのフィルタと関連付けられる、請求項２２に記載のコンピュータシステム。
前記スコアラが複数の完全接続層及び１つのロジスティック回帰コスト層を備え、前記複数の完全接続層の完全接続層が前記ロジスティック回帰コスト層に流れ込む、請求項１に記載のコンピュータシステム。
前記ターゲットオブジェクトが活性部位を有するポリマーであり、
前記テストオブジェクトは化学組成物であり、
前記モデル化することが、前記ターゲットオブジェクト及び前記テストオブジェクトの分子力学ランを実行し、それによって経時的に前記ターゲットオブジェクト及び前記テストオブジェクトの軌跡をともに形成することを含み、
前記複数の異なるポーズの部分集合が、ある期間にわたり前記軌跡のスナップショットを撮影することによって入手される、
請求項１〜７のいずれか１項に記載のコンピュータシステム。
前記コンピュータシステムがさらに、図形処理メモリを有する図形処理ユニットを備え、前記図形処理メモリが前記ネットワークアーキテクチャを備え、前記提供すること（Ｄ）を実行し、前記少なくとも１つの汎用プロセッサが前記使用すること（Ｆ）を実行する、請求項１に記載のコンピュータシステム。
前記テストオブジェクトの前記特徴付けが前記テストオブジェクトの毒性予測である、請求項１に記載のコンピュータシステム。
前記テストオブジェクトの特徴付けが、第１の分子ターゲット対第２の分子ターゲットと対照する前記テストオブジェクトの選択性の予測であり、前記第１の分子ターゲットが疾病にリンクされる、請求項１に記載のコンピュータシステム。
前記第１の分類が、前記テストオブジェクトが宿主生物にとって有毒ではない旨の判断であり、
前記第２の分類が、前記テストオブジェクトが前記宿主生物にとって有毒である旨の判断である、請求項１２に記載のコンピュータシステム。
前記第１の分類が、前記テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する分子病ターゲットに結合する旨の予測であり、
前記第２の分類が、前記テストオブジェクトが、前記第１の結合値を上回るＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する分子病ターゲットに結合する旨の予測である、請求項１２に記載のコンピュータシステム。
前記第１の分類が、前記テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及び前記テストオブジェクトが、前記第１の結合値を上回るＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測であり、
前記第２の分類が、前記テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及び前記テストオブジェクトが、前記第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測である、請求項１２に記載のコンピュータシステム。
前記第１の結合値が１ミクロモルである、請求項３０に記載のコンピュータシステム。
前記第１の分類が、前記テストオブジェクトが宿主生物にとって毒性ではない旨の判断であり、
前記第２の分類が、前記テストオブジェクトが前記宿主生物にとって毒性である旨の判断である、請求項１３に記載のコンピュータシステム。
前記第１の分類が、前記テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及び前記テストオブジェクトが、前記第１の結合値を上回るＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測であり、
前記第２の分類が、前記テストオブジェクトが、第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第１の分子病ターゲットに結合する旨、及び前記テストオブジェクトが、前記第１の結合値未満であるＩＣ_５０、ＥＣ_５０、Ｋｄ、またはＫＩを有する第２の分子病ターゲットに結合する旨の予測である、請求項１３に記載のコンピュータシステム。
前記第１の結合値が１ミクロモルである、請求項３４に記載のコンピュータシステム。
前記ターゲットオブジェクトが疾病とリンクされ、前記ターゲットオブジェクトに対する前記テストオブジェクトの結合による前記ターゲットオブジェクトの阻止が前記疾病を緩和すると予測される、請求項１９に記載のコンピュータシステム。