JP2017520868A

JP2017520868A - 結合親和性予測システム及び方法

Info

Publication number: JP2017520868A
Application number: JP2017510709A
Authority: JP
Inventors: サミュエルハイフェッツ，エイブラハム; ワラッチ，イズハール; ザンバ，マイケル
Original assignee: アトムワイズ，インコーポレイテッド
Priority date: 2014-05-05
Filing date: 2015-05-05
Publication date: 2017-07-27
Anticipated expiration: 2035-05-05
Also published as: CN106575320A; EP3140763A1; JP6671348B2; SG11201609238VA; CN106575320B; EP3140763A4; EP3140763B1; WO2015168774A1

Abstract

結合親和性を予測するためのシステム、装置、および方法が開示される。入力データを反映する記録が格納される。結合入力機能の幾何学的な表現を提供するデータ構造が構築される。データ構造は、少なくとも１つの分子と少なくとも１つの標的タンパク質に関連するコード化データによって移入されており、コード化のデータは格納された入力データから選択される。予測モデルは、少なくとも１つの標的タンパク質への少なくとも１つの分子の結合親和性の指標を生成するために、データ構造に適用される。【選択図】図５

Description

本開示は、一般にはバイオインフォマティクスのシステムに関し、より具体的には１つまたは複数の分子の結合親和性を予測するシステム及び方法に関する。

タンパク質への分子の結合親和性を正確に予測する能力は、新薬の発見と自然及び工学生物学的プロセスの解明において基本的なツールである。不幸にも、結合親和性予測では、結合を支配する要因の数は広範囲であり、それらの相互作用はあまり理解されていない。

予測の精度は、予測モデルによって検討されている機能に依存する。機械学習機能を組込んだものを含む、いくつかの結合親和性予測ソリューションが知られている。いくつかの従来技術のソリューションは、化学物質の複雑さとタンパク質の構造を反映していないであろう比較的単純な予測モデルを使用する。また、それらは、結合親和性に影響する分子とタンパク質間の相互作用の多くの変数を反映していないであろう。例えば、分子とタンパク質間の所与の相互作用は、距離、角度、原子タイプ、電荷及び分極、並びに関与する周囲安定化または不安定化環境要因、によって影響され得る。

従来技術のソリューションは、例えば、原子の対／基、例えば分子（薬物標的など）からの１原子とタンパク質からの１原子を使用する知識ベースのスコアリング関数などの単純な機能を使用する。次いで、これらの対を、例えば、可能性のある分子／タンパク質結合原子対を導出するために、これらの対の間の距離を評価することによって分析する。スコアは集めることができ、これらの集められたスコアは、分子／タンパク質結合親和性すなわち「フィット」を決定するために、分析され得る。結合親和性予測ソリューションのパフォーマンスは使用されるモデルに依存し、これらは通常手動で構築されトレーニングされるが、時間がかかる。

従来技術の結合親和性ソリューションは、一般に、（ｉ）知識ベースの、（ｉｉ）経験的な、ものを含むか、または（ｉｉｉ）力場ベースのスコアリング関数を含む。知識ベースの機能は、典型的には、原子対または官能基が生物学的複合体において所与の距離だけ離れている回数のカウントからなる。これらの機能は、単純（ある距離だけ離れた２点）であるので、上述の複雑なセットの影響要因を捕捉することができない。経験的スコアリング関数は、回転可能な結合、水素結合ドナー−アクセプター対、芳香族スタック、静電気、立体相補性もしくは歪み、または溶媒アクセス可能な疎水性領域などの少数（数十）の手で操作された機能に、相対的な重要性の重みのセットをフィットさせる。これらの機能の開発は専門的な知識と広範なマニュアルチューニングを必要とするが、上述したように、専門家の化学者でも、分子間相互作用を支配する力を一貫して解くことはできないので、任意のそのような機能は、必然的に限定された近似となるであろう。力場ベースのスコアリング関数は、計算上効率的であるように設計されており、気相の予測からの理論的結果への近似を必要とする。例えば、そのようなシステムは、粗溶媒分子による電界強度の重要な媒介を無視するか、または粗く近似している。

上述の理由で、従来技術の結合親和性予測ソリューションは望まれるほど正確ではないであろう。

より正確及び／またはより効率的な結合親和性予測を提供し、または少なくとも親和性結合予測を提供するための代替方法を提供するソリューションに対する必要性が存在する。

一態様においては、結合親和性を予測するシステムが提供される。システムは、入力データを反映する記録を格納するように構成された少なくとも１つの電子データストアと、結合の入力機能の幾何学的表現を提供するデータ構造を構築することと、少なくとも１つの分子及び少なくとも１つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むことであって、コード化するデータは格納された入力データから選択される、データ構造を取込むことと、を行うように構成されるエンコーダーモジュールと、少なくとも１つの標的タンパク質に対する少なくとも１つの分子の結合親和性の指標を生成するために、データ構造に予測モデルを適用するように構成された予測モジュールと、を備える。

他の態様においては、結合親和性を予測するコンピューター実装方法が提供される。方法は、少なくとも１つの電子データストアに、入力データを反映した記録を格納すること、少なくとも１つのプロセッサーに、結合の入力機能の幾何学的表現を提供するデータ構造を構築すること、少なくとも１つのプロセッサーに、少なくとも１つの分子及び少なくとも１つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むことであって、コード化するデータは格納された入力データから選択されるデータ構造を取込むこと、少なくとも１つの標的タンパク質に対する少なくとも１つの分子の結合親和性の指標を生成するために、データ構造に予測モデルを適用すること、を含む

この点において、本発明の少なくとも１つの実施形態を詳細に説明する前に、本発明は、その適用において、以下の記載で述べられるまたは図面に例示される構造の詳細及びコンポーネントの配置に限定されるものではないことが理解されるべきである。本発明は、他の実施形態で可能であり、様々な方法で実施及び実行することが可能である。また、本明細書中で用いられる表現及び用語は説明のためのものであり、限定するものとみなされるべきではないことが理解されるべきである。

図面においては、本発明の実施形態は、例示の目的で示されている。明細書及び図面は、例示及び理解の補助としての目的のみのものであり、本発明の限定の定義として意図されないことが明確に理解されるべきである。

一実施形態に係る、親和性結合を予測するための例示システムを示すブロック図である。一実施形態に係る、親和性結合を予測するための高レベルのステップを示すワークフロー図である。一実施形態に係る、３次元格子のボクセルの形態の入力機能の幾何学的表現の模式図である。一実施形態に係る、２つの異なる方向の例示分子の模式図である。一実施形態に係る、ボクセルの２次元格子可視化にコード化された２つの分子の図である。一実施形態に係る、ボクセルの２次元格子可視化にコード化された２つの分子の図である。一実施形態に係る、図６の可視化の図であり、ボクセルは番号付けされている。一実施形態に係る、原子中心の座標位置の形式での入力機能の幾何学的表現の模式図である。一実施形態に係る、位置範囲を有する図８の座標位置の概略図である。一実施形態に係る、ボクセル入力（ｘ１、ｘ２、．．．、ｘ１００）に多関数演算素子（ｇ１、ｇ２、．．．）を適用し、ｇ（）を一緒に使用して関数演算素子の出力を合成する図である。一実施形態に係る、図１のシステムのハードウェアコンポーネントの模式図である。

一態様において、本開示は、新規で革新的な結合親和性予測システムを備えるコンピューターシステムを提供する。結合親和性予測システムは、１つまたは複数のタンパク質と、１つまたは複数の分子の結合親和性に関する正確な予測を生成し得る。

一実施形態では、結合親和性予測システムは、大量の生物学的データを分析するように構成され得る。例えば、コンピューターシステムは、例えば、数千万のデータポイントを含むデータベースを備え得るか、またはリンクし得る。とりわけ、そのようなデータソース、アプリケーションなどの様々な要因に依存して、データポイントの数は変化し得る。

生物学的データからのこれらの幾何学的特徴の表現を容易にするために、システムは、データ表現、例えば、天然の空間を可視化するデータ構造を生成するように構成され得る。

一実施形態では、ユニークで革新的なデータ表現が生物学的データのための「コンテナ」として作用するように提供され、それは、１つまたは複数の分子と１つまたは複数のタンパク質の間の結合親和性（より広範なセットの結合パラメーターに基づくものを含む）を発見するためにディープラーニング技術の適用を可能にするように、固定された入力サイズを有する。

例えば、色のパッチの相対位置及びサイズに基づき得る画像分類システムとは対照的に、本明細書に開示の結合親和性予測システムは、様々なタイプの原子の基における位置と距離を認識するように構成され得る。

一例として、生物学的データに関し、一実施形態では、システムは、所与のボクセル内のすべての原子の存在をそのエントリーに対して異なる数として表すように構成することができ、例えば、炭素がボクセル内にある場合、炭素の原子番号は６であるので、６の値がそのボクセルに割り当てられる。しかし、そのようなコード化は、原子番号が近い原子は同様に挙動することを意味し、それは、用途に応じて、特に有用ではないであろう。さらに、元素の挙動は、グループ（周期表の列）内でより類似し得、従ってそのようなコード化は、ディープラーニングシステムがデコードするための追加作業をもたらす。

別の実施形態では、システムは、「ワンホット」コード化と本明細書で呼び得るものでタイプをコード化するように構成されてもよい。すべての原子タイプは、別個のチャンネルを有する。１００を超える元素が存在するが、ほとんどは生物学で遭遇しない。しかし、最も一般的な生物学的元素（すなわち、Ｈ、Ｃ、Ｎ、Ｏ、Ｆ、Ｐ、Ｓ、Ｃｌ、Ｂｒ、Ｉ、Ｌｉ、Ｎａ、Ｍｇ、Ｋ、Ｃａ、Ｍｎ、Ｆｅ、Ｃｏ、Ｚｎ）を表しても、受容体のフィールドに１８チャンネルまたは１０４８３×１８＝１８８，６９４の入力がもたらされ得る。原子の他の特性（例えば、部分電荷、タンパク質標的に対するリガンドの存在、電気陰性度、またはＳＹＢＹＬ原子タイプ）がさらに与えられる場合、それ以外は同等の原子間で区別するためにより多くの入力チャンネルが必要となり、可能なインプットの数はさらに高くなり得る。

データ表現は、例えば、分子／タンパク質に関連した様々な構造関係の表現を可能にするように、生物学的データでコード化されてもよい。次いで、ディープラーニング法を、データ表現にコード化されたデータに適用してもよく、分子／タンパク質の複数の構造的特徴を反映した解析結果の生成を潜在的に可能にする。このアプローチは、従来技術の結合予測技術によって使用される機能よりも多くの複雑な機能をもたらし得る。

好都合には、本明細書に開示の実施形態は、一般的に手動で構築及び／または調整されなければならない複雑な構造上の機能の作成を必要としない。

むしろ、一態様では、結合親和性予測システムを結合データから取出した機能のセットを抽出（例えば、自動的に）するための「ディープラーニング」法を実装する。

より具体的には、本明細書に開示の実施形態は、計算オーディオ及びビデオ処理に使用されるものなどの様々な技術を適合させており、ここでディープラーニング法は、生物学的データの大量のセットに関連する親和性結合を予測するのに使用することができ、それによって従来技術のものより有用及び／または正確なものとし得るより多くの結果を提供する。

一実施形態では、結合親和性予測システムは、正確な分子／タンパク質結合親和性予測を行うことに関与した多様で複雑な化学及びタンパク質の構造を決定する、有意な量のデータの分析を可能にするように構成され得る。

さらに、結合親和性予測システムは、関連分子／タンパク質の構造特性で部分的に生物学的データの分析を可能にするための効率的でスケーラブルなメカニズムを提供し得る。

コンピューターシステムは、（ａ）バイオインフォマティックスシステム、または（ｂ）創薬システムを含む多数の異なるシステムを提供するために実装されてもよいし、また多数の異なるシステムと統合し得る。他のシステムは、例えば結合親和性予測を組込んだ（ａ）個別化医療システムまたは（ｂ）医療記録システムを含む、本明細書に開示された機能も組込むことができる。

一実施形態では、コンピューターシステムは、１つまたは複数のコンピューターを備え、その１つまたは複数のコンピューターは、実行されるときに、１つまたは複数の結合親和性予測を生成するように、情報（生物学的情報など）の１つまたは複数のデータベースから受取られまたは得られたものを含むデータセット、結合親和性予測関数に適用される結合親和性予測ユーティリティに連結されている。

図１を参照すると、一実施形態に係る、サンプルシステム実装を示すブロック模式図が提供されている。

図示のように、システムはアナライザー１０を備える。アナライザー１０は、入力データ（例えば、生物学的データ）を反映する記録を格納する１つまたは複数のデータベース１２に連結され得る。これらのデータベースは、分子データベース１２ａ、タンパク質データベース１２ｂ、親和性データベース１２ｃ、変換データベース１２ｄ、などのデータベースを備え得る。様々なデータベースをまとめてデータベース１２と呼ぶ。あるいはまたは併せて、システムは、追加の生物学的データも有し得る１つまたは複数のリモートシステム１３からの生物学的情報を取得してもよい。

分子データベース１２ａとタンパク質データベース１２ｂは、様々な原子、リガンド分子、有機及び無機補因子、並びにタンパク質の相対的な位置を記述する、様々な生物学的、物理的及び／または化学的データを含む。便宜上、用語「生物学的データ」は、そのようなすべてのデータを指すのに本明細書では広く使用され得る。親和性データベース１２ｃは、数値的結合親和性であり得る結合情報を含み得る。変換データベース１２ｄは、幾何学的形状の回転、並進、及びミラーリングのための様々なオペランドを含み得る。

データベース１２及び／またはリモートシステム１３からのデータは、例えば、溶液ＮＭＲによって生成される構造アンサンブル、Ｘ線結晶学から解釈される共複合体、計算機シミュレーションからのサンプリング、ホモロジーモデリングまたは回転異性体ライブラリーのサンプリングなどの近似的ポーズ生成技術、及びこれらの技術の組合せ、などの様々なソースから入力データとして受取られるデータを含み得る。入力データは、トレーニング例と標識の両方を含み得る。

アナライザー１０は、データエンコーダーモジュール１４及び予測モデルモジュール１８を備え得る。アナライザー１０は、可能性のある結合親和性を発見または予測するための１つまたは複数の学習アルゴリズムを含む１つまたは複数のアルゴリズムライブラリー１６に連結されている。アナライザー１０は、様々なデータベース１２及び／またはリモートシステム１３からの入力を受取り、選択または定義された生物学的データを１つまたは複数の幾何学的なデータ表現にコード化するデータエンコーダーモジュール１４に、それらを提供する。１つまたは複数の幾何学的なデータ表現は、次いで、可能性のある結合親和性の予測を決定するために、１つまたは複数のアルゴリズムライブラリーから１つまたは複数のアルゴリズムを適用する、予測モデルモジュール１８に提供される。

予測モデルモジュール１８は、予測のために使用される様々なディープラーニング技術及び／または機械学習技術を利用するように構成され得る。

予測モデルモジュール１８は、さらに、より多くの入力が処理される場合、時間をかけてトレーニングされるように構成され得る。一実施形態では、予測モデルモジュール１８は、重み付け接続によってニューラルネットワークを利用するように構成されており、さらに、様々なトレーニングイベント及び／または条件に基づいて重み付けを適合させるように構成されてもよい。アルゴリズムライブラリー１６は、接続の重み付け、などの情報を含み得る、予測モデルモジュール１８の前の操作に関連する情報を格納及び／または処理することによって、トレーニングをサポートするように構成され得る。

図２を参照すると、一実施形態に係る、親和性結合を予測するための高レベルのステップを示すワークフローが提供されている。

ワークフローは、入力データを受取って幾何学的表現２２に変換し、予測モデル２４を開発し、結合親和性予測のための予測モデル２６を適用し、及び予測モデル２８をトレーニングするステップを含む。ステップは、単に例示目的で提供されており、実施形態に応じて、より多いまたはより少ないステップがあってもよく、ステップは変化し得るか、または他の順序になり得ることが理解されるであろう。

これらのステップは、以下により詳細に記載される。

入力データの受取りと幾何学的な表現へのコード化
入力データの受取りと幾何学的な表現へのコード化のステップ２２では、アナライザー１０はデータベース１２及び／またはリモートシステム１３から多くのインプットを受取り得、データエンコーダーモジュール１４を使用して、一実施形態では可視化された現実空間である幾何学的表現を作成するデータ表現（例えば、データ構造）を開発する。

データベース１２及び／またはリモートシステム１３からのデータは、様々な原子、リガンド分子、有機及び無機補因子、並びにタンパク質の相対的な位置を記述する、様々な生物学的、物理的及び／または化学的データを記載し得る。データはまとめて「入力データ」と記載される。

例えば、データエンコーダーモジュール１４は、結合入力機能の幾何学的表現を提供するデータ構造を構築し、１つまたは複数の分子及び１つまたは複数の標的タンパク質に関連するデータをコード化することによりデータ構造を取込むように構成され得る。コード化のためのデータは、上記の入力データから選択され得る。

入力幾何学的データは、トレーニング例にグループ化されてもよい。例えば、単一のセットの分子、補因子、及びタンパク質が複数の幾何学的測定値を有する場合がしばしばあり、ここで、各「スナップショット」は、タンパク質及び分子が適合し得る代替の配座及びポーズを記述する。同様に、タンパク質側鎖、補因子、及びリガンドの異なる互変異性体も、サンプリングされ得る。これらの状態はすべてボルツマン分布に従って、生物学的システムの挙動に寄与するので、結合親和性を予測するシステムは、一緒にこれらの状態を考慮するように構成され得る。

任意選択で、これらのトレーニング例は、結合情報で標識してもよい。定量的な結合情報が利用可能である場合、標識は数値的結合親和性であってもよい。あるいは、トレーニング例は、複数の注文したカテゴリーのセット（例えば、２つのカテゴリーの結合剤及び非結合剤、または効力＜１モル、＜１ミリモル、＜１００マイクロモル、＜１０マイクロモル、＜１マイクロモル、＜１００ナノモル、＜１０ナノモル、＜１ナノモルの結合剤としてリガンドを記述するいくつかの可能性のある重複するカテゴリー）から標識を割り当て得る。結合情報は、実験測定値、計算された評価、専門家の意見、または推定など、さまざまなソースから得られまたは受取られ得る（例えば、分子とタンパク質のランダムな対は、結合する可能性は非常に低い）。

入力データは処理される。例えば、一実施形態では、データエンコーダーモジュール１４は、例えば、３つのＸ、Ｙ及びＺ平面の任意の組合せにおいて回転、並進、及びミラーリング演算子の何らかの組合せを含む、１つまたは複数の予め定義された変換を適用して追加のインスタンスを生成することにより入力データを増強するように構成され得る。幾何学的データの回転及び並進は、ランダムに選択する（例えば原点からプラスマイナス５Åのある範囲以内）か、またはあるあらかじめ指定された増分で均一に生成させる（例えば、円の周りですべて５度の増分）か、または敵対的に選択（例えば、所与の予測システムから間違った予測を生成するために）し得る。データのこの増強は、１つまたは複数のデータ増強演算子を備え得る変換データベース１２ｄからの入力を介して構成され得る。図４は、２つの異なる方向の例示分子４０のサンプル例示を提供する。

データ増強演算子（もしあれば）が適用された後、データエンコーダーモジュール１４は、得られる幾何学的データを切り捨てるように構成されてもよい。ニューラルネットワークは固定された入力サイズを必要とするため、システムは、適切な境界ボックス内に収まるように幾何学的データをトリミングし得る。例えば、２５〜４０Åのキューブを使用してもよい。入力データも固定サイズの格子に並進させ得る（例えば、マッピングする）。

幾何学的表現は、様々な実施形態によれば、様々な方法及びトポグラフィーで実装され得る。幾何学的表現は、データの可視化及び分析のために使用される。例えば、一実施形態では、幾何学的形状は、２−Ｄ、３−Ｄデカルト／ユークリッド空間、３−Ｄ非ユークリッド空間、マニホールド、などの、様々なトポグラフィーにレイアウトされたボクセルを用いて表すことができる。例えば、図３は、３次元格子のボクセルを含む例示表現を提供し、図５は、２次元格子のボクセルを含む例示表現を提供する。

別の実施形態では、幾何学的形状は、例えば、図８に示されるように、関連するペアワイズ距離注釈付き３Ｄ空間内の点のセットによって表し得る。

ボクセルは、例えば、とりわけ、標識を適用すること、及び／またはそれらの位置を決定することによって表し得る、それらに関連付けられた特定の値を有し得る。

データエンコーダ部１４は、ボクセル格子に空間を分割するために、様々な形状の任意のものを使用するように構成され得る。いくつかの実施形態では、矩形、多角形、などの多面体が、空間を分割するのに使用され得る。

一実施形態では、格子構造は、ボクセルの構成と同様であるように構成され得る。例えば、各サブ構造は、分析される各原子のチャンネルと関連付けられてもよい。また、コード化方式は、各原子を数値的に表すために提供されてもよい。

一実施形態では、データエンコーダーモジュール１４は、幾何学的データを規則的に配置されたユークリッド格子のキューブボクセルの離散集合に変換するように構成され得る。データエンコーダーモジュール１４は、多様な異なる分解能で幾何学的形状を設定するように構成されてもよい。例えば、１Åの分解能を選択し得るが、システムは、より微細な（例えば、０．１Åまたはさらに０．０１Å）またはより粗い（例えば、４Åまたは４Å）分解能を選択するように構成することができ、ここで間隔は入力データをカバーする整数のキューブを与える。

１Åの分解能の４０Å入力キューブに関しては、例示のように、そのような配置は、４０×４０×４０＝６４，０００入力ボクセルをもたらすであろう。

いくつかの実施形態では、幾何学的表現は時間の要因を考慮して生成され、従って、四次元（Ｘ、Ｙ、Ｚ、及び時間）であってもよい。

いくつかの実施形態では、ピクセル、点、多角形、多面体、または多次元における任意の他のタイプの形状（例えば、３−Ｄ、４−Ｄ、などにおける形状）などの他の実装をボクセルの代りに使用し得る。

一実施形態では、幾何学的な情報は、リガンド、補因子、及びタンパク質を含む原子の中心のＸ、Ｙ、Ｚ座標で表すことができる。一つの代替表現は、例えば、Ｘ線結晶学で測定される電子密度である。

一実施形態では、すべてのボクセルは、それらに関連する様々な値を有していてもよい、単純な実装でオン／オフし得る、１つまたは複数の入力チャンネルを有し、原子のタイプをコード化するように構成されてもよい。原子タイプは、原子の要素を示し得る、または原子タイプは、他の原子の特性を区別するために精緻化し得る。

一実施形態では、システムは、Ｘ、Ｙ、Ｚ座標の原点がキャビティフラッディングアルゴリズムによって決定される結合部位の質量中心となるように選択することによって、幾何学的データを正規化するように構成され得る。あるいは、システムは、タンパク質だけの、またはリガンドだけの、全体の共複合体の質量中心に原点を置くように構成することができる。基底ベクトルは、任意選択で、タンパク質だけの、またはリガンドだけの全体の共複合体の慣性の主モーメントとなるように選択し得る。

次いで、存在する原子は、各ボクセルでコード化され得る。様々なタイプのコード化を、様々な技術及び／または方法を使用して利用し得る。コード化方法の例として、原子の原子番号を利用してもよく、水素の１からウンウンオクチウムの１１８（または任意の他の元素）の範囲のボクセル毎に１つの値が得られる。

しかし、図５、６、及び７に示されているように、すべてのボクセルが多数の並列入力チャンネルを有し、そのそれぞれがオンまたはオフのいずれかであって原子の種類をコード化する、上記の「ワンホットコード化」などの、他のコード化方法を利用してもよい。原子タイプは、原子の要素を示してもよく、または原子タイプは、他の原子の特性を区別するためにさらに精緻化し得る。例えば、Ｓｙｂｙｌ原子タイプは、単結合炭素を二重結合、三重結合、または芳香族の炭素と区別する。

一実施形態では、データエンコーダーモジュール１４は、さらに、リガンドに対するタンパク質または補助因子の一部である原子を区別する。

他のチャンネルは、さらに（または代替的に）、部分電荷、分極率、電気陰性度、溶媒アクセス可能空間、及び電子密度などのさらなる情報を指定し得る。

いくつかの実施形態では、データエンコーダーモジュール１４は、他の追加の任意選択のコード化の改良のためにも構成され得る。以下は実施例として提供される。

ほとんどの元素は生物学的システムにはめったに現れない。第１のコード化の改良では、必要なメモリーは、システムで表される原子のセットを減少させることによって低減し得る。原子は、稀な原子の組合せ（従ってシステムの実行にほとんど影響を与えないであろう）によるか、または類似の特性を有する原子の組合せ（従って組合せから不正確さを最小限に抑え得るであろう）によるかのいずれかで、同じチャンネルを共有するようにマッピングし得る。

第２のコード化の改良は、隣接するボクセルを部分的に活性化することによって原子位置を表すように、システムを構成し得る。隣接するニューロンの部分的な活性化は、ワンホットコード化から離れて「いくつかのウォーム（ｓｅｖｅｒａｌ−ｗａｒｍ）」コード化に移動する。例えば、１Å^３の格子が配置されたときに３．５Åのファンデルワールス径従って２２．４Å^３の体積を有する塩素原子を考慮するのが例示的であり、塩素原子内部のボクセルは完全に充たされ、原子のエッジ上のボクセルは部分的にのみ充たされるであろう。システムは、塩素原子内にあるボクセルの体積に比例して部分的に充たされたボクセルを部分的にオンするように構成され得る。これは、離散ワンホットコード化に対して、「平滑化」及びより正確な表現をもたらし得る。

データエンコーダーモジュール１４からの出力は、入力データに適用される様々なルールに基づいてコード化された幾何学的なデータのセットである。

図３は、本実施形態に係る、サブコンテナー３２のシリーズを含むサンプル３次元格子構造３０を示す。各サブコンテナー３２はボクセルに相当し得る。座標系は、各サブコンテナーが識別子を有するように、格子に対して定義されてもよい。図示の実施形態では、座標系は、３次元空間におけるデカルト座標系である。しかしながら、他の実施形態では、座標系は、とりわけ、扁平回転楕円体、円筒形または球形の座標系、極座標系、様々なマニホールド及びベクトル空間に対して設計された他の座標系などの、任意の他のタイプの座標系であってもよい。

図５と図６はそれぞれ、一実施形態に係る、ボクセルの二次元格子５０上にコード化された２つの分子の表示を提供する。図５は、二次元格子５０上に重ね合せた２つの分子５２を提供する。示されるように、格子内の各位置は、例えば、酸素、窒素、炭素、及び空き空間の存在を識別する、識別子でコード化される。上述のように、そのようなコード化は、「ワンホット」コード化と呼ばれ得る。図６は、省略した分子５２を有する図５の格子５０を示す。図７は、各ボクセルが番号付けされた、格子５０の表示を提供する。

述べたように、機能ジオメトリーはボクセル以外の形で表すことができる。図８は、機能（例えば、原子中心）が０−Ｄの点（表示８０）、１−Ｄの点（表示８２）、２−Ｄの点（表示８６）、または３−Ｄの点（表示８４）として表現されている様々な表現の表示を提供する。最初に、点の間の間隔は、ランダムに選択されてもよい。しかし予測モデルがトレーニングされるとき、点は接近するか、遠ざかるように動き得る。図９は、各点の可能な位置の範囲を示す。

図１０は、いくつかの実施形態に係る、ボクセル入力（ｘ１、ｘ２、．．．、ｘ１００）への多関数演算素子（ｇ１、ｇ２、．．．）の適用及びｇ（）を一緒に使用した関数演算素子の出力の合成の描写を提供する。例えば、各ボクセル入力は４０の異なる原子タイプのワンホットコード化ベクターであってもよい。

予測モデルの開発
予測モデルモジュール１８は、ステップ２４において予測モデルを開発するために、データエンコーダーモジュール１４からの幾何学的なデータの出力を使用するためのディープラーニング法を利用するように構成され得る。ディープラーニング法は、様々な実施形態によれば、監視される、または監視されない方法であり得る。

予測モデルモジュール１８は、例示的な、非限定的な例として、とりわけ、ディープニューラルネットワーク、畳み込みニューラルネットワーク、ディープビリーフネットワーク、積層ボルツマンマシン、オートエンコーダー、スパースコード、及びトポロジカル主成分分析、を含み得る様々なディープラーニング法を利用するように構成され得る。

一実施形態では、予測モデルモジュール１８は、選択したユーザー定義パラメーター１９に基づいて１つまたは複数のアルゴリズムライブラリー１６からの１つまたは複数のディープラーニング法を適用するように構成され得る。これらのユーザー定義パラメーター１９は、さらに、様々な設定で、１つまたは複数のディープラーニング法を適用するように、予測モデルモジュール１８を構成してもよい。これらの設定は、予測モデルモジュール１８は、それぞれセキュリティ、スピード、及び柔軟性の異なるトレードオフを与える多くの設定で実行されることを可能にし得る。

ある時間期間にわたって予測モデルを構築しトレーニングするために、トレーニングデータを予測モデルモジュール１８に提供し得る。

ディープラーニング法を適用するためには、結合親和性予測システムに対して固定された入力サイズを有することが必要であろう。また、結合親和性の正確な発見予測は、分子／タンパク質の幾何学的特徴に依存し得る。

ディープラーニング法は、結合親和性の分析のために重要であり得る１つまたは複数の特徴を抽出するために使用されてもよい。ディープラーニング法を利用する潜在的な利点は、人間によって直感的に明らかまたは操作可能でないであろう関係を識別し、使用することができるということである。

これらの機能は、予測モデルモジュール１８によって一般的な識別力のあるフィルターに合成され得る。一実施形態では、ディープラーニング技術は、例えば、リガンドとタンパク質の間の幾何学的関係を記述するためにデータに適用されるように適合され得る。

従って、予測モデルモジュール１８の操作は、結合親和性予測を行うために歴史的に使用されている機能より多くの複雑な機能をもたらし得る。例えば、水素結合の検出器として役に立つ機能は、水素結合ドナー及びアクセプターが、所定の間隔及び所定の角度であることを認識し得るだけでなく、ドナーとアクセプターの周囲の生化学的環境が結合を強化するかまたは弱めることを認識し得るであろう。さらに、システムが導出する検出器は、基礎となるデータにおいて結合剤を非結合剤から効果的に区別するものであってもよい。

一実施形態では、予測モデルモジュール１８は、タンパク質とリガンドの両方が動くときに遭遇し得る代替的な位置など、動的な生物学的システムに適合するように構成されてもよい。そのようなタンパク質−リガンド複合体では、各形状の自由エネルギーのボルツマン分布に基づく相対的な割合で、多数の異なる構成が選択され得る。タンパク質−リガンド複合体の自由エネルギーのエンタルピーとエントロピー成分の両方が、分子によって選択されたポーズに依存し得る（ΔＧ＝ΔＨ−ＴΔＳ）。最終的結合親和性は、複合体に利用可能なポーズのセットのエネルギーの加重平均の関数であることを見出し得る。この物理現象をモデル化するために、予測モデルモジュール１８を、リガンドとタンパク質の動きによる多数の代替的な位置をサンプリングして、このサンプリングされた複合体の構成のセットにその結合親和性予測を基づかせるように構成し得る。

ディープニューラルネットワークが実装される実施形態では、予測モデルモジュール１８は、ディープニューラルネットワークをトレーニングして幾何学的なデータ入力を受取り、所与のリガンドがタンパク質標的に結合するかしないかの予測（確率）を出力するように構成され得る。ディープニューラルネットワークは、関数演算素子のセットで構成されてもよい。これらの関数演算素子は、機能検出器であり得る。一実施形態では、システムは、重みパラメーターによって、それらの入力の各々をスケーリングし、結果を合計し、バイアスを追加し、その結果に活性化関数を適用する、関数演算素子を利用するように構成され得る。

ニューラルネットワークのための活性化関数の例としては、ロジスティック（またはシグモイド）、ソフトマックス、ガウシアン、ボルツマン加重平均、絶対値、線形、整流線形、結合整流線形、ソフト整流線形、パラメーター付き整流線形、平均、最大、最小、いくつかのベクトルのノルムＬＰ（ｐ＝１、２、３、．．．、∞に対し）、記号、正方形、平方根、多重二乗、逆二次式、逆多重二乗、多重調和スプライン、及び薄板スプラインを挙げ得るが、これらに限定されない。

関数演算素子への入力は、受容フィールドのボクセルチャンネルの活性化であり得る。

いくつかの関数演算素子の出力が、他の関数演算素子への入力として機能する場合、関数はカスケード接続もされ得る。同じ入力を取る関数演算素子のサブセットは、「層」と称され得る。

ゼロ以上の層は畳み込みフィルターからなってもよい。畳み込みフィルター層（または「機能マップ」）は関数演算素子のセットであり、そのそれぞれは、空間的に隣接するボクセルまたは畳み込み関数の領域を入力として取る。

セットは、受容フィールドをカバーするように選択され得る。所与の畳み込み層内のすべての関数のパラメーターの重み（及び、任意選択で、バイアス）は、一緒に接続される、すなわち同じになるように制約され得る。関数は受容フィールドの異なる位置で同じ出力を計算するので、畳み込み層は、Ｘ、Ｙ及びＺ座標の並進後でも、ローカル入力パターンを検出することができるであろう。

一実施形態では、予測モデルモジュール１８は、３次元畳み込み層を開発するように構成され得る。最低レベル畳み込み層への入力領域は、受容フィールドからのボクセルチャンネルのキューブ（または他の隣接する領域）であってもよい。高い方の畳み込み層は、さらにそれらの出力を、（３−Ｄユークリッド距離において）接近しているボクセルの結合領域の関数であるとしながら、低い方の畳み込み層からの出力を考慮し得る。

生物学的活性は、回転下及び並進下で不変であり得るので、予測モデルモジュール１８は、任意選択で空間分割の回転対称性を利用した回転機能マップを生成するように構成され得る。例えば、システムが入力データを分割するためにキューブを使用するように構成されている場合、システムは、９０度回転した後、関数演算の重みを一緒に結合することにより、回転機能マップを生成するように構成することができる。

時計回りに回転しているキューブを検討することは例示となり得る。１つのフィルターの上面の重みは異なるフィルターの右側面のみに結合されるようになる。換言すれば、重みが同一であるように制約され得る。回転は、３つのＸＹ／ＸＺ／ＹＺ平面のそれぞれについて、９０度、１８０度、２７０度時計回りに回転させることにより、回転は２４の機能マップを生成し得る。重みの結合がなければ、すべてのフィルターは独自の重みを持つので、この配置は、回転重み結合なしの１／２４にパラメーターの数を減らす。

代替実施例として、システムが、入力データを分割するために他の多面体を使用するように構成された場合、システムは、それらの対称基に適合した大きさにアクセスするために他の回転を使用するように構成されてもよい。例えば、空間が切捨てられた八面体を使用して分割されている場合、９０度回転対称の３軸、１２０度回転対称の４軸、及び１８０度対称の６軸が存在するであろう。

一実施形態では、予測モデルモジュール１８は、アーチファクトを除去するために、正則化法を適用するように構成され得、これは、モデルの解析に及ぼす配向の影響を減少させるのに必要な複雑性と処理負荷を低減させ得、特定の位置にある要素の重要性を低下させる。

ゼロ以上のニューラルネットワーク層はプーリング層からなっていてもよい。畳み込み層の場合と同様に、プーリング層は、入力の異なる空間的局所パッチに同じ関数を適用する関数演算のセットである。層をプールするために、出力は、プーリング演算子、例えば、いくつかのボクセルのＬＰ＝１，２，３、．．．、∞、に対するいくつかのベクターのノルムＬＰ、によって与えられる。プーリングは、典型的には、チャンネルにまたがってではなく、チャンネル毎に行われる。

ゼロ以上の層は、同じ位置のチャンネルを横切ってまたは複数の位置を横切る特定のチャンネルに対して適用され得る、局所応答の正規化または局所的なコントラストの正規化などの正規化層、から構成されてもよい。これらの正規化層は、同じ入力に対するいくつかの関数演算の応答の多様性を促進し得る。

一実施形態では、予測モデルモジュール１８は、関数演算のサブセットの出力が分類システムに提供され得るように、構成してもよい。完全に接続された単層または多層のパーセプトロンを適用し得るが、例えば、サポートベクターマシン、ランダムフォレスト、最隣接、などの他の分類子も適用し得るであろう。好ましくは、分類子は、様々な出力のカテゴリーに入力を分類する強度（または信頼または確率）を示す数値スコアを割当てる。いくつかの場合、カテゴリーは、結合剤及び非結合剤、または、代替的に、効力レベル（効力＜１モル、＜１ミリモル、＜１００マイクロモル、＜１０マイクロモル、＜１マイクロモル、＜１００ナノモル、＜１０ナノモル、＜１ナノモル）である。

幾何学的データポーズは、トレーニング例にグループ化されていてもよい。実施例におけるすべてのインスタンスを一度に提示するためには、法外に大きな入力フィールド（すなわち、ボクセル数×チャンンネル数×ポーズ数に等しいサイズの入力フィールド）が必要であり得る。

潜在的多ソリューションとしては、実施例中の各インスタンスを、ニューラルネットワークに別々に提供してもよく、各インスタンスの分類スコアを、全ての実施例の最終的なスコアを生成するために一緒に組合せてもよい。

一実施形態では、分類子の出力が数値である場合、出力は上述の活性化関数の任意のものを使用して組合せてもよい。

一実施形態では、分類子の出力が数値でない場合、予測モデルモジュール１８は、様々な集団投票法（ｅｎｓｅｍｂｌｅｖｏｔｉｎｇｓｃｈｅｍｅ）を使用して出力を組合せるように構成することができ、これは、例示的な、非限定的な例として、とりわけ、大多数、加重平均、コンドルセ法、ボルダ得点を含み得る。

一実施形態では、システムは、予測モデルの集団（ｅｎｓｅｍｂｌｅ）を適用するように、例えば、結合親和性の指標を生成するように、構成され得る。

結合親和性予測のための予測モデルの適用
予測モデルモジュール１８内の予測モデルを開発する際に、次いで、アナライザー１０は、１つまたは複数のデータベース１２及び／または１つまたは複数のリモートシステム１３から、予測モデルとともに分析のために選択されるタンパク質標的を記載する１つまたは複数のデータセットの入力を受取り得る。データベース１２からの入力は、分析される分子のセットを含み得る。

次いで、アナライザー１０は受取った情報に予測モデルを適用し得、及びアナライザー１０は１つまたは複数の出力を返し得る。システムから提供される出力は変化してもよく、数値スコアから所定の閾値よりも大きいスコアを有する分析されるべき分子のセットから選択された分子のリストまでの範囲であり得る。出力は、１つまたは複数の標的タンパク質（またはタンパク質のタイプ）に対する１つまたは複数の分子の結合親和性の指標であってもよく、例えば、所与の特定のタンパク質またはタンパク質のタイプの活性または活性でない分子のスコア及び／または確率である。

一実施形態では、スコアの最終的な解釈は、数値スコア単独、または所定の活性及び不活性分子のスコアに対するランク付けされたリストにおける分子のスコアの位置、に基づくことができる。

予測モデルのトレーニング
ディープラーニング技術は、時間とともに予測の精度を向上させるためのトレーニングステップ２８を有し得る。

一実施形態では、ディープラーニング技術が上記のようにニューラルネットワークを利用する場合、予測モデルモジュール１８は、関数演算における重みとバイアスを変更することによって、その予測の精度を向上させるために予測モデルをトレーニングするように構成され得る。過去に使用された重みと予測精度は、格納され及び／またはアルゴリズムライブラリー１６からアクセスされ得る。パラメーターはさらに、Ｌ１、Ｌ２、重み減衰、及びドロップアウトなどの様々な正則化の形態により制約され得る。

一実施形態では、予測モデルモジュール１８は、対照的な発散アルゴリズムを使用して、貪欲、層状、生成的なプレトレーニングを通じてトレーニングデータの入力分布をモデル化するために重みを調整するように構成され得る。

一実施形態では、予測モデルモジュール１８は、トレーニングデータが標識されている場合、モデルの予測結合親和性及び／または分類とトレーニングデータの報告された結合親和性及び／または分類の間の誤差を、潜在的に最小にするように重みを調整し得る。様々な方法が、対数損失、平方和誤差、ヒンジ損失法などを含み得るがこれらに限定されない、勾配降下法などの誤差関数を最小化するために使用されてもよい。これらの方法は、運動量、ヘッセフリー推定、ネステロフの加速勾配、ａｄａｇｒａｄ、などの二次法や近似を含んでいてもよい。非標識生成的なプレトレーニング及び標識された識別トレーニングも組合せられ得る。

本発明のシステム及び方法は、様々な実施形態で実施され得る。適切に構成されたコンピューター装置、及び関連する通信ネットワーク、装置、ソフトウェア及びファームウェアは、上記のように１つまたは複数の実施形態を可能にするためのプラットフォームを設けてもよい。一例として、図１１は、記憶装置１１０４及びランダムアクセスメモリー１１０６に接続された中央処理装置（「ＣＰＵ」）１１０２を含み得る例示コンピューター装置１１００を示す。ＣＰＵ１１０２は、オペレーティングシステム１１０１、アプリケーションプログラム１１０３、及びデータ１１２３を処理し得る。オペレーティングシステム１１０１、アプリケーションプログラム１１０３及びデータ１１２３は、必要とされ得るように、記憶ユニット１１０４に記憶され、メモリー１１０６にロードされてもよい。コンピューター装置１１００は、さらに、作動ＣＰＵ１１０２から集中的なデータ処理計算をオフロードし、ＣＰＵ１１０２と並行してこれらの計算を実行するＣＰＵ１１０２及びメモリー１１０６に動作可能に接続されているグラフィックス処理ユニット（ＧＰＵ）１１２２を含み得る。オペレーター１１０７は、ビデオインターフェース１１０５によって接続されたビデオディスプレイ１１０８、及びＩ／Ｏインターフェース１１０９によって接続されたキーボード１１１５、マウス１１１２、及びディスク・ドライブまたはソリッドステートドライブ１１１４などの様々な入力／出力装置を使用してコンピューター装置１１００と対話し得る。既知の方法で、マウス１１１２は、ビデオディスプレイ１１０８におけるカーソルの動きを制御し、マウスボタンによってビデオディスプレイ１１０８に現れる様々なグラフィカルユーザーインターフェース（ＧＵＩ）コントロールを操作するように構成され得る。ディスク・ドライブまたはソリッドステートドライブ１１１４は、コンピューター可読媒体１１１６を受入れるように構成され得る。コンピューター装置１１００は、コンピュータデバイス１１００は、他の適切に構成されたデータ処理システム（図示せず）と通信することを可能にする、ネットワークインターフェース１１１１を介してネットワークの一部を形成し得る。１つまたは複数のタイプのセンサ１１３５は様々なソースからの入力を受取るのに使用され得る。

本発明のシステム及び方法は、デスクトップコンピューター、ラップトップコンピューター、タブレットコンピューター、またはワイヤレスハンドヘルドを含む、実質的に任意の方法のコンピューター装置で実施され得る。本発明のシステム及び方法は、１つまたは複数のコンピューター装置が本明細書に開示される様々なプロセスステップのそれぞれを実装することを可能にするコンピュータープログラムコードを含むコンピューター可読／使用可能媒体として実装され得る。全体の動作を実行する複数のコンピューター装置の場合、コンピューター装置は、様々なステップの動作を配布するようにネットワーク化されている。用語、コンピューター可読媒体またはコンピューター使用可能媒体は、１つまたは複数の任意のタイプのプログラムコードの物理的な実施形態を含むことが理解される。具体的には、コンピューター可読／使用可能媒体は、１つまたは複数のポータブルストレージ製造製品（例えば光ディスク、磁気ディスク、テープなど）上に、コンピューター及び／または記憶システムに関連付けられたメモリーなど、コンピューティングデバイスの一部である１つまたは複数の記憶装置上に、具現されたプログラムコードを含むことができる。

記載された機能は、ｉＯＳ（商標）プラットフォーム、ＡＮＤＲＯＩＤ（商標）、ＷＩＮＤＯＷＳ（商標）またはＢｌａｃｋＢｅｒｒｙ（商標）を含む、任意のモバイルプラットフォームに実装され得る。

例示ユースケース
以下は、いくつかの実施形態のいくつかのアプリケーションを記載する、例示の目的のみのために提供されるサンプルユースケースである。他の用途が考慮されてもよく、下記の実施例は、非限定的であり、変形、省略を受けてもよく、または追加の要素を含んでもよい。

以下のそれぞれの実施例は結合親和性予測を示しているが、実施例は、予測が、単一分子、セット、または反復的に修飾された分子ノシリーズになされているかどうか、予測は単一の標的または多数の標的に対してなされるかどうか、標的に対する活性は所望または回避されるべきかどうか、及び重要な量が絶対的または相対的活性であるかどうか、または分子または標的のセットは、具体的に選択されているかどうか（例えば、分子については、既存薬または農薬でること、タンパク質については、既知の毒性または副作用を有すること）、で異なることが見出され得る。

ヒットの発見：製薬会社は新しい有望な薬物リードを発見するために化合物のスクリーニングに数百万ドルを費やしている。対象となる疾患の標的との相互作用を有する少数の化合物を見つけるために、大規模な化合物の収集物が試験される。不幸にも、ウェットラボスクリーニングは、実験誤差を受け、アッセイ実験を実行するためのコスト及び時間に加えて、大規模なスクリーニング収集物の収集は、ストレージの制約、貯蔵安定性、または化学的コストを通して重要な課題を課す。最大の製薬会社でも、数千万の市販の分子及び数億のシミュレーション可能な分子に対し、数十万〜数百万の間の化合物を有するのみである。

物理実験に対して潜在的により効率的な代替手段は、仮想高スループットスクリーニングである。物理シミュレーションが、モデルを物理的に試験する前に、航空宇宙技術者が可能な翼の設計を評価する助けとなり得るのと同様に、分子のコンピュータースクリーニングは、可能性の高い分子の小さなサブセットに実験的試験を集中し得る。これは、スクリーニングの費用と時間を減らし得、偽陰性を低減し、成功率を向上させ、及び／またはより広範囲の化学的な空間をカバーし得る。

本出願では、タンパク質の標的が、システムへの入力として提供されてもよい。分子の大規模なセットを提供することもできる。各分子について、結合親和性がタンパク質標的に対して予測される。得られたスコアは、最良のスコア分子が標的タンパク質を結合する可能性が最も高いということで、分子をランク付けするのに使用され得る。任意選択で、ランク付けされた分子のリストは、同様の分子のクラスターに対して分析され得、大きなクラスターは分子結合のより強い予測として使用され得、または確認実験における多様性を確保するために、分子はクラスター間で選択され得る。

オフターゲット副作用予測：多くの薬剤は副作用を有することが見出され得る。多くの場合、これらの副作用は、薬の治療効果の原因となるもの以外の生物学的経路との相互作用に起因する。これらのオフターゲット副作用は、不快または危険であり、薬物の使用が安全である患者集団を制限し得る。従って、オフターゲットの副作用は、どの薬剤候補をさらに開発するかを評価する重要な基準である。多くの代替的な生物学的標的との薬物の相互作用を特徴づけることは重要であるが、そのような試験は、開発及び実行するのに高価であり時間がかかり得る。計算予測は、このプロセスをより効率的にし得る。

実施形態の適用において、有意の生物学的応答及び／または副作用に関連している生物学的標的のパネルを構築し得る。次いで、システムは、順にパネル内の各タンパク質に対する結合を予測するように構成され得る。特定の標的に対する強力な活性（すなわち、オフターゲットタンパク質を活性化することが知られている化合物と同等の強力な活性）は、オフターゲット効果による副作用に分子を関与させ得る。

毒性予測：毒性予測は、オフターゲット副作用予測の特に重要な特殊なケースである。後期臨床試験における薬剤候補の約半数は、容認できない毒性によって役に立たない。新薬承認プロセスの一部として（及び薬物候補がヒトで試験され得る前に）、ＦＤＡは、シトクロムＰ４５０の肝酵素（その阻害は薬剤−薬剤相互作用からの毒性をもたらし得る）またはｈＥＲＧチャンネル（その結合は、心室性不整脈及び他の有害な心臓への影響につながるＱＴ延長をもたらし得る）を含む、標的のセットに対する毒性試験データを要求する。

毒性の予測では、システムは、オフターゲットタンパク質が重要なアンチ標的（例えばＣＹＰ４５０、ｈＥＲＧ、または５−ＨＴ_２Ｂ受容体）となることを制約するように構成され得る。次いで薬剤候補の結合親和性をこれらのタンパク質に対して予測し得る。任意選択で、分子は、アンチ標的に対する結合についても分析され得、代謝産物のセット（元の分子の代謝／分解時に身体によって生成される続く分子）を予測するために分析され得る。問題の分子を識別して毒性を回避するために改変してもよく、または分子のシリーズの開発を追加のリソースの浪費を避けるために停止してもよい。

効力の最適化：薬剤候補の重要な要件の１つは、その疾患標的に対する強い結合である。スクリーニングが臨床的に有効であるのに十分に強く結合する化合物を見つけることは稀である。従って、初期の化合物は、医薬化学者が標的結合の強度の増加を有する新たな分子を提案するために分子構造を反復的に変更する、最適化の長いプロセスをシードする。それぞれの新しい分子は、変更が結合をうまく改善したかどうかを決定するために合成され試験される。このシステムは、計算予測で物理試験を置き換えることによって、このプロセスを容易にするように構成され得る。

本出願では、疾患標的とリード分子のセットがシステムに入力されてもよい。システムはリードのセットの結合親和性予測を生成するように構成され得る。任意選択で、システムは、予測される結合親和性の相違の理由を通知する助けとなり得る候補分子間の相違を強調し得る。医薬品化学者のユーザーは、望ましくは、標的に対する改善された活性を有する分子の新しいセットを提案するのに、この情報を使用し得る。これらの新規の代替分子は同様に分析され得る。

選択性の最適化：上述したように、分子は、多様な強度で多くのタンパク質を結合する傾向がある。例えば、（一般向けの化学療法の標的である）タンパク質キナーゼの結合ポケットは非常に類似しており、ほとんどのキナーゼ阻害剤は、多くの異なるキナーゼに影響を及ぼす。これは、様々な生物学的経路が同時に変更されることを意味し、これは「ダーティー」薬用プロファイル及び多くの副作用をもたらす。従って、多くの薬剤の設計における重要な課題は、活性自体ではなく特異性、すなわち、おそらく密接に関連したタンパク質から１つのタンパク質（またはタンパク質のサブセット）、を選択的に標的化する能力である。

我々のシステムは、候補薬物の選択性を最適化する時間とコストを削減し得る。本出願では、ユーザーは２セットのタンパク質を入力してもよい。１つのセットはそれに対して化合物が活性であるべきタンパク質を記載し、他のセットはそれに対して化合物が非活性であるべきタンパク質を記載する。システムは、相互作用の強度のプロファイルを確立して、両方のセットのすべてのタンパク質に対して、分子に関する予測を行うように構成され得る。任意選択で、これらのプロファイルは、タンパク質の説明パターンを示すために分析され得る。ユーザーは、システムによって生成された情報を、異なるタンパク質セットへの相対的結合を改善するであろう分子への構造変更を検討するために、及びより良い特異性を有する新たな候補分子を設計するために、使用し得る。任意選択で、システムは、予測される選択性の相違の理由を通知する助けとなり得る候補分子間の相違を強調するように構成され得る。提案された候補は、それらの活性プロファイルの特異性をさらに改良するために、反復的に分析され得る。

自動化された分子設計のためのフィットネス機能：前述の最適化を実行するための自動化ツールは有用である。成功した分子は、効力、選択、及び毒性の間で最適化とバランスを必要とする。「骨格ホッピング」（リード化合物の活性は維持されるが、化学構造が有意に変化している場合）は、改良された薬物動態、薬力学、毒性、または知的財産のプロファイルを生成し得る。アルゴリズムは、分子のランダム生成、所与の結合部位を充たすための分子断片の成長、分子の集団を「変位」及び「異種交配」させるための遺伝的アルゴリズム、及び生物学的に等価な代替品による分子の断片のスワッピング、など、新しい分子を反復的に示唆するために存在する。これらの各方法により生成された薬剤候補は、上述の複数の目的（効力、選択性、毒性）に対して評価されなければならず、技術が前述の手動設定（結合予測、選択性、副作用及び毒性予測）のそれぞれに有益であり得るのと同様に、それは自動化された分子設計システムに組込むことができる。

薬物の再利用：すべての薬物は副作用を有し、時には、これらの副作用は有益である。最もよく知られた例は、一般的に頭痛の治療として使用されているが、心血管の健康のためにも採用されている、アスピリンであろう。薬物は既にヒトにおいて安全であることが示されており、患者における急速な吸収及び良好な安定性のために最適化されているので、薬剤再配置は創薬のコスト、時間、及びリスクを優位に低減し得る。不幸にも、薬物再配置は、大部分は偶然となっている。例えば、シルデナフィル（バイアグラ）は、高血圧症薬として開発され、予想外に勃起不全の有効な治療法であることが観察された。オフターゲット効果の計算予測は、別の疾患を治療するために使用し得る化合物を識別するための薬物の再利用の関連で使用し得る。

本出願では、オフターゲットの副作用予測におけるように、ユーザーは、可能な標的タンパク質のセットを組立てることができ、ここで、各タンパク質は疾患にリンクされている。すなわち、各タンパク質の阻害は、（おそらく異なる）疾患を治療するであろう、例えば、シクロオキシゲナーゼ−２の阻害剤は炎症の緩和を提供することができ、一方因子Ｘａの阻害剤は、抗凝固剤として使用することができる。これらのタンパク質は、何らかが存在する場合、承認薬の結合親和性で注釈されている。次いで、我々は、ヒトでの使用のために承認または研究されてきた分子にセットを制限して、分子のセットを組立てる。最後に、タンパク質と分子の各対について、ユーザーは、結合親和性を予測するシステムを使用し得る。分子の予測された結合親和性がタンパク質に対する有効な薬剤の結合親和性に近い場合、薬物再利用のための候補を識別し得る。

薬剤耐性予測：薬剤耐性は、急速に分裂し、変異する病原体の集団に選択圧をかける、医薬品の使用の必然的な結果である。薬物耐性は、ウイルス（ＨＩＶ）、外因性の微生物（ＭＲＳＡ）、及び調節不全の宿主細胞（癌）などの多様な病原体に見られる。時間が経つにつれて、与えられた薬は、薬が抗生物質であるか化学療法剤であるかにかかわらず、無効となるであろう。その時点で、治療介入は、うまくいけば、さらに効き目の強い別の薬に移行し得る。ＨＩＶにおいては、患者が治療されている間、ウイルスが蓄積されるであろう変異によって定義される、周知の疾患進行経路が存在する。

病原体が医学的介入に適応する方法の予測にはかなりの関心が寄せられている。１つのアプローチは、治療下にある病原体に生じるであろう変異を特徴付けることである。具体的には、医薬のタンパク質標的は、同時にその天然基質に結合することを継続しながら、薬物に結合することを回避するように変異する必要がある。

本出願では、標的タンパク質における可能な変異を提案し得る。各変異について、結果のタンパク質形状を予測し得る。これらの変異体タンパク質の形態のそれぞれについて、システムを、天然基質及び薬物の両方に対する結合親和性を予測するように構成し得る。タンパク質を、もはや薬剤に結合させないだけでなく、天然基質への結合を継続させる変異は、薬剤耐性をもたらす候補である。これらの変異したタンパク質は、例えば、これらのタンパク質をこれらの他の予測ユースケースへの入力として使用することにより、薬を設計する標的として使用され得る。

個別化医療：効果のない薬を投与すべきではない。コストと手間に加えて、すべての薬剤は副作用を有する。モラルと経済的考慮は、利益がこれらの害を上回るときにのみ薬を与えることを不可避にする。薬が有用であろう時期を予測できることが重要であり得る。人々はわずかの変異によって互いに異なる。しかし、小さな変異は深刻な影響を有し得る。これらの変異が、疾患標的の活性（オルソステリック）または調節（アロステリック）部位に発生した場合、それらは、薬物を結合から阻止し、従って、薬剤の活性を遮断し得る。特定の人物のタンパク質構造が知られている（または予測される）場合、システムは、薬剤が有効であるかどうかを予測するように構成され得るか、または、システムは、薬物が作用しない時期を予測するように構成され得る。

本出願では、システムは、入力として、薬物の化学構造及び特定の患者の特定の発現タンパク質を受取るように構成され得る。システムは、薬物とタンパク質の間の結合を予測するように構成され得、その特定の患者のタンパク質構造に対する薬剤の予測結合親和性が弱すぎて臨床的に有効でない場合、臨床医または開業医は、その薬剤が患者に無益に処方されることから防止し得る。

薬物試験設計：本出願は、上記個別化医療のユースケースを患者集団の場合に一般化する。システムは、薬剤が特定の患者の表現型に有効であろうかどうかを予測することができる場合、この情報を、設計臨床試験を支援するのに使用することができる。特定の疾患標的が薬剤によって十分に影響されない患者を除くことにより、臨床試験は、より少数の患者を使用して、統計的検出力を達成することができる。より少数の患者は直接的に、臨床試験のコストと複雑性を低減する。

本出願では、ユーザーは、異なるタンパク質の発現（例えば、変異またはアイソフォーム）によって特徴づけられるサブ集団へ可能な患者集団をセグメント化し得る。システムは、異なるタンパク質タイプに対する薬物候補の結合強度を予測するように構成され得る。特定のタンパク質タイプに対する予測結合強度が、臨床的に達成可能な入院患者の濃度を下回る必要な薬物濃度を示している場合（例えば、試験管、動物モデル、または健康なボランティアの物理的な特性評価に基づいて）、次いで薬剤候補は、そのタンパク質サブ集団に対して不合格であると予測される。そのタンパク質を有する患者は、その後、薬物試験から除外され得る。

農薬設計：医薬用途に加えて、農薬産業は新たな殺虫剤の設計に結合予測を使用する。例えば、農薬に対する１つの必要なものは、それらが任意の他の種に悪影響を及ぼすことなく、関心のある単一の種を停止することである。生態系の安全のために、人はマルハナバチを殺すことなく、ゾウムシを殺すことを望み得るであろう。

本出願では、ユーザーは、検討中の異なる種から、タンパク質の構造のセットをシステムに入力できるであろう。タンパク質のサブセットは、活性であるタンパク質として指定することができ、一方残りは分子が不活性であるべきタンパク質として指定されるであろう。前のユースケースと同様に、分子のセットの一部（既存のデータベースにあるかまたは新たに生成されるかによらず）が、各標的に対して検討され、システムは、第２を回避しながら第１のグループのタンパク質に対して最大の有効性を有する分子を戻すであろう。

材料科学：新しい材料の挙動と特性を予測するためには、分子相互作用を分析するのが有用であり得る。例えば、溶媒和を研究するために、ユーザーは、所与の小分子の繰返し結晶構造を入力し、結晶の表面でのその小分子の別のインスタンスの結合親和性を評価し得る。ポリマーの強度を研究するために、ポリマー鎖の集合を同様にタンパク質標的構造に入力し、ポリマーのオリゴマーを小分子として入力してもよい。従って、ポリマー鎖間の結合親和性は、システムによって予測され得る。

一具体例では、例えば、水素結合とパイ結合スタックの強度を予測することにより、ケブラーなどの材料の強度を予測するのにシステムを使用してもよい。従って、本明細書に開示される結合親和性予測は、ケブラーなどの改良された材料の開発を容易にするために使用され得る。

シミュレーション：タンパク質の領域に留まる分子の傾向はそこでのその結合親和性に相関するので、シミュレーターは、タンパク質への結合親和性を測定することが多い。結合を支配する機能の正確な説明は、特に高いまたは低い結合エネルギーを有する領域とポーズを識別するために使用することができる。エネルギーの記述を、分子の運動とタンパク質結合領域の占有率を記述するためにモンテカルロシミュレーションに折り畳むことができる。同様に、システム生物学を研究しモデル化するためのストカスティックシミュレーターは、分子濃度の小さな変化が生物学的ネットワークにいかに影響を与えるかの正確な予測から利益を得ることができるであろう。

一般
本明細書に記載の実施形態の他の変形例も、本発明の範囲から逸脱することなく実施され得ることが、当業者によって理解されるであろう。従って、他の改変が可能である。

さらなる態様では、本開示は、そのような方法を実施し、先に記載した機能を可能にすることにおいて使用するための、システム、装置、方法、及び非過渡機械読み取り可能な命令セットを含むコンピュータープログラム製品を提供する。

本開示は、ある程度の特殊性を有する例示的な形態で記載され例示されているが、記載及び例示は、例示の目的でのみなされていることが留意される。部品及びステップの構造及び組合せ及び配置の詳細に多くの変更を行い得る。従って、そのような変更は本発明に含まれることが意図されており、その範囲は特許請求の範囲によって定義される。

記載されたプロセス内に明示的に記載されまたは固有の場合を除き、任意の任意選択のステップまたはそのコンポーネントを含み、必要な順序、配列、またはそれらの組合せは、意図または暗示されていない。関連技術における当業者によって理解されるであろうように、本明細書に記載のプロセスと任意のシステムの両方、装置、などに関して、特許請求の範囲によってのみ限定されるべきである本発明の範囲から逸脱することなく、様々な状況において、広範な変形が可能であり、有利でさえある。

Claims

結合親和性を予測するためのシステムであって、
入力データを反映する記録を格納するように構成された少なくとも１つの電子データストアと、
結合の入力機能の幾何学的表現を提供するデータ構造を構築すること、
少なくとも１つの分子及び少なくとも１つの標的タンパク質に関連するデータをコード化することにより前記データ構造を取込むことであって、前記コード化するデータは前記格納された入力データから選択される、前記データ構造を取込むこと、
を行うように構成されたエンコーダーモジュールと、
少なくとも１つの標的タンパク質に対する少なくとも１つの分子の結合親和性の指標を生成するために、前記データ構造に予測モデルを適用するように構成された予測モジュールと、
を備えたシステム。
前記幾何学的表現は、複数の原子中心の座標を含む、請求項１に記載のシステム。
前記幾何学的表現は複数のボクセルを含み、各ボクセルは原子の位置を表わす、請求項１に記載のシステム。
前記幾何学的表現は、３次元格子のボクセルを含む、請求項３に記載のシステム。
前記幾何学的表現は、０．１Åと１０Åの間の分解能を有する、請求項１〜４のいずれか１項に記載のシステム。
前記幾何学的表現は、１Åの分解能を有する、請求項５に記載のシステム。
前記予測モジュールは、前記予測モデルをトレーニングするように構成されている、請求項１〜６のいずれか１項に記載のシステム。
前記予測モジュールは、結合親和性の指標を生成するために予測モデルの集合を適用するように構成されている、請求項１〜７のいずれか１項に記載のシステム。
前記予測モジュールは、あらかじめ定義された変換を適用することにより、前記入力データを補強するように構成されている、請求項１〜８のいずれか１項に記載のシステム。
前記あらかじめ定義された変換は、少なくとも１つの回転操作、変換操作、及びミラーリング操作を含む、請求項９に記載のシステム。
前記データ構造はあらかじめ定義されたサイズを有する、請求項１〜１０のいずれか１項に記載のシステム。
前記予測モデルの適用は、ディープラーニング技術を適用することを含む、請求項１〜１１のいずれか１項に記載のシステム。
前記入力データの記録は、少なくとも１つの原子、リガンド分子、有機補因子、無機補因子、タンパク質に関連する入力データを反映する記録を含む、請求項１〜１２のいずれか１項に記載のシステム。
結合親和性を予測するためのコンピューター実装方法であって、
少なくとも１つの電子データストアに、入力データを反映した記録を格納すること、
少なくとも１つのプロセッサーに、結合の入力機能の幾何学的表現を提供するデータ構造を構築すること、
少なくとも１つのプロセッサーに、少なくとも１つの分子及び少なくとも１つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むことであって、前記コード化するデータは前記格納された入力データから選択される、前記データ構造を取込むこと、
少なくとも１つの標的タンパク質に対する少なくとも１つの分子の結合親和性の指標を生成するために、前記データ構造に予測モデルを適用すること、
を含む方法。
前記幾何学的表現は、複数の原子中心の座標を含む、請求項１４に記載の方法。
前記幾何学的表現は複数のボクセルを含み、各ボクセルは原子の位置を表わす、請求項１４に記載の方法。
前記幾何学的表現は、３次元格子のボクセルを含む、請求項１６に記載の方法。
前記幾何学的表現は、０．１Åと１０Åの間の分解能を有する、請求項１４〜１７のいずれか１項に記載の方法。
前記幾何学的表現は、１Åの分解能を有する、請求項１８に記載の方法。
前記予測モジュールは、前記予測モデルをトレーニングするように構成されている、請求項１４〜１９のいずれか１項に記載の方法。
前記予測モジュールは、結合親和性の指標を生成するために予測モデルの集合を適用するように構成されている、請求項１４〜２０のいずれか１項に記載の方法。
前記予測モジュールは、あらかじめ定義された変換を適用することにより、前記入力データを補強するように構成されている、請求項１４〜２１のいずれか１項に記載の方法。
前記あらかじめ定義された変換は、少なくとも１つの回転操作、変換操作、及びミラーリング操作を含む、請求項２２に記載の方法。
前記データ構造はあらかじめ定義されたサイズを有する、請求項１４〜２３のいずれか１項に記載の方法。
前記予測モデルの適用は、ディープラーニング技術を適用することを含む、請求項１４〜２４のいずれか１項に記載の方法。
前記入力データの記録は、少なくとも１つの原子、リガンド分子、有機補因子、無機補因子、タンパク質に関連する入力データを反映する記録を含む、請求項１４〜２５のいずれか１項に記載の方法。