JP6671348B2 - 結合親和性予測システム及び方法 - Google Patents

結合親和性予測システム及び方法 Download PDF

Info

Publication number
JP6671348B2
JP6671348B2 JP2017510709A JP2017510709A JP6671348B2 JP 6671348 B2 JP6671348 B2 JP 6671348B2 JP 2017510709 A JP2017510709 A JP 2017510709A JP 2017510709 A JP2017510709 A JP 2017510709A JP 6671348 B2 JP6671348 B2 JP 6671348B2
Authority
JP
Japan
Prior art keywords
data
input data
input
geometric
binding affinity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017510709A
Other languages
English (en)
Other versions
JP2017520868A5 (ja
JP2017520868A (ja
Inventor
サミュエル ハイフェッツ,エイブラハム
サミュエル ハイフェッツ,エイブラハム
ワラッチ,イズハール
ザンバ,マイケル
Original Assignee
アトムワイズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アトムワイズ,インコーポレイテッド filed Critical アトムワイズ,インコーポレイテッド
Publication of JP2017520868A publication Critical patent/JP2017520868A/ja
Publication of JP2017520868A5 publication Critical patent/JP2017520868A5/ja
Application granted granted Critical
Publication of JP6671348B2 publication Critical patent/JP6671348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、一般にはバイオインフォマティクスのシステムに関し、より具体的には1つまたは複数の分子の結合親和性を予測するシステム及び方法に関する。
タンパク質への分子の結合親和性を正確に予測する能力は、新薬の発見と自然及び工学生物学的プロセスの解明において基本的なツールである。不幸にも、結合親和性予測では、結合を支配する要因の数は広範囲であり、それらの相互作用はあまり理解されていない。
予測の精度は、予測モデルによって検討されている機能に依存する。機械学習機能を組込んだものを含む、いくつかの結合親和性予測ソリューションが知られている。いくつかの従来技術のソリューションは、化学物質の複雑さとタンパク質の構造を反映していないであろう比較的単純な予測モデルを使用する。また、それらは、結合親和性に影響する分子とタンパク質間の相互作用の多くの変数を反映していないであろう。例えば、分子とタンパク質間の所与の相互作用は、距離、角度、原子タイプ、電荷及び分極、並びに関与する周囲安定化または不安定化環境要因、によって影響され得る。
従来技術のソリューションは、例えば、原子の対/基、例えば分子(薬物標的など)からの1原子とタンパク質からの1原子を使用する知識ベースのスコアリング関数などの単純な機能を使用する。次いで、これらの対を、例えば、可能性のある分子/タンパク質結合原子対を導出するために、これらの対の間の距離を評価することによって分析する。スコアは集めることができ、これらの集められたスコアは、分子/タンパク質結合親和性すなわち「フィット」を決定するために、分析され得る。結合親和性予測ソリューションのパフォーマンスは使用されるモデルに依存し、これらは通常手動で構築されトレーニングされるが、時間がかかる。
従来技術の結合親和性ソリューションは、一般に、(i)知識ベースの、(ii)経験的な、ものを含むか、または(iii)力場ベースのスコアリング関数を含む。知識ベースの機能は、典型的には、原子対または官能基が生物学的複合体において所与の距離だけ離れている回数のカウントからなる。これらの機能は、単純(ある距離だけ離れた2点)であるので、上述の複雑なセットの影響要因を捕捉することができない。経験的スコアリング関数は、回転可能な結合、水素結合ドナー−アクセプター対、芳香族スタック、静電気、立体相補性もしくは歪み、または溶媒アクセス可能な疎水性領域などの少数(数十)の手で操作された機能に、相対的な重要性の重みのセットをフィットさせる。これらの機能の開発は専門的な知識と広範なマニュアルチューニングを必要とするが、上述したように、専門家の化学者でも、分子間相互作用を支配する力を一貫して解くことはできないので、任意のそのような機能は、必然的に限定された近似となるであろう。力場ベースのスコアリング関数は、計算上効率的であるように設計されており、気相の予測からの理論的結果への近似を必要とする。例えば、そのようなシステムは、粗溶媒分子による電界強度の重要な媒介を無視するか、または粗く近似している。
上述の理由で、従来技術の結合親和性予測ソリューションは望まれるほど正確ではないであろう。
より正確及び/またはより効率的な結合親和性予測を提供し、または少なくとも親和性結合予測を提供するための代替方法を提供するソリューションに対する必要性が存在する。
一態様においては、結合親和性を予測するシステムが提供される。システムは、入力データを反映する記録を格納するように構成された少なくとも1つの電子データストアと、結合の入力機能の幾何学的表現を提供するデータ構造を構築することと、少なくとも1つの分子及び少なくとも1つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むことであって、コード化するデータは格納された入力データから選択される、データ構造を取込むことと、を行うように構成されるエンコーダーモジュールと、少なくとも1つの標的タンパク質に対する少なくとも1つの分子の結合親和性の指標を生成するために、データ構造に予測モデルを適用するように構成された予測モジュールと、を備える。
他の態様においては、結合親和性を予測するコンピューター実装方法が提供される。方法は、少なくとも1つの電子データストアに、入力データを反映した記録を格納すること、少なくとも1つのプロセッサーに、結合の入力機能の幾何学的表現を提供するデータ構造を構築すること、少なくとも1つのプロセッサーに、少なくとも1つの分子及び少なくとも1つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むことであって、コード化するデータは格納された入力データから選択されるデータ構造を取込むこと、少なくとも1つの標的タンパク質に対する少なくとも1つの分子の結合親和性の指標を生成するために、データ構造に予測モデルを適用すること、を含む
この点において、本発明の少なくとも1つの実施形態を詳細に説明する前に、本発明は、その適用において、以下の記載で述べられるまたは図面に例示される構造の詳細及びコンポーネントの配置に限定されるものではないことが理解されるべきである。本発明は、他の実施形態で可能であり、様々な方法で実施及び実行することが可能である。また、本明細書中で用いられる表現及び用語は説明のためのものであり、限定するものとみなされるべきではないことが理解されるべきである。
図面においては、本発明の実施形態は、例示の目的で示されている。明細書及び図面は、例示及び理解の補助としての目的のみのものであり、本発明の限定の定義として意図されないことが明確に理解されるべきである。
一実施形態に係る、親和性結合を予測するための例示システムを示すブロック図である。 一実施形態に係る、親和性結合を予測するための高レベルのステップを示すワークフロー図である。 一実施形態に係る、3次元格子のボクセルの形態の入力機能の幾何学的表現の模式図である。 一実施形態に係る、2つの異なる方向の例示分子の模式図である。 一実施形態に係る、ボクセルの2次元格子可視化にコード化された2つの分子の図である。 一実施形態に係る、ボクセルの2次元格子可視化にコード化された2つの分子の図である。 一実施形態に係る、図6の可視化の図であり、ボクセルは番号付けされている。 一実施形態に係る、原子中心の座標位置の形式での入力機能の幾何学的表現の模式図である。 一実施形態に係る、位置範囲を有する図8の座標位置の概略図である。 一実施形態に係る、ボクセル入力(x1、x2、...、x100)に多関数演算素子(g1、g2、...)を適用し、g()を一緒に使用して関数演算素子の出力を合成する図である。 一実施形態に係る、図1のシステムのハードウェアコンポーネントの模式図である。
一態様において、本開示は、新規で革新的な結合親和性予測システムを備えるコンピューターシステムを提供する。結合親和性予測システムは、1つまたは複数のタンパク質と、1つまたは複数の分子の結合親和性に関する正確な予測を生成し得る。
一実施形態では、結合親和性予測システムは、大量の生物学的データを分析するように構成され得る。例えば、コンピューターシステムは、例えば、数千万のデータポイントを含むデータベースを備え得るか、またはリンクし得る。とりわけ、そのようなデータソース、アプリケーションなどの様々な要因に依存して、データポイントの数は変化し得る。
生物学的データからのこれらの幾何学的特徴の表現を容易にするために、システムは、データ表現、例えば、天然の空間を可視化するデータ構造を生成するように構成され得る。
一実施形態では、ユニークで革新的なデータ表現が生物学的データのための「コンテナ」として作用するように提供され、それは、1つまたは複数の分子と1つまたは複数のタンパク質の間の結合親和性(より広範なセットの結合パラメーターに基づくものを含む)を発見するためにディープラーニング技術の適用を可能にするように、固定された入力サイズを有する。
例えば、色のパッチの相対位置及びサイズに基づき得る画像分類システムとは対照的に、本明細書に開示の結合親和性予測システムは、様々なタイプの原子の基における位置と距離を認識するように構成され得る。
一例として、生物学的データに関し、一実施形態では、システムは、所与のボクセル内のすべての原子の存在をそのエントリーに対して異なる数として表すように構成することができ、例えば、炭素がボクセル内にある場合、炭素の原子番号は6であるので、6の値がそのボクセルに割り当てられる。しかし、そのようなコード化は、原子番号が近い原子は同様に挙動することを意味し、それは、用途に応じて、特に有用ではないであろう。さらに、元素の挙動は、グループ(周期表の列)内でより類似し得、従ってそのようなコード化は、ディープラーニングシステムがデコードするための追加作業をもたらす。
別の実施形態では、システムは、「ワンホット」コード化と本明細書で呼び得るものでタイプをコード化するように構成されてもよい。すべての原子タイプは、別個のチャンネルを有する。100を超える元素が存在するが、ほとんどは生物学で遭遇しない。しかし、最も一般的な生物学的元素(すなわち、H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)を表しても、受容体のフィールドに18チャンネルまたは10483×18=188,694の入力がもたらされ得る。原子の他の特性(例えば、部分電荷、タンパク質標的に対するリガンドの存在、電気陰性度、またはSYBYL原子タイプ)がさらに与えられる場合、それ以外は同等の原子間で区別するためにより多くの入力チャンネルが必要となり、可能なインプットの数はさらに高くなり得る。
データ表現は、例えば、分子/タンパク質に関連した様々な構造関係の表現を可能にするように、生物学的データでコード化されてもよい。次いで、ディープラーニング法を、データ表現にコード化されたデータに適用してもよく、分子/タンパク質の複数の構造的特徴を反映した解析結果の生成を潜在的に可能にする。このアプローチは、従来技術の結合予測技術によって使用される機能よりも多くの複雑な機能をもたらし得る。
好都合には、本明細書に開示の実施形態は、一般的に手動で構築及び/または調整されなければならない複雑な構造上の機能の作成を必要としない。
むしろ、一態様では、結合親和性予測システムを結合データから取出した機能のセットを抽出(例えば、自動的に)するための「ディープラーニング」法を実装する。
より具体的には、本明細書に開示の実施形態は、計算オーディオ及びビデオ処理に使用されるものなどの様々な技術を適合させており、ここでディープラーニング法は、生物学的データの大量のセットに関連する親和性結合を予測するのに使用することができ、それによって従来技術のものより有用及び/または正確なものとし得るより多くの結果を提供する。
一実施形態では、結合親和性予測システムは、正確な分子/タンパク質結合親和性予測を行うことに関与した多様で複雑な化学及びタンパク質の構造を決定する、有意な量のデータの分析を可能にするように構成され得る。
さらに、結合親和性予測システムは、関連分子/タンパク質の構造特性で部分的に生物学的データの分析を可能にするための効率的でスケーラブルなメカニズムを提供し得る。
コンピューターシステムは、(a)バイオインフォマティックスシステム、または(b)創薬システムを含む多数の異なるシステムを提供するために実装されてもよいし、また多数の異なるシステムと統合し得る。他のシステムは、例えば結合親和性予測を組込んだ(a)個別化医療システムまたは(b)医療記録システムを含む、本明細書に開示された機能も組込むことができる。
一実施形態では、コンピューターシステムは、1つまたは複数のコンピューターを備え、その1つまたは複数のコンピューターは、実行されるときに、1つまたは複数の結合親和性予測を生成するように、情報(生物学的情報など)の1つまたは複数のデータベースから受取られまたは得られたものを含むデータセット、結合親和性予測関数に適用される結合親和性予測ユーティリティに連結されている。
図1を参照すると、一実施形態に係る、サンプルシステム実装を示すブロック模式図が提供されている。
図示のように、システムはアナライザー10を備える。アナライザー10は、入力データ(例えば、生物学的データ)を反映する記録を格納する1つまたは複数のデータベース12に連結され得る。これらのデータベースは、分子データベース12a、タンパク質データベース12b、親和性データベース12c、変換データベース12d、などのデータベースを備え得る。様々なデータベースをまとめてデータベース12と呼ぶ。あるいはまたは併せて、システムは、追加の生物学的データも有し得る1つまたは複数のリモートシステム13からの生物学的情報を取得してもよい。
分子データベース12aとタンパク質データベース12bは、様々な原子、リガンド分子、有機及び無機補因子、並びにタンパク質の相対的な位置を記述する、様々な生物学的、物理的及び/または化学的データを含む。便宜上、用語「生物学的データ」は、そのようなすべてのデータを指すのに本明細書では広く使用され得る。親和性データベース12cは、数値的結合親和性であり得る結合情報を含み得る。変換データベース12dは、幾何学的形状の回転、並進、及びミラーリングのための様々なオペランドを含み得る。
データベース12及び/またはリモートシステム13からのデータは、例えば、溶液NMRによって生成される構造アンサンブル、X線結晶学から解釈される共複合体、計算機シミュレーションからのサンプリング、ホモロジーモデリングまたは回転異性体ライブラリーのサンプリングなどの近似的ポーズ生成技術、及びこれらの技術の組合せ、などの様々なソースから入力データとして受取られるデータを含み得る。入力データは、トレーニング例と標識の両方を含み得る。
アナライザー10は、データエンコーダーモジュール14及び予測モデルモジュール18を備え得る。アナライザー10は、可能性のある結合親和性を発見または予測するための1つまたは複数の学習アルゴリズムを含む1つまたは複数のアルゴリズムライブラリー16に連結されている。アナライザー10は、様々なデータベース12及び/またはリモートシステム13からの入力を受取り、選択または定義された生物学的データを1つまたは複数の幾何学的なデータ表現にコード化するデータエンコーダーモジュール14に、それらを提供する。1つまたは複数の幾何学的なデータ表現は、次いで、可能性のある結合親和性の予測を決定するために、1つまたは複数のアルゴリズムライブラリーから1つまたは複数のアルゴリズムを適用する、予測モデルモジュール18に提供される。
予測モデルモジュール18は、予測のために使用される様々なディープラーニング技術及び/または機械学習技術を利用するように構成され得る。
予測モデルモジュール18は、さらに、より多くの入力が処理される場合、時間をかけてトレーニングされるように構成され得る。一実施形態では、予測モデルモジュール18は、重み付け接続によってニューラルネットワークを利用するように構成されており、さらに、様々なトレーニングイベント及び/または条件に基づいて重み付けを適合させるように構成されてもよい。アルゴリズムライブラリー16は、接続の重み付け、などの情報を含み得る、予測モデルモジュール18の前の操作に関連する情報を格納及び/または処理することによって、トレーニングをサポートするように構成され得る。
図2を参照すると、一実施形態に係る、親和性結合を予測するための高レベルのステップを示すワークフローが提供されている。
ワークフローは、入力データを受取って幾何学的表現22に変換し、予測モデル24を開発し、結合親和性予測のための予測モデル26を適用し、及び予測モデル28をトレーニングするステップを含む。ステップは、単に例示目的で提供されており、実施形態に応じて、より多いまたはより少ないステップがあってもよく、ステップは変化し得るか、または他の順序になり得ることが理解されるであろう。
これらのステップは、以下により詳細に記載される。
入力データの受取りと幾何学的な表現へのコード化
入力データの受取りと幾何学的な表現へのコード化のステップ22では、アナライザー10はデータベース12及び/またはリモートシステム13から多くのインプットを受取り得、データエンコーダーモジュール14を使用して、一実施形態では可視化された現実空間である幾何学的表現を作成するデータ表現(例えば、データ構造)を開発する。
データベース12及び/またはリモートシステム13からのデータは、様々な原子、リガンド分子、有機及び無機補因子、並びにタンパク質の相対的な位置を記述する、様々な生物学的、物理的及び/または化学的データを記載し得る。データはまとめて「入力データ」と記載される。
例えば、データエンコーダーモジュール14は、結合入力機能の幾何学的表現を提供するデータ構造を構築し、1つまたは複数の分子及び1つまたは複数の標的タンパク質に関連するデータをコード化することによりデータ構造を取込むように構成され得る。コード化のためのデータは、上記の入力データから選択され得る。
入力幾何学的データは、トレーニング例にグループ化されてもよい。例えば、単一のセットの分子、補因子、及びタンパク質が複数の幾何学的測定値を有する場合がしばしばあり、ここで、各「スナップショット」は、タンパク質及び分子が適合し得る代替の配座及びポーズを記述する。同様に、タンパク質側鎖、補因子、及びリガンドの異なる互変異性体も、サンプリングされ得る。これらの状態はすべてボルツマン分布に従って、生物学的システムの挙動に寄与するので、結合親和性を予測するシステムは、一緒にこれらの状態を考慮するように構成され得る。
任意選択で、これらのトレーニング例は、結合情報で標識してもよい。定量的な結合情報が利用可能である場合、標識は数値的結合親和性であってもよい。あるいは、トレーニング例は、複数の注文したカテゴリーのセット(例えば、2つのカテゴリーの結合剤及び非結合剤、または効力<1モル、<1ミリモル、<100マイクロモル、<10マイクロモル、<1マイクロモル、<100ナノモル、<10ナノモル、<1ナノモルの結合剤としてリガンドを記述するいくつかの可能性のある重複するカテゴリー)から標識を割り当て得る。結合情報は、実験測定値、計算された評価、専門家の意見、または推定など、さまざまなソースから得られまたは受取られ得る(例えば、分子とタンパク質のランダムな対は、結合する可能性は非常に低い)。
入力データは処理される。例えば、一実施形態では、データエンコーダーモジュール14は、例えば、3つのX、Y及びZ平面の任意の組合せにおいて回転、並進、及びミラーリング演算子の何らかの組合せを含む、1つまたは複数の予め定義された変換を適用して追加のインスタンスを生成することにより入力データを増強するように構成され得る。幾何学的データの回転及び並進は、ランダムに選択する(例えば原点からプラスマイナス5Åのある範囲以内)か、またはあるあらかじめ指定された増分で均一に生成させる(例えば、円の周りですべて5度の増分)か、または敵対的に選択(例えば、所与の予測システムから間違った予測を生成するために)し得る。データのこの増強は、1つまたは複数のデータ増強演算子を備え得る変換データベース12dからの入力を介して構成され得る。図4は、2つの異なる方向の例示分子40のサンプル例示を提供する。
データ増強演算子(もしあれば)が適用された後、データエンコーダーモジュール14は、得られる幾何学的データを切り捨てるように構成されてもよい。ニューラルネットワークは固定された入力サイズを必要とするため、システムは、適切な境界ボックス内に収まるように幾何学的データをトリミングし得る。例えば、25〜40Åのキューブを使用してもよい。入力データも固定サイズの格子に並進させ得る(例えば、マッピングする)。
幾何学的表現は、様々な実施形態によれば、様々な方法及びトポグラフィーで実装され得る。幾何学的表現は、データの可視化及び分析のために使用される。例えば、一実施形態では、幾何学的形状は、2−D、3−Dデカルト/ユークリッド空間、3−D非ユークリッド空間、マニホールド、などの、様々なトポグラフィーにレイアウトされたボクセルを用いて表すことができる。例えば、図3は、3次元格子のボクセルを含む例示表現を提供し、図5は、2次元格子のボクセルを含む例示表現を提供する。
別の実施形態では、幾何学的形状は、例えば、図8に示されるように、関連するペアワイズ距離注釈付き3D空間内の点のセットによって表し得る。
ボクセルは、例えば、とりわけ、標識を適用すること、及び/またはそれらの位置を決定することによって表し得る、それらに関連付けられた特定の値を有し得る。
データエンコーダ部14は、ボクセル格子に空間を分割するために、様々な形状の任意のものを使用するように構成され得る。いくつかの実施形態では、矩形、多角形、などの多面体が、空間を分割するのに使用され得る。
一実施形態では、格子構造は、ボクセルの構成と同様であるように構成され得る。例えば、各サブ構造は、分析される各原子のチャンネルと関連付けられてもよい。また、コード化方式は、各原子を数値的に表すために提供されてもよい。
一実施形態では、データエンコーダーモジュール14は、幾何学的データを規則的に配置されたユークリッド格子のキューブボクセルの離散集合に変換するように構成され得る。データエンコーダーモジュール14は、多様な異なる分解能で幾何学的形状を設定するように構成されてもよい。例えば、1Åの分解能を選択し得るが、システムは、より微細な(例えば、0.1Åまたはさらに0.01Å)またはより粗い(例えば、4Åまたは4Å)分解能を選択するように構成することができ、ここで間隔は入力データをカバーする整数のキューブを与える。
1Åの分解能の40Å入力キューブに関しては、例示のように、そのような配置は、40×40×40=64,000入力ボクセルをもたらすであろう。
いくつかの実施形態では、幾何学的表現は時間の要因を考慮して生成され、従って、四次元(X、Y、Z、及び時間)であってもよい。
いくつかの実施形態では、ピクセル、点、多角形、多面体、または多次元における任意の他のタイプの形状(例えば、3−D、4−D、などにおける形状)などの他の実装をボクセルの代りに使用し得る。
一実施形態では、幾何学的な情報は、リガンド、補因子、及びタンパク質を含む原子の中心のX、Y、Z座標で表すことができる。一つの代替表現は、例えば、X線結晶学で測定される電子密度である。
一実施形態では、すべてのボクセルは、それらに関連する様々な値を有していてもよい、単純な実装でオン/オフし得る、1つまたは複数の入力チャンネルを有し、原子のタイプをコード化するように構成されてもよい。原子タイプは、原子の要素を示し得る、または原子タイプは、他の原子の特性を区別するために精緻化し得る。
一実施形態では、システムは、X、Y、Z座標の原点がキャビティフラッディングアルゴリズムによって決定される結合部位の質量中心となるように選択することによって、幾何学的データを正規化するように構成され得る。あるいは、システムは、タンパク質だけの、またはリガンドだけの、全体の共複合体の質量中心に原点を置くように構成することができる。基底ベクトルは、任意選択で、タンパク質だけの、またはリガンドだけの全体の共複合体の慣性の主モーメントとなるように選択し得る。
次いで、存在する原子は、各ボクセルでコード化され得る。様々なタイプのコード化を、様々な技術及び/または方法を使用して利用し得る。コード化方法の例として、原子の原子番号を利用してもよく、水素の1からウンウンオクチウムの118(または任意の他の元素)の範囲のボクセル毎に1つの値が得られる。
しかし、図5、6、及び7に示されているように、すべてのボクセルが多数の並列入力チャンネルを有し、そのそれぞれがオンまたはオフのいずれかであって原子の種類をコード化する、上記の「ワンホットコード化」などの、他のコード化方法を利用してもよい。原子タイプは、原子の要素を示してもよく、または原子タイプは、他の原子の特性を区別するためにさらに精緻化し得る。例えば、Sybyl原子タイプは、単結合炭素を二重結合、三重結合、または芳香族の炭素と区別する。
一実施形態では、データエンコーダーモジュール14は、さらに、リガンドに対するタンパク質または補助因子の一部である原子を区別する。
他のチャンネルは、さらに(または代替的に)、部分電荷、分極率、電気陰性度、溶媒アクセス可能空間、及び電子密度などのさらなる情報を指定し得る。
いくつかの実施形態では、データエンコーダーモジュール14は、他の追加の任意選択のコード化の改良のためにも構成され得る。以下は実施例として提供される。
ほとんどの元素は生物学的システムにはめったに現れない。第1のコード化の改良では、必要なメモリーは、システムで表される原子のセットを減少させることによって低減し得る。原子は、稀な原子の組合せ(従ってシステムの実行にほとんど影響を与えないであろう)によるか、または類似の特性を有する原子の組合せ(従って組合せから不正確さを最小限に抑え得るであろう)によるかのいずれかで、同じチャンネルを共有するようにマッピングし得る。
第2のコード化の改良は、隣接するボクセルを部分的に活性化することによって原子位置を表すように、システムを構成し得る。隣接するニューロンの部分的な活性化は、ワンホットコード化から離れて「いくつかのウォーム(several−warm)」コード化に移動する。例えば、1Åの格子が配置されたときに3.5Åのファンデルワールス径従って22.4Åの体積を有する塩素原子を考慮するのが例示的であり、塩素原子内部のボクセルは完全に充たされ、原子のエッジ上のボクセルは部分的にのみ充たされるであろう。システムは、塩素原子内にあるボクセルの体積に比例して部分的に充たされたボクセルを部分的にオンするように構成され得る。これは、離散ワンホットコード化に対して、「平滑化」及びより正確な表現をもたらし得る。
データエンコーダーモジュール14からの出力は、入力データに適用される様々なルールに基づいてコード化された幾何学的なデータのセットである。
図3は、本実施形態に係る、サブコンテナー32のシリーズを含むサンプル3次元格子構造30を示す。各サブコンテナー32はボクセルに相当し得る。座標系は、各サブコンテナーが識別子を有するように、格子に対して定義されてもよい。図示の実施形態では、座標系は、3次元空間におけるデカルト座標系である。しかしながら、他の実施形態では、座標系は、とりわけ、扁平回転楕円体、円筒形または球形の座標系、極座標系、様々なマニホールド及びベクトル空間に対して設計された他の座標系などの、任意の他のタイプの座標系であってもよい。
図5と図6はそれぞれ、一実施形態に係る、ボクセルの二次元格子50上にコード化された2つの分子の表示を提供する。図5は、二次元格子50上に重ね合せた2つの分子52を提供する。示されるように、格子内の各位置は、例えば、酸素、窒素、炭素、及び空き空間の存在を識別する、識別子でコード化される。上述のように、そのようなコード化は、「ワンホット」コード化と呼ばれ得る。図6は、省略した分子52を有する図5の格子50を示す。図7は、各ボクセルが番号付けされた、格子50の表示を提供する。
述べたように、機能ジオメトリーはボクセル以外の形で表すことができる。図8は、機能(例えば、原子中心)が0−Dの点(表示80)、1−Dの点(表示82)、2−Dの点(表示86)、または3−Dの点(表示84)として表現されている様々な表現の表示を提供する。最初に、点の間の間隔は、ランダムに選択されてもよい。しかし予測モデルがトレーニングされるとき、点は接近するか、遠ざかるように動き得る。図9は、各点の可能な位置の範囲を示す。
図10は、いくつかの実施形態に係る、ボクセル入力(x1、x2、...、x100)への多関数演算素子(g1、g2、...)の適用及びg()を一緒に使用した関数演算素子の出力の合成の描写を提供する。例えば、各ボクセル入力は40の異なる原子タイプのワンホットコード化ベクターであってもよい。
予測モデルの開発
予測モデルモジュール18は、ステップ24において予測モデルを開発するために、データエンコーダーモジュール14からの幾何学的なデータの出力を使用するためのディープラーニング法を利用するように構成され得る。ディープラーニング法は、様々な実施形態によれば、監視される、または監視されない方法であり得る。
予測モデルモジュール18は、例示的な、非限定的な例として、とりわけ、ディープニューラルネットワーク、畳み込みニューラルネットワーク、ディープビリーフネットワーク、積層ボルツマンマシン、オートエンコーダー、スパースコード、及びトポロジカル主成分分析、を含み得る様々なディープラーニング法を利用するように構成され得る。
一実施形態では、予測モデルモジュール18は、選択したユーザー定義パラメーター19に基づいて1つまたは複数のアルゴリズムライブラリー16からの1つまたは複数のディープラーニング法を適用するように構成され得る。これらのユーザー定義パラメーター19は、さらに、様々な設定で、1つまたは複数のディープラーニング法を適用するように、予測モデルモジュール18を構成してもよい。これらの設定は、予測モデルモジュール18は、それぞれセキュリティ、スピード、及び柔軟性の異なるトレードオフを与える多くの設定で実行されることを可能にし得る。
ある時間期間にわたって予測モデルを構築しトレーニングするために、トレーニングデータを予測モデルモジュール18に提供し得る。
ディープラーニング法を適用するためには、結合親和性予測システムに対して固定された入力サイズを有することが必要であろう。また、結合親和性の正確な発見予測は、分子/タンパク質の幾何学的特徴に依存し得る。
ディープラーニング法は、結合親和性の分析のために重要であり得る1つまたは複数の特徴を抽出するために使用されてもよい。ディープラーニング法を利用する潜在的な利点は、人間によって直感的に明らかまたは操作可能でないであろう関係を識別し、使用することができるということである。
これらの機能は、予測モデルモジュール18によって一般的な識別力のあるフィルターに合成され得る。一実施形態では、ディープラーニング技術は、例えば、リガンドとタンパク質の間の幾何学的関係を記述するためにデータに適用されるように適合され得る。
従って、予測モデルモジュール18の操作は、結合親和性予測を行うために歴史的に使用されている機能より多くの複雑な機能をもたらし得る。例えば、水素結合の検出器として役に立つ機能は、水素結合ドナー及びアクセプターが、所定の間隔及び所定の角度であることを認識し得るだけでなく、ドナーとアクセプターの周囲の生化学的環境が結合を強化するかまたは弱めることを認識し得るであろう。さらに、システムが導出する検出器は、基礎となるデータにおいて結合剤を非結合剤から効果的に区別するものであってもよい。
一実施形態では、予測モデルモジュール18は、タンパク質とリガンドの両方が動くときに遭遇し得る代替的な位置など、動的な生物学的システムに適合するように構成されてもよい。そのようなタンパク質−リガンド複合体では、各形状の自由エネルギーのボルツマン分布に基づく相対的な割合で、多数の異なる構成が選択され得る。タンパク質−リガンド複合体の自由エネルギーのエンタルピーとエントロピー成分の両方が、分子によって選択されたポーズに依存し得る(ΔG=ΔH−TΔS)。最終的結合親和性は、複合体に利用可能なポーズのセットのエネルギーの加重平均の関数であることを見出し得る。この物理現象をモデル化するために、予測モデルモジュール18を、リガンドとタンパク質の動きによる多数の代替的な位置をサンプリングして、このサンプリングされた複合体の構成のセットにその結合親和性予測を基づかせるように構成し得る。
ディープニューラルネットワークが実装される実施形態では、予測モデルモジュール18は、ディープニューラルネットワークをトレーニングして幾何学的なデータ入力を受取り、所与のリガンドがタンパク質標的に結合するかしないかの予測(確率)を出力するように構成され得る。ディープニューラルネットワークは、関数演算素子のセットで構成されてもよい。これらの関数演算素子は、機能検出器であり得る。一実施形態では、システムは、重みパラメーターによって、それらの入力の各々をスケーリングし、結果を合計し、バイアスを追加し、その結果に活性化関数を適用する、関数演算素子を利用するように構成され得る。
ニューラルネットワークのための活性化関数の例としては、ロジスティック(またはシグモイド)、ソフトマックス、ガウシアン、ボルツマン加重平均、絶対値、線形、整流線形、結合整流線形、ソフト整流線形、パラメーター付き整流線形、平均、最大、最小、いくつかのベクトルのノルムLP(p=1、2、3、...、∞に対し)、記号、正方形、平方根、多重二乗、逆二次式、逆多重二乗、多重調和スプライン、及び薄板スプラインを挙げ得るが、これらに限定されない。
関数演算素子への入力は、受容フィールドのボクセルチャンネルの活性化であり得る。
いくつかの関数演算素子の出力が、他の関数演算素子への入力として機能する場合、関数はカスケード接続もされ得る。同じ入力を取る関数演算素子のサブセットは、「層」と称され得る。
ゼロ以上の層は畳み込みフィルターからなってもよい。畳み込みフィルター層(または「機能マップ」)は関数演算素子のセットであり、そのそれぞれは、空間的に隣接するボクセルまたは畳み込み関数の領域を入力として取る。
セットは、受容フィールドをカバーするように選択され得る。所与の畳み込み層内のすべての関数のパラメーターの重み(及び、任意選択で、バイアス)は、一緒に接続される、すなわち同じになるように制約され得る。関数は受容フィールドの異なる位置で同じ出力を計算するので、畳み込み層は、X、Y及びZ座標の並進後でも、ローカル入力パターンを検出することができるであろう。
一実施形態では、予測モデルモジュール18は、3次元畳み込み層を開発するように構成され得る。最低レベル畳み込み層への入力領域は、受容フィールドからのボクセルチャンネルのキューブ(または他の隣接する領域)であってもよい。高い方の畳み込み層は、さらにそれらの出力を、(3−Dユークリッド距離において)接近しているボクセルの結合領域の関数であるとしながら、低い方の畳み込み層からの出力を考慮し得る。
生物学的活性は、回転下及び並進下で不変であり得るので、予測モデルモジュール18は、任意選択で空間分割の回転対称性を利用した回転機能マップを生成するように構成され得る。例えば、システムが入力データを分割するためにキューブを使用するように構成されている場合、システムは、90度回転した後、関数演算の重みを一緒に結合することにより、回転機能マップを生成するように構成することができる。
時計回りに回転しているキューブを検討することは例示となり得る。1つのフィルターの上面の重みは異なるフィルターの右側面のみに結合されるようになる。換言すれば、重みが同一であるように制約され得る。回転は、3つのXY/XZ/YZ平面のそれぞれについて、90度、180度、270度時計回りに回転させることにより、回転は24の機能マップを生成し得る。重みの結合がなければ、すべてのフィルターは独自の重みを持つので、この配置は、回転重み結合なしの1/24にパラメーターの数を減らす。
代替実施例として、システムが、入力データを分割するために他の多面体を使用するように構成された場合、システムは、それらの対称基に適合した大きさにアクセスするために他の回転を使用するように構成されてもよい。例えば、空間が切捨てられた八面体を使用して分割されている場合、90度回転対称の3軸、120度回転対称の4軸、及び180度対称の6軸が存在するであろう。
一実施形態では、予測モデルモジュール18は、アーチファクトを除去するために、正則化法を適用するように構成され得、これは、モデルの解析に及ぼす配向の影響を減少させるのに必要な複雑性と処理負荷を低減させ得、特定の位置にある要素の重要性を低下させる。
ゼロ以上のニューラルネットワーク層はプーリング層からなっていてもよい。畳み込み層の場合と同様に、プーリング層は、入力の異なる空間的局所パッチに同じ関数を適用する関数演算のセットである。層をプールするために、出力は、プーリング演算子、例えば、いくつかのボクセルのLP=1,2,3、...、∞、に対するいくつかのベクターのノルムLP、によって与えられる。プーリングは、典型的には、チャンネルにまたがってではなく、チャンネル毎に行われる。
ゼロ以上の層は、同じ位置のチャンネルを横切ってまたは複数の位置を横切る特定のチャンネルに対して適用され得る、局所応答の正規化または局所的なコントラストの正規化などの正規化層、から構成されてもよい。これらの正規化層は、同じ入力に対するいくつかの関数演算の応答の多様性を促進し得る。
一実施形態では、予測モデルモジュール18は、関数演算のサブセットの出力が分類システムに提供され得るように、構成してもよい。完全に接続された単層または多層のパーセプトロンを適用し得るが、例えば、サポートベクターマシン、ランダムフォレスト、最隣接、などの他の分類子も適用し得るであろう。好ましくは、分類子は、様々な出力のカテゴリーに入力を分類する強度(または信頼または確率)を示す数値スコアを割当てる。いくつかの場合、カテゴリーは、結合剤及び非結合剤、または、代替的に、効力レベル(効力<1モル、<1ミリモル、<100マイクロモル、<10マイクロモル、<1マイクロモル、<100ナノモル、<10ナノモル、<1ナノモル)である。
幾何学的データポーズは、トレーニング例にグループ化されていてもよい。実施例におけるすべてのインスタンスを一度に提示するためには、法外に大きな入力フィールド(すなわち、ボクセル数×チャンンネル数×ポーズ数に等しいサイズの入力フィールド)が必要であり得る。
潜在的多ソリューションとしては、実施例中の各インスタンスを、ニューラルネットワークに別々に提供してもよく、各インスタンスの分類スコアを、全ての実施例の最終的なスコアを生成するために一緒に組合せてもよい。
一実施形態では、分類子の出力が数値である場合、出力は上述の活性化関数の任意のものを使用して組合せてもよい。
一実施形態では、分類子の出力が数値でない場合、予測モデルモジュール18は、様々な集団投票法(ensemble voting scheme)を使用して出力を組合せるように構成することができ、これは、例示的な、非限定的な例として、とりわけ、大多数、加重平均、コンドルセ法、ボルダ得点を含み得る。
一実施形態では、システムは、予測モデルの集団(ensemble)を適用するように、例えば、結合親和性の指標を生成するように、構成され得る。
結合親和性予測のための予測モデルの適用
予測モデルモジュール18内の予測モデルを開発する際に、次いで、アナライザー10は、1つまたは複数のデータベース12及び/または1つまたは複数のリモートシステム13から、予測モデルとともに分析のために選択されるタンパク質標的を記載する1つまたは複数のデータセットの入力を受取り得る。データベース12からの入力は、分析される分子のセットを含み得る。
次いで、アナライザー10は受取った情報に予測モデルを適用し得、及びアナライザー10は1つまたは複数の出力を返し得る。システムから提供される出力は変化してもよく、数値スコアから所定の閾値よりも大きいスコアを有する分析されるべき分子のセットから選択された分子のリストまでの範囲であり得る。出力は、1つまたは複数の標的タンパク質(またはタンパク質のタイプ)に対する1つまたは複数の分子の結合親和性の指標であってもよく、例えば、所与の特定のタンパク質またはタンパク質のタイプの活性または活性でない分子のスコア及び/または確率である。
一実施形態では、スコアの最終的な解釈は、数値スコア単独、または所定の活性及び不活性分子のスコアに対するランク付けされたリストにおける分子のスコアの位置、に基づくことができる。
予測モデルのトレーニング
ディープラーニング技術は、時間とともに予測の精度を向上させるためのトレーニングステップ28を有し得る。
一実施形態では、ディープラーニング技術が上記のようにニューラルネットワークを利用する場合、予測モデルモジュール18は、関数演算における重みとバイアスを変更することによって、その予測の精度を向上させるために予測モデルをトレーニングするように構成され得る。過去に使用された重みと予測精度は、格納され及び/またはアルゴリズムライブラリー16からアクセスされ得る。パラメーターはさらに、L1、L2、重み減衰、及びドロップアウトなどの様々な正則化の形態により制約され得る。
一実施形態では、予測モデルモジュール18は、対照的な発散アルゴリズムを使用して、貪欲、層状、生成的なプレトレーニングを通じてトレーニングデータの入力分布をモデル化するために重みを調整するように構成され得る。
一実施形態では、予測モデルモジュール18は、トレーニングデータが標識されている場合、モデルの予測結合親和性及び/または分類とトレーニングデータの報告された結合親和性及び/または分類の間の誤差を、潜在的に最小にするように重みを調整し得る。様々な方法が、対数損失、平方和誤差、ヒンジ損失法などを含み得るがこれらに限定されない、勾配降下法などの誤差関数を最小化するために使用されてもよい。これらの方法は、運動量、ヘッセフリー推定、ネステロフの加速勾配、adagrad、などの二次法や近似を含んでいてもよい。非標識生成的なプレトレーニング及び標識された識別トレーニングも組合せられ得る。
本発明のシステム及び方法は、様々な実施形態で実施され得る。適切に構成されたコンピューター装置、及び関連する通信ネットワーク、装置、ソフトウェア及びファームウェアは、上記のように1つまたは複数の実施形態を可能にするためのプラットフォームを設けてもよい。一例として、図11は、記憶装置1104及びランダムアクセスメモリー1106に接続された中央処理装置(「CPU」)1102を含み得る例示コンピューター装置1100を示す。CPU1102は、オペレーティングシステム1101、アプリケーションプログラム1103、及びデータ1123を処理し得る。オペレーティングシステム1101、アプリケーションプログラム1103及びデータ1123は、必要とされ得るように、記憶ユニット1104に記憶され、メモリー1106にロードされてもよい。コンピューター装置1100は、さらに、作動CPU1102から集中的なデータ処理計算をオフロードし、CPU1102と並行してこれらの計算を実行するCPU1102及びメモリー1106に動作可能に接続されているグラフィックス処理ユニット(GPU)1122を含み得る。オペレーター1107は、ビデオインターフェース1105によって接続されたビデオディスプレイ1108、及びI/Oインターフェース1109によって接続されたキーボード1115、マウス1112、及びディスク・ドライブまたはソリッドステートドライブ1114などの様々な入力/出力装置を使用してコンピューター装置1100と対話し得る。既知の方法で、マウス1112は、ビデオディスプレイ1108におけるカーソルの動きを制御し、マウスボタンによってビデオディスプレイ1108に現れる様々なグラフィカルユーザーインターフェース(GUI)コントロールを操作するように構成され得る。ディスク・ドライブまたはソリッドステートドライブ1114は、コンピューター可読媒体1116を受入れるように構成され得る。コンピューター装置1100は、コンピュータデバイス1100は、他の適切に構成されたデータ処理システム(図示せず)と通信することを可能にする、ネットワークインターフェース1111を介してネットワークの一部を形成し得る。1つまたは複数のタイプのセンサ1135は様々なソースからの入力を受取るのに使用され得る。
本発明のシステム及び方法は、デスクトップコンピューター、ラップトップコンピューター、タブレットコンピューター、またはワイヤレスハンドヘルドを含む、実質的に任意の方法のコンピューター装置で実施され得る。本発明のシステム及び方法は、1つまたは複数のコンピューター装置が本明細書に開示される様々なプロセスステップのそれぞれを実装することを可能にするコンピュータープログラムコードを含むコンピューター可読/使用可能媒体として実装され得る。全体の動作を実行する複数のコンピューター装置の場合、コンピューター装置は、様々なステップの動作を配布するようにネットワーク化されている。用語、コンピューター可読媒体またはコンピューター使用可能媒体は、1つまたは複数の任意のタイプのプログラムコードの物理的な実施形態を含むことが理解される。具体的には、コンピューター可読/使用可能媒体は、1つまたは複数のポータブルストレージ製造製品(例えば光ディスク、磁気ディスク、テープなど)上に、コンピューター及び/または記憶システムに関連付けられたメモリーなど、コンピューティングデバイスの一部である1つまたは複数の記憶装置上に、具現されたプログラムコードを含むことができる。
記載された機能は、iOS(商標)プラットフォーム、ANDROID(商標)、WINDOWS(商標)またはBlackBerry(商標)を含む、任意のモバイルプラットフォームに実装され得る。
例示ユースケース
以下は、いくつかの実施形態のいくつかのアプリケーションを記載する、例示の目的のみのために提供されるサンプルユースケースである。他の用途が考慮されてもよく、下記の実施例は、非限定的であり、変形、省略を受けてもよく、または追加の要素を含んでもよい。
以下のそれぞれの実施例は結合親和性予測を示しているが、実施例は、予測が、単一分子、セット、または反復的に修飾された分子ノシリーズになされているかどうか、予測は単一の標的または多数の標的に対してなされるかどうか、標的に対する活性は所望または回避されるべきかどうか、及び重要な量が絶対的または相対的活性であるかどうか、または分子または標的のセットは、具体的に選択されているかどうか(例えば、分子については、既存薬または農薬でること、タンパク質については、既知の毒性または副作用を有すること)、で異なることが見出され得る。
ヒットの発見:製薬会社は新しい有望な薬物リードを発見するために化合物のスクリーニングに数百万ドルを費やしている。対象となる疾患の標的との相互作用を有する少数の化合物を見つけるために、大規模な化合物の収集物が試験される。不幸にも、ウェットラボスクリーニングは、実験誤差を受け、アッセイ実験を実行するためのコスト及び時間に加えて、大規模なスクリーニング収集物の収集は、ストレージの制約、貯蔵安定性、または化学的コストを通して重要な課題を課す。最大の製薬会社でも、数千万の市販の分子及び数億のシミュレーション可能な分子に対し、数十万〜数百万の間の化合物を有するのみである。
物理実験に対して潜在的により効率的な代替手段は、仮想高スループットスクリーニングである。物理シミュレーションが、モデルを物理的に試験する前に、航空宇宙技術者が可能な翼の設計を評価する助けとなり得るのと同様に、分子のコンピュータースクリーニングは、可能性の高い分子の小さなサブセットに実験的試験を集中し得る。これは、スクリーニングの費用と時間を減らし得、偽陰性を低減し、成功率を向上させ、及び/またはより広範囲の化学的な空間をカバーし得る。
本出願では、タンパク質の標的が、システムへの入力として提供されてもよい。分子の大規模なセットを提供することもできる。各分子について、結合親和性がタンパク質標的に対して予測される。得られたスコアは、最良のスコア分子が標的タンパク質を結合する可能性が最も高いということで、分子をランク付けするのに使用され得る。任意選択で、ランク付けされた分子のリストは、同様の分子のクラスターに対して分析され得、大きなクラスターは分子結合のより強い予測として使用され得、または確認実験における多様性を確保するために、分子はクラスター間で選択され得る。
オフターゲット副作用予測:多くの薬剤は副作用を有することが見出され得る。多くの場合、これらの副作用は、薬の治療効果の原因となるもの以外の生物学的経路との相互作用に起因する。これらのオフターゲット副作用は、不快または危険であり、薬物の使用が安全である患者集団を制限し得る。従って、オフターゲットの副作用は、どの薬剤候補をさらに開発するかを評価する重要な基準である。多くの代替的な生物学的標的との薬物の相互作用を特徴づけることは重要であるが、そのような試験は、開発及び実行するのに高価であり時間がかかり得る。計算予測は、このプロセスをより効率的にし得る。
実施形態の適用において、有意の生物学的応答及び/または副作用に関連している生物学的標的のパネルを構築し得る。次いで、システムは、順にパネル内の各タンパク質に対する結合を予測するように構成され得る。特定の標的に対する強力な活性(すなわち、オフターゲットタンパク質を活性化することが知られている化合物と同等の強力な活性)は、オフターゲット効果による副作用に分子を関与させ得る。
毒性予測:毒性予測は、オフターゲット副作用予測の特に重要な特殊なケースである。後期臨床試験における薬剤候補の約半数は、容認できない毒性によって役に立たない。新薬承認プロセスの一部として(及び薬物候補がヒトで試験され得る前に)、FDAは、シトクロムP450の肝酵素(その阻害は薬剤−薬剤相互作用からの毒性をもたらし得る)またはhERGチャンネル(その結合は、心室性不整脈及び他の有害な心臓への影響につながるQT延長をもたらし得る)を含む、標的のセットに対する毒性試験データを要求する。
毒性の予測では、システムは、オフターゲットタンパク質が重要なアンチ標的(例えばCYP450、hERG、または5−HT2B受容体)となることを制約するように構成され得る。次いで薬剤候補の結合親和性をこれらのタンパク質に対して予測し得る。任意選択で、分子は、アンチ標的に対する結合についても分析され得、代謝産物のセット(元の分子の代謝/分解時に身体によって生成される続く分子)を予測するために分析され得る。問題の分子を識別して毒性を回避するために改変してもよく、または分子のシリーズの開発を追加のリソースの浪費を避けるために停止してもよい。
効力の最適化:薬剤候補の重要な要件の1つは、その疾患標的に対する強い結合である。スクリーニングが臨床的に有効であるのに十分に強く結合する化合物を見つけることは稀である。従って、初期の化合物は、医薬化学者が標的結合の強度の増加を有する新たな分子を提案するために分子構造を反復的に変更する、最適化の長いプロセスをシードする。それぞれの新しい分子は、変更が結合をうまく改善したかどうかを決定するために合成され試験される。このシステムは、計算予測で物理試験を置き換えることによって、このプロセスを容易にするように構成され得る。
本出願では、疾患標的とリード分子のセットがシステムに入力されてもよい。システムはリードのセットの結合親和性予測を生成するように構成され得る。任意選択で、システムは、予測される結合親和性の相違の理由を通知する助けとなり得る候補分子間の相違を強調し得る。医薬品化学者のユーザーは、望ましくは、標的に対する改善された活性を有する分子の新しいセットを提案するのに、この情報を使用し得る。これらの新規の代替分子は同様に分析され得る。
選択性の最適化:上述したように、分子は、多様な強度で多くのタンパク質を結合する傾向がある。例えば、(一般向けの化学療法の標的である)タンパク質キナーゼの結合ポケットは非常に類似しており、ほとんどのキナーゼ阻害剤は、多くの異なるキナーゼに影響を及ぼす。これは、様々な生物学的経路が同時に変更されることを意味し、これは「ダーティー」薬用プロファイル及び多くの副作用をもたらす。従って、多くの薬剤の設計における重要な課題は、活性自体ではなく特異性、すなわち、おそらく密接に関連したタンパク質から1つのタンパク質(またはタンパク質のサブセット)、を選択的に標的化する能力である。
我々のシステムは、候補薬物の選択性を最適化する時間とコストを削減し得る。本出願では、ユーザーは2セットのタンパク質を入力してもよい。1つのセットはそれに対して化合物が活性であるべきタンパク質を記載し、他のセットはそれに対して化合物が非活性であるべきタンパク質を記載する。システムは、相互作用の強度のプロファイルを確立して、両方のセットのすべてのタンパク質に対して、分子に関する予測を行うように構成され得る。任意選択で、これらのプロファイルは、タンパク質の説明パターンを示すために分析され得る。ユーザーは、システムによって生成された情報を、異なるタンパク質セットへの相対的結合を改善するであろう分子への構造変更を検討するために、及びより良い特異性を有する新たな候補分子を設計するために、使用し得る。任意選択で、システムは、予測される選択性の相違の理由を通知する助けとなり得る候補分子間の相違を強調するように構成され得る。提案された候補は、それらの活性プロファイルの特異性をさらに改良するために、反復的に分析され得る。
自動化された分子設計のためのフィットネス機能:前述の最適化を実行するための自動化ツールは有用である。成功した分子は、効力、選択、及び毒性の間で最適化とバランスを必要とする。「骨格ホッピング」(リード化合物の活性は維持されるが、化学構造が有意に変化している場合)は、改良された薬物動態、薬力学、毒性、または知的財産のプロファイルを生成し得る。アルゴリズムは、分子のランダム生成、所与の結合部位を充たすための分子断片の成長、分子の集団を「変位」及び「異種交配」させるための遺伝的アルゴリズム、及び生物学的に等価な代替品による分子の断片のスワッピング、など、新しい分子を反復的に示唆するために存在する。これらの各方法により生成された薬剤候補は、上述の複数の目的(効力、選択性、毒性)に対して評価されなければならず、技術が前述の手動設定(結合予測、選択性、副作用及び毒性予測)のそれぞれに有益であり得るのと同様に、それは自動化された分子設計システムに組込むことができる。
薬物の再利用:すべての薬物は副作用を有し、時には、これらの副作用は有益である。最もよく知られた例は、一般的に頭痛の治療として使用されているが、心血管の健康のためにも採用されている、アスピリンであろう。薬物は既にヒトにおいて安全であることが示されており、患者における急速な吸収及び良好な安定性のために最適化されているので、薬剤再配置は創薬のコスト、時間、及びリスクを優位に低減し得る。不幸にも、薬物再配置は、大部分は偶然となっている。例えば、シルデナフィル(バイアグラ)は、高血圧症薬として開発され、予想外に勃起不全の有効な治療法であることが観察された。オフターゲット効果の計算予測は、別の疾患を治療するために使用し得る化合物を識別するための薬物の再利用の関連で使用し得る。
本出願では、オフターゲットの副作用予測におけるように、ユーザーは、可能な標的タンパク質のセットを組立てることができ、ここで、各タンパク質は疾患にリンクされている。すなわち、各タンパク質の阻害は、(おそらく異なる)疾患を治療するであろう、例えば、シクロオキシゲナーゼ−2の阻害剤は炎症の緩和を提供することができ、一方因子Xaの阻害剤は、抗凝固剤として使用することができる。これらのタンパク質は、何らかが存在する場合、承認薬の結合親和性で注釈されている。次いで、我々は、ヒトでの使用のために承認または研究されてきた分子にセットを制限して、分子のセットを組立てる。最後に、タンパク質と分子の各対について、ユーザーは、結合親和性を予測するシステムを使用し得る。分子の予測された結合親和性がタンパク質に対する有効な薬剤の結合親和性に近い場合、薬物再利用のための候補を識別し得る。
薬剤耐性予測:薬剤耐性は、急速に分裂し、変異する病原体の集団に選択圧をかける、医薬品の使用の必然的な結果である。薬物耐性は、ウイルス(HIV)、外因性の微生物(MRSA)、及び調節不全の宿主細胞(癌)などの多様な病原体に見られる。時間が経つにつれて、与えられた薬は、薬が抗生物質であるか化学療法剤であるかにかかわらず、無効となるであろう。その時点で、治療介入は、うまくいけば、さらに効き目の強い別の薬に移行し得る。HIVにおいては、患者が治療されている間、ウイルスが蓄積されるであろう変異によって定義される、周知の疾患進行経路が存在する。
病原体が医学的介入に適応する方法の予測にはかなりの関心が寄せられている。1つのアプローチは、治療下にある病原体に生じるであろう変異を特徴付けることである。具体的には、医薬のタンパク質標的は、同時にその天然基質に結合することを継続しながら、薬物に結合することを回避するように変異する必要がある。
本出願では、標的タンパク質における可能な変異を提案し得る。各変異について、結果のタンパク質形状を予測し得る。これらの変異体タンパク質の形態のそれぞれについて、システムを、天然基質及び薬物の両方に対する結合親和性を予測するように構成し得る。タンパク質を、もはや薬剤に結合させないだけでなく、天然基質への結合を継続させる変異は、薬剤耐性をもたらす候補である。これらの変異したタンパク質は、例えば、これらのタンパク質をこれらの他の予測ユースケースへの入力として使用することにより、薬を設計する標的として使用され得る。
個別化医療:効果のない薬を投与すべきではない。コストと手間に加えて、すべての薬剤は副作用を有する。モラルと経済的考慮は、利益がこれらの害を上回るときにのみ薬を与えることを不可避にする。薬が有用であろう時期を予測できることが重要であり得る。人々はわずかの変異によって互いに異なる。しかし、小さな変異は深刻な影響を有し得る。これらの変異が、疾患標的の活性(オルソステリック)または調節(アロステリック)部位に発生した場合、それらは、薬物を結合から阻止し、従って、薬剤の活性を遮断し得る。特定の人物のタンパク質構造が知られている(または予測される)場合、システムは、薬剤が有効であるかどうかを予測するように構成され得るか、または、システムは、薬物が作用しない時期を予測するように構成され得る。
本出願では、システムは、入力として、薬物の化学構造及び特定の患者の特定の発現タンパク質を受取るように構成され得る。システムは、薬物とタンパク質の間の結合を予測するように構成され得、その特定の患者のタンパク質構造に対する薬剤の予測結合親和性が弱すぎて臨床的に有効でない場合、臨床医または開業医は、その薬剤が患者に無益に処方されることから防止し得る。
薬物試験設計:本出願は、上記個別化医療のユースケースを患者集団の場合に一般化する。システムは、薬剤が特定の患者の表現型に有効であろうかどうかを予測することができる場合、この情報を、設計臨床試験を支援するのに使用することができる。特定の疾患標的が薬剤によって十分に影響されない患者を除くことにより、臨床試験は、より少数の患者を使用して、統計的検出力を達成することができる。より少数の患者は直接的に、臨床試験のコストと複雑性を低減する。
本出願では、ユーザーは、異なるタンパク質の発現(例えば、変異またはアイソフォーム)によって特徴づけられるサブ集団へ可能な患者集団をセグメント化し得る。システムは、異なるタンパク質タイプに対する薬物候補の結合強度を予測するように構成され得る。特定のタンパク質タイプに対する予測結合強度が、臨床的に達成可能な入院患者の濃度を下回る必要な薬物濃度を示している場合(例えば、試験管、動物モデル、または健康なボランティアの物理的な特性評価に基づいて)、次いで薬剤候補は、そのタンパク質サブ集団に対して不合格であると予測される。そのタンパク質を有する患者は、その後、薬物試験から除外され得る。
農薬設計:医薬用途に加えて、農薬産業は新たな殺虫剤の設計に結合予測を使用する。例えば、農薬に対する1つの必要なものは、それらが任意の他の種に悪影響を及ぼすことなく、関心のある単一の種を停止することである。生態系の安全のために、人はマルハナバチを殺すことなく、ゾウムシを殺すことを望み得るであろう。
本出願では、ユーザーは、検討中の異なる種から、タンパク質の構造のセットをシステムに入力できるであろう。タンパク質のサブセットは、活性であるタンパク質として指定することができ、一方残りは分子が不活性であるべきタンパク質として指定されるであろう。前のユースケースと同様に、分子のセットの一部(既存のデータベースにあるかまたは新たに生成されるかによらず)が、各標的に対して検討され、システムは、第2を回避しながら第1のグループのタンパク質に対して最大の有効性を有する分子を戻すであろう。
材料科学:新しい材料の挙動と特性を予測するためには、分子相互作用を分析するのが有用であり得る。例えば、溶媒和を研究するために、ユーザーは、所与の小分子の繰返し結晶構造を入力し、結晶の表面でのその小分子の別のインスタンスの結合親和性を評価し得る。ポリマーの強度を研究するために、ポリマー鎖の集合を同様にタンパク質標的構造に入力し、ポリマーのオリゴマーを小分子として入力してもよい。従って、ポリマー鎖間の結合親和性は、システムによって予測され得る。
一具体例では、例えば、水素結合とパイ結合スタックの強度を予測することにより、ケブラーなどの材料の強度を予測するのにシステムを使用してもよい。従って、本明細書に開示される結合親和性予測は、ケブラーなどの改良された材料の開発を容易にするために使用され得る。
シミュレーション:タンパク質の領域に留まる分子の傾向はそこでのその結合親和性に相関するので、シミュレーターは、タンパク質への結合親和性を測定することが多い。結合を支配する機能の正確な説明は、特に高いまたは低い結合エネルギーを有する領域とポーズを識別するために使用することができる。エネルギーの記述を、分子の運動とタンパク質結合領域の占有率を記述するためにモンテカルロシミュレーションに折り畳むことができる。同様に、システム生物学を研究しモデル化するためのストカスティックシミュレーターは、分子濃度の小さな変化が生物学的ネットワークにいかに影響を与えるかの正確な予測から利益を得ることができるであろう。
一般
本明細書に記載の実施形態の他の変形例も、本発明の範囲から逸脱することなく実施され得ることが、当業者によって理解されるであろう。従って、他の改変が可能である。
さらなる態様では、本開示は、そのような方法を実施し、先に記載した機能を可能にすることにおいて使用するための、システム、装置、方法、及び非過渡機械読み取り可能な命令セットを含むコンピュータープログラム製品を提供する。
本開示は、ある程度の特殊性を有する例示的な形態で記載され例示されているが、記載及び例示は、例示の目的でのみなされていることが留意される。部品及びステップの構造及び組合せ及び配置の詳細に多くの変更を行い得る。従って、そのような変更は本発明に含まれることが意図されており、その範囲は特許請求の範囲によって定義される。
記載されたプロセス内に明示的に記載されまたは固有の場合を除き、任意の任意選択のステップまたはそのコンポーネントを含み、必要な順序、配列、またはそれらの組合せは、意図または暗示されていない。関連技術における当業者によって理解されるであろうように、本明細書に記載のプロセスと任意のシステムの両方、装置、などに関して、特許請求の範囲によってのみ限定されるべきである本発明の範囲から逸脱することなく、様々な状況において、広範な変形が可能であり、有利でさえある。

Claims (14)

  1. 1つの標的タンパク質に対する1つの分子の結合親和性を予測するためのシステムであって、
    入力データを反映する記録を格納するように構成された少なくとも1つの電子データストア(12)と、
    データエンコーダーモジュール(14)と、
    予測モデルモジュール(18)と、
    を備え、
    前記データエンコーダーモジュール(14)は、
    結合の入力機能の幾何学的表現を提供するデータ構造であって、前記少なくとも1つの電子データストア(12)に格納された入力データから、前記データ構造を構築するステップであって、
    前記格納された入力データの1つまたは複数の予め定義された変換を適用して前記格納された入力データの追加のインスタンスを生成することにより、前記格納された入力データを増強することであって、これにより幾何学的データが得られ、前記格納された入力データの1つまたは複数の予め定義された変換が、前記格納された入力データの3つのX、Y及びZ平面の任意の組合せにおいて回転、並進、及びミラーリング演算子の組合せを含む、前記格納された入力データを増強することと、
    境界ボックス内に収まるように、前記幾何学的データにおける前記格納された入力データの各インスタンスを切り捨てることと、を含む、前記構築するステップ、及び
    前記1つの分子及び前記1つの標的タンパク質に関連するデータをコード化することにより、前記データ構造を取込むステップであって、
    前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの各インスタンスに対して、前記幾何学的データにおいて、整数のボクセルを与える間隔を使用して、前記境界ボックス内に収まれた前記入力データの前記インスタンスを、規則的に配置したキューブボクセルの離散集合に変換することにより、前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの前記インスタンスを、対応するボクセル格子に分割することであって、各ボクセル格子内の各ボクセルは、それぞれ、前記各ボクセル格子内の各ボクセルによって表される原子のタイプをコード化する1つ以上の入力チャンネルを含む、前記分割することにより、前記データ構造を取込むステップ、
    を含む方法を行うように構成され、
    前記予測モデルモジュール(18)は、
    前記データ構造によって表される前記1つの標的タンパク質に対する前記1つの分子の結合親和性の指標を生成するために、前記データ構造に予測モデルを適用するように構成され、
    前記予測モデルは、関数演算素子のセットを含む畳み込みフィルター層を備える、ディープニューラルネットワークまたは畳み込みニューラルネットワークであって、前記関数演算素子のそれぞれが前記データ構造またはその畳み込み関数内の各ボクセル格子から空間的に隣接するボクセルの領域を入力として受け取り、
    前記結合親和性の指標は、予測モデルの出力である、
    システム。
  2. 前記幾何学的表現は、複数の原子中心の座標を含む、請求項1に記載のシステム。
  3. 前記幾何学的表現は、0.1Åと10Åの間の分解能を有する、請求項1または2に記載のシステム。
  4. 前記幾何学的表現は、1Åの分解能を有する、請求項3に記載のシステム。
  5. 前記予測モデルモジュール(18)は、時間とともに前記予測モデルをトレーニングする(28)ように構成されている、請求項1〜4のいずれか1項に記載のシステム。
  6. 前記入力データを反映する記録は、少なくとも1つの原子、リガンド分子、有機補因子、無機補因子、及びタンパク質に関連する入力データを反映する記録を含む、請求項1〜5のいずれか1項に記載のシステム。
  7. 前記1つ以上の入力チャンネルは、複数の入力チャンネルであり、
    当該複数の入力チャンネルは、前記各ボクセル格子内の各ボクセルによって表される部分電荷、分極率、電気陰性度、溶媒アクセス可能空間、または電子密度を指定する入力チャンネルをさらに含む、請求項1〜6のいずれか1項に記載のシステム。
  8. 1つ以上の原子のタイプが、前記1つ以上の入力チャンネルにおいて、同じ入力チャンネルを共有する、請求項1〜6のいずれか1項に記載のシステム。
  9. 1つの標的タンパク質に対する1つの分子の結合親和性を予測するためのコンピューター実装方法であって、
    少なくとも1つの電子データストアに、入力データを反映した記録を格納する(12)こと、
    データエンコーダーモジュール(14)に、結合の入力機能の幾何学的表現を提供するデータ構造であって、前記少なくとも1つの電子データストア(12)に格納された入力データから、前記データ構造を構築すること、
    前記データエンコーダーモジュール(14)に、前記1つの分子及び前記1つの標的タンパク質に関連するデータをコード化することによりデータ構造を取込むこと、及び
    前記データ構造によって表される前記1つの標的タンパク質に対する前記1つの分子の結合親和性の指標を生成するために、前記データ構造に予測モデルを適用すること、
    を含み、
    前記構築することは、
    前記格納された入力データの1つまたは複数の予め定義された変換を適用して前記格納された入力データの追加のインスタンスを生成することにより、前記格納された入力データを増強することであって、これにより幾何学的データが得られ、前記格納された入力データの1つまたは複数の予め定義された変換が、前記格納された入力データの3つのX、Y及びZ平面の任意の組合せにおいて回転、並進、及びミラーリング演算子の組合せを含む、前記格納された入力データを増強することと、
    境界ボックス内に収まるように、前記幾何学的データにおける前記格納された入力データの各インスタンスを切り捨てることと、を含み、
    前記取込むことは、
    前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの各インスタンスに対して、前記幾何学的データにおいて、整数のボクセルを与える間隔を使用して、前記境界ボックス内に収まれた前記入力データの前記インスタンスを、規則的に配置したキューブボクセルの離散集合に変換することにより、前記幾何学的データにおける前記境界ボックス内に収まれた前記格納された入力データの前記インスタンスを、対応するボクセル格子に分割することであって、各ボクセル格子内の各ボクセルは、それぞれ、前記各ボクセル格子内の各ボクセルによって表される原子のタイプをコード化する1つ以上の入力チャンネルを含む、前記分割することにより、前記データ構造を取込み、
    前記適用することにおいて、
    前記予測モデルは、関数演算素子のセットを含む畳み込みフィルター層を備える、ディープニューラルネットワークまたは畳み込みニューラルネットワークであって、前記関数演算素子のそれぞれが前記データ構造またはその畳み込み関数内の各ボクセル格子から空間的に隣接するボクセルの領域を入力として受け取り、
    前記結合親和性の指標は、予測モデルの出力である、
    方法。
  10. 前記幾何学的表現は、複数の原子中心の座標を含む、請求項に記載の方法。
  11. 前記幾何学的表現は、0.1Åと10Åの間の分解能を有する、請求項または1に記載の方法。
  12. 前記幾何学的表現は、1Åの分解能を有する、請求項1に記載の方法。
  13. 前記予測モジュールは、時間とともに前記予測モデルをトレーニングする(28)ように構成されている、請求項〜1のいずれか1項に記載の方法。
  14. 前記入力データの記録は、少なくとも1つの原子、リガンド分子、有機補因子、無機補因子、タンパク質に関連する入力データを反映する記録を含む、請求項〜1のいずれか1項に記載の方法。
JP2017510709A 2014-05-05 2015-05-05 結合親和性予測システム及び方法 Active JP6671348B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461988510P 2014-05-05 2014-05-05
US61/988,510 2014-05-05
PCT/CA2015/000296 WO2015168774A1 (en) 2014-05-05 2015-05-05 Binding affinity prediction system and method

Publications (3)

Publication Number Publication Date
JP2017520868A JP2017520868A (ja) 2017-07-27
JP2017520868A5 JP2017520868A5 (ja) 2018-06-14
JP6671348B2 true JP6671348B2 (ja) 2020-03-25

Family

ID=54391892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017510709A Active JP6671348B2 (ja) 2014-05-05 2015-05-05 結合親和性予測システム及び方法

Country Status (5)

Country Link
EP (1) EP3140763B1 (ja)
JP (1) JP6671348B2 (ja)
CN (1) CN106575320B (ja)
SG (1) SG11201609238VA (ja)
WO (1) WO2015168774A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373059B1 (en) 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
CN106951961B (zh) * 2017-02-24 2019-11-26 清华大学 一种粗粒度可重构的卷积神经网络加速器及系统
US10546237B2 (en) 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
JP7048065B2 (ja) * 2017-08-02 2022-04-05 学校法人立命館 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法
CN107423570B (zh) * 2017-08-02 2021-01-08 南昌立德生物技术有限公司 快速准确计算蛋白酶与药物分子之间亲和自由能的算法
CN111279419B (zh) * 2017-10-17 2023-10-10 富士胶片株式会社 特征量计算方法、筛选方法、以及化合物创建方法
EP3483619A1 (en) * 2017-11-13 2019-05-15 Technische Universität München Automated noninvasive determining the sex of an embryo of and the fertility of a bird's egg
KR20200111158A (ko) * 2017-11-22 2020-09-28 사이클리카 인코포레이티드 감별 약물 발견을 위한 방법 및 시스템
CN108614957B (zh) * 2018-03-22 2021-06-18 浙江工业大学 一种基于香农熵的多阶段蛋白质结构预测方法
CN109036580B (zh) * 2018-07-06 2021-08-20 华东师范大学 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法
KR102213670B1 (ko) 2018-08-09 2021-02-08 광주과학기술원 약물-표적 상호 작용 예측을 위한 방법
WO2020081292A1 (en) 2018-10-17 2020-04-23 Becton, Dickinson And Company Adaptive sorting for particle analyzers
CN111128314B (zh) * 2018-10-30 2023-07-21 深圳市云网拜特科技有限公司 一种药物发现方法和系统
CN111312340A (zh) * 2018-12-12 2020-06-19 深圳市云网拜特科技有限公司 一种基于smiles的定量构效方法和装置
CN113728390A (zh) * 2019-01-04 2021-11-30 思科利康有限公司 使用合成数据预测药物结合的方法和系统
CN110010199B (zh) * 2019-03-27 2021-01-01 华中师范大学 一种分析识别蛋白质特异性药物结合口袋的方法
CN113711035A (zh) * 2019-04-16 2021-11-26 富士胶片株式会社 特征量计算方法、特征量计算程序、特征量计算装置、筛选方法、筛选程序及化合物创建方法
CN110265092B (zh) * 2019-05-10 2021-08-24 江苏理工学院 基于人工智能的抗体-抗原分子对接评价方法和系统
CN110428864A (zh) * 2019-07-17 2019-11-08 大连大学 用于构建蛋白质和小分子的亲和力预测模型的方法
CN110689919B (zh) * 2019-08-13 2023-03-17 复旦大学 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
CN111429972A (zh) * 2019-09-05 2020-07-17 中国海洋大学 一种基于深度学习的蛋白质小分子对接打分方案
CN110910964A (zh) * 2019-11-08 2020-03-24 深圳先进技术研究院 一种分子间的结合活性预测方法及装置
CN110867254A (zh) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 预测方法及装置、电子设备和存储介质
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
CN112053742A (zh) * 2020-07-23 2020-12-08 中南大学湘雅医院 分子靶标蛋白的筛选方法、装置、计算机设备和存储介质
US20230326545A1 (en) * 2020-09-18 2023-10-12 Peptris Technologies Private Limited System and method for predicting biological activity of chemical or biological molecules and evidence thereof
JP7483913B2 (ja) 2020-09-30 2024-05-15 富士フイルム株式会社 特徴量算出方法、スクリーニング方法、及び化合物創出方法
WO2022082739A1 (zh) * 2020-10-23 2022-04-28 深圳晶泰科技有限公司 基于卷积神经网络预测蛋白和配体分子结合自由能的方法
CN112489722B (zh) * 2020-11-27 2023-07-07 江苏理工学院 药物靶点结合能预测方法及装置
US20220270706A1 (en) * 2021-02-25 2022-08-25 International Business Machines Corporation Automatically designing molecules for novel targets
CN113517038A (zh) * 2021-03-02 2021-10-19 阿里巴巴新加坡控股有限公司 药物与靶点之间亲和力的预测方法、装置及设备
CN113488102A (zh) * 2021-06-30 2021-10-08 中国石油大学(华东) 基于遗传算法集成深度学习网络的药物推荐系统、计算机设备、存储介质
CN114944204A (zh) * 2022-05-13 2022-08-26 北京字节跳动网络技术有限公司 用于管理分子预测的方法、装置、设备和介质
CN115171774A (zh) * 2022-05-17 2022-10-11 慧壹科技(上海)有限公司 一种抗体/大分子药物的亲和力改造系统和方法
CN117037946B (zh) * 2022-11-14 2024-05-10 合肥微观纪元数字科技有限公司 基于蛋白质结合口袋的优化化合物结构的方法
SE2350013A1 (en) 2023-01-11 2024-07-12 Anyo Labs Ab Ligand candidate screen and prediction

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2346588A1 (en) * 2000-05-08 2001-11-08 Molecular Simulations Inc. Methods and systems for estimating binding affinity
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
KR101239466B1 (ko) * 2003-10-14 2013-03-07 베르선 코포레이션 분자 분해를 위한 방법 및 장치
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
ES2432753T3 (es) * 2005-03-11 2013-12-05 Schrödinger, Llc Función de puntuación predictiva para estimar la afinidad de unión
JP2009007302A (ja) * 2007-06-28 2009-01-15 Nec Corp 仮想スクリーニング方法及び装置
JP2010113473A (ja) * 2008-11-05 2010-05-20 Saitama Univ ペプチドとタンパク質の結合部位を予測する方法、装置、およびプログラム
CA2868827C (en) * 2012-04-24 2022-05-10 Laboratory Corporation Of America Holdings Methods and systems for identification of a protein binding site
CN102930181B (zh) * 2012-11-07 2015-05-27 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法

Also Published As

Publication number Publication date
SG11201609238VA (en) 2016-12-29
CN106575320A (zh) 2017-04-19
EP3140763B1 (en) 2020-05-20
CN106575320B (zh) 2019-03-26
EP3140763A4 (en) 2018-02-07
EP3140763A1 (en) 2017-03-15
WO2015168774A1 (en) 2015-11-12
JP2017520868A (ja) 2017-07-27

Similar Documents

Publication Publication Date Title
JP6671348B2 (ja) 結合親和性予測システム及び方法
JP7121725B2 (ja) 分類子出力を並行して評価することによる第1の分類子の誤差の訂正
US11080570B2 (en) Systems and methods for applying a convolutional network to spatial data
JP6975140B2 (ja) 畳み込みネットワークを空間データに適用するためのシステム及び方法
Lee et al. High-throughput screening approach for nanoporous materials genome using topological data analysis: application to zeolites
Lengauer et al. Novel technologies for virtual screening
Verma et al. 3D-QSAR in drug design-a review
Ekins et al. Evolving molecules using multi-objective optimization: applying to ADME/Tox
WO2007139037A1 (ja) ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
Swann et al. Representing molecular and materials data for unsupervised machine learning
US20120290624A1 (en) Defining and mining a joint pharmacophoric space through geometric features
Schneider et al. De novo design: from models to molecules
JP2024537793A (ja) 負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け
WO2023212463A1 (en) Characterization of interactions between compounds and polymers using pose ensembles
Berenger et al. 3D-sensitive encoding of pharmacophore features
Bumble Computer generated physical properties
Criscuolo et al. The surprising ineffectiveness of molecular dynamics coordinates for predicting bioactivity with machine learning
Tripathi Next-Gen Pharma: A Roadmap Through Computational Drug Discovery
Ahmadreza et al. Instantaneous generation of protein hydration properties from static structures
Creighton et al. Informatics Tools for Functional Pathway Analysis Using Genomics and Proteomics
WO2009146735A1 (en) Descriptors of three-dimensional objects, uses thereof and a method to generate the same
CA2633179A1 (en) Descriptors of three-dimensional objects, uses thereof and a method to generate the same

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180502

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200303

R150 Certificate of patent or registration of utility model

Ref document number: 6671348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250