JP7343911B2 - 結合および活性予測を強化するための機械学習および分子シミュレーションに基づく方法 - Google Patents

結合および活性予測を強化するための機械学習および分子シミュレーションに基づく方法 Download PDF

Info

Publication number
JP7343911B2
JP7343911B2 JP2020546373A JP2020546373A JP7343911B2 JP 7343911 B2 JP7343911 B2 JP 7343911B2 JP 2020546373 A JP2020546373 A JP 2020546373A JP 2020546373 A JP2020546373 A JP 2020546373A JP 7343911 B2 JP7343911 B2 JP 7343911B2
Authority
JP
Japan
Prior art keywords
receptor
conformations
machine learning
score
ligand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020546373A
Other languages
English (en)
Other versions
JP2021515233A (ja
Inventor
エバン ナサニエル フェインバーグ,
ビジャイ サティアナンド パンデ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Publication of JP2021515233A publication Critical patent/JP2021515233A/ja
Application granted granted Critical
Publication of JP7343911B2 publication Critical patent/JP7343911B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Description

(関連出願の相互参照)
本出願は、2018年3月5日に出願された"Machine Learning and Molecular Simulation Based Methods for Enhancing Binding and Activity Prediction"という名称の米国仮特許出願第62/638,805号に関し、米国特許法(35 U.S.C.)第119条(e)に基づく利益および優先権を請求する。米国仮特許出願第62/638,805号の開示は、これにより全ての目的でその全体が参照により本明細書に組み込まれる。
本発明は、一般に機械学習方法に関し、より詳細には、分子シミュレーションにおける機械学習の使用に関する。
タンパク質の一分類であるGタンパク質共役受容体(GPCR)は、FDAの承認を得た全ての薬物の標的の3分の1以上を構成する。1つのそのようなGPCRであるμオピオイド受容体(μOR)は、既存のGPCR薬の利益および欠点を典型的に示す。モルフィンおよびヒドロコドンなどのオピオイド慢性疼痛投薬は、それらの鎮痛の主な治療目的を達成するが、呼吸抑制および嗜癖などの重篤な副作用を引き起こすμORアゴニストである。
2015年には、30,000名を超えるアメリカ人がオピオイド薬の過剰投与で亡くなっており、僅か5年前の20,000名から上昇している。過去1世紀にわたり、医薬品化学者は、依存症の問題なしにオピオイド鎮痛物質を合成するという無駄な努力をしてきた。
本発明の実施形態による分子シミュレーションのためのシステムおよび方法が例示される。一実施形態は、リガンドと受容体との間の関係を予測するための方法を含む。方法は、受容体の複数のコンフォメーションを同定するステップと、複数のコンフォメーションのそれぞれと1つまたは複数のリガンドのセットとに関するドッキングスコアを計算するステップと、1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係を予測するステップとを含む。
さらなる実施形態では、複数のコンフォメーションは、少なくとも1つの非結晶学的状態を含む。
さらに別の実施形態では、複数のコンフォメーションを同定するステップは、受容体とリガンドとの相互作用をシミュレートすることからシミュレーションデータを作成することを含む。
さらにさらなる実施形態では、複数のコンフォメーションを同定するステップは、シミュレーションデータに関してクラスタリング演算を行って複数のコンフォメーションを同定することをさらに含む。
さらに別の実施形態では、クラスタリング演算は、ミニバッチk平均クラスタリング演算である。
さらにさらなる実施形態では、複数のコンフォメーションを同定するステップは、シミュレーションデータに関して次元削減演算を行うことをさらに含む。
別の追加の実施形態では、複数のコンフォメーションを同定するステップは、複数のコンフォメーションの各コンフォメーションに関する反応座標のセットを同定することを含む。
さらなる追加の実施形態では、ドッキングスコアを計算するステップは、リガンドのセットと複数のコンフォメーションのそれぞれとのドッキングをシミュレートすることを含む。
別の実施形態では、やはり、ドッキングスコアを計算するステップは、ドッキングスコアの素性行列を構築することを含み、関係を予測するステップは、素性行列を機械学習モデルに入力することを含む。
さらなる実施形態では、やはり、機械学習モデルはランダムフォレストモデルを含む。
さらになお別の実施形態では、ランダムフォレストが、8.0(10nM)のpIC50カットオフを有する。
さらになおさらなる実施形態では、ランダムフォレストが第1のランダムフォレストモデルであり、機械学習モデルは、第2のランダムフォレストモデルをさらに含む。
さらに別の追加の実施形態では、第1のランダムフォレストモデルは結合のためであり、第2のランダムフォレストモデルはアゴニズムのためである。
さらにさらなる追加の実施形態では、第1のランダムフォレストモデルおよび第2のランダムフォレストモデルは、第1のランダムフォレストモデルおよび第2のランダムフォレストモデルの両方からそれぞれ最終スコアを作成するためにライブラリーリガンドに適用される。
さらに別の実施形態では、やはり、方法は、公知の薬理学的性質を持つリガンドのデータベースからのリガンドで機械学習モデルを訓練するステップをさらに含む。
さらにさらなる実施形態では、やはり、関係を予測するステップは、リガンドが受容体に対するアゴニストであるか否かを決定することを含む。
さらに別の追加の実施形態では、方法は、予測された関係に基づいて、1つまたは複数の候補リガンドのセットを同定するステップと、候補リガンドのセットと受容体との反応を物理的に試験するステップとをさらに含む。
さらにさらなる追加の実施形態では、関係を予測するステップは、リガンドのセットと複数のコンフォメーションの各コンフォメーションとの関係を予測すること、およびリガンドのセットと受容体との総計の関係を、複数のコンフォメーションに関する予測された関係に基づいて予測することを含む。
追加の実施形態および特徴を、以下に続く明細書で部分的に述べ、部分的には本明細書を検討することによって当業者に明らかになりまたは本発明の実施により学ぶことができる。本発明の性質および利点のさらなる理解は、本開示の一部を形成する本明細書の残りの部分および図面を参照することによって実現することができる。
特許または出願ファイルは、カラーで作成された少なくとも1つの図面を含有する。カラー図面(複数可)を備える本特許または特許出願公開のコピーは、請求および必要な料金の支払いによって特許庁により提供されることになる。
明細書および特許請求の範囲は、本発明の例示的な実施形態として提示されるかつ本発明の範囲の完全な列挙として解釈すべきではない、以下の図およびデータグラフを参照することによって、より十分に理解されよう。
本発明の実施形態において、例えば以下の項目が提供される。
(項目1)
リガンドと受容体との間の関係を予測するための方法であって、
受容体の複数のコンフォメーションを同定するステップと、
前記複数のコンフォメーションのそれぞれと1つまたは複数のリガンドのセットとに関するドッキングスコアを計算するステップと、
前記1つまたは複数のリガンドのセットと前記受容体の複数のコンフォメーションとの間の関係を予測するステップと
を含む、方法。
(項目2)
前記複数のコンフォメーションが、少なくとも1つの非結晶学的状態を含む、項目1に記載の方法。
(項目3)
前記複数のコンフォメーションを同定するステップが、前記受容体とリガンドとの相互作用をシミュレートすることからシミュレーションデータを作成することを含む、項目1に記載の方法。
(項目4)
前記複数のコンフォメーションを同定するステップが、前記シミュレーションデータにクラスタリング演算を行って前記複数のコンフォメーションを同定することをさらに含む、項目3に記載の方法。
(項目5)
前記クラスタリング演算が、ミニバッチk-平均クラスタリング演算である、項目4に記載の方法。
(項目6)
前記複数のコンフォメーションを同定するステップが、前記シミュレーションデータに対して次元削減演算を行うことをさらに含む、項目3に記載の方法。
(項目7)
前記複数のコンフォメーションを同定するステップが、前記複数のコンフォメーションの各コンフォメーションに関する反応座標のセットを同定することを含む、項目1に記載の方法。
(項目8)
前記ドッキングスコアを計算するステップが、前記リガンドのセットと前記複数のコンフォメーションのそれぞれとのドッキングをシミュレートすることを含む、項目1に記載の方法。
(項目9)
前記ドッキングスコアを計算するステップが、ドッキングスコアの素性行列を構築することを含み、前記関係を予測するステップが、前記素性行列を機械学習モデルに入力することを含む、項目1に記載の方法。
(項目10)
前記機械学習モデルが、ランダムフォレストモデルを含む、項目9に記載の方法。
(項目11)
前記ランダムフォレストが、8.0(10nM)のpIC50カットオフを有する、項目10に記載の方法。
(項目12)
前記ランダムフォレストが第1のランダムフォレストモデルであり、前記機械学習モデルが、第2のランダムフォレストモデルをさらに含む、項目10に記載の方法。
(項目13)
前記第1のランダムフォレストモデルが結合のためであり、前記第2のランダムフォレストモデルがアゴニズムのためである、項目12に記載の方法。
(項目14)
前記第1のランダムフォレストモデルおよび前記第2のランダムフォレストモデルが、前記第1のランダムフォレストモデルおよび前記第2のランダムフォレストモデルの両方からそれぞれ最終スコアを作成するためにライブラリーリガンドに適用される、項目13に記載の方法。
(項目15)
公知の薬理学的性質を持つリガンドのデータベースからのリガンドで前記機械学習モデルを訓練するステップをさらに含む、項目9に記載の方法。
(項目16)
前記関係を予測するステップが、前記リガンドが前記受容体に対するアゴニストであるか否かを決定することを含む、項目1に記載の方法。
(項目17)
予測された前記関係に基づいて、1つまたは複数の候補リガンドのセットを同定するステップと、
前記候補リガンドのセットと前記受容体との反応を、物理的に試験するステップと
をさらに含む、項目1に記載の方法。
(項目18)
前記関係を予測するステップが、
前記リガンドのセットと前記複数のコンフォメーションの各コンフォメーションとに関する関係を予測すること、および
前記リガンドのセットと前記受容体との総計の関係を、前記複数のコンフォメーションに関する予測された前記関係に基づいて予測すること
を含む、項目1に記載の方法。
(項目19)
リガンドと受容体との間の関係を予測するためのシステムであって、
受容体の複数のコンフォメーションを同定し、
前記複数のコンフォメーションのそれぞれと1つまたは複数のリガンドのセットとに関するドッキングスコアを計算し、かつ
前記1つまたは複数のリガンドのセットと前記受容体の複数のコンフォメーションとの間の関係を予測する
ように個々にまたはまとめて構成された1つまたは複数のプロセッサーを含む、システム。
(項目20)
前記複数のコンフォメーションが、少なくとも1つの非結晶学的状態を含む、項目19に記載のシステム。
(項目21)
前記複数のコンフォメーションを同定するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記受容体とリガンドとの相互作用をシミュレートすることからシミュレーションデータを作成するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーを含む、項目19に記載のシステム。
(項目22)
前記複数のコンフォメーションを同定するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記複数のコンフォメーションを同定するために前記シミュレーションデータにクラスター演算を行うように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに含む、項目21に記載のシステム。
(項目23)
前記クラスター演算に対して個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、ミニバッチk-平均クラスタリング演算である、項目22に記載のシステム。
(項目24)
前記複数のコンフォメーションを同定するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記シミュレーションデータに対して次元削減演算を行うように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーをさらに含む、項目21に記載のシステム。
(項目25)
前記複数のコンフォメーションを同定するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記複数のコンフォメーションの各コンフォメーションに関する反応座標のセットを同定するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーを含む、項目19に記載のシステム。
(項目26)
前記ドッキングスコアを計算するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記リガンドのセットと前記複数のコンフォメーションのそれぞれとのドッキングをシミュレートするように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーを含む、項目19に記載のシステム。
(項目27)
前記ドッキングスコアを計算するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、ドッキングスコアの素性行列を構築するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーを含み、前記関係を予測するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記素性行列を機械学習モデルに入力するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーを含む、項目19に記載のシステム。
(項目28)
前記機械学習モデルがランダムフォレストである、項目27に記載のシステム。
(項目29)
前記ランダムフォレストが、8.0(10nM)のpIC50カットオフを有する、項目28に記載のシステム。
(項目30)
前記ランダムフォレストが第1のランダムフォレストモデルであり、前記機械学習モデルが、第2のランダムフォレストモデルをさらに含む、項目28に記載のシステム。
(項目31)
前記第1のランダムフォレストモデルが結合のためであり、前記第2のランダムフォレストモデルがアゴニズムのためである、項目30に記載のシステム。
(項目32)
前記第1のランダムフォレストモデルおよび前記第2のランダムフォレストモデルが、前記第1のランダムフォレストモデルおよび前記第2のランダムフォレストモデルの両方からそれぞれ最終スコアを作成するためにライブラリーリガンドに適用される、項目31に記載のシステム。
(項目33)
公知の薬理学的性質を持つリガンドのデータベースからのリガンドで前記機械学習モデルを訓練するように個々にまたはまとめて構成された、前記1つまたは複数のプロセッサーをさらに含む、項目27に記載のシステム。
(項目34)
前記関係を予測するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーが、前記リガンドが前記受容体に対するアゴニストであるか否かを決定するように個々にまたはまとめて構成された前記1つまたは複数のプロセッサーを含む、項目19に記載のシステム。
(項目35)
予測された前記関係に基づいて、1つまたは複数の候補リガンドのセットを同定し、かつ
前記候補リガンドのセットと前記受容体との反応を物理的に試験する
ように個々にまたはまとめて構成された1つまたは複数のプロセッサーをさらに含む、項目19に記載のシステム。
(項目36)
前記関係を予測するステップが、
前記リガンドのセットおよび前記複数のコンフォメーションの各コンフォメーションに関する関係を予測し、かつ
前記複数のコンフォメーションに関して予測された前記関係に基づいて、前記リガンドのセットと前記受容体とに関する総計の関係を予測する
ように個々にまたはまとめて構成された1つまたは複数のプロセッサーを含む、
項目19に記載のシステム。

図1は、μORの様々な状態の実施例を示す図である。
図2は、μORの自由エネルギーランドスケープの視覚化を示す図である。
図3は、本発明の一部の実施形態による、リガンド発見をもたらすシステムの実施例を示す図である。
図4は、本発明のいくつかの実施形態による、リガンド発見要素の実施例を示す図である。
図5は、本発明の実施形態による、候補リガンドを同定するためのリガンド発見アプリケーションの実施例を示す図である。
図6は、本発明の実施形態による、リガンド発見のためのプロセスのフローチャートを概念的に示す図である。
図7は、本発明の実施形態による、MOR-1結合剤のスクリーニングの実施例を示す図である。
図8A~8Dは、FMP1~FMP32に関する構造および分子量を示す図である。 図8A~8Dは、FMP1~FMP32に関する構造および分子量を示す図である。 図8A~8Dは、FMP1~FMP32に関する構造および分子量を示す図である。 図8A~8Dは、FMP1~FMP32に関する構造および分子量を示す図である。
図9は、本発明の実施形態による、CHO細胞からの膜における、125 l-IBNtxA(0.1nM)に対するFMP4による競合研究を示す図である。
本発明の、ある特定の実施形態によるシステムおよび方法は、新規なGタンパク質共役受容体(GPCR)薬の足場を同定する際に、橋渡し研究者を支援することができる。既存の化学変種の誘導体を合成する際の、医薬品化学における大変な努力にも関わらず、現行のFDA承認オピオイドには重篤な副作用が数多くあり、それが急性および慢性疼痛の処置におけるそれらの有用性を制限する。本発明のいくつかの実施形態による方法は、μオピオイド受容体(μOR)で活性である分子のこれまで未知であった化学空間を探索するのに、機械学習による結晶学および分子モデリングを利用する。実施例の多くはμORを参照しながら記述されるが、当業者なら、本発明のいくつかの実施形態による手法は、その他のタンパク質、酵素、GPCR、キナーゼ、イオンチャネル、および核内受容体を含む任意の種類のコンフォメーション上の柔軟性を有することが予測される任意の受容体に容易に適用できることが、容易に理解されよう。
現在公知のオピオイドのかなりの部分が、2つの足場:モルフィンおよびフェンタニルの1種の類似体である。大多数の現在公知のオピオイドは、第3級アミン窒素モチーフを中心としている。誘導体を創出するこの1世紀続いた戦略と離れて、本発明の一部の実施形態によるシステムおよび方法を使用して、μオピオイドの新規の種類を開発するための化学空間の、完全に新しい領域を拓くことができる。一部の実施形態では、本開示は、GPCR、キナーゼ、イオンチャネル、および核内受容体用の新規なリガンドを開発するのに使用することができる、システムおよび方法を提供する。
基本的に新しい分子を開発するには、それらを発見するための創造性に富んだ手法が求められる。何十年にもわたり、研究者らは、薬物発見のために3つの主要な方法:構造生物学(例えば、結晶学)、分子シミュレーション(例えば、分子動力学、ドッキング)、および機械学習(例えば、定量的構造活性相関(QSAR)、ランダムフォレストなど)を使用してきた。しかしこれらの方法は、これらの一見したところの直交法を合成できるスキームではなかったので、独立して使用されてきた。一部の実施形態では、新規なプロセスは、薬物設計における本発明者らの予測能力を大幅に改善するために、これらの手法の全てを利用する。このスキームの成功は、より広範に、タンパク質の機能における主要な仮説:タンパク質受容体は、それらの機能的義務における複雑なコンフォメーションランドスケープをサンプル抽出するという仮説を裏付ける。
計算化学者は、典型的には、μオピオイド受容体およびGPCRファミリーのその他のメンバーのような一部の標的が多くの非結晶学的状態をトラバースするという事実にも関わらず、タンパク質の結晶構造に対して化合物を事実上スクリーニングすることにより薬物候補をアッセイする。本発明の一部の実施形態は、分子動力学シミュレーションで、タンパク質、例えばμORの新しいコンフォメーション状態を発見し、次いで機械学習を使用してリガンド構造関係を学習することによりリガンド機能を予測するための方法を提供する。本発明のいくつかの実施形態による方法は、新規な活性リード分子を体系的に発見するために機械学習によるタンパク質のコンフォメーション上の柔軟性を利用する。出発点としてこれらの鋳型を使用する古典的な医薬品化学手法を使用する構造活性研究は、受容体でより高い親和性を持つ化合物をもたらし得る。
他のGPCRのように、μORは2進スイッチではない。むしろ生物物理学実験は、一般にGPCRが、特にμORが、多種多様なコンフォメーション状態をトラバースすることを示す。μORは、多数の機能的に関連のあるかつ薬理学的に予測可能な状態をサンプル抽出する。この多数の状態は、現行の薬物発見科学者に到達できない。本発明の多くの実施形態によるプロセスは、これらの状態を同定し組み込むために、前例のないミリ秒規模の分子動力学シミュレーションを使用し、共に、活性予測において増大したAUCをもたらしかつ新しい化学足場の発見に力を与える、新規な計算方法を提供する。特にこの実施例では、2つの結晶構造を越えた重要なμOR状態の同定が、受容体でのリガンドの活性を予測する能力を改善することができる。この方法は、受容体に結合し得る目的のその他の分子(または単一分子)に適用可能である。
一部の実施形態では、この手法の重要な要素は、受容体のいくつかのコンフォメーションのそれぞれに関する各リガンドの親和性の推定である。リガンド由来の特徴が予測されるだけである、多くの以前の事実上のスクリーニング手法とは対照的に、本発明の一部の実施形態によるプロセスは、各受容体のコンフォメーションに対する所与のリガンドの親和性に基づく。ある特定の実施形態では、これらのコンフォメーションは、単一MDシミュレーションプレステップで得ることができ、受容体の機能性に関する構造基底関数系を範囲とする。対照的に、誘導適合ドッキングは、異なるコンフォメーションをサンプル抽出して、タンパク質に関する単一ドッキング(親和性)スコアを推定する。コンフォメーションサンプル抽出は、空間時間的に制限され、結合ポケットにのみ拡がり、各リガンドごとに繰り返さなければならず、親和性に相関する単一数値を出力することによって、アゴニズムを予測することを本質的に標的としない。
目的のタンパク質(この実施例では、μOR)の長時間尺度の分子動力学(MD)シミュレーションは、リガンドなしでまたはいくつかのリガンドの1つに結合されて、実行される。この実施例では、シミュレーションは、いくつかのアゴニスト:BU72、スフェンタニル、TRV130、およびIBNtxAの1種に結合させて実行した。本発明のいくつかの実施形態によるMDシミュレーションは、タンパク質(例えば、μOR)を採用することができる、不均質であるが包括的なコンフォメーションのスペクトルを提供することができる。このデータセットは、受容体のコンフォメーション動力学に焦点を当てた以前の研究にまで拡張する。大きい並列MDデータセット(例えば、前例のない1.1ミリ秒のμORシミュレーションからなる)を体系的に処理するために、いくつかの実施形態による動態学的に動機付けられた機械学習手法であって、(1)最先端の希薄な時間構造独立成分分析(tICA)アルゴリズムなど(しかしこれらに限定するものではない)の様々な方法を使用して受容体(例えば、μOR)の最も顕著な反応座標(この場合、最も遅い動力学的モード)を同定し、(2)ミニバッチK-平均クラスタリングなどの(しかしこれらに限定するものではない)クラスタリング法を使用して個別の受容体状態を定める手法を、適用することができる。一部の実施形態では、(1)は、希薄な時間構造独立成分分析、時間構造独立成分分析、主成分分析(PCA)、および/または独立成分分析(ICA)を利用してもよい。一部の実施形態では、(2)は、ミニバッチK-平均クラスタリング、K-平均クラスタリング、確率的勾配降下法(SGD)K-平均、k-メドイド、ガウス混合モデリング、ジェンクス自然分類最適化、ファジーC-平均クラスタリング、k-平均++、X-平均クラスタリング、G-平均クラスタリング、内部クラスター評価、および/またはミンコフスキー重み付きk-平均を利用してもよい。
一部の実施形態では、候補リガンドの計算シミュレーションが受容体に結合したとき、リガンド(複数可)をドッキングすることができる。一部の実施形態では、結合は、分子が互いに近接している安定な会合をもたらす、2つまたはそれよりも多くの分子間での誘因性相互作用とすることができる。一部の実施形態では、結合は、非共有結合とすることができる。一部の実施形態では、結合は、可逆的共有結合とすることができる。一部の実施形態では、結合は、不可逆的共有結合とすることができる。一部の実施形態では、結合は、化学結合を含むことができる。
いくつかの実施形態において、この無監督のステップは、間の中間体ならびに結晶構造とは全く異なる非標準状態の両方からなる、μORの重要なコンフォメーションをカバーしていない。μORの様々な状態の実施例を、図1に例示する。この図は、活性結晶構造(PDB:5C1M)105、MD状態3 110、およびFMP4がMD状態3にドッキングした態勢115を示す。FMP4は、本発明の数多くの実施形態によるプロセスを経て、μORに対して親和性を有すると同定された分子であり、受容体に対するアゴニストでもある。実線矢印は、結晶構造からのMDの変化を表す。破線は、FMP4およびμOR結合ポケット残基間の非共有結合相互作用を示す。FMP4は、おそらくはその構造に対するその非常に低いドッキングスコアが原因で、活性結晶内で残基M151およびH297と立体的に衝突し得ることに留意されたい。M151およびH297の運動は、リガンドの歪みのないコンフォメーションにおいて、好ましい非共有結合リガンド-タンパク質相互作用を可能にする。モルフィナンフェノールとは異なり、FMP4のフェニル環は、π-T芳香族相互作用により重要な活性化残基W293に係合する。
μORの状態空間を列挙することにより、受容体のコンフォメーションを問い合わせて、全原子構造情報による合理的設計を促すことができる。避けられない大量のデータがMDから生じ、これはシミュレーションのみの膨大なデータセットから実用的知識を誘発させる、著しいデータ科学の難題である。ナノ秒当たり1つのフレームで保存される1ミリ秒のMDは、百万のコンフォメーションを含有する可能性があり、専門家の目で見るには膨大過ぎる。むしろ、動態学的に動機付けられた統計的手法を追及することにより、本発明の多くの実施形態による方法は、扱い易い範囲内で受容体の重要なコンフォメーションを発見するのを可能にする。
μORの自由エネルギーランドスケープの視覚化を、図2に示す。特に、この実施例では、μORの自由エネルギーランドスケープが、その2つの最も遅い集団的自由度に投影される。tICA座標1は、活性および不活性(PDB:4DKL)結晶構造を分離する一方、tICA座標2は、いくつかの非結晶学的不活性および活性様状態を定める直交自由度である。そのような状態は、受容体に係合するFMP4の能力に極めて重要な、状態3を含む。
最近の研究に照らし、これらの構造は、μORに関する合理的薬物発見キャンペーンを強化するのに直接用いることができる、潜在的にドラッガブルな状態とすることができる。この可能性を実現するために、本発明の一部の実施形態によるプロセスは、監督された機械学習モデルを訓練することにより、2つの二項分類タスク:(1)アゴニストをアンタゴニストと区別する能力、および(2)受容体で非結合剤から結合剤を区別する能力における、著しい改善を実証する。
一部の実施形態では、ランダムフォレストが展開されて、構造を機能に接続する。当業者なら、本発明から逸脱することなく、その他の機械学習法(限定するものではないがサポートベクターマシン、決定木、および人工ニューラルネットワークなど)を用いることができることが理解されよう。公知の薬理学的性質を持つリガンド(例えば、オピオイド)のデータベースを、結晶構造ならびに各状態の1つまたは複数の代表的コンフォメーションのセットの両方に、ドッキングすることができる。本発明の様々な実施形態による種々のコンフォメーションは、非結晶学的状態または受容体のその他のコンフォメーションを含むことができる。本発明のある特定の実施形態によるコンフォメーションは、実験(結晶学、核磁気共鳴(NMR)、低温電子顕微鏡法(cryoEM)などであるがこれらに限定されない)を含む(しかしこれらに限定されない)様々な方法を経て、かつ/または計算(分子動力学シミュレーション、モンテカルロシミュレーション、ディープニューラルネットワーク推進型コンフォメーション発生などであるがこれらに限定されない)を経て、同定することができる。
次いである特定の実施形態では、各MDコンフォメーションに対する各リガンドのドッキングスコアを、目的の受容体でのアゴニズムおよび結合の両方に関する二項分類モデルへの入力または素性行列として使用することができる。いくつかの実施形態では、素性行列は、各行がリガンドであり各列がフィーチャであるような(MD状態のそれぞれに対するおよび各結晶構造に対するドッキングスコア)構造である。様々な実施形態では、素性行列における入力(i,j)は、j番目のコンフォメーション状態に対するi番目のリガンドの、ドッキングスコアである。ドッキングスコアは、互いに対する順位を決定するのに、即ちリガンドのセットに関して順位を決定するのに利用されてもよい。ドッキングスコアは、分子の結合親和性を、全体としてのタンパク質にまたはそのタンパク質の所与の状態に相関させることができる。行列は、全親和性のより良い予測子/相関である単一数値を発生させるため、ドッキングスコアでの種々の機能に関して使用することができる。一部の実施形態では、Nリガンドに関する結合親和性またはアゴニズムの先験的情報が、Kコンフォメーション状態のそれぞれに対してNリガンドのそれぞれに関するドッキングスコアにより得られ、Kドッキングスコアのセットを結合親和性にマップする機能が得られる。
結晶学およびMDの両方からの構造情報の、この二重に無監督のおよび監督されたMLベースの合成は、両方のタスクの統計的に有意な強化をもたらす。一実施例では、本発明の一部の実施形態による方法は-結晶構造に加えてMD状態へのドッキングを組み込む-、結晶構造のみと比較してアゴニズムおよび結合におけるメジアン曲線下面積(AUC)の改善を達成した。一部の実施形態では、メジアンAUCの改善は、アゴニズムにおいて約0.11である。一部の実施形態では、メジアンAUCの改善は、アゴニズムにおいて0.01から0.5である。一部の実施形態では、メジアンAUCの改善は、アゴニズムにおいて0.5から1.0である。一部の実施形態では、メジアンAUCの改善は、アゴニズムにおいて0.1から0.3である。一部の実施形態では、メジアンAUCの改善は、アゴニズムにおいて0.3から0.6である。一部の実施形態では、メジアンAUCの改善は、アゴニズムにおいて0.6から0.9である。一部の実施形態では、メジアンAUCの改善は、結合において約0.15である。一部の実施形態では、メジアンAUCの改善は、結合において0.01から0.5である。一部の実施形態において、メジアンAUCの改善は、結合において0.5から1.0である。一部の実施形態において、メジアンAUCの改善は、結合において0.1から0.3である。一部の実施形態において、メジアンAUCの改善は、結合において0.3から0.6である。一部の実施形態において、メジアンAUCの改善は、結合において0.6から0.9である。
アゴニズムに対する堅牢性のさらなる試験として、足場スプリットを用いた。特に、一連のモデルを訓練し、メタドンまたはフェンタニルのいずれかの類似体を訓練データから取り出し、ヘルドアウト試験セットにおいた。言い換えれば、これらのモデルは、メタドン(または代替としてフェンタニル)類似体のいかなる先験的知識も持たなかった。それにも関わらず、モデルは、メタドンおよびフェンタニル由来のアゴニストを、アンタゴニストのランダムセットから首尾良く区別した。類似の足場スプリットを、結合予測タスクのために定義し、AUCに同等の増加をもたらした。したがって、本発明の多くの実施形態による方法はリガンドの化学構成を明示的に組み込まないので、それらは既存のものの誘導体に加えて新しいオピオイド活性足場を発見するために、より良好に準備することができる。これらの結果に基づいて、本発明のいくつかの実施形態によるオピオイドの予測は、結晶学のみでは予測できないコンフォメーション状態を組み込むことによって強化され、シミュレーションでリガンドにより安定化される。
(リガンドモデリングおよび予測のためのシステムおよび方法)
本発明の一部の実施形態によるモデリングおよび予測を提供するシステムを、図3に示す。ネットワーク300は、通信ネットワーク360を含む。通信ネットワーク360は、ネットワーク360に接続されたデバイスをその他の接続されたデバイスと通信可能にする、インターネットなどのネットワークである。サーバーシステム310、340、および370はネットワーク360に接続される。サーバーシステム310、340、および370のそれぞれは、ネットワーク360上でユーザーにクラウドサービスを提供するプロセスを実行する内部ネットワークを介して、互いに通信可能に接続された1つまたは複数のサーバーコンピュータシステムのグループである。この考察の目的で、クラウドサービスは、ネットワーク上でデバイスにデータおよび/または実行可能なアプリケーションを提供するために1つまたは複数のサーバーシステムによって実行される1つまたは複数のアプリケーションである。サーバーシステム310、340、および370は、各々内部ネットワークを介して接続された3つのサーバーを有して示される。しかしサーバーシステム310、340、および370は、任意の数のサーバーを含んでいてもよく、任意の追加の数のサーバーシステムがネットワーク360に接続されて、限定するものではないが仮想化サーバーシステムを含むクラウドサービスを提供してもよい。本発明の様々な実施形態によれば、リガンド特性をモデリングし予測するためのプロセスは、ネットワーク360経由で通信する単一サーバーシステムおよび/または一群のサーバーシステム上で実行される1つまたは複数のソフトウェアアプリケーションによって提供される。
ユーザーは、本発明の様々な実施形態によるリガンド特性をモデリングし予測するプロセスを行うため、ネットワーク360に接続されるパーソナルデバイス380および320を使用してもよい。例示される実施形態では、パーソナルデバイス380が、従来の「有線」接続を介してネットワーク360に接続されたデスクトップコンピュータとして示されている。しかし、パーソナルデバイス380は、デスクトップコンピュータ、ラップトップコンピュータ、スマートテレビ、エンターテイメントゲームコンソール、または「有線」または「無線」ネットワーク接続を介してネットワーク360に接続する任意のその他のデバイスであってもよい。モバイルデバイス320は、無線接続を使用してネットワーク360に接続する。無線接続は、ネットワーク360に接続するのにラジオ周波数(RF)信号、赤外線信号、または任意のその他の形の無線信号伝達を使用する接続である。図3で、モバイルデバイス320は携帯電話である。しかしモバイルデバイス320は、携帯電話、携帯情報端末(PDA)、タブレット、スマートフォン、仮想現実ヘッドセット、拡張現実ヘッドセット、複合現実ヘッドセット、または本発明から逸脱することなく無線接続を介してネットワーク360に接続する任意のその他のタイプのデバイスであってもよい。本発明の一部の実施形態によれば、リガンド特性をモデリングし予測するためのプロセスは、ユーザーデバイスによって行われる。
容易に理解できるように、リガンド特性をモデリングし予測するのに使用される特定の計算システムは、所与の適用の要件に大きく依存し、任意の特定の計算システム(複数可)の実装に限定されると見なすべきではない。
本発明のいくつかの実施形態によるリガンド発見要素を、図4に示す。本発明の多くの実施形態によるリガンド発見要素は、モバイルデバイス、コンピュータ、サーバー、およびクラウドサービスの1つまたは複数を含むことができる(しかしこれらに限定されない)。リガンド発見要素400は、プロセッサー410、通信インターフェース420、およびメモリ430を含む。
当業者なら、特定のリガンド発見要素が、本発明から逸脱することなく簡略化のために省略されるその他の構成要素を含み得ることが理解されよう。プロセッサー410は、プロセッサー、マイクロプロセッサー、コントローラー、あるいはプロセッサー、マイクロプロセッサー、および/またはコントローラーの組合せであって、メモリ430に保存されたデータを操作するためメモリ430に保存された命令を実行するものを含むことができる(しかしこれらに限定するものではない)。プロセッサーの命令は、本発明のある特定の実施形態によるプロセスを行うように、プロセッサー410を構成することができる。通信インターフェース420は、プロセッサー410により実行される命令に基づいてネットワーク上でデータを送信し受信するように要素400を訓練することが可能である。
メモリ430は、リガンド発見アプリケーション432、受容体データ434、リガンドデータ436、およびモデルデータ438を含む。本発明のいくつかの実施形態によるリガンド発見アプリケーションは、受容体との相互作用に関して試験することができる、リガンドを分析し候補リガンドを同定するのに使用される。一部の実施形態では、リガンド発見アプリケーションは、分子ドッキングシミュレーションおよび/または公知の薬理学的性質を備えるオピオイドのデータベースを含む(しかしこれらに限定されない)様々なソースから作成されたデータを含む、受容体データおよび/またはリガンドデータを使用することができる。本発明の様々な実施形態によるモデルデータ438は、個別のコンフォメーション状態を同定するためのクラスタリング、アゴニスト/アンタゴニストとしてのリガンドの分類、および/または結合/非結合としてのリガンドの分類など(しかしこれらに限定されない)、様々な目的で使用することができる無監督および監督モデル用のデータを含むことができる。
リガンド発見要素400の特定の実施例が図4に示されるが、様々な訓練要素のいずれかを利用して、本発明の実施形態による特定の適用の要件に対して適切に、本明細書に記述されるものに類似したプロセスを行うことができる。
本発明の実施形態による候補リガンドを同定するためのリガンド発見アプリケーションを、図5に示す。リガンド発見アプリケーション500は、シミュレーションエンジン505、クラスタリングエンジン510、スコアリングエンジン515、および分類エンジン520を含む。本発明の多くの実施形態によるリガンド発見アプリケーションは、リガンドおよび受容体データを分析して、受容体に関係する様々な用途での候補リガンドを同定することができる。
様々な実施形態において、シミュレーションエンジンは、様々な受容体コンフォメーションをシミュレートするのに使用することができる。多くの実施形態では、シミュレーションエンジンは、リガンドと受容体との間のドッキングスコアを計算することができる。
本発明の数多くの実施形態によるクラスタリングエンジンは、シミュレートされたデータに基づいて、個別の受容体コンフォメーション状態を同定することができる。いくつかの実施形態では、クラスタリングエンジンは、ミニバッチk-平均クラスタリングおよび凝集型階層クラスタリングなどの(しかしこれらに限定されないクラスタリングプロセスを使用する。
本発明の様々な実施形態によるスコアリングエンジンは、受容体に対するリガンドに関してドッキングスコアを計算することができる。数多くの実施形態において、スコアリングエンジンは、シミュレーションエンジンからのリガンドおよび受容体のシミュレーションを評価することができる。シミュレーションは、クラスタリングエンジンによって同定された受容体のいくつかの個別のコンフォメーションを持つリガンドのシミュレーションを含むことができる。いくつかの実施形態において、スコアリングエンジンは、リガンドのセットおよび受容体のコンフォメーション状態のセットに関してドッキングスコアの素性行列を生成することができる。
様々な実施形態では、分類エンジンを使用して、リガンドと受容体との間の相互作用を分類しまたは予測することができる。一部の実施形態では、分類エンジンは、サポートベクターマシン、線形回帰、ロジスティック回帰、単純ベイズ、線形判別分析、決定木、k-近傍アルゴリズム、ニューラルネットワーク、および/または類似性学習などの(しかしこれらに限定されない)、監督学習アルゴリズムまたは無監督学習アルゴリズムとすることができる。一部の実施形態では、監督型学習は、半監督型学習、アクティブラーニング、構造予測、および/またはランク学習とすることができる。本発明の一部の実施形態による分類エンジンは、完全接続ニューラルネットワーク(FCNN)および/またはランダムフォレストなど(しかしこれらに限定されない)の分類子を実装することができる。様々な実施形態では、分類エンジンは、スコアリングエンジンによって作成された素性行列を入力として得、リガンドが受容体と特定の関係(例えば、結合/非結合、アゴニスト/アンタゴニストなど)を有する尤度を出力する。一部の実施形態では、ドッキングスコアは、下記の方程式:
P(結合剤∩アゴニスト|モデル)=P(結合剤|モデル)・P(アゴニスト|モデル
による、2つの発生した最終スコアの積から計算される。
リガンド発見アプリケーションの特定の実施例を図5に示すが、様々なリガンド発見アプリケーションのいずれかを利用して、本発明の実施形態による特定の適用の要件に適切な本明細書に記述されるものに類似のプロセスを行うことができる。
本発明の実施形態によるリガンド発見のためのプロセスのフローチャートを、図6に示す。プロセス600は、受容体の複数のコンフォメーションを同定する(605)。多くの実施形態で、種々のコンフォメーション(または状態)は、受容体の長期時間尺度の分子ドッキング(MD)シミュレーションに基づく。本発明のいくつかの実施形態によるシミュレーションは、受容体だけでまたは受容体と公知のリガンドとの相互作用に基づいて、行うことができる。いくつかの実施形態では、種々のコンフォメーションは、MDシミュレーションによって作成された状態データでクラスターを同定する、クラスタリングプロセスに基づいて同定される。本発明の様々な実施形態によるクラスタリングは、ミニバッチK-平均クラスタリングおよび凝集型階層クラスタリングを含む(しかしこれらに限定されない)様々な手法で行うことができる。本発明のいくつかの実施形態による種々の個別のコンフォメーションは、結晶状態、結晶状態間の中間体、ならびに結晶構造とは別の標準状態を含む(しかしこれらに限定されない)、受容体の様々な状態を表すことができる。
プロセス600は、1つまたは複数のリガンドのセットおよび同定されたコンフォメーションの各コンフォメーションに関するドッキングスコアを計算する(610)。いくつかの実施形態では、ドッキングスコアは、リガンドのセットと受容体の各コンフォメーションとの間の相互作用をシミュレートすることができる分子ドッキングシミュレーションを使用して、計算することができる。本発明の数多くの実施形態による計算されたドッキングスコアは、各リガンドコンフォメーションの組合せに関するドッキングスコアを持つ素性行列で提供することができる。
プロセス600は、リガンドのセットと受容体との間の相互作用を予測する(615)。多くの実施形態において、予測される相互作用は、リガンドのセットが受容体と結合するか否かを含むことができる。あるいは、または共同して、予測される相互作用は、リガンドのセットが、受容体に対するアゴニストであるか否かを含むことができる。本発明の多くの実施形態による相互作用の予測は、結合剤としてまたは特定の受容体に対するアゴニストとしてリガンドを分類するよう訓練されたランダムフォレストを使用して行うことができる。ある特定の実施形態では、リガンドと受容体との間の相互作用の予測は、リガンドと受容体の各コンフォメーションとの間の相互作用を予測し、次いで全体としてリガンドと受容体との間の相互作用に関する包括的予測を計算することを含む。様々な実施形態では、予測された相互作用を使用して、1つまたは複数のリガンドのセットを同定し、同定されたリガンドと受容体との相互作用を物理的に試験する。
態様において、本開示は、リガンドと受容体との間の関係を予測するための方法であって、受容体の複数のコンフォメーションを同定するステップと、複数のコンフォメーションのそれぞれと1つまたは複数のリガンドのセットとに関するドッキングスコアを計算するステップと、1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係を予測するステップとを含む方法を提供する。
一部の実施形態では、複数のコンフォメーションは、単一受容体のコンフォメーションを含む。一部の実施形態では、コンフォメーションは、実験(結晶学、NMR、CryoEMなど)または計算(分子動力学シミュレーション、モンテカルロシミュレーション、ディープニューラルネットワーク推進型コンフォメーション発生、またはこれらの組合せから生ずることができる。
一部の実施形態では、複数のコンフォメーションは、少なくとも1つの非結晶学的状態を含む。
様々な実施形態では、複数のコンフォメーションを同定するステップは、受容体とリガンドとの相互作用をシミュレートすることからシミュレーションデータを作成することを含む。
いくつかの実施形態では、複数のコンフォメーションを同定するステップは、シミュレーションデータに対してクラスタリング演算を行って複数のコンフォメーションを同定することをさらに含む。
いくつかの実施形態では、複数のコンフォメーションを同定するステップは、シミュレーションデータに対して次元削減演算を行うことをさらに含む。本発明の数多くの実施形態による次元削減演算は、tICA、希薄tICA、ICA、PCA、t-SNE、およびその他またはこれらの組合せを含むことができる(しかしこれらに限定されない)。
様々な実施形態では、複数のコンフォメーションを同定するステップは、複数のコンフォメーションの各コンフォメーションに関する反応座標のセットを同定することを含む。
数多くの実施形態では、ドッキングスコアを計算するステップは、リガンドのセットと複数のコンフォメーションのそれぞれとのドッキングをシミュレートすることを含む。
いくつかの実施形態では、ドッキングスコアを計算するステップは、ドッキングスコアの素性行列を構築することを含み、関係を予測するステップは、素性行列を機械学習モデルに入力することを含む。一部の実施形態では、機械学習モデルがランダムフォレストである。
数多くの実施形態では、公知の薬理学的性質を持つリガンドのデータベースからのリガンドにより機械学習モデルをさらに訓練する。一部の実施形態では、分子をオピオイドとすることができる。
次に、関係を予測するステップは、リガンドが受容体に対するアゴニストであるか否かを決定することを含む。
次に、予測された関係に基づいて、1つまたは複数の候補リガンドのセットを同定し、候補リガンドのセットと受容体との反応を物理的に試験する。
次に、関係を予測するステップは、リガンドのセットと複数のコンフォメーションの各コンフォメーションとの関係を予測すること、およびリガンドのセットと受容体との総計の関係を、複数のコンフォメーションに関する予測された関係に基づいて予測することを含む。
一部の実施形態では、ランダムフォレストモデルが8.0(10nM)のpIC50カットオフを有する。様々な実施形態では、関係を予測するステップは、IC50、EC50、および/またはKiなどの(しかしこれらに限定されない)、親和性またはアゴニズムの定量的測定基準(quantitative metric)を予測することを含む。あるいは、または共同的に、本発明の多くの実施形態により関係を予測するステップは、結合剤対非結合剤などの(しかしこれらに限定されない)関係を分類することを含むことができる。いくつかの実施形態では、関係を分類することは、一部のカットオフまたは閾値、例えば8.0(10nM)のpIC50に基づくことができる。
次に、第1のランダムフォレストモデルおよび第2のランダムフォレストモデルをさらに含み、両方のモデルは訓練される。
次に、第1のランダムフォレストモデルは結合のためのものであり、第2のランダムフォレストモデルはアゴニズムのためのものである。
次に、第1のランダムフォレストモデルおよび第2のランダムフォレストモデルは、第1のランダムフォレストモデルおよび第2のランダムフォレストモデルの両方からそれぞれ最終スコアを発生させるために、ライブラリーリガンドに適用される。
別の態様では、本開示は、リガンドと受容体との間の関係を予測するためのシステムであって、このシステムは、受容体の複数のコンフォメーションを同定し、複数のコンフォメーションのそれぞれおよび1つまたは複数のリガンドのセットに関するドッキングスコアを計算し、1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係を予測するように個々にまたはまとめて構成された1つまたは複数のプロセッサーを含む、システムを提供する。
別の態様では、本開示は、薬物発見のための方法およびシステムを提供する。方法は、機械学習で予測された分子特性から候補リガンドを同定することを含んでいてもよい。一部の実施形態では、候補リガンドを同定することは、受容体の複数のコンフォメーションを選択すること、複数のコンフォメーションのそれぞれおよび1つまたは複数のリガンドのセットに関するドッキングスコアを計算すること、1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係を算出すること、および1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係から候補リガンドを予測することを含む。一部の実施形態では、候補リガンドを同定するシステムは、受容体の複数のコンフォメーションを選択し、複数のコンフォメーションのそれぞれおよび1つまたは複数のリガンドのセットに関するドッキングスコアを計算し、1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係を算出し、1つまたは複数のリガンドのセットと受容体の複数のコンフォメーションとの間の関係から候補リガンドを予測するように個々にまたはまとめて構成された1つまたは複数のプロセッサーを含む。
本発明の実施形態によるリガンド発見の特定のプロセスは上記にて記述され、しかし当業者なら、本発明の実施形態による特定の適用の要件に適切な、任意の数のプロセスを利用できることが理解されよう。
本発明について、ある特定の態様において記述してきたが、多くの追加の修正例および変形例が当業者に明らかにされよう。したがって本発明は、本発明の範囲および精神から逸脱することなく、特に記述されたもの以外の手法で実施され得ることを理解されたい。このように、本発明の実施形態は、全ての観点で、例示的なものでありかつ制限的ではないものとして見なされるべきである。
下記の実施例は、特許請求の範囲に記載された本発明を例示するために提供されるが、それらに限定するものではない。
(実施例1)
下記の実施例は、特許請求の範囲に記載された本発明を例示するために提供されるが、それらに限定するものではない。
(実施例2)
足場スプリット(scaffold split)が定義され、(1)フェンタニルと比較して≦0.5であるタニモトスコアを持つアゴニストリガンドを訓練セットに置き、(2)フェンタニルと比較して≧0.7であるタニモトスコアを持つアゴニストリガンドを試験セットに置き、(3)アンタゴニストを、訓練および試験セットの間でランダムに分布させた。
a)
フェンタニル類似体リガンド(試験セット):
[‘アセチルフェンタニル’、‘アクリルフェンタニル’、‘3-アリルフェンタニル’、‘アルファメチルチオフェンタニル’、‘アザプロシン’、‘ベータヒドロキシフェンタニル’、‘ベータヒドロキシチオフェンタニル’、‘ブチルフェンタニル’、‘カルフェンタニル’、‘デスメチルプロジン’、‘ジアムプロミド’、‘フェンタニル’、‘4-フルオロブチルフェンタニル’、‘フラニルフェンタニル’、‘ロフェンタニル’、‘4-メトキシブチルフェンタニル’、‘アルファ-メチルアセチルフェンタニル’、‘3-メチルブチルフェンタニル’、‘n-メチルカルフェンタニル’、‘3-メチルフェンタニル’、‘ベータ-メチルフェンタニル’、‘3-メチルチオフェンタニル’、‘オクフェンタニル’、‘オーメフェンタニル’、‘パラフルオロフェンタニル’、‘pepap’、‘フェナムプロミド’、‘フェナリジン’、‘4-フェニルフェンタニル’、‘プロジリジン’、‘プロジン’、‘プロヘプタジン’、‘プロシドール’、‘r-30490’、‘レミフェンタニル’、‘スフェンタニル’、‘チオフェンタニル’、‘トリメペリジン’、‘u-47700’]
非フェンタニル-類似体アゴニスト(訓練セット):
[‘7-pet’、‘アリマドール’、‘アルファメタドール’、‘アジドモルフィン’、‘bdpc’、‘ベータメタドール’、‘c-8813’、‘セブラノパドール’、‘クロロモルフィデ’、‘クロロキシモルファミン’、‘シプレファドール’、‘クロニタゼン’、‘dadle’、‘damgo’、‘デソモルフィン’、‘ジヒドロエトルフィン’、‘ジヒドロモルフィン’、‘ジメノキサドール’、‘ジメフェプタノール’、‘ジメチルアミノピバロフェノン’、‘エルキサドリン’、‘エンドモルフィン’、‘エンドモルフィン-1’、‘14-エトキシメトポン’、‘エトニタゼン’、‘エトルフィン’、‘ヘモルフィン-4’、‘ヘテロコデイン’、‘ヒドロモルフィノール’、‘ヒドロモルフォン’、‘ibntxa’、‘ケタミン’、‘レフェタミン’、‘レボフェナシルモルファン’、‘レボルファノール’、‘14-メトキシジヒドロモルフィノン’、‘14-メトキシメトポン’、‘メチルデソルフィン’、‘メチルジヒドロモルフィン’、‘6-メチレンジヒドロデソキシモルフィン’、‘メトポン’、‘ミトラギニン_シュードインドキシル’、‘6-モノアセチルモルフィン’、‘モルフィン’、‘モルフィン-6-グルクロニド’、‘モルフィノン’、‘mr-2096’、‘オリセリジン’、‘オキシモルファゾン’、‘オキシモルフォール’、‘オキシモルフォン’、‘ペンタモルフォン’、‘フェナゾシン’、‘n-フェネチルノルデソモルフィン’、‘n-フェネチルノルモルフィン’、‘フェノモルファン’、‘14-フェニルプロポキシメトポン’、‘ピセナドール’、‘pzm21’、‘ラセモルファン’、‘ro4-1539’、‘sc-17599’、‘セモルフォン’、‘チエノルフィン’、‘チリジン’、‘trimu_5’、‘ビミノール’]
アンタゴニスト:
[‘レバロルファン’、‘6ベータ-ナルトレキソール-d4’、‘ベータ-クロルナルトレキサミン’、‘ベータ-フナルトレキサミン’、‘アルビモパン’、‘at-076’、‘アキセロプラン’、‘ベヴェノプラン’、‘クロシンナモックス’、‘シクロフォキシ’、‘シプロジム’、‘エプタゾシン’、‘ly-255582’、‘メトシンナモックス’、‘メチルナルトレキソン’、‘メチルサミドルファン’、‘ナルメフェン’、‘ナロキサゾン’、‘ナロキセゴール’、‘ナロキソール’、‘ナロキソナジン’、‘ナロキソン’、‘ナルトレキサゾン(naltrexazone)’、‘ナルトレキソン’、‘オキシロルファン’、‘クウァダゾシン(quadazocine)’、‘サミドルファン’]
足場スプリットが定義され、(1)メタドンと比較して≦0.5であるタニモトスコアを持つアゴニストリガンドを訓練セットに置き、(2)メタドンと比較して≧0.7であるタニモトスコアを持つアゴニストリガンドを試験セットに置き、(3)アンタゴニストを、訓練および試験セットの間でランダムに分布させた。
b)
メタドン類似体リガンド(試験セット)。
[‘アセチルメタドール’、‘アルファセチルメタドール’、‘アルファメタドール’、‘ベータセチルメタドール’、‘ベータメタドール’、‘ジピパノン’、‘ic-26’、‘イソメタドン’、‘ケトベミドン’、‘レバセチルメタドール’、‘レボメタドン’、‘メタドン’、‘メチルケトベミドン’、‘ノルアシメタドール’、‘フェナドキソン’、‘プロピルケトベミドン’、‘r4066’]
非メタドン類似体(訓練セット)。
[‘7-pet’、‘アリマドール’、‘アジドモルフィン’、‘bdpc’、‘c-8813’、‘セブラノパドール’、‘クロロモルフィデ’、‘クロロキシモルファミン’、‘シプレファドール’、‘クロニタゼン’、‘dadle’、‘damgo’、‘デソモルフィン’、‘ジヒドロエトルフィン’、‘ジヒドロモルフィン’、‘ジメノキサドール’、‘ジメフェプタノール’、‘ジメチルアミノピバロフェノン’、‘エルキサドリン’、‘エンドモルフィン’、‘エンドモルフィン-1’、‘14-エトキシメトポン’、‘エトニタゼン’、‘エトルフィン’、‘ヘモルフィン-4’、‘ヘテロコデイン’、‘ヒドロモルフィノール’、‘ヒドロモルフォン’、‘ibntxa’、‘ケタミン’、‘レフェタミン’、‘レボフェナシルモルファン’、‘レボルファノール’、‘14-メトキシジヒドロモルフィノン’、‘14-メトキシメトポン’、‘メチルデソルフィン’、‘メチルジヒドロモルフィン’、‘6-メチレンジヒドロデソキシモルフィン’、‘メトポン’、‘ミトラギニン_シュードインドキシル’、‘6-モノアセチルモルフィン’、‘モルフィン’、‘モルフィン-6-グルクロニド’、‘モルフィノン’、‘mr-2096’、‘オリセリジン’、‘オキシモルファゾン’、‘オキシモルフォール’、‘オキシモルフォン’、‘ペンタモルフォン’、‘フェナゾシン’、‘n-フェネチルノルデソモルフィン’、‘n-フェネチルノルモルフィン’、‘フェノモルファン’、‘14-フェニルプロポキシメトポン’、‘ピセナドール’、‘pzm21’、‘ラセモルファン’、‘ro4-1539’、‘sc-17599’、‘セモルフォン’、‘チエノルフィン’、‘チリジン’、‘trimu_5’、‘ビミノール’]
アンタゴニスト:
[‘レバロルファン’、‘6ベータ-ナルトレキソール-d4’、‘ベータ-クロルナルトレキサミン’、‘ベータ-フナルトレキサミン’、‘アルビモパン’、‘at-076’、‘アキセロプラン’、‘ベヴェノプラン’、‘クロシンナモックス’、‘シクロフォキシ’、‘シプロジム’、‘エプタゾシン’、‘ly-255582’、‘メトシンナモックス’、‘メチルナルトレキソン’、‘メチルサミドルファン’、‘ナルメフェン’、‘ナロキサゾン’、‘ナロキセゴール’、‘ナロキソール’、‘ナロキソナジン’、‘ナロキソン’、‘ナルトレキサゾン’、‘ナルトレキソン’、‘オキシロルファン’、‘クウァダゾシン’、‘サミドルファン’]
(実施例3)
a)オピオイドアゴニストおよびアンタゴニストの間を区別し、b)μORからの結合剤および非結合剤の間を区別するための、各フィーチャ(MD状態、結晶構造)のランダムフォレスト平均Gini不純度低減(「重要性」)。
a)
b)
(実施例4)
MD状態および結晶構造の両方とのドッキングは、非結合剤からμOR結合剤を区別する能力を、結晶単独よりも統計的に有意に改善する。以下の表は、種々のスプリットおよびモデルタイプに関する1,000の訓練-検証スプリット(train-valid split)上での検証セットでのメジアンROC曲線下面積(AUC)性能を示す。結晶単独と結晶+MD構造法との間の差は、99%ウィルソンスコアリング信頼区間(CI)の下限が0.5よりも大きい場合、統計的に有意と見なされる。各データセットごとに、結晶構造に加えてMD由来構造を組み込むことで、AUCにより測定したときに非結合剤から結合剤を区別する能力に、統計的に有意な改善が提供されることに留意されたい。特に、フェンタニル(またはメタドン)類似体が訓練セットから取り出された場合、モデルは、アンタゴニストのランダムセットからフェンタニル(またはメタドン)誘導体アゴニストを依然として区別できる。このことは、このように適合されたモデルが、既存のものの誘導体に加えて新しいオピオイドアゴニスト足場を発見する能力を有することを示す。
(実施例5)
MD状態および結晶構造の両方とのドッキングは、非結合剤からμOR結合剤を区別する能力を、結晶単独よりも統計的に有意に改善する。以下の表は、種々のスプリットおよびモデルタイプに関する1,000の訓練-検証スプリット上での検証セットでのメジアンROC曲線下面積(AUC)性能を示す。結晶単独と結晶+MD構造法との間の差は、99%ウィルソンスコアリング信頼区間(CI)の下限が0.5よりも大きい場合、統計的に有意と見なされる。各データセットごとに、結晶構造に加えてMD由来構造を組み込むことで、AUCにより測定したときに非結合剤から結合剤を区別する能力に、統計的に有意な改善が提供されることに留意されたい。特に、類似の足場を持つ(>0.7のタニモト類似性スコアにより測定したとき)分子が訓練データから取り出された場合、モデルは、非結合剤から結合剤を依然として区別できる。このことは、このように適合されたモデルが、既存のものの誘導体に加えて新しいオピオイド足場を発見する能力を有することを示す。
データセットは、μORに対する結合親和性の、実験的に公知の値を持つ、化合物からなる。「測定されたKi(Measured Ki)」と称されるデータセットは、実際に番号が付されたKi値を持つような化合物のみを含み;「全(All)」と称されるデータセットは、列挙されたKiを持たずに「非活性(Not Active)」と称される化合物も含む。したがって、「測定されたKi」データセットは、データセットの「全」シリーズのサブセットである。結合剤は、いくらかのカットオフ(「データセット」表に列挙される)よりも大きいpIC50を持つ化合物であり、非結合剤は、同じカットオフの場合よりも低いpIC50を持つ化合物と見なされる。例えば、「全、pIC50カットオフ=7.0」は、(a)測定可能なpIC50<7.0を有するリガンド、および「不活性(Not Active)」として列挙されるものの両方が、非結合剤と見なされ、(b)測定可能なpIC50 約7.0を有するリガンド、ならびにその他の公知のアゴニストおよびアンタゴニストの両方が結合剤と見なされる、データセットを示す。
(実施例6)
いくつかの新規なオピオイド-活性リガンド、FMP4の同定
本明細書に含まれる方法は、新規なリガンド、FMP4を同定した。特にFMP4は、塩基性第3級アミンまたはフェノールを持たない点で、合成オピオイドの顕著な特徴に欠ける。
133,564の小分子の群を、結晶構造およびμORの計算的にモデリングされたコンフォーマーの両方にドッキングして、133,564行×27列の素性行列を得、この行列では入力(i,j)が、j番目のコンフォメーション状態に対するi番目のリガンドのドッキングスコアである。結合およびアゴニズムに関する2つの訓練されたランダムフォレストモデルを各ライブラリーリガンドに適用し、2つの値の積から計算された最終スコアを得た。
ヒットのモデル性能および足場は、2進分類子用に選択されたpIC50カットオフの対して高い感受性がある。結合に関してより低い親和性閾値を持つモデルは、より高いAUCを一般に有するが、上位のヒットは、公知の足場と同様に、第3級の塩基性窒素を持つ化合物に向かってバイアスを有することが示されてきた。8.0(10nM)のpIC50カットオフを持つランダムフォレストモデルは、新規な足場発見のために最適化するのに使用される。一部の実施形態では、pIC50は、少なくとも3.0、4.0、5.0、6.0、7.0、8.0、9.0、10.0、11.0、またはそれよりも大きくてもよい。一部の実施形態では、pIC50は、3.0から11.0、3.0から10.0、3.0から9.0、3.0から8.0、3.0から7.0、3.0から6.0、3.0から5.0、5.0から11.0、5.0から10.0、5.0から9.0、5.0から8.0、5.0から7.0、8.0から11.0、または8.0から10.0であってもよい。
30種の利用可能な最高スコアを有する化合物を、実験的にアッセイした。30種のうち少なくとも3種は、μORに関してマイクロモル濃度の親和性を示した。1種の化合物、FMP4は、独自の構造を有し、塩基性アミンまたはフェノールがない。オピオイドがトランスフェクトされた細胞系での他の結合アッセイでは、FMP4が、MOR-1、KOR-1、およびDOR-1でそれぞれ、3217±153nM、2503±523nM、および8143±1398nMの結合親和性を有する。FMP4は、[35S]GTPyS機能的アッセイにおいて、弱いMOR-1部分アゴニストでもある。FMP4は、公知のオピオイドアゴニストおよびアンタゴニストとは全く異なり、μORに関してその他の公知のアゴニストおよびアンタゴニストと比較して、0.44の最大タニモトスコアを持つ。同じデータセットにおけるFMP4-様化合物は結合アッセイで特徴付けられ、2種の化合物FMP1およびFMP16は、MOR-1で<10μM親和性を示す。
図7は、MOR-1結合剤のスクリーニングを示し、MOR-1での125 IBNtxA比結合(specific binding)の阻害は、単一用量10μMの濃度で実施された。3種の化合物FMP1、4、および16(円で囲まれた)は、MOR-1結合の約30%の阻害を示した(赤い点線は、約30%の阻害を示す化合物を表す)。各パネルは、少なくとも3回、独立して反復された、代表的な実験である。図8A~8Dは、FMP1~FMP32の構造および分子量を示す。
(実施例7)
FMP4の分析およびμORの新規な活性様状態の同定
モデリングは、FMP4が、独自の手法でμORに結合しかつμORの活性化を容易にすることを予測した。FMP4は、アゴニズムおよび結合に重要であると計算されるMD状態3に関して比較的高いドッキングスコアを有する。図1は、tIC.1、最も遅いtICA反応座標が2つの結晶学的状態を接続することを示す。図2は、2番目に遅いtICA、tIC.2がtIC.1に動態的に直交し、いくつかの非結晶学的状態を定めることを示す。
tIC.1に沿ったその進行によっておよびGPCR文献の伝統的な測定基準によって、膜貫通ヘリックス6の外向きの配向およびNPxxYモチーフ残基N3327.48~Y3367.53の膨張したコンフォメーションを測定すると、MD状態3は、μORの新規な活性様状態である。オルソステリックな結合部位付近で、状態3は、Q1242.60、M1513.36、H2976.52、Y2996.54、およびW3186.35の再配置を伴う。M1513.36およびH2976.52の新しい位置により、FMP4は、図1に見られるように活性結晶構造において立体的に禁止され得る態勢を占有することができる。共結晶化アゴニストとは対照的に、FMP4は、π-T相互作用でW2936.48(μOR活性化のゲーティングで極めて重要な残基)および水素結合でH2976.52と係合する。
図9は、競合研究が、示されたクローン化マウスオピオイド受容体を安定して発現するCHO細胞の膜において、125 I-IBNtxA(0.1nM)に対してFMP4で行われたことを示す。各図は、少なくとも3回、独立して反復された代表的な実験である。エラーバーは、3連の試料のSEMを表す。見ることができないエラーバーは、記号のサイズよりも小さい。FMP4は、MOR-1、KOR-1、およびDOR-1のそれぞれで、3217±153nM、2503±523nM、および8143±1398nMの親和性を有していた。

Claims (20)

  1. 1つまたは複数のコンピューターによって実施するリガンドと受容体との間の関係を予測するための方法であって、
    前記受容体の複数のクラスタリングされたコンフォメーションを同定するステップであって、
    前記受容体のシミュレートされたコンフォメーションの集合を定める、前記受容体の時間間隔にわたる分子動力学のシミュレーションを行うこと、および
    前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングして、前記受容体の前記複数のクラスタリングされたコンフォメーションを生成すること
    を含む、ステップと、
    前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについて、前記受容体の前記クラスタリングされたコンフォメーションと、前記リガンドとの間のそれぞれのドッキングスコアを計算するステップと、
    機械学習モデルによって、前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについての前記それぞれのドッキングスコアを含む前記機械学習モデルへのモデル入力を受信するステップであって、前記機械学習モデルは、監督された機械学習技術により訓練された機械学習モデルパラメーターのセットによってパラメータ化されている、ステップと、
    前記機械学習モデルパラメーターのセットの訓練された値に従って、前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについての前記それぞれのドッキングスコアを含む前記モデル入力を、前記機械学習モデルを使用して処理して、結合スコアを含む前記機械学習モデルのモデル出力を生成するステップであって、前記結合スコアは前記リガンドの前記受容体への結合親和性を特徴付けるスコアである、ステップと
    を含む、方法。
  2. 前記受容体のシミュレートされたコンフォメーションの前記集合が、少なくとも1つの非結晶学的状態を含む、請求項1に記載の方法。
  3. 前記受容体の分子動力学のシミュレーションを行うことが、前記受容体と前記リガンドとの相互作用をシミュレートすることを含む、請求項1または2に記載の方法。
  4. 前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングすることが、前記受容体のシミュレートされたコンフォメーションの前記集合に対して次元削減演算を行うことを含む、請求項1~3のいずれか一項に記載の方法。
  5. 前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについて、前記受容体の前記クラスタリングされたコンフォメーションと、前記リガンドとの間のドッキングスコアを計算するステップが、前記リガンドと前記受容体クラスタリングされたコンフォメーションのドッキングをシミュレートすることを含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記機械学習モデルが、1つまたは複数のランダムフォレストモデルを含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記リガンドと前記受容体との反応を、物理的に試験するステップをさらに含む、請求項1~6のいずれか一項に記載の方法。
  8. 前記機械学習モデルが、ニューラルネットワークモデルを含む、請求項1~7のいずれか一項に記載の方法。
  9. 前記機械学習モデルの前記モデル出力が、前記リガンドが前記受容体のアゴニストである尤度を特徴付けるアゴニストスコアを含む、請求項1~8のいずれか一項に記載の方法。
  10. 前記機械学習モデルの前記モデル出力が、(i)前記リガンドの前記受容体への結合親和性を特徴付ける結合スコア、および(ii)前記リガンドが前記受容体のアゴニストである尤度を特徴付けるアゴニストスコアを含み、
    前記方法が、前記結合スコアおよび前記アゴニストスコアを組み合わせることにより全体スコアを生成するステップをさらに含む、請求項1~9のいずれか一項に記載の方法。
  11. 前記結合スコアおよび前記アゴニストスコアを合わせることにより全体スコアを生成するステップが、前記結合スコアおよび前記アゴニストスコアの積を計算することを含む、請求項10に記載の方法。
  12. 前記分子動力学シミュレーションの時間間隔が、少なくとも1ミリ秒の持続期間を有する、請求項1~11のいずれか一項に記載の方法。
  13. 前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングすることが、前記受容体のシミュレートされたコンフォメーションの前記集合にk-平均クラスタリング演算を適用することを含む、請求項1~12のいずれか一項に記載の方法。
  14. 前記受容体のシミュレートされたコンフォメーションの前記集合が、前記受容体の百万のシミュレートされたコンフォメーションを含む、請求項1~13のいずれか一項に記載の方法。
  15. 前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングすることが、クラスターのセットを生成することを含み、ここで、前記クラスターのセットにおけるクラスターの数は、前記受容体のシミュレートされたコンフォメーションの前記集合における前記受容体のシミュレートされたコンフォメーションの数よりも少ない、請求項1~14のいずれか一項に記載の方法。
  16. 1つまたは複数のコンピューターによって実行された場合に、前記1つまたは複数のコンピューターにリガンドと受容体との間の関係を予測するための命令を実施させる、1つまたは複数の非一過性コンピューター記録媒体であって、前記操作は、
    前記受容体の複数のクラスタリングされたコンフォメーションを同定するステップであって、
    前記受容体のシミュレートされたコンフォメーションの集合を定める、前記受容体の時間間隔にわたる分子動力学のシミュレーションを行うこと、および
    前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングして、前記受容体の前記複数のクラスタリングされたコンフォメーションを生成すること
    を含む、ステップと、
    前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについて、前記受容体の前記クラスタリングされたコンフォメーションと、前記リガンドとの間のそれぞれのドッキングスコアを計算するステップと、
    機械学習モデルによって、前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについての前記それぞれのドッキングスコアを含む前記機械学習モデルへのモデル入力を受信するステップであって、前記機械学習モデルは、監督された機械学習技術により訓練された機械学習モデルパラメーターのセットによってパラメータ化されている、ステップと、
    前記機械学習モデルパラメーターのセットの訓練された値に従って、前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについての前記それぞれのドッキングスコアを含む前記モデル入力を、前記機械学習モデルを使用して処理して、結合スコアを含む前記機械学習モデルのモデル出力を生成するステップであって、前記結合スコアは前記リガンドの前記受容体への結合親和性を特徴付けるスコアである、ステップと
    を含む、非一過性コンピューター記録媒体。
  17. 1つまたは複数のコンピューター、および
    前記1つまたは複数のコンピューターと通信可能に接続された1つまたは複数の記録デバイス
    を含むシステムであって、前記1つまたは複数の記録デバイスは、前記1つまたは複数のコンピューターによって実行された場合に、前記1つまたは複数のコンピューターにリガンドと受容体との間の関係を予測するための操作を実施させる命令を記録し、前記操作は、
    前記受容体の複数のクラスタリングされたコンフォメーションを同定するステップであって、
    前記受容体のシミュレートされたコンフォメーションの集合を定める、前記受容体の時間間隔にわたる分子動力学のシミュレーションを行うこと、および
    前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングして、前記受容体の前記複数のクラスタリングされたコンフォメーションを生成すること
    を含む、ステップと、
    前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについて、前記受容体の前記クラスタリングされたコンフォメーションと、前記リガンドとの間のそれぞれのドッキングスコアを計算するステップと、
    機械学習モデルによって、前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについての前記それぞれのドッキングスコアを含む前記機械学習モデルへのモデル入力を受信するステップであって、前記機械学習モデルは、監督された機械学習技術により訓練された機械学習モデルパラメーターのセットによってパラメータ化されている、ステップと、
    前記機械学習モデルパラメーターのセットの訓練された値に従って、前記受容体の前記複数のクラスタリングされたコンフォメーションのそれぞれについての前記それぞれのドッキングスコアを含む前記モデル入力を、前記機械学習モデルを使用して処理して、結合スコアを含む前記機械学習モデルのモデル出力を生成するステップであって、前記結合スコアは前記リガンドの前記受容体への結合親和性を特徴付けるスコアである、ステップと
    を含む、システム。
  18. 前記受容体のシミュレートされたコンフォメーションの前記集合が、少なくとも1つの非結晶学的状態を含む、請求項17に記載のシステム。
  19. 前記受容体の分子動力学のシミュレーションを行うことが、前記受容体と前記リガンドとの相互作用をシミュレートすることを含む、請求項17または18に記載のシステム。
  20. 前記受容体のシミュレートされたコンフォメーションの前記集合をクラスタリングすることが、前記受容体のシミュレートされたコンフォメーションの前記集合に対して次元削減演算を行うことを含む、請求項17~19のいずれか一項に記載のシステム。


JP2020546373A 2018-03-05 2019-03-05 結合および活性予測を強化するための機械学習および分子シミュレーションに基づく方法 Active JP7343911B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862638805P 2018-03-05 2018-03-05
US62/638,805 2018-03-05
PCT/US2019/020843 WO2019173407A1 (en) 2018-03-05 2019-03-05 Machine learning and molecular simulation based methods for enhancing binding and activity prediction

Publications (2)

Publication Number Publication Date
JP2021515233A JP2021515233A (ja) 2021-06-17
JP7343911B2 true JP7343911B2 (ja) 2023-09-13

Family

ID=67768735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020546373A Active JP7343911B2 (ja) 2018-03-05 2019-03-05 結合および活性予測を強化するための機械学習および分子シミュレーションに基づく方法

Country Status (8)

Country Link
US (1) US20190272887A1 (ja)
EP (1) EP3762730A4 (ja)
JP (1) JP7343911B2 (ja)
KR (1) KR102604438B1 (ja)
CN (1) CN112204402B (ja)
AU (1) AU2019231261A1 (ja)
CA (1) CA3093260A1 (ja)
WO (1) WO2019173407A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019231255A1 (en) 2018-03-05 2020-10-01 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for spatial graph convolutions with applications to drug discovery and molecular simulation
CN112365023A (zh) * 2020-09-30 2021-02-12 浙江汉德瑞智能科技有限公司 基于机器学习的机场群体性事件预测及预警方法
US11256995B1 (en) 2020-12-16 2022-02-22 Ro5 Inc. System and method for prediction of protein-ligand bioactivity using point-cloud machine learning
JP7057004B1 (ja) * 2021-03-05 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
US11742057B2 (en) 2021-07-22 2023-08-29 Pythia Labs, Inc. Systems and methods for artificial intelligence-based prediction of amino acid sequences at a binding interface
US11450407B1 (en) 2021-07-22 2022-09-20 Pythia Labs, Inc. Systems and methods for artificial intelligence-guided biomolecule design and assessment
CN113808683A (zh) * 2021-09-02 2021-12-17 深圳市绿航星际太空科技研究院 基于受体和配体的药物虚拟筛选的方法及系统
CN114360661B (zh) * 2022-01-06 2022-11-22 中国人民解放军国防科技大学 基于群体智能优化模型的分子结构预测方法及相关设备
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
WO2024063583A1 (ko) * 2022-09-21 2024-03-28 (주)신테카바이오 인공지능 신약 플랫폼을 통한 표적 단백질의 결합 포켓 구조를 이용한 유도체 생성 방법
WO2024063584A1 (ko) * 2022-09-21 2024-03-28 (주)신테카바이오 인공지능 신약 플랫폼의 중심원자 벡터 기반 단백질-리간드 간 결합구조 분석 방법
KR102650868B1 (ko) 2023-07-04 2024-03-26 서울대학교산학협력단 스코어링 함수의 학습 방법 및 이를 이용한 단백질-리간드 도킹 예측 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020072587A1 (en) 2000-07-12 2002-06-13 Somers William S. Crystal structure of estrogen receptor-beta complex and uses thereof
WO2002101077A3 (en) 2001-06-11 2003-05-30 Donald Danforth Plant Science Docking of small ligands to low-resolution and theoretically predicted receptor structures
JP2005517630A (ja) 2001-06-13 2005-06-16 ザ リージェンツ オブ ザ ユニバーシティ オブ ミシガン ドーパミン受容体リガンドおよびこれに基づく治療方法
US20150193575A1 (en) 2013-12-13 2015-07-09 The Governors Of The University Of Alberta Systems and methods of selecting compounds with reduced risk of cardiotoxicity
JP2016166159A (ja) 2015-03-10 2016-09-15 一夫 桑田 プログラムおよび支援方法
WO2017070160A1 (en) 2015-10-20 2017-04-27 Georgetown University Systems and methods for in silico drug discovery

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050053999A1 (en) * 2000-11-14 2005-03-10 Gough David A. Method for predicting G-protein coupled receptor-ligand interactions
WO2003087310A2 (en) * 2002-04-04 2003-10-23 California Institute Of Technology Directed protein docking algorithm
US20050055187A1 (en) * 2003-06-10 2005-03-10 Sherman Brian Woody Method and system for interactive molecular docking and feedback
WO2007139037A1 (ja) * 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
US9880179B2 (en) * 2013-02-05 2018-01-30 The Board Of Trustees Of The Leland Stanford Junior University Method for selecting agents that bind to transmembrane receptors in a conformationally selective manner
DK3418929T3 (da) * 2013-09-27 2021-02-01 Codexis Inc Automatiseret screening af enzymvarianter
US11548860B2 (en) * 2015-10-22 2023-01-10 Mangosuthu University Of Technology Pharmacophores, compounds and methods having application in the treatment of cancer through inhibition of CYP17A1 and CYP19A1
WO2017192872A1 (en) * 2016-05-05 2017-11-09 Bowman Gregory R Methods of protein docking and rational drug design
TW201933375A (zh) * 2017-08-09 2019-08-16 美商人類長壽公司 蛋白質之結構預測
CN107729717B (zh) * 2017-11-03 2019-09-27 四川大学 一种计算机模拟获取g蛋白偶联受体中间态结构的方法
US11213518B2 (en) * 2017-11-14 2022-01-04 The Board Of Trustees Of The Leland Stanford Junior University Ligands of the mu, kappa, and delta opioid receptors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020072587A1 (en) 2000-07-12 2002-06-13 Somers William S. Crystal structure of estrogen receptor-beta complex and uses thereof
WO2002101077A3 (en) 2001-06-11 2003-05-30 Donald Danforth Plant Science Docking of small ligands to low-resolution and theoretically predicted receptor structures
JP2005517630A (ja) 2001-06-13 2005-06-16 ザ リージェンツ オブ ザ ユニバーシティ オブ ミシガン ドーパミン受容体リガンドおよびこれに基づく治療方法
US20150193575A1 (en) 2013-12-13 2015-07-09 The Governors Of The University Of Alberta Systems and methods of selecting compounds with reduced risk of cardiotoxicity
JP2016166159A (ja) 2015-03-10 2016-09-15 一夫 桑田 プログラムおよび支援方法
WO2017070160A1 (en) 2015-10-20 2017-04-27 Georgetown University Systems and methods for in silico drug discovery

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Ashtawy, Hossam Mohamed Farg,Data-driven and task-specific scoring functions for predicting ligand binding poses and affinity and for screening enrichment,2017年,https://doi.org/doi:10.25335/M5QX2N
Brian E Krumm,Structure and dynamics of a constitutively active neurotensin receptor,Sci Rep,2016年12月07日,Vol.6,Page.38564
Diwakar Shukla,Elucidating Ligand-Modulated Conformational Landscape of GPCRs Using Cloud-Computing Approaches,Methods in Enzymology,2015年03月24日,Vol.557,Page.551-572
Gabriela S Heck,Supervised Machine Learning Methods Applied to Predict Ligand- Binding Affinity,Curr Med Chem,2017年,Vol.24 No.23,Page.2459-2470
Pedro J Ballester,A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking,Bioinformatics,2010年03月17日,Vol.26 No.9,Page.1169-1175
Qurrat Ul Ain,Machine-learning scoring functions to improve structure-based binding affinity prediction and virtual screening,Wiley Interdiscip Rev Comput Mol Sci,2015年08月28日,Vol.5 No.6,Page.405-424

Also Published As

Publication number Publication date
CA3093260A1 (en) 2019-09-12
JP2021515233A (ja) 2021-06-17
CN112204402A (zh) 2021-01-08
KR20200128710A (ko) 2020-11-16
AU2019231261A1 (en) 2020-10-01
KR102604438B1 (ko) 2023-11-21
EP3762730A1 (en) 2021-01-13
CN112204402B (zh) 2024-05-03
WO2019173407A1 (en) 2019-09-12
US20190272887A1 (en) 2019-09-05
EP3762730A4 (en) 2021-12-01

Similar Documents

Publication Publication Date Title
JP7343911B2 (ja) 結合および活性予測を強化するための機械学習および分子シミュレーションに基づく方法
Roth et al. Discovery of new GPCR ligands to illuminate new biology
Katsila et al. Computational approaches in target identification and drug discovery
Bikadi et al. Predicting P-glycoprotein-mediated drug transport based on support vector machine and three-dimensional crystal structure of P-glycoprotein
Klebe Virtual ligand screening: strategies, perspectives and limitations
Gong et al. Understanding membrane protein drug targets in computational perspective
Spitaleri et al. Fast dynamic docking guided by adaptive electrostatic bias: The MD-binding approach
Creanza et al. Structure-based prediction of hERG-related cardiotoxicity: A benchmark study
Cao et al. Genome-scale screening of drug-target associations relevant to Ki using a chemogenomics approach
Gowthaman et al. Structural properties of non-traditional drug targets present new challenges for virtual screening
Babcock et al. Deorphanizing the human transmembrane genome: A landscape of uncharacterized membrane proteins
Serohijos et al. Structural basis for μ-opioid receptor binding and activation
Ru et al. Exploration of the correlation between GPCRs and drugs based on a learning to rank algorithm
Torkamannia et al. A review of machine learning approaches for drug synergy prediction in cancer
Zhang et al. A two-step target binding and selectivity support vector machines approach for virtual screening of dopamine receptor subtype-selective ligands
Fassio et al. Prioritizing virtual screening with interpretable interaction fingerprints
Leonis et al. Elucidation of conformational states, dynamics, and mechanism of binding in human κ-opioid receptor complexes
Szwabowski et al. Application of computational methods for class A GPCR Ligand discovery
Nunez et al. Assessment of a novel scoring method based on solvent accessible surface area descriptors
Tripathi et al. Structural insights into the molecular design of HER2 inhibitors
Roy Cheminformatics, QSAR and Machine Learning Applications for Novel Drug Development
JP2021500661A (ja) 誘導適合効果の計算
Liu et al. Using Deep Belief Network and Computational Methods to Improve Opioid Receptor Biological Activity Prediction, Novel Agonists and Antagonists, Structural Modeling
Ray et al. Data-driven classification of ligand unbinding pathways
Szwabowski et al. Structure-based pharmacophore modeling 2. Developing a novel framework for structure-based pharmacophore model generation and selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230825

R150 Certificate of patent or registration of utility model

Ref document number: 7343911

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150