JP2022550550A - インシリコで化合物をスクリーニングするためのシステムおよび方法 - Google Patents

インシリコで化合物をスクリーニングするためのシステムおよび方法 Download PDF

Info

Publication number
JP2022550550A
JP2022550550A JP2022519999A JP2022519999A JP2022550550A JP 2022550550 A JP2022550550 A JP 2022550550A JP 2022519999 A JP2022519999 A JP 2022519999A JP 2022519999 A JP2022519999 A JP 2022519999A JP 2022550550 A JP2022550550 A JP 2022550550A
Authority
JP
Japan
Prior art keywords
subjects
target
subject
subset
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022519999A
Other languages
English (en)
Other versions
JPWO2021067399A5 (ja
Inventor
マイソール,ヴェンカテーシュ
ソレンソン,ジョン
フリードランド,グレッグ
グプタ,ツシタ
ワラッチ,イズハール
Original Assignee
アトムワイズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アトムワイズ,インコーポレイテッド filed Critical アトムワイズ,インコーポレイテッド
Publication of JP2022550550A publication Critical patent/JP2022550550A/ja
Publication of JPWO2021067399A5 publication Critical patent/JPWO2021067399A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/62Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Pathology (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Toxicology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Bioethics (AREA)

Abstract

被験対象データセットにおける被験対象の数を削減するシステムおよび方法が提供される。第1の計算複雑性を有する標的モデルが、被験対象データセットおよび標的対象からの被験対象のサブセットに適用され、それによって、標的結果のサブセットを取得する。第2の計算複雑性を有する予測モデルが、被験対象のサブセットおよび標的結果のサブセットを使用して訓練される。予測モデルは、複数の被験対象に適用され、それによって、複数の予測結果を取得する。被験対象の一部分は、少なくとも部分的に複数の予測結果に基づいて、複数の被験対象から排除される。方法は、1つ以上の事前定義された削減基準が満たされているかどうかを判定する。事前定義された削減基準が満たされていない場合、被験対象および標的結果の追加のサブセットが取得され、かつ方法が、繰り返される。【選択図】図1

Description

関連出願の相互参照
本出願は、2019年10月3日に出願された、「Systems and Methods for Screening Compounds In Silico」という名称の米国仮特許出願第62/910,068号の優先権を主張し、参照により本明細書に組み込まれる。
本明細書は、概して、異なる計算複雑性を有する複数の計算モデルを使用することによるデータセット削減のための技術に関する。
創薬の成功の可能性を高めるために分子足場を多様化する必要性は、「フラットランド」からの脱却、つまり平坦な分子を構築する合成法への依拠と呼ばれている。分子ユニバースの未探求のポテンシャルを調査する別の方策は、影に隠れているものを明らかにする方策を見つけることである。いくつかの推定によれば、少なくとも1060の異なる薬物様分子:ノウバンデシリオンの可能性、があると言われている。この未開の化学空間を切り開く1つのアプローチは、超大型の仮想ライブラリ、すなわち、合成される必要はないが、それらの計算された分子構造から分子属性を推測することができる化合物のライブラリを研究することである。
ディープ・ラーニング・ニューラル・ネットワークなどの分類子の適用を使用して、これらの仮想ライブラリなどの大量のデータから新規な洞察を生成することができる。実際、創薬におけるリードの同定および最適化、臨床試験の患者募集のサポート、医療画像分析、バイオマーカー同定、薬効分析、薬物アドヒアランス評価、シーケンシングデータ分析、仮想スクリーニング、分子プロファイリング、代謝データ分析、電子カルテ分析および医療機器データ評価、オフターゲット副作用予測、毒性予測、効力最適化、薬物再利用、薬物耐性予測、個別化医療、薬物試験設計、農薬設計、材料科学およびシミュレーションはすべて、ディープ・ラーニング・ベース・ソリューションなどの分類子の使用が探求されている適用の例である。具体的には、医療では、2009年のアメリカ復興再投資法および2015年の精密医療イニシアチブが、医療における医療データの価値を広く支持している。いくつかのそのようなイニシアチブのおかげで、医療ビッグデータの量は、2020年までにおよそ50倍に増大して、25,000ペタバイトに達すると予想されている。例えば、インターネットのrootsanalysis.comで入手可能な、Roots Analysis,February 22,2017,“Deep Learning in Drug Discovery and Diagnostics,2017-2035”を参照されたい。
薬物再利用および前臨床研究の進歩に伴い、創薬への分類子の適用により、創薬プロセスを大幅に改善し、したがって、医療システム全体を通して患者の転帰を改善する機会が生じている。例えば、Rifaioglu et al.,2018,“Recent applications of deep learning and machine intelligence on in silico drug discovery:methods,tools and databases,”Briefings in Bioinform 1-35、およびLavecchia,2015,“Machine-learning approaches in drug discovery:methods and applications,”Drug Discovery Today 20(3),318-331を参照されたい。シリコ創薬の方法は、分類子が医薬品開発の時間および費用を削減する潜在性を有するため、分類子の特に貴重な用途である。現在、ヒトで使用するための新薬を開発する平均コストは、20億ドルを遥かに超えると推定される。例えば、DiMasi et al.,2016,J Health Econ 47,20-33を参照されたい。加えて、アメリカ合衆国連邦政府は、大部分、NIH基金を通じて、2010~2016年にFDAによって承認された210の新薬のすべてに寄与する主基礎研究に1,000億ドル超を費やした。Cleary et al.,2018,“Contributions of NIH funding to new drug approvals 2010-2016,”PNAS 115(10),2329-2334を参照されたい。したがって、(例えば、知られている、かつ/またはFDA承認の化学物質のデータベースにおいて)リード化合物を発見するための、または少なくともスクリーニングするための計算方法は、創薬および医薬品開発に革命をもたらす潜在性がある。
創薬を支援する多くの計算手法例がある。複合薬理学の発見(例えば、多くの薬物が2つ以上の分子標的に結合することができ、かつ実際に結合するという理解)は、治療を欠いている疾患のために、既に承認されている薬物を再利用する分野を開拓した。例えば、Hopkins,2009,“Predicting promiscuity,”Nature 462,167-168およびKeiser et al.,2007,“Relating protein pharmacology by ligand chemistry,”Nat Biotechnol 25(2),197-206を参照されたい。シリコ創薬では、ジカ病からシャーガス病までの疾患の潜在的な治療が既に生み出されている。例えば、Ramarack et al.,2017,“Zika virus NS5 protein potential inhibitors:an enhanced in silico approach in drug discovery,”J Biomol Structure and Dynamics 36(5),1118-1133、Castillo-Garit et al.,2012,“Identification in silico and in vitro of Novel Trypanosomicidal Drug-Like Compounds,”Chem Biol and Drug Des 80,38-45、およびRaj et al.2015“Flavonoids as Multi-target Inhibitors for Proteins associated with Ebola Virus,”Interdisip Sci Comput Life Sci 7,1-10を参照されたい。しかしながら、仮想ライブラリの評価を含む、現在創薬のために使用されている方法のうちの多くの1つの欠点は、それらの計算複雑性である。
特に、シリコ創薬方法のうちの多くは、主に、事前にフィルタリングされ、サイズ制限された分子データベースに適用可能である。例えば、Macalino et al.,2018,“Evolution of in Silico Strategies for Protein-Protein Interaction Drug Discovery,”Molecules 23,1963、およびLionata et al.,2014,“Structure-Based Virtual Screening for Drug Discovery:Principles,Applications and Recent Advances,”Curr Top Med Chem 14(16):1923-1938を参照されたい。特に、データセットは、典型的には、少なくともわずか何百万の化合物に制限されている。Ramsundar et al.,2015,“Massively Multitask Networks for Drug Discovery,”arXiv:1502.02072を参照されたい。データベースサイズの制限は、新しい疾患を治療する潜在性のある医薬品を発見するか、またはスクリーニングする能力に対応する制限を課す。
有望なリード化合物を同定することの重要性を考慮すると、化合物の大きなライブラリの評価を可能にする創薬の改善された計算方法が、当該技術分野において必要とされる。
Roots Analysis,February 22,2017,"Deep Learning in Drug Discovery and Diagnostics,2017-2035" Rifaioglu et al.,2018,"Recent applications of deep learning and machine intelligence on in silico drug discovery:methods,tools and databases,"Briefings in Bioinform 1-35 Lavecchia,2015,"Machine-learning approaches in drug discovery:methods and applications,"Drug Discovery Today 20(3),318-331 DiMasi et al.,2016,J Health Econ 47,20-33 Cleary et al.,2018,"Contributions of NIH funding to new drug approvals 2010-2016,"PNAS 115(10),2329-2334 Hopkins,2009,"Predicting promiscuity,"Nature 462,167-168 Keiser et al.,2007,"Relating protein pharmacology by ligand chemistry,"Nat Biotechnol 25(2),197-206 Ramarack et al.,2017,"Zika virus NS5 protein potential inhibitors:an enhanced in silico approach in drug discovery,"J Biomol Structure and Dynamics 36(5),1118-1133 Castillo-Garit et al.,2012,"Identification in silico and in vitro of Novel Trypanosomicidal Drug-Like Compounds,"Chem Biol and Drug Des 80,38-45 Raj et al.2015"Flavonoids as Multi-target Inhibitors for Proteins associated with Ebola Virus,"Interdisip Sci Comput Life Sci 7,1-10 Macalino et al.,2018,"Evolution of in Silico Strategies for Protein-Protein Interaction Drug Discovery,"Molecules 23,1963 Lionata et al.,2014,"Structure-Based Virtual Screening for Drug Discovery:Principles,Applications and Recent Advances,"Curr Top Med Chem 14(16):1923-1938 Ramsundar et al.,2015,"Massively Multitask Networks for Drug Discovery,"arXiv:1502.02072
本開示は、大規模化学化合物データベースの評価のための方法を提供することによって、背景で特定された欠点に対処する。
本開示の一態様では、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法が提供される。方法は、電子形式で、被験対象データセットを取得することを含む。
方法は、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することをさらに含む。
方法は、少なくともi)被験対象のサブセットを予測モデルの独立変数として、かつii)標的結果の対応するサブセットを予測モデルの従属変数として使用して、初期の訓練された状態の予測モデルをさらに訓練し、それによって、予測モデルを更新された訓練された状態に更新する。
方法は、更新された訓練された状態の予測モデルを複数の被験対象にさらに適用し、それによって、複数の予測結果のインスタンスを取得する。
方法は、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分をさらに排除する。
方法は、1つ以上の事前定義された削減基準が満たされているかどうかを判定することをさらに含む。1つ以上の事前定義された削減基準が満たされていない場合、方法は、(i)複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することをさらに含む。被験対象の追加のサブセットは、少なくとも部分的に複数の予測結果のインスタンス上で選択される。方法は、(ii)被験対象の追加のサブセットを被験対象のサブセットに組み込むことによって、被験対象のサブセットを更新することと、(iii)標的結果の追加のサブセットを標的結果のサブセットに組み込むことによって、標的結果のサブセットを更新することと、(iv)更新すること(ii)および(iii)の後に、予測モデルを、少なくとも1)独立変数としての被験対象のサブセット、および2)対応する従属変数としての標的結果の対応するサブセットに適用することによって、予測モデルを修正し、それによって、更新された訓練された状態の予測モデルを提供することと、をさらに含む。次いで、方法は、更新された訓練された状態の予測モデルの、複数の被験対象への適用を繰り返し、それによって、複数の予測結果のインスタンスを取得する。方法は、1つ以上の事前定義された削減基準が満たされるまで、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分をさらに排除する。
いくつかの実施形態では、標的モデルは、被験対象を評価する際に第1の計算複雑性を呈し、予測モデルは、被験対象を評価する際に第2の計算複雑性を呈し、第2の計算複雑性は、第1の計算複雑性よりも小さい。いくつかの実施形態では、標的モデルは、予測モデルよりも少なくとも3倍、少なくとも5倍、または少なくとも100倍計算的に複雑である。
いくつかの実施形態では、被験対象データセットは、複数の特徴ベクトル(例えば、タンパク質のフィンガープリント、計算特性、および/またはグラフ記述子)を含む。いくつかの実施形態では、各特徴ベクトルは、複数の被験対象中のそれぞれの被験対象のためのものであり、複数の特徴ベクトル中の各特徴ベクトルのサイズは、同じである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、一次元ベクトルである。
いくつかの実施形態では、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することは、複数の被験対象から1つ以上の被験対象をランダムに選択して、被験対象のサブセットを形成することをさらに含む。
いくつかの実施形態では、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することは、複数の特徴ベクトルから選択された1つ以上の特徴の評価に基づいて、被験対象のサブセットの複数の被験対象から1つ以上の被験対象を選択することをさらに含む。いくつかの実施形態では、選択は、(例えば、複数の被験対象の)クラスタリングに基づく。
いくつかの実施形態では、1つ以上の事前定義された削減基準を満たすことは、複数の予測結果中の各予測結果を、標的結果のサブセットからの対応する標的結果と比較することを含む。いくつかの実施形態では、1つ以上の事前定義された削減基準は、訓練結果と標的結果との差が所定の閾値を下回るときに満たされている。
いくつかの実施形態では、1つ以上の事前定義された削減基準を満たすことは、複数の被験対象中の被験対象の数が、対象の閾値数を下回ったことを判定することを含む。
いくつかの実施形態では、標的モデルは、畳み込みニューラルネットワークである。
いくつかの実施形態では、予測モデルは、ランダム・フォレスト・ツリー、複数の多重加法的決定木を含むランダムフォレスト、ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、線形回帰、ナイーブ・ベイズ・アルゴリズム、多カテゴリ論理回帰アルゴリズム、またはそれらのアンサンブルを含む。
いくつかの実施形態では、少なくとも1つの標的対象は、単一の対象であり、単一の対象は、ポリマーである。いくつかの実施形態では、ポリマーは、活性部位を含む。いくつかの実施形態では、ポリマーは、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリである。
いくつかの実施形態では、複数の被験対象は、複数の被験対象から被験対象の一部分を排除するインスタンスの適用の前に、少なくとも1億個の被験対象、少なくとも5億個の被験対象、少なくとも10億個の被験対象、少なくとも20億個の被験対象、少なくとも30億個の被験対象、少なくとも40億個の被験対象、少なくとも50億個の被験対象、少なくとも60億個の被験対象、少なくとも70億個の被験対象、少なくとも80億個の被験対象、少なくとも90億個の被験対象、少なくとも100億個の被験対象、少なくとも110億個の被験対象、少なくとも150億個の被験対象、少なくとも200億個の被験対象、少なくとも300億個の被験対象、少なくとも400億個の被験対象、少なくとも500億個の被験対象、少なくとも600億個の被験対象、少なくとも700億個の被験対象、少なくとも800億個の被験対象、少なくとも900億個の被験対象、少なくとも1000億個の被験対象、または少なくとも1100億個の被験対象を含む。
いくつかの実施形態では、1つ以上の事前定義された削減基準は、複数の被験対象が(例えば、複数の被験対象から被験対象の一部分を排除する1つ以上のインスタンスの後に)、30個以下の被験対象、40個以下の被験対象、50個以下の被験対象、60個以下の被験対象、70個以下の被験対象、90個以下の被験対象、100個以下の被験対象、200個以下の被験対象、300個以下の被験対象、400個以下の被験対象、500個以下の被験対象、600個以下の被験対象、700個以下の被験対象、800個以下の被験対象、900個以下の被験対象、または1000個以下の被験対象を有することを必要とする。
いくつかの実施形態では、複数の被験対象中の各被験対象は、化学化合物である。
いくつかの実施形態では、初期の訓練された状態の予測モデルは、訓練されていないか、または部分的に訓練された分類子を含む。いくつかの実施形態では、更新された訓練された状態の予測モデルは、初期の訓練された状態の予測モデルとは別のものである、訓練されていないか、または部分的に訓練された分類子を含む。
いくつかの実施形態では、被験対象のサブセットおよび/または被験対象の追加のサブセットは、少なくとも1,000個の被験対象、少なくとも5,000個の被験対象、少なくとも10,000個の被験対象、少なくとも25,000個の被験対象、少なくとも50,000個の被験対象、少なくとも75,000個の被験対象、少なくとも100,000個の被験対象、少なくとも250,000個の被験対象、少なくとも500,000個の被験対象、少なくとも750,000個の被験対象、少なくとも100万個の被験対象、少なくとも200万個の被験対象、少なくとも300万個の被験対象、少なくとも400万個の被験対象、少なくとも500万個の被験対象、少なくとも600万個の被験対象、少なくとも700万個の被験対象、少なくとも800万個の被験対象、少なくとも900万個の被験対象、または少なくとも1,000万個の被験対象を含む。いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットとは別のものである。
いくつかの実施形態では、少なくともi)被験対象のサブセットを(予測モデルの)複数の独立変数として、かつii)標的結果の対応するサブセットを(予測モデルの)複数の従属変数として使用して、初期の訓練された状態の予測モデルを訓練することは、iii)少なくとも1つの標的対象を予測モデルの独立変数として使用することをさらに含む。
いくつかの実施形態では、少なくとも1つの標的対象は、少なくとも2つの標的対象、少なくとも3つの標的対象、少なくとも4つの標的対象、少なくとも5つの標的対象、または少なくとも6つの標的対象を含む。
いくつかの実施形態では、更新すること(ii)および更新すること(iii)の後に、予測モデル(iv)を適用することによって予測モデルを修正することは、少なくとも1)被験対象のサブセットを独立変数として、かつ2)標的結果の対応するサブセットを対応する従属変数として使用することに加えて、3)少なくとも1つの標的対象を独立変数として使用することをさらに含む。
いくつかの実施形態では、1つ以上の事前定義された削減基準が満たされている場合、方法は、複数の被験対象をクラスタ化し、それによって、複数のクラスタ中のクラスタに、複数の被験対象中の各被験対象を割り当てることと、複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から1つ以上の被験対象を排除することと、をさらに含む。
いくつかの実施形態では、方法は、複数の被験対象をクラスタ化することによって、複数の被験対象から被験対象のサブセットを選択し、それによって、複数のクラスタ中のそれぞれのクラスタに複数の被験対象中の各被験対象を割り当て、複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から被験対象のサブセットを選択することをさらに含む。
いくつかの実施形態では、1つ以上の事前定義された削減基準が満たされている場合、方法は、予測モデルに複数の被験対象および少なくとも1つの標的対象を適用し、それによって、予測モデルに、複数の被験対象中の各被験対象に対するそれぞれの予測結果を提供させることをさらに含む。いくつかの実施形態では、各それぞれの予測結果は、それぞれの被験対象と少なくとも1つの標的対象(例えば、IC50、EC50、Kd、またはKI)との間の相互作用の予測に対応する。いくつかの実施形態では、各それぞれの予測スコアを使用して、少なくとも1つの標的対象を特徴付ける。
いくつかの実施形態では、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分を排除することは、i)複数の被験対象をクラスタ化し、それによって、複数のクラスタ中のそれぞれのクラスタに複数の被験対象中の各被験対象を割り当てることと、ii)複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から被験対象のサブセットを排除することと、を含む。
いくつかの実施形態では、複数の被験対象のクラスタ化は、密度ベースの空間クラスタリングアルゴリズム、分割クラスタリングアルゴリズム、凝集クラスタリングアルゴリズム、k平均クラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、またはそれらのアンサンブルを使用して実行される。
いくつかの実施形態では、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分を排除することは、i)複数の予測結果のインスタンスに基づいて、複数の被験対象をランク付けすることと、ii)複数の被験対象から、閾値カットオフを満たす対応する相互作用スコアを有するに至らない複数の被験対象中のそれらの被験対象を削除することと、を含む。
いくつかの実施形態では、閾値カットオフは、上位閾値パーセンテージである。いくつかの実施形態では、上位閾値パーセンテージは、複数の予測結果の上位90パーセント、上位80パーセント、上位75パーセント、上位60パーセント、または上位50パーセントである。
いくつかの実施形態では、少なくとも部分的に複数の予測結果のインスタンスに基づいて、複数の被験対象から被験対象の一部分を排除する各インスタンスは、複数の被験対象中の被験対象の10分の1~10分の9を排除する。いくつかの実施形態では、排除することの各インスタンスは、複数の被験対象中の被験対象の4分の1~4分の3を排除する。
本開示の別の態様は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを記憶しているメモリと、を含むコンピューティングシステムを提供し、少なくとも1つのプログラムは、上記に開示された方法のいずれかによって、被験対象データセットにおける複数の被験対象中の被験対象の数を削減するための命令を含む。
本開示のさらに別の態様は、被験対象データセットにおける複数の被験対象中の被験対象の数を削減するための少なくとも1つのプログラムを記憶している非一時的コンピュータ可読記憶媒体を提供する。少なくとも1つのプログラムは、コンピュータによって実行されるように構成されている。少なくとも1つのプログラムは、上記に開示された方法のいずれかを実行するための命令を含む。
本明細書に開示されるように、本明細書に開示される任意の実施形態は、適用可能な場合、任意の他の態様に適用され得る。本開示の追加の態様および利点は、本開示の例示的な実施形態のみが示され、記載される、以下の詳細な説明から、当業者には容易に明らかになるであろう。了得されるであろうように、本開示は、他のおよび異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な自明な点で修正が可能である。よって、図面および説明は、本質的に例示とみなされるものであり、限定とみなされるものではない。
参照による組み込み
本明細書で言及されるすべての刊行物、特許、および特許出願は、それぞれの個々の刊行物、特許、または特許出願が、参照により組み込まれるように具体的かつ個別に示されているかのように、それらの全体が、参照により本明細書に組み込まれる。本明細書における用語と組み込まれた参照文献における用語との間に矛盾が生じた場合、本明細書における用語が律する。
本明細書に開示される実装態様は、添付の図面において例として例示され、限定として例示されるものではない。説明および図面は、例示の目的のため、および理解の補助としてのものにすぎず、本開示のシステムおよび方法の制限の定義として意図されるものではない。同様の参照番号は、図面全体を通して対応する部分を指す。
本開示のいくつかの実施形態による、コンピューティングシステムの例を例示するブロック図である。 本開示のいくつかの実施形態による、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法のフローチャートの例を全体として例示している。 本開示のいくつかの実施形態による、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法のフローチャートの例を全体として例示している。 本開示のいくつかの実施形態による、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法のフローチャートの例を全体として例示している。 本開示のいくつかの実施形態による、化合物ライブラリを評価する例を例示している。 本開示の実施形態による、標的対象に対する2つの異なるポーズの例示的な被験対象の概略図である。 本開示の実施形態による、三次元グリッドのボクセルの形態の入力特徴の幾何学的表現の概略図である。 本開示の実施形態による、二次元グリッドのボクセル上に符号化された2つの被験対象の図である。 本開示の実施形態による、二次元グリッドのボクセル上に符号化された2つの被験対象の図である。 本開示の実施形態による、ボクセルが番号付けされた、図7の視覚化の図である。 本開示の実施形態による、原子中心の座標位置の形態の入力特徴の幾何学的表現の概略図である。 本開示の実施形態による、ある範囲の位置を有する図9の座標位置の概略図である。
創薬に必要な計算努力は、薬物データセットのサイズおよび複雑さの拡大と同時に増加している。特に、標的分子の非常に正確なモデルは、伝統的な薬物発見方法を使用して考慮されなかった可能性のある追加の被験化合物(例えば、潜在的なリード化合物)の検出を可能にした。計算による化合物発見の使用は、潜在的な薬物データベースの探索空間を(例えば、特定の標的分子が与えられた場合、どの被験化合物が最も望ましい効果を有する可能性が高いかを判定することによって)精査し、臨床試験を実施して良好な被験化合物を検証する、非常に労力および時間が費やされる下流プロセスをさらに簡素化する。
ここで、実施形態を詳細に参照し、これらの実施形態の例は、添付の図面に例示されている。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の具体的な詳細が述べられる。しかしながら、本開示がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の事例では、周知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には記載されていない。
本明細書に記載される実装態様は、対象の腫瘍分画を判定するための参照モデルを訓練するための様々な技術的解決策を提供する。
定義。
本明細書で使用される場合、「クラスタリング」という用語は、データポイントの1つ以上のセット(例えば、クラスタ)へのグループ化を最適化する様々な方法を指し、それぞれのセットの各データポイントは、それぞれのセットにないデータポイントに対するよりも、それぞれのセットの他のあらゆるデータポイントに対するより高い程度の類似性を含む。異なるタイプのデータを評価するのに好適である多種多様なクラスタリングアルゴリズムがある。これらのアルゴリズムとして、階層モデル、重心モデル、分布モデル、密度ベースのモデル、部分空間モデル、グラフベースのモデル、およびニューラルモデルが挙げられる。これらの異なるモデルは各々、別々の計算要件(例えば、複雑さ)を有し、異なるデータタイプに好適である。同じデータセットに2つの別個のクラスタリングモデルを適用することは、2つの異なるデータグループ化をもたらすことが多い。いくつかの実施形態では、データセットへのクラスタリングモデルの繰り返しの適用は、毎回異なるデータグループ化をもたらす。
本明細書で使用される場合、「特徴ベクトル」または「ベクトル」という用語は、各要素が割り当てられた意味を有する、要素の配列などの、要素の列挙されたリストである。したがって、本開示で使用される「特徴ベクトル」という用語は、「テンソル」という用語と交換可能である。提示を容易にするために、いくつかの事例では、ベクトルは、一次元であるとして記載され得る。ただし、本開示は、そのようには限定されない。任意の次元の特徴ベクトルは、ベクトルの各要素が表すものの記述が定義されていることを条件に、本開示において使用され得る。
本明細書で使用される場合、「ポリペプチド」という用語は、ペプチド結合によって連結された2つ以上のアミノ酸または残基を意味する。「ポリペプチド」および「タンパク質」という用語は、本明細書では交換可能に使用され、オリゴペプチドおよびペプチドを含む。「アミノ酸」、「残基」、または「ペプチド」は、当該技術分野で知られているタンパク質の20の標準構造単位のいずれかを指し、プロリンおよびヒドロキシプロリンなどのイミノ酸を含む。アミノ酸異性体の呼称は、D、L、R、およびSを含み得る。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリジン、ランチオニン、2-アミノイソ酪酸、γ-アミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、およびホモシステインは、すべて、アミノ酸とみなされる。アミノ酸の他の変異体または類似体が、当該技術分野で知られている。したがって、ポリペプチドは、ペプチドなどの合成ペプチド模倣構造を含み得る。Simon et al.,1992,Proceedings of the National Academy of Sciences USA,89,9367を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。Chin et al.,2003,Science 301,964、およびChin et al.,2003,Chemistry & Biology 10,511も参照されたく、これらの各々は、参照によりその全体が本明細書に組み込まれる。
本開示で使用される術語は、単に特定の実施形態を記載する目的のためのものであり、本発明を制限することを意図するものではない。本発明の詳細な説明および添付の特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈が明示的に別様に示さない限り、複数形も含むことが意図されている。本明細書で使用される場合、「および/または」という用語は、関連付けられた列挙された項目のうちの1つ以上の任意のおよびすべての可能な組み合わせを指し、包含することも理解されよう。本明細書で使用される場合の「含む(comprises)」および/または「含む(comprising)」という用語は、述べられた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことがさらに理解されよう。さらに、「含む(including)」、「含む(includes)」、「有する(having)」、「有する(has)」、「有する(with)」という用語、またはそれらの変化形が、詳細な説明および/または特許請求の範囲のいずれかで使用される限り、そのような用語は、「含む(comprising)」という用語と同様の様式で包括的であることが意図されている。
いくつかの態様が、例示のための例示的な用途を参照して以下に記載される。本明細書に記載される特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が述べられることを理解されたい。ただし、当業者は、本明細書に記載される特徴が、特定の詳細の1つ以上なしに、または他の方法を用いて実施され得ることを容易に認識するであろう。本明細書に記載される特徴は、いくつかの行為が、異なる順序で、および/または他の行為もしくは事象と同時に行われ得るため、行為または事象の例示される順序によって限定されない。さらに、例示されるすべての行為または事象が、本明細書に記載される特徴に従って方法論を実装するために必要とされるわけではない。
例示的なシステム実施形態
ここで、例示的なシステムの詳細が、図1と併せて記載される。図1は、いくつかの実装態様によるシステム100を例示するブロック図である。いくつかの実装態様でのシステム100は、少なくとも1つ以上の処理ユニットCPU102(プロセッサとも称される)、1つ以上のネットワークインターフェース104、任意選択のユーザインターフェース108(例えば、ディスプレイ106、入力デバイス110などを有する)メモリ111、およびこれらのコンポーネントを相互接続するための1つ以上の通信バス114を含む。1つ以上の通信バス114は、任意選択で、システムコンポーネント間の通信を相互接続し、制御する回路機構(チップセットと呼ばれることもある)を含む。
いくつかの実施形態では、1つ以上の処理ユニット102中の各処理ユニットは、シングルコアプロセッサまたはマルチコアプロセッサである。いくつかの実施形態では、1つ以上の処理ユニット102は、並列処理を可能にするマルチコアプロセッサである。いくつかの実施形態では、1つ以上の処理ユニット102は、並列処理を可能にする複数のプロセッサ(シングルコアまたはマルチコア)である。いくつかの実施形態では、1つ以上の処理ユニット102の各々は、プログラムまたはソフトウェアで具現化され得る一連の機械可読命令を実行するように構成されている。命令は、メモリ111などのメモリ位置に記憶され得る。命令は、1つ以上の処理ユニット102に向けられ、続いて、1つ以上の処理ユニット102をプログラムするか、または他様に構成して、本開示の方法を実装することができる。1つ以上の処理ユニット102によって実行される動作の例は、フェッチ、デコード、実行、およびライトバックを含むことができる。1つ以上の処理ユニット102は、集積回路などの回路の一部であり得る。システム100の1つ以上の他のコンポーネントを回路に含めることができる。いくつかの実施形態では、回路は、特定用途向け集積回路(ASIC)またはフィールドプログラマブル・ゲート・アレイ(FPGA)アーキテクチャである。
いくつかの実施形態では、ディスプレイ106は、タッチ感知面などのタッチ感知ディスプレイである。いくつかの実施形態では、ユーザインターフェース106は、1つ以上のソフトキーボード実施形態を含む。いくつかの実装態様では、ソフトキーボードの実施形態は、表示されたアイコン上のシンボルの標準(QWERTY)および/または非標準の構成を含む。ユーザインターフェース106は、例えば、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する結果、インタラクションスコア、または予測結果のグラフィック表示をユーザに提供するように構成されてもよい。ユーザインターフェースは、特定のタスクとのユーザインタラクション(例えば、事前定義された削減基準をレビューすること、および調整すること)を可能にし得る。
メモリ111は、非永続メモリ、永続メモリ、またはそれらの任意の組み合わせであってもよい。非永続メモリは、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの、高速ランダム・アクセス・メモリを含むのに対して、永続メモリは、典型的には、CD-ROM、デジタル汎用ディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置デバイス、磁気ディスク記憶装置デバイス、光ディスク記憶装置デバイス、フラッシュ・メモリ・デバイス、または他の不揮発性ソリッドステート記憶装置デバイスを含む。メモリ111は、任意選択で、CPU102からリモートに位置する1つ以上の記憶装置デバイスを含む。メモリ111、およびメモリ111内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を含む。いくつかの実施形態では、メモリ111は、少なくとも1つの非一時的コンピュータ可読記憶媒体を含み、プログラム、モジュール、およびデータ構造の形態であり得るコンピュータ実行可能実行可能命令を担持して記憶する。
いくつかの実施形態では、図1に示されるように、メモリ111は、以下のプログラム、モジュール、およびデータ構造、またはそのサブセットを記憶する:
●オペレーティングシステム116(例えば、iOS、ANDROID、DARWIN、RTXC、LINUX、UNIX、OS X、WINDOWS、またはVxWorksなどの組み込みオペレーティングシステム)と関連付けられた命令、プログラム、データ、または情報であって、一般的なシステムタスク(例えば、メモリ管理、記憶装置デバイス制御、電力管理)を制御し、管理するための様々なソフトウェアコンポーネントおよび/またはドライバを含み、様々なハードウェアコンポーネントとソフトウェアコンポーネントとの間の通信を容易にする、命令、プログラム、データ、または情報、
●システム100を他のデバイスと、かつ/または通信ネットワークに接続するための、任意選択のネットワーク通信モジュール(または命令)118と関連付けられた命令、プログラム、データ、または情報、
●少なくとも1つの標的対象122であって、いくつかの実施形態では、標的対象は、ポリマーを含む、少なくとも1つの標的対象122、
●複数の被験対象124(例えば、被験対象124-1、…、124-X)を含む被験対象データベース122であって、複数の被験対象124から被験対象のサブセット130(例えば、被験対象124-A、...、124-B)が、標的モデル150による分析のために選択され、複数の被験対象124から、任意選択で、被験対象の1つ以上の追加のサブセット(例えば、140-1、...、140-Y)が選択されて、その後にサブセット130に追加され、サブセット130の各被験対象124は、対応する標的結果132および対応する予測結果134を有する、被験対象データベース122、
●第1の計算複雑性152を有する標的モデル150であって、被験対象のサブセット130への標的モデルの適用は、被験対象サブセット130の各被験対象124に対するそれぞれの標的結果132をもたらす、標的モデル150、および
●第2の計算複雑性162を有する予測モデル160であって、最初の訓練されていない状態164または更新された訓練されていない状態166のいずれかの予測モデルを被験対象サブセット130に適用して、被験対象サブセット130の各被験対象132に対するそれぞれの予測結果136を取得する、予測モデル160。
様々な実装態様では、上記で識別された要素のうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に記憶され、上述した機能を実行するための命令のセットに対応する。上記の識別されたモジュール、データ、またはプログラム(例えば、命令セット)は、別個のソフトウェアプログラム、手順、データセット、またはモジュールとして実施される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装態様で組み合わされ得るか、または別様に再配置され得る。いくつかの実装態様では、メモリ111は、任意選択で、上記で識別されたモジュールおよびデータ構造のサブセットを記憶する。さらに、いくつかの実施形態では、メモリは、上述されていない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、上記の識別された要素のうちの1つ以上は、システム100のコンピュータシステム以外のコンピュータシステムに記憶され、システム100によってアドレス指定可能であり、システム100は、必要なときにそのようなデータのすべてまたは一部分を取り出し得る。
図1は「システム100」を描示しているが、図は、本明細書に記載された実装態様の構造的概略図としてよりも、コンピュータシステムに存在し得る様々な特徴の機能的な説明として強く意図されている。実際には、当業者によって認識されるように、別個に示される項目を組み合わせることができ、いくつかの項目は、別個であり得る。その上、図1は、メモリ111の特定のデータおよびモジュール(非永続メモリまたは永続メモリであり得る)を描示しているが、これらのデータおよびモジュール、またはそれらの部分は、2つ以上のメモリに記憶され得ることを認知されたい。例えば、いくつかの実施形態では、少なくとも第1のデータセット122、第2のデータセット124、参照モジュール120、および参照モデル140は、クラウドベースのインフラストラクチャの一部であり得るリモート記憶装置デバイスに記憶される。いくつかの実施形態では、少なくとも第1のデータセット122および第2のデータセット124は、クラウドベースのインフラストラクチャに記憶される。いくつかの実施形態では、参照モデル120および参照モデル140はまた、リモート記憶装置デバイスに記憶され得る。
本開示による予測モデルを訓練するシステムは、図1を参照して開示されているが、ここで、本開示によるそのような訓練を実行する方法が、図2を参照して詳述される。
ブロック202。図2Aのブロック202を参照すると、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法が提供される。
ブロック204~206。図2Aのブロック204を参照すると、本方法は、電子形態で被験対象データセットを取得することによって進む。そのような被験対象データセットの例は、ZINC15である。Sterling and Irwin,2005,J.Chem.Inf.Model 45(1),p.177-182を参照されたい。Zinc 15は、仮想スクリーニングのための市販の化合物のデータベースである。ZINC 15は、すぐにドッキングさせることができる3D形式の、2億3000万以上の購入可能な化合物を含む。ZINC 15はまた、7億5000万を超える購入可能な化合物を含む。被験対象データセットの他の例としては、限定されるものではないが、MASSIV、AZ Space with Enamine BBs、EVOspace、PGVL、BICLAIM、Lilly、GDB-17、SAVI、CHIPMUNK、REAL‘Space’、SCUBIDOO 2.1、REAL‘Database’、WuXi Virtual、PubChem Compounds、Sigma Aldrich‘in-stock’、eMolecules Plus、およびWuXi Chemistry Servicesが挙げられ、これらは、Hoffmann and Gastreich,2019,“The next level in chemical space navigation:going far beyond enumerable compound libraries,”Drug Discovery Today 24(5),pp.1148にまとめられており、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、複数の被験対象は、(例えば、ブロック232~234に関して以下に記載されるように、複数の被験対象から被験対象の一部分を排除するインスタンスの適用の前に)少なくとも1億個の被験対象、少なくとも5億個の被験対象、少なくとも10億個の被験対象、少なくとも20億個の被験対象、少なくとも30億個の被験対象、少なくとも40億個の被験対象、少なくとも50億個の被験対象、少なくとも60億個の被験対象、少なくとも70億個の被験対象、少なくとも80億個の被験対象、少なくとも90億個の被験対象、少なくとも100億個の被験対象、少なくとも110億個の被験対象、少なくとも150億個の被験対象、少なくとも200億個の被験対象、少なくとも300億個の被験対象、少なくとも400億個の被験対象、少なくとも500億個の被験対象、少なくとも600億個の被験対象、少なくとも700億個の被験対象、少なくとも800億個の被験対象、少なくとも900億個の被験対象、少なくとも1000億個の被験対象、または少なくとも1100億個の被験対象を含む。いくつかの実施形態では、複数の被験対象は、1億~5億個の被験対象、1億~10億個の被験対象、10億~20億個の被験対象、10~50億個の被験対象、10~100億個の被験対象、10~150億個の被験対象、50~100億個の被験対象、50~150億個の被験対象、または100~150億個の被験対象を含む。いくつかの実施形態では、複数の被験対象は、10、10、10、10、1010、1011、1012、1013、1014、1015、1016、1017、1018、1019、1020、1021、1022、1023、1024、1025、1026、1027、1028、1029、1030、1031、1032、1033、1034、1035、1036、1037、1038、1039、1040、1041、1042、1043、1044、1045、1046、1047、1048、1049、1050、1051、1052、1053、1054、1055、1056、1057、1058、1059、または1060個ほどの化合物である。
いくつかの実施形態では、被験対象データセットのサイズは、サイズが少なくとも100キロバイト、少なくとも1メガバイト、少なくとも2メガバイト、少なくとも3メガバイト、少なくとも4メガバイト、少なくとも10メガバイト、少なくとも20メガバイト、少なくとも100メガバイト、少なくとも1ギガバイト、少なくとも10ギガバイト、または少なくとも1テラバイトである。いくつかの実施形態では、被験対象データセットは、少なくとも100キロバイト、少なくとも1メガバイト、少なくとも2メガバイト、少なくとも3メガバイト、少なくとも4メガバイト、少なくとも10メガバイト、少なくとも20メガバイト、少なくとも100メガバイト、少なくとも1ギガバイト、少なくとも10ギガバイト、または少なくとも1テラバイトのファイルサイズを全体として有するファイルまたはデータセットのコレクション(例えば、2以上、3以上、4以上、100以上、1000以上、または100万以上)である。
ブロック206に関して、いくつかの実施形態では、複数の被験対象中の各被験対象は、それぞれの化学化合物を表す。いくつかの実施形態では、各被験対象は、5つの基準のリピンスキー則を満たす化学化合物を表す。いくつかの実施形態では、各被験対象は、2つ以上のルール、3つ以上のルール、またはリピンスキーのルール・オブ・ファイブの4つのルールすべてを満たす有機化合物である:(i)5以下の水素結合供与体(例えば、OH基およびNH基)、(ii)10以下の水素結合受容体(例えば、NおよびO)、(iii)500ダルトン未満の分子量、および(iv)5未満のLogP。「ルール・オブ・ファイブ」は、4つの基準のうちの3つが数字の5を伴うため、このように呼ばれる。Lipinski,1997,Adv.Drug Del.Rev.23,3を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。いくつかの実施形態では、各被験対象は、リピンスキーのルール・オブ・ファイブに加えて、1つ以上の基準を満たす。例えば、いくつかの実施形態では、各被験対象は、5つ以下の芳香環、4つ以下の芳香環、3つ以下の芳香環、または2つ以下の芳香環を有する。いくつかの実施形態では、各被験対象は、化学化合物を記述し、化学化合物の記述は、化学化合物のモデル化された原子座標を含む。いくつかの実施形態では、複数の被験対象の各被験対象は、異なる化学化合物を表す。
いくつかの実施形態では、各被験対象は、2000ダルトン未満、4000ダルトン未満、6000ダルトン未満、8000ダルトン未満、10000ダルトン未満、または20000ダルトン未満の分子量を有する有機化合物を表す。
いくつかの実施形態では、複数の被験対象中の少なくとも1つの被験対象は、対応する薬学的化合物を表す。いくつかの実施形態では、複数の被験対象中の少なくとも1つの被験対象は、対応する生物活性化合物を表す。本明細書で使用される場合、「生物活性化合物」という用語は、(例えば、タンパク質との相互作用を通じて)ヒトに対する生理学的効果を有する化合物を指す。生物活性化合物のサブセットを、医薬品に開発することができる。例えば、Gu et al.2013“Use of Natural Products as Chemical Library for Drug Discovery and Network Pharmacology”PLoS One 8(4),e62839を参照されたい。生物活性化合物は、天然に存在し得るか、または合成であり得る。生物活性の様々な定義が、提案されている。例えば、Lagunin et al.2000“PASS:Prediction of activity spectra for biologically active substances”Bioinform 16,747-748を参照されたい。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「アルキル」基を有する化学化合物を表す。「アルキル」という用語は、それ自体、または化学化合物の別の置換基の一部として、別段の定めがない限り、直鎖もしくは分岐鎖、または環状炭化水素ラジカル、またはそれらの組み合わせを意味し、これらは、完全に飽和し得るか、一価不飽和であり得るか、または多価不飽和であり得、指定された炭素原子の数を有する二価、三価および多価ラジカルを含むことができる(すなわち、C~C10は、1~10個の炭素を意味する)。飽和炭化水素ラジカルの例としては、限定されるものではないが、メチル、エチル、n-プロピル、イソプロピル、n-ブチル、t-ブチル、イソブチル、セカンダリーブチル、シクロヘキシル、(シクロヘキシル)メチル、シクロプロピルメチル、例えば、n-ペンチル、n-ヘキシル、n-ヘプチル、n-オクチルなどの同族体および異性体などの基が挙げられる。不飽和アルキル基は、1つ以上の二重結合または三重結合を有する基である。不飽和アルキル基の例としては、限定されるものではないが、ビニル、2-プロペニル、クロチル、2-イソペンテニル、2-(ブタジエニル)、2,4-ペンタジエニル、3-(1,4-ペンタジエニル)、エチニル、1-および3-プロピニル、3-ブチニル、ならびにより高い同族体および異性体が挙げられる。「アルキル」という用語は、別段の定めがない限り、「ヘテロアルキル」などの、以下により詳細に定義されるアルキルのそれらの誘導体を任意選択で含むことも意味する。炭化水素基に限定されるアルキル基は、「ホモアルキル」と称される。例示的なアルキル基としては、モノ不飽和C9-10、オレオイル鎖、またはジ不飽和C9-10,12-13リノエイル鎖が挙げられる。「アルキレン」という用語は、それ自体、または別の置換基の一部として、限定されるものではないが、-CHCHCHCH-によって例示される、アルカンに由来する二価のラジカルを意味し、「ヘテロアルキレン」として以下に記載されるような基をさらに含む。典型的には、アルキル(またはアルキレン)基は、1~24個の炭素原子を有するものであり、それらの基は、本発明では10個以下の炭素原子を有することが好ましい。「低級アルキル」または「低級アルキレン」は、一般に8個以下の炭素原子を有する、より短い鎖アルキルまたはアルキレン基である。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「アルコキシ」、「アルキルアミノ」、および「アルキルチオ」基を有する化学化合物を表す。「アルコキシ」、「アルキルアミノ」、および「アルキルチオ」(またはチオアルコキシ)という用語は、それらの従来の意味で使用され、それぞれ、酸素原子、アミノ基、または硫黄原子を介して分子の残りの部分に結合したようなアルキル基を指す。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「アリールオキシ」および「ヘテロアリールオキシ」基を有する化学化合物を表す。「アリールオキシ」および「ヘテロアリールオキシ」という用語は、それらの従来の意味で使用され、酸素原子を介して分子の残りの部分に結合したようなアリールまたはヘテロアリール基を指す。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「ヘテロアルキル」基を有する化学化合物を表す。「ヘテロアルキル」という用語は、それ自体、または別の用語と組み合わせて、別段の断りがない限り、述べられた数の炭素原子とO、N、Si、およびSからなる群から選択される少なくとも1つのヘテロ原子とからなる、安定した直鎖もしくは分岐鎖、または環状炭化水素ラジカル、またはそれらの組み合わせを意味し、ここで、窒素原子および硫黄原子は、任意選択で酸化され得、窒素ヘテロ原子は、任意選択で四級化され得る。ヘテロ原子O、NおよびSおよびSiは、ヘテロアルキル基の任意の内部位置に、またはアルキル基が分子の残りの部分に結合している位置に配されてもよい。例としては、限定されるものではないが、-CH-CH-O-CH、-CH-CH-NH-CH、-CH-CH-N(CH)-CH、-CH-S-CH-CH、-CH-CH、-S(O)-CH、-CH-CH-S(O)-CH、-CH=CH-O-CH、-Si(CH、-CH-CH=N-OCH、および-CH=CH-N(CH)-CHが挙げられる。最大2個のヘテロ原子は、例えば-CH-NH-OCHおよび-CH-O-Si(CHなど、連続していてもよい。同様に、「ヘテロアルキレン」という用語は、それ自体、または別の置換基の一部として、限定されるものではないが、-CH-CH-S-CH-CH-および-CH-S-CH-CH-NH-CHによって例示される、ヘテロアルキルに由来する二価ラジカルを意味する。ヘテロアルキレン基について、ヘテロ原子はまた、鎖末端のいずれかまたは両方を占有することができる(例えば、アルキレンオキシ、アルキレンジオキシ、アルキレンアミノ、アルキレンジアミノなど)。さらにまた、アルキレンおよびヘテロアルキレン連結基について、連結基の配向は、連結基の式が書かれる方向によって含意されない。例えば、式-COR’-は、-C(O)OR’と-OC(O)R’との両方を表す。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「シクロアルキル」および「ヘテロシクロアルキル」基を有する化学化合物を表す。「シクロアルキル」および「ヘテロシクロアルキル」という用語は、それら自体、または他の用語と組み合わせて、別段の定めがない限り、それぞれ、「アルキル」および「ヘテロアルキル」の環状バージョンを表す。加えて、ヘテロシクロアルキルについて、ヘテロ原子は、複素環が分子の残りの部分に結合している位置を占めることができる。シクロアルキルの例としては、限定されるものではないが、シクロペンチル、シクロヘキシル、1-シクロヘキセニル、3-シクロヘキセニル、シクロヘプチルなどが挙げられる。さらなる例示的なシクロアルキル基として、ステロイド、例えばコレステロールおよびその誘導体が挙げられる。ヘテロシクロアルキルの例としては、限定されるものではないが、1-(1,2,5,6-テトラヒドロピリジル)、1-ピペリジニル、2-ピペリジニル、3-ピペリジニル、4-モルホリニル、3-モルホリニル、テトラヒドロフラン-2-イル、テトラヒドロフラン-3-イル、テトラヒドロチエン-2-イル、テトラヒドロチエン-3-イル、1-ピペラジニル、2-ピペラジニルなどが挙げられる。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「ハロ」または「ハロゲン」を有する化学化合物を表す。「ハロ」または「ハロゲン」という用語は、それら自体、または別の置換基の一部として、別段の定めがない限り、フッ素、塩素、臭素、またはヨウ素原子を意味する。さらに、「ハロアルキル」などの用語は、モノハロアルキルおよびポリハロアルキルを含むことを意味する。例えば、「ハロ(C~C)アルキル」という用語は、限定されるものではないが、トリフルオロメチル、2,2,2-トリフルオロエチル、4-クロロブチル、3-ブロモプロピルなどを含むことを意味する。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「アリール」基を有する化学化合物を表す。「アリール」という用語は、別段の定めがない限り、ともに縮合されるかまたは共有結合される、単環または複数環(好ましくは1~3環)であり得る多価不飽和芳香族置換基を意味する。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「ヘテロアリール」基を有する化学化合物を表す。「ヘテロアリール」という用語は、N、O、S、Si、およびBから選択される1~4個のヘテロ原子を含むアリール置換基(または環)を指し、窒素原子および硫黄原子は、任意選択で酸化され、窒素原子は、任意選択で四級化される。例示的なヘテロアリール基は、六員アジン、例えば、ピリジニル、ジアジニル、およびトリアジニルである。ヘテロアリール基は、ヘテロ原子を介して分子の残りの部分に結合され得る。アリールおよびヘテロアリール基の非限定的な例としては、フェニル、1-ナフチル、2-ナフチル、4-ビフェニル、1-ピロリル、2-ピロリル、3-ピロリル、3-ピラゾリル、2-イミダゾリル、4-イミダゾリル、ピラジニル、2-オキサゾリル、4-オキサゾリル、2-フェニル-4-オキサゾリル、5-オキサゾリル、3-イソオキサゾリル、4-イソオキサゾリル、5-イソオキサゾリル、2-チアゾリル、4-チアゾリル、5-チアゾリル、2-フリル、3-フリル、2-チエニル、3-チエニル、2-ピリジル、3-ピリジル、4-ピリミジル、4-ピリミジル、5-ベンゾチアゾリル、プリニル、2-ベンズイミダゾリル、5-インジル、1-イソキノリル、5-イソキノリル、2-キノキシニル、5-キノキシニル、3-キノリル、および6-キノリルが挙げられる。上記に書き留めたアリールおよびヘテロアリール環系の各々の置換基は、以下に記載される許容される置換基の群から選択される。
簡潔には、他の用語(例えば、アリールオキシ、アリールチオキシ、アリールアルキル)と組み合わせて使用される場合の「アリール」という用語は、上記に定義されるアリール、ヘテロアリール、およびヘテロアレン環を含む。したがって、「アリールアルキル」という用語は、アリール基が、炭素原子(例えば、メチレン基)が酸素原子(例えば、フェノキシメチル、2-ピリジルオキシメチル、3-(1-ナフチルオキシ)プロピルなど)に置き換えられたようなアルキル基を含むアルキル基(例えば、ベンジル、フェネチル、ピリジルメチルなど)に結合しているようなラジカルを含むことを意味する。
上記の用語の各々(例えば、「アルキル」、「ヘテロアルキル」、「アリール」、および「ヘテロアリール」)は、任意選択で、示される種の置換形態と非置換形態との両方を含むことを意味する。これらの種の例示的な置換基が、以下に提供される。
被験対象データセットによって表される化学化合物のアルキルおよびヘテロアルキルラジカル(多くの場合、アルキレン、アルケニル、ヘテロアルキレン、ヘテロアルケニル、アルキニル、シクロアルキル、ヘテロシクロアルキル、シクロアルケニル、およびヘテロシクロアルケニルと呼ばれることが多いような基を含む)の置換基は、一般に、「アルキル基置換基」と呼ばれ、それらは、限定されるものではないが、以下から選択される多様な基のうちの1つ以上であり得る:ゼロ~(2m’+1)の範囲の数の、H、置換もしくは非置換アリール、置換もしくは非置換ヘテロアリール、置換もしくは非置換ヘテロシクロアルキル、-OR’、=O、=NR’、=N-OR’、-NR’R’’、SR’、ハロゲン、SiR’R’’R’’’、OC(O)R’、C(O)R’、COR’、CONR’R’’、OC(O)NR’R’’、NR’’C(O)R’、NR’C(O)NR’’R’’’、NR’’C(O)2R’、NR C(NR’R’’R’’’)=NR’’’’、NR C(NR’R’’)=NR’’’、-S(O)R’、-S(O)R’、-S(O)NR’R’’、NRSO2R’、-CN、および-NOであり、式中、mは、そのようなラジカル中の炭素原子の総数である。R’、R’’、R’’、およびR’’’’は各々、好ましくは、独立して、水素、置換もしくは非置換ヘテロアルキル、置換もしくは非置換アリール、例えば、1~3個のハロゲンで置換されたアリール、置換もしくは非置換アルキル、アルコキシもしくはチオアルコキシ基、またはアリールアルキル基を指す。本発明の化合物が2つ以上のR基を含む場合、例えば、R基の各々は、これらの基のうちの2つ以上が存在する場合に、R基の各々は、各々R’、R’’、R’’、およびR’’’’基であるとして独立して選択される。R’およびR’’が同じ窒素原子に結合している場合、それらを窒素原子と組み合わせて、五、六、または七員環を形成することができる。例えば、-NR’R’’は、限定されるものではないが、1-ピロリジニルおよび4-モルホリニルを含むことを意味する。置換基の上述の考察から、当業者は、「アルキル」という用語は、ハロアルキル(例えば、-CFおよび-CHCF)およびアシル(例えば、-C(O)CH、-C(O)CF、-C(O)CHOCHなど)などの、水素基以外の基に結合した炭素原子を含む基を含むことを意味することを理解するであろう。これらの用語は、例示的な「置換アルキル」および「置換ヘテロアルキル」部分の成分である、例示的な「アルキル基置換基」とみなされる基を包含する。
アルキルラジカルについて記載される置換基と同様に、アリールヘテロアリールおよびヘテロアレン基の置換基は、一般に、「アリール基置換基」と呼ばれる。置換基は、例えば、限定されることなく、ゼロから芳香環系上の空原子価(open valence)の総数までの範囲の数の、置換もしくは非置換アルキル、置換もしくは非置換アリール、置換もしくは非置換ヘテロアリール、置換もしくは非置換ヘテロシクロアルキル、OR’、=O、=NR’、=N-OR’、-NR’R’’、-SR’、-ハロゲン、-SiR’R’’R’’’、-OC(O)R’、-C(O)R’、-COR’、-CONR’R’’、-OC(O)NR’R’’、-NR’’C(O)R’、-NR’-C(O)NR’’R’’’、-NR’’C(O)R’、-NR-C(NR’R’’R’’’)=NR’’’’、-NR-C(NR’R’’)=NR’’’、-S(O)R’、-S(O)R’、-S(O)NR’R’’、-NRSOR’、-CNおよび-NO、-R’、-N、-CH(Ph)、フルオロ(C~C)アルコキシ、およびフルオロ(C~C)アルキルを含む炭素またはヘテロ原子(例えば、P、N、O、S、Si、またはB)を介してヘテロアリールまたはヘテロアレン核に結合した基から選択される。上記に名称を挙げた基の各々は、ヘテロアレンまたはヘテロアリール核に直接に、またはヘテロ原子(例えば、P、N、O、S、Si、もしくはB)を介して結合され、ここで、R’、R”、R’’’、およびR’’’’は、好ましくは、独立して、水素、置換または非置換アルキル、置換または非置換ヘテロアルキル、置換または非置換アリール、および置換または非置換ヘテロアリールから選択される。本発明の化合物が2つ以上のR基を含む場合、例えば、R基の各々は、これらの基のうちの2つ以上が存在する場合に、R基の各々は、各々R’、R’’、R’’’、およびR’’’’基であるとして独立して選択される。
アリール環、ヘテロアレン環またはヘテロアリール環の隣接原子上の置換基のうちの2つが、任意選択で、式-T-C(O)-(CRR’)-U-の置換基に置き換えられてもよく、式中、TおよびUは、独立して、-NR-、-O-、-CRR’-または単結合であり、qは、0~3の整数である。あるいは、アリールまたはヘテロアリール環の隣接原子上の置換基のうちの2つが、任意選択で、式-A-(CH-B-の置換基で置き換えられてもよく、式中、AおよびBは、独立して、-CRR’-、-O-、-NR-、-S-、-S(O)-、-S(O)-、-S(O)NR’-、または単結合であり、rは、1~4の整数である。そのように形成された新しい環の単結合のうちの1つは、任意選択で、二重結合で置き換えられてもよい。あるいは、アリール、ヘテロアレン、またはヘテロアリール環の隣接原子上の置換基のうちの2つは、任意選択で、式-(CRR’)-X-(CR’’R’’’)-の置換基で置き換えられてもよく、式中、sおよびdは、独立して、0~3の整数であり、Xは、-O-、-NR’-、-S-、-S(O)-、-S(O)-、または-S(O)NR’-である。置換基R、R’、R’’、およびR’’’は、好ましくは、独立して、水素、または置換もしくは非置換(C~C)アルキルから選択される。これらの用語は、例示的な「置換アリール」「置換ヘテロアレン」および「置換ヘテロアリール」部分の成分である、例示的な「アリール基置換基」とみなされる基を包含する。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「アシル」基を有する化学化合物を表す。本明細書で使用される場合、「アシル」という用語は、カルボニル残基、C(O)Rを含む置換基を記述する。Rの例示的な種としては、H、ハロゲン、置換または非置換アルキル、置換または非置換アリール、置換または非置換ヘテロアリール、および置換または非置換ヘテロシクロアルキルが挙げられる。
いくつかの実施形態では、被験対象データセットにおける被験対象は、「縮合環系」を有する化学化合物を表す。本明細書で使用される場合、「縮合環系」という用語は、少なくとも2個の環を意味し、各環は、別の環と共通の少なくとも2個の原子を有する。「縮合環系」は、芳香族環ならびに非芳香族環を含み得る。「縮合環系」の例は、ナフタレン、インドール、キノリン、クロメンなどである。
本明細書で使用される場合、「ヘテロ原子」という用語は、酸素(O)、窒素(N)、硫黄(S)、およびシリコン(Si)、ホウ素(B)、およびリン(P)を含む。
記号「R」は、H、置換または非置換アルキル、置換または非置換ヘテロアルキル、置換または非置換アリール、置換または非置換ヘテロアリール、および置換または非置換ヘテロシクロアルキル基から選択される置換基を表す一般的な略語である。
ブロック208。図2Aのブロック208を参照すると、いくつかの実施形態では、被験対象データセットは、複数の特徴ベクトルを含む(例えば、各特徴ベクトルは、被験対象データセットにおける個々の被験対象に対応し、1つ以上の特徴を含む)。いくつかの実施形態では、複数の特徴ベクトル中の各それぞれの特徴ベクトルは、対応する被験対象によって表されるそれぞれの化学化合物の化学フィンガープリント、分子フィンガープリント、1つ以上の計算特性、および/またはグラフ記述子を含む。例示的な分子フィンガープリントとしては、限定されるものではないが、Daylightフィンガープリント、BCIフィンガープリント、ECFPフィンガープリント、ECFCフィンガープリント、MDLフィンガープリント、APFPフィンガープリント、TTFPフィンガープリント、UNITY 2Dフィンガープリントなどが挙げられる。
いくつかの実施形態では、ベクトルにおける特徴のうちのいくつかは、分子量、回転可能な結合の数、計算されたLogP(例えば、計算されたオクタノール-水分配係数または他の方法)、水素結合供与体の数、水素結合受容体の数、キラル中心の数、キラル二重結合の数(E/Z異性体)、極性および無極性の脱溶媒和エネルギー(kcal/mol単位)、正味電荷、および剛性断片の数、の任意の組み合わせなどの、対応する被験対象の分子特性を含む。いくつかの実施形態では、被験対象データセットにおける1つ以上の被験対象は、機能または活性で注釈付けされる。いくつかのそのような実施形態では、ベクトルにおける特徴は、そのような機能または活性を含む。
いくつかの実施形態では、被験対象データセットは、各被験対象の化学構造を含む。例えば、いくつかの実施形態では、化学構造は、SMILES文字列である。いくつかの実施形態では、被験対象の化学構造を表すために、被験対象の正準表現が計算される(例えば、OpenEyeのOEchemライブラリ、インターネットのOpenyEye.comを参照されたい)。いくつかの実施形態では、初期の3Dモデルは、(例えば、OpenEyeのOmegaプログラムを使用して)被験対象の曖昧性のない異性体SMILESから生成される。いくつかの実施形態では、次いで、pH5~9.5での被験対象の関連する正しくプロトン化された形態が、(例えば、インターネットのschrodinger.comでSchrodinger,Inc.から入手可能なSchrodingerのligprepプログラムを使用して)作成される。これには、例えば、カルボン酸およびテトラゾールの脱プロトン化、ならびにほとんどの脂肪族アミンのプロトン化が含まれる。いくつかの実施形態では、各プロトン化状態、立体異性体、および互変異性体の単一の3Dコンフォメーションの部分原子電荷および原子脱溶媒和ペナルティは、(例えば、半経験的量子機械プログラムAMSOL16を使用して)計算される。いくつかの実施形態では、OpenEyeのプログラムOmegaを使用して、3Dコンフォメーションを生成する。例えば、Sterling and Irwin,2005,J.Chem.Inf.Model 45(1),p.177-182を参照されたい。いくつかの実施形態では、被験対象データセットにおける被験対象は、少なくとも部分的に、SMILES、mol2、3D SDF、DOCK flexibase、または同等の形式のデータ構造を有する、被験対象データセットによって表される。
被験対象が特徴ベクトルによって表される被験対象データセットの実施形態では、各特徴ベクトルは、複数の被験対象中のそれぞれの被験対象のためのものである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルのサイズ(例えば、特徴の数)が、同じである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルのサイズ(例えば、特徴の数)が、同じではない。すなわち、いくつかの実施形態では、複数の特徴ベクトル中の特徴ベクトルのうちの少なくとも1つが、異なるサイズである。いくつかの実施形態では、各特徴ベクトルは、任意の長さである(例えば、各特徴ベクトルは、任意のサイズであり得る)。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルの次元の数は、変動し得る(例えば、特徴ベクトルは、任意の数の次元を有し得る)。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、一次元ベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の1つ以上の特徴ベクトルは、二次元ベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の1つ以上の特徴ベクトルは、三次元ベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルの次元の数は、同じである(例えば、各特徴ベクトルは、同じ数の次元を有する)。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、少なくとも二次元のベクトルである。いくつかの実施形態では、複数の特徴ベクトル中の各特徴ベクトルは、少なくともN次元のベクトルであり、Nは、2以上の(例えば、2、3、4、5、6、7、8、9、10、またはそれよりも大きい)正の整数である。
いくつかの実施形態では、複数の被験対象中の各それぞれの被験対象は、それぞれの被験対象によって表される化学化合物の対応する化学フィンガープリントを含む。いくつかの実施形態では、被験対象の化学フィンガープリントは、被験対象の対応する特徴ベクトルによって表される。本明細書で使用される場合、「化学フィンガープリント」という用語は、特定の分子に対応する一意のパターン(例えば、一意のベクトルまたは行列)を指す。いくつかの実施形態では、各化学フィンガープリントが、固定サイズである。いくつかの実施形態では、1つ以上の化学フィンガープリントが、可変にサイズ決定される。いくつかの実施形態では、複数の被験対象中のそれぞれの被験対象の化学フィンガープリントは、(例えば、MALDI-TOFなどの質量分析法を通じて)直接判定され得る。いくつかの実施形態では、複数の被験対象中のそれぞれの被験対象の化学フィンガープリントを、計算方法を介して取得することができる。例えば、Daina et al.(2017)”SwissADME:a free web tool to evaluate pharmacokinetics,drug-likeness and medicinal chemistry friendliness of small molecules”Sci Reports 7,42717、O’Boyle et al.2011”Open Babel:An open chemical toolbox”J Cheminforma 3,33、Cereto-Massague et al.2015”Molecular fingerprint similarity search in virtual screening”Methods 71,58-63、およびMitchell 2014”Machine learning methods in cheminformatics”WIREs Comput Mol Sci.4:468-481を参照されたく、これらの各々は、参照により本明細書に組み込まれる。
計算空間における化学化合物を表すための多くの異なる方法が、当該技術分野において知られている。
いくつかの実施形態では、各化学フィンガープリントは、それぞれの化学化合物と1つ以上の追加の化学化合物および/または生物学的巨大分子との間の相互作用に関する情報を含む。いくつかの実施形態では、化学フィンガープリントは、タンパク質-リガンド結合無限性に関する情報を含む。Wojcikowski et al.2018”Development of a protein-ligand extended connectivity(PLEC) fingerprint and its application for binding affinity predictions”Bioinformatics 35(8),1334-1341を参照されたく、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、ニューラルネットワークを使用して、被験対象データベースにおける少なくとも1つの被験対象の1つ以上の化学特性(および/または化学フィンガープリント)を判定する。
いくつかの実施形態では、被験対象データベース内の各被験対象は、1つ以上の既知の化学特性を有する既知の化学化合物に対応する。いくつかの実施形態では、同じ数の化学的特性が、被験対象データセット内の複数の被験対象内の各被験対象に対して提供される。いくつかの実施形態では、異なる数の化学特性が、被験対象データセットにおける1つ以上の被験対象に対して提供される。いくつかの実施形態では、被験対象データセットにおける1つ以上の被験対象は、合成である(例えば、被験対象の化学構造を、被験対象が実験室で分析されていないにもかかわらず判定することができる)。例えば、Gomez-Bombarelli et al.2017”Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules”arXiv:1610.02415v3を参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、グラフ比較を使用して、被験対象データセットによって表される分子の三次元構造を比較する(例えば、類似の分子のクラスタまたはセットを判定するために)。グラフ比較の概念は、グラフ記述子を比較することに依拠し、パターン認識のために使用され得る異同または類似性の測定値をもたらす。例えば、Czech 2011”Graph Descriptors form B -Matrix Representation”Graph-Based Representations in Patter Recognition,LNCS 6658,12-21を参照されたく、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、(例えば、被験対象のセットの)グラフ内の関連する構造的特性を捕捉するために、クラスタリング係数、効率、または媒介中心性などの測定値を利用することができる。例えば、Costa et al.2007”Characterization of complex networks:A survey of measurements”Advances Phys 56(1),198-200を参照されたく、これは、参照により本明細書に組み込まれる。
ブロック210。図2Aのブロック210を参照すると、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得する。典型的な実施形態では、それぞれの被験対象は、少なくとも1つの標的対象の各標的対象にドッキングされる。いくつかの実施形態では、単一の標的対象のみが存在する。
いくつかの実施形態では、標的対象は、ポリマーである。ポリマーの例としては、限定されるものではないが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリが挙げられる。例えば、開示されるシステムおよび方法のいくつかの実施形態を使用して研究されるポリマーなどのポリマーは、繰り返し残基からなる大型分子である。いくつかの実施形態では、ポリマーは、天然材料である。いくつかの実施形態では、ポリマーは、合成材料である。いくつかの実施形態では、ポリマーは、エラストマー、シェラック、アンバー、天然もしくは合成ゴム、セルロース、ベークライト、ナイロン、ポリスチレン、ポリエチレン、ポリプロピレン、ポリアクリロニトリル、ポリエチレングリコール、または多糖である。
いくつかの実施形態では、標的対象は、ヘテロポリマー(共重合体)である。共重合体は、1つのモノマーのみが使用されるホモポリマーとは対照的に、2つの(またはそれよりも多い)モノマー種に由来するポリマーである。共重合とは、共重合体を化学的に合成するために使用される方法を指す。共重合体の例としては、限定されるものではないが、ABS樹脂、SBR、ニトリルゴム、スチレン-アクリロニトリル、スチレン-イソプレン-スチレン(SIS)、およびエチレン-酢酸ビニルが挙げられる。共重合体が少なくとも2つのタイプの構成単位(構造単位、または粒子とも)からなることから、これらの単位が鎖に沿ってどのように配置されるかに基づいて、共重合体を分類することができる。これらには、規則的な交互するA単位およびB単位を有する交互共重合体が含まれる。例えば、Jenkins,1996,“Glossary of Basic Terms in Polymer Science,”Pure Appl.Chem.68(12):2287-2311を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。共重合体の追加の例は、繰り返し配列(例えば、(A-B-A-B-B-A-A-A-A-A-B-B-B))に配置されたA単位およびB単位を有する周期的共重合体である。共重合体の追加の例は、共重合体中のモノマー残基の配列が統計的ルールに従う統計的共重合体である。例えば、Painter,1997,Fandamentals of Polymer Science,CRC Press,1997,p14を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。開示されるシステムおよび方法を使用して評価され得る共重合体のさらに他の例は、共有結合によって連結された2つ以上のホモポリマーサブユニットを含むブロック共重合体である。ホモポリマーサブユニットの結合は、ジャンクションブロックとして知られている中間非反復サブユニットを必要とし得る。2つまたは3つの別々のブロックを有するブロック共重合体は、それぞれ、ジブロック共重合体およびトリブロック共重合体と呼ばれる。
いくつかの実施形態では、標的対象は、実際には、複数のポリマーであり、複数のポリマー中のそれぞれのポリマーが、すべて同じ分子量を有するわけではない。いくつかのそのような実施形態では、複数のポリマー中のポリマーは、鎖長の対応する分布を有する重量範囲に入る。いくつかの実施形態では、ポリマーは、1つ以上の置換基側鎖または分岐を有する主鎖を含む分岐状ポリマー分子である。分岐状ポリマーのタイプとしては、限定されるものではないが、スター型ポリマー、櫛型ポリマー、ブラシ型ポリマー、樹状ポリマー、梯子型、およびデンドリマーが挙げられる。例えば、Rubinstein et al.,2003,Polymer physics,Oxford;New York:Oxford University Press.p.6を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。
いくつかの実施形態では、標的対象は、ポリペプチドである。本明細書で使用される場合、「ポリペプチド」という用語は、ペプチド結合によって連結された2つ以上のアミノ酸または残基を意味する。「ポリペプチド」および「タンパク質」という用語は、本明細書では交換可能に使用され、オリゴペプチドおよびペプチドを含む。「アミノ酸」、「残基」、または「ペプチド」は、当該技術分野で知られているタンパク質の20の標準構造単位のいずれかを指し、プロリンおよびヒドロキシプロリンなどのイミノ酸を含む。アミノ酸異性体の呼称は、D、L、R、およびSを含み得る。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリジン、ランチオニン、2-アミノイソ酪酸、γ-アミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、およびホモシステインは、すべて、アミノ酸とみなされる。アミノ酸の他の変異体または類似体が、当該技術分野で知られている。したがって、ポリペプチドは、ペプチドなどの合成ペプチド模倣構造を含み得る。Simon et al.,1992,Proceedings of the National Academy of Sciences USA,89,9367を参照されたく、これは、参照によりその全体が本明細書に組み込まれる。Chin et al.,2003,Science 301,964、およびChin et al.,2003,Chemistry & Biology 10,511も参照されたく、これらの各々は、参照によりその全体が本明細書に組み込まれる。
いくつかの実施形態では、開示されるシステムおよび方法のいくつかの実施形態に従って評価される標的対象はまた、任意の数の翻訳後修飾を有し得る。したがって、標的対象として、アシル化、アルキル化、アミド化、ビオチン化、ホルミル化、γ-カルボキシル化、グルタミル化、グリコシル化、グリシル化、ヒドロキシル化、ヨウ素化、イソプレニル化、リポイル化、(例えば、ヘム、フラビン、金属などの)補因子付加、ヌクレオシドおよびそれらの誘導体の付加、酸化、還元、ペグ化、ホスファチジルイノシトール付加、ホスホパンテテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、tRNAによるアミノ酸の付加(例えば、アルギニル化)、硫酸化、セレノイル化、ISG化、SUMO化、ユビキチン化、化学修飾(例えば、クエトリン化および脱アミド化)、ならびに他の酵素(例えば、プロテアーゼ、ホスホトラーゼおよびキナーゼ)による処理によって修飾されているようなポリマーが挙げられ得る。他のタイプの翻訳後修飾が、当該技術分野で知られており、また含まれる。
いくつかの実施形態では、標的対象は、有機金属錯体である。有機金属錯体は、炭素と金属との間の結合を含む化学化合物である。いくつかの事例では、有機金属化合物は、接頭辞「有機」、例えば、有機パラジウム化合物、によって区別される。
いくつかの実施形態では、標的対象は、界面活性剤である。界面活性剤は、液体の表面張力、2つの液体間の界面張力、または液体と固体との間の界面張力を低下させる化合物である。界面活性剤は、洗剤、湿潤剤、乳化剤、発泡剤、および分散剤として作用し得る。界面活性剤は、通常、両親媒性である有機化合物であり、これらの有機化合物が疎水基(それらの尾部)と親水基(それらの頭部)との両方を含むことを意味する。したがって、界面活性剤分子は、水不溶性(または油溶性)成分と水溶性成分との両方を含む。界面活性剤分子は、水中では拡散し、空気と水との間の界面に、または水が油と混合される場合には、油と水との間の界面に吸着する。不溶性疎水基は、水溶性頭部基が水相に留まる間、バルク水相から空気中に、または油相中に延在し得る。表面における界面活性剤分子のこの配向は、水/空気または水/油界面における水の表面特性を修正する。
イオン性界面活性剤の例としては、アニオン性界面活性剤、カチオン性界面活性剤、または双性(両性)界面活性剤などのイオン性界面活性剤が挙げられる。いくつかの実施形態では、標的対象は、逆ミセルまたはリポソームである。
いくつかの実施形態では、標的対象は、フラーレンである。フラーレンは、中空の球体、楕円体、または管の形態の、完全に炭素で構成される任意の分子である。球状のフラーレンは、バッキーボールとも呼ばれ、それらは、アソシエーションフットボールで使用されるボールに似ている。円筒形のものは、カーボンナノチューブまたはバッキーチューブと呼ばれる。フラーレンは、連結した六角形環の積み重ねられたグラフェンシートから構成されるグラファイトと構造が類似しているが、それらはまた、五角形(または時に七角形)環を含み得る。
いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、2.5Å以上の分解能で分解されたポリマーの結晶構造の三次元座標のセット{x,...,x}であり(208)、Nは、2以上(例えば、10以上、20以上など)の整数である。いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、3.3Å以上の分解能で分解されたポリマーの結晶構造の三次元座標のセット{x1,...,xN}である(210)。いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、3.3Å以上、3.2Å以上、3.1Å以上、3.0Å以上、2.5Å以上、2.2Å以上、2.0Å以上、1.9Å以上、1.85Å以上、1.80Å以上、1.75Å以上、または1.70Å以上の分解能で(例えば、X線結晶学的技術によって)分解されたポリマーの結晶構造の三次元座標のセット{x,...,x}である。
いくつかの実施形態では、標的対象は、ポリマーであり、空間座標は、核磁気共鳴によって判定された、ポリマーの10以上、20以上、30以上の三次元座標のアンサンブルであり、アンサンブルは、1.0Å以上、0.9Å以上、0.8Å以上、0.7Å以上、0.6Å以上、0.5Å以上、0.4Å以上、0.3Å以上、または0.2Å以上の骨格RMSDを有する。いくつかの実施形態では、空間座標は、中性子回折または低温電子顕微鏡法によって判定される。
いくつかの実施形態では、標的対象は、ポリペプチドに結合した核酸などの、2つの異なるタイプのポリマーを含む。いくつかの実施形態では、天然ポリマーは、互いに結合した2つのポリペプチドを含む。いくつかの実施形態では、研究対象の天然ポリマーは、1つ以上の金属イオン(例えば、1つ以上の亜鉛原子を有する金属プロテアーゼ)を含む。そのような事例では、金属イオンおよびまたは有機低分子は、標的対象の空間座標に含まれ得る。
いくつかの実施形態では、標的対象は、ポリマーであり、ポリマーには、10個以上、20個以上、30個以上、50個以上、100個以上、100~1000個、または500個未満の残基がある。
いくつかの実施形態では、標的対象の空間座標は、ab initio法、密度汎関数法、半経験的および経験的方法、分子力学、化学動力学、または分子動力学などのモデリング方法を使用して判定される。
実施形態では、空間座標は、標的対象を含む原子の中心のデカルト座標によって表される。いくつかの代替実施形態では、標的対象の空間座標は、例えばX線結晶構造解析によって測定される、標的対象の電子密度によって表される。例えば、いくつかの実施形態では、空間座標は、標的対象の計算された原子座標を使用して計算された2Fobserved-Fcalculated電子密度マップを含み、Fobservedは、標的対象の観測された構造因子振幅であり、Fcは、標的対象の計算された原子座標から計算された構造因子振幅である。
したがって、標的対象の空間座標は、限定されるものではないが、溶液NMRによって生成される構造アンサンブル、X線結晶構造解析、中性子回折、または低温電子顕微鏡法から解釈される共錯体、計算シミュレーションからのサンプリング、ホモロジーモデリングまたはロータマーライブラリサンプリング、ならびにこれらの技術の組み合わせなどの多様なソースからの入力データとして受け取られ得る。
いくつかの実施形態では、ブロック210は、標的対象の空間座標を取得することを包含する。さらに、ブロック210は、複数の異なるポーズ中の各ポーズの標的対象でそれぞれの被験対象をモデル化し、それによって、複数のボクセルマップを作成することを包含し、複数のボクセルマップ中の各それぞれのボクセルマップは、複数の異なるポーズ中のそれぞれのポーズの被験対象を含む。
いくつかの実施形態では、標的対象は、活性部位を有するポリマーであり、それぞれの被験対象は、化学化合物であり、複数の異なるポーズ中の各ポーズにおける標的対象でのそれぞれの被験対象のモデリングは、被験対象を標的対象の活性部位にドッキングすることを含む。いくつかの実施形態では、それぞれの被験対象は、複数回標的対象上にドッキングされて、複数のポーズを形成する(例えば、各ドッキングが、異なるポーズを表す)。いくつかの実施形態では、被験対象は、標的対象上に2回、3回、4回、5回以上、10回以上、50回以上、100回以上、または1000回以上ドッキングされる。各そのようなドッキングは、標的対象上にドッキングされたそれぞれの被験対象の異なるポーズを表す。いくつかの実施形態では、それぞれの標的対象は、活性部位を有するポリマーであり、被験対象は、複数の異なる方法の各々で活性部位にドッキングされ、各そのような方策が、異なるポーズを表す。これらのポーズの多くが正しくないことは、そのようなポーズが、それぞれの被験対象と実際に生じる標的対象との間の真の相互作用を表さないことを意味すると、想定される。任意の特定の理論に限定されることを意図するものではないが、間違ったポーズの間で観測される対象間(例えば、分子間)相互作用は、ホワイトノイズのように互いに打ち消し合うこととなるのに対して、被験対象によって形成される正しいポーズによって形成される対象間相互作用は、互いに補強することとなると、想定される。いくつかの実施形態では、被験対象は、ランダムなポーズ生成技術によって、または偏ったポーズ生成によってのいずれかでドッキングされる。いくつかの実施形態では、被験対象は、マルコフ・チェーン・モンテ・カルロ・サンプリングによってドッキングされる。いくつかの実施形態では、そのようなサンプリングは、ドッキング計算における被験対象の完全な柔軟性と、被験対象と標的対象との間の相互作用エネルギーの合計であるスコアリング関数、ならびに被験対象のコンフォメーションエネルギーを可能にする。例えば、Liu and Wang,1999,“MCDOCK:A Monte Carlo simulation approach to the molecular docking problem,”Journal of Computer-Aided Molecular Design 13,435-451を参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、DOCK(Shoichet,Bodian,and Kuntz,1992,“Molecular docking using shape descriptors,”Journal of Computational Chemistry 13(3),pp.380-397、およびKnegtel,Kuntz,and Oshiro,1997”Molecular docking to ensembles of protein structures,”Journal of Molecular Biology 266,pp.424-440、これらの各々は、参照により本明細書に組み込まれる)などのアルゴリズムを使用して、標的対象の各々に対する各それぞれの被験対象に対する複数のポーズを見出す。そのようなアルゴリズムは、標的対象および被験対象を剛体としてモデル化する。ドッキングされたコンフォメーションを、補完的な表面を使用して探索して、ポーズを見つける。
いくつかの実施形態では、AutoDOCK(Morris et al.,2009,“AutoDock4 and AutoDockTools4:Automated Docking with Selective Receptor Flexibility,”J.Comput.Chem.30(16),pp.2785-2791、Sotriffer et al.,2000,“Automated docking of ligands to antibodies:methods and applications,”Methods:A Companion to Methods in Enzymology 20,pp.280-291、および“Morris et al.,1998,“Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Function,”Journal of Computational Chemistry 19:pp.1639-1662、これらの各々は、参照により本明細書に組み込まれる)などのアルゴリズムを使用して、標的対象の各々に対する各それぞれの被験対象に対する複数のポーズを見つける。AutoDOCKは、リガンドの運動学的モデルを使用し、モンテカルロ、模擬アニーリング、ラマルク遺伝的アルゴリズム、および遺伝的アルゴリズムをサポートする。よって、いくつかの実施形態では、(所与の被験対象-標的対象ペアに対する)複数の異なるポーズは、ドッキングスコアリング関数を使用して、マルコフ連鎖モンテカルロサンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムによって取得される。
いくつかの実施形態では、FlexX(Rarey et al.,1996,“A Fast Flexible Docking Method Using an Incremental Construction Algorithm,”Journal of Molecular Biology 261,pp.470-489、これは、参照により本明細書に組み込まれる)などのアルゴリズムを使用して、標的対象の各々に対する被験対象のサブセットのそれぞれの被験対象の各々に対する複数のポーズを見つける。FlexXは、貪欲アルゴリズムを使用して、標的対象の活性部位で被験対象の逐次構築を行う。よって、いくつかの実施形態では、(所与の被験対象-標的対象ペアに対する)複数の異なるポーズは、貪欲アルゴリズムによって取得される。
いくつかの実施形態では、GOLD(Jones et al.,1997,“Development and Validation of a Genetic Algorithm for flexible Docking,”Journal Molecular Biology 267,pp.727-748、これは、参照により本明細書に組み込まれる)などのアルゴリズムを使用して、標的対象の各々に対する被験対象のサブセットの被験対象の各々に対する複数のポーズを見つける。GOLDは、リガンドドッキングのための遺伝子最適化(Genetic Optimization for Ligand Docking)の略である。GOLDは、被験対象と標的対象との間の遺伝子最適化された水素結合ネットワークを構築する。
いくつかの実施形態では、モデリングは、標的対象および被験対象の分子動力学ランを実行することを含む。分子動力学ランの間、標的対象および被験対象の原子は、固定期間相互作用し、システムの動的進化のビューを与えることが可能になる。標的対象および被験対象の原子の軌道は、相互作用する粒子の系に関するニュートンの運動方程式を数値的に解くことによって判定され、粒子と粒子のポテンシャルエネルギーとの間の力は、原子間ポテンシャルまたは分子力学力場を使用して計算される。Alder and Wainwright,1959,“Studies in Molecular Dynamics.I.General Method,”.J.Chem. Phys.31(2):459、およびBibcode,1959,J.Ch.Ph.31,459A,doi:10.1063/1.1730376を参照されたく、これらの各々は、参照により本明細書に組み込まれる。したがって、このようにして、分子動力学ランは、経時的に標的対象および被験対象の軌道を生成する。この軌道は、標的対象および被験対象の原子の軌道を含む。いくつかの実施形態では、複数の異なるポーズのサブセットが、一定期間にわたってこの軌道のスナップショットを撮ることによって取得される。いくつかの実施形態では、ポーズは、いくつかの異なる軌道のスナップショットから取得され、各軌道は、被験対象と相互作用する標的対象の異なる分子動力学ランを含む。いくつかの実施形態では、分子動力学ランの前に、被験対象は、まず、ドッキング技術を使用して標的対象の活性部位にドッキングされる。
どのようなモデリング方法が使用されるかにかかわらず、任意の所与の被験対象-標的対象ペアに対して達成されるものは、標的対象との被験対象の多様なポーズのセットであり、ポーズのうちの1つ以上は、所与の被験対象/標的対象ペア間の関連する分子間相互作用のうちのいくつかを例証するために自然発生ポーズに十分に近いことが想定される。
いくつかの実施形態では、標的対象の活性部位における被験対象の初期ポーズが、上述の技術のいずれかを使用して生成され、追加のポーズが、3つのX、Y、およびZ平面の任意の組み合わせでの回転、並進、およびミラーリング演算子の何らかの組み合わせの適用を通じて生成される。被験の回転および並進は、(ある範囲内、例えば、起点からプラスまたはマイナス5Åで)ランダムに選択されてもよいし、事前に指定されたある増分(例えば、円周で全5度増分)で均一に生成されてもよい。図4は、標的対象124の活性部位における2つの異なるポーズ(402-1および402-2)における被験対象122のサンプル説明図を提供する。
標的対象および/または被験対象の各々に対するポーズの各々の生成後、いくつかの実施形態では、各ポーズのボクセルマップが作成され、それによって、標的対象に関して所与のそれぞれの標的対象に対する複数のボクセルマップが作成される。いくつかの実施形態では、複数のボクセルマップ中の各それぞれのボクセルマップは、方法であって、(i)複数の異なるポーズ中のそれぞれのポーズにおいて被験対象を、および三次元グリッドベースで標的対象をサンプリングし、それによって、対応する複数の空間充填(三次元)多面体セルを含む対応する三次元均一空間充填ハニカムを形成することと、(ii)対応する複数の三次元セル中の各それぞれの三次元多面体セルについて、それぞれの三次元多面体セルの属性(例えば、化学属性)に基づいて、それぞれのボクセルマップのボクセル(規則的に間隔を置いた多面体セルの個別のセット)を埋めることと、を含む方法によって作成される。したがって、そのような実施形態では、特定の被験対象が標的対象に対して10のポーズを有する場合、10の対応するボクセルマップが作成され、特定の被験対象が標的対象に対して100のポーズを有する場合、100の対応するボクセルマップが作成される、などである。空間充填ハニカムの例としては、平行四辺形セルを有する立方体ハニカム、六角形プリズムセルを有する六角形プリズムハニカム、菱形十二面体セルを有する菱形十二面体、長尺十二面体セルを有する長尺十二面体、および切頂八面体セルを有する切頂八面体が挙げられる。
いくつかの実施形態では、空間充填ハニカムは、立方体セルを有する立方体ハニカムであり、そのようなボクセルの寸法は、それらの分解能を決定する。例えば、1Åの分解能が選択されてもよく、これは、そのような実施形態では、各ボクセルが、1Åの寸法(例えば、それぞれのセルのそれぞれの高さ、幅、および深さにおいて1Å×1Å×1Å)を有する幾何学的データの対応する立方体を表すことを意味する。ただし、いくつかの実施形態では、より細かいグリッド間隔(例えば、0.1Å、またはさらには0.01Å)、またはより粗いグリッド間隔(例えば、4Å)が使用され、この間隔は、入力幾何学的データを網羅するための整数数のボクセルを生じさせる。いくつかの実施形態では、サンプリングは、0.1Å~10Åである分解能で行われる。例示として、40Å入力キューブについて、1Åの解像度であれば、そのような配置は、40*40*40=64,000の入力ボクセルを生じさせるであろう。
いくつかの実施形態では、それぞれの被験対象は、第1の化合物であり、標的対象は、第2の化合物であり、サンプリングすること(i)で生じる原子の特性は、埋めること(ii)によってそれぞれのボクセルマップの単一のボクセルに配され、複数のボクセル中の各ボクセルは、最大1個の原子の特性を表す。いくつかの実施形態では、原子の特性は、原子のタイプの列記からなる。一例として、生物学的データについて、開示されるシステムおよび方法のいくつかの実施形態は、ボクセルマップの所与のボクセルにおけるあらゆる原子の存在を、そのエントリの異なる番号として表すように構成されており、例えば、炭素がボクセルにある場合、炭素の原子番号が6であるため、6の値がそのボクセルに割り当てられる。ただし、そのような符号化の場合、原子番号が近い原子が同様に振る舞うことを含意し得、用途によっては特に有用ではない可能性がある。さらに、元素の振舞いは、グループ(周期表上の列)内でより類似していてもよく、したがって、そのような符号化は、畳み込みニューラルネットワークが復号する追加の作業を提起する。
いくつかの実施形態では、原子の特性は、バイナリカテゴリ変数としてボクセルに符号化される。そのような実施形態では、原子タイプは、「ワンホット」符号化と称されるものにエンコードされる:あらゆる原子タイプが、別個のチャネルを有する。したがって、そのような実施形態では、各ボクセルは、複数のチャネルを有し、少なくとも複数のチャネルのサブセットは、原子タイプを表す。例えば、各ボクセル内の1つのチャネルは炭素を表してもよいのに対して、各ボクセル内の別のチャネルは、酸素を表してもよい。所与のボクセルに対応する三次元グリッド要素に所与の原子タイプが見つかるとき、所与のボクセル内のその原子タイプのチャネルには、「1」などのバイナリカテゴリ変数の第1の値が割り当てられ、所与のボクセルに対応する三次元グリッド要素に原子タイプが見つからないとき、その原子タイプのチャネルには、所与のボクセル内に「0」などのバイナリカテゴリ変数の第2の値が割り当てられる。
100以上の元素があるが、ほとんどが、生物学では遭遇しない。ただし、最も一般的な生物学的元素(例えば、H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)を表すものであっても、ボクセル当たり18個のチャネル、または10,483*18=188,694個の、受容体野への入力を生じさせ得る。したがって、いくつかの実施形態では、複数のボクセルマップ中のボクセルマップにおける各それぞれのボクセルは、複数のチャネルを含み、複数のチャネル中の各チャネルは、それぞれのボクセルに対応する三次元空間充填多面体セルに発生し得る異なる属性を表す。所与のボクセルに対する可能なチャネルの数は、原子の追加の特性(例えば、部分電荷、リガンド対タンパク質標的における存在、電気陰性度、またはSYBYL原子タイプ)が各ボクセルに対して独立したチャネルとして追加的に提示されるそれらの実施形態ではさらに多く、それ以外の同等の原子を区別するためにより多くの入力チャネルを必要とする。
いくつかの実施形態では、各ボクセルは、5つ以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは15個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、20個以上の入力チャネル、25個以上の入力チャネル、30個以上の入力チャネル、50個以上の入力チャネル、または100個以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、以下の表1に見出される記述子から選択される5つ以上の入力チャネルを有する。例えば、いくつかの実施形態では、各ボクセルは、5個以上のチャネルを有し、各チャネルは、バイナリカテゴリ変数として符号化され、ここで、各チャネルは、以下の表1から選択されるSYBYL原子タイプを表す。例えば、いくつかの実施形態では、ボクセルマップの各それぞれのボクセルは、C.3(sp3炭素)原子タイプのチャネルを含み、これは、それぞれのボクセルによって表される所与の被験対象-標的対象複合体の空間におけるグリッドがsp3炭素を包含する場合に、チャネルが第1の値(例えば、「1」)を採用し、そうでない場合に第2の値(例えば、「0」)であることを意味する。
Figure 2022550550000002
Figure 2022550550000003
いくつかの実施形態では、各ボクセルは、上記の表1に見出される記述子から選択される10個以上の入力チャネル、15個以上の入力チャネル、または20個以上の入力チャネルを含む。いくつかの実施形態では、各ボクセルは、ハロゲンに対するチャネルを含む。
いくつかの実施形態では、構造タンパク質-リガンド相互作用フィンガープリント(SPLIF)スコアが、標的対象に対するそれぞれの被験対象の各ポーズに対して生成され、このSPLIFスコアは、標的モデルへの追加の入力として使用されるか、またはボクセルマップに個々に符号化される。SPLIFの説明については、Da and Kireev,2014,J.Chem.Inf.Model.54,pp.2555-2561,“Structural Protein-Ligand Interaction Fingerprints(SPLIF)for Structure-Based Virtual Screening:Method and Benchmark Study”を参照されたく、これは、参照により本明細書に組み込まれる。SPLIFは、被験対象の相互作用断片と標的対象との間に生じ得るすべての可能な相互作用タイプ(例えば、π-π、CH-πなど)を暗黙的に符号化する。最初のステップでは、被験対象-標的対象複合体(ポーズ)が分子間接触について検査される。2つの原子は、それらの間の距離が指定された閾値内(例えば、4.5Å以内)である場合、接触しているとみなされる。そのような各分子間原子対に対して、それぞれの被験原子および標的対象原子は、円形断片、例えば問題の原子およびそれらの連続する近傍を特定の距離まで含む断片、に拡張される。各タイプの円形断片には、識別子が割り当てられる。いくつかの実施形態では、そのような識別子は、それぞれのボクセルの個々のチャネルにコード化される。いくつかの実施形態では、パイプライン・パイロット・ソフトウェアで定義されている、第1の最も近い近傍(ECFP2)までの拡張接続フィンガープリントを使用することができる。Pipeline Pilot,ver8.5,Accelrys Software Inc.,2009を参照されたく、これは、参照により本明細書に組み込まれる。ECFPは、すべての原子/結合タイプに関する情報を保持し、1つのサブ構造(例えば、環状断片)を表すための1つの一意の整数識別子を使用する。SPLIFフィンガープリントは、見つかったすべての円形断片識別子を符号化する。いくつかの実施形態では、SPLIFフィンガープリントは、符号化された個々のボクセルではなく、標的モデルにおける別個の独立した入力として機能する。
いくつかの実施形態では、SPLIFではなく、またはSPLIFに加えて、標的対象に対する所与の被験対象の各ポーズに対して構造相互作用フィンガープリント(SIFt)が計算され、標的モデルへの入力として独立して提供されるか、またはボクセルマップに符号化される。SIFtの計算については、Deng et al.,2003,“Structural Interaction Fingerprint(SIFt):A Novel Method for Analyzing Three-Dimensional Protein-Ligand Binding Interactions,”J.Med.Chem.47(2),pp.337-344を参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、SPLIFおよびSIFTではなく、またはSPLIFおよびSIFTに加えて、原子対ベースの相互作用断片(APIF)は、標的対象に対する所与の被験対象の各ポーズに対して計算され、標的モデルへの入力として独立にして提供されるか、またはボクセルマップに個々に符号化される。APIFの計算については、Perez-Nueno et al.,2009,“APIF:a new interaction fingerprint based on atom pairs and its application to virtual screening,”J.Chem.Inf.Model.49(5),pp.1245-1260を参照されたく、これは、参照により本明細書に組み込まれる。
データ表現は、例えば、分子/タンパク質と関連付けられた様々な構造関係の表式を可能にする方策で、生物学的データとともに符号化されてもよい。幾何学的表現は、様々な実施形態に従って、多様な方法およびトポグラフィで実装されてもよい。幾何学的表現は、データの視覚化および分析に使用される。例えば、実施形態では、幾何学形状は、2D、3Dデカルト/ユークリッド空間、3D非ユークリッド空間、多様体などの様々なトポグラフィ上にレイアウトされたボクセルを使用して表現され得る。例えば、図5は、実施形態による、一連のサブコンテナを含むサンプル三次元グリッド構造500を例示している。各サブコンテナ502は、ボクセルに対応し得る。座標系が、各サブコンテナが識別子を有するように、グリッドに対して定義されてもよい。開示されるシステムおよび方法のいくつかの実施形態では、座標系は、3D空間のデカルト系であるが、システムの他の実施形態では、座標系は、とりわけ、オブラート球面、円筒座標系または球面座標系、極座標系、様々な多様体およびベクトル空間のために設計された他の座標系などの、任意の他のタイプの座標系であり得る。いくつかの実施形態では、ボクセルは、これらのボクセルに関連付けられた特定の値を有してもよく、これは、例えば、とりわけ、ラベルを適用すること、および/またはこれらのボクセルの位置取りを決定することによって表されてもよい。
いくつかの実施形態では、ブロック210は、複数のボクセルマップ中の各ボクセルマップを対応するベクトルに展開し、それによって、複数のベクトルを作成することを含み、複数のベクトル中の各ベクトルは、同じサイズである。いくつかの実施形態では、複数のベクトル中の各それぞれのベクトルは、標的モデルに入力される。いくつかの実施形態では、標的モデルは、(i)複数のベクトルを順次受け取るための入力層、(ii)複数の畳み込み層、および(iii)スコアラを含み、複数の畳み込み層は、初期畳み込み層および最終畳み込み層を含み、複数の畳み込み層中の各層は、異なる重みのセットと関連付けられている。そのような実施形態では、複数のベクトル中のそれぞれのベクトルの入力に応答して、入力層は、第1の複数の値をそれぞれのベクトルの値の第1の関数として初期畳み込み層に供給し、最終畳み込み層以外の各それぞれの畳み込み層は、中間値を、(i)それぞれの畳み込み層と関連付けられた異なる重みのセット、および(ii)それぞれの畳み込み層によって受け取られた入力値のそれぞれの第2の関数として、複数の畳み込み層中の別の畳み込み層に供給し、最終畳み込み層は、最終値を、(i)最終畳み込み層と関連付けられた異なる重みのセット、および(ii)最終畳み込み層によって受け取られた入力値の第3の関数として、スコアラに供給する。このようにして、スコアラから複数のスコアが取得され、複数のスコア中の各スコアは、複数のベクトル中のベクトルの、入力層への入力に対応する。次いで、複数のスコアを使用して、それぞれの被験対象に対する対応する標的結果を提供する。いくつかの実施形態では、標的結果は、複数のスコアの加重平均である。いくつかの実施形態では、標的結果は、複数のスコアの中心傾向の尺度である。中心傾向の尺度の例としては、複数のスコアの算術平均、加重平均、ミッドレンジ、ミッドヒンジ、3点平均、Winsorized平均、中央値、またはモードが挙げられる。
いくつかの実施形態では、スコアラは、複数の全結合層と、複数の全結合層中の全結合層が評価層に供給する評価層と、を含む。いくつかの実施形態では、スコアラは、決定木、多重加法的回帰木、クラスタリングアルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、およびそれらのアンサンブルを含む。いくつかの実施形態では、複数のベクトル中の各ベクトルは、一次元ベクトルである。いくつかの実施形態では、複数の異なるポーズは、2つ以上のポーズ、10以上のポーズ、100以上のポーズ、または1000以上のポーズを含む。いくつかの実施形態では、複数の異なるポーズは、マークアップ・チェーン・モンテ・カルロ・サンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムのうちの1つにおけるドッキングスコアリング関数を使用して取得される。いくつかの実施形態では、複数の異なるポーズは、貪欲アルゴリズムを使用して逐次検索によって取得される。
ブロック212および214。いくつかの実施形態では、標的モデルは、予測モデルよりも高い計算複雑性を有する。そのようないくつかの実施形態では、被験対象データセット内のすべての被験対象に標的モデルを適用することは、計算上禁止されている。この理由で、標的モデルは、典型的には、被験対象データセットにおけるあらゆる被験対象ではなく、被験対象のサブセットに適用される。いくつかの実施形態では、被験対象のサブセット(例えば、ある範囲の構造的または機能的品質を有する被験対象を含む被験対象のサブセット)のある程度の多様性が所望される。いくつかの実施形態では、被験対象のサブセットは、少なくとも1,000個の被験対象、少なくとも5,000個の被験対象、少なくとも10,000個の被験対象、少なくとも25,000個の被験対象、少なくとも50,000個の被験対象、少なくとも75,000個の被験対象、少なくとも100,000個の被験対象、少なくとも250,000個の被験対象、少なくとも500,000個の被験対象、少なくとも750,000個の被験対象、少なくとも100万個の被験対象、少なくとも200万個の被験対象、少なくとも300万個の被験対象、少なくとも400万個の被験対象、少なくとも500万個の被験対象、少なくとも600万個の被験対象、少なくとも700万個の被験対象、少なくとも800万個の被験対象、少なくとも900万個の被験対象、または少なくとも1,000万個の被験対象を含む。
このことを確実にするために、図2Aのブロック212を参照すると、いくつかの実施形態では、被験対象のサブセットは、ランダム化ベースで被験対象データセットから選択される(例えば、被験対象のサブセットは、当技術分野で知られている任意のランダムな方法を使用して被験対象データセットから選択される)。
図2Aのブロック214を参照すると、他の実施形態では、被験対象のサブセットは、被験対象の特徴ベクトルの1つ以上の特徴の評価に基づいて、被験対象のデータセットから選択される。いくつかのそのような実施形態では、特徴の評価は、クラスタリングに基づいて複数の被験対象から被験対象の選択を行うこと(例えば、被験対象の各サブセットを形成するときに複数のクラスタから被験対象を選択すること)を含む。次いで、被験対象のサブセットは、複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて選択される(例えば、異なるタイプの化学化合物を表す被験対象のサブセットを取得するため)。例えば、被験対象データセットの被験対象が、これらの被験対象の特徴ベクトルに基づいて、100個の異なるクラスタにクラスタ化される場合を考える。被験対象のサブセットを選択する1つのアプローチは、被験対象のサブセットを形成するために、異なるクラスタの各々から固定数の被験対象(例えば、10、100、1000など)を選択することである。各クラスタ内では、被験対象の選択を、無作為方式で行うことができる。あるいは、各クラスタ内で、各クラスタの中心に最も近いような被験対象が、そのような被験対象がこれらの被験対象のそれぞれのクラスタの特性を最もよく表すことに基づいて選択される。いくつかの実施形態では、使用されるクラスタリングの形態は、教師なしクラスタリングである。被験対象データセットから複数の被験対象をクラスタリングする利益は、このことが予測モデルのより正確な訓練を提供することである。例えば、被験対象のサブセットの被験対象のすべてまたは大部分が類似の化学化合物である(例えば、同じ化学グループを含む、類似の構造を有するなど)場合、予測モデルがその特定のタイプの化学化合物に偏っているか、またはオーバーフィッティングであるリスクがある。このことは、いくつかの事例では、下流の訓練に悪影響を及ぼす可能性がある(例えば、異なるタイプの化学化合物から被験対象を正確に分析するために予測モデルを効率的に再訓練することが困難である場合がある)。
被験対象の特徴ベクトルがクラスタリングでどのように使用されるかを例示するために、各特徴ベクトル内の共通の10個の特徴(同じ10個の特徴)のセットがクラスタリングに使用される場合を考える。いくつかの実施形態では、被験対象データセットにおける各被験対象は、10個の特徴の各々の値を有することができる。いくつかの実施形態では、被験対象データセットの各被験対象は、特徴のうちのいくつかの測定値を有し、欠損値は、補間技術を使用して満たされるか、または無視される(過小評価される)。いくつかの実施形態では、被験対象データセットの各被験対象は、特徴のうちのいくつかの値を有し、欠損値は、制約を使用して満たされる。被験対象データセットにおける被験対象の特徴ベクトルからの値は、ベクトルを定義する:X、X、X、X、X、X、X、X、X、X10、ここで、Xは、特定の被験対象の特徴ベクトル中のi番目の特徴の値である。被験対象データセットにQ個の被験対象がある場合、10個の特徴の選択は、Q個のベクトルを定義することができる。クラスタリングにおいて、それぞれの特徴ベクトルにわたって類似の測定パターンを呈するような被験対象データセットのメンバーは、一緒にクラスタ化する傾向がある。
使用され得る特定の例示的なクラスタリング技術としては、限定されるものではないが、階層クラスタリング(最近傍アルゴリズム、最遠近傍アルゴリズム、平均連結アルゴリズム、重心アルゴリズム、または二乗和アルゴリズムを使用する凝集クラスタリング)、k平均クラスタリング、ファジィなk平均クラスタリングアルゴリズム、Jarvis-Patrickクラスタリング、密度ベースの空間クラスタリングアルゴリズム、分割クラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、またはそれらのアンサンブルが挙げられる。そのようなクラスタリングは、それぞれの被験対象の特徴ベクトル内の特徴、またはそれらに由来する主成分(または他の形態の削減成分)に関するものであり得る。いくつかの実施形態では、クラスタリングは、被験対象データセットがクラスタ化されたときにどのようなクラスタが形成され得るかの先入観が課されない、教師なしクラスタリングを含む。
データクラスタリングは、効果的となる最適化を必要とする教師なしプロセスであり、例えば、少なすぎるか、または多すぎるクラスタのいずれかを使用してデータセットを記述することは、情報の損失をもたらす可能性がある。例えば、Jain et al.1999“Data Clustering:A review”AMC Computing Surveys 31(3),264-323、およびBerkhin 2002”Survey of clustering datamining techniques”Tech Report,Accrue Software,San Jose,CAを参照されたく、これらは各々、参照により本明細書に組み込まれる。いくつかの実施形態では、クラスタリングプロセスを改善するために、複数の被験対象は、クラスタリングの前に正規化される(例えば、複数の特徴ベクトル中の各特徴ベクトルの1つ以上の次元が正規化される(例えば、複数の特徴ベクトルから判定される対応する次元のそれぞれの平均値に)。
いくつかの実施形態では、重心ベースのクラスタリングアルゴリズムを使用して、複数の被験対象のクラスタリングを実行する。重心ベースのクラスタリングは、データを非階層型クラスタに編成し、対象のすべてを中心ベクトルの観点から表す(ベクトル自体がデータセットの一部ではない可能性がある場合)。次いで、アルゴリズムは、各対象と中心ベクトルとの間の距離測定値を計算し、中心ベクトルのうちの1つへの近接性に基づいて対象をクラスタ化する。いくつかの実施形態では、ユークリッド距離測定値、マンハッタン距離測定値、またはミンコフスキー距離測定値を使用して、各被験対象と中心ベクトルとの間の距離測定値を計算する。いくつかの実施形態では、k平均、k-medoid、CLARA、またはCLARANSクラスタリングアルゴリズムが、複数の被験対象をクラスタ化するために使用される。k平均アルゴリズムの例は、Uppada 2014“Centroid Based Clustering Algorithms - A Clarion Study”Int J Comp Sci and Inform Technol 5(6),7309-7313に記載されており、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、密度ベースのクラスタリングアルゴリズムを使用して、複数の被験対象のクラスタリングを実行する。密度ベースの空間クラスタリングアルゴリズムは、クラスタを、より高い濃度(例えば、被験対象の高密度の領域)のデータセットの領域(例えば、複数の特徴ベクトル)として識別する。いくつかの実施形態では、密度ベースの空間クラスタリングを、Ester et al.1996“A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”KDD’96:Proceedings of the Second International Conference on Knowledge Discovery and Data Mining,226-231に記載されているように実行することができ、これは、参照により本明細書に組み込まれる。そのような実施形態では、アルゴリズムは、任意に成形された分布を可能にし、外れ値(例えば、他の被験対象の濃度の外側の被験対象)をクラスタに割り当てない。
いくつかの実施形態では、階層クラスタリング(例えば、接続性ベースのクラスタリング)アルゴリズムを使用して、複数の被験対象のクラスタリングを実行する。一般に、階層的クラスタリングは、一連のクラスタを構築するために使用され、以下でさらに記載するように、凝集的または分割的であり得る(例えば、階層的クラスタリング方法の凝集的または分割的サブセットがある)。例えば、参照により本明細書に組み込まれるRokach et al.は、凝集クラスタリング方法の様々なバージョンについて記載している(“Clustering Methods”2005 Data Mining and Knowledge Discovery Handbook,321-352)。
いくつかの実施形態では、階層クラスタリングは、分割クラスタリングを含む。分割クラスタリングは、最初に、複数の被験対象を1つのクラスタにグループ化し、その後、特定の閾値(例えば、クラスタの数)に達するまで、複数の被験対象をより多くのクラスタに分割する(例えば、それは、再帰的プロセスである)。分割クラスタリングの異なる方法の例は、例えば、Chavent et al.2007“DIVCLUS-T:a monothetic divisive hierarchical clustering method”Comp Stats Data Anal 52(2),687-701、Sharma et al.2017”Divisive hierarchical maximum likelihood clustering”BMC Bioinform 18(Suppl 16):546、およびXiong et al.2011”DHCC:Divisive hierarchical clustering of categorical data”Data Min Knowl Disc doi 10.1007/s10618-011-0221-2に記載されており、これらは各々参照により本明細書に組み込まれる。
いくつかの実施形態では、階層クラスタリングは、凝集クラスタリングを含む。凝集クラスタリングは、一般に、最初に、複数の被験対象を多数の別個のクラスタに分離すること(例えば、いくつかの場合では、個々の被験対象がクラスタを定義することから開始する)、および連続的に反復してクラスタのペアをマージすることを含む。Wardの方法は、二乗和を使用して各クラスタのメンバー間の分散を低減する凝集クラスタリングの例である(例えば、それは、最小分散凝集クラスタリング技術である)。Murtagh and Legendre 2014“Ward’s Hierarchical Agglomerative Clustering Method”J.Class 31,274-295を参照されたく、これは、参照により本明細書に組み込まれる。多くの凝集クラスタリング法の欠点は、それらの高い計算要件である。いくつかの実施形態では、凝集クラスタリングアルゴリズムを、k平均クラスタリングアルゴリズムと組み合わせることができる。凝集およびk平均クラスタリングの非限定的な例は、Karthikeyan et al.2020“A comparative study of k-means clustering and agglomerative hierarchical clustering”Int J Emer Trends Eng Res 8(5),1600-1604に記載されており、これは、参照により本明細書に組み込まれる。例として、k平均クラスタリングアルゴリズムは、複数の被験対象をデータ空間内のk個のクラスタの個別のセット(例えば、初期のk個のパーティション)に分割する。いくつかの実施形態では、k-平均クラスタリングは、複数の被験対象に反復して適用される(例えば、k-平均クラスタリングは、複数の被験対象に多数回、例えば連続して、適用される)。いくつかの実施形態では、凝集およびk平均クラスタリングの組み合わせの使用は、凝集クラスタリングまたはk平均クラスタリング単独のいずれかよりも計算を要求されない。
ブロック216。ブロック216を参照すると、いくつかの実施形態では、標的モデルは、畳み込みニューラルネットワークである。
いくつかの実施形態では(例えば、少なくとも1つの標的対象が、活性部位を有するポリマーであり、被験対象が、化学組成物である場合)、それぞれの標的対象に対して提示される被験対象の記述は、被験対象の原子表現をポリマーの活性部位の原子表現にドッキングすることによって取得される。そのようなドッキングの非限定的な例は、Liu and Wang,1999,“MCDOCK:A Monte Carlo simulation approach to the molecular docking problem,”Journal of Computer-Aided Molecular Design 13,435-451、Shoichet et al.,1992,“Molecular docking using shape descriptors,”Journal of Computational Chemistry 13(3),380-397、Knegtel et al.,1997“Molecular docking to ensembles of protein structures,”Journal of Molecular Biology 266,424-440、Morris et al.,2009,“AutoDock4 and AutoDockTools4:Automated Docking with Selective Receptor Flexibility,”J Comput Chem 30(16),2785-2791、Sotriffer et al.,2000,“Automated docking of ligands to antibodies:methods and applications,”Methods:A Companion to Methods in Enzymology 20,280-291、Morris et al.,1998,“Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Function,”Journal of Computational Chemistry 19:1639-1662、およびRarey et al.,1996,“A Fast Flexible Docking Method Using an Incremental Construction Algorithm,”Journal of Molecular Biology 261,470-489に開示されており、これらの各々は、参照により本明細書に組み込まれる。次いで、少なくとも1つの標的対象に対するこのそれぞれの被験対象のこのポーズの記述が、標的モデルに適用される。いくつかのそのような実施形態では、被験対象は、化学化合物であり、それぞれの標的対象は、結合ポケットを有するポリマーを含み、それぞれの標的対象に対して被験対象の記述を提示することは、化学化合物のためにモデル化された原子座標を結合ポケットのための原子座標にドッキングすることを含む。
いくつかの実施形態では、各被験対象は、1つ以上の標的対象に対して提示され、かつ米国特許第10,546,237号、同第10,482,355号、同第10,002,312号、および同第9,373,059号に開示された技術のいずれかを使用して標的モデルに提示される化学化合物であり、これらの各々は、参照により本明細書に組み込まれる。
いくつかの実施形態では、畳み込みニューラルネットワークは、2018年6月19日に発行された「Systems and Methods for Applying a Convolutional Network to Spatial Data」と題された米国特許第10,002,312号に記載されているように、入力層、複数の個々に重み付けされた畳み込み層、および出力スコアラを含み、これは、その全体が本明細書に組み込まれる。例えば、いくつかのそのような実施形態では、標的モデルの畳み込み層は、初期層および最終層を含む。いくつかの実施形態では、最終層は、線形関数または非線形関数であり得る閾値関数または活性化関数fを使用するゲーティングを含み得る。活性化関数は、例えば、整流化線形ユニット(ReLU)活性化関数、漏れありReLu活性化関数、または飽和双曲線正接、恒等、バイナリステップ、ロジスティック、逆正接、ソフトサイン、パラメトリック整流化線形ユニット、指数線形ユニット、ソフトプラス、ベント恒等(bent identity)、softExponential、シヌソイド、正弦、ガウス、もしくはシグモイド関数、またはそれらの任意の組み合わせなどの他の関数であり得る。
入力に応答して、いくつかの実施形態では、入力層は、初期畳み込み層に値を供給する。最終畳み込み層以外の各それぞれの畳み込み層は、いくつかの実施形態では、それぞれの畳み込み層の重みの関数としての中間値と、それぞれの畳み込み層の入力値と、を畳み込み層のうちの別のものに供給する。最終畳み込み層は、いくつかの実施形態では、最終層重みおよび入力値の関数としてスコアラに値を供給する。このようにして、スコアラは、それぞれの被験対象を記述する特徴ベクトル(例えば、米国特許第10,002,312号に記載されている入力ベクトル)の各々をスコア化してもよく、これらのスコアをまとめて使用して、各それぞれの被験対象の対応する標的結果(例えば、米国特許第10,002,312号に記載されている分類)を提供する。いくつかの実施形態では、スコアラは、特徴ベクトルの各々に対してそれぞれの単一のスコアを提供し、これらのスコアの加重平均を使用して、各それぞれの被験対象の対応する標的結果を提供する。
いくつかの実施形態では、畳み込みニューラルネットワークで使用される層(入力層および出力層を含む)の総数は、約3~約200の範囲である。いくつかの実施形態では、層の総数は、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも15、または少なくとも20である。いくつかの実施形態では、層の総数は、最大で20、最大で15、最大で10、最大で5、最大で4、または最大で3である。当業者は、畳み込みニューラルネットワークで使用される層の総数が、この範囲内の任意の値、例えば8層、を有し得ることを認識するであろう。
いくつかの実施形態では、畳み込みニューラルネットワークで使用される学習可能なまたは訓練可能なパラメータ、例えば重み付け係数、バイアス、または閾値、の総数は、約1~約10,000の範囲である。いくつかの実施形態では、学習可能なパラメータの総数は、少なくとも1、少なくとも10、少なくとも100、少なくとも500、少なくとも1,000、少なくとも2,000、少なくとも3,000、少なくとも4,000、少なくとも5,000、少なくとも6,000、少なくとも7,000、少なくとも8,000、少なくとも9,000、または少なくとも10,000である。あるいは、学習可能なパラメータの総数は、100未満の任意の数、100~10,000の任意の数、または10,000よりも大きい数である。いくつかの実施形態では、学習可能なパラメータの総数は、最大10,000、最大9,000、最大8,000、最大7,000、最大6,000、最大5,000、最大4,000、最大3,000、最大2,000、最大1,000、最大500、最大100、最大10、または最大1である。当業者は、使用される学習可能パラメータの総数がこの範囲内の任意の値を有し得ることを認識するであろう。
畳み込みニューラルネットワークは、固定入力サイズを必要とするため、標的モデルのための畳み込みニューラルネットワークを利用する開示されるシステムおよび方法のいくつかの実施形態は、幾何学的データ(標的対象-被験対象複合体)を、適切な境界ボックス内に適合するようにクロップする。例えば、側面に対して25~40Åの立方体を使用してもよい。標的対象および/または被験対象が標的対象の活性部位にドッキングされたいくつかの実施形態では、活性部位の中心は、キューブの中心として機能する。
いくつかの実施形態では、標的対象の活性部位を中心とする固定寸法の正方形の立方体を使用して、空間をボクセルグリッドに分割するが、開示されるシステムは、そのようには限定されない。いくつかの実施形態では、多様な形状のいずれかを使用して、空間をボクセルグリッドに分割する。いくつかの実施形態では、矩形プリズム、多面体形状などの多面体を使用して、空間を分割する。
実施形態では、グリッド構造は、ボクセルの配置に類似するように構成されてもよい。例えば、各サブ構造は、分析される各原子のチャネルと関連付けられ得る。また、各原子を数値的に表すための符号化方法が提供されてもよい。
いくつかの実施形態では、被験対象と標的対象との間のインターフェースを記述するボクセルマップは、時間の要因を考慮し、したがって、四次元(X、Y、Z、および時間)であってもよい。
いくつかの実施形態では、ボクセルの代わりに、画素、点、多角形形状、多面体、または多次元の任意の他のタイプの形状(例えば、3D、4Dなどの形状)などの他の実装態様を使用してもよい。
いくつかの実施形態では、幾何学データは、空洞浸水アルゴリズムによって決定されるように、標的対象の結合部位の質量の中心となるようにX、YおよびZ座標の原点を選択することによって正規化される。そのようなアルゴリズムの代表的な詳細については、Ho and Marshall,1990,“Cavity search:An algorithm for the isolation and display of cavity-like binding regions,”Journal of Computer-Aided Molecular Design 4,pp.337-354、およびHendlich et al.,1997,“Ligsite:automatic and efficient detection of potential small molecule-binding sites in proteins,”J.Mol.Graph.Model 15,no.6を参照されたく、これは、参照により本明細書に組み込まれる。あるいは、いくつかの実施形態では、ボクセルマップの原点は、(標的対象に結合された被験対象の、標的対象のみの、または被験対象のみの)共複合体全体の質量中心を中心とする。基底ベクトルは、任意選択で、共複合体全体の、標的対象のみの、または被験対象のみの主モーメントとなるように選定されてもよい。いくつかの実施形態では、標的対象は、活性部位を有するポリマーであり、サンプリングは、活性部位の質量中心を原点とする三次元グリッド式で、被験対象および活性部位のための上述の複数の異なるポーズ中のそれぞれのポーズの各々において被験対象をサンプリングし、サンプリングのための対応する三次元均一ハニカムは、ポリマーの一部分および質量中心を中心とする被験対象を表す。いくつかの実施形態では、均一なハニカムは、規則的な立方体のハニカムであり、ポリマーおよび被験対象の部分は、所定の固定寸法の立方体である。所定の固定寸法のキューブの使用は、そのような実施形態では、幾何学データの関連する部分が使用され、各ボクセルマップが同じサイズであることを保証する。いくつかの実施形態では、立方体の所定の固定寸法は、NÅ×NÅ×NÅであり、Nは、5~100の整数または実数値、8~50の整数、または15~40の整数である。いくつかの実施形態では、均一なハニカムは、矩形プリズムハニカムであり、ポリマーの一部分であり、被験対象は、矩形プリズムの所定の固定寸法QÅxRÅxSÅであり、式中、Qは、5~100の第1の整数であり、Rは、5~100の第2の整数であり、Sは、5~100の第3の整数または実数値であり、セット{Q,R,S}の少なくとも1つの数字は、セット{Q,R,S}の別の値に等しくない。
いくつかの実施形態では、あらゆるボクセルが、1つ以上の入力チャネルを有し、1つ以上の入力チャネルは、それらと関連付けられた様々な値を有し得、この値は、一実装態様では、オン/オフであり得、原子のタイプを符号化するように構成され得る。原子タイプは、原子の元素を表してもよいし、原子タイプは、他の原子特徴を区別するためにさらに精緻化されてもよい。次いで、存在する原子は、各ボクセルに符号化されてもよい。様々なタイプの符号化が、様々な技術および/もしくは方法論を使用して利用されてもよい。例示的な符号化方法として、原子の原子番号が利用されてもよく、水素の1からウンウンオクチウム(または任意の他の元素)の118までの範囲をとる、ボクセル当たり1つの値が得られる。
ただし、上で考察されたように、「ワンホットエンコーディング」などの他の符号化方法が利用されてもよく、この場合に、あらゆるボクセルが、多くの並列入力チャネルを有し、それらの各々は、あるタイプの原子について、オンまたはオフのいずれかであり、符号化する。原子タイプは、原子の元素を表してもよく、原子タイプは、他の原子特徴を区別するためにさらに精緻化されてもよい。例えば、SYBYL原子タイプは、単結合炭素を二重結合炭素、三重結合炭素、または芳香族炭素と区別する。SYBYL原子タイプについては、Clark et al.,1989,“Validation of the General Purpose Tripos Force Field,1989,J.Comput.Chem.10,pp.982-1012を参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、各ボクセルは、標的対象の一部である原子または被験対象の一部に対する補因子を区別するための1つ以上のチャネルをさらに含む。例えば、一実施形態では、各ボクセルは、標的対象のための第1のチャネル、および被験対象のための第2のチャネルをさらに含む。ボクセルによって表される空間の一部分の原子が標的対象からのものである場合、第1のチャネルは、「1」などの値に設定され、それ以外の場合はゼロである(例えば、ボクセルによって表される空間のこの部分は、被験対象からの原子を含まないか、または1つ以上の原子を含むため)。さらに、ボクセルによって表される空間の一部分の原子が被験対象からのものである場合、第2のチャネルは、「1」などの値に設定され、それ以外の場合はゼロである(例えば、ボクセルによって表される空間のこの部分は、標的対象からの原子を含まないか、または1つ以上の原子を含むため)。同様に、他のチャネルは、加えて(またはあるいは)、部分電荷、分極性、電気陰性度、溶媒アクセス可能空間、および電子密度などのさらなる情報を指定し得る。例えば、いくつかの実施形態では、標的対象の電子密度マップは、三次元座標のセットを重ね合わせ、ボクセルマップの作成は、電子密度マップをさらにサンプリングする。好適な電子密度マップの例としては、限定されるものではないが、複数の同形置換マップ、異常信号マップとの単一同形置換、単一波長異常分散マップ、多波長異常分散マップ、および2Fobservable-Fcalculatedマップが挙げられる。McRee,1993,Practical Protein Crystallography,Academic Pressを参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、開示されるシステムおよび方法に従うボクセル符号化は、追加の任意選択の符号化精緻化を含み得る。以下の2つが、例として提供される。
第1の符号化精緻化では、必要とされるメモリは、ほとんどの元素が生物学的システムではまれにしか発生しないことに基づいて、ボクセルによって表される原子のセットを削減することによって(例えば、ボクセルによって表されるチャネルの数を削減することによって)削減され得る。原子は、希少な原子を組み合わせること(したがって、システムの性能にまれにしか影響を与えない可能性がある)、または類似の特性を有する原子を組み合わせること(したがって、組み合わせからの不正確さを最小限に抑え得る)のいずれかによって、ボクセル中で同じチャネルを共有するようにマッピングされ得る。
別の符号化精緻化は、ボクセルが、隣接するボクセルを部分的に活性化することによって原子位置を表すようにすることである。このことは、後続のニューラルネットワークにおける隣接ニューロンの部分的な活性化をもたらし、ワンホットエンコーディングから「いくつかの暖かい」符号化に移行する。例えば、このことは、ファンデルワールス径が3.5Åであり、したがって、1Åグリッドが配置されたときの体積が22.4Åである塩素原子を考慮すると、塩素原子内部のボクセルは完全に満たされ、原子の端のボクセルは部分的に満たされることとなるだけであることを例示し得る。したがって、部分的に充填されたボクセル中の塩素を表すチャネルは、そのようなボクセルが塩素原子内部に入る量に比例してオンになることとなる。例えば、ボクセル体積の50%が塩素原子内にある場合、塩素を表すボクセル中のチャネルが50%活性化されることとなる。このことは、個別のワンホットエンコーディングと比較して、「平滑化された」より正確な表現をもたらし得る。したがって、いくつかの実施形態では、被験対象は、第1の化合物であり、標的対象は、第2の化合物であり、サンプリングで生じる原子の特徴は、それぞれのボクセルマップのボクセルのサブセットにわたって広がっており、このボクセルのサブセットは、2以上のボクセル、3以上のボクセル、5以上のボクセル、10以上のボクセル、または25以上のボクセルを含む。いくつかの実施形態では、原子の特性は、原子タイプ(例えば、SYBYL原子タイプのうちの1つ)の列記からなる。
したがって、符号化された幾何学データのボクセル化(ラスタ化)(被験対象上への標的対象のドッキング)は、入力データに適用される様々なルールに基づいている。
図6および7は、いくつかの実施形態による、ボクセルの二次元グリッド600上に符号化された2つの被験対象602の図を提供する。図6は、二次元グリッド上に重畳された2つの被験対象を提供する。図7は、異なるシェーディングパターンを使用して酸素、窒素、炭素、および空き空間の存在をそれぞれ符号化するワンホット符号化を提供する。上記に書き留めたように、そのような符号化は、「ワンホット」符号化と呼ばれ得る。図7は、被験対象502を省略した図6のグリッド500を示す。図8は、ボクセルが番号付けされた、図7のボクセルの二次元グリッドの図を示す。
いくつかの実施形態では、特徴幾何学形状は、ボクセル以外の形態で表される。図9は、特徴(例えば、原子中心)が0-D点(表現902)、1-D点(表現904)、2-D点(表現906)、または3-D点(表現908)として表現される様々な表現の図を提供する。最初に、点間の間隔は、ランダムに選定され得る。ただし、標的モデルを訓練すると、ポイントは、ともに近づくか、または遠ざかり得る。図10は、各点の可能な位置の範囲を例示している。
被験対象と標的対象との間の相互作用がボクセルマップとして符号化される実施形態では、各ボクセルマップは、任意選択で、対応するベクトルに展開され、それによって複数のベクトルを作成し、複数のベクトル中の各ベクトルは、同じサイズである。いくつかの実施形態では、複数のベクトル中の各ベクトルは、一次元ベクトルである。例えば、いくつかの実施形態では、各側面上の20Åの立方体は、標的対象の活性部位を中心とし、1Åの三次元固定グリッド間隔でサンプリングされて、上で考察されたように、原子タイプなどのボクセル構造特徴の基礎をそれぞれのチャネルに保持するボクセルマップの対応するボクセル、ならびに任意選択で、より複雑な被験対象-標的対象記述子を形成する。いくつかの実施形態では、この三次元ボクセルマップのボクセルは、一次元浮動小数点ベクトルに展開される。標的モデルが畳み込みニューラルネットワークであるいくつかの実施形態では、ボクセルマップのベクトル化された表現は、畳み込みネットワークに供される。
いくつかの実施形態では、複数の畳み込み層中の畳み込み層は、フィルタのセット(カーネルとも称される)を含む。各フィルタは、畳み込み層の入力ボリュームの深さ、高さ、および幅にわたって畳み込まれる(所定のステップレートでステップする)固定された三次元サイズを有し、フィルタおよび入力のエントリ(重み)の間のドット積(または他の関数)を計算し、それによってそのフィルタの多次元活性化マップを作成する。いくつかの実施形態では、フィルタ・ステップ・レートは、入力空間の1つの要素、2つの要素、3つの要素、4つの要素、5つの要素、6つの要素、7つの要素、8つの要素、9つの要素、10個の要素、または10個よりも多い要素である。したがって、フィルタがサイズ5の場合を考える。いくつかの実施形態では、このフィルタは、ボクセルチャネル当たり125の入力空間の値の総計数に対して、5つの要素の深さ、5つの要素の幅、および5つの要素の高さを有する入力空間の連接立方体間のドット積(または他の数学的関数)を計算する。
初期畳み込み層への入力空間(例えば、入力層からの出力)は、ボクセルマップまたはボクセルマップのベクトル化された表現のいずれかから形成される。いくつかの実施形態では、ボクセルマップのベクトル化された表現は、初期畳み込み層への入力空間として機能するボクセルマップの一次元ベクトル化表現である。それにもかかわらず、フィルタがその入力空間を畳み込み、入力空間がボクセルマップの一次元ベクトル化表現である場合、フィルタは依然として、標的対象-被験対象複合体内の固定空間の対応する連接立方体を表すそれらの要素を一次元ベクトル化表現から取得する。いくつかの実施形態では、フィルタは、標準的なブックキーピング技術を使用して、標的対象-被験対象複合体の固定空間の対応する連接立方体を形成する一次元ベクトル化表現内からそれらの要素を選択する。したがって、いくつかの事例では、このことは、標的対象-被験対象複合体の固定空間の対応する連接立方体の要素値を取得するために、一次元ベクトル化表現の要素の非連接サブセットを取ることを必然的に含む。
いくつかの実施形態では、フィルタは、(例えば、ガウスノイズに)初期化されるか、または(入力チャネルごとに)125の対応する重みを有するように訓練され、ドット積(または、フィルタに対応する活性化層の第1の単一の値(または値のセット)を計算するために、125の入力空間値の関数などのいくつかの他の形式の数学的演算)を行う。いくつかの実施形態では、フィルタによって計算される値は、合計され、重み付けされ、かつ/またはバイアスされる。フィルタに対応する活性化層の追加の値を計算するために、次いで、フィルタは、フィルタに関連付けられたステップレート(ストライド)によって入力ボリュームの3つの次元のうちの1つにステップされ(畳み込まれ)、その時点で、フィルタ重みと(チャネル当たりの)125の入力空間値との間のドット積または何らかの他の形態の数学的演算が入力ボリュームの新しい位置で行われる。このステッピング(畳み込み)は、フィルタがステップレートに従って入力空間全体をサンプリングするまで繰り返される。いくつかの実施形態では、入力空間の境界は、畳み込み層によって生成される出力空間の空間体積を制御するためにゼロパディングされる。典型的な実施形態では、畳み込み層のフィルタの各々は、このようにして三次元入力ボリューム全体をキャンバス化し、それによって、対応する活性化マップを形成する。畳み込み層のフィルタからの活性化マップのコレクションは、1つの畳み込み層の三次元出力ボリュームをまとめて形成し、それによって、後続の畳み込み層の三次元(3つの空間次元)入力として機能する。したがって、出力ボリュームのあらゆるエントリを、畳み込み層への入力空間の小さな領域を見て、同じ活性化マップのニューロンとパラメータを共有する単一のニューロン(またはニューロンのセット)の出力と解釈することもできる。よって、いくつかの実施形態では、複数の畳み込み層中の畳み込み層は、複数のフィルタを有し、複数のフィルタ中の各フィルタは、(3つの空間次元で)ストライドYでNの立方体入力空間を畳み込み、式中、Nは、2以上(例えば、2、3、4、5、6、7、8、9、10、または10よりも大きい)の整数であり、Yは、正の整数(例えば、1、2、3、4、5、6、7、8、9、10、または10よりも大きい)である。
複数の畳み込み層中の各層は、重みの異なるセットと関連付けられている。より具体的には、複数の畳み込み層中の各層は、複数のフィルタを含み、各フィルタは、独立した複数の重みを含む。いくつかの実施形態では、畳み込み層は、寸法5の128個のフィルタを有し、したがって、畳み込み層は、ボクセルマップのチャネルごとに128×5×5または16,000の重みを有する。したがって、ボクセルマップに5つのチャネルがある場合、畳み込み層は、16,000×5の重み、または80,000の重みを有することとなる。いくつかの実施形態では、所与の畳み込み層のあらゆるフィルタのいくつかまたはすべてのそのような重み(および任意選択で、バイアス)は、一緒に結び付けられ得、例えば、同一であるように拘束され得る。
複数のベクトル中のそれぞれのベクトルの入力に応答して、入力層は、それぞれのベクトルの値の第1の関数として、第1の複数の値を初期畳み込み層に供給する。
最終畳み込み層以外の各それぞれの畳み込み層は、中間値を、(i)それぞれの畳み込み層と関連付けられた重みの異なるセットと、(ii)それぞれの畳み込み層によって受け取られた入力値と、のそれぞれの第2の関数として、複数の畳み込み層中の別の畳み込み層に供給する。例えば、それぞれの畳み込み層の各それぞれのフィルタは、畳み込み層の特徴的な三次元ストライドに従って、各それぞれのフィルタ位置で、(3つの空間次元で)畳み込み層への入力ボリュームをキャンバスし、それぞれのフィルタのフィルタ重みのドット積(またはいくつかの他の数学的関数)と、それぞれのフィルタ位置での入力ボリューム(総入力空間のサブセットである連接立方体)の値とを取り、それによって、それぞれのフィルタ位置に対応する活性化層上の計算された点(または点のセット)を生成する。それぞれの畳み込み層のフィルタの活性化層は、それぞれの畳み込み層の中間値を集合的に表す。
最終畳み込み層は、最終値を、(i)最終畳み込み層と関連付けられた重みの異なるセットと、(ii)最終畳み込み層によって受け取られた入力値と、の第3の関数として、スコアラに供給する。例えば、最終畳み込み層の各それぞれのフィルタは、畳み込み層の特徴的な三次元ストライドに従って、各それぞれのフィルタ位置で、入力ボリューム(3つの空間次元で)を最終畳み込み層までキャンバスし、フィルタのフィルタ重みのドット積(またはいくつかの他の数学的関数)と、それぞれ位置での入力ボリュームの値とを取り、それによって、それぞれのフィルタ位置に対応するアクティブ化層上の点(または点のセット)を計算する。最終畳み込み層のフィルタの活性化層は、スコアラに供給される最終値を集合的に表す。
いくつかの実施形態では、畳み込みニューラルネットワークは、1つ以上の活性化層を有する。いくつかの実施形態では、活性化層は、非飽和活性化関数f(x)=max(0,x)を適用するニューロンの層である。これは、畳み込み層の受容野に影響を与えることなく、決定関数およびネットワーク全体の非線形特性を増加させる。他の実施形態では、活性化層は、非線形性を増加させるための他の関数、例えば、飽和双曲線正接関数f(x)=tanh、f(x)=│tanh(x)│、およびシグモイド関数f(x)=(1+e-x-1を有する。ニューラルネットワークのいくつかの実施形態では、他の活性化層に見出される他の活性化関数の非限定的な例としては、限定されるものではないが、ロジスティック(またはシグモイド)、ソフトマックス、ガウス、ボルツマン加重平均化、絶対値、線形、整流化線形、有界整流化線形、ソフト整流化線形、パラメータ化整流化線形、平均、最大、最小、いくつかのベクトルノルムLP(p=1、2、3、...、∞について)、二乗、平方根、多項式、逆二次曲線、逆多項式、多調和スプライン、薄板スプラインが挙げられ得る。
いくつかの実施形態では、標的モデルの層のうちのゼロ個以上(標的モデルが畳み込みニューラルネットワークである実施形態では)は、プーリング層から構成されてもよい。畳み込み層でのように、プーリング層は、入力の異なる空間的に局所的なパッチに同じ関数を適用する関数計算のセットである。プーリング層について、出力は、いくつかのボクセルにわたって、プーリング演算子、例えばp=1、2、3、...、∞についてのいくつかのベクトルノルムLP、によって与えられる。プーリングは、通常、チャネル間ではなくチャネルごとに行われる。プーリングは、入力空間を三次元ボックスのセットに分割し、そのような各サブ領域に対して、最大値を出力する。プーリング演算は、並進不変性の一形態を提供する。プーリング層の機能は、表現の空間サイズを徐々に縮小して、ネットワーク内のパラメータおよび計算の量を削減し、したがって、オーバーフィッティングも制御することである。いくつかの実施形態では、プーリング層は、畳み込みニューラルネットワークの形態である標的モデル内の連続畳み込み層の間に挿入される。そのようなプーリング層は、入力のあらゆる深さスライス上で独立して動作し、空間的にそのサイズを変更する。プーリングユニットは、最大プーリングに加えて、平均プーリングまたはさらにはL2ノルムプーリングなどの他の機能も実行することができる。
いくつかの実施形態では、標的モデルの層のうちのゼロ個以上(標的モデルが畳み込みニューラルネットワークである実施形態では)は、同じ位置のチャネルにわたって、またはいくつかの位置にわたる特定のチャネルに適用され得る、局所応答正規化または局所コントラスト正規化などの正規化層からなり得る。これらの正規化層は、同じ入力に対するいくつかの関数計算の応答における多様性を促進し得る。
いくつかの実施形態では、スコアラ(標的モデルが畳み込みニューラルネットワークである実施形態では)は、複数の全結合層および複数の全結合層中の全結合層が評価層に供給する評価層を含む。全結合層のニューロンは、通常のニューラルネットワークに見られるように、前の層のすべての活性化に対する全結合を有する。したがって、それらの活性化を、行列の乗算と続くバイアスオフセットとで計算することができる。いくつかの実施形態では、各全結合層は、512個の隠れたユニット、1024個の隠れたユニット、または2048個の隠れたユニットを有する。いくつかの実施形態では、スコアラには、全結合層がない、1つの全結合層、2つの全結合層、3つの全結合層、4つの全結合層、5つの全結合層、6つ以上の全結合層、または10個以上の全結合層がある。
いくつかの実施形態では、評価層は、複数の活性クラスを判別する。いくつかの実施形態では、評価層は、2つの活性クラス、3つの活性クラス、4つの活性クラス、5つの活性クラス、または6つ以上の活性クラスにわたるロジスティック回帰コスト層を含む。
いくつかの実施形態では、評価層は、複数の活性クラスにわたるロジスティック回帰コスト層を含む。いくつかの実施形態では、評価層は、2つの活性クラス、3つの活性クラス、4つの活性クラス、5つの活性クラス、または6つ以上の活性クラスにわたるロジスティック回帰コスト層を含む。
いくつかの実施形態では、評価層は、2つの活性クラスを判別し、第1の活性クラス(第1の分類)は、第1の結合値を上回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIを表し、第2の活性クラス(第2の分類)は、第1の結合値を下回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIである。そのようないくつかの実施形態では、標的結果は、被験対象が第1の活性または第2の活性を有することの表示である。いくつかの実施形態では、第1の結合値は、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモルである。
いくつかの実施形態では、評価層は、2つの活性クラスにわたるロジスティック回帰コスト層を含み、第1の活性クラス(第1の分類)は、第1の結合値を上回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIを表し、第2の活性クラス(第2の分類)は、第1の結合値を下回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIである。そのようないくつかの実施形態では、標的結果は、被験対象が第1の活性または第2の活性を有することの表示である。いくつかの実施形態では、第1の結合値は、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、またはミリモルである。
いくつかの実施形態では、評価層は、3つの活性クラスを判別し、第1の活性クラス(第1の分類)は、第1の結合値を上回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIを表し、第2の活性クラス(第2の分類)は、第1の結合値と第2の結合値との間の標的対象に対する被験対象のIC50、EC50、Kd、またはKIであり、第3の活性クラス(第3の分類)は、第2の結合値を下回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIであり、第1の結合値は、第2の結合値以外である。そのようないくつかの実施形態では、標的結果は、被験対象が第1の活性、第2の活性、または第3の活性を有することの表示である。
いくつかの実施形態では、評価層は、3つの活性クラスにわたるロジスティック回帰コスト層を含み、第1の活性クラス(第1の分類)は、第1の結合値を上回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIを表し、第2の活性クラス(第2の分類)は、第1の結合値と第2の結合値との間の標的対象に対する被験対象のIC50、EC50、Kd、またはKIであり、第3の活性クラス(第3の分類)は、第2の結合値を下回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIであり、第1の結合値は、第2の結合値以外である。そのようないくつかの実施形態では、標的結果は、被験対象が第1の活性、第2の活性、または第3の活性を有することの表示である。
いくつかの実施形態では、スコアラ(標的モデルが畳み込みニューラルネットワークである実施形態では)は、全結合単層または多層パーセプトロンを含む。いくつかの実施形態では、スコアラは、サポート・ベクタ・マシン、ランダムフォレスト、最近傍を含む。いくつかの実施形態では、スコアラは、入力を様々な出力カテゴリに分類する強度(または確信度または確率)を示す数値スコアを割り当てる。いくつかの場合では、カテゴリは、結合剤および非結合剤、または代替的に、効力レベル(例えば、<1モル、<1ミリモル、<100マイクロモル、<10マイクロモル、<1マイクロモル、<100ナノモル、<10ナノモル、<1ナノモルのIC50、EC50またはKI効力)である。いくつかのそのような実施形態では、標的結果は、表示が被験対象のこれらのカテゴリのうちの1つの識別であるということである。
被検対象と標的対象との複合体の標的モデルの標的結果を取得するための詳細について上述してきた。上で考察されたように、いくつかの実施形態では、各被験対象は、標的対象に対して複数のポーズにドッキングされる。すべてのそのようなポーズを標的モデルに一度に提示するには、極めて大きな入力野(例えば、標的モデルが畳み込みニューラルネットワークである場合のボクセル数*チャネル数*ポーズ数に等しいサイズの入力野)が必要であり得る。いくつかの実施形態では、すべてのポーズが標的モデルに同時に提示されるが、他の実施形態では、各そのようなポーズは、ボクセルマップに処理され、ベクトル化され、標的モデルへの逐次入力として機能する(例えば、標的モデルが畳み込みニューラルネットワークである場合)。このようにして、複数のスコアが標的モデルから取得され、複数のスコア中の各スコアは、標的モデルのスコアラの入力層への複数のベクトル中のベクトルの入力に対応する。いくつかの実施形態では、所与の標的対象を有する所与の被験対象のポーズの各々についてのスコアを(例えば、スコアの加重平均として、スコアの中心傾向の尺度としてなど)一緒に組み合わせて、それぞれの被験対象についての最終的な標的結果を生成する。
標的モデルのスコアラ出力が数値であるいくつかの実施形態では、出力は、本明細書に記載される活性化関数のいずれかを使用して、または知られているか、もしくは開発される活性化関数のいずれかを使用して組み合わされてもよい。例としては、限定されるものではないが、非飽和活性化関数f(x)=max(0,x)、飽和双曲線正接関数f(x)=tanh、f(x)=|tanh(x)|、シグモイド関数f(x)=(1+e-x-1、ロジスティック(またはシグモイド)、ソフトマックス、ガウス、ボルツマン加重平均化、絶対値、線形、整流化線形、有界整流化線形、ソフト整流化線形、パラメータ化整流化線形、平均、最大、最小、いくつかのベクトルノルムLP(p=1、2、3、...、∞について)、二乗、平方根、多項式、逆二次曲線、逆多項式、多調和スプライン、薄板スプラインが挙げられ得る。
本開示のいくつかの実施形態では、標的モデルは、出力が結合エネルギーを示すと解釈される場合、これがポーズの物理的確率と一致するため、出力を組み合わせるためにボルツマン分布を利用するように構成されてもよい。本開示の他の実施形態では、max()関数はまた、ボルツマンに合理的な近似を提供し得、計算効率がよい。
標的モデルのスコアラ出力が数値でないいくつかの実施形態では、スコアラは、様々なアンサンブル投票スキームを使用して出力を組み合わせるように構成されてもよく、これは、例示的な非限定的な例としては、対応する標的結果を形成するために、とりわけ、多数決、加重平均、コンドルセット法、ボルダ計数を含んでもよい。
いくつかの実施形態では、システムは、例えば、結合親和性の指標を生成するために、スコアラのアンサンブルを適用するように構成され得る。
いくつかの実施形態では、被験対象は、化学化合物であり、複数のスコア(被験対象の複数のポーズから)を使用して被験対象を特徴付ける(例えば、分類を判定する)ことは、複数のスコアの中心傾向の尺度を取ることを含む。中心傾向の尺度が所定の閾値または所定の閾値範囲を満たすとき、被験対象は、第1の分類を有するとみなされる。集中傾向の尺度が所定の閾値または所定の閾値範囲を満たすに至らない場合、被験対象は、第2の分類を有するとみなされる。いくつかのそのような実施形態では、それぞれの被験対象の標的モデルによって出力される標的結果は、これらの分類のうちの1つの表示である。
いくつかの実施形態では、被験対象を特徴付けるために複数のスコアを使用することは、(被験対象の複数のポーズから)複数のスコアの加重平均を取ることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、被験対象は、第1の分類を有するとみなされる。加重平均が所定の閾値または所定の閾値範囲を満たすに至らない場合、被験対象は、第2の分類を有するとみなされる。いくつかの実施形態では、加重平均は、複数のスコアのボルツマン平均である。いくつかの実施形態では、第1の分類は、第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモル)を上回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIであり、第2の分類は、第1の結合値を下回る標的対象に対する被験対象のIC50、EC50、Kd、またはKIである。いくつかのそのような実施形態では、それぞれの被験対象の標的モデルによって出力される標的結果は、これらの分類のうちの1つの表示である。
いくつかの実施形態では、複数のスコアを使用して被験対象の標的結果を提供することは、(被験対象の複数のポーズから)複数のスコアの加重平均を取ることを含む。加重平均が複数の閾値範囲中のそれぞれの閾値範囲を満たすとき、被験対象は、それぞれの閾値範囲に一意に対応する複数のそれぞれの分類中のそれぞれの分類を有するとみなされる。いくつかの実施形態では、複数の分類中の各それぞれの分類は、標的対象に対する被験対象のIC50、EC50、Kd、またはKI範囲(例えば、1マイクロモル~10マイクロモル、1ナノモル~100ナノモル)である。
いくつかの実施形態では、所与の標的対象に対する各それぞれの被験対象の単一のポーズは、標的モデルを通して実行され、これに基づくそれぞれの被験対象の各々の標的モデルによって割り当てられたそれぞれのスコアを使用して、被験対象を分類する。
いくつかの実施形態では、本明細書に開示される技術を使用して標的モデルによって評価された複数の標的対象の各々に対する被験対象の1つ以上のポーズの標的モデルスコアの加重平均を使用して、被験対象に対する標的結果を提供する。例えば、いくつかの実施形態では、複数の標的対象は、分子動力学ランに由来し、複数の標的対象中の各標的対象は、分子動力学ラン中の異なる時間ステップで同じポリマーを表す。これらの標的対象の各々に対する被験対象の1つ以上のポーズの各々のボクセルマップが、標的モデルによって評価されて、各独立したポーズ-標的対象ペアのスコア、およびこれらのスコアの加重平均を取得するか、またはこれらのスコアの中心傾向のいくつかの他の尺度を使用して、標的対象に対する標的結果を提供する。
ブロック218。図2Aのブロック218を参照すると、いくつかの実施形態では、少なくとも1つの標的対象は、単一の対象である(例えば、各標的対象は、それぞれの単一の対象である)。いくつかの実施形態では、単一の対象は、ポリマーである。いくつかの実施形態では、ポリマーは、活性部位を含む(例えば、ポリマーは、活性部位を有する酵素である)。いくつかの実施形態では、ポリマーは、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリである。いくつかの実施形態では、単一の対象は、有機金属錯体である。いくつかの実施形態では、単一の対象は、界面活性剤、逆ミセル、またはリポソームである。
いくつかの実施形態では、複数の被験対象中の各被験対象は、対応する親和性(例えば、少なくとも1つの標的対象への化学結合を形成するための親和性)を有する少なくとも1つの標的対象の活性部位に結合してもしなくてもよいそれぞれの化学化合物を含む。
いくつかの実施形態では、少なくとも1つの標的対象は、少なくとも2つの標的対象、少なくとも3つの標的対象、少なくとも4つの標的対象、少なくとも5つの標的対象、または少なくとも6つの標的対象を含む。いくつかの実施形態では、各標的対象は、上述したように、それぞれの単一の対象(例えば、単一のタンパク質、単一のポリペプチドなど)である。いくつかの実施形態では、少なくとも1つの標的対象の1つ以上の標的対象は、複数の対象(例えば、タンパク質複合体、および/またはリボソームなどの複数のサブユニットを有する酵素)を含む。
ブロック220。図2Bのブロック220を参照すると、方法は、少なくともi)被験対象のサブセットを独立変数として、かつii)標的結果の対応するサブセットを従属変数として使用して、初期状態の予測モデルを訓練し、それによって、予測モデルを更新された訓練された状態に更新することによって、進行する。すなわち、予測モデルは、標的モデルの計算費用を発生させることなく、所与の被験化合物についての標的結果(標的モデルスコア)がどうなるかを予測するように訓練される。その上、いくつかの実施形態では、予測モデルは、少なくとも1つの標的対象を利用しない。そのような実施形態では、予測モデルは、被験対象と1つ以上の標的対象との間の相互作用ではなく、被験対象データセットにおける被験対象に提供される情報(例えば、被験対象の化学構造)に単に基づいて標的モデルのスコアを予測しようとする。
ブロック222を参照すると、いくつかの実施形態では、標的モデルは、それぞれの被験対象を評価する際に第1の計算複雑性を呈し、予測モデルは、それぞれの被験対象を評価する際に第2の計算複雑性を呈し、第2の計算複雑性は、第1の計算複雑性よりも小さい(例えば、予測モデルは、標的モデルが同じ被験対象に対して対応する標的結果を提供するために必要とするよりも、被験対象に対してそれぞれの予測結果を提供するために、より少ない時間および/またはより少ない計算努力を必要とする)。
本明細書で使用されるように、「計算複雑性」という語句は、「時間複雑性」という語句と交換可能であり、所与の数のプロセッサでモデルを被験対象および少なくとも1つの標的対象に適用する際に結果を取得するのに必要な時間に関連し、また、各プロセッサが所与の量の処理能力を有する場合に、所与の時間内でモデルを被験対象および少なくとも1つの標的対象に適用する際に結果を取得するのに必要なプロセッサの必要な数にも関連する。したがって、本明細書で使用される場合、計算複雑性は、モデルの予測複雑性を指す。しかしながら、いくつかの実施形態では、標的モデルは、第1の訓練計算複雑性を呈し、予測モデルは、第2の訓練計算複雑性を呈し、第2の訓練計算複雑性は、第1の訓練計算複雑性よりも小さい。以下の表2は、予測を行うためのいくつかの例示的な予測モデルおよびそれらの推定される計算複雑性(予測複雑性)を列挙している。
Figure 2022550550000004
表2において、pは、分類子の結果を提供する際に分類子によって評価される被験対象の特徴の数であり、ntreesは、木の数であり(様々な木に基づく方法の場合)、Oは、関数の成長率の上限を指すBachmann-Landau記法を指す。例えば、Arora and Barak,2009,Computational Complexity:AroraandBarak,2009,CumutatucationComplexity:A Modern Approach,Cambridge University Press,Cambridge Englandを参照されたい。対照的に、訓練モデルの一形態である畳み込みニューラルネットワークの総時間複雑性の推定値の1つは、
Figure 2022550550000005
であり、式中、lは、畳み込み層のインデックスであり、dは、深さ(畳み込み層の数)であり、nは、第l層のフィルタの数(「幅」としても知られる)であり(nl-1は、第l層の入力チャネルの数としても知られる)、sは、フィルタの空間サイズ(長さ)であり、mは、出力特徴マップの空間サイズである。この時間複雑性は、訓練時間と試験時間との両方に適用されるが、スケールは異なる。被験対象ごとの訓練時間は、被験対象ごとの試験時間のおおよそ3倍(前方伝播に1回、後方伝播に2回)である。Hi and Sun,2014,“Convolutional Neural Networks at Constrained Time Cost,”arXiv:1412.1710v1[cs.CV]4 Dec 2014を参照されたく、これは、参照により本明細書に組み込まれる。したがって、明らかに、畳み込みニューラルネットワークの時間複雑性は、表1に提供される例示的な予測モデルの時間複雑性よりも大きい。
ブロック224。図2Bのブロック224を参照すると、いくつかの実施形態では、初期の訓練された状態の予測モデルは、訓練されていないか、または部分的に訓練された分類子を含む。例えば、いくつかの実施形態では、予測モデルは、例えば転移学習技術を使用して、被験対象で、または被験対象データセットにおける複数の被験対象から提供されるデータとは別個の乖離した、被験対象データセットに表されないアッセイデータなどの他の形式のデータで、部分的に訓練される。一例では、予測モデルは、化合物のセットの結合親和性データで部分的に訓練され、そのような化合物は、転移学習技術を使用する被験対象データセットにあってもなくてもよい。
ブロック226を参照すると、いくつかの実施形態では、更新された訓練された状態の予測モデルは、初期の訓練された状態の予測モデルとは別のものである(例えば、予測モデルの1つ以上の重みが変更された)未訓練の、または部分的に訓練された分類子を含む。既存の分類子を再訓練するか、または更新する能力は、訓練データセットが変更に供される場合(例えば、訓練データセットがクラスのサイズおよび/または数を増加させる場合)、特に有用である。
いくつかの実施形態では、ブーストアルゴリズムを使用して、予測モデルを更新(訓練)する。ブーストアルゴリズムは、概して、Dai et al.2007“Boosting for transfer learning”in Proc 24th Int Conf on Mach Learnによって記載されており、これは、参照により本明細書に組み込まれる。ブーストアルゴリズムは、新しいデータ(例えば、被験対象の追加のサブセット)が予測モデルを再訓練するか、または更新するために使用されるデータセットに追加されたときに、予測モデルを訓練するために以前に使用されたデータ(例えば、被験対象のサブセット)を再加重することを含むことができる。例えば、Freund et al.1997“A decision-theoretic generalization of on-line learning and an application to boosting”J Computer and System Sciences 55(1),119-139を参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、上で考察されたように、初期の訓練された状態の予測モデルに使用されるアルゴリズムのタイプ(例えば、予測モデルが単一の決定木でない場合の)に応じて、転移学習方法を使用して、予測モデルを更新された訓練された状態に更新する(例えば、方法の連続した反復のたびに)。転移学習は、一般に、第1のモデルから第2のモデルへの知識の転移(例えば、第1のセットのタスクから、または第1のデータセットから、第2のセットのタスクまたは第2のデータセットへのいずれかの知識)を伴う。転移学習方法の追加のレビューを、Torrey et al.2009“Transfer Learning”in the Handbook of Research on Machine Learning Applications、Pan et al.2009“A Survey on Transfer Learning”IEEE Transactions on Knowledge and Data Engineering doi:10.1109/TKDE.2009.191、およびMolochanov et al.2016”Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning”arXiv:1611.06440v1に見出すことができ、これらは各々、参照により本明細書に組み込まれる。いくつかの実施形態では、ランダムフォレストの変化形を、動的訓練データセットとともに使用することができる。Ristin et al.2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),3654-3661を参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、予測モデルは、ランダム・フォレスト・ツリー、複数の多重加法的決定木を含むランダムフォレスト、ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、回帰、ナイーブ・ベイズ・アルゴリズム、またはそれらのアンサンブルを含む。
ランダムフォレスト、意思決定木、およびブースト木アルゴリズム。意思決定木は、概して、Duda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York,395-396によって記載されており、これは、参照により本明細書に組み込まれる。ランダムフォレストは、一般に、決定木のコレクションとして定義される。木ベースのメソッドは、特徴空間を長方形のセットに分割し、各長方形にモデル(定数など)をフィットさせる。いくつかの実施形態では、決定木は、ランダムフォレスト回帰を含む。予測モデルに使用され得る1つの特定のアルゴリズムは、分類および回帰木(CART)である。他の特定の決定木アルゴリズムとしては、限定されるものではないが、ID3、C4.5、MART、およびランダムフォレストが挙げられる。CART、ID3、およびC4.5は、Duda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York,396-408 and 411-412に記載されており、これは、参照により本明細書に組み込まれる。CART、MART、およびC4.5は、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New York,Chapter 9に記載されており、これは、その全体が参照により本明細書に組み込まれる。ランダムフォレスト全般は、Breiman,1999,Technical Report 567,Statistics Department,U.C.Berkeley,September 1999に記載されており、これは、その全体が参照により本明細書に組み込まれる。
ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク。様々なニューラルネットワークが、標的モデルおよび/または予測モデルのいずれかもしくは両方として採用されてもよいが、その条件は、予測モデルが標的モデルよりも小さな計算複雑性を有することである。畳み込みニューラルネットワーク(CNN)アルゴリズムを含むニューラルネットワークアルゴリズムは、例えば、Vincent et al.,2010,J Mach Learn Res 11,3371-3408、Larochelle et al.,2009,J Mach Learn Res 10,1-40、およびHassoun,1995,Fundamentals of Artificial Neural Networks,Massachusetts Institute of Technologyに開示されており、これらの各々は、参照により本明細書に組み込まれる。いくつかの実施形態では、限られるものではないが、グラフ・ニューラル・ネットワーク(GNN)および密なニューラルネットワーク(DNN)を含むが、ニューラルネットワークアルゴリズムの別の変形形態が、予測モデルに使用される。グラフ・ニューラル・ネットワークは、非ユークリッド空間で表されるデータ(例えば、特に複雑性が高いデータセット)に有用である。GNNの概要は、Wu et al.2019“A Comprehensive Survey on Graph Neural Networks”arVix:1901.00596、およびZhou et al 2018“Graph Neural Networks:A Review of Methods and Applications”arVix:1812.08434によって提供されている。GNNを他のデータ分析方法と組み合わせて、薬物の発見を可能にすることができる。例えば、Altre-Tran et al.2017“Low Data Drug Discovery with One-Shot Learning”ACS Cent Sci 3,283-293を参照されたい。密なニューラルネットワークは、一般に、各層に多数のニューロンを含み、Montavon et al.2018“Methods for interpreting and understanding deep neural networks”Digit Signal Process 73,1-15、およびFinnegan et al.2017“Maximum entropy methods for extracting the learned features of deep neural networks”PLoS Comput Biol.13(10),1005836に記載されており、これらの各々は、参照により本明細書に組み込まれる。
主成分分析。主成分分析は、複雑なデータの次元削減のために(例えば、検討中の対象の数を減らすために)しばしば使用されるいくつかの方法のうちの1つである。データクラスタリングにPCAを使用する例は、例えば、Yeung and Ruzzo 2001“Principal component analysis for clustering gene expression data”Bioinformat 17(9),763-774によって提供されており、これは、参照により本明細書に組み込まれる。主成分は、典型的には、存在する分散の範囲によって順序付けられ(例えば、第1のn個の成分のみがノイズの代わりに信号を伝達すると考えられる)、無関係である(例えば、各成分は他の成分に直交する)。
最近傍分析。最近傍分析は、典型的には、ユークリッド距離で行われる。最近傍分析の例は、Weinberger et al.2006“Distance metric learning for large margin nearest neighbor classification”in NIPS MIT Press 2,3によって提供されている。最近傍分析は、いくつかの実施形態では、大きな訓練データセットを有する設定で有効であるため、有益である。Sonawane 2015“A Review on Nearest Neighbour Techniques for Large Data”International Journal of Advances Research in Computer and Communication Engineering 4(11),459-461を参照されたく、これは、参照により本明細書に組み込まれる。
線形判別分析。線形判別分析(LDA)は、典型的には、被験対象のクラスを特徴付けるか、または別個のクラスを特徴付ける特徴の線形組み合わせを識別するために実行される。LDAの例は、Ye et al.2004“Two-Dimensional Linear Discriminant Analysis”Advances in Neural Information Processing Systems 17,1569-1576,Prince et al.2007“Probabilistic Linear Discriminant Analysis for Inferences about Identity”11th International Conference on Computer Vision,1-8によって提供されている。LDAは、大きいサンプルサイズと小さいサンプルサイズとの両方に適用することができ、高次元で使用することができるため、有益である。Kaipatnen 1997“Utilizing Geometric Anomalies of High Dimension:When Complexity Makes Computation Easier”Computer-Intensive Methods in Control and Signal Processing,283-294を参照されたい。
二次判別分析。二次判別分析(QDA)は、LDAと密接に関連しているが、QDAでは対象のあらゆるクラスについて個々の共分散行列が推定される。Wu et al.1996“Comparison of regularized discriminant analysis,linear discriminant analysis and quadratic discriminant analysis,applied to NIR data”Analytica Chimica Acta 329,257-265を参照されたい。QDAの例は、Zhang 1997“Identification of protein coding regions in the human genome by quadratic discriminant analysis”PNAS 94,565-568、Zhang et al.2003“Splice site prediction with quadratic discriminant analysis using diversity measure”Nuc Acids Res 31(21),6124-6220によって提供されており、これらの各々は、参照により本明細書に組み込まれる。QDAは、Wu et al.1996“Comparison of regularized discriminant analysis,linear discriminant analysis and quadratic discriminant analysis,applied to NIR data”Analytica Chimica Acta 329,257-265に記載されているように、LDAよりも多くの有効なパラメータを提供するため、有益であり、これは、参照により本明細書に組み込まれる。
サポート・ベクタ・マシン。サポート・ベクタ・マシン(SVM)アルゴリズムの非限定的な例は、Cristianini and Shawe-Taylor,2000“An Introduction to Support Vector Machines,”Cambridge University Press、Boser et al.,1992,“A training algorithm for optimal margin classifiers,”in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,ACM Press,Pittsburgh,Pa.,142-152、Vapnik,1998,Statistical Learning Theory,Wiley,New York;Mount,2001,Bioinformatics:sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.、Duda,Pattern Classification,Second Edition,2001,John Wiley & Sons,Inc.,259,262-265、およびHastie,2001,The Elements of Statistical Learning,Springer,New York、およびFurey et al.,2000,Bioinformatics 16,906-914に記載されており、これらの各々は、参照によりその全体が本明細書に組み込まれる。分類に使用する場合、SVMは、ラベル付けされたデータから最大限に離れた超平面を用いて、所与のバイナリラベル付けされたデータ訓練セットを分離する。線形分離が不可能な場合、SVMは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の技術と組み合わせて動作することができる。特徴空間においてSVMによって見出される超平面は、入力空間における非線形決定境界に対応する。
線形回帰。本明細書で使用される場合、線形回帰は、単純、多変量、および/または多変量線形回帰分析を包含することができる。線形回帰は、従属変数(スカラー応答としても知られている)と1つ以上の独立変数(説明変数としても知られている)との間の関係をモデリングするための線形アプローチを使用し、したがって、本開示で予測モデルとして使用することができる。Altman et al.2015“Simple Linear Regression”Nature Methods 12,999-1000を参照されたく、これは、参照により本明細書に組み込まれる。関係は、線形予測子関数を使用して予測され、そのパラメータは、線形モデルを使用してデータを推定される。いくつかの実施形態では、単純線形回帰を使用して、従属変数と単一の独立変数との間の関係をモデル化する。単純線形回帰の例を、Altman et al.2015“Simple Linear Regression”Nature Methods 12,999-1000に見出すことができ、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、重線形回帰を使用して、従属変数と複数の独立変数との間の関係をモデル化し、したがって、本開示で予測モデルとして使用することができる。重線形回帰の例を、Sousa et al.2007“Multiple linear regression and artificial neural networks based on principal components to predict ozone concentration”Environ Model & Soft 22(1),97-103に見出すことができ、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、多変量線形回帰を使用して、複数の従属変数と任意の数の独立変数との間の関係をモデル化する。多変量線形回帰の非限定的な例を、Wang et al.2016“Discriminative Feature Extraction via Multivariate Linear Regression for SSVEP-Based BCI”IEEE Transactions on Neural Systems and Rehabilitation Engineering 24(5),532-541に見出すことができ、これは、参照により本明細書に組み込まれる。
ナイーブ・ベイズ・アルゴリズム。ナイーブベイズ分類子(アルゴリズム)は、特徴間の強い(ナイーブな)独立性仮定を伴うベイズの定理を適用することに基づく「確率的分類子」のファミリーである。いくつかの実施形態では、それらは、カーネル密度推定と結合される。Hastie,Trevor,2001,The elements of statistical learning:data mining,inference,and prediction,Tibshirani,Robert,Friedman,J.H.(Jerome H.),New York:Springerを参照されたく、これは、参照により本明細書に組み込まれる。
いくつかの実施形態では、少なくともi)被験対象のサブセットを予測モデルの独立変数として、かつii)標的結果の対応するサブセットを予測モデルの従属変数として使用して、初期の訓練された状態の予測モデルを訓練することは、iii)予測モデルを更新された訓練された状態に更新するために、少なくとも1つの標的対象を予測モデルの独立変数として使用することをさらに含む。
ブロック228~230。図2Bのブロック228を参照すると、方法は、更新された訓練された状態の予測モデル(例えば、再訓練された予測モデル)を完全な複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することによって進行する。ブロック230を参照すると、いくつかの実施形態では、複数の予測結果のインスタンスは、複数の被験対象中の各被験対象のそれぞれの予測結果を含む。このように、対象モデルの高い演算負担およびそれに見合った性能改善と、予測モデルの低い演算負担およびそれに見合った劣った性能と、のバランスが達成される。標的モデルを使用して、被験対象のサブセットのみの標的結果を取得し、それによって、予測モデルを訓練するための訓練セットを形成する。この訓練セットは、より計算的に負担のかかる標的モデルの性能、ならびに少なくとも1つの標的対象と被験対象との間のインタラクションを利用するという事実に起因して、おそらくより正確である。例えば、いくつかの実施形態では、標的対象は、活性部位を有する酵素であり、標的モデルは、被験対象のサブセットの各被験対象と標的対象との間の相互作用をスコア付けする。次いで、訓練セットを使用して、予測モデルを訓練する。したがって、典型的な実施形態では、予測モデルは、訓練セットを使用して訓練され、訓練セットは、被験対象のサブセットの各被験対象の標的モデルスコアを含み、化学データは、被験対象データセットにおける各そのような被験対象のために提供し、これにより、予測モデルは、標的対象を使用することなく(例えば、被験対象を標的対象にドッキングすることなく)標的モデルのスコアを予測することができる。次いで、こうして訓練された予測モデルを完全な複数の被験対象に対して適用して、複数の予測結果のインスタンスを取得する。予測結果のインスタンスは、訓練された予測モデルが、完全な複数の標的対象中の各対象の標的モデルスコアであると予測するスコアを含む。このようにして、ドッキングが同時に起こる、より計算的に負担のかかる標的モデルの性能を十分に活用して、被験データセットにおける被験対象の数を削減するのを支援する。その上、予測モデルの効率を十分に活用して、被験データセットにおける被験対象の数を削減するために、被験対象の各々の被験結果を取得する。
ブロック232~234。図2Bのブロック232を参照すると、方法は、複数の予測結果のインスタンスに少なくとも部分的に基づいて(例えば、以下に記載される排除基準のいずれかに従って)複数の被験対象から被験対象の一部分を排除することによって進行する。いくつかの実施形態では、複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得し(ブロック210)、初期の訓練された状態の予測モデルを訓練し(ブロック220)、更新された訓練された状態の予測モデルを複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得し(ブロック228)、複数の予測結果のインスタンスに少なくとも部分的に基づいて、複数の被験対象から被験対象の一部分を排除すること(ブロック232)は、以下のブロック236に記載される評価の対象として、数回(例えば、2回、3回、3回超、10回超、15回超など)繰り返される反復プロセスである。(各反復において)プロセスが繰り返されるたびに、複数の被験対象に残る被験対象の一部分は、ブロック228からの複数の予測結果の最新のインスタンスに少なくとも部分的に基づいて、複数の被験対象から削除される。
ブロック234を参照すると、いくつかの実施形態では、排除することは、i)複数の被験対象をクラスタ化し、それによって、複数の被験対象中の各被験対象を複数のクラスタ中のそれぞれのクラスタに割り当てることと、ii)複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて(例えば、複数の被験対象の多様な異なる化学化合物を確実にするために)、複数の被験対象から被験対象のサブセットを排除することと、を含む。言い換えると、そのような実施形態では、ブロック232の各反復において、残りの複数の被験対象がクラスタ化される。いくつかの実施形態では、このクラスタ化は、上述したように被験対象の特徴ベクトルに基づいている。いくつかの実施形態では、ブロック214に記載されるクラスタリングのいずれかを使用して、ブロック234のクラスタ化を実行し得る。ブロック214では、そのようなクラスタ化は、標的モデルに対して使用する被験対象のサブセットを選択するために実行されたが、ブロック234では、クラスタ化は、複数の被験対象から被験対象を永久に排除するために実行される。ブロック234のクラスタ化が、複数の被験対象に残っている被験対象をQ個のクラスタにクラスタ化する例を考えると、Qは、2以上の正の整数(例えば、2、3、4、5、6、7、8、9、10、10超、20超、30超、100超など)である。いくつかのそのような実施形態では、これらのクラスタの各々における同じ数の被験対象は、複数の被験対象に保持され、他のすべての被験対象は、複数の被験対象から削除される。このようにして、複数の被験対象に残っている被験対象は、すべてのクラスタにわたってバランスが取られる。
ステップ232で生成された複数の予測結果は、標的モデルが複数の被験対象について呼び出すであろうことを予測モデルが予測するスコアを表す。
スコアリングが、低いスコアほど1つ以上の標的対象に対してより良好な親和性を有する化合物を表すスキームで行われる場合には、高スコアを有するそれらの被験対象を削除することが興味深い。したがって、いくつかの代替実施形態では、クラスタリングは、使用されず、ブロック232の排除することは、i)複数の予測結果のインスタンスに基づいて複数の被験対象をランク付けすることと、ii)複数の被験対象から、閾値カットオフを満たす対応する予測スコアを有するに至らない複数の被験対象中のそれらの被験対象を削除すること(例えば、複数の被験対象に残っている被験対象が高い予測スコアを有することを確実にするために)と、を含む。いくつかの実施形態では、閾値カットオフは、上位閾値パーセンテージ(例えば、複数の予測結果に基づいて最も高くランク付けされる複数の被験対象のパーセンテージ)である。いくつかのそのような実施形態では、上位閾値パーセンテージは、予測結果が複数の予測結果の上位90パーセント、上位80パーセント、上位75パーセント、上位60パーセント、上位50パーセント、上位40パーセント、上位30パーセント、上位25パーセント、上位20パーセント、上位10パーセント、または上位5パーセントにある、複数の被験対象中の被験対象を表す。そのような実施形態では、被験対象の対応する下位パーセンテージは、さらなる考慮のために複数の被験対象から排除される(例えば、それによって、複数の被験対象中の被験対象の数を削減する)。
スコアリングが、高いスコアほど1つ以上の標的対象に対してより良好な親和性を有する化合物を表すスキームで行われる場合には、低スコアを有するそれらの被験対象を削除することが興味深い。したがって、いくつかの代替実施形態では、クラスタリングは、使用されず、ブロック232の排除することは、i)複数の予測結果のインスタンスに基づいて複数の被験対象をランク付けすることと、ii)複数の被験対象から、閾値カットオフを満たす対応する予測スコアを有するに至らない複数の被験対象中のそれらの被験対象を削除すること(例えば、複数の被験対象に残っている被験対象が低い予測スコアを有することを確実にするために)と、を含む。いくつかのそのような実施形態では、閾値カットオフは、下位閾値パーセンテージ(例えば、複数の予測結果に基づいて最も低くランク付けされる複数の被験対象のパーセンテージ)である。いくつかの実施形態では、下位閾値パーセンテージは、予測結果が複数の予測結果の下位90パーセント、下位80パーセント、下位75パーセント、下位60パーセント、下位50パーセント、下位40パーセント、下位30パーセント、下位25パーセント、下位20パーセント、下位10パーセント、または下位5パーセントにある、複数の被験対象中の被験対象を表す。そのような実施形態では、被験対象の対応する上位パーセンテージは、さらなる考慮のために複数の被験対象から排除される(例えば、それによって、複数の被験対象中の被験対象の数を削減する)。
いくつかの実施形態では、排除することの各インスタンス(例えば、方法が複数の被験対象から被験対象の一部分を排除することを繰り返す実施形態では)は、ブロック232の特定の反復で複数の被験対象中の被験対象の10分の1~10分の9を排除する。いくつかの実施形態では、排除することの各インスタンスは、ブロック232の特定の反復で複数の被験対象中に存在する被験対象の5パーセント超、10パーセント超、15パーセント超、20パーセント超、または25パーセント超を排除する。
いくつかの実施形態では、排除することの各インスタンスは、ブロック232の特定の反復で、複数の被験対象の5パーセント~30パーセント、10パーセント~40パーセント、15パーセント~70パーセント、20パーセント~50パーセント、25パーセント~90パーセントを排除する。いくつかの実施形態では、排除することの各インスタンスは、ブロック232の特定の反復で、複数の被験対象中の4分の1~4分の3の被験対象を排除する。いくつかの実施形態では、排除することの各インスタンスは、ブロック232の特定の反復で、複数の被験対象中の4分の1~2分の1の被験対象を排除する。
いくつかの実施形態では、排除することの各インスタンス(ブロック232)は、複数の被験対象から所定の数(または部分)の被験対象を排除する。例えば、いくつかの実施形態では、排除すること(ブロック232)のそれぞれのインスタンスは、排除することのそれぞれのインスタンスで複数の被験対象中にある5パーセントの被験対象を排除する。いくつかの実施形態では、排除することの1つ以上のインスタンスは、異なる数(または部分)の被験対象を排除する。例えば、排除すること(ブロック232)の初期インスタンスは、排除すること232のこれらの初期インスタンス中に複数の被験対象中にある、複数の被験対象のより高いパーセンテージを排除し得る一方、排除することの後続インスタンスは、排除すること232のこれらの後続インスタンス中に複数の被験対象中にある、複数の被験対象のより低いパーセンテージを排除し得る。例えば、初期インスタンスでは複数の被験化合物の10パーセントを排除する一方で、後続のインスタンスでは複数の被験化合物の5パーセントを排除する。別の例では、排除すること(ブロック232)の初期インスタンスは、排除することのこれらの初期インスタンス中に複数の被験対象中にある、複数の被験対象のより低いパーセンテージを排除し得る一方、排除することの後続インスタンスは、排除すること232のこれらの後続インスタンス中に複数の被験対象中にある、複数の被験対象のより高いパーセンテージを排除し得る。例えば、排除することの初期インスタンスにおいて、複数の被験化合物の5パーセントを排除する一方、排除すること232の後続インスタンスにおいて、複数の被験化合物の10パーセントを排除する。
ブロック236。図2Cのブロック236を参照すると、方法は、1つ以上の事前定義された削減基準が満たされているかどうかを判定することによって進行する。1つ以上の事前定義された削減基準が満たされていない場合、方法は、以下をさらに含む。複数の被験対象中の被験対象の追加のサブセットの各それぞれの各被験対象について、それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得する(i)。被験対象の追加のサブセットは、少なくとも部分的に複数の予測結果のインスタンス上で選択される。被験対象の追加のサブセットを被験対象のサブセット(例えば、被験対象の以前のサブセット)に組み込むことによって、被験対象のサブセットを更新する(ii)。標的結果の追加のサブセットを標的結果のサブセットに組み込むことによって、標的結果のサブセットを更新する(iii)。したがって、方法が、標的モデルを実行すること、予測モデルを訓練すること、および予測モデルを実行することを、漸進的に繰り返すにつれて、標的結果のサブセットが成長する。更新(ii)および更新(iii)の後に、予測モデルを、少なくとも1)独立変数としての被験対象のサブセット、および対応する従属変数としての標的結果の対応するサブセットに適用することによって、予測モデルを修正し(iv)、それによって、更新された訓練された状態の予測モデルを提供する。適用すること(ブロック228)、排除すること(ブロック232)、および判定すること(ブロック236)は、1つ以上の事前定義された削減基準が満たされるまで繰り返される。
いくつかの実施形態では、予測モデルを修正すること(iv)は、新しい部分的に訓練された予測モデルを再訓練するか、または訓練するかのいずれかを含む。
いくつかの実施形態では、1つ以上の事前定義された削減基準が満たされている場合、方法は、i)複数の被験対象をクラスタ化し、それによって、複数のクラスタ中のクラスタに、複数の被験対象中の各被験対象を割り当てることと、ii)複数のクラスタ中の個々のクラスタの被験対象の冗長性に少なくとも部分的に基づいて、複数の被験対象から1つ以上の被験対象を排除することと、をさらに含む。
いくつかの実施形態では、複数の被験対象をクラスタ化することは、ブロック212に関して記載されているように実行される。
ブロック238を参照すると、いくつかの実施形態では、適用すること(i)は、上述のように、複数の特徴ベクトルから選択された1つ以上の特徴の評価に基づいて、複数の被験対象から1つ以上の被験対象を選択することによって(例えば、多様なクラスタから被験対象を選択することによって)、被験対象の追加のサブセットを形成することをさらに含む。
いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットと同じか、または類似のサイズである。いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットとは異なるサイズである。いくつかの実施形態では、被験対象の追加のサブセットは、被験対象のサブセットとは別のものである。
いくつかの実施形態では、被験対象の追加のサブセットは、少なくとも1,000個の被験対象、少なくとも5,000個の被験対象、少なくとも10,000個の被験対象、少なくとも25,000個の被験対象、少なくとも50,000個の被験対象、少なくとも75,000個の被験対象、少なくとも100,000個の被験対象、少なくとも250,000個の被験対象、少なくとも500,000個の被験対象、少なくとも750,000個の被験対象、少なくとも100万個の被験対象、少なくとも200万個の被験対象、少なくとも300万個の被験対象、少なくとも400万個の被験対象、少なくとも500万個の被験対象、少なくとも600万個の被験対象、少なくとも700万個の被験対象、少なくとも800万個の被験対象、少なくとも900万個の被験対象、または少なくとも1,000万個の被験対象を含む。
いくつかの実施形態では、予測モデルを修正すること(iv)は、予測モデルを再訓練すること(例えば、被験対象の更新されたサブセットで訓練プロセスを再実行し、予測モデルのいくつかのパラメータまたはハイパーパラメータを潜在的に変更すること)を含む。いくつかの実施形態では、予測モデルを修正すること(iv)は、新しい予測モデルを訓練すること(例えば、以前の予測モデルを置き換えること)を含む。
いくつかの実施形態では、修正すること(iv)は、少なくとも1)独立変数としての被験対象のサブセット、および2)対応する従属変数としての標的結果の対応するサブセットを使用することに加えて、3)独立変数としての少なくとも1つの標的対象を使用することをさらに含む。換言すると、いくつかの実施形態では、予測モデルは、実際には、ドッキングを伴う予測モデルが、同時に起きる結合を伴う標的モデルよりも計算的に負担が少ないままであることを条件に、標的モデルの標的結果に対して訓練された予測結果を生成するために、被験対象を標的対象にドッキングする。
ブロック240を参照すると、いくつかの実施形態では、1つ以上の事前定義された削減基準を満たすことは、複数の予測結果を、標的結果のサブセットからの対応する標的結果と相関させることを含む。例えば、いくつかの実施形態では、1つ以上の事前定義された削減基準は、複数の予測結果と対応する標的結果との間の相関が、0.60以上、0.65以上、0.70以上、0.75以上、0.80以上、0.85以上、または0.90以上である場合に満たされる。
ブロック240を参照すると、いくつかの実施形態では、1つ以上の事前定義された削減基準を満たすことは、絶対スケールまたは正規化スケールで複数の予測結果と対応する標的結果との平均差を判定することを含み、1つ以上の事前定義された削減基準は、この平均差が閾値量未満である場合に満たされる。そのような実施形態では、閾値量は、アプリケーションに依存する。
いくつかの実施形態では、1つ以上の事前定義された削減基準を満たすことは、複数の被験対象中の被験対象の数が、対象の閾値数を下回ったことを判定することを含む。いくつかの実施形態では、1つ以上の事前定義された削減基準は、複数の被験対象が、30個以下の被験対象、40個以下の被験対象、50個以下の被験対象、60個以下の被験対象、70個以下の被験対象、90個以下の被験対象、100個以下の被験対象、200個以下の被験対象、300個以下の被験対象、400個以下の被験対象、500個以下の被験対象、600個以下の被験対象、700個以下の被験対象、800個以下の被験対象、900個以下の被験対象、または1000個以下の被験対象を有することを必要とする。
いくつかの実施形態では、1つ以上の事前定義された削減基準は、複数の被験対象が、2~30個の被験対象、4~40個の被験対象、5~50個の被験対象、6~60個の被験対象、5~70個の被験対象、10~90個の被験対象、5~100個の被験対象、20~200個の被験対象、30~300個の被験対象、40~400個の被験対象、40~500個の被験対象、40~600個の被験対象、または50~700個の被験対象を有することを必要とする。
いくつかの実施形態では、1つ以上の事前定義された削減基準を満たすことは、複数の被験対象中の被験対象の数が、被験対象データベースにおける被験対象の数の閾値パーセンテージだけ削減されたことを判定することを含む。いくつかの実施形態では、1つ以上の事前定義された削減基準は、複数の被験対象を、被験対象データベースの少なくとも10%、被験対象データベースの少なくとも20%、被験対象データベースの少なくとも30%、被験対象データベースの少なくとも40%、被験対象データベースの少なくとも50%、被験対象データベースの少なくとも60%、被験対象データベースの少なくとも70%、被験対象データベースの少なくとも80%、被験対象データベースの少なくとも90%、被験対象データベースの少なくとも95%、または被験対象データベースの少なくとも99%だけ削減することを必要とする。
いくつかの実施形態では、1つ以上の事前定義された削減基準は、単一の削減基準である。いくつかの実施形態では、1つ以上の事前定義された削減基準は、単一の削減基準であり、この単一の削減基準は、本開示に記載される削減基準のいずれか1つである。
いくつかの実施形態では、1つ以上の事前定義された削減基準は、削減基準の組み合わせである。いくつかの実施形態では、この削減基準の組み合わせは、本開示に記載される削減基準の任意の組み合わせである。
ブロック242を参照すると、いくつかの実施形態では、1つ以上の事前定義された削減基準が満たされている場合、方法は、予測モデルを複数の被験対象および少なくとも1つの標的対象に適用し、それによって、予測モデルに、複数の被験対象中の各被験対象についてのそれぞれのスコアを提供させる(例えば、各スコアは、それぞれの被験対象および標的対象のためのものである)ことをさらに含む。いくつかのそのような実施形態では、各それぞれのスコアは、それぞれの被験対象と少なくとも1つの標的対象との間の相互作用に対応する。いくつかの実施形態では、各スコアを使用して、少なくとも1つの標的対象を特徴付ける。いくつかの実施形態では、スコアは、「Systems and Methods for Applying a Convolutional Network to Spatial Data」と題された米国特許第10,002,312号に記載されている(例えば、1つ以上の標的対象とそれぞれの被験対象との間の)結合親和性を指し、その全体が本明細書に組み込まれる。いくつかの実施形態では、被験対象と標的対象との間の相互作用は、距離、角度、原子タイプ、分子電荷および/または分極、ならびに周囲の安定化または不安定化環境要因によって影響される。
いくつかの代替実施形態では、1つ以上の事前定義された削減基準が満たされている場合、方法は、残りの複数の被験対象および少なくとも1つの標的対象に標的モデルを適用し、それによって、標的モデルに、複数の被験対象中の残りの各被験対象についてそれぞれの標的スコアを提供させる(例えば、各標的スコアは、1つ以上の標的対象中のそれぞれの被験対象および標的対象のためのものである)ことをさらに含む。いくつかのそのような実施形態では、各それぞれの標的スコアは、それぞれの被験対象と少なくとも1つの標的対象との間の相互作用に対応する。いくつかの実施形態では、各標的スコアを使用して、少なくとも1つの標的対象を特徴付ける。いくつかの実施形態では、標的スコアは、「Systems and Methods for Applying a Convolutional Network to Spatial Data」と題された米国特許第10,002,312号に記載されている(例えば、1つ以上の標的対象を有するそれぞれの試験対象間の)結合親和性を指し、これは、その全体が本明細書に組み込まれる。いくつかの実施形態では、被験対象と標的対象との間の相互作用は、距離、角度、原子タイプ、分子電荷および/または分極、ならびに周囲の安定化または不安定化環境要因によって影響される。
実施例1-使用例。
以下は、本発明のいくつかの実施形態のいくつかの用途について記載する例示的な目的のみで提供されるサンプル使用例である。他の用途が考慮されてもよく、以下に提供される例は、非限定的であり、変形、省略に供されてもよいし、追加の要素を含んでもよい。
以下の各例は、結合親和性予測を例示しているが、これらの例は、予測が単一の分子に対して行われるか、反復して修飾された分子のセットに対して行われるか、もしくは一連の反復して修飾された分子に対して行われるか、予測が単一の標的に対して行われるか、もしくは多数の標的に対して行われるか、標的に対する活性が所望されるか、もしくは回避されるか、ならびに重要な量が絶対的活性であるか、もしくは相対的活性であるか、または分子セットもしくは標的セットが具体的に選択されるかどうか(例えば、分子については、既存の薬物または農薬であるように、タンパク質については、既知の毒性または副作用を有するように)において異なることが見出されてもよい。
ヒット発見。製薬会社は、新しい見込みのある医薬品リードを発見するために、化合物のスクリーニングに何百万ドルも費やしている。大規模な化合物コレクションを試験して、興味の疾患標的との任意の相互作用を有する少数の化合物を見出す。不幸にも、ウェットラボスクリーニングは、アッセイ実験を実施するためのコストおよび時間に加えて、実験誤差を被り、大型スクリーニングコレクションの収集は、保管制約、貯蔵安定性、または化学的コストを通じて重大な課題を課す。どんなに大きな製薬会社でも、何千万の市販の分子および何億のシミュレート可能な分子に対して、何十万~数百万の化合物しか有していない。
物理実験に対する潜在的により効率的な代替手段は、仮想高スループットスクリーニングである。モデルが物理的に試験される前に、航空宇宙技術者が考えられる翼の設計を評価するのに物理シミュレーションが役立ち得るのと同じように、分子の計算スクリーニングは、可能性の高い分子の小さなサブセットに対する実験的試験に焦点を当てることができる。このことは、スクリーニングコストおよび時間を削減し、偽陰性を削減し、成功率を向上させ、かつ/または広範囲の化学空間をカバーし得る。
本出願において、タンパク質標的は、標的対象として機能してもよい。大きなセットの分子がまた、被験対象データセットの形態で提供され得る。開示される方法の適用時に残る各被験対象について、タンパク質標的に対する結合親和性が予測される。結果として得られたスコアを使用して残りの分子をランク付けすることができ、最良スコアの分子は標的タンパク質に結合する可能性が最も高い。任意選択で、ランク付けされた分子リストは、類似の分子のクラスタについて分析されてもよく、大きなクラスタが、分子結合のより強力な予測として使用されてもよいし、分子が、確証的実験における多様性を確保するためにクラスタ間で選択されてもよい。
オフターゲットの副作用予測。多くの薬剤が、副作用を有することを見出され得る。多くの場合、これらの副作用は、薬物の治療効果を担うもの以外の生物学的経路との相互作用に起因する。これらのオフターゲットの副作用は、不快または危険であり得、薬物の使用が安全である患者集団を制限する。したがって、オフターゲットの副作用は、どの薬剤候補をさらに開発するかを評価するための重要な基準である。薬物と多くの代替の生物学的標的との相互作用を特徴付けることが重要であるが、そのような試験は、開発および実行に高価であり、時間がかかり得る。計算予測は、このプロセスをより効率的にすることができる。
本発明の実施形態を適用する際に、有意な生物学的応答および/または副作用と関連付けられた生物学的標的のパネルを構築してもよい。その場合、システムは、そのようなタンパク質を標的対象として順に処理することによって、パネル内の各タンパク質に対する結合を予測するように構成されてもよい。特定の標的に対する強力な活性(すなわち、オフターゲットタンパク質を活性化することが知られている化合物ほど強力な活性)は、オフターゲット効果に起因する副作用に分子を関与させ得る。
毒性予測。毒性予測は、オフターゲットの副作用予測の特に重要な特別な場合である。後期臨床試験における薬剤候補のおよそ半数は、許容できない毒性のために失敗する。新薬承認プロセスの一環として(かつ、薬剤候補がヒトで試験可能になる前に)、FDAは、シトクロムP450肝臓酵素(その阻害は、薬剤間相互作用からの毒性につながる可能性がある)またはhERGチャネル(その結合は、心室不整脈および他の有害な心臓効果につながるQT延長につながる可能性がある)を含む標的のセットに対する毒性試験データを必要とする。
毒性予測において、システムは、オフターゲットタンパク質を主要な抗標的(例えば、CYP450、hERG、または5-HT2B受容体)に拘束するように構成されてもよい。次いで、薬物候補に対する結合親和性は、これらのタンパク質の各々を標的対象として処理することによって、これらのタンパク質に対して予測され得る(例えば、別個の独立したランで)。任意選択で、分子は、代謝産物のセット(元の分子の代謝/分解中に身体によって生成される後続の分子)を予測するように分析されてもよく、これはまた、抗標的に対する結合について分析され得る。問題のある分子を同定し、修飾して、毒性を回避してもよいし、分子列の発達を停止して、追加のリソースを無駄にすることを回避してもよい。
農薬設計。医薬用途に加えて、農薬業界は、新しい農薬の設計で結合予測を使用する。例えば、農薬の1つの必要条件は、他の種に悪影響を与えることなく、農薬が興味の単一の種を停止させることである。生態学的な安全のために、人は、マルハナバチを殺さずにゾウムシを殺すことを望み得る。
この用途のために、ユーザは、検討されている異なる種からの1つ以上の標的対象としてのタンパク質構造のセットをシステムに入力し得る。タンパク質のサブセットを、活性化すべきタンパク質として指定することができる一方、残りを、分子が不活性であるべきタンパク質として指定することができる。以前の使用例と同様に、(既存のデータベースまたは新規に生成されたかにかかわらず)いくつかのセットの分子が、各標的対象に対して被験対象として考慮され、システムは、第2のグループを回避しながら第1のグループのタンパク質に対して最大の有効性を有する分子を返す。
結論
単一のインスタンスとして本明細書に記載される構成要素、動作、または構造について、複数のインスタンスが提供されてもよい。最終的に、様々な構成要素、動作、およびデータストア間の境界は、ある程度恣意的であり、特定の動作が、特定の例示的構成の文脈において例示される。機能性の他の割り当てが想定され、実装態様の範囲内にあり得る。一般に、例示的な構成の別個の構成要素として提示された構造および機能性を、組み合わされた構造または構成要素として実施してもよい。同様に、単一の構成要素として提示された構造および機能性を、別個の構成要素として実施してもよい。これらのおよび他の変形、修正、追加、および改善は、実装態様の範囲内にある。
本明細書で使用される場合、「の場合(if)」という用語は、文脈に応じて、「の場合(when)」または「であると(upon)」または「と判定することに応答して」または「を検出することに応答して」を意味すると解釈され得る。同様に、文脈に応じて、「それが判定された場合」または「[述べられた状態または事象]が検出された場合」という語句は、「と判定すると」または「と判定することに応答して」または「(述べられた状態または事象(を検出すると」または「(述べられた状態または事象)を検出することに応答して」を意味すると解釈され得る。
第1の、第2のなどの用語が、様々な要素について記載するために本明細書で使用され得るが、これらの要素は、これらの用語によって限定されるものではないことも理解されよう。これらの用語は、ある要素と別の要素を区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の対象は、第2の対象と称されてもよく、同様に、第2の対象は、第1の対象と称されてもよい。第1の対象と第2の対象とは、両方とも対象であるが、それらは、同じ対象ではない。
前述の説明は、例示的な実装態様を具現化する例示的なシステム、方法、技術、命令シーケンス、およびコンピューティング・マシン・プログラム製品を含んでいた。説明の目的で、本発明主題の様々な実装態様の理解を提供するために、多数の具体的な詳細が明記された。しかしながら、本発明の主題の実装態様が、これらの特定の詳細なしに実施され得ることは、当業者に明らかであろう。一般に、周知の命令インスタンス、プロトコル、構造、および技術は、詳細には示されていない。
前述の説明は、説明の目的で、特定の実施態様を参照して記載されている。しかしながら、上記の例示的な考察は、網羅的であることを意図するものではなく、または実装態様を開示された正確な形態に限定することを意図するものではない。上記の教示を考慮して、多くの修正および変形が可能である。実装態様は、原理およびそれらの実用的な用途を最良に説明するために選定され、記載され、それによって、当業者は、実装態様および想定される特定の使用に好適な様々な修正を伴う様々な実装態様を最良に利用することができる。

Claims (56)

  1. 被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法であって、
    A)電子形式で、前記被験対象データセットを取得することと、
    B)前記複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、前記それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することと、
    C)少なくともi)前記被験対象のサブセットを独立変数として、かつii)前記標的結果の対応するサブセットを従属変数として使用して、初期の訓練された状態の予測モデルを訓練し、それによって、前記予測モデルを更新された訓練された状態に更新することと、
    D)更新された訓練された状態の前記予測モデルを前記複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することと、
    E)前記複数の予測結果の前記インスタンスに少なくとも部分的に基づいて、前記複数の被験対象から前記被験対象の一部分を排除することと、
    F)1つ以上の事前定義された削減基準が満たされているかどうかを判定することであって、前記1つ以上の事前定義された削減基準が満たされない場合、前記方法が、
    (i)前記複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、前記標的モデルを前記それぞれの被験対象および前記少なくとも1つの標的対象に適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することであって、前記被験対象の追加のサブセットが、少なくとも部分的に前記複数の予測結果の前記インスタンス上で選択される、取得することと、
    (ii)前記被験対象のサブセットに前記被験対象の追加のサブセットを組み込むことによって、前記被験対象のサブセットを更新することと、
    (iii)前記標的結果のサブセットに前記標的結果の追加のサブセットを組み込むことによって、前記標的結果のサブセットを更新することと、
    (iv)前記更新すること(ii)および前記更新すること(iii)の後に、前記予測モデルを、少なくとも1)前記予測モデルの複数の独立変数としての前記被験対象のサブセット、および2)前記予測モデルの対応する複数の従属変数としての前記標的結果の対応するサブセットに適用することによって、前記予測モデルを修正し、それによって、更新された訓練された状態の前記予測モデルを提供することと、
    (v)前記適用すること(D)、排除すること(E)、および判定すること(F)を繰り返すことであって、前記複数の被験対象が、前記排除することE)のインスタンスの適用前に、少なくとも1億個の被験対象を含む、繰り返すことと、をさらに含む、判定することと、を含む、方法。
  2. 前記標的モデルが、第1の計算複雑性を呈し、
    前記予測モデルが、第2の計算複雑性を呈し、
    前記第2の計算複雑性が、前記第1の計算複雑性よりも小さい、請求項1に記載の方法。
  3. 前記被験対象データセットが、複数の特徴ベクトルを含み、各特徴ベクトルが、前記複数の被験対象中のそれぞれの被験対象のためのものである、請求項1または2に記載の方法。
  4. 前記適用することB)が、前記複数の被験対象から1つ以上の被験対象をランダムに選択して、前記被験対象のサブセットを形成することをさらに含む、請求項1~3のいずれか一項に記載の方法。
  5. 前記適用することB)が、前記複数の特徴ベクトルから選択された1つ以上の特徴の評価に基づいて、前記被験対象のサブセットの前記複数の被験対象から1つ以上の被験対象を選択することをさらに含む、請求項3に記載の方法。
  6. 前記複数の特徴ベクトル中の各特徴ベクトルが、一次元ベクトルである、請求項3に記載の方法。
  7. 前記適用することF)(i)が、前記複数の特徴ベクトルから選択された1つ以上の特徴の評価に基づいて、前記複数の被験対象から1つ以上の被験対象を選択することによって、前記被験対象の追加のサブセットを形成することをさらに含む、請求項3または4に記載の方法。
  8. 前記1つ以上の事前定義された削減基準を満たすことが、前記複数の予測結果中の各予測結果を、前記標的結果のサブセットからの対応する標的結果と比較することを含む、請求項1~7のいずれか一項に記載の方法。
  9. 前記1つ以上の事前定義された削減基準を満たすことは、前記複数の被験対象中の前記被験対象の数が、対象の閾値数を下回ったことを判定することを含む、請求項1~7のいずれか一項に記載の方法。
  10. 前記標的モデルが、畳み込みニューラルネットワークである、請求項1~9のいずれか一項に記載の方法。
  11. 前記予測モデルが、ランダム・フォレスト・ツリー、複数の多重加法的決定木を含むランダムフォレスト、ニューラルネットワーク、グラフ・ニューラル・ネットワーク、密なニューラルネットワーク、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、線形回帰、ナイーブ・ベイズ・アルゴリズム、多カテゴリ論理回帰アルゴリズム、またはそれらのアンサンブルを含む、請求項1~9のいずれか一項に記載の方法。
  12. 前記少なくとも1つの標的対象が、単一の対象であり、
    前記単一の対象が、ポリマーである、請求項1~11のいずれか一項に記載の方法。
  13. 前記ポリマーが、活性部位を含む、請求項12に記載の方法。
  14. 前記ポリマーが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはそれらの任意の組み合わせのアセンブリである、請求項12または13に記載の方法。
  15. 前記ポリマーが、2.5Å以上の分解能で分解された前記ポリマーの結晶構造の三次元座標のセット{x,...,x}に基づいて、前記標的モデルに適用される、請求項12に記載の方法。
  16. 前記ポリマーが、3.3Å以上の分解能で分解された前記ポリマーの結晶構造の三次元座標のセット{x,...,x}に基づいて、前記標的モデルに適用される、請求項12に記載の方法。
  17. 前記ポリマーが、核磁気共鳴、中性子回折、または低温電子顕微鏡法によって判定された前記ポリマーの三次元座標のアンサンブルである空間座標に基づいて、前記標的モデルに適用される、請求項12に記載の方法。
  18. 前記複数の被験対象が、前記排除することE)のインスタンスの適用前に、少なくとも5億個の被験対象、少なくとも10億個の被験対象、少なくとも20億個の被験対象、少なくとも30億個の被験対象、少なくとも40億個の被験対象、少なくとも50億個の被験対象、少なくとも60億個の被験対象、少なくとも70億個の被験対象、少なくとも80億個の被験対象、少なくとも90億個の被験対象、少なくとも100億個の被験対象、少なくとも110億個の被験対象、少なくとも150億個の被験対象、少なくとも200億個の被験対象、少なくとも300億個の被験対象、少なくとも400億個の被験対象、少なくとも500億個の被験対象、少なくとも600億個の被験対象、少なくとも700億個の被験対象、少なくとも800億個の被験対象、少なくとも900億個の被験対象、少なくとも1000億個の被験対象、または少なくとも1100億個の被験対象を含む、請求項1~19のいずれか一項に記載の方法。
  19. 前記1つ以上の事前定義された削減基準は、前記複数の被験対象が、30個以下の被験対象、40個以下の被験対象、50個以下の被験対象、60個以下の被験対象、70個以下の被験対象、90個以下の被験対象、100個以下の被験対象、200個以下の被験対象、300個以下の被験対象、400個以下の被験対象、500個以下の被験対象、600個以下の被験対象、700個以下の被験対象、800個以下の被験対象、900個以下の被験対象、または1000個以下の被験対象を有することを必要とする、請求項0に記載の方法。
  20. 前記複数の被験対象中の各被験対象が、化学化合物を表す、請求項1~19のいずれか一項に記載の方法。
  21. 前記初期の訓練された状態の前記予測モデルが、訓練されていないか、または部分的に訓練された分類子を含む、請求項1~20のいずれか一項に記載の方法。
  22. 前記更新された訓練された状態の前記予測モデルが、前記初期の訓練された状態の前記予測モデルとは別のものである、訓練されていないか、または部分的に訓練された分類子を含む、請求項1~21のいずれか一項に記載の方法。
  23. 前記被験対象のサブセットが、少なくとも1,000個の被験対象、少なくとも5,000個の被験対象、少なくとも10,000個の被験対象、少なくとも25,000個の被験対象、少なくとも50,000個の被験対象、少なくとも75,000個の被験対象、少なくとも100,000個の被験対象、少なくとも250,000個の被験対象、少なくとも500,000個の被験対象、少なくとも750,000個の被験対象、少なくとも100万個の被験対象、少なくとも200万個の被験対象、少なくとも300万個の被験対象、少なくとも400万個の被験対象、少なくとも500万個の被験対象、少なくとも600万個の被験対象、少なくとも700万個の被験対象、少なくとも800万個の被験対象、少なくとも900万個の被験対象、または少なくとも1,000万個の被験対象を含む、請求項1~22のいずれか一項に記載の方法。
  24. 前記被験対象の追加のサブセットが、少なくとも1,000個の被験対象、少なくとも5,000個の被験対象、少なくとも10,000個の被験対象、少なくとも25,000個の被験対象、少なくとも50,000個の被験対象、少なくとも75,000個の被験対象、少なくとも100,000個の被験対象、少なくとも250,000個の被験対象、少なくとも500,000個の被験対象、少なくとも750,000個の被験対象、少なくとも100万個の被験対象、少なくとも200万個の被験対象、少なくとも300万個の被験対象、少なくとも400万個の被験対象、少なくとも500万個の被験対象、少なくとも600万個の被験対象、少なくとも700万個の被験対象、少なくとも800万個の被験対象、少なくとも900万個の被験対象、または少なくとも1,000万個の被験対象を含む、請求項1~23のいずれか一項に記載の方法。
  25. 前記被験対象の追加のサブセットが、前記被験対象のサブセットとは別のものである、請求項23または24に記載の方法。
  26. 前記F)前記予測モデルを修正すること(iv)が、前記予測モデルを再訓練することを含む、請求項1に記載の方法。
  27. 前記訓練すること(C)が、前記少なくとも、i)前記被験対象のサブセットを前記予測モデルの複数の独立変数として、かつii)前記標的結果の対応するサブセットを前記予測モデルの複数の従属変数として使用することに加えて、iii)前記少なくとも1つの標的対象を前記予測モデルの独立変数として使用することをさらに含む、請求項1に記載の方法。
  28. 前記少なくとも1つの標的対象が、少なくとも2つの標的対象、少なくとも3つの標的対象、少なくとも4つの標的対象、少なくとも5つの標的対象、または少なくとも6つの標的対象を含む、請求項1または27に記載の方法。
  29. 前記複数の予測結果の前記インスタンスが、前記複数の被験対象中の各被験対象に対するそれぞれの予測結果を含む、請求項1に記載の方法。
  30. 前記修正することF)(iv)が、少なくとも1)前記被験対象のサブセットを独立変数として、かつ2)前記標的結果の対応するサブセットを前記予測モデルの対応する従属変数として使用することに加えて、3)前記少なくとも1つの標的対象を独立変数として使用することをさらに含む、請求項1~29のいずれか一項に記載の方法。
  31. 前記1つ以上の事前定義された削減基準が満たされている場合、前記方法が、
    i)前記複数の被験対象をクラスタ化し、それによって、前記複数の被験対象中の各被験対象を複数のクラスタ中のクラスタに割り当てることと、
    ii)少なくとも部分的に前記複数のクラスタ中の個々のクラスタの被験対象の冗長性に基づいて、前記複数の被験対象から1つ以上の被験対象を排除することと、をさらに含む、請求項1~30のいずれか一項に記載の方法。
  32. 前記方法が、
    i)前記複数の被験対象をクラスタ化し、それによって、前記複数の被験対象中の各被験対象を複数のクラスタ中のそれぞれのクラスタに割り当てることと、
    ii)少なくとも部分的に前記複数のクラスタ中の個々のクラスタの被験対象の冗長性に基づいて、前記複数の被験対象から前記被験対象のサブセットを選択することと、によって、前記複数の被験対象から前記被験対象のサブセットを選択することをさらに含む、請求項1~30のいずれか一項に記載の方法。
  33. 前記1つ以上の事前定義された削減基準が満たされている場合、前記方法が、前記予測モデルを前記複数の被験対象および前記少なくとも1つの標的対象に適用し、それによって、前記予測モデルに、前記複数の被験対象中の各被験対象に対するそれぞれの相互作用スコアを提供させることをさらに含む、請求項1~32のいずれか一項に記載の方法。
  34. 各それぞれの相互作用スコアが、それぞれの被験対象と前記少なくとも1つの標的対象との間の相互作用に対応する、請求項33に記載の方法。
  35. 各それぞれの相互作用スコアを使用して、前記少なくとも1つの標的対象を特徴付ける、請求項33または34に記載の方法。
  36. 前記排除すること(E)が、
    i)前記複数の被験対象をクラスタ化し、それによって、前記複数の被験対象中の各被験対象を複数のクラスタ中のそれぞれのクラスタに割り当てることと、
    ii)少なくとも部分的に前記複数のクラスタ中の個々のクラスタの被験対象の冗長性に基づいて、前記複数の被験対象から被験対象のサブセットを排除することと、を含む、請求項1に記載の方法。
  37. 前記複数の被験対象をクラスタリングすることが、密度ベースの空間クラスタリングアルゴリズム、分割クラスタリングアルゴリズム、凝集クラスタリングアルゴリズム、k平均クラスタリングアルゴリズム、教師ありクラスタリングアルゴリズム、またはそれらのアンサンブルを使用して実行される、請求項31、32、または36に記載の方法。
  38. 前記排除すること(E)が、
    前記複数の予測結果の前記インスタンスに基づいて、前記複数の被験対象をランク付けすることと、
    前記複数の被験対象から、閾値カットオフを満たす対応する予測結果を有するに至らない前記複数の被験対象中のそれらの被験対象を削除することと、を含む、請求項1に記載の方法。
  39. 前記閾値カットオフが、上位閾値パーセンテージである、請求項38に記載の方法。
  40. 前記上位閾値パーセンテージが、前記複数の予測結果の上位90パーセント、上位80パーセント、上位75パーセント、上位60パーセント、または上位50パーセントである、請求項39に記載の方法。
  41. 前記排除すること(E)の各インスタンスが、前記複数の被験対象中の前記被験対象の10分の1~10分の9を排除する、請求項1~40のいずれか一項に記載の方法。
  42. 前記排除すること(E)の各インスタンスが、前記複数の被験対象中の前記被験対象の4分の1~4分の3を排除する、請求項1~40のいずれか一項に記載の方法。
  43. 前記少なくとも1つの標的対象が、単一の標的対象であり、前記複数の被験対象からの被験対象のサブセット中の各それぞれの被験対象について、前記それぞれの被験対象および標的対象に適用して、対応する標的結果B)を取得することが、
    i)前記標的対象の空間座標を取得することと、
    ii)複数の異なるポーズ中の各ポーズの前記標的対象で前記それぞれの被験対象をモデル化し、それによって、複数のボクセルマップを作成することであって、前記複数のボクセルマップ中の各それぞれのボクセルマップが、前記複数の異なるポーズ中のそれぞれのポーズの前記被験対象を含む、作成することと、
    iii)前記複数のボクセルマップ中の各ボクセルマップを対応するベクトルに展開し、それによって、複数のベクトルを作成することであって、前記複数のベクトル中の各ベクトルが、同じサイズである、展開することと、
    iv)前記複数のベクトル中の各それぞれのベクトルを前記標的モデルに入力することであって、前記標的モデルが、(a)前記複数のベクトルを順次受け取るための入力層、(b)複数の畳み込み層、および(c)スコアラを含み、
    前記複数の畳み込み層が、初期畳み込み層および最終畳み込み層を含み、
    前記複数の畳み込み層中の各層が、重みの異なるセットと関連付けられ、
    前記複数のベクトル中のそれぞれのベクトルの入力に応答して、前記入力層が、前記それぞれのベクトルの値の第1の関数として、第1の複数の値を前記初期畳み込み層に供給し、
    前記最終畳み込み層以外の各それぞれの畳み込み層が、中間値を、(a)前記それぞれの畳み込み層と関連付けられた前記重みの異なるセットと、(b)前記それぞれの畳み込み層によって受け取られた入力値と、のそれぞれの第2の関数として、前記複数の畳み込み層中の別の畳み込み層に供給し、
    前記最終畳み込み層が、最終値を、(a)前記最終畳み込み層と関連付けられた前記重みの異なるセットと、(b)前記最終畳み込み層によって受け取られた入力値と、の第3の関数として、前記スコアラに供給する、入力することと、
    v)前記スコアラから対応する複数のスコアを取得することであって、前記対応する複数のスコア中の各スコアが、前記複数のベクトル中のベクトルの、前記入力層への前記入力に対応する、取得することと、
    vi)前記複数のスコアを使用して、前記対応する標的結果を計算することと、を含む、請求項1~42のいずれか一項に記載の方法。
  44. 前記スコアラが、複数の全結合層および評価層を含み、前記複数の全結合層中の全結合層が、前記評価層に供給する、請求項43に記載の方法。
  45. 前記スコアラが、決定木、多重加法的回帰木、クラスタリングアルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポート・ベクタ・マシン、進化的手法、射影追跡、およびそれらのアンサンブルを含む、請求項43に記載の方法。
  46. 前記複数のベクトル中の各ベクトルが、一次元ベクトルである、請求項43に記載の方法。
  47. 前記複数の異なるポーズが、2以上のポーズ、10以上のポーズ、100以上のポーズ、または1000以上のポーズを含む、請求項43に記載の方法。
  48. 前記複数の異なるポーズが、マークアップ・チェーン・モンテ・カルロ・サンプリング、模擬アニーリング、ラマルク遺伝的アルゴリズム、または遺伝的アルゴリズムのうちの1つにおけるドッキングスコアリング関数を使用して取得される、請求項43に記載の方法。
  49. 前記複数の異なるポーズが、貪欲アルゴリズムを使用して逐次検索によって取得される、請求項43に記載の方法。
  50. 前記複数のスコアを前記使用して前記対応する標的結果を計算することが、前記複数のスコアの中心傾向の尺度を測ることを含む、請求項43に記載の方法。
  51. 前記複数のスコアを前記使用して前記対応する標的結果を計算することが、前記複数のスコアを使用して前記それぞれの被験対象を特徴付けることが前記複数のスコアの加重平均を取ることを含む、請求項43に記載の方法。
  52. 前記複数の畳み込み層中のそれぞれの畳み込み層が、複数のフィルタを有し、前記複数のフィルタ中の各フィルタが、Nの立方体入力空間をストライドYで畳み込み、Nが、2以上の整数であり、Yが、正の整数である、請求項43に記載の方法。
  53. 前記それぞれの畳み込み層と関連付けられた前記重みの異なるセットが、前記複数のフィルタ中のそれぞれのフィルタと関連付けられる、請求項52に記載の方法。
  54. 前記スコアラが、複数の全結合層およびロジスティック回帰コスト層を含み、前記複数の全結合層中の全結合層が、前記ロジスティック回帰コスト層に供給する、請求項43に記載の方法。
  55. 被験対象データセットにおける複数の被験対象中の被験対象の数を削減するためのコンピュータシステムであって、
    1つ以上のプロセッサと、
    メモリと、
    1つ以上のプログラムと、を含み、前記1つ以上のプログラムが、前記メモリに記憶されており、前記1つ以上のプロセッサによって実行されるように構成されており、前記1つ以上のプログラムが、
    A)電子形式で、前記被験対象データセットを取得することと、
    B)前記複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、前記それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することと、
    C)少なくともi)前記被験対象のサブセットを独立変数として、かつii)前記標的結果の対応するサブセットを従属変数として使用して、初期の訓練された状態の予測モデルを訓練し、それによって、前記予測モデルを更新された訓練された状態に更新することと、
    D)更新された訓練された状態の前記予測モデルを前記複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することと、
    E)少なくとも部分的に前記複数の予測結果の前記インスタンスに基づいて、前記複数の被験対象から前記被験対象の一部分を排除することと、
    F)1つ以上の事前定義された削減基準が満たされているかどうかを判定することとであって、前記1つ以上の事前定義された削減基準が満たされない場合、前記方法が、
    (i)前記複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、前記標的モデルを前記それぞれの被験対象および少なくとも1つの標的対象に適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することであって、前記被験対象の追加のサブセットが、少なくとも部分的に前記複数の予測結果の前記インスタンス上で選択される、取得することと、
    (ii)前記被験対象のサブセットに前記被験対象の追加のサブセットを組み込むことによって、前記被験対象のサブセットを更新することと、
    (iii)前記標的結果のサブセットに前記標的結果の追加のサブセットを組み込むことによって、前記標的結果のサブセットを更新することと、
    (iv)前記更新すること(ii)および前記更新すること(iii)の後に、前記予測モデルを、少なくとも1)前記予測モデルの複数の独立変数としての前記被験対象のサブセット、および2)前記予測モデルの対応する複数の従属変数としての前記標的結果の対応するサブセットに適用することによって、前記予測モデルを修正し、それによって、更新された訓練された状態の前記予測モデルを提供することと、
    (v)前記適用すること(D)、排除すること(E)、および判定すること(F)を繰り返すことであって、前記複数の被験対象が、前記排除することE)のインスタンスの適用前に、少なくとも1億個の被験対象を含む、繰り返すことと、をさらに含む、判定することと、のための命令を含む、コンピュータシステム。
  56. 非一時的コンピュータ可読記憶媒体およびそれに埋め込まれた1つ以上のコンピュータプログラムであって、前記1つ以上のコンピュータプログラムが、コンピュータシステムによって実行されたとき、前記コンピュータシステムに、被験対象データセットにおける複数の被験対象中の被験対象の数を削減する方法を実行させる命令を含み、前記方法が、
    A)電子形式で、前記被験対象データセットを取得することと、
    B)前記複数の被験対象からの被験対象のサブセットの各それぞれの被験対象について、前記それぞれの被験対象および少なくとも1つの標的対象に標的モデルを適用して、対応する標的結果を取得し、それによって、標的結果の対応するサブセットを取得することと、
    C)少なくともi)前記被験対象のサブセットを独立変数として、かつii)前記標的結果の対応するサブセットを従属変数として使用して、初期の訓練された状態の予測モデルを訓練し、それによって、前記予測モデルを更新された訓練された状態に更新することと、
    D)更新された訓練された状態の前記予測モデルを前記複数の被験対象に適用し、それによって、複数の予測結果のインスタンスを取得することと、
    E)少なくとも部分的に前記複数の予測結果の前記インスタンスに基づいて、前記複数の被験対象から前記被験対象の一部分を排除することと、
    F)1つ以上の事前定義された削減基準が満たされているかどうかを判定することであって、前記1つ以上の事前定義された削減基準が満たされない場合、前記方法が、
    (i)前記複数の被験対象からの被験対象の追加のサブセットの各それぞれの被験対象について、前記標的モデルを前記それぞれの被験対象および少なくとも1つの標的対象に適用して、対応する標的結果を取得し、それによって、標的結果の追加のサブセットを取得することであって、前記被験対象の追加のサブセットが、少なくとも部分的に前記複数の予測結果の前記インスタンス上で選択される、取得することと、
    (ii)前記被験対象のサブセットに前記被験対象の追加のサブセットを組み込むことによって、前記被験対象のサブセットを更新することと、
    (iii)前記標的結果のサブセットに前記標的結果の追加のサブセットを組み込むことによって、前記標的結果のサブセットを更新することと、
    (iv)前記更新すること(ii)および前記更新すること(iii)の後に、前記予測モデルを、少なくとも1)前記予測モデルの複数の独立変数としての前記被験対象のサブセット、および2)前記予測モデルの対応する複数の従属変数としての前記標的結果の対応するサブセットに適用することによって、前記予測モデルを修正し、それによって、更新された訓練された状態の前記予測モデルを提供することと、
    (v)前記適用すること(D)、排除すること(E)、および判定すること(F)を繰り返すことであって、前記複数の被験対象が、前記排除すること(E)のインスタンスの適用前に、少なくとも1億個の被験対象を含む、繰り返すことと、をさらに含む、判定することと、を含む、非一時的コンピュータ可読記憶媒体およびそれに埋め込まれた1つ以上のコンピュータプログラム。
JP2022519999A 2019-10-03 2020-09-30 インシリコで化合物をスクリーニングするためのシステムおよび方法 Pending JP2022550550A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962910068P 2019-10-03 2019-10-03
US62/910,068 2019-10-03
PCT/US2020/053477 WO2021067399A1 (en) 2019-10-03 2020-09-30 Systems and methods for screening compounds in silico

Publications (2)

Publication Number Publication Date
JP2022550550A true JP2022550550A (ja) 2022-12-02
JPWO2021067399A5 JPWO2021067399A5 (ja) 2023-10-24

Family

ID=75274370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022519999A Pending JP2022550550A (ja) 2019-10-03 2020-09-30 インシリコで化合物をスクリーニングするためのシステムおよび方法

Country Status (5)

Country Link
US (1) US20210104331A1 (ja)
EP (1) EP4038555A4 (ja)
JP (1) JP2022550550A (ja)
CN (1) CN114730397A (ja)
WO (1) WO2021067399A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11709917B2 (en) * 2020-05-05 2023-07-25 Nanjing University Point-set kernel clustering
US20220171750A1 (en) * 2020-11-30 2022-06-02 Getac Technology Corporation Content management system for trained machine learning models
KR102457159B1 (ko) * 2021-01-28 2022-10-20 전남대학교 산학협력단 딥러닝 기반 화합물 의약 효과 예측 방법
US20220336054A1 (en) * 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
CN113850801B (zh) * 2021-10-18 2024-09-13 深圳晶泰科技有限公司 晶型预测方法、装置及电子设备
WO2023212463A1 (en) * 2022-04-29 2023-11-02 Atomwise Inc. Characterization of interactions between compounds and polymers using pose ensembles
CN116153390A (zh) * 2022-07-15 2023-05-23 上海图灵智算量子科技有限公司 基于量子卷积神经网络的药物结合能预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data

Also Published As

Publication number Publication date
US20210104331A1 (en) 2021-04-08
WO2021067399A1 (en) 2021-04-08
EP4038555A4 (en) 2023-10-25
CN114730397A (zh) 2022-07-08
EP4038555A1 (en) 2022-08-10

Similar Documents

Publication Publication Date Title
CN109964278B (zh) 通过并行评估分类器输出校正第一分类器中的误差
US11080570B2 (en) Systems and methods for applying a convolutional network to spatial data
JP2022550550A (ja) インシリコで化合物をスクリーニングするためのシステムおよび方法
Crampon et al. Machine-learning methods for ligand–protein molecular docking
JP7495124B2 (ja) 薬物発見および分子シミュレーションへの適用を伴う空間グラフ畳み込みのためのシステムおよび方法
CN108140131B (zh) 用于将卷积网络应用于空间数据的系统和方法
Ragoza et al. Protein–ligand scoring with convolutional neural networks
Reutlinger et al. Nonlinear dimensionality reduction and mapping of compound libraries for drug discovery
Griffiths et al. Optimal alignment of structures for finite and periodic systems
Aguiar-Pulido et al. Evolutionary computation and QSAR research
US20230154561A1 (en) Deep learning systems and methods for predicting structural aspects of protein-related complexes
JP2024537793A (ja) 負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け
WO2023212463A1 (en) Characterization of interactions between compounds and polymers using pose ensembles
Bouvier Protein–Protein Interface Topology as a Predictor of Secondary Structure and Molecular Function Using Convolutional Deep Learning
Ozkan et al. Baseline Comparisons of Complementary Sampling Methods for Assembly Driven by Short-Ranged Pair Potentials toward Fast and Flexible Hybridization
US20240177012A1 (en) Molecular Docking-Enabled Modeling of DNA-Encoded Libraries
Singh Surface similarity-based molecular query-retrieval
Singh Reasoning about molecular similarity and properties
Azencott Statistical machine learning and data mining for chemoinformatics and drug discovery
Zhang Multi-task and Multi-view Learning for Predicting Adverse Drug Reactions
Creighton et al. Informatics Tools for Functional Pathway Analysis Using Genomics and Proteomics
Yoldaş Predicting the effect of hydrophobicity surface on binding affinity of pcp-like compounds using machine learning methods

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240927