JP7121725B2 - 分類子出力を並行して評価することによる第1の分類子の誤差の訂正 - Google Patents

分類子出力を並行して評価することによる第1の分類子の誤差の訂正 Download PDF

Info

Publication number
JP7121725B2
JP7121725B2 JP2019505207A JP2019505207A JP7121725B2 JP 7121725 B2 JP7121725 B2 JP 7121725B2 JP 2019505207 A JP2019505207 A JP 2019505207A JP 2019505207 A JP2019505207 A JP 2019505207A JP 7121725 B2 JP7121725 B2 JP 7121725B2
Authority
JP
Japan
Prior art keywords
training
classifier
target
chemical compound
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019505207A
Other languages
English (en)
Other versions
JP2020515922A (ja
JP2020515922A5 (ja
Inventor
ハイフェッツ,エイブラハム,サミュエル
ワラッチ,イズハール
グェン,コン
Original Assignee
アトムワイズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アトムワイズ,インコーポレイテッド filed Critical アトムワイズ,インコーポレイテッド
Publication of JP2020515922A publication Critical patent/JP2020515922A/ja
Publication of JP2020515922A5 publication Critical patent/JP2020515922A5/ja
Application granted granted Critical
Publication of JP7121725B2 publication Critical patent/JP7121725B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)

Description

関連出願の相互参照
本願は、参照により本明細書に援用される、2017年3月30日に出願された「Systems and Methods for Correcting Error in a First Classifier by Evaluating Classifier Output in Parallel」と題する米国出願第15/473,980号の優先権を主張する。
以下は、概して、テストオブジェクトの分類を課せられる分類子の、例えばバイアス等の誤差を、パラレル形式による分類子からの連続出力の評価によって訂正することに関する。
深層学習技術等の分類子の適用は、大量のデータから関連性のあるインサイトを生成するために使用できる。分類子の使用は、さまざまな分野にわたって検討されている。具体的には、医療分野では、2009年のアメリカ復興再投資法及び2015年の精密医療イニシアチブは、医療における医療データの価値を幅広く承認している。いくつかの係るイニシアチブのため、医療ビッグデータは、2020年までに約50倍増大して25,000ペタバイトに達すると予想されている。インターネット上のrootsanalysis.comで入手可能なRoots Analysis、2017年2月22日、「Deep Learning in Drug Discovery and Diagnostics,2017-2035」を参照すること。
分類子は、従来のデータマイニング技術を使用し、貴重な/有意義なインサイトを生成するために使用できる。創薬におけるリード識別及び最適化、臨床試験のための患者募集におけるサポート、医療画像分析、バイオマーカ―識別、薬効分析、服薬遵守評価、シーケンシングデータ分析、仮想スクリーニング、分子プロファイリング、メタボロミクスデータ解析、EMR解析及び医療装置データ評価、的外れの副作用予測、毒性予測、効能最適化、ドラッグ・リパーパシング、薬剤耐性予測、オーダーメード医療、治験設計、農薬設計、材料科学、及びシミュレーションは、深層学習をベースにした解決策等の分類子の使用が検討されている応用の例である。
上述の分野での分類子をベースにした解決策の使用と関連付けられる起こり得る利益は、数十億ドルの価値があると推定される。例えば、深層学習モデルが、創薬プロセスを加速し、精密医療に解決策を提供した周知の例がある。ドラッグ・リパーパシング及び前臨床研究での応用例により、創薬における分類子の適用は大きな機会を有している可能性がある。診断法において、分類子に基づいた診断速度の加速は、患者対医師の比率が高い地方において多大な影響を与える可能性がある。係る解決策の実施は、医師の効率を高め、それによって過度に負担させられている世界的な医療システムを緩和する。
分類子の1つの欠点は、その誤差である。分類子の誤差の2つの主要な原因はバイアス及び分散である。バイアスによる誤差は、分類子の予想される(または平均的な)予測と分類子が予測しようと試みる正しい値との間の差異として解釈される。アプリケーションで使用される分類子は通常1つだけであるため、該分類子の期待値または平均的な予測値の概念は、直感に反している。しかしながら、毎回新しい訓練データを使用し、分類子訓練プロセスを複数回繰り返し、基本的なデータセットの不規則性のために新しい分類子を作成する新しい解析を実行する場合、結果として生じる分類子は一連の予測を有する。バイアスは、一般的にこれらの分類子の予測が正しい値からどれほど離れているのかを測定する。例えば、分類子を訓練するために使用される調査の参加者を選択するために電話帳を使用することは、バイアスのソースである。特定のクラスの人(登録電話番号を有するそれらの人)を調査するだけで、それは、分類子構築練習全体を繰り返すと、一貫して結果を歪曲する。同様に、回答者を追跡調査しないことは、それが得られた回答の混合を一貫して変更するのでバイアスの別のソースになる。
分散による分類子誤差は、所与のデータ点のための分類子予測の可変性として解釈される。再び、分類子構築プロセス全体が複数回繰り返される場合、分散は、所与の点のための予測が分類子の異なる実現の間でどれほど変化するのかである。訓練集団の小さいサンプルサイズが、分散のソースである。サンプルサイズが拡大される場合、結果は、調査及び予測が分類子訓練中に繰り返されるたびにより一貫するであろう。結果は、バイアスの大きいソースのために依然としてきわめて不正確である可能性があるが、予測の分散は削減される。
技術では、モデルの全誤差は、バイアスと分散を注意深く平衡させることによって最小限に抑えられている。しかしながら、例えば深層学習分類子等の分類子はより複雑になり、例えば非構造化データ及び/または訓練集合でほとんどの再現を使用できないデータ等の、データのより多くの型に適用されるので、誤差は、検出すること、ましてや訂正することはますます困難になる。上記の背景を所与として、より正確な結果を提供するために分類子の、例えばバイアス等の誤差を取り除く解決策に対する必要性がある。係る誤差における除去または改善は、2~3の改善された分類子の使用が価値を有する実践的な用途を挙げると、創薬におけるリード識別及び最適化、臨床試験のための患者募集におけるサポート、医療画像分析、バイオマーカ―識別、薬効分析、服薬遵守評価、シーケンシングデータ分析、仮想スクリーニング、分子プロファイリング、メタボロミクスデータ解析、EMR解析、及び医療装置データ評価、的外れの副作用予測、毒性予測、効能最適化、ドラッグ・リパーパシング、薬剤耐性予測、オーダーメード医療、治験設計、農薬設計、材料科学、及びシミュレーションにおいて応用性を有する。
本開示は、テストオブジェクトを分類するために、例えばバイアス等の分類子誤差を改善するためのシステム及び方法を提供することによって背景技術で識別された欠陥に対処する。複数のターゲットオブジェクトにおける各それぞれのターゲットオブジェクトのために、第1の手順は実行される。第1の手順は、それぞれのターゲットオブジェクトに対してテストオブジェクトを提示し、それによってテストオブジェクトとターゲットオブジェクトとの間の相互作用を入手することを含む。第1の手順は、さらに、第1の分類子との相互作用を採点する。該複数のターゲットオブジェクト全体での係る各スコアは、第2の分類子に入力されるテストベクトルを形成し、それによって該複数のターゲットオブジェクトの中からターゲットオブジェクトの表示を入手する。第2の分類子は訓練ベクトルに関して訓練され、それぞれが、第1の手順に従って複数の訓練オブジェクトの対応する訓練オブジェクトを入力した後の第1の分類子の例からの出力である。訓練オブジェクトの1つの部分集合内の各オブジェクトは、標的のうちの1つと一意に関連付けられる。訓練オブジェクトの別の部分集合は、標的と関連付けられない。このようにして、例えばバイアス等の第1の分類子の誤差は、第2の分類子によって訂正される。
本開示の1つの態様は、テストオブジェクトの分類のためのコンピュータシステムを提供する。コンピュータシステムは、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによってアドレス指定可能な非一過性メモリを含む。非一過性メモリは、少なくとも1つのプロセッサによる実行のための1つ以上のプログラムを記憶する。1つ以上のプログラムは、テストオブジェクトの記述を入手するための命令を含む。
第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクトのために、1つ以上のプログラムは、第1の手順を実行するための命令を含む。第1の手順は、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示し、それによってテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手することを含む。第1の手順は、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を第1の分類子に入力し、それによって第1の分類子からテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用のための対応するスコアを入手することを含む。このようにして、テストオブジェクトと、第1の複数のターゲットオブジェクト全体でのそれぞれのターゲットオブジェクトとの間の相互作用のための対応する各スコアは、テストオブジェクトのためのテストベクトルを形成する。テストオブジェクトのためのテストベクトルは、第2の分類子に入力され、それによって第2の分類子からの出力としてテストベクトルのための変換を入手する。変換は、第1の複数のターゲットオブジェクトの単一のターゲットオブジェクトの表示を提供する。
本開示の本態様によれば、第2の分類子は、複数の訓練ベクトルに関して訓練される。複数の訓練ベクトルのそれぞれの各訓練ベクトルは、第1の手順に従ってテストオブジェクトとして第1の複数の訓練オブジェクトの対応する訓練オブジェクトを入力した後の第1の分類子からの出力である。第1の複数の訓練オブジェクトの第1の部分集合の各訓練オブジェクトは、第1の複数のターゲットオブジェクトの対応するターゲットオブジェクトと一意に関連付けられる。第1の複数の訓練オブジェクトの第2の部分集合の各訓練オブジェクトは、第1の複数のターゲットオブジェクトのターゲットオブジェクトと関連付けられていない。
いくつかの実施形態では、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示し、それによってテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手することは、第2の手順によって実行される。第2の手順は、複数の異なるポーズの各ポーズでそれぞれのターゲットオブジェクトでテストオブジェクトをモデル化し、それによって複数のボクセルマップを作成することを含み、複数のボクセルマップのそれぞれの各ボクセルマップは、複数の異なるポーズのそれぞれのポーズのテストオブジェクトを含む。複数のボクセルマップの各ボクセルマップは、対応する第1の分類子入力ベクトルに展開され、それによって第1の分類子入力ベクトルを作成し、複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトルは同じサイズである。係る実施形態では、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を第1の分類子に入力することは、複数の第1の分類子入力ベクトルのそれぞれの各第1の分類子入力ベクトルを第1の分類子に入力することを含む。
いくつかの係る実施形態では、第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクトは、活性部位を有するポリマーであり、テストオブジェクトは化学組成物であり、複数の異なるポーズの各ポーズのそれぞれのターゲットオブジェクトでテストオブジェクトをモデル化することは、それぞれのターゲットオブジェクトの原子表示に結び付けられたテストオブジェクトの原子表示の分子動力学ランを実行し、それによって経時的にともにテストオブジェクト及びそれぞれのターゲットオブジェクトの軌跡を形成することを含む。係る実施形態では、複数の異なるポーズの少なくとも1つの部分集合は、ある期間にわたり軌跡のスナップショットを撮ることによって入手される。
いくつかの係る実施形態では、第1の分類子は、(i)複数の第1の分類子入力ベクトルのそれぞれの第1の分類子入力ベクトルを連続して受け取るための入力層と、(ii)複数の畳み込み層と、(iii)スコアラとを含む、ネットワークアーキテクチャを含む。さらに、複数の畳み込み層は、初期畳み込み層及び最終畳み込み層を含み、複数の畳み込み層の各層は、重みの異なる集合と関連付けられる。複数の第1の分類子入力ベクトルのそれぞれの第1の分類子入力ベクトルの第1の分類子への入力に応えて、入力層は、それぞれの第1の分類子入力ベクトルの値の第1の関数として、第1の複数の値を初期畳み込み層に送り込む。最終畳み込み層以外のそれぞれの各畳み込み層は、(i)それぞれの畳み込み層と関連付けられた重みの異なる集合、及び(ii)それぞれの畳み込み層によって受け取られる入力値のそれぞれの第2の関数として、中間値を複数の畳み込み層の別の畳み込み層に送り込む。最終畳み込み層は、(i)最終畳み込み層と関連付けられた重みの異なる集合、及び(ii)最終畳み込み層によって受け取られる入力値の第3の関数として、最終値をスコアラに送り込む。係る実施形態では、第2の手順は、さらに、スコアラから複数のスコアを入手することであって、複数のスコアの各スコアは、複数の第1の分類子入力ベクトルの第1の分類子入力ベクトルの入力層への入力に対応する、該入手すること、及びテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために複数のスコアを使用することを含む。
いくつかの係る実施形態では、コンピュータシステムは、さらに、図形処理メモリを有する図形処理ユニットを含み、図形処理メモリはネットワークアーキテクチャを含む。
いくつかの係る実施形態では、スコアラは、複数の完全結合層及び評価層を含み、複数の完全結合層の完全結合層は、評価層に流れ込む。
いくつかの係る実施形態では、スコアラは、決定木、多重相加的回帰木、クラスタ化アルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポートベクトルマシン、発展的方法、射影追跡、ロジスティック回帰、またはそのアンサンブルの実施態様を含む。
いくつかの係る実施形態では、複数の畳み込み層の畳み込み層は、複数のフィルタを有し、複数のフィルタの各フィルタは、ストライドYでN3の三次元入力空間を畳み込み、Nは2以上の整数であり、Yは正の整数である。いくつかの実施形態では、畳み込み層と関連付けられた重みの異なる集合は、複数のフィルタのそれぞれのフィルタと関連付けられる。
いくつかの実施形態では、スコアラは、複数の完全結合層及びロジスティック回帰コスト層を含み、複数の完全結合層の完全結合層は、ロジスティック回帰コスト層に流れ込む。
いくつかの係る実施形態では、複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトルは、一次元である。いくつかの実施形態では、複数の異なるポーズは2つ以上のポーズ、10以上のポーズ、100以上のポーズ、または1000以上のポーズを含む。いくつかの実施形態では、複数の異なるポーズは、マルコフチェーンモンテカルロサンプリング、焼き鈍し法、ラマルク遺伝的アルゴリズム、遺伝的アルゴリズム、または深層畳み込みニューラルネットサンプリングのうちの1つで、ドッキングスコアリング関数を使用し、入手される。いくつかの実施形態では、複数の異なるポーズは、欲張りアルゴリズムを使用し、インクリメンタルサーチによって入手される。
いくつかの実施形態では、第2の手順は、さらに、第1の分類子から複数のスコアを入手することを含み、複数のスコアの各スコアは、複数の第1の分類子入力ベクトルの第1の分類子入力ベクトルの第1の分類子への入力に対応する。複数のスコアは、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために使用される。係る実施形態では、テストオブジェクトは化合物である。テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために複数のスコアを使用することは、複数のスコアの代表値をとることを含む。代表値が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述は、第1の分類を有すると見なされる。代表値が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述は、第2の分類を有すると見なされる。いくつかの係る実施形態では、第1の分類は、テストオブジェクトがIC50、EC50、Kd、KI、または第1の結合値未満である阻害パーセントを有するそれぞれのターゲットオブジェクトに結合する旨の予測であり、第2の分類は、テストオブジェクトが、IC50、EC50、Kd、KI、または第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモル等)を超える阻害パーセントを有するそれぞれのターゲットオブジェクトに結合する旨の予測である。
代替実施形態では、第2の手順は、さらに、第1の分類子から複数のスコアを入手することを含み、複数のスコアの各スコアは、複数の第1の分類子入力ベクトルの第1の分類子入力ベクトルの第1の分類子への入力に対応し、複数のスコアは、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために使用される。テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために複数のスコアを使用することは、複数のスコアの加重平均をとることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトは、第1の分類を有すると見なされる。加重平均が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは、第2の分類を有すると見なされる。いくつかの係る実施形態では、加重平均は、複数のスコアのボルツマン平均である。いくつかの係る実施形態では、第1の分類は、IC50、EC50、Kd、KI、または第1の結合値を超えるそれぞれのターゲットオブジェクトに関してテストオブジェクトのための阻害パーセントであり、第2の分類は、IC50、EC50、Kd、KI、または第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモル等)未満であるそれぞれのターゲットオブジェクトに関してテストオブジェクトのための阻害パーセントである。いくつかの係る実施形態では、第1の分類は、テストオブジェクトがIC50、EC50、Kd、KI、または第1の結合値未満である阻害パーセントを有するそれぞれのターゲットオブジェクトに結合する旨の予測であり、第2の分類は、テストオブジェクトが、IC50、EC50、Kd、KI、または第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、100マイクロモル、または1ミリモル等)を超える阻害パーセントを有するそれぞれのターゲットオブジェクトに結合する旨の予測である。
いくつかの実施形態では、第1の複数の異なるターゲットオブジェクトの各ターゲットオブジェクトは、ポリマー(例えば、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸(polyribonucleic acid)、多糖、またはその任意の組み合わせのアセンブリ)である。
いくつかの実施形態では、第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクトは、ポリマーであり、3.3Å以上、2.5Å以上、または2.0Å以上の分解能で分解されたポリマーの結晶構造のために、三次元座標{x、...、x}の集合の形でそれぞれのターゲットオブジェクトのための空間座標に対するテストオブジェクトの記述を提示することを含む。
いくつかの実施形態では、第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクトは、ポリマーであり、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示することは、核磁気共鳴、中性子回折、または低温電子顕微鏡法によって決定されるポリマーのための三次元座標のアンサンブルの形でそれぞれのターゲットオブジェクトのための空間座標に対するターゲットオブジェクトのテストオブジェクトの記述を提示することを含む。
いくつかの係る実施形態では、第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクトは、活性部位を有するポリマーであり、テストオブジェクトは化学組成物であり、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示することは、テストオブジェクトの原子表示をポリマーの活性部位の原子表示にドッキングすることを含む。
いくつかの実施形態において、第1の分類子は複数の重みを含み、方法は、さらに、テストオブジェクトの記述を入手する前に、訓練データセットを取得することを含む。訓練データセットは、第2の複数の訓練オブジェクト、第2の複数のターゲットオブジェクト、及び複数の実験的に決定したスコアを含む。複数の実験的に決定したスコアのそれぞれの各実験的に決定したスコアは、第2の複数の訓練オブジェクトの対応する訓練オブジェクトと、第2の複数のターゲットオブジェクトの対応するターゲットオブジェクトとの間の相互作用のためである。第2の複数の訓練オブジェクトのそれぞれの各訓練オブジェクトのために、第2の手順を実行することは、第2の複数のターゲットオブジェクトの対応するターゲットオブジェクトに対するそれぞれの訓練オブジェクトの記述を提示し、それによって訓練オブジェクトと対応するターゲットオブジェクトとの間の相互作用の記述を入手することを含む。第2の手順は、さらに、それぞれの訓練オブジェクトと対応するターゲットオブジェクトとの間の相互作用の記述を第1の分類子に入力し、それによって訓練オブジェクトと対応するターゲットオブジェクトとの間の相互作用の対応するスコアを入手することを含む。第2の手順は、さらに、(iii)(1)それぞれの訓練オブジェクトと対応するターゲットオブジェクトとの間の相互作用の記述のための第1の分類子からの対応するスコアと、(2)それぞれの訓練オブジェクトと訓練データセットからの対応するターゲットオブジェクトとの間の相互作用のための実験的に決定したスコアとの間の差異を決定することを含む。第2の手順は、さらに(iv)複数の重みに差異を適用することを含む。いくつかの係る実施形態では、第2の複数のターゲットオブジェクトは、第1の複数のターゲットオブジェクトと同じである。いくつかの係る実施形態では、第2の複数のターゲットオブジェクトと第1の複数のターゲットオブジェクトとの間に部分的な重複しかない。いくつかの係る実施形態では、第2の複数のターゲットオブジェクトと第1の複数のターゲットオブジェクト間には重複はない。いくつかの係る実施形態では、第1の複数のターゲットオブジェクトは、第2の複数のターゲットオブジェクトの部分集合である。いくつかの係る実施形態では、第2の複数のターゲットオブジェクトは、50以上のターゲットオブジェクトである。いくつかの係る実施形態では、第2の複数のターゲットオブジェクトは、100以上のターゲットオブジェクトである。いくつかの係る実施形態では、第2の複数のターゲットオブジェクトは、250以上のターゲットオブジェクトである。いくつかの係る実施形態では、第1の複数の訓練オブジェクトは、第2の複数のターゲットオブジェクトの訓練オブジェクトと同じである。いくつかの係る実施形態では、第1の複数の訓練オブジェクトは、第2の複数の訓練オブジェクトとは異なる。
いくつかの係る実施形態では、第1の複数の訓練オブジェクトの第1の部分集合は、1000の訓練オブジェクトを含み、第1の複数のターゲットオブジェクトは、100のターゲットオブジェクトを含み、第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクトのために、第1の複数の訓練オブジェクトの第1の部分集合は、それぞれのターゲットオブジェクトと一意に関連付けられる少なくとも5つのターゲットオブジェクトを含み、第1の複数の訓練オブジェクトの第2の部分集合は、10000の訓練オブジェクトを含む。
いくつかの実施形態では、第1の複数の訓練オブジェクトのそれぞれの各訓練オブジェクトは、それぞれの訓練オブジェクトと同じターゲットオブジェクトと一意に関連付けられていない第1の複数の訓練オブジェクトの任意の訓練オブジェクトの分子指紋に似ていない対応する分子指紋を有する化合物である。いくつかの係る実施形態では、対応する分子指紋は、それぞれの訓練オブジェクトのDaylightフィンガープリント、BCIフィンガープリント、ECFPフィンガープリント、ECFCフィンガープリント、MDLフィンガープリント、原子対フィンガープリント(APFPフィンガープリント)、トポロジカルフィンガープリント(topological torsion fingerprint(TTFPフィンガープリント))、またはUNITY 2Dフィンガープリントである。いくつかの実施形態では、それぞれの訓練オブジェクトの対応する分子指紋は、それぞれの訓練オブジェクトと他の訓練オブジェクトの分子指紋との間のタニモト(Tanimoto)係数が0.70未満または0.60未満であるとき、第1の複数の訓練オブジェクトの別の訓練オブジェクトの分子指紋に似ていないと見なされる。
いくつかの実施形態では、第1の分類子は、ニューラルネットワークまたはサポートベクトルマシンを含む。
いくつかの実施形態では、第2の分類子は、ロジスティック回帰アルゴリズム、ランダムフォレスト、非線形回帰モデル、線形回帰アルゴリズム、カーネル法、決定木、多次元スプライン(MARS)、または多重相加的回帰木を含む。
いくつかの実施形態では、テストオブジェクトは、2000ダルトン未満の分子量を有する化合物である。いくつかの実施形態では、テストオブジェクトは、リピンスキーのルールオブファイブ基準を満たす化合物である。いくつかの実施形態では、テストオブジェクトは化合物であり、テストオブジェクトの記述は、化合物のためのモデル化された原子座標を含む。
いくつかの実施形態では、テストオブジェクトは化合物であり、それぞれのターゲットオブジェクトは、結合ポケットを有するポリマーを含み、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示することは、化合物のためのモデル化された原子座標を結合ポケットのための原子座標にドッキングすることを含む。
いくつかの実施形態では、テストオブジェクトと第1の分類子からのそれぞれのターゲットオブジェクトとの間の相互作用のための対応するスコアは、数値スコアである。いくつかの実施形態では、テストオブジェクトと第1の分類子からのそれぞれのターゲットオブジェクトとの間の相互作用のための対応するスコアは、ゼロと1の間の数値スコアである。
いくつかの実施形態では、第1の複数のターゲットオブジェクトは、100のターゲットオブジェクトを含み、テストオブジェクトのためのテストベクトルは、100の要素を含み、各要素は、テストオブジェクトと、第1の分類子からの第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクトとの間の相互作用のためのスコア用である。
本開示の別の態様は、テストオブジェクトの分類のための方法を提供する。方法は、本明細書に開示される治療方法のいずれかを実行することを含む。
本開示の別の態様は、テストオブジェクトの分類のための方法を提供する。方法は、テストオブジェクトの記述を入手することを含む。第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクトのために、方法は、第1の手順を実行することを含む。第1の手順は、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示し、それによってテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手することを含む。第1の手順は、さらに、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を第1の分類子に入力し、それによって第1の分類子からテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の対応するスコアを入手することを含む。テストオブジェクトと第1の複数のターゲットオブジェクト全体でのそれぞれのターゲットオブジェクトとの間の相互作用のための対応する各スコアは、テストオブジェクトのためのテストベクトルを形成する。方法は、さらに、テストオブジェクトのためのテストベクトルを第2の分類子に入力し、それによって第2の分類子から出力としてテストベクトルのための変換を入手することを含む。変換は、第1の複数のターゲットオブジェクトの単一のターゲットオブジェクトの表示を提供する。第2の分類子は、複数の訓練ベクトルに関して訓練される。複数の訓練ベクトルのそれぞれの各訓練ベクトルは、第1の手順に従ってテストオブジェクトとして第1の複数の訓練オブジェクトの対応する訓練オブジェクトを入力した後の第1の分類子からの出力である。第1の複数の訓練オブジェクトの第1の部分集合の各訓練オブジェクトは、第1の複数のターゲットオブジェクトの対応するターゲットオブジェクトと一意に関連付けられる。第1の複数の訓練オブジェクトの第2の部分集合の各訓練オブジェクトは、第1の複数のターゲットオブジェクトのターゲットオブジェクトと関連付けられていない。
本開示の別の態様は、テストオブジェクトの分類のためにシステムのプロセッサによって実行されるときに、プロセッサに本明細書に開示される方法のいずれかの動作を実行させる命令を記憶した非一過性コンピュータ可読記憶媒体を提供する。
本開示の別の態様は、テストオブジェクトの分類のためにシステムのプロセッサによって実行されるときに、プロセッサにテストオブジェクトの記述を入手する動作を実行させる命令を記憶した非一過性コンピュータ可読記憶媒体を提供する。第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクトのために、命令は、さらに、プロセッサにそれぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示し、それによってテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手することを含んだ第1の手順を実行させる。第1の手順は、さらに、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を第1の分類子に入力し、それによって第1の分類子からテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の対応するスコアを入手することを含む。テストオブジェクトと第1の複数のターゲットオブジェクト全体でのそれぞれのターゲットオブジェクトとの間の相互作用のための対応する各スコアは、テストオブジェクトのためのテストベクトルを形成する。命令は、さらに、プロセッサに、テストオブジェクトのためのテストベクトルを第2の分類子に入力させ、それによって第2の分類子からの出力としてテストオブジェクトのための変換を入手させる。変換は、第1の複数のターゲットオブジェクトの単一のターゲットオブジェクトの表示を提供する。第2の分類子は、複数の訓練ベクトルに関して訓練される。複数の訓練ベクトルのそれぞれの各訓練ベクトルは、第1の手順に従ってテストオブジェクトとして第1の複数の訓練オブジェクトの対応する訓練オブジェクトを入力した後の第1の分類子からの出力である。第1の複数の訓練オブジェクトの第1の部分集合の各訓練オブジェクトは、第1の複数のターゲットオブジェクトの対応するターゲットオブジェクトと一意に関連付けられる。さらに、第1の複数の訓練オブジェクトの第2の部分集合の各訓練オブジェクトは、第1の複数のターゲットオブジェクトのターゲットオブジェクトと関連付けられていない。
図面中、本開示のシステム及び方法の実施形態は、例として示される。説明及び図面は、説明のために及び理解の補助としてのみであり、本開示のシステム及び方法の制限の定義として意図されていないことが明確に理解されるべきである。
同様の参照数字は、いくつかの図にわたって対応する部分を指す。
パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するためのコンピュータシステムを示し、分類子は、いくつかの実施形態に従ってテストオブジェクトを分類することを課される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するためのコンピュータシステムを示し、分類子は、いくつかの実施形態に従ってテストオブジェクトを分類することを課される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するための方法を示し、分類子は、テストオブジェクトを分類することを課され、任意選択のステップはいくつかの実施形態に従って破線ボックスで示される。 一実施形態に係る、ターゲットオブジェクトに対する2つの異なるポーズの例のテストオブジェクトの概略図である。 一実施形態に係る、ボクセル(ボクセルマップ)の三次元グリッドの形の入力特徴の幾何学的表現の概略図である。 一実施形態に係る、ボクセルの二次元グリッドに符号化されたオブジェクトの図である。 一実施形態に係る、ボクセルの二次元グリッドに符号化されたオブジェクトの図である。 一実施形態に従って、ボクセルが番号を付けられた図6の視覚化の図である。 一実施形態に係る、原子中心の座標場所の形の入力特徴の幾何学的表現の概略図である。 一実施形態に係る、一連の場所を有する図8の座標場所の概略図である。 多重関数計算要素(g1、g2...)をボクセル入力(x1、x2、...、x100)に適用し、g()を使用し、ともに関数計算要素出力を作成することの図である。
次に、実施形態を詳細に参照し、その例を添付図面に示す。以下の発明を実施するための形態では、本開示の完全な理解を提供するために、多くの具体的な詳細が述べられている。しかしながら、本開示は、これらの具体的な詳細なしに実施され得ることが、当業者に明らかになる。他の例では、周知の方法、手順、構成要素、回路、及びネットワークは、実施形態の態様を不必要に曖昧にしないように、詳細には説明されていない。
また、用語、第1の、第2の等は、種々の要素を説明するために本明細書で使用されてよいが、これらの要素がこれらの用語によって制限されるべきではないことも理解される。これらの用語は、ある要素を別の要素と区別するためだけに使用される。例えば、本開示の範囲から逸脱することなく、第1の主題は第2の主題を称され、同様に第2の主題は第1の主題と称されるであろう。第1の主題及び第2の主題はともに主題であるが、第1の主題及び第2の主題は同じ主題ではない。
本開示に使用される用語は、特定の実施形態を説明する目的のためだけであり、本発明を限定することを意図するものではない。本発明の説明及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」、及び「the」は、文脈が他に明確に示さない限り、複数形をも含むことが意図される。また、本明細書で使用される用語「及び/または」は、関連付けられた示されている項目のうちの1つ以上のありあらゆる考えられる組み合わせを指し、包含することも理解される。用語「含む(comprise)」及び/または「含んだ(comprising)」は、本明細書で使用されるとき、述べられる特徴、整数、ステップ、動作、要素、及び/または構成要素の存在を指定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、及び/またはそれらのグループを排除の存在を排除しないことがさらに理解されよう。
本明細書で使用されるように、用語「場合(if)」は、文脈に応じて「とき(when)」または「時(upon)」または「決定することに応えて(in response to determining)」、または「検出することに応えて(in response to detecting)」を意味すると解釈されてよい。同様に、句「と決定される場合(if it is determined)」または「[述べられている条件または事象が(a stated condition or event)]検出される場合」は、文脈に応じて、「決定時(upon determining)」または「決定することに応えて(in response to determining)」または「[述べられている条件または事象が(the stated condition or event)]を検出時(upon detecting)」または「[述べられている条件または事象(the stated condition or event)]を検出したのに応えて(in response to detecting)」を意味すると解釈されてよい。
本開示は、第1の分類子及び第2の分類子を使用し、テストオブジェクトを分類するためのシステム及び方法を提供する。第2の分類子は、第1の分類子における例えばバイアス等の誤差を最小限に抑えるまたは削減するために機能する。テストオブジェクトは、第1の分類子及び第2の分類子によって複数のターゲットオブジェクトに対して分類され、最終的には、第1の分類子と第2の分類子の両方とも、テストオブジェクトがターゲットオブジェクトのうちのどのターゲットオブジェクトと関連付けられるのかを選択する。一例に、いくつかの実施形態では、テストオブジェクトは小分子化合物であり、各ターゲットオブジェクトは、活性部位(例えば、酵素)を有するタンパク質である。第1の分類子及び第2の分類子は、もしあれば、どのターゲットオブジェクトにテストオブジェクトが結合するのかを決定するために、各ターゲットオブジェクト及びテストオブジェクトの原子座標を使用する。本開示では、これは、以下の通りに行われる。複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクトのために、第1の手順が実行される。第1の手順では、テストオブジェクトは、それぞれの標的に対して提示され、それによってテストと標的との間の相互作用を入手する。例えば、上記の小分子の例では、小分子は、なんらかの向きでそれぞれのターゲットオブジェクトの活性部位でドッキングされる。第1の手順は、テストオブジェクト及びターゲットオブジェクトを、第1の分類子で採点することによって続行する。第1の手順は、テストオブジェクトで係る各ターゲットオブジェクトのスコアを入手するために、複数のターゲットオブジェクトの各ターゲットオブジェクトで、テストオブジェクトに対して独立して実行される。複数のターゲットオブジェクト全体での係る各スコアが、テストベクトルを形成する。テストベクトルの各要素は、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用のための第1の分類子からのスコアである。テストベクトルは、第2の分類子に入力され、それによってターゲットオブジェクトの表示を入手する。テストオブジェクトで第1の手順を実行する前に、第2の分類子は、訓練ベクトルに関して訓練される。係る各訓練ベクトルは、第1の手順に従って複数の訓練オブジェクトの対応する訓練オブジェクトを入力した後の第1の分類子の例からの出力である。すなわち、1つ以上のターゲットオブジェクトに対するその親和性が既知である訓練オブジェクトは、第1の手順に従って第1の分類子に入力される。したがって、訓練オブジェクトとターゲットオブジェクトとの間の親和性が既知である1つ以上のターゲットオブジェクトのそれぞれについて、第1の分類子は、訓練オブジェクトとターゲットオブジェクトとの間の相互作用を評価し、実際の親和性に比較される。これらの比較は、次いで第1の分類子を訓練するために使用される。訓練オブジェクトの1つの部分集合内の各オブジェクトは、標的のうちの1つと一意に関連付けられる。例えば、タンパク質を結合する小分子化合物の例では、小分子は標的タンパク質のうちの1つに結合するが、他の標的タンパク質にとって感知できるほどの結合を有さない。訓練オブジェクトの別の部分集合は、標的と関連付けられない。
図1は、本開示に説明する方法を実施するコンピュータシステム100を示す。例えば、コンピュータシステム100は、1つ以上のテストオブジェクト(例えば、化合物)の1つ以上のターゲットオブジェクト(例えば、ポリマー)の集合との結合親和性に関する正確な予測を生成するために結合親和性予測システムとして使用できる。
図1A及び図1Bを参照すると、典型的な実施形態では、分析コンピュータシステム100は、1つ以上のコンピュータを含む。図1A及び図1Bでの説明のために、分析コンピュータシステム100は、開示されている分析コンピュータシステム100の機能性のすべてを含む単一のコンピュータとして表されている。しかしながら、本開示はこのように限定されない。分析コンピュータシステム100の機能性は、任意の数のネットワーク化されたコンピュータにわたって拡散されてよい、及び/またはいくつかのネットワーク化されたコンピュータのそれぞれに常駐してよい。当業者は、豊富な異なるコンピュータトポロジーが分析コンピュータシステム100に対して考えられ、すべての係るトポロジーは本開示の範囲内にあることを理解する。
上記を念頭に図1A及び図1Bを参照すると、分析コンピュータシステム100A/100Bは、1つ以上の処理ユニット(CPU)74、ネットワークもしくは他の通信インタフェース84、(例えば、ディスプレイ82及びキーボード80または他の形の入力装置を含んだ)ユーザーインタフェース78、メモリ92(例えば、ランダムアクセスメモリ)、1つ以上のコントローラ88によって任意選択でアクセスされる1つ以上の磁気ディスク記憶装置及び/または永続/不揮発性装置90、上記構成要素を相互接続するための1つ以上の通信バス12、ならびに上記構成要素に電力を供給するための電源76を含む。メモリ92内のデータは、例えばキャッシング等の既知のコンピューティング技術を使用し、不揮発性メモリ90とシームレスに共用できる。メモリ92及び/またはメモリ90は、中央演算処理装置(複数可)74に対して遠隔に配置されるマスストレージを含む場合がある。言い換えると、メモリ92及び/またはメモリ90に記憶されるいくらかのデータは、事実上、分析コンピュータシステム100A/100Bにとって外部であるコンピュータ上でホストされてよいが、それは、インターネット、イントラネット、またはネットワークインタフェース84を使用する他の形のネットワークもしくは電子ケーブルを介して分析コンピュータシステムによって電子的にアクセスできる。
図1Aを参照すると、分析コンピュータシステム100Aのメモリ92は、以下を記憶する。
・ 種々の基本システムサービスを扱うための手順を含むオペレーティングシステム54
・ 第1の分類子102及び第2の分類子108を使用する、ターゲットオブジェクト58に対するテストオブジェクト72(及び図1Bの訓練オブジェクト66)の分類のための分類子バイアス評価モジュール56
・ テストオブジェクト/訓練オブジェクト72/66とそれぞれのターゲットオブジェクト58/65との間の相互作用を評価するための第1の分類子102
・ テストベクトル104の各要素が、テストオブジェクト72と、複数のターゲットオブジェクト全体でのそれぞれのターゲットオブジェクト58との間の相互作用のための第1の分類子102からの対応するスコア106を含んだ、1つ以上のテストベクトル104
・ テストベクトル104を、複数のターゲットオブジェクトの単一のターゲットオブジェクト110(58)の表示に変換するための第2の分類子108
・ テストオブジェクトの記述73を含んだ、テストオブジェクト72のための情報
・ 構造データ60及び任意選択で活性部位情報62等のターゲットオブジェクトの記述を含んだ、1つ以上のターゲットオブジェクト58のためのデータ、及び
・ それぞれの各訓練オブジェクト113のために、第1の分類子102からの1つ以上の対応するスコア118を含む訓練ベクトル116の形のそれぞれの訓練オブジェクト113の訓練オブジェクト関連114を含む、第2の分類子108のためのオブジェクト訓練ライブラリ112であって、係る各対応するスコア118は、それぞれの訓練オブジェクト113と対応するターゲットオブジェクト58との間の相互作用用である、オブジェクト訓練ライブラリ112。
図1Bを参照すると、分析コンピュータシステム100Bは、さらに、GPU52を有する図形処理ユニット(GPU)50を含む。分析コンピュータシステム100Bのメモリ92は、以下を記憶する。
・ 種々の基本システムサービスを扱うための手順を含むオペレーティングシステム54
・ (図1Aの)第1の分類子102及び第2の分類子108を使用する、ターゲットオブジェクト58に対するテストオブジェクト72(及び図1Bの訓練オブジェクト66)の分類のための分類子バイアス評価モジュール56
・ テストオブジェクト72のための情報であって、それぞれの各ターゲットオブジェクト58のために、それぞれのターゲットオブジェクト58に対するテストオブジェクト72の1つ以上のポーズ120、ならびに係るポーズのために、第1の分類子入力ベクトル122が第1の分類子のために引き出されるボクセルマップ40及び第1の分類子入力ベクトル122のための第1の分類子からの対応するスコア106を含んだ情報、及び
・ 第1の分類子102のための訓練データセット63であって、複数のターゲットオブジェクト65、複数の訓練オブジェクト66、及び係るそれぞれの各訓練オブジェクト66のために、訓練オブジェクト66とターゲットオブジェクトとの間の相互作用のための測定された相互作用データ(例えば、結合データ)68を含んだ訓練データセット。
分析コンピュータシステム100Bのメモリ52、または任意選択でメモリ92は、入力層26、1つ以上の畳み込み層28、及び端末スコアラ30を含む畳み込みニューラルネットワークの形の第1の分類子24を記憶する。このように、いくつかの実施形態では、分析コンピュータシステム100Bは、システムの速度及び性能を改善するために1つ以上の図形処理ユニット50と関連付けられたメモリ52から実行される畳み込みニューラルネットワークの形の第1の分類子102を利用する。いくつかの代替実施形態では、分析コンピュータシステム100Bは、図形処理ユニット50と関連付けられたメモリよりむしろ、メモリ92から実行される畳み込みニューラルネットワークを利用する。
いくつかの実施態様では、分析コンピュータシステム100A/100Bの上述の識別されたデータ要素またはモジュールの内の1つ以上は、上述されたメモリデバイスのうちの1つ以上に記憶され、上述された機能を実行するための命令の集合に対応する。上記に識別されたデータ、モジュール、またはプログラム(例えば、命令の集合)は、別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要はなく、したがってこれらのモジュールの種々の部分集合は、種々の実施態様で融合されてよい、またはそれ以外の場合再配置されてよい。いくつかの実施態様では、メモリ92及び/または90(及び任意選択で52)は、上記に識別されたモジュール及びデータ構造の部分集合を任意選択で記憶する。さらに、いくつかの実施形態では、メモリ92及び/または90は、上述されていない追加のモジュール及びデータ構造を記憶する。
いまや、分類子がテストオブジェクトを分類することを課される、パラレル形式による分類子からの連続出力の評価によって分類子の、例えばバイアス等の誤差を補正するためのシステム、係る誤差を訂正するための方法は、図2を参照して詳説され、以下に説明される。
ブロック202。ブロック202ならびに図1A及び図1Bを参照すると、コンピュータシステム(例えば、図1Aのシステム100Aまたは図1Bのシステム100B)及びテストオブジェクト72の分類のための方法が提供される。コンピュータシステム100は、少なくとも1つのプロセッサ74、及び少なくとも1つのプロセッサによってアドレス指定可能な非一過性メモリ90/92を含む。非一過性メモリは、少なくとも1つのプロセッサによる実行のための1つ以上のプログラムを記憶する。1つ以上のプログラムは、方法を実行するための命令を含む。
図2Aのブロック204を参照すると、テストオブジェクト72の記述が入手される。いくつかの実施形態では、テストオブジェクト72は、2000ダルトン未満の分子量を有する化合物である(ブロック206)。いくつかの実施形態では、テストオブジェクト72は、2000ダルトン未満の、4000ダルトン未満の、6000ダルトン未満の、8000ダルトン未満の、10000ダルトン未満の、または20000ダルトン未満の分子量を有する有機化合物である。
いくつかの実施形態では、テストオブジェクト72は、リピンスキーのルールオブファイブ基準を満たす化合物である(ブロック208)。いくつかの実施形態では、テストオブジェクト72は、以下のリピンスキーのルールオブファイブの2つ以上のルール、3つ以上のルール、または4つすべてのルールを満たす有機化合物である。(i)多くても5つの水素結合ドナー(例えば、OH基及びNH基)、(ii)多くても10の水素結合アクセプタ(例えば、N及びO)、(iii)500ダルトン未満の分子量、及び(iv)5未満のLogP。「ルールオブファイブ」は、4つの基準のうちの3つが数字5を含んでいるためこのように呼ばれる。参照によりその全体として本明細書に援用される、Lipinski,1997,Adv.Drug Del.Rev.23,3を参照すること。いくつかの実施形態では、テストオブジェクト72は、リピンスキーのルールオブファイブ基準に加えて1つ以上の基準を満たす。例えば、いくつかの実施形態では、テストオブジェクト72は、5つ以下の芳香環、4つ以下の芳香環、3つ以下の芳香環、または2つ以下の芳香環を有する。いくつかの実施形態では、テストオブジェクト72は化合物であり、テストオブジェクトの記述は、化合物のためのモデル化された原子座標を含む(ブロック209)。
本開示では、訓練オブジェクト66は、第1の分類子102を訓練するために使用される。いくつかの実施形態では、これらの訓練オブジェクトは、テストオブジェクトについて本明細書に開示される特徴のいずれかを有する(例えば、いくつかの実施形態では、訓練オブジェクト66は、2000ダルトン未満の、4000ダルトン未満の、6000ダルトン未満の、8000ダルトン未満の、10000ダルトン未満の、または20000ダルトン未満の分子量を有する任意の有機化合物である)。いくつかの実施形態では、訓練オブジェクトは、ウェットラボアッセイから入手される結合データ68と関連付けられる。
ブロック210~258。図2Aのブロック210を参照すると、開示された方法では、第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクト58のために、第1の手順が実行される。いくつかの係る実施形態では、10以上のターゲットオブジェクト、100以上のターゲットオブジェクト、または1000以上のターゲットオブジェクトがある。第1の手順では、テストオブジェクト72の記述は、それぞれのターゲットオブジェクト58に対して提示され、それによってテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手する(ブロック212)。次いで、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述は、第1の分類子102に入力され、それによって第1の分類子からテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の対応するスコアを入手する。いまや第1の手順の要約が示されたので、第1の手順の種々の実施形態のより多くの詳細が、ブロック214~258に関して示される。
いくつかの実施形態では、第1の複数の異なるターゲットオブジェクトの各ターゲットオブジェクト58は、ポリマーである。ポリマーの例は、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはその任意の組み合わせのアセンブリを含むが、これに限定されるものではない(ブロック214)。例えば、開示されているシステム及び方法のいくつかの実施形態を使用し、研究されるポリマー等のポリマーは、繰り返す残基から成る巨大分子である。いくつかの実施形態では、ポリマーは天然物質である。いくつかの実施形態では、ポリマーは、合成物質である。いくつかの実施形態では、ポリマーは、エラストマ、セラック、琥珀、天然ゴムもしくは合成ゴム、セルロース、ベークライト、ナイロン、ポリスチレン、ポリエチレン、ポリプロピレン、ポリアクリロニトリル、ポリエチレングリコール、または多糖である。
いくつかの実施形態では、ターゲットオブジェクト58は、ヘテロポリマー(コポリマー)である。1つしか単量体が使用されないホモポリマーと対照的に、コポリマーは、2つ(以上)の単量体の種由来のポリマーである。共重合は、コポリマーを化学的に合成するために使用される方法を指す。コポリマーの例は、ABSプラスチック、SBR、ニトリルゴム、スチレン―アクリロニトリル、スチレンイソプレンスチレン(SIS)、及びエチレン酢酸ビニルを含むが、これに限定されるものではない。コポリマーは、少なくとも2種類の構成単位(または構造単位、つまり粒子)から成り立っているので、コポリマーは、これらの単位が鎖に沿ってどのように配列されているのかに基づいて分類できる。これらは、規則正しい交互のA単位及びB単位を有する交互共重合体を含む。例えば、参照によりその全体として本明細書に援用される、Jenkins,1996,「Glossary of Basic Terms in Polymer Science」,Pure Appl.Chem.68(12):2287~2311を参照すること。コポリマーの追加の例は、A単位及びB単位が繰り返し配列(例えば、(A-B-A-B-B-A-A-A-A-B-B-B))で配列される周期コポリマーである。コポリマーの追加の例は、単量体残渣のシーケンスが、統計的な規則に従う統計コポリマーである。例えば、参照によりその全体として本明細書に援用される、Painter,1997,Fundamentals of Polymer Science,CRC Press,1997,p14を参照すること。開示されているシステム及び方法を使用し、評価されてよいコポリマーのさらに他の例は、共有結合によってリンクされる2つ以上のホモポリマーサブユニットを含んだブロックコポリマーである。ホモポリマーサブユニットの結合は、ジャンクションブロックとして知られる中間の繰り返さないサブユニットを必要とする場合がある。2つまたは3つの別々のブロックを有するブロックコポリマーは、それぞれジブロックコポリマー及びトリブロックポリマーと呼ばれる。
いくつかの実施形態では、ターゲットオブジェクト58は、実際には複数のポリマーであり、複数のポリマーのそれぞれのポリマーは、すべて同じ分子量を有するとは限らない。いくつかの係る実施形態では、複数のポリマーのポリマーは、鎖長の対応する分布を有する重み範囲に該当する。いくつかの実施形態では、ポリマーは、1つ以上の置換可能な側鎖または枝を有する主鎖を含んだ分岐ポリマー分子である。分岐ポリマーの種類は、星形高分子、櫛形高分子、ブラシポリマー、デンドロナイズドポリマー、ラダー、及びデンドリマを含むが、これに限定されるものではない。例えば、参照によりその全体として本明細書に援用される、Rubinstein et al.,2003,Polymer physics,Oxford;New York:Oxford University Press.p.6を参照すること。
いくつかの実施形態では、ターゲットオブジェクト58は、ポリペプチドである。明細書で使用されるように、用語「ポリペプチド」は、ペプチド結合によりリンクされる2つ以上のアミノ酸または残基を意味する。用語「ポリペプチド」及び「タンパク質」は、本明細書で交互に用いられ、オリゴペプチド及びペプチドを含む。「アミノ酸」、「残基」、または「ペプチド」は、例えば、プロリン及びヒドロキシプロリン等のイミノ酸を含む、技術で既知のタンパク質の二十の標準的な構造単位の内のいずれかを指す。アミノ酸異性体の記号表示は、D、L、R、及びSを含んでよい。アミノ酸の定義は、非天然アミノ酸を含む。したがって、セレノシステイン、ピロリシン、ランチオニン、2-アミノイソ酪酸、ガンマアミノ酪酸、デヒドロアラニン、オルニチン、シトルリン、及びホモシステインは、すべてアミノ酸と見なされる。アミノ酸の他の変種または類似物は、当該技術で既知である。したがって、ポリペプチドは、例えばぺプトイド等の合成ペプチド模倣薬構造を含んでよい。例えば、参照によりその全体として本明細書に援用される、Simon et al.,1992,Proceedings of the National Academy of Sciences USA、89,9367を参照すること。また、それぞれが参照によりその全体として本明細書に援用される、Chin et al.,2003,Science 301,964及びChin et al.,2003、Chemistry &Biology 10,511も参照すること。
また、開示されているシステム及び方法のいくつかの実施形態に従って評価されるターゲットオブジェクト58は、任意の数の翻訳後修飾を有してもよい。したがって、ターゲットオブジェクトは、アシル化、アルキル化、アミド化、ビオチン化、ホルミル化、γーカルボシキル化、グルタミル化、グリコシル化、グリシル化、ヒドロシキル化、ヨード化、イソプレニル化、リポイル化、(例えば、ヘム、フラビン、金属等の)共同因子付加、ヌクレオシド及びその誘導体の添加、酸化、還元、ペグ化、ホスファチジルイノシトール添加、ホスホパンテテイニル化、リン酸化、ピログルタミン酸形成、ラセミ化、tRNAによるアミノ酸の添加(例えば、アルギニル化)、硫酸化、セレノイル化、ISG化(ISGylation)、SUMO化、ユビキチン化、化学修飾(例えば、シトルリン化及び脱アミド)、及び他の酵素(例えば、プロテアーゼ、ホスファターゼ、及びキナーゼ)による処理によって修飾されるそれらのポリマーを含む。他のタイプの翻訳後修飾も当該技術で既知であり、含まれる。
いくつかの実施形態では、ターゲットオブジェクト58は、有機金属錯体である。有機金属錯体は、炭素と金属との間の結合を含んだ化合物である。いくつかの例では、有機金属化合物は、例えば有機パラジウム化合物等の接頭辞「有機」によって区別される。
いくつかの実施形態では、ターゲットオブジェクト58は、界面活性剤である。界面活性剤は、液体の表面張力、2種の液体間の界面張力、または液体と固体との間の界面張力を低下させる化合物である。界面活性剤は、合成洗剤、湿潤材、乳化剤、発泡剤、及び分散剤の機能を果たす。界面活性剤は、通常、それらが親水性基(その尾)と疎水性基(その頭)の両方を含んでいることを意味する両親媒性である有機化合物である。したがって、界面活性剤分子は、水不溶性(つまり油溶性)の成分と水溶性の成分の両方を含む。水が油と混合される場合、界面活性剤分子は、水中で拡散し、空気と水との間の界面でまたは油と水との間の界面で吸着する。不溶性の疎水性基は、バルク水相の中から気相の中にまたは油相の中に広がってよい。一方、水溶性の頭部基は、水相中に留まる。表面での界面活性剤分子のこの整列が、水/空気界面または水/油界面での水の表面特性を修正する。
イオン性界面活性剤の例は、例えば陰イオン界面活性剤、陽イオン界面活性剤、または双極性イオン(両性)界面活性剤等のイオン性界面活性剤を含んでよい。いくつかの実施形態では、ターゲットオブジェクト58は、逆ミセルまたはリポソームである。
いくつかの実施形態では、ターゲットオブジェクト58は、フラーレンである。フラーレンは、中空の球体、楕円体、または管の形で完全に炭素からなる任意の分子である。また、球状のフラーレンはバッキーボールとも呼ばれ、球状のフラーレンはサッカーで使用されるボールに似ている。円柱状のものは、カーボンナノチューブまたはバッキーチューブと呼ばれる。フラーレンは、六角形の連結環の積み重ねられたグラフェンシートから成る、グラファイトに構造が類似しているが、それらは五角形の(またはときには七角形の)環を含んでもよい。
いくつかの実施形態では、第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクト58は、ポリマーであり、それぞれのターゲットオブジェクト58に対してテストオブジェクト72の記述を提示することは、3.3Å以上、3.2Å以上、3.1Å以上、3.0Å以上、2.5Å以上、2.2Å以上、2.0Å以上、1.9Å以上、1.85Å以上、1.80Å以上、1.75Å以上、または1.70Å以上の分解能で(例えば、X線結晶法によって)分解されたポリマーの結晶構造の三次元座標{x、...、x}の集合の形でそれぞれのターゲットオブジェクトのための空間座標に対するテストオブジェクト58の記述を提示することを含む(ブロック216)。
いくつかの実施形態では、第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクト58は、ポリマーであり、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示することは、核磁気共鳴によって決定されたポリマーのための10以上、20以上、または30以上の三次元座標のアンサンブルの形でそれぞれのターゲットオブジェクトの空間座標に対するターゲットオブジェクトのテストオブジェクトの記述を提示することを含み、該アンサンブルは、1.0Å以上、0.9Å以上、0.8Å上、0.7Å以上、0.6Å以上、0.5Å以上、0.4Å以上、0.3Å以上、または0.2Å以上のバックボーンRMSDを有する。いくつかの実施形態では、空間座標は、中性子回折または低温電子顕微鏡法によって決定される(ブロック218)。
いくつかの実施形態では、ターゲットオブジェクト58は、例えばポリペプチドに結合された核酸等の2つの異なる種類のポリマーを含む。いくつかの実施形態では、ターゲットオブジェクト58は、互いに結合された2つのポリペプチドを含む。いくつかの実施形態では、ターゲットオブジェクト58は、1つ以上の金属イオン(例えば、1つ以上の亜鉛原子を有するメタロプロテイナーゼ)を含む。係る例では、金属イオン及びまたは有機小分子は、ターゲットオブジェクト58のための空間座標60に含まれてよい。
いくつかの実施形態では、ターゲットオブジェクト58は、ポリマーであり、ポリマーには、10以上、20以上、30以上、50以上、100以上、100と1000の間、または500未満の残基がある。
いくつかの実施形態では、ターゲットオブジェクト58の空間座標60は、アブイニシオ方法、密度関数法、半経験的方法及び経験的方法、分子力学、化学力学、または分子動力額等のモデル化方法を使用し、決定される。
一実施形態では、空間座標60は、ターゲットオブジェクトを含む原子の中心のデカルト座標によって表される。いくつかの代替実施形態では、ターゲットオブジェクト58の空間座標60は、例えばX線結晶法によって等、測定されるターゲットオブジェクトの電子密度によって表される。例えば、いくつかの実施形態では、空間座標60は、ターゲットオブジェクト58の計算された原子座標を使用し、算出される2Fobserved-Fcalculated電子密度を含み、Fobservedは、ターゲットオブジェクトの観察された構造因子振幅であり、Fcは、ターゲットオブジェクト58の計算された原子座標から計算される構造因子振幅である。したがって、ターゲットオブジェクトの空間座標60は、例えば溶液NMR、X線結晶構造解析法から解釈されるような共錯体(co-complexes)、中性子回折、または低温電子顕微鏡法、計算シミュレーションからのサンプリング、ホモロジー、モデリング、または回転異性体ライブラリサンプリング、及びこれらの技術の組み合わせ等によって生成される構造アンサンブルであるが、これに限定されるものではない、さまざまなソースからの入力データとして受け取られてよい。
いくつかの係る実施形態では、第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクト72は、活性部位を有するポリマーであり、テストオブジェクトは化学組成物であり、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示することは、テストオブジェクトの原子表示をポリマーの活性部位の原子表示にドッキングすることを含む(ブロック220)。係るドッキングの限定されない例は、そのそれぞれが参照によりその全体として本明細書に援用される、Liu及びWang,1999,「MCDOCK:A Monte Carlo simulation approach to the molecular docking problem,」Journal of Computer-Aided Molecular Design 13,435~451、Shoichet et al.,1992,「Molecular docking using shape descriptors,」Journal of Computational Chemistry 13(3),pp.380~397、Knegtel et.al.,1997「Molecular docking to ensembles of protein structures,」Journal of Molecular Biology 266,pp.424~440、Morris et al.,2009,「AutoDock4 and AutoDockTools4:Automated Docking with Selective Receptor Flexibility,」J.Comput.Chem.30(16),pp.2785~2791、Sotriffer et al.,2000,「Automated docking of ligands to antibodies:methods and applications,」Methods:A Companion to Methods in Enzymology 20,pp.280~291、Morris et al.,1998,「Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Function,」Journal of Computational Cheistry 19:pp.1639~1662、及びRarey et al.,1996,「A Fast Flexible Docking Method Using an Incremental Construction Algorithm,」Journal of Molecular Biology 261,pp.470~489に開示される。いくつかの係る実施形態では、テストオブジェクトは化合物であり、それぞれのターゲットオブジェクトは、結合ポケットを有するポリマーを含み、それぞれのターゲットオブジェクトに対するテストオブジェクトの記述を提示することは、化合物のためのモデル化された原子座標を結合ポケットのための原子座標にドッキングすることを含む(ブロック222)。
いくつかの実施形態では、第1の分類子102は、ニューラルネットワークまたはサポートベクトルマシンを含む(ブロック224)。例えば、ニューラルネットワークに関する開示等、参照により本明細書に援用される、Duda et al.,Pattern Classification、Second Edition,2001,John Wiley & Sons,Inc.,New York,Chapter 6,pp.282~349を参照すること。例えば、サポートベクトルマシンに関する開示等、参照により明細書に援用される、Duda et al.,Patern Classification,Second Edition,2001,John Wiley & Sons,Inc.,New York,pp.259~265を参照すること。いくつかの実施形態では、第1の分類子102は、畳み込みニューラルネットワークである。参照により本明細書に援用される、Wallach et al.,2015,「AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery,」ArXiv:1510.02855を参照すること。
図2Bのブロック226を参照すると、テストオブジェクト72とそれぞれのターゲットオブジェクト58との間の相互作用の記述がなされると、それは第1の分類子102に入力され、それによって第1の分類子からテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の対応するスコア106を入手する。いくつかの実施形態では、このスコア106は、例えば0と1との間の実数等、スカラースコアである。いくつかの実施形態において、スコア106は、分類別のスコアである。例えば、いくつかの実施形態では、スコア106は、2つの考えられる値(例えば、「0」または「1」)の一方である。いくつかの実施形態では、スコア106は、2つの考えられるカテゴリ(「結合していない」または「結合する」)の一方である。いくつかの実施形態では、スコア106は、3つの考えられるカテゴリ(「結合していない」、「中程度の結合」、及び「強く結合している」)のうちの1つである。スコア106の任意の数のカテゴリが意図され、すべての係るカテゴリは、本開示の範囲内にある。
図2Bのブロック228を参照すると、いくつかの実施形態では、それぞれのターゲットオブジェクト72に対するテストオブジェクトの記述を提示し、それによってテストオブジェクト72とそれぞれのターゲットオブジェクト58との間の相互作用の記述を入手することは、複数の異なるポーズの各ポーズ102のそれぞれのターゲットオブジェクト58でテストオブジェクト72をモデル化することを含む第2の手順によって実行される。いくつかの係る実施形態では、ターゲットオブジェクト58は、活性部位を有するポリマーであり、テストオブジェクト72は化合物であり、それぞれのターゲットオブジェクト58に対してテストオブジェクト72の記述を提示することは、テストオブジェクトをポリマーの活性部位にドッキングすることを含む。
いくつかの実施形態では、テストオブジェクトとターゲットオブジェクトとの間の相互作用は、複数のポーズを形成するために、複数回テストオブジェクトをターゲットオブジェクト58にドッキングすることによって決定される。いくつかの係る実施形態では、テストオブジェクト72は、2回、3回、4回、5回以上、10回以上、50回以上、100回以上、または1000回以上ターゲットオブジェクト58の上にドッキングされる(ブロック232)。係る各ドッキングは、テストオブジェクト72のターゲットオブジェクト58上への異なるポーズを表す。いくつかの実施形態では、ターゲットオブジェクト58は、活性部位を有するポリマーであり、テストオブジェクト72は、複数の異なる方法のそれぞれの活性部位にドッキングされ、係る各方法が異なるポーズを表す。これらのポーズの多くは正しくなく、係るポーズが、本来発生する、テストオブジェクト72とターゲットオブジェクト58との間の真の相互作用を表さないことを意味することが予想される。係る実施形態では、第1の分類子は、ターゲットオブジェクトに対する結合データ68が知られている訓練オブジェクト65を使用し、最初に、同じ方法で訓練される。すなわち、各訓練オブジェクト66は、複数回ターゲットオブジェクトに対してドッキングされ、複数のドッキングの相互作用は、第1の分類子結果を入手するために、第1の分類子に入力される。第1の分類子結果と、ターゲットオブジェクトに対する訓練オブジェクトのための実際の結合データ68との間の差異は、第1の分類子を精緻化するために使用される。したがって、有利なことに、訓練オブジェクト66を用いる訓練中、第1の分類子102は、不正確なポーズと訓練オブジェクト結合データとの間で一貫したパターンが生じないため、不正確なポーズ(不正確なドッキング)を除外する(押し下げる(down weight)ことができる。特定の理論に限定されることを意図するものではないが、訓練オブジェクト66によって形成される正しいポーズによって形成されるオブジェクト間の相互作用は互いを補強し、したがって経時的にネットワークの重みを訓練するのに対し、不正確なポーズの間で観察されるオブジェクト間(例えば分子間)の相互作用が、ホワイトノイズのように互いを相殺することが予想される。したがって、不正確なポーズに関する訓練モード中、第1の分類子102は、(例えば、訓練オブジェクトの結合データ68を区別するために)アクティブな訓練オブジェクト66とイナクティブな訓練オブジェクト66との差異を説明するパターンを見つけることができないであろう。不正確なポーズに関して、第1の分類子102は、訓練オブジェクト66、そのサイズ、及び類似するグローバルサマリ記述子を学習するであろうが、本質的に訓練オブジェクトとテストオブジェクトとの間で形成される実際の分子間相互作用のどれも学習しないであろう。したがって、有利なことに、開示されているシステム及び方法は、特に訓練オブジェクト66あたり10を超えるポーズ、訓練オブジェクト66あたり100を超えるポーズ、または訓練オブジェクト66あたり1000を超えるポーズが取られるときに、不正確なポーズに対して敏感ではない。同様に、テストオブジェクト72がサンプリングされるとき、複数のポーズも係る実施形態でとられる。したがって、1つのテストオブジェクトまたは訓練オブジェクトの中でさえ、間違ったポーズが互いを相殺すること、オブジェクト間相互作用(例えば、分子間結合)の種類に近い何かを暗示するほど十分に近いポーズが事実上生じること、及びその係るポーズは、単一のテストオブジェクトまたは訓練オブジェクトのための複数のポーズによって生成される最終的な信号に貢献するポーズであるであろうことが予想される。
いくつかの実施形態では、訓練オブジェクト66及びテストオブジェクト72は、無作為ポーズ生成技術によってまたはバイアスポーズ生成によってのどちらかでドッキングされる。
いくつかの実施形態では、複数の異なるポーズは、マルコフチェーンモンテカルロサンプリング、焼き鈍し法、ラマルク遺伝的アルゴリズム、遺伝的アルゴリズム、または深層畳み込みニューラルネットサンプリングのうちの1つでドッキングスコアリング関数を使用し、入手される(ブロック234)。複数の異なるポーズは、欲張りアルゴリズムを使用し、インクリメンタルサーチによって入手される(ブロック236)。例えば、いくつかの実施形態では、訓練オブジェクト66及び/またはテストオブジェクト72は、マルコフチェーンモンテカルロサンプリングによってドッキングされる。いくつかの実施形態では、係るサンプリングは、ドッキング計算における訓練オブジェクト及び/またはテストオブジェクトの完全な柔軟性、ならびに訓練(またはテスト)オブジェクトの配座エネルギーだけではなく、訓練(またはテスト)オブジェクトとターゲットオブジェクト58との間の相互作用エネルギーの合計であるスコア関数を可能にする。例えば、参照により本明細祖に援用される、Liu及びWang,1999,「MCDOCK:A Monte Carlo simulation approach to the molecular docking problem,」Journal of Computer-Aided Molecular Design 13,435~451を参照すること。いくつかの実施形態では、例えばDOCK(それぞれが参照により本明細書に援用される、Shoichet,Bodian,及びKuntz,1992,「Molecular docking using shape descriptors」、Journal of Computational Chemistry 13(3),pp.380~397、ならびにKnegtel,Kuntz,及びOshiro,1997,「Molecular docking to ensembles of protein structures,」Journal of Molecular Biology 266,pp.424~440)等のアルゴリズムは、ターゲットオブジェクト58のそれぞれに対するテストオブジェクト72の複数のポーズを見つけるために使用される。係るアルゴリズムは、ターゲットオブジェクト及びテスト(または訓練)オブジェクトを剛体としてモデル化する。ドッキングされた配座は、ポーズを見つけるための相互補完的な表面を使用し、検索される。いくつかの実施形態では、AutoDOCK(それぞれが参照により本明細書に援用される、Morris et al.,2009,「AutoDock4 and AutoDockTools4:Automated Docking with Selective Receptor Flexibility,」J.Comput.Chem.30(16),pp.2785~2791、Sotriffer et al.,2000,「Automated docking of ligands to antibodies:methods and applications,」Methods:A Companion to Methods in Enzymology 20,pp.280~291、及びMorris et al.,1998,「Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Function」、Journal of Computational Cheistry 19:pp.1639~1662)等のアルゴリズムが、テストオブジェクト58のそれぞれに対してテストオブジェクト72及び/または訓練オブジェクト66のそれぞれの複数のポーズを見つけるために使用される。AutoDOCKは、リガンドの運動モデルを使用し、モンテカルロ、焼き鈍し法、ラマルク遺伝的アルゴリズム、及び遺伝的アルゴリズムをサポートする。したがって、いくつかの実施形態では、(所与のテストオブジェクト‐ターゲットオブジェクトの対または所与の訓練オブジェクト‐テストオブジェクトの対のための)複数の異なるポーズは、ドッキングスコア関数を使用し、マルコフチェーンモンテカルロサンプリング、焼き鈍し法、ラマルク遺伝的アルゴリズム、遺伝的アルゴリズムによって入手される。いくつかの実施形態では、例えばFlexX(参照により本明細書に援用される、Rarey,et al.,1996,「A Fast Flexible Docking Method Using an Incremental Construction Algorithm」、Journal of Molecular Biology 261,pp.470~489)等のアルゴリズムは、ターゲットオブジェクト58のそれぞれに対して、テストオブジェクト72及び/または訓練オブジェクト66のそれぞれのための複数のポーズを見つけるために使用される。FlexXは、欲張りアルゴリズムを使用し、ターゲットオブジェクト58の活性部位でテストオブジェクト72及び/または訓練オブジェクト66のインクリメンタル構築を行う。したがって、いくつかの実施形態では、(所与のテストオブジェクト‐ターゲットオブジェクトの対または所与の訓練オブジェクト‐テストオブジェクトの対のための)複数の異なるポーズは、欲張りアルゴリズムによって入手される。
いくつかの実施形態では、例えばGOLD(参照により本明細書に援用される、Jones et al.,1997,「Development and Validation of a Genetic Algorithm for flexible Docking」、Journal Molecular Biology 267,pp.727~748)等のアルゴリズムは、ターゲットオブジェクト58のそれぞれに対して、テストオブジェクト72及び/または訓練オブジェクト66のそれぞれのための複数のポーズを見つけるために使用される。GOLDは、リガンドドッキングのための遺伝的最適化(Genetic Optimization for Ligand Docking)を表す。GOLDは、テストオブジェクト72及び/または訓練オブジェクト66と、ターゲットオブジェクト58との間の遺伝的に最適化された水素結合ネットワークを構築する。
いくつかの実施形態では、提示することは、ターゲットオブジェクト及びテストオブジェクトの分子動力学ランを実行することを含む。分子動力学ランの間、ターゲットオブジェクト及びテストオブジェクトの原子は、一定期間相互作用することを許され、システムの力学進化のビューを示す。ターゲットオブジェクト及びテストオブジェクト(または訓練オブジェクト)での原子の軌跡は、相互作用粒子のシステムのためにニュートンの運動方程式を数値的に解くことによって決定され、粒子とそのポテンシャルエネルギー間の力は、原子間ポテンシャルまたは分子力学力場を使用し、計算される。それぞれ参照により本明細書に援用される、Alder及びWainwright、1959,「Studies in Molecular Dynamics.I.Generatl Method,」.J.Chem.Phys.31(2):459;Bibcode,1959,J.Ch.Ph.31,459A,doi:10.1063/1.1730376、及びBrooks,1983,「CHARMM:A program for Macromolecular Energy Minimization,and Dynamics Calculations,」Journal of Computational Chemistry 4,187~217を参照すること。したがって、このようにして、分子動力学ランは、経時的にターゲットオブジェクト及びテストオブジェクトの軌跡をともに作り出す。この軌跡は、ターゲットオブジェクト及びテストオブジェクトの原子の軌跡を含む。いくつかの実施形態では、複数の異なるポーズの部分集合は、ある期間にわたりこの軌跡のスナップショットを撮ることによって入手される。
いくつかの実施形態では、ポーズは、いくつかの異なる軌跡のスナップショットから入手され、各軌跡は、テストオブジェクトと相互作用する異なる分子動力学ランを含む。いくつかの係る実施形態では、分子動力学ランの前に、テストオブジェクト(または訓練オブジェクト)は、最初に、ドッキング技術を使用し、ターゲットオブジェクトの活性部位の中にドッキングされる。
どのモデル化方法が使用されるのかに関わらず、任意の所与のテストオブジェクト72/訓練オブジェクト66-ターゲットオブジェクト58の対のために達成されることは、ポーズの1つ以上が、所与のテストオブジェクト72/訓練オブジェクト66-ターゲットオブジェクト58の対の間の関連性のある分子間相互作用のいくつかを示すために、自然に発生するポーズに十分に近いという見込みのある、テスト/訓練オブジェクトとターゲットオブジェクトのポーズの多様な集合である。
いくつかの実施形態では、ターゲットオブジェクト58の活性部位でのテストオブジェクトまたは訓練オブジェクトの初期のポーズは、上述の技術のいずれかを使用し、生成され、追加のポーズは、3つのX平面、Y平面、及びZ平面の任意の組み合わせでの回転演算子、移動演算子、及びミラーリング演算子のなんらかの組み合わせの適用によって生成される。テストオブジェクトまたは訓練オブジェクトの回転及び異動は、(例えば、原点からプラス5Åまたはマイナス5Å等のなんらかの範囲の中で)無作為に選択される場合もあれば、(例えば、円の回りのすべて5度のインクリメント等の)なんらかの事前に指定されたインクリメントで一様に生成される場合もある。図3は、ターゲットオブジェクト58の活性部位での2つの異なるポーズ302のテストオブジェクト72のサンプル表示を示す。
図2Bのブロック228を参照し続けると、いくつかの実施形態では、係る各ポーズは、ボクセルマップ40を作成し、それによって複数のボクセルマップを作成するために使用され、複数のボクセルマップのそれぞれの各ボクセルマップ40は、複数の異なるポーズのそれぞれのポーズ120のテストオブジェクト72を含む。いくつかの実施形態では、複数のボクセルマップのそれぞれの各ボクセルマップ40は、(i)複数の異なるポーズのそれぞれのポーズのテストオブジェクト72(または訓練オブジェクト68)、及び三次元グリッド単位のターゲットオブジェクト58をサンプリングし、それによって対応する複数の空間充填(三次元)多面体セルを含んだ対応する三次元の均一な空間充填ハニカムを形成すること、及び(ii)対応する複数の三次元セルのそれぞれの各三次元多面体セルのために、それぞれの三次元多面体セルの特性(例えば、化学特性)に基づいてそれぞれのボクセルマップ40内でボクセル(規則正しく離間された多面体セルの多様な集合)をポピュレートすることを含んだ方法によって作成される。したがって、特定のテストオブジェクトがターゲットオブジェクトに対して10のポーズを有する場合、10の対応するボクセルマップが作成され、特定のテストオブジェクトがターゲットオブジェクトに対して100のポーズを有する場合、100の対応するボクセルマップが作成される等である。空間充填ハニカムの例は、平行6面体セルを有する立体ハニカム、六角形の角柱セルを有する六角形角柱ハニカム、ひし形12面体セルを有するひし形12面体、細長い12面体セルを有する細長い12面体、及び切頂8面体セルを有する切頂8面体を含む。
いくつかの実施形態では、空間充填ハニカムは、立体セルを有する立体ハニカムであり、係るボクセルの寸法がその分解能を決定する。例えば、1Åの分解能が選ばれてよく、各ボクセルが、係る実施形態では、1Å寸法(例えば、それぞれのセルのそれぞれの高さ、幅、及び深さでの1Åx1Åx1Å)を有する幾何学データの対応する立方体を有することを意味する。しかしながら、いくつかの実施形態では、より細かいグリッドスペーシング(例えば、0.1Åまたは0.01Åも)、またはより粗いグリッドスペーシング(例えば、4Å)が使用され、空間は、入力された幾何学データをカバーするために整数のボクセルを生じさせる。いくつかの実施形態では、サンプリングは、0.1Åと10Åの間である分解能で発生する(227)。例として、1Åの分解能を有する40Åの入力立体の場合、係る配置は40*40*40=64,000入力ボクセルを生じさせるであろう。
いくつかの実施形態では、テストオブジェクト72(または訓練オブジェクト66)は、第1の化合物であり、ターゲットオブジェクト58は第2の化合物であり、サンプリング(i)で発生する原子の特徴は、ポピュレート(ii)によるそれぞれのボクセルマップの単一のボクセルに入れられ、複数のボクセルの各ボクセルは、1つの原子の最大値の特徴を表す。いくつかの実施形態では、原子の特徴は、原子種類の列挙から成る。一例として、生物学的データの場合、開示されているシステム及び方法のいくつかの実施形態は、例えば1つの炭素がボクセル内にある場合、炭素の原子番号は6であるため、6という値がそのボクセルに割り当てられる等、ボクセルマップ40の所与のボクセル内のあらゆる原子の存在をそのエントリのための異なる番号として表すように構成される。しかしながら、係る符号化は、近い原子番号の原子が同じように動作することを暗示する場合があり、これは用途によっては特に有用ではない場合がある。さらに、元素の挙動は族(周期表の列)の中でより類似する場合があるため、係る符号化は、第1の分類子が復号するための追加の作業を提示する。
いくつかの実施形態では、原子の特徴は、バイナリカテゴリ変数としてボクセル内で符号化される。係る実施形態では、原子種類は、「ワンホット」符号化と呼ばれるもので符号化される。つまり、あらゆる原子種類は別個のチャネルを有する。したがって、係る実施形態では、各ボクセルは複数のチャネルを有し、複数のチャネルの少なくとも1つの部分集合は、原子種類を表す。例えば、各ボクセルの中の別のチャネルが、酸素を表してよいのに対して、各ボクセルの中のあるチャネルは、炭素を表してよい。所与の原子種類が、所与のボクセルに対応する三次元グリッド元素で見つけられるとき、所与のボクセルの中のその原子種類のためのチャネルは、例えば「1」等のバイナリカテゴリ変数の第1の値を割り当てられ、原子種類が、所与のボクセルに対応する三次元グリッド要素で見付けられないとき、その原子種類のためのチャネルは、例えば所与のボクセルの中の「0」等のバイナリカテゴリ変数の第2の値を割り当てられる。
100を超える元素がある一方、大部分は生物学では遭遇されない。しかしながら、最も一般的な生物元素(つまり、H、C、N、O、F、P、S、Cl、Br、I,Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn)を表すことも、受容体フィールドに対するボクセルあたり18のチャネル、つまり10,483*18=188,694入力を生じさせる。このようにして、いくつかの実施形態では、複数のボクセルマップのボクセルマップ40のそれぞれの各ボクセルは、複数のチャネルを含み、複数のチャネルの各チャネルは、それぞれのボクセルに対応する三次元空間充填多面体セルで生じる場合がある異なる特性を表す。所与のボクセルのための考えられるチャネルの数は、原子の追加の特性(例えば、部分電荷、リガンド対タンパク質標的での存在、電子陰性度、またはSYBYL原子種類)が、各ピクセルのために独立したチャネルとしてさらに提示され、それ以外の場合同等な原子を区別するためにより多くの入力チャネルを必要とするそれらの実施形態ではさらに多い。
いくつかの実施形態では、各ボクセルは5以上の入力チャネルを有する。いくつかの実施形態において、各ボクセルは、15以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、20以上の入力チャネル、25以上の入力チャネル、30以上の入力チャネル、50以上の入力チャネル、または100以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、以下の表1に記載される記述子から選択された5以上の入力チャネルを有する。例えば、いくつかの実施形態では、各ボクセルは、5以上のチャネルを有し、それぞれがバイナリカテゴリ変数として符号化され、係る各チャネルは、以下の表1から選択されるSYBYL原子種類を表す。例えば、いくつかの実施形態では、ボクセルマップ40のそれぞれの各ボクセルはC.3(sp3炭素)原子種類のためのチャネルを含み、それぞれのボクセルによって表される所与のテストオブジェクト‐ターゲットオブジェクト(または訓練オブジェクト‐ターゲットオブジェクト)複合体がsp3炭素を包含する場合、チャネルが第1の値(例えば「1」)を採用し、それ以外の場合第2の値(例えば「0」)であることを意味する。
Figure 0007121725000001
Figure 0007121725000002
いくつかの実施形態では、各ボクセルは、上記の表1に記載される記述子から選択された10以上の入力チャネル、15以上の入力チャネル、または20以上の入力チャネルを有する。いくつかの実施形態では、各ボクセルは、ハロゲンのためのチャネルを含む。
いくつかの実施形態では、構造タンパク質リガンド相互作用フィンガープリント(SPLIF)スコアがターゲットオブジェクトに対する所与のテストオブジェクト(または訓練オブジェクト)の各ポーズのために生成され、このSPLIFスコアは、基本的なニューラルネットワークへの追加の入力として使用される、またはボクセルマップで個別に符号化される。SPLIFの説明については、参照により本明細書に援用される、Da及びKireev、2014,J.Chem.Inf.Model.54,pp.2555~2561,「Structural Protein-Ligand Interaction Fingerprints(SPlIF) for Structure-Based Virtual Screening:Method and Benchmark Study」を参照すること。SPLIFは、テスト(または訓練)オブジェクト及びターゲットオブジェクト(例えば、π-π、CH-π、他)の相互作用するフラグメントの間で発生する場合があるすべての考えられる相互作用タイプを暗示的に符号化する。第1のステップでは、テスト(または訓練)オブジェクト‐ターゲットオブジェクト複合体(ポーズ)は、分子間接触がないか検査される。2つの原子は、それらの間の距離が指定された閾値の範囲内に(例えば、4.5Åの範囲内に)ある場合、接触していると見なされる。係る分子間原子対のために、それぞれのテスト(または訓練)原子及びターゲットオブジェクト原子が、例えば問題の原子及びその連続する近隣を特定の距離まで含むフラグメント等の円形フラグメントに拡大される。各種類の円形フラグメントは、識別子を割り当てられる。いくつかの実施形態では、係る識別子は、それぞれのボクセルの個々のチャネル内でコーディングされる。いくつかの実施形態では、パイプラインパイロットソフトウェアで定義される第1の最も近い近傍までの拡張接続性フィンガープリント(Extended Connectivity Fingerprints up to the first closest neighbor)(ECFP2)を使用できる。参照により本明細書に援用される、Pipeline Pilot,ver.8.5,Accelrys Software Inc.,2009,を参照すること。ECFPは、すべての原子/結合種類についての情報を保持し、1つの下部構造(つまり、円形フラグメント)を表すために1つの一意の整数を使用する。SPLIFフィンガープリントは、見つけられるすべての円形フラグメント識別子を符号化する。いくつかの実施形態では、SPLIFフィンガープリントは、符号化されていない個別のボクセルではないが、以下に説明する第1の分類子の別個の独立した入力としての機能を果たす。
いくつかの実施形態では、SPLIFよりむしろ、またはSPLIFに加えて、構造相互作用フィンガープリント(SIFt)が、ターゲットオブジェクトに対する所与のテストオブジェクト(または訓練オブジェクト)の各ポーズのために計算され、以下に説明する第1の分類子に対する入力として独立して提供される、またはボクセルマップで符号化される。SIFtの計算については、参照により明細書に援用される、Deng et al.,2003,「Structural Interaction Fingerprint (SIFt):A Novel Method for Analyzing Three-Dimensional Protein-Ligand Binding Interactions,」J.Med.Chem.47(2),pp.337~344を参照すること。
いくつかの実施形態では、SPLIF及びSIFTよりむしろ、またはSPLIF及びSIFTに加えて、原子対ベース相互作用フラグメント(APIF)が、ターゲットオブジェクトに対する所与のテストオブジェクト(または訓練オブジェクト)の各ポーズのために計算され、第1の分類子に対する入力として独立して提供される、またはボクセルマップで個別に符号化される。APIFの計算について、参照により本明細書に援用される、Perez-Nueno et al.,2009,「APIF:a new interaction fingerprint based on atom pairs and its application to virtual screening,」J.Chem.Inf.Model.49(5),pp.1245~1260を参照すること。
データ表現は、例えば分子/タンパク質と関連付けられた種々の構造関係の表現を可能にするように生物学データで符号化されてよい。幾何学的表現は、種々の実施形態に従って、さまざまな方法及びトポグラフィーで実施されてよい。幾何学的表現は、データの視覚化及び分析のために使用される。例えば、一実施形態では、幾何学的形状は、例えば2-D、3-Dデカルト/ユークリッド空間、3-D非ユークリッド空間、多様体等の種々のトポグラフィーにレイアウトされたボクセルを使用し、表現されてよい。例えば、一実施形態では、図4は一連のサブコンテナを含む三次元グリッド構造400のサンプルを示す。各サブコンテナ402は、ボクセルに対応してよい。座標系は、グリッドのために定義されてよく、これにより各サブコンテナは識別子を有する。開示されているシステム及び方法のいくつかの実施形態では、座標系は3次元空間のデカルト系であるが、システムの他の実施形態では、座標系は、とりわけ例えば偏球面、円筒座標系もしくは球面座標系、極座標系、種々の多様体及びベクトル空間のために設計された他の座標系等の任意の他の種類の座標系であってよい。いくつかの実施形態では、ボクセルは、例えばとりわけラベルを適用する及び/またはその位置決めを決定することによって表されてよい、それらに関連付けられた特定の値を有してよい。
例えばニューラルネットワーク等のいくつかの形の第1の分類子102は、一定の入力サイズを必要とするため、開示されているシステム及び方法のいくつかの実施形態は、適切な境界ボックスの中に収まるために幾何学的データ(ターゲット―テストまたはターゲット―訓練オブジェクト複合体)を切り取る。例えば、側面に対する25~40Åの立方体が使用されてよい。ターゲットオブジェクト及び/またはテストオブジェクトが、ターゲットオブジェクト58の活性領域にドッキングされているいくつかの実施形態では、活性部位の中心は、立方体の中心としての機能を果たす。
いくつかの実施形態では、ターゲットオブジェクトの活性部位を中心とした一定の寸法の正方形の立方体は、空間をボクセルグリッドに区分化するために使用されるが、開示されているシステムはこのように限定されていない。いくつかの実施形態では、空間をボクセルグリッドに区分化するためにさまざまな形状が使用される。いくつかの実施形態では、例えば直角プリズム等の多面体、多面体形状等は、空間を区分化するために使用される。
一実施形態では、グリッド構造は、ボクセルの配列に類似するように構成されてよい。例えば、各下部構造は、分析されている各原子のためのチャネルと関連付けられてよい。また、符号化方法は、各原子を数字として表現するために提供されてよい。
いくつかの実施形態では、ボクセルマップは、時間の要因を考慮に入れ、したがって四次元(X、Y、Z及び時間)であってよい。
いくつかの実施形態では、ピクセル、点、多角形、多面体、または多次元での任意の他の種類の形状(例えば、3D、4D等の形状)は、ボクセルの代わりに使用されてよい。
いくつかの実施形態では、幾何学的データは、X座標、Y座標、及びZ座標の原点を、キャビティフラッディングアルゴリズムによって決定されるターゲットオブジェクトの結合部位の質量中心となるように選ぶことによって正規化される。係るアルゴリズムの代表的な詳細については、それぞれが参照により本明細書に援用される、Ho及びMarshall,1990,「Cavity search:An algorithm for the isolation and display of cavity-like binding regions」、Journal of Computer Aided Molecular Design 4,pp.337~354、及びHendlich et al.,1997,「Ligsite:automatic and efficient detection of potential small molecule-binding sites in proteins,」J.Mol.Graph.Model 15,no.6、を参照すること。代わりに、いくつかの実施形態では、ボクセルマップの原点は、(ターゲットオブジェクトだけのまたはテストオブジェクトまたは訓練オブジェクトだけの、ターゲットオブジェクトに結合されたテストオブジェクトまたはターゲットオブジェクトに結合された訓練オブジェクトの)共錯体全体の質量の中心に中心がある。基底ベクトルは、標的だけの、またはテストオブジェクト/訓練オブジェクトだけの共錯体全体の主要な慣性モーメントとなるように任意選択で選ばれてよい。いくつかの実施形態では、ターゲットオブジェクト58は、活性部位を有するポリマーであり、サンプリングは、テストオブジェクト72(または訓練オブジェクト66)を、テストオブジェクト72(または訓練オブジェクト66)のための複数の異なるポーズのそれぞれのポーズの各ポーズのそれぞれ、及び活性部位の質量の中心が原点として解釈される三次元グリッド単位の活性部位でサンプリングし、サンプリングのための対応する三次元の一様なハニカムは、質量の中心を中心とするポリマーの一部分及びテストオブジェクト72(または訓練オブジェクト66)を表す。いくつかの実施形態では、一様なハニカムは、規則正しい立方体ハニカムであり、ポリマー及びテストオブジェクトの一部分は、所定の一定の寸法の立方体である。係る実施形態での所定の一定の寸法の立方体の使用は、幾何学的データの関連性のある部分が使用されること、及び各ボクセルマップが同じサイズであることを保証する。いくつかの実施形態では、立方体の所定の一定の寸法は、NÅxNÅxNÅであり、Nは、5と100の間の整数または実値、8と50の間の整数、または15と40の間の整数である。いくつかの実施形態では、一様なハニカムは直角プリズムハニカムであり、ポリマー及びテストオブジェクトの一部分は、直角プリズム所定一定寸法QÅxRÅxSÅであり、Qは、5と100の間の第1の整数であり、Rは5と100の間の第2の整数であり、Sは5と100の間の整数または実値であり、集合{Q、R、S}の少なくとも1つの数は集合{Q、R、S}の別の値に等しくない。
一実施形態では、あらゆるボクセルは、簡略な実施態様ではオン/オフであるであろう、1つ以上の入力チャネルと関連付けられた種々の値を有してよく、1種類の原子のために符号化するように構成されてよい1つ以上の入力チャネルを有する。原子種類は、原子の元素を示す場合もあれば、原子種類は、他の原子特徴を区別するためにさらに精緻化される場合もある。存在する原子は、次いで各ボクセルで符号化されてよい。種々の技術及び/または方法を使用し、種々の種類の符号化が利用されてよい。例の符号化方法として、原子の原子番号が利用され、水素の1からウンウンオクチウム(または任意の他の元素)の118に及ぶボクセルあたり1つの値を生じさせてよい。
しかしながら、上述したように、あらゆるボクセルが多くの平行した入力チャネルを有し、入力チャネルのそれぞれがオンまたはオフのどちらかであり、1種類の原子のために符号化する、例えば「ワンホットエンコーディング」等の他の符号化方法が利用されてよい。原子種類は、原子の元素を示す場合もあれば、原子種類は、他の原子特徴を区別するためにさらに精緻化される場合もある。例えば、SYBYL原子種類は単一結合炭素を二重結合された炭素、三重結合された炭素、または芳香族炭素から区別する。SYBYL原子種類について、参照により本明細書に援用される、Clark et al.,1989,「Validation of the General Purpose Tripos Force Field,」1989,J.Comput.Chem.10,pp.982~1012を参照すること。
いくつかの実施形態では、各ボクセルは、さらに、ターゲットオブジェクト58の一部である、またはテストオブジェクト72もしくは訓練オブジェクト66の一部に対する共同因子である原子を区別するために1つ以上のチャネルを含む。例えば、一実施形態では、各ボクセルは、さらに、ターゲットオブジェクト58のための第1のチャネル及びテストオブジェクト72または訓練オブジェクト66のための第2のチャネルを含む(238)。ボクセルによって表現される空間の部分内の原子がターゲットオブジェクト58からであるとき、第1のチャネルは、例えば「1」等の値に設定され、それ以外の場合(例えば、ボクセルによって表現される空間の部分が原子を含まない、またはターゲットオブジェクト72もしくは訓練オブジェクト66からの1つ以上の原子を含むため)ゼロである。さらに、ボクセルによって表現される空間の部分内の原子が、テストオブジェクト72または訓練オブジェクト66からであるとき、第2のチャネルは、例えば「1」等の値に設定され、それ以外の場合(例えば、ボクセルによって表現される空間の部分が原子を含まない、またはターゲットオブジェクト58から1つ以上の原子を含むため)ゼロである。同様に、他のチャネルは、例えば部分電荷、分極率、電子陰性度、溶媒接触可能空間、及び電子密度等の追加の情報をさらに(または代わりに)指定してよい。例えば、いくつかの実施形態では、ターゲットオブジェクトのための電子密度マップが、三次元座標の集合を覆い、ボクセルマップの作成が、電子密度マップをさらにサンプリングする。適切な電子密度マップの例は、複数の同形置換マップ、異常信号マップを有する単一の同形置換、単一波長異常分散マップ、多波長異常分散マップ、及び2Fo-Fcマップを含むが、これに限定されるものではない(260)。参照により本明細書に援用される、McRee,1993,Practical Protein Crystallography,Academic Pressを参照すること。
いくつかの実施形態では、開示されているシステム及び方法のいくつかの実施形態に係るボクセル符号化は、追加の任意選択の符号化改良を含んでもよい。以下の2つが例として示される。
第1の符号化改良では、必要とされるメモリは、大部分の元素は、生体系でめったに発生しないことに基づいて(例えば、ボクセルによって表現されるチャネル数を削減することによって等)ボクセルによって表現される原子の集合を削減することによって削減されてよい。原子は、(したがってシステムの性能にめったに影響を与えないことがある)希原子を結合することによって、または(したがって、結合からの不正確さを最小限に抑えることができるであろう)類似する特性を有する原子を結合することによってのどちらかで、ボクセル内で同じチャネルを共用するようにマッピングされてよい。
符号化改良は、隣接するボクセルを部分的に活性化することによってボクセルに原子位置を表現させることである。この結果、後続のニューラルネットワーク内の隣接するニューロンの部分的な活性化が生じ、ワンホット符号化から「セベラルウォーム(several warm)」符号化に移る。例えば、3.5Åのファンデルワールス直径、したがって1Å3グリッドが置かれるときに22.4Å3の体積を有する塩素原子を考慮することが例示的な場合があり、塩素原子の内側のボクセルは完全に充填され、原子の端縁上のボクセルは部分的に充填されるにすぎない。したがって、部分的に充填されたボクセル内の塩素を表現するチャネルは、係るボクセルが遠視元素の範囲内に収まる量に比例してオンにされる。例えば、ボクセル体積の50パーセントが塩素原子の範囲に入る場合、塩素を表現するボクセルのチャネルは、50パーセント活性化される。この結果、個別のワンホット符号化に対して「円滑化され」より正確な表現が生じる。したがって、いくつかの実施形態では、テストオブジェクトは、第1の化合物であり、ターゲットオブジェクトは第2の化合物であり、サンプリングで発生する原子の特徴は、それぞれのボクセルマップ40のボクセルの部分集合全体で拡散され、ボクセルのこの部分集合は、2つ以上のボクセル、3つ以上のボクセル、5つ以上のボクセル、10以上のボクセル、25以上のボクセルを含む。いくつかの実施形態では、原子の特徴は、原子種類の列挙(例えば、SYBYL原子種類のうちの1つ)から成る。
したがって、符号化されている幾何学的データ(テストオブジェクトまたは訓練オブジェクトのターゲットオブジェクトへのドッキング)のボクセレーション(ラスタ化)は、入力データに適用される種々の規則に基づく。
図5及び図6は、いくつかの実施形態に従って、ボクセルの二次元グリッド500に符号化された2つの分子502の図を示す。図5は、二次元グリッド上に重畳された2つの分子を示す。図6は、酸素、窒素、炭素、及び空きスペースの存在をそれぞれ符号化するために異なる陰影パターンを使用する、ワンホットエンコーディングを示す。上述の通り、係る符号化は、「ワンホット」エンコーディング」と呼ばれる場合がある。図6は、分子502が省略された状態の図5のグリッド500を示す。図7は、ボクセルに番号が付けられている図6のボクセルの二次元グリッドの図を示す。
いくつかの実施形態では、素性ジオメトリは、ボクセル以外の形で表現される。図8は、特徴(例えば、原子中心)が、0-D点(表現802)、1-D点(表現804)、2-D点(表現806)、または3-D点(表現808)として表現される種々の表現の図を示す。最初に、点の間のスペーシングは無作為に選ばれてよい。ただし、予測モデルが訓練されるにつれて、点は互いにより近くに、またはより遠くに離れて移動してよい。図9は、各点の一連の考えられる位置を示す。
再び図2Bのブロック228を参照すると、ボクセルマップが作成されるいくつかの実施形態では、複数のボクセルマップの各ボクセルマップは、対応する第1の分類子入力ベクトル122に展開され、それによって複数の第1の分類子入力ベクトルを作成する。いくつかの実施形態では、複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトル122は、一次元である(ブロック230)。言い換えると、いくつかの係る実施形態では、複数のベクトルの各ベクトルは、一次元ベクトルである。例えば、いくつかの実施形態では、各側面の20Åの立方体は、ターゲットオブジェクト58の活性部位に中心があり、1Åの三次元固定グリッドスペーシングでサンプリングされて、上述するように、任意選択でより複雑なテストオブジェクト―ターゲットオブジェクト記述子だけではなく、原子種類等のボクセル構造特徴の基本をそれぞれのチャネルに保持するボクセルマップの対応するボクセルを形成する。いくつかの実施形態では、この三次元ボクセルマップのボクセルは、一次元浮動小数点ベクトルの中に展開される。
いくつかの実施形態では、ボクセルマップは、第1の分類子102に入力される前にベクトル化されない。
いくつかの係る実施形態では、複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトルは、同じサイズである。係る実施形態では、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を第1の分類子に入力することは、複数の第1の分類子入力ベクトルのそれぞれの各第1の分類子入力ベクトルを第1の分類子102に入力することを含む。
図2Cのブロック238を参照すると、複数のポーズが所与のテストオブジェクト72のためにサンプリングされるとき、ブロック228の第2の手順は、さらに、第1の分類子102から複数のスコアを入手することを含み、複数のスコアの各スコア106は、複数の第1の分類子入力ベクトル122の第1の分類子入力ベクトルの第1の分類子への入力に対応する。複数のスコアは、テストオブジェクト72とそれぞれのターゲットオブジェクト58との間の相互作用の記述を入手するために使用される。いくつかの係る実施形態では、テストオブジェクト72は、化合物である。
いくつかの実施形態では、複数のスコアは、中心傾向(例えば、算術平均、加重平均、ミッドレンジ、ミッドヒンジ、3項平均、ウィンザー化平均、中央値、または複数のフィルタ処理した信号測定の残りのフィルタ処理した信号測定のモード)の測定をとることによってテストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために使用される。いくつかの係る実施形態では、代表値が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述は、第1の分類を有すると見なされる。代表値が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述は、第2の分類を有すると見なされる。いくつかの実施形態では、第1の分類は、テストオブジェクトがIC50、EC50、K、KI、または第1の結合値未満である阻害パーセントを有するそれぞれのターゲットオブジェクトに結合する旨の予測であり、第2の分類は、テストオブジェクトが、IC50、EC50、K、KI、または第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモル等)を超える阻害パーセントを有するそれぞれのターゲットオブジェクトに結合する旨の予測である(ブロック239)。いくつかの係る実施形態では、代表値は分類されず、最終的にテストベクトル104内の元素(スコア106)の形で第2の分類子に渡される。実施形態では、代表値は分類され、この分類は、第1の分類子102からの未処理スコアと対照的に、最終的には、テストベクトル104内の元素(スコア106)の形で第2の分類子に渡される。
例えばいくつかの畳み込みニューラルネットワーク等の第1の分類子が多数の出力を有する一実施形態では、出力は、既知であるまたは開発される、本明細書に説明される活性化機能のいずれかを使用し、結合されてよい。例は、不飽和活性化関数f(x)=max(0,x)、飽和双曲線正接関数f(x)=tanh、f(x)=|tanh(x)|、シグモイド関数f(x)=(1+eーx)-1、ロジスティック(またはシグモイド)、ソフトマックス、ガウス分布、ボルツマン‐加重平均、絶対値、線形、正規化線形、有限正規化線形、ソフト正規化線形、パラメータ化正規化線形、平均、最大、最小、なんらかのベクトルノルムLP(p=1、2、3、...、∞)、符号、二乗、平方根、多重二次(multiquadric)、逆二次、逆多重二次、多高調波スプライン、及び薄板スプラインを含むが、これに限定されるものではない。本開示のいくつかの実施形態では、ボルツマン分布は、これが、出力が結合エネルギーを示すとして解釈される場合にポーズの物理的な確率に一致するので、出力を結合するために利用される。本発明の他の実施形態において、max()関数は、ボルツマンに対する妥当な近似を提供する場合もあり、計算上効率的である。
第1の分類子が数値ではない実施形態では、第1の分類子は、例示的な非制限令としてとりわけ大多数、加重平均、コンドルセ方法、ボルダ方式を含んでよい、種々のアンサンブル投票方式を使用し、出力を結合するように構成されてよい。
一実施形態では、システムは、結合親和性のインジケータを生成するために第1の分類子のアンサンブルを適用するように構成されてよい。
いくつかの実施形態では、テストオブジェクト72(または訓練オブジェクト66)を特徴付けるために複数のスコアを使用することは、(テストオブジェクトまたは訓練オブジェクトのための複数のポーズから)複数のスコアの加重平均をとることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトは、第1の分類を有すると見なされる。加重平均が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは、第2の分類を有すると見なされる。いくつかの実施形態では、加重平均は、複数のスコアのボルツマン平均である。
図2Dのブロック240を参照すると、いくつかの実施形態では、ブロック228の第2の手順は、さらに、第1の分類子102から複数のスコアを入手することを含み、複数のスコアの各スコア106は、複数の第1の分類子入力ベクトルの第1の分類子入力ベクトルの第1の分類子への入力に対応する。テストオブジェクトとそれぞれのターゲットオブジェクトとの間の相互作用の記述を入手するために複数のスコアを使用することは、複数のスコアの加重平均をとることを含む。加重平均が所定の閾値または所定の閾値範囲を満たすとき、テストオブジェクトは、第1の分類を有すると見なされる。加重平均が所定の閾値または所定の閾値範囲を満たすことができないとき、テストオブジェクトは、第2の分類を有すると見なされる。
ブロック240に係るいくつかの係る実施形態では、第1の分類は、テストオブジェクト72がIC50、EC50、K、KI、または第1の結合値未満である阻害パーセントを有するそれぞれのターゲットオブジェクト58に結合する旨の予測であり、第2の分類は、テストオブジェクト72が、IC50、EC50、K、KI、または第1の結合値(例えば、1マイクロモル、10マイクロモル)を超える阻害パーセントを有するそれぞれのターゲットオブジェクト58に結合する旨の予測である(ブロック241)。
ブロック240によるいくつかの実施形態では、第1の結合値は1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモルである(ブロック241)。
ブロック240に係るいくつかの実施形態では、加重平均は、複数のスコアのボルツマン平均である(ブロック242)。
ブロック240に係るいくつかの実施形態では、第1の分類は、IC50、EC50、K、KI、または第1の結合値を超えるそれぞれのターゲットオブジェクトに関してテストオブジェクトのための阻害パーセントであり、第2の分類は、IC50、EC50、K、KI、または第1の結合値(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモル等)未満であるそれぞれのターゲットオブジェクトに関してテストオブジェクトのための阻害パーセントである(ブロック244)。
ブロック240に係るいくつかの実施形態では、第1の複数のターゲットオブジェクトの各ターゲットオブジェクト58は、活性部位を有するポリマーである。テストオブジェクト72は、化学組成物である。複数の異なるポーズの各ポーズ120のそれぞれのターゲットオブジェクトでテストオブジェクトをモデル化することは、それぞれのターゲットオブジェクトの原子表示に結び付けられたテストオブジェクト72の原子表示の分子動力学ランを実行し、それによって経時的にともにテストオブジェクト及びそれぞれのターゲットオブジェクトの軌跡を形成することを含む。複数の異なるポーズの少なくとも1つの部分集合は、ある期間にわたり軌跡のスナップショットを撮ることによって入手される(ブロック246)。
ブロック248を参照すると、ブロック226に係るいくつかの実施形態では、第1の分類子102は、(i)複数の第1の分類子入力ベクトルのそれぞれの第1の分類子入力ベクトルを連続して受け取るための入力層26と、(ii)複数の畳み込み層28と、(iii)スコアラ30とを含む、ネットワークアーキテクチャを含む。複数の畳み込み層は、初期畳み込み層及び最終畳み込み層を含む。複数の畳み込み層の各層は、重みの異なる集合と関連付けられる。複数の第1の分類子入力ベクトルのそれぞれの第1の分類子入力ベクトル122の第1の分類子102への入力に応えて、入力層は、それぞれの第1の分類子入力ベクトル122の値の第1の関数として、第1の複数の値を初期畳み込み層に送り込む。最終畳み込み層以外のそれぞれの各畳み込み層28は、(i)それぞれの畳み込み層と関連付けられた重みの異なる集合、及び(ii)それぞれの畳み込み層によって受け取られる入力値、のそれぞれの第2の関数として、中間値を複数の畳み込み層の別の畳み込み層に送り込む。最終畳み込み層20は、(i)最終畳み込み層と関連付けられた重みの異なる集合、及び(ii)最終畳み込み層によって受け取られる入力値、の第3の関数として、最終値をスコアラに送り込む。係る実施形態では、第2の手順は、さらに、スコアラ30から複数のスコアを入手することであって、複数のスコアの各スコアは、複数の第1の分類子入力ベクトルの第1の分類子入力ベクトル122の入力層26への入力に対応する、該入手すること、及びテストオブジェクト72とそれぞれのターゲットオブジェクト58との間の相互作用の記述を入手するために複数のスコアを使用することを含む。
いくつかの実施形態では、図1Bを参照すると、それぞれの第1の識別子入力ベクトル22が、例えばボクセルマップ22のベクトル化された表現の形で、第1の分類子102(例えば、畳み込みニューラルネットワーク)とともに図形処理ユニットのメモリ52に記憶される。これは、より高速で第1の分類子を通して第1の分類子入力ベクトルを処理するという優位点を提供する。しかしながら、図1Aの実施形態等の他の実施形態では、第1の分類子入力ベクトル22のいずれかまたはすべて及び第1の分類子102は、システム100Aのメモリ92内にある、または単にネットワークを介してシステム100Aによってアドレス指定可能である。いくつかの実施形態では、第1の分類子入力ベクトル22のいずれかまたはすべて、第1の分類子102、第2の分類子108、及び分類子バイアス評価モジュール56は、クラウドコンピューティング環境にある。
いくつかの実施形態では、図1Bを参照すると、複数の第1の分類子入力ベクトル122が、図形処理ユニットメモリ52に提供され、図形処理ユニットメモリは、複数のベクトルを連続して受け取るための入力層26、複数の畳み込み層28、及びスコアラ30を含んだ畳み込みニューラルネットワークの形の第1の分類子102を含むネットワークアーキテクチャを含む(ブロック254)。複数の畳み込み層は、初期畳み込み層及び最終畳み込み層を含む。いくつかの実施形態では、畳み込みニューラルネットワーク24は、GPUメモリ内にあるのではなく、むしろシステム100の汎用メモリ内にある。
テストオブジェクト72(または訓練オブジェクト66)とターゲットオブジェクト58との間の複合体のためのニューラルネットワークからスコアラスコアを入手するための詳細は、上述されている。上述したように、テストオブジェクト72(または訓練オブジェクト66)は、ターゲットオブジェクトに関して複数のポーズにドッキングされる。畳み込みニューラルネットワークに一度で係るポーズを提示することは、法外に大きい入力フィールド(例えば、ボクセル数*チャネル数*ポーズ数に等しいサイズの入力フィールド)を必要とする場合がある。いくつかの実施形態では、すべてのポーズはネットワーク24に並行して提示されるが、好ましい実施形態では、係る各ポーズはボクセルマップの中に処理され、ベクトル化され、畳み込みニューラルネットワークへの連続入力としての機能を果たす。このようにして、複数のスコアは、スコアラ30から入手され、複数のスコアの各スコアは、複数のベクトルのベクトルのスコアラ30の入力層26への入力に対応する。いくつかの実施形態では、所与のターゲットオブジェクト58とともに、所与のテストオブジェクト72(または訓練オブジェクト66)のポーズのそれぞれのためのスコアは、ともに結合されて、テストオブジェクト72(または訓練オブジェクト66)のための最終スコア106を生じさせる。ここで開始する。
いくつかの実施形態では、複数の畳み込み層の畳み込み層28は、(カーネルとも称される)学習可能なフィルタの集合を含む。各フィルタは、畳み込み層の入力体積の奥行き、高さ、及び幅全体で畳み込まれ(所定のステップレートでステップを付けられ)、フィルタのエントリ(重み)と入力との間のドット積(または他の関数)を計算し、それによってそのフィルタの多次元活性化マップを作成する一定の三次元サイズを有する。いくつかの実施形態では、フィルタステップレートは、入力空間の1元素、2元素、3元素、4元素、5元素、6元素、7元素、8元素、9元素、10元素、または10を超える元素である。したがって、フィルタがサイズ5を有する場合を考慮する。いくつかの実施形態では、このフィルタは、ボクセルチャネルごとに125の入力空間の値の総数について、5つの要素の奥行、5つの要素の幅、及び5つの要素の高さを有する入力空間の連続する立方体間のドット積(または他の数学関数)を計算する。
初期畳み込み層に対する入力空間(例えば、入力層26からの出力)は、ボクセルマップ40またはボクセルマップ22のベクトル化された表現のどちらかから形成される。いくつかの実施形態では、ボクセルマップのベクトル化された表現は、初期畳み込み層に対する入力空間としての役割を果たすボクセルマップの一次元ベクトル化表現である。それにも関わらず、フィルタがその入力空間を畳み込み、入力空間がボクセルマップの一次元ベクトル化表現であるとき、フィルタは依然として一次元ベクトル化表現から、ターゲットオブジェクト‐テスト(または訓練)オブジェクト複合体内の一定の空間の対応する連続する立方体を表すそれらの要素を入手する。いくつかの実施形態では、フィルタは、一次元ベクトル化表現の中から、ターゲットオブジェクト‐テスト(または訓練)オブジェクト複合体内の一定の空間の対応する連続する立方体を形成する、それらの要素を選択するために標準的なブックキーピング技術を使用する。したがって、いくつかの例では、これは必ずや、ターゲットオブジェクト‐テスト(または訓練)オブジェクト複合体内の一定の空間の対応する連続する立方体の要素値を入手するために、一次元ベクトル化表現内の要素の非連続部分集合をとることを含む。
いくつかの実施形態では、フィルタは(例えば、ガウスノイズに)初期化される、または(入力チャネルあたり)125の対応する重みに、フィルタに対応する活性化層の第1の単一値(または値の集合)を計算するために、125の入力空間値のドット積(または例えば図10に開示される関数等の数学演算のなんらかの他の形)をとらせるように訓練される。いくつかの実施形態では、フィルタによって算出される値は、合計され、重みを付けられ、及び/またはバイアスをかけられる。フィルタに対応する活性化層の追加の値を算出するために、フィルタは、次いで、フィルタと関連付けられたステップレート(ストライド)による入力体積の三次元のうちの1つでステップを付けられ(畳み込まれ)、その点で、フィルタ重みと(チャネルあたり)125の入力空間値との間のドット積(または例えば図10に開示される数学関数等のなんらかの他の形の数学演算)が、入力体積の新しい場所でとられる。このステッピング(畳み込み)は、フィルタがステップレートに従って入力空間全体をサンプリングするまで繰り返される。いくつかの実施形態では、入力空間の境界は、畳み込み層によって生じる出力空間の空間体積を制御するためにゼロで埋められる。典型的な実施形態では、畳み込み層のフィルタのそれぞれは、このようにして三次元入力体積全体を覆い、それによって対応する活性化マップを形成する。畳み込み層のフィルタからの活性化マップの収集は、集合的に1つの畳み込み層の三次元出力体積を形成し、それによって後続の畳み込み層の三次元(3つの空間次元)としての機能を果たす。出力体積のあらゆるエントリは、畳み込み層への入力空間内の小さい領域を見て、同じ活性化マップのニューロンとパラメータを共用する単一のニューロン(またはニューロンの集合)の出力として解釈することもできる。したがって、いくつかの実施形態では、複数の畳み込み層の畳み込み層は、複数のフィルタを有し、複数のフィルタの各フィルタは、ストライドYでNの三次元入力空間を畳み込み、Nは、2以上(例えば、2,3、4、5、6、7、8、9、10、または10以上)の整数であり、Yは、正の整数(例えば、1、2、3、4、5、6、7、8、9、10、または10以上)である。
いくつかの実施形態では、複数の畳み込み層28の各層は、重みの異なる集合と関連付けられる。より詳細には、複数の畳み込み層の各層は、複数のフィルタを含み、各フィルタは独立した複数の重みを含む(270)。いくつかの実施形態では、畳み込み層は、寸法5の128のフィルタを有し、したがって畳み込み層は、ボクセルマップのチャネルあたり128x5x5x5、つまり16,000の重みを有する。したがって、ボクセルマップに5つのチャネルがある場合、畳み込み層は、16,000x5重み、つまり80,000重みを有する。いくつかの実施形態では、所与の畳み込み層でのあらゆるフィルタのいくつかのまたはすべての係る重み(及び、任意選択でバイアス)は、互いに結び付けられてよい、つまり同一となるように制約されてよい。
複数のベクトルのそれぞれの入力ベクトル122の入力に応えて、入力層26は、それぞれのベクトルの値の第1の関数として、第1の複数の値を初期畳み込み層に送り込み、第1の関数は、図形処理ユニット50を使用し、任意選択で算出される。
最終畳み込み層以外のそれぞれの各畳み込み層28は、(i)それぞれの畳み込み層と関連付けられた重みの異なる集合、及び(ii)それぞれの畳み込み層によって受け取られる入力値、のそれぞれの第2の関数として、中間値を複数の畳み込み層の別の畳み込み層に送り込み、第2の関数は、図形処理ユニット50を使用し、算出される。例えば、それぞれの畳み込み層28のそれぞれの各フィルタは、畳み込み層の特徴的な三次元ストライドに従って、畳み込み層への(3つの空間次元での)入力体積を覆い、それぞれの各フィルタ位置で、それぞれのフィルタのフィルタ重み及びそれぞれのフィルタ位置での入力体積(総入力空間の部分集合である連続する立方体)の値のドット積(またはなんらかの他の数学関数)をとり、それによってそれぞれのフィルタ位置に対応する活性化層での計算された点(または点の集合)を生じさせる。それぞれの畳み込み層のフィルタの活性化層は、それぞれの畳み込み層の中間値を集合的に表す。
最終畳み込み層は、(i)最終畳み込み層と関連付けられた重みの異なる集合、及び(ii)図形処理ユニット50を使用し、任意選択で産出される最終畳み込み層によって受け取られる入力値、の第3の関数として、最終値をスコアラに送り込む。例えば、最終畳み込み層28のそれぞれの各フィルタは、畳み込み層の特徴的な三次元ストライドに従って、最終畳み込み層への(3つの空間次元での)入力体積を覆い、それぞれの各フィルタ位置で、フィルタのフィルタ重み及びそれぞれのフィルタ位置での入力体積の値のドット積(またはなんらかの他の数学関数)をとり、それによってそれぞれのフィルタ位置に対応する活性化層での点(または点の集合)を計算する。最終畳み込み層のフィルタの活性化層は、スコアラ30に送り込まれる最終値を集合的に表す。
いくつかの実施形態では、畳み込みニューラルネットワークは、1つ以上の活性化層を有する。いくつかの実施形態では、活性化層は、非飽和活性化関数f(x)=max(0,x)を適用するニューロンの層である。活性化層は、畳み込み層の受容野に影響を及ぼすことなく、決定関数の及び全体的なネットワークの非線形特性を増加させる。他の実施形態では、活性化層は、非線形性、例えば飽和双曲線正接関数f(x)=tanh、f(x)=|tanh(x)|及びシグモイド関数f(x)=(1+eーx-1を増加させるために他の関数を有する。ニューラルネットワークのためのいくつかの実施形態における他の活性化層で見つけられる他の活性化関数の非制限的な例は、ロジスティック(またはシグモイド)、ソフトマックス、ガウス分布、ボルツマン‐加重平均、絶対値、線形、正規化線形、有限正規化線形、ソフト正規化線形、パラメータ化正規化線形、平均、最大、最小、なんらかのベクトルノルムLP(p=1、2、3、...、∞)、符号、二乗、平方根、多重二次、逆二次、逆多重二次、多高調波スプライン、及び薄板スプラインを含むが、これに限定されるものではない。
畳み込みニューラルネットワークは、それらが入力のなんらかの空間位置に特定のタイプの特徴を見るときに活性化する、畳み込み層28の中のフィルタを学習する。いくつかの実施形態では、畳み込み層の各フィルタの初期重みは、第1の分類子63のための訓練データセットに対して畳み込みニューラルネットワークを訓練することによって入手される。したがって、畳み込みニューラルネットワークの動作は、結合親和性予測を実施するために履歴的に使用される特徴よりもより複雑な特徴を生じさせる場合がある。例えば、水素結合検出器としての機能を果たすネットワークの所与の畳み込み層のフィルタは、水素結合供与体及び水素結合受容体が所与の距離及び角度にあることを認識できてよいだけではなく、供与体及び受容体の回りの生物化学環境が、結合を強化するまたは弱体化することを認識できてもよい。さらに、ネットワークの中のフィルタは、基本データにおいて結合剤と非結合剤を効果的に区別するように訓練されてよい。
いくつかの実施形態では、畳み込みニューラルネットワークは、例えばターゲットオブジェクトとテストオブジェクトの両方が移動するにつれ、遭遇される場合がある代替位置等の、動的システムのために適応するように構成される。係るターゲットオブジェクト‐テストオブジェクト複合体では、いくつかの異なる構成が、各形状の自由エネルギーのボルツマン分布に基づいた相対的な割合で採用されてよい。ターゲットオブジェクト‐テストオブジェクト複合体の自由エネルギーのエンタルピー成分及びエントロピー成分は、オブジェクト(ΔG=ΔH-T Δs)によって採用されるポーズに依存する場合がある。最終的な結合親和性は、ターゲットオブジェクト‐テストオブジェクト複合体が利用可能なポーズの集合のエネルギーの加重平均の関数であることが判明する場合がある。この物理現象をモデル化するために、畳み込みニューラルネットワークは、ターゲットオブジェクト及びテストオブジェクトの運動による多数の代替位置をサンプリングし、(例えば、これらの多様な代替位置のすべてのネットワーク24スコアの加重平均をとることによって)複合体の構成のサンプリングされた集合に基づいて、その結合親和性予測を行うように構成されてよい。
上述したように、いくつかの実施形態では、ニューラルネットワークは、三次元畳み込み層を展開させるように構成される。最低レベルの畳み込み層28に対する入力領域は、受容野からのボクセルチャネルの立方体(または他の連続する領域)であってよい。より高い畳み込み層は、その出力を(3-Dユークリッド距離において)互いに近いボクセルの有限領域の関数とさせながらも、より低い畳み込み層からの出力を評価する。
生物学的活動は、移動だけではなく回転の下でも不変であってよいため、ネットワークは、空間分割の回転対称を利用する回転された特徴マップを生成するように任意選択で構成されてよい。例えば、システムが入力データを区分化するために立方体を使用するように構成されると、システムは、90度回転の後に関数算出の重みを互いに結び付けることによって回転された特徴マップを生成するように構成できるであろう。
右回りに回転される立方体を検討することが例示的である場合がある。つまり、1つのフィルタの上面の重みは、別のフィルタの正しい面の重みに結び付けられるようになる。言い換えると、重みは同一となるように制約されてよい。回転は、3つのXY平面/XZ平面/YZ平面のそれぞれについて90度、180度、270度、右回りに回転することによって24の特徴マップを生成してよい。重み結束なしでは、あらゆるフィルタがその自重を有するので、この配置構成は、回転重み結束なしの24分の1にパラメータの数を削減する。
代替例として、システムが入力データを区分化するために他の多面体を使用するように構成されると、システムは、その対称性群に適切な等長写像にアクセスするために他の回転を使用するように構成されてよい。例えば、空間が切頂8面体を使用し、区分化されている場合、90度の回転対称の3軸、120度の回転対称の4軸、及び180度の回転対称の6軸があるであろう。
一実施形態では、畳み込みニューラルネットワークは、モデルの傾向を削減して、訓練オブジェクト66及び訓練結合データ68を過剰適合するために正規化法を適用するように構成される。
畳み込みニューラルネットワークのネットワーク層のうちのゼロ以上は、プーリング層から成り立ってよい。畳み込み層においてのように、プーリング層は、入力の異なる空間的に局所的なパッチに対して同じ関数を適用する関数計算の集合である。プーリング層の場合、出力は、いくつかのボクセル上で、例えば、p=1、2、3、...、∞の場合のなんらかのベクトルノルムLP等のプーリング演算子によって与えられる。プーリングは、通常、チャネル全体でよりむしろチャネルごとに行われる。プーリングは、入力空間を三次元ボックスの集合に区分化し、係る各小領域のために、最大値を出力する。プーリング演算は、並進不変の形を提供する。プーリング層の機能は、表現の空間サイズを漸次的に削減して、ネットワークでのパラメータ及び計算の量を削減すること、したがって過剰適合を制御することでもある。いくつかの実施形態では、プーリング層は、畳み込みネットワークの連続する畳み込み28層の間に挿入される。係るプーリング層は、入力のあらゆる深度スライスとは無関係に動作し、そのサイズを空間的に変更する。最大プーリングに加えて、ポーリングユニットは、例えば平均プーリングまたはL2-ノルムプーリング等の他の機能も実行できる。
畳み込みニューラルネットワークの層のうちのゼロ以上は、同じ位置のチャネル全体でまたはいくつかの位置にわたる特定のチャネルのために適用されてよい、例えば局所反応正規化または局所コントラスト正規化等の正規化層から成り立ってよい。これらの正規化層は、同じ入力に対するいくつかの関数計算の反応の多様性を促してよい。
全結合層のニューロンは、正規のニューラルネットワークに見られるように、前の層のすべての活性化に対する完全な結合を有する。したがって、その活性化は、バイアスオフセットが後に続く行列乗算で算出できる。いくつかの実施形態では、各全結合層は、512の隠れユニット、1024の隠れユニット、または2048の隠れユニットを有する。いくつかの実施形態では、スコアラに、完全結合層がない、1つの完全結合層、2つの完全結合層、3つの完全結合層、4つの完全結合層、5つの完全結合層、6つ以上の完全結合層、または10以上の完全結合層がある。
いくつかの実施形態では、スコアラは、複数の完全結合層及び評価層を含み、複数の完全結合層の完全結合層は、評価層に流れ込む。いくつかの実施形態では、評価層は、ロジスティック回帰コスト層である(ブロック258)。いくつかの実施形態において、評価層は複数の活動クラスを区別する。いくつかの実施形態では、評価層は、2つの活動クラス、3つの活動クラス、4つの活動クラス、5つの活動クラス、または6つ以上の活動クラス上にロジスティック回帰コスト層を含む。いくつかの実施形態では、評価層は複数の活動クラス上にロジスティック回帰コスト層を含む。いくつかの実施形態では、評価層は、2つの活動クラス、3つの活動クラス、4つの活動クラス、5つの活動クラス、または6つ以上の活動クラス上にロジスティック回帰コスト層を含む。
図2Eのブロック250を参照すると、ブロック248のいくつかの実施形態では、スコアラ30は、複数の完全結合層及び評価層を含む。複数の完全結合層の完全結合層は、評価層に流れ込む。例えば、いくつかの実施形態では、評価層は、2つの活動クラス上にロジスティック回帰コスト層を含み、第1の活動クラス(第1の分類)は、第1の結合値を超えるそれぞれのターゲットオブジェクト58に関してテストオブジェクト72(または訓練オブジェクト)のためのIC50、EC50、またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値未満であるそれぞれのターゲットオブジェクト58に関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50、KまたはKIである。いくつかの係る実施形態では、第1の結合値は1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、またはミリモルである。
図2Eのブロック252を参照すると、ブロック248のいくつかの係る実施形態では、スコアラ30は、決定木、多重相加的回帰木、クラスタ化アルゴリズム、主成分分析、最近傍分析、線形判別分析、二次判別分析、サポートベクトルマシン、発展的方法、射影追跡、ロジスティック回帰、またはそのアンサンブルの実施態様を含む。
いくつかの実施形態では、スコアラ30は、完全結合単一層または多層パーセプトロンを含む。いくつかの実施形態では、スコアラは、サポートベクトルマシン、ランダムフォレスト、最近傍を含む。いくつかの実施形態では、スコアラ30は、種々の出力カテゴリに入力を分類することの強度(つまり確実性または蓋然性)を示す数値スコアを割り当てる。いくつかの場合では、カテゴリは結合剤及び非結合剤、または代わりに効力レベル(例えば<1モル、<1ミリモル、<100マイクロモル、<10マイクロモル、<1マイクロモル、<100ナノモル、<10ナノモル、<1ナノモルのIC50効力、EC50効力、またはKI効力)である。
いくつかの実施形態では、評価層は、3つの活動クラスを区別し、第1の活動クラス(第1の分類)は、第1の結合値を超えるターゲットオブジェクトに関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値と第2の結合値との間であるターゲットオブジェクトに関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50、またはKIであり、第3の活動クラス(第3の分類)は、第2の結合値未満であるターゲットオブジェクトに関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50、またはKIであり、第1の結合値は、第2の結合値以外である。
いくつかの実施形態では、評価層は、3つの活動クラス上にロジスティック回帰コスト層を含み、第1の活動クラス(第1の分類)は、第1の結合値を超えるターゲットオブジェクトに関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50、またはKIを表し、第2の活動クラス(第2の分類)は、第1の結合値と第2の結合値の間であるターゲットオブジェクトに関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50、またはKIであり、第3の活動クラス(第3の分類)は、第2の結合値未満であるターゲットオブジェクトに関してテストオブジェクト(または訓練オブジェクト)のためのIC50、EC50、またはKIであり、第1の結合値は、第2の結合値以外である。
図2Fのブロック256を参照すると、ブロック248のいくつかの係る実施形態では、複数の畳み込み層の畳み込み層28は、複数のフィルタを有し、複数のフィルタの各フィルタは、ストライドYでN3の三次元入力空間を畳み込み、Nは2以上の整数であり、Yは正の整数である(例えば、畳み込み層と関連付けられた重みの異なる集合は、複数のフィルタのそれぞれのフィルタと関連付けられる)。
ブロック260を参照すると、テストオブジェクト72と第1の複数のターゲットオブジェクト全体でのそれぞれのターゲットオブジェクト58との間の相互作用のための対応する各スコア106は、テストオブジェクトのためのテストベクトル104を形成する。例えば、100のターゲットオブジェクトがある場合を考える。この場合、テストオブジェクトと各ターゲットオブジェクトとの間の相互作用は、第1の分類子102を使用し、評価される。これを行うために、テストオブジェクトと第1のターゲットオブジェクトとの間の相互作用は、本開示に示される技術のいずれかを使用し、第1の分類子に入力され、それによってこの相互作用のために第1の分類子から第1の対応するスコア106-1を入手する。次に、テストオブジェクトと第2のターゲットオブジェクトとの間の相互作用は本開示に示される技術のいずれかを使用し、第1の分類子に入力され、それによってこの相互作用のために第1の分類子から第2の対応するスコア106-2を入手する。このプロセスは、スコアが、各ターゲットオブジェクト58に対してテストオブジェクトの相互作用のために第1の分類子によって計算されるまで、連続して繰り返される。対応するスコア106の子の集合は、以下のように示すことができるテストベクトルを構成する。
Figure 0007121725000003
すなわち、テストベクトルの各要素は、テストオブジェクトとターゲットオブジェクトとの間の対応するスコア106用である。上述したように、それぞれの対応するスコアは数値またはカテゴリ別である場合がある。さらに、対応する各スコアは、特定のターゲットオブジェクトに対するテストオブジェクトの複数のポーズのための代表値である場合がある。したがって、いくつかの実施形態では、テストオブジェクト72と第1の分類子102からのそれぞれのターゲットオブジェクト58との間の相互作用のための対応するスコア106は、数値スコアである(ブロック262)。ブロック264を参照すると、いくつかの実施形態では、テストオブジェクト72と第1の分類子102からのそれぞれのターゲットオブジェクト58との間の相互作用のための対応するスコア106は、ゼロと1の間の数値スコアである。ブロック266を参照すると、いくつかの実施形態では、第1の複数のターゲットオブジェクト58は、50以上のターゲットオブジェクト、100以上のターゲットオブジェクト、または200以上のターゲットオブジェクトを含み、テストオブジェクトのためのテストベクトル104は、50以上の対応する要素、100以上の対応する要素、または200以上の対応する要素を含み、係る各要素は、テストオブジェクトと、第1の分類子102からの第1の複数のターゲットオブジェクトのそれぞれのターゲットオブジェクトとの間の相互作用のためのスコア用である。
図2Fのブロック270を参照すると、方法は、テストオブジェクト72のためのテストベクトル104の第2の分類子108への入力を続行し、それによって第2の分類子からの出力としてテストベクトルのための変換を入手する。変換は、第1の複数のターゲットオブジェクトの単一のターゲットオブジェクトの表示110を提供する。ブロック272を参照すると、いくつかの実施形態では、第2の分類子108は、ロジスティック回帰アルゴリズム、ランダムフォレスト、非線形回帰モデル、線形回帰アルゴリズム、カーネル法、決定木、多次元スプライン(MARS)、または多重相加的回帰木を含む。
第2の分類子、及び第1の分類子から第2の分類子へのテストベクトル104の入力の利点は、第1の分類子の、例えばバイアス等の誤差を補正することである。このようにして、本開示の一態様は、第2の分類子が第1の分類子誤差を訂正し得るように、第1の分類子の出力に対して第2の分類子を訓練することである。
図2Gのブロック274を参照すると、第2の分類子の係る訓練がいくつかの実施形態で発生する1つの方法は、第2の分類子108のためにオブジェクト訓練ライブラリ112で第2の分類子104を訓練することである。オブジェクト訓練ライブラリは、複数の訓練オブジェクト113を含む。訓練オブジェクト113は、ターゲットオブジェクトのために本開示に開示される特徴のいずれかを有する場合がある。例えば、いくつかの係る実施形態では、各訓練オブジェクト113は、化合物である。訓練ベクトル116は、オブジェクト訓練ライブラリ112内の各訓練オブジェクト113のために生成される。複数の訓練ベクトルのそれぞれの各訓練ベクトル116は、ブロック210から258で上記に概略下第1の手順に従って、テストオブジェクトとして対応する訓練オブジェクト113を入力した後の第1の分類子102からの出力である。すなわち、上述したブロック210から258のいずれかでは、テストオブジェクトを使用するよりむしろ、訓練オブジェクト113が使用される。したがって、所与の訓練オブジェクト113のために、以下の形の訓練ベクトルが作成される。
Figure 0007121725000004
このテストベクトルでは、各要素は、訓練オブジェクト113のターゲットオブジェクト58との相互作用のための第1の分類子によるスコアに相当する。いくつかの実施形態では、各スコア118は、例えば0と1との間の実数等、スカラースコアである。いくつかの実施形態では、スコア118は、分類別のスコアである。例えば、いくつかの実施形態では、スコア118は、2つの考えられる値(例えば、「0」または「1」)の一方である。いくつかの実施形態では、スコア118は、2つの考えられるカテゴリ(「結合していない」または「結合する」)の一方である。いくつかの実施形態では、スコア118は、3つの考えられるカテゴリ(「結合していない」、「中程度の結合」、及び「強く結合している」)のうちの1つである。スコア118の任意の数のカテゴリが意図され、すべての係るカテゴリは、本開示の範囲内にある。
考えられるすべてのターゲットオブジェクトに対して第1の分類子を訓練する目的で、いくつかの実施形態では、オブジェクト訓練ライブラリは、それぞれの各ターゲットオブジェクトのために、それぞれのターゲットオブジェクトと関連付けられる訓練オブジェクト113の部分集合を含む。例えば、5つのターゲットオブジェクトがあり、第1の分類子が、訓練オブジェクトとターゲットオブジェクトとの間の相互作用の入力時に分類別の「結合する」または「結合しない」を出力する場合を考える。この例では、ターゲットオブジェクトの第1の部分集合は、第1の分類子が第1の標的にしか結合しないと見なすターゲットオブジェクトを含み、ターゲットオブジェクトの第2の部分集合は、第1の分類子が第2の標的にしか結合しないと見なすターゲットオブジェクトを含み、ターゲットオブジェクトの第3の部分集合は、第1の分類子が第3の標的にしか結合しないと見なすターゲットオブジェクトを含み、ターゲットオブジェクトの第4の部分集合は、第1の分類子が第4の標的にしか結合しないと見なすターゲットオブジェクトを含み、ターゲットオブジェクトの第5の部分集合は、第1の分類子が第5の標的にしか結合しないと見なすターゲットオブジェクトを含む。このようにして、第2の分類子のためのオブジェクト訓練ライブラリの複数の訓練オブジェクトの第1の部分での各訓練オブジェクト113は、第1の複数のターゲットオブジェクトの対応するターゲットオブジェクトと一意に関連付けられる。
さらに、第2の識別子をさらに訓練するために、第2の分類子のためのオブジェクト訓練ライブラリの訓練オブジェクトの別の部分は、任意のターゲットオブジェクト58と関連付けられていない訓練オブジェクト113を含む。例えば、5つのターゲットオブジェクトがあり、第1の分類子が、訓練オブジェクトとターゲットオブジェクトとの間の相互作用の入力時に分類別の「結合する」または「結合しない」を出力する上記の例では、ライブラリ112の訓練オブジェクトのこの第2の部分の各ターゲットオブジェクトは、第1の分類子に、5つすべてのターゲットオブジェクトのために「結合しない」を呼び出させる。いくつかの実施形態では、図1Aの訓練オブジェクト関連付け114は、各訓練オブジェクトのクラスラベルとしての役割を果たす。典型的な実施形態では、このクラスラベルは、ブックキーピング専用であり、第2の分類子を訓練するために使用されない。例えば、オブジェクト関連付け(ラベル)114は、ターゲットオブジェクト58のどれに所与の訓練オブジェクト113が関連付けられるのかを指定するために使用できる。いくつかの実施形態では、訓練オブジェクトは、多くても単一のターゲットオブジェクトと関連付けられ、他のターゲットオブジェクトとは関連付けられない。
ここで使用されるように、用語「関連付けられる(associated)」は、文脈に依存し、それが関連付けられるまたは関連付けられないものの正確な定量値は変わる。一例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが1ナノモル以下であるときにターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が1ナノモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが10ナノモル以下であるとき、ターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が10ナノモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KIまたはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが100ナノモル以下であるときターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が100ナノモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが1マイクロモル以下であるときにターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が10マイクロモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが1マイクロモル以下であるとき、ターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が1マイクロモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが10マイクロモル以下であるとき、ターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が10マイクロモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが100マイクロモル以下であるときにターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が100マイクロモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。別の例では、訓練オブジェクト113は、IC50、EC50、Kd、KI、またはターゲットオブジェクトに対する訓練オブジェクトの阻害パーセントが1ミリモル以下であるとき、ターゲットオブジェクトと関連付けられると見なされ、ターゲットオブジェクトは、ターゲットオブジェクトに対する訓練オブジェクトのIC50が1ミリモルよりも大きいとき、ターゲットオブジェクトと関連付けられないと見なされる。
いくつかの実施形態では、例示的な例として図2Gのブロック276を参照すると、いくつかの実施形態では、第1の複数の訓練オブジェクトの第1の部分集合(各訓練オブジェクトがターゲットオブジェクトの1つだけと関連付けられ、他のターゲットオブジェクトとは関連付けられない部分集合)は、1000の訓練オブジェクト113を含み、第1の複数のターゲットオブジェクト72は100のターゲットオブジェクトを含む。第1の複数のターゲットオブジェクトのそれぞれの各ターゲットオブジェクトのために、第1の複数の訓練オブジェクトの第1の部分集合は、それぞれのターゲットオブジェクトと一意に関連付けられる少なくとも5つの訓練オブジェクトを含み、第1の複数の訓練オブジェクトの第2の部分集合(各訓練オブジェクトが、ターゲットオブジェクトのいずれとも関連付けられていない部分集合)は、10000の訓練オブジェクトを含む。
ブロック278を参照すると、いくつかの実施形態では、訓練ライブラリが特定の訓練オブジェクトタイプを不正確に訓練しないことを保証するために努力がなされる。係る一実施形態では、第1の複数の訓練オブジェクトのそれぞれの各訓練オブジェクト113(各訓練オブジェクトが、ターゲットオブジェクトの1つだけと関連付けられ、他のターゲットオブジェクトと関連付けられない部分集合)は、それぞれの訓練オブジェクトと同じターゲットオブジェクトと一意に関連付けられていない第2の分類子のためのオブジェクト訓練ライブラリ112の任意の訓練オブジェクトの分子指紋に似ていない、対応する分子指紋(例えば、Daylightフィンガープリント、BCIフィンガープリント、ECFPフィンガープリント、ECFCフィンガープリント、MDLフィンガープリント、APFPフィンガープリント、TTFPフィンガープリント、またはUNITY 2Dフィンガープリント)を有する化合物である(ブロック278)。それぞれが参照により本明細書に援用される、Franco,2014,「The User of 2D fingerprint methods to support the assessment of structural similarity in orphan drug legislation,」J.Cheminform 6,p.5、ならびにRensi及びAltman,2017,「Flexible Analog Search with Kernel PCA Embedded Molecule Vectors,」Computational and Structural Biotechnology Journal、doi:10.1016/j.csbj.2017.03.003を参照すること。例えば、訓練オブジェクトのいくつかが第1のターゲットオブジェクトと関連付けられ、訓練オブジェクトのいくつかが第2のターゲットオブジェクトと関連付けられる場合を考える。係る実施形態では、第1のターゲットオブジェクトと関連付けられる訓練オブジェクトのどれも、第2のターゲットオブジェクトと関連付けられる訓練オブジェクトのいずれの分子指紋に類似する分子指紋を有さないことを確認するために注意が払われる。いくつかの実施形態では、訓練オブジェクトの分子指紋は、それぞれの訓練オブジェクトと他の訓練オブジェクトの分子指紋との間のタニモト係数が0.70未満、0.60未満、または0.50未満であるとき、オブジェクト訓練ライブラリ112の別の訓練オブジェクトの分子指紋に似ていないと見なされる(ブロック280)。
図2Hのブロック274を参照すると、本開示のいくつかの実施形態は、第1の分類子102を訓練することも含む。いくつかの係る実施形態では、第1の分類子102は、例えば畳み込みニューラルネットワークまたは古典的なニューラルネットワーク等の場合、複数の重みを含む。ブロック204の入手することを実行する前に、第2の複数の訓練オブジェクト66、第2の複数のターゲットオブジェクト65、及び複数の実験的に決定したスコア68を含む第1の分類子102のための訓練データセット63が取得され、複数の実験的に決定したスコアのそれぞれの各実験的に決定したスコアは、第2の複数の訓練オブジェクトの対応する訓練オブジェクト66と第2の複数のターゲットオブジェクトの対応するターゲットオブジェクト65との間の相互作用のためのものである。いくつかの実施形態では、実験的に決定したスコア68は、ターゲットオブジェクト58のうちの1つ以上に対する結合データを含む。例えば、いくつかの実施形態では、この結合データは、IC50、EC50、Kd、KI、またはターゲットオブジェクト65に対する訓練オブジェクト66のための阻害パーセントが測定される。結合データ68を取得するために使用されてよい例の結合アッセイは、参照により本明細書に援用される、Khan及びFindlay,2010,Ligand-Binding Assays,2010,John Wiley & Sons,Inc.,New Yorkに開示されている。
第2の複数の訓練オブジェクトのそれぞれの各訓練オブジェクト66のために、(i)第2の複数のターゲットオブジェクトの対応するターゲットオブジェクト65に対するそれぞれの訓練オブジェクト66の記述を提示し、それによって訓練オブジェクトと対応するターゲットオブジェクトとの間の相互作用の記述を入手することと、(ii)それぞれの訓練オブジェクトと対応するターゲットオブジェクトとの間の相互作用の記述を第1の分類子102に入力し、それによって第1の分類子102から訓練オブジェクト66と対応するターゲットオブジェクト65との間の相互作用のための対応するスコア106を入手することと、(iii)(1)それぞれの訓練オブジェクト66と対応するターゲットオブジェクト65との間の相互作用の記述のための第1の分類子102からの対応するスコア106と、(2)訓練データセット63からのそれぞれの訓練オブジェクト66と対応するターゲットオブジェクト65との間の相互作用のための実験的に決定したスコア68との間の差異を決定することと、(iv)複数の重みに差異を適用することと、を含む第2の手順が実行される。訓練オブジェクト66が、すべてのターゲットオブジェクト63に対して結合データ68を含む要件はない。いくつかの実施形態では、それぞれの訓練オブジェクト66とターゲットオブジェクトとの間の相互作用は、結合データ68があるそれらのターゲットオブジェクトのための第1の分類子102だけで評価される。
いくつかの実施形態では、訓練データセット63のターゲットオブジェクト65は、ブロック210から258と併せて上述した第1の複数のターゲットオブジェクト58と同じである(ブロック284)。いくつかの実施形態では、第1の分類子のための訓練データセット63の複数のターゲットオブジェクト65と、ブロック210から258と併せて上述した第1の複数のターゲットオブジェクトとの間の部分的な重複しかない(ブロック286)。いくつかの実施形態では、訓練データセット63の第2の複数のターゲットオブジェクトと、ブロック210から258と併せて上述した第1の複数のターゲットオブジェクトとの間に重複はない(ブロック288)。いくつかの係る実施形態では、ブロック210から258と併せて上述した第1の複数のターゲットオブジェクトは、第1の分類子のための訓練データセット63の複数のターゲットオブジェクト65の部分集合である(ブロック290)。いくつかの実施形態では、第1の分類子のための訓練データセット63の第2の複数のターゲットオブジェクト65は、50以上のターゲットオブジェクト、100以上のターゲットオブジェクト、250以上のターゲットオブジェクトを含む(ブロック292)。いくつかの係る実施形態では、第1の分類子のための訓練データセット63の第2の複数のターゲットオブジェクト65は、250以上のターゲットオブジェクトである(ブロック294)。
いくつかの実施形態では、第2の分類子のためのオブジェクト訓練ライブラリ112の第1の複数の訓練オブジェクト113は、第1の分類子の訓練データセット63の第2の複数の訓練オブジェクト66と同じである(ブロック296)。いくつかの実施形態では、第2の分類子のためのオブジェクト訓練ライブラリ112の第1の複数の訓練オブジェクト113は、第1の分類子のための訓練データセット63の第2の複数の訓練オブジェクト66とは異なる(ブロック298)。
いくつかの係る実施形態では、第1の分類子102は訓練されたブラックボックスとして扱われ、本明細書に開示されない方法による第1の分類子の畳み込み訓練以外の第1の分類子の追加の訓練は実行されない。係る実施形態では、訓練されたブラックボックスは、第2の分類子が第1の分類子の誤差を削減し得るように、第2の分類子を訓練するためにも使用される。
いくつかの係る実施形態では、第1の分類子は、所与のターゲットオブジェクトに対する訓練オブジェクトのために考えられる2つの活動クラスのうちの1つを出力する。例えば、第1の分類子によってそれぞれの各訓練オブジェクトに提供される単一の値は、それが所定の閾値未満であるときは第1の活動クラス(例えば、結合剤)内にあり、数が所定の閾値を超えているときは第2の活動クラス(例えば、非結合剤)内にある。第1の分類子によって割り当てられる活動クラスは、訓練オブジェクト結合データ68によって表される実際の活動クラスに比較される。典型的な非制限的な実施形態では、係る訓練オブジェクト結合データ68は、独立したウェブラボ結合アッセイからである。結合データ68に対して検証される、第1の分類子によってなされる活動クラス割当てにおける誤差は、次いで第1の分類子を訓練するための第1の分類子の重みを通じて誤差逆伝搬される。例えば、第1の分類子が、例えば図1Bに示すもののような畳み込みニューラルネットワークである場合では、ネットワークの畳み込み層28のそれぞれのフィルタのフィルタ重みが、係る誤差逆伝搬で調整される。例示的な実施形態では、第1の分類子は、AdaDelta適応学習方法(参照により本明細書に援用される、Zeiler,2012,「ADADELTA:an adaptive learning rate method,」CoRR,vol.abs/1212.5701)を用いる確率的勾配降下法、及び参照により本明細書に援用される、Rumelhart et al.,1988,「Neurocomputing:Foundations of research,」ch.Learning Representations by Backpropagating Errors,pp.696~699,Cambridge,MA,USA:MIT Pressに示される誤差逆伝搬アルゴリズムによって、結合データ68を鑑みて第1の分類子によってなされた活動クラス割当ての誤差に対して訓練される。いくつかの係る実施形態では、考えられる2つの活動クラスは、それぞれ所与の閾値量(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモルより大きいターゲットオブジェクトに関して訓練オブジェクトのためのIC50、EC50、またはKI)よりも大きい結合定数、及び所与の閾値量(例えば、1ナノモル、10ナノモル、100ナノモル、1マイクロモル、10マイクロモル、100マイクロモル、または1ミリモル未満であるターゲットオブジェクトに関して訓練オブジェクトのIC50、EC50、またはKI)未満である結合定数である。いくつかの係る実施形態では、所与のターゲットオブジェクトに対する各訓練オブジェクトのための複数のポーズは、第1の分類子によって連続して実行され、第1の分類子によって算出されるこれらのポーズのためのスコアの加重平均は、ウェットラボ結合アッセイによって取得される結合データ68に比較される。
いくつかの係る実施形態では、第1の分類子は、所与のターゲットオブジェクトに対する各訓練オブジェクトのために考えられる複数の活動クラス(例えば、3つ以上の活動クラス、4つ以上の活動クラス、5つ以上の活動クラス)のうちの1つを出力する。例えば、第1の分類子によってそれぞれの各訓練オブジェクトに提供される単一の値(例えば、複数のポーズの加重平均または単一のポーズの単一値)は、該数が第1の範囲に入るときは第1の活動クラス内にあり、魏数が第2の範囲に入るときは第2の活動クラス内にあり、該数が第3の範囲に入るときは第3の活動クラス内にある等々である。第1の分類子によって割り当てられる活動クラスは、訓練オブジェクト結合データ68によって表される実際の活動クラスに比較される。結合データ68に対して検証される、第1の分類子によってなされる活動クラス割当てにおける誤差は、次いで上述の技術を使用し、第1の分類子を訓練するために使用される。いくつかの実施形態では、複数の分類のそれぞれの各分類は、ターゲットオブジェクトに関して訓練オブジェクトのためのIC50、EC50またはKI範囲である。
いくつかの実施形態では、所与のターゲットオブジェクトに対するそれぞれの各訓練オブジェクトのための単一のポーズは、第1の分類子によって実行され、それぞれの各訓練オブジェクトのために第1の分類子によって割り当てられる結果として生じるそれぞれのスコアは、1つ以上のウェットラボ結合アッセイ技術によって別々に取得されているそれぞれの訓練オブジェクトのための結合データ68に比較される。次いで、訓練オブジェクトのための結合データ68に対して検証される、訓練オブジェクトのための第1の分類子によってなされる活動クラス割当てにおける誤差は、上述の技術を使用し、第1の分類子を訓練するために使用される。
いくつかの実施形態では、本明細書に開示される技術を使用し、分類子によって評価される複数のターゲットオブジェクト65のそれぞれに対する訓練オブジェクトの1つ以上のポーズの加重平均は、1つ以上のウェットラボ結合アッセイ技術によって別々に取得されているそれぞれの訓練オブジェクトのための結合データ68に比較される。例えば、いくつかの実施形態では、複数のターゲットオブジェクト65は、複数のターゲットオブジェクトの各ターゲットオブジェクトが、分子動力学ランの間の異なる時間ステップで同じポリマーを表す分子動力学ランから取られる。第1の分類子によるターゲットオブジェクト分類と、ウェットラボ結合アッセイによるオブジェクト分類との間の相違は、次いで、上述した技術を使用し、第1の分類子を訓練するために使用される。
いくつかの実施形態では、複数の訓練オブジェクトの第1の分類子分類は、ノンパラメトリック技法を使用し、結合データ68に比較される。例えば、分類子は、所与の特性(例えば、所与のターゲットオブジェクト65に対する結合)に関して複数の訓練オブジェクト66を順位付けるために使用され、この順位は、複数の訓練オブジェクトのためにウェットラボ結合アッセイによって取得される結合データ68によって提供される順位に比較される。これが、上述した第1の分類子誤差訂正技術を使用し、計算された順位の誤差に関して第1の分類子102を訓練する能力を生じさせる。いくつかの実施形態では、第1の分類子102による訓練オブジェクト別のランキングと、結合データ68によって決定される訓練オブジェクトのランキングとの間の誤差(差異)は、ウィルコクソン・マン・ホイットニー関数(ウィルコクソン符号順位検定)または他のノンパラメトリックテストを使用し、算出され、この誤差は、上述した第1の分類子誤差訂正技術を使用し、ネットワークをさらに訓練するために第1の分類子を通じて誤差逆伝搬される。
第1の分類子が畳み込みニューラルネットワークである一実施形態では、第1の分類子は、ネットワーク層のバイアスだけではなく、畳み込み層28のフィルタの重みも修正することによってその予測の精度を高めるように訓練されるように構成されてよい。重み及びバイアスは、例えばL1、L2、重み減衰、及びドロップアウト等の種々の形の正規化でさらに制約されてよい。いくつかの係る実施形態では、第1の分類子は、畳み込みニューラルネットワークの形で、ネットワークの重みを調整して、対照的な発散アルゴリズムを使用し、訓練オブジェクトに対する欲張りな、層ごとの発生事前訓練を通して訓練データの入力分散をモデル化するように任意選択で構成されてよい。
一実施形態では、第1の分類子は、訓練データが(例えば、結合データ68を用いて)ラベルを付けられる場合、ニューラルネットワークの予測結合親和性及び/またはカテゴリ化と、訓練データの報告されている結合親和性及び/またはカテゴリ化との間の誤差を潜在的に最小限に抑えるために、第1の分類の中の重みを任意選択で調整してよい。例えば、対数損失方法、平方和誤差方法、ヒンジ損失方法を含んでよいが、これに限定されるものではない勾配降下法等の種々の方法が、誤差関数を最小限に抑えるために使用され得る。これらの方法は、二次方法または例えば運動量、ヘシアンフリー推定、ネステロフの加速勾配、アダグラッド等の近似を含んでよい。ラベルが付けられていない発生事前訓練及びラベルが付けられた識別訓練も結合されてよい。
入力された幾何学的データは、訓練例にグループ化されてよい。例えば、分子、共同因子、及びタンパク質の単一の集合が、複数の幾何学的測定を有することが多く、各「スナップショット」が、ターゲットオブジェクト及び訓練オブジェクト(またはテストオブジェクト)が採用する場合がある代替の配座及びポーズを記述する。同様に、ターゲットオブジェクトがタンパク質である例では、タンパク質側鎖、共同因子、及び訓練(またはテスト)オブジェクトの異なる互変異性体もサンプリングされてよい。これらの状態はすべて生体系の挙動に寄与するため、ボルツマン分布に従って、結合親和性を予測するためのシステムは、(例えば、これらのサンプリングの加重平均をとることによって)これらの状態をともに考慮するように構成されてよい。任意選択で、これらの訓練例は、結合情報でラベルを付けられてよい。定量的な結合情報が利用できる場合(例えば、結合データ68)、ラベルは、数値的な結合親和性であってよい。代わりに、訓練例は、2つ以上の順序付けられたカテゴリ(例えば、結合剤及び非結合剤の2つのカテゴリ、またはリガンドを効力<1モル、<1ミリモル、<100マイクロモル、<10マイクロモル、<1マイクロモル、<100ナノモル、<10ナノモル、<1ナノモルの結合剤として記述するいくつかのおそらく重複するカテゴリ)の集合からラベルを割り当てられてよい。結合データ68は、例えば実験測定、算出された推定値、専門家の洞察、または推定(例えば、分子及びタンパク質の無作為な対は、きわめて結合する可能性が低い)等、さまざまなソースから引き出されてよい、または受け取られてよい。
実施例1-使用事例
以下は、本開示のいくつかの実施形態のいくつかの応用例を説明する例示的な目的のためだけに提供されるサンプルの使用事例である。他の使用が考慮されてよく、以下に示す実施例は、非制限的であり、変形、省略を受ける場合がある、または追加の要素を含む場合がある。
以下の各実施例は、結合親和性予測を示しているが、実施例は、予測が、単一の分子に対して行われるのか、集合に対して行われるのか、それとも一連の繰り返し操作される分子に対して行われるのか、予測が単一の標的に対して行われるのか、それとも多くに対して行われるのか、標的に対する活動が所望されるのか、それとも回避されるのか、及び重要な量が絶対的な活動であるのか、それとも相対的な活動であるのか、または(例えば、分子の場合、既存の薬剤または殺虫剤であるために、タンパク質の場合、既知の毒性もしくは副作用を有するために)分子が特に選ばれるのか、それとも標的集合が特に選ばれるのかどうかにおいて異なることが判明してよい。
薬剤探索。製薬会社は、新しい候補薬物リードを発見するために、化合物をスクリーニングすることに数百万ドルを費やしている。大きな化合物集合体が、関心のある疾患標的と任意の相互作用を有する少数の化合物を見つけるために試験される。残念なことに、ウェットラボスクリーニングは、実験の誤差を被り、アッセイ実験を実行するためのコスト及び時間に加えて、大きいスクリーニング集合体を収集することは、保管の制約、貯蔵性、または化学薬品費を通して多大な課題を課す。最大の製薬会社でさえ、数千万の市販されている分子及び数億のシミュレート可能分子に対して、数十万から数百万の間の化合物しかもっていない。
物理的な実験に対する潜在的により効率的な代替策は、仮想の高スループットスクリーニングである。物理学シミュレーションが、航空宇宙エンジニアが、モデルが物理的に試験される前に考えられる翼のデザインを評価するのに役立つ場合があるのと同じように、分子の計算スクリーニングは、実験試験を高可能性分子の小さい部分集合に集中させることができる。これは、スクリーニングのコスト及び時間を削減し、検出漏れを削減し、成功率を高め、及び/またはより広範囲の化学的環境をカバーする。
この応用例では、タンパク質標的は、システムに対する入力として提供されてよい。分子の大きい集合も提供されてよい。各分子について、結合親和性は、開示されている方法を使用し、タンパク質標的に対して予測される。結果として生じるスコアは、第2の分類子から、分子をランク付けするために使用されてよく、最善のスコアの分子は標的タンパク質を結合する可能性が最も高い。任意選択で、ランク付けされた分子リストは、類似する分子のクラスタのために分析されてよい、大きいクラスタは、分子結合のより強力な予測として使用されてよい、または分子は、確認実験での多様性を保証するためにクラスタ全体で選択されてよい。
的外れの副作用予測。多くの薬剤が副作用を有することが判明する場合がある。多くの場合、これらの副作用は、薬剤の治療効果の原因となるもの以外の、生物学的経路との相互作用による。これらの的外れの副作用は、不快または危険で、薬剤の使用が安全である患者集団を制限する場合がある。したがって、的外れな副作用は、どの薬剤候補をさらに開発するのかを判断するための重要な基準である。多くの代替の生物学的標的との薬剤の相互作用を特徴付けることは重要であるが、係る試験は、開発し実行するには高価且つ多大な時間を要する場合がある。計算予測は、このプロセスをより効率的にすることができる。
本発明の実施形態を応用する際、重要な生物学的反応及び/または副作用と関連付けられる生物学的標的のパネルが構築されてよい。システムは、次いで順番にパネル内の各タンパク質に対して結合を予測するように構成されてよい。第2の分類子によって決定される特定の標的に対する強力な活動(すなわち、的外れなタンパク質を活性化すると知られている化合物と同程度に効果がある)は、的外れな効果に起因する副作用に分子を巻き込む場合がある。
毒性予測。毒性予測は、的外れの副作用予測の特に重要な特別な場合である。最終段階の臨床試験における薬剤候補のほぼ半分は、受け入れがたい毒性のために失敗する。新しい薬剤承認プロセスの部分として(及び薬剤候補をヒトで試験できる前に)、FDAは、(その阻害が、薬剤―薬剤相互作用からの毒性の原因になる場合がある)シトクロムP450肝臓酵素または(その結合が心室性不整脈及び他の心臓有害影響につながるQT延長の原因となる場合がある)hERGチャネルを含んだ標的の集合に対する毒性試験データを必要とする。
毒性予測では、システムは、重要な抗標的(例えば、CYP450、hERG、または5-HT2B受容体)となるために的外れのタンパク質を制約するように構成されてよい。薬剤候補の結合親和性は、次いでこれらのタンパク質に対して予測されてよい。任意選択で、分子は、抗標的に対する結合についても分析できる代謝産物(元の分子の代謝作用/減成中に体によって生成される以後の分子)の集合を予測するために分析されてよい。問題のある分子は、第2の分類子によって識別され、毒性を回避するために修正されてよい、または分子シリーズでの開発は、追加リソースを浪費するのを回避するために休止されてよい。
効能最適化。薬剤候補の重要な要件の1つが、その疾患標的に対する強力な結合である。スクリーニングが臨床的に効果的となるほど十分に強力に結合する化合物を見つけるのはまれである。したがって、初期化合物は、医薬品化学者が、標的結合の強化された強さを有する新しい分子を提案するために分子構造を繰り返し操作する最適化の長いプロセスを導入する。新しい各分子は、変化が無事に結合を改善したかどうかを判断するために、合成され、試験される。システムは、物理的な試験を計算予測で置換することによってこのプロセスを容易にするように構成されてよい。
この応用例では、疾患標的及び鉛分子の集合は、システムに入力されてよい。第2の分類子は、鉛の集合のための結合親和性予測を生じさせるように構成されてよい。任意選択で、第2の分類子は、結合親和性の予測される差異の理由を知らせるのに役立つであろう候補分子間の差異を強調できるであろう。医薬品化学者ユーザーは、この情報を使用して、望みを持って、標的に対する改善された活動を有する分子の新しい集合を提案できる。これらの新しい代替分子は、同じように分析されてよい。
選択性の最適化。上述したように、分子は、さまざまな強度で多数のタンパク質を結合する傾向がある。例えば、(よく知られている化学療法の標的である)タンパク質キナーゼの結合ポケットは非常に類似しており、大部分のキナーゼインヒビターは多くの異なるキナーゼに影響を及ぼす。これは、種々の生物学的経路が同時に修正され、「汚れた」薬効プロファイル及び多くの副作用を生じさせることを意味する。したがって、多くの薬剤の設計での重大な課題は、活動そのものではなく、特異性、つまり、おそらく密接に関連するタンパク質の集合から1つのタンパク質(またはタンパク質の部分集合)を選択的に標的とする能力である。
私たちのシステムは候補薬剤の選択性を最適化する時間及びコストを削減できる。この応用例では、ユーザーは、タンパク質の2つの集合を入力してよい。一方の集合は、化合物がそれに対して活性であるべきであるタンパク質を記述し、一方、他方の集合は、化合物がそれに対して不活性であるべきであるタンパク質を記述する。システムは、第2の分類子が、両方の集合のタンパク質のすべてに対して分子の予測を行い、相互作用の強度のプロファイルを確立するように構成されてよい。任意選択で、これらのプロファイルは、タンパク質の説明的なパターンを示唆するために分析できるであろう。ユーザーは、システムによって生成される情報を使用して、異なるタンパク質集合に対する相対的な結合を改善するであろう分子に対する構造上の修正を検討し、より良い特異性を有する新しい候補分子を設計することができる。任意選択で、システムは選択性における予測される差異の理由を知らせるのに役立つ可能性がある、候補分子間の差異を強調するように構成できるであろう。提案されている候補は、繰り返し分析して、その活動プロファイルの特異性をさらに精緻化できる。
自動分子設計のための適合度関数。上述の最適化を実行するための自動化されたツールは貴重である。成功する分子は、最適化、及び効能と選択性と毒性との間のバランスを必要とする。「スキャフォールドホッピング」は、(鉛化合物の活性が保たれるが、化学構造が大幅に改変されるとき)、改善された薬物動態、薬力学、毒性、または知的財産のプロファイルを生じさせる。アルゴリズムは、例えば分子のランダム生成、所与の結合部位を充填するための分子断片の成長、分子の集団を「変化させ」「異種交配させる」ための遺伝的アルゴリズム、及び生物学的等価性置換を有する分子の部分のスワップ等の新しい分子を繰り返し提案するために存在する。これらの方法のそれぞれによって生成される薬剤候補は、上述した複数の目的(効能、選択性、毒性)に対して評価されなければならず、技術が上述の手動設定値(結合予測、選択性、副作用、及び毒性予測)のそれぞれに関して情報を与えることができるのと同様に、技術は自動分子設計システムに組み込むことができる。
ドラッグ・リパーパシング。すべての薬剤は副作用を有し、ときおりこれらの副作用は有益である。最もよく知られている例は、概して頭痛の治療として使用されるが、心臓血管の健康ドラッグのためにも服用されるアスピリンである可能性がある。ドラッグリポジショニングは、薬剤はすでにヒトにおいて安全であることが示され、患者における迅速な吸収及び好ましい安定性のために最適化されているため、創薬のコスト、時間及びリスクを大幅に削減できる。残念なことに、ドラッグリポジショニングは、大部分は予期せぬものであった。例えば、シルデナフィル(バイアグラ)は、血圧降下剤として開発され、勃起不全のための効果的な治療法であることが思いがけず観察された。的外れな影響の計算予測は、代替疾患を治療するために使用できるであろう化合物を識別するためにドラッグ・リパーパシングとの関連で使用できる。
この応用例では、的外れな副作用の予測においてのように、ユーザーは、各タンパク質が疾患に結び付けられる、考えられる標的タンパク質の集合を集めてよい。すなわち、各タンパク質を抑制することは、例えば(おそらく異なる)疾患を治療するであろう。例えば、ファクターXaインヒビターは抗凝血剤として使用できるのに対し、シクロオキシゲナーゼ-2は、炎症の緩和を提供できる。これらのタンパク質は、存在する場合、承認された薬剤の結合親和性の注釈が付けられる。次に、分子の集合を集め、集合を、ヒトでの使用のために承認されているまたは調査されている分子に制限する。最後に、タンパク質と分子の対のために、ユーザーは、第2の分類子を含んだシステムを使用して、結合親和性を予測してよい。ドラッグ・リパーパシングのための候補は、分子の予測された結合親和性が、タンパク質の効果的な薬剤の結合親和性に近い場合に識別され得る。
薬剤耐性予測。薬剤耐性は、急速に分裂し、変化する病原体集団に対して選択圧をかける製薬学的用途の不可避な結果である。薬物耐性は、ウィルス(HIV)、外因性微生物(MRSA)、及び無制御宿主細胞(がん)等の多様な病因物質で見られる。経時的に、投与された薬は、該薬が抗生物質であるのか、それとも化学療法であるのか関わりなく実効が上がらなくなる。その時点で、治療介入は、願わくばまだ効能のある異なる薬に移行できる。HIVでは、患者が治療されている間に、その突然変異によりウィルスが蓄積するのかにより定義される周知の疾患の進行経路がある。
病因物質が医療介入にどのようにして適応するのかを予測することにかなりの関心がある。1つの手法は、治療中に病因物質にどの突然変異が発生するのかを特徴付けることである。具体的には、薬のタンパク質標的は、同時に薬剤の天然気質を結合し続けながらも薬剤を結合するのを回避するように変化する必要がある。
この応用例では、標的タンパク質での考えられる突然変異体の集合が提案されてよい。各突然変異体に、結果として生じるタンパク質形状が予測されてよい。これらの変異タンパク質のそれぞれに対して、システムは天然気質と薬剤の両方の結合親和性を予測するように構成されてよい。タンパク質をもはや薬剤に結合させないようにするが、天然基質への結合も続行させる突然変異体は、薬剤耐性を与えるための候補である。これらの変異したタンパク質は、例えばこれらの他の予測使用事例のうちの1つに対する入力としてこれらのタンパク質を使用することによって薬剤を設計することに対して標的として使用されてよい。
オーダーメード医療。効果のない薬を投与すべきではない。コスト及び面倒な問題に加えて、すべての薬は副作用を有する。道徳的かつ経済的な配慮から、利点がこれらの害に勝るときだけに薬を投与することが不可欠になる。薬がいつ役に立つのかを予測できることが重要である場合がある。人は、少数の突然変異体により互いに異なる。しかしながら、小さい突然変異体が計り知れない影響を与える場合がある。これらの突然変異体が疾患標的の活性(オルソステリック)部位または調節(アロステリック)部位で発生するとき、突然変異体は、薬剤が結合するのを妨げ、したがって薬の活動をブロックする。ある特定の人のタンパク質構造が既知である(または予測される)とき、システムは、薬剤が効果的となるかどうかを予測するように構成できる、またはシステムは、いつ薬剤が効かなくなるのかを予測するように構成され得る。
この応用例の場合、システムは、入力として薬剤の化学構造及び特定の患者の特定の発現タンパク質を受け取るように構成されてよい。システムは、薬剤とタンパク質との間の結合を予測するように構成されてよく、薬剤の予測された結合親和性が、特定の患者のタンパク質構造が弱すぎて臨床的に有効にならないという場合、臨床医または開業医は、その薬物が無益に患者に処方されるのを防ぎ得る。
治験設計。この応用例は、上記の個人化された薬の使用事例を、患者集団の事例に一般化する。システムが、薬剤が特定の患者の表現型に対して有効となるかどうかを予測できるとき、この情報は、臨床試験を設計するのに役立てるために使用できる。特定の疾患標的が薬剤によって十分に影響を及ぼされない患者を除外することによって、臨床試験は、より少ない患者を使用し、統計的検出力を達成できる。より少ない患者は、臨床試験のコスト及び複雑さを直接的に削減する。
この応用例の場合、ユーザーは、考えられる患者集団を(例えば、突然変異体またはイソフォームによる)異なるタンパク質の発現によって特徴付けられる下位集合群に分割してよい。システムは、異なるタンパク質種類に対する薬剤候補の結合活性を予測するように構成されてよい。特定のタンパク質種類に対する予測された結合活性が、(例えば、試験管における物理的特性化、動物モデル、または健康なボランティアに基づいてのように)臨床的に達成可能な許容可能濃度を下回る必要な薬剤濃度を示す場合、次いで薬剤候補は、そのタンパク質の下位集合群に対して失敗すると予測される。そのタンパク質を有する患者は、次いで臨床試験から除外されてよい。
農薬設計。製薬応用例に加えて、農薬業界は、新しい殺虫剤の設計で結合予測を使用する。例えば、殺虫剤にとって必要なことは、殺虫剤が任意の他の種に悪影響を及ぼすことなく関心のある単一の種を止めることである。環境安全性のため、人は、マルハナバチを殺すことなくゾウムシを殺すことを望むであろう。
この応用例の場合、ユーザーは、検討中の異なる種からタンパク質構造の集合をシステムに入力できるであろう。タンパク質の部分集合は、それに対して活性であるべきタンパク質として指定できるであろう。一方、残りは、分子がそれに対して不活性であるべきであるタンパク質として指定されるであろう。上述の使用事例と同様に、(既存のデータベース内にあるのか、それとも新たに生成されるのかに関わりなく)分子のなんらかの集合は、各標的に対して検討され、システムは、第2のタンパク質群を回避しつつ、第1のタンパク質群に対する最大作用を有する分子を返すであろう。
物質科学。新しい物質の挙動と特性を予測するためには、分子相互作用を分析することが役に立つ場合がある。例えば、ユーザーは、溶媒和を研究するために、所与の小分子の反復される結晶構造を入力し、結晶の表面での小分子の別の例の結合親和性を評価してよい。ポリマー強度を研究するために、ポリマーストランドの集合が、タンパク質標的構造と同様に入力されてよく、ポリマーのオリゴマーは小分子として入力されてよい。したがって、ポリマーストランド間の結合親和性は、システムによって予測され得る。
1つの具体的な実施例では、システムは、例えば水素結合及びパイ結合スタックの強度を予測することによって、例えばケブラー等の材料の強度を予測するために使用されてよい。したがって、本明細書に開示される結合親和性予測は、例えばケブラー等の改善された材料の開発を容易にするために使用されてよい。
シミュレーション。分子がタンパク質の領域内にとどまる傾向は、そこでのその結合親和性に相互に関連があるため、シミュレータは、多くの場合、分子のタンパク質に対する結合親和性を測定する。結合を支配する特徴の正確な記述は、特に高いまたは低い結合エネルギーを有する領域及びポーズを識別するために使用できるであろう。エネルギーの記述は、分子の運動及びタンパク質結合領域の占有を記述するためにモンテカルロシミュレーションに入れることができる。同様に、システム生物学を研究し、モデル化するための確率論的シミュレータは、分子濃度の小さい変化がどのようにして生物ネットワークに影響を与えるのかの正確な予測から恩恵を受けることができるであろう。
結論
説明のための上記記述は、具体的な実施態様を参照して説明された。しかしながら、上記の例示的な説明は、網羅的であることを意図するものではなく、また、実施態様を開示されている正確な形態に限定することを意図するものでもない。上述の教示に照らして多くの変更形態及び変形形態が考えられる。実施態様は、原理及びその実際的な応用を最もよく説明し、それによって当業者が、実施態様及び種々の変更形態を有する種々の実施態様を、意図される特定の使用に適しているとしてもっともよく利用できるようにするために、選ばれ、説明された。

Claims (26)

  1. ターゲットポリマー結合についてテスト化学化合物をスクリーニングするためのコンピュータシステムであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサによってアドレス指定可能な非一過性メモリであって、前記非一過性メモリが、前記少なくとも1つのプロセッサによる実行のための1つ以上のプログラムを記憶し、前記1つ以上のプログラムが、
    (A)前記テスト化学化合物の記述を入手することと、
    (B)第1の複数のターゲットポリマーのそれぞれの各ターゲットポリマーのために、第1の手順を実行することであって、前記第1の手順が、
    (i)前記それぞれのターゲットポリマーに対する前記テスト化学化合物の前記記述を提示し、それによって、
    複数の異なるポーズの各ポーズの前記それぞれのターゲットポリマーで前記テスト化学化合物をモデル化し、それによって複数のボクセルマップを作成することであって、前記複数のボクセルマップのそれぞれの各ボクセルマップが、前記複数の異なるポーズのそれぞれのポーズの前記テスト化学化合物を備える、前記作成することと、
    前記複数のボクセルマップの各ボクセルマップを、対応する第1の分類子入力ベクトルに展開し、それによって複数の第1の分類子入力ベクトルを作成することであって、前記複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトルが同じサイズである、前記作成することと
    を含む第2の手順により、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の相互作用の記述のための対応するスコアを入手することと、
    (ii)前記複数の第1の分類子入力ベクトルのそれぞれの各第1の分類子入力ベクトルを第1の分類子に入力することで、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用の前記記述を前記第1の分類子に入力し、それによって前記第1の分類子から、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用のための対応する複数のスコアを入手することであって、前記対応する複数のスコアのそれぞれの各スコアが、前記複数の第1の分類子入力ベクトルの第1の分類子入力ベクトルの前記第1の分類子への前記入力に対応する、前記入手することと、
    (iii)前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用のための前記対応するスコアを、前記対応する複数のスコアの代表値または加重平均として入手することであって、
    前記代表値または加重平均が所定の閾値または所定の閾値範囲を満たすとき、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用の前記記述のための前記対応するスコアが、第1の分類であると見なされ、
    前記代表値または加重平均が前記所定の閾値または前記所定の閾値範囲を満たすことができないとき、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用の前記記述のための前記対応するスコアが、第2の分類であると見なされる、前記入手することと
    を含み、
    前記テスト化学化合物と前記第1の複数のターゲットポリマー全体でのそれぞれのターゲットポリマーとの間の前記相互作用のための対応する各スコアが、前記テスト化学化合物のためのテストベクトルを形成する、
    前記第1の手順を実行することと、
    (C)前記テスト化学化合物のための前記テストベクトルを第2の分類子に入力し、それによって前記第2の分類子から出力として前記テストベクトルのための変換を入手することであって、前記変換が、前記第1の複数のターゲットポリマーの単一のターゲットポリマーの表示を提供し、それによってターゲットポリマー結合について前記テスト化学化合物をスクリーニングし、
    前記第2の分類子が、複数の訓練ベクトルに関して訓練され、
    前記複数の訓練ベクトルのそれぞれの各訓練ベクトルが、前記第1の手順に従ってテスト化学化合物として第1の複数の訓練化合物の対応する訓練化合物を入力した後の前記第1の分類子からの前記出力であり、
    前記第1の複数の訓練化学化合物の第1の部分集合のそれぞれの各訓練化学化合物が、前記第1の分類子によって、前記第1の複数のターゲットポリマーの対応するターゲットポリマーに結合し、かつ、前記第1の複数のターゲットポリマーの他のターゲットポリマーに結合しないと見なされ、
    前記第1の複数の訓練化学化合物の第2の部分集合のそれぞれの各訓練化学化合物が、前記第1の分類子によって、前記第1の複数のターゲットポリマーのいずれのターゲットポリマーにも結合しないと見なされる、
    前記入手すること
    のための命令を含む、前記非一過性メモリと
    を備える、前記コンピュータシステム。
  2. 前記複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトルが、一次元であり、前記複数の異なるポーズが2つ以上のポーズ、10以上のポーズ、100以上のポーズ、または1000以上のポーズを備える、請求項1に記載のコンピュータシステム。
  3. 前記複数の異なるポーズが、マルコフチェーンモンテカルロサンプリング、焼き鈍し法、ラマルク遺伝的アルゴリズム、遺伝的アルゴリズム、または深層畳み込みニューラルネットサンプリングのうちの1つでドッキングスコアリング関数を使用し、入手される、請求項1に記載のコンピュータシステム。
  4. 前記複数の異なるポーズが、欲張りアルゴリズムを使用し、インクリメンタルサーチによって入手される、請求項1に記載のコンピュータシステム。
  5. それぞれの各ターゲットポリマーが、タンパク質、ポリペプチド、ポリ核酸、ポリリボ核酸、多糖、またはその任意の組み合わせのアセンブリである、請求項1に記載のコンピュータシステム。
  6. 前記それぞれのターゲットポリマーに対する前記テスト化学化合物の前記記述を前記提示することが、2.5Å以上の分解能で分解された前記ターゲットポリマーの結晶構造または3.3Å以上の分解能で分解された前記ポリマーの結晶構造の三次元座標{x、...、x}の集合の形で前記それぞれのターゲットポリマーのための空間座標に対する前記テスト化学化合物の前記記述を提示すること、または、核磁気共鳴、中性子回折、または低温電子顕微鏡法によって決定される前記ポリマーのための三次元座標のアンサンブルの形で前記それぞれのターゲットポリマーのための空間座標に対する前記テスト化学化合物の前記記述を提示することを含む、請求項1~5のいずれか1項に記載のコンピュータシステム。
  7. 前記第1の分類が、IC50、EC50、Kd、KI、または第1の結合値を超える前記それぞれのターゲットポリマーに関する前記テスト化学化合物のための阻害パーセントであり、
    前記第2の分類が、IC50、EC50、Kd、KI、または前記第1の結合値未満である前記それぞれのターゲットポリマーに関する前記テスト化学化合物のための阻害パーセントである、
    請求項1に記載のコンピュータシステム。
  8. 前記第1の結合値が1マイクロモルまたは10マイクロモルである、請求項7に記載のコンピュータシステム。
  9. 前記第1の複数のターゲットポリマーの各ターゲットポリマーが、活性部位を有するポリマーであり、
    前記複数の異なるポーズの各ポーズの前記それぞれのターゲットポリマーで前記テスト化学化合物を前記モデル化することが、前記それぞれのターゲットポリマーの原子表示に結び付けられた前記テスト化学化合物の原子表示の分子動力学ランを実行し、それによって経時的にともに前記テスト化学化合物及び前記それぞれのターゲットポリマーの軌跡を形成することを含み、
    前記複数の異なるポーズの少なくとも1つの部分集合が、ある期間にわたり前記軌跡のスナップショットを撮ることによって入手される、
    請求項1に記載のコンピュータシステム。
  10. 前記第1の分類子が複数の重みを備え、前記方法が、さらに、(A)を前記入手する前に、
    (a)訓練データセットを取得することであって、前記訓練データセットが、
    第2の複数の訓練化合物と、
    第2の複数のターゲットポリマーと、
    複数の実験的に決定したスコアであって、前記複数の実験的に決定したスコアのそれぞれの各実験的に決定したスコアが、前記第2の複数の訓練化合物の対応する訓練化合物と、前記第2の複数のターゲットポリマーの対応するターゲットポリマーとの間の相互作用のためである、前記複数の実験で決定したスコアと
    を備える、前記取得することと、
    (b)前記第2の複数の訓練化合物のそれぞれの各訓練化合物のために、
    (i)前記第2の複数のターゲットポリマーの対応するターゲットポリマーに対する前記それぞれの訓練化合物の記述を提示し、それによって前記訓練化学化合物と前記対応するターゲットポリマーとの間の相互作用の記述を入手することと、
    (ii)前記それぞれの訓練化合物と前記対応するターゲットポリマーとの間の前記相互作用の前記記述を前記第1の分類子に入力し、それによって前記第1の分類子から前記訓練化合物と前記対応するターゲットポリマーとの間の前記相互作用の対応するスコアを入手することと、
    (iii)(1)前記それぞれの訓練化合物と前記対応するターゲットポリマーとの間の前記相互作用の前記記述のための前記第1の分類子からの前記対応するスコアと、(2)前記それぞれの訓練化合物と前記訓練データセットからの前記対応するターゲットポリマーとの間の前記相互作用のための前記実験的に決定したスコアとの間の差異を決定することと、
    (iv)前記複数の重みに前記差異を適用することと
    を含む第2の手順を実行することと
    を含む、請求項1に記載のコンピュータシステム。
  11. 前記第2の複数のターゲットポリマーが前記第1の複数のターゲットポリマーと同じであるか、または、前記第2の複数のターゲットポリマーと前記第1の複数のターゲットポリマーの間に部分的な重複しかないか、または、前記第2の複数のターゲットポリマーと前記第1の複数のターゲットポリマーとの間に重複がないか、または、前記第1の複数のターゲットポリマーが前記第2の複数のターゲットポリマーの部分集合である、請求項10に記載のコンピュータシステム。
  12. 前記第2の複数のターゲットポリマーが、50以上のターゲットポリマー、100以上のターゲットポリマー、または250以上のターゲットポリマーである、請求項10に記載のコンピュータシステム。
  13. 前記第1の複数の訓練化学化合物が、前記第2の複数の訓練化学化合物と同じである、請求項10に記載のコンピュータシステム。
  14. 前記第1の複数の訓練化学化合物が、前記第2の複数の訓練化学化合物と異なる、請求項10に記載のコンピュータシステム。
  15. 前記第1の複数の訓練化学化合物の前記第1の部分集合が、1000の訓練化学化合物を備え、
    前記第1の複数のターゲットポリマーが、100のターゲットポリマーを備え、
    前記第1の複数のターゲットポリマーのそれぞれの各ターゲットポリマーのために、前記第1の複数の訓練化学化合物の前記第1の部分集合が、前記それぞれのターゲットポリマーと一意に関連付けられる少なくとも5つの訓練化学化合物を含み、
    前記第1の複数の訓練化学化合物の前記第2の部分集合が、10000の訓練化学化合物を備える、
    請求項1~14のいずれか1項に記載のコンピュータシステム。
  16. 前記第1の複数の訓練化学化合物のそれぞれの各訓練化学化合物が、前記それぞれの訓練化学化合物と同じターゲットポリマーと一意に関連付けられていない前記第1の複数の訓練化学化合物の任意の訓練化学化合物の分子指紋に似ていない対応する前記分子指紋を有する化合物である、請求項1~15のいずれか1項に記載のコンピュータシステム。
  17. 前記対応する分子指紋が、前記それぞれの訓練化学化合物のDaylightフィンガープリント、BCIフィンガープリント、ECFPフィンガープリント、ECFCフィンガープリント、MDLフィンガープリント、APFPフィンガープリント、TTFPフィンガープリント、またはUNITY 2Dフィンガープリントである、請求項16に記載のコンピュータシステム。
  18. 前記それぞれの訓練化学化合物の前記対応する分子指紋が、前記それぞれの訓練化学化合物と他の訓練化学化合物の前記分子指紋との間のタニモト係数が0.70未満、または0.50未満であるとき、前記第1の複数の訓練化学化合物の別の訓練化学化合物の前記分子指紋に似ていないと見なされる、請求項16に記載のコンピュータシステム。
  19. 前記第1の分類子が、ニューラルネットワークまたはサポートベクトルマシンを備え、前記第2の分類子が、ロジスティック回帰アルゴリズム、ランダムフォレスト、非線形回帰モデル、線形回帰アルゴリズム、カーネル法、決定木、多次元スプライン(MARS)、または多重相加的回帰木を備える、請求項1~18のいずれか1項に記載のコンピュータシステム。
  20. 前記テスト化学化合物が、2000ダルトン未満の分子量を有するか、またはリピンスキーのルールオブファイブ基準を満たす、請求項1~19のいずれか1項に記載のコンピュータシステム。
  21. 前記テスト化学化合物の前記記述が、前記化学化合物のためのモデル化された原子座標を備える、請求項1~20のいずれか1項に記載のコンピュータシステム。
  22. 前記それぞれのターゲットポリマーが結合ポケットを含み、
    前記それぞれのターゲットポリマーに対する前記テスト化学化合物の前記記述を前記提示することが、前記テスト化学化合物のためのモデル化された原子座標を前記結合ポケットのための原子座標にドッキングすることを含む、
    請求項1~21のいずれか1項に記載のコンピュータシステム。
  23. 前記テスト化学化合物と前記第1の分類子からの前記それぞれのターゲットポリマーとの間の前記相互作用のための前記対応するスコアが、数値スコアである、請求項1~22のいずれか1項に記載のコンピュータシステム。
  24. 前記テスト化学化合物と前記第1の分類子からの前記それぞれのターゲットポリマーとの間の前記相互作用のための前記対応するスコアが、ゼロと1の間の数値スコアである、請求項1~22のいずれか1項に記載のコンピュータシステム。
  25. 前記第1の複数のターゲットポリマーが、100のターゲットポリマーを備え、前記テスト化学化合物のための前記テストベクトルが、100の要素を含み、各要素が、前記テスト化学化合物と、前記第1の分類子からの前記第1の複数のターゲットポリマーのそれぞれのターゲットポリマーとの間の前記相互作用のための前記スコア用である、請求項1~24のいずれか1項に記載のコンピュータシステム。
  26. 非一過性のコンピュータ可読記憶媒体であって、命令を前記非一過性のコンピュータ可読記憶媒体に記憶しており、前記命令が、ターゲットポリマー結合についてテスト化学化合物をスクリーニングするためにシステムのプロセッサによって実行されるときに、前記プロセッサに、
    (A)前記テスト化学化合物の記述を入手することと、
    (B)第1の複数のターゲットポリマーのそれぞれの各ターゲットポリマーのために、第1の手順を実行することであって、前記第1の手順が、
    (i)前記それぞれのターゲットポリマーに対する前記テスト化学化合物の前記記述を提示し、それによって、
    複数の異なるポーズの各ポーズの前記それぞれのターゲットポリマーで前記テスト化学化合物をモデル化し、それによって複数のボクセルマップを作成することであって、前記複数のボクセルマップのそれぞれの各ボクセルマップが、前記複数の異なるポーズのそれぞれのポーズの前記テスト化学化合物を備える、前記作成することと、
    前記複数のボクセルマップの各ボクセルマップを、対応する第1の分類子入力ベクトルに展開し、それによって複数の第1の分類子入力ベクトルを作成することであって、前記複数の第1の分類子入力ベクトルの各第1の分類子入力ベクトルが同じサイズである、前記作成することと
    を含む第2の手順により、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の相互作用の記述のための対応するスコアを入手することと、
    (ii)前記複数の第1の分類子入力ベクトルのそれぞれの各第1の分類子入力ベクトルを第1の分類子に入力することで、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用の前記記述を前記第1の分類子に入力し、それによって前記第1の分類子から、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用のための対応する複数のスコアを入手することであって、前記対応する複数のスコアのそれぞれの各スコアが、前記複数の第1の分類子入力ベクトルの第1の分類子入力ベクトルの前記第1の分類子への前記入力に対応する、前記入手することと、
    (iii)前記テスト化学化合物と前記それぞれのポリマーとの間の前記相互作用のための前記対応するスコアを、前記対応する複数のスコアの代表値または加重平均として入手することであって、
    前記代表値または加重平均が所定の閾値または所定の閾値範囲を満たすとき、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用の前記記述のための前記対応するスコアが、第1の分類であると見なされ、
    前記代表値または加重平均が前記所定の閾値または前記所定の閾値範囲を満たすことができないとき、前記テスト化学化合物と前記それぞれのターゲットポリマーとの間の前記相互作用の前記記述のための前記対応するスコアが、第2の分類であると見なされる、前記入手することと
    を含み、
    前記テスト化学化合物と前記第1の複数のターゲットポリマー全体でのそれぞれのターゲットポリマーとの間の前記相互作用のための対応する各スコアが、前記テスト化学化合物のためのテストベクトルを形成する、
    前記第1の手順を実行することと、
    (C)前記テスト化学化合物のための前記テストベクトルを第2の分類子に入力し、それによって前記第2の分類子から出力として前記テストベクトルのための変換を入手することであって、前記変換が、前記第1の複数のターゲットポリマーの単一のターゲットポリマーの表示を提供し、それによってターゲットポリマー結合について前記テスト化学化合物をスクリーニングし、
    前記第2の分類子が、複数の訓練ベクトルに関して訓練され、
    前記複数の訓練ベクトルのそれぞれの各訓練ベクトルが、前記第1の手順に従ってテスト化学化合物として第1の複数の訓練化合物の対応する訓練化合物を入力した後の前記第1の分類子からの前記出力であり、
    前記第1の複数の訓練化学化合物の第1の部分集合のそれぞれの各訓練化学化合物が、前記第1の分類子によって、前記第1の複数のターゲットポリマーの対応するターゲットポリマーに結合し、かつ、前記第1の複数のターゲットポリマーの他のターゲットポリマーに結合しないと見なされ、
    前記第1の複数の訓練化学化合物の第2の部分集合のそれぞれの各訓練化学化合物が、前記第1の分類子によって、前記第1の複数のターゲットポリマーのいずれのターゲットポリマーにも結合しないと見なされる、
    前記入手すること
    の動作を実行させる、前記非一過性コンピュータ可読記憶媒体。
JP2019505207A 2017-03-30 2018-03-27 分類子出力を並行して評価することによる第1の分類子の誤差の訂正 Active JP7121725B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/473,980 US10546237B2 (en) 2017-03-30 2017-03-30 Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
US15/473,980 2017-03-30
PCT/US2018/024474 WO2018183263A2 (en) 2017-03-30 2018-03-27 Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel

Publications (3)

Publication Number Publication Date
JP2020515922A JP2020515922A (ja) 2020-05-28
JP2020515922A5 JP2020515922A5 (ja) 2021-04-22
JP7121725B2 true JP7121725B2 (ja) 2022-08-18

Family

ID=63669668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019505207A Active JP7121725B2 (ja) 2017-03-30 2018-03-27 分類子出力を並行して評価することによる第1の分類子の誤差の訂正

Country Status (6)

Country Link
US (2) US10546237B2 (ja)
EP (1) EP3433780B1 (ja)
JP (1) JP7121725B2 (ja)
CN (1) CN109964278B (ja)
SG (1) SG11201809343RA (ja)
WO (1) WO2018183263A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006035480A1 (ja) * 2004-09-27 2006-04-06 Daio Paper Corporation 個別包装された吸収性物品およびその製造方法

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546237B2 (en) * 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
JP6657137B2 (ja) * 2017-03-31 2020-03-04 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
US10691975B2 (en) * 2017-07-19 2020-06-23 XNOR.ai, Inc. Lookup-based convolutional neural network
US20190115028A1 (en) * 2017-08-02 2019-04-18 Veritone, Inc. Methods and systems for optimizing engine selection
US11182693B2 (en) * 2017-10-23 2021-11-23 International Business Machines Corporation Composable natural language lenses for collaborative streams
JP6893480B2 (ja) * 2018-01-18 2021-06-23 株式会社日立製作所 分析装置および分析方法
US11531930B2 (en) * 2018-03-12 2022-12-20 Royal Bank Of Canada System and method for monitoring machine learning models
CN112232476B (zh) * 2018-05-10 2024-04-16 创新先进技术有限公司 更新测试样本集的方法及装置
CN109710890B (zh) * 2018-12-20 2023-06-09 四川新网银行股份有限公司 基于构建的行为画像模型实时识别虚假材料的方法和系统
US11481667B2 (en) * 2019-01-24 2022-10-25 International Business Machines Corporation Classifier confidence as a means for identifying data drift
US10445611B1 (en) * 2019-01-25 2019-10-15 StradVision, Inc. Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same
US10372573B1 (en) * 2019-01-28 2019-08-06 StradVision, Inc. Method and device for generating test patterns and selecting optimized test patterns among the test patterns in order to verify integrity of convolution operations to enhance fault tolerance and fluctuation robustness in extreme situations
WO2020170101A1 (en) * 2019-02-19 2020-08-27 King Abdullah University Of Science And Technology Reduced feature generation for signal classification based on a position weight matrix
CN110032761B (zh) * 2019-03-07 2023-07-25 浙江工业大学 一种冷冻电镜单颗粒成像数据的分类方法
CN110444250A (zh) * 2019-03-26 2019-11-12 广东省微生物研究所(广东省微生物分析检测中心) 基于分子指纹和深度学习的高通量药物虚拟筛选系统
WO2020210544A1 (en) * 2019-04-09 2020-10-15 University Of Washington Systems and methods for providing similarity based retrieval of information stored in dna
US11941533B1 (en) 2019-05-21 2024-03-26 Perceive Corporation Compiler for performing zero-channel removal
US12009066B2 (en) * 2019-05-22 2024-06-11 International Business Machines Corporation Automated transitive read-behind analysis in big data toxicology
CN110689919B (zh) * 2019-08-13 2023-03-17 复旦大学 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
CN114521268A (zh) * 2019-10-07 2022-05-20 松下知识产权经营株式会社 分类系统、分类方法以及程序
CN110794413B (zh) * 2019-11-13 2021-11-16 湖北大学 线性体素分割的激光雷达点云数据电力线检测方法和系统
KR20210060146A (ko) * 2019-11-18 2021-05-26 삼성전자주식회사 딥 뉴럴 네트워크 모델을 이용한 데이터 처리 방법 및 장치, 딥 뉴럴 네트워크 모델을 학습시키는 학습 방법 및 장치
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
KR20210099988A (ko) * 2020-02-05 2021-08-13 삼성전자주식회사 뉴럴 네트워크의 메타 학습 방법 및 장치와 뉴럴 네트워크의 클래스 벡터 학습 방법 및 장치
US11687764B2 (en) 2020-04-17 2023-06-27 Samsung Electronics Co., Ltd. System and method for increasing utilization of dot-product based neural network accelerator
WO2021220999A1 (ja) * 2020-04-30 2021-11-04 パナソニックIpマネジメント株式会社 特性表示装置、特性表示方法およびプログラム
US11158096B1 (en) * 2020-09-29 2021-10-26 X Development Llc Topology optimization using straight-through estimators
CN112466410B (zh) * 2020-11-24 2024-02-20 江苏理工学院 蛋白质与配体分子结合自由能的预测方法及装置
CN113191504B (zh) * 2021-05-21 2022-06-28 电子科技大学 一种面向计算资源异构的联邦学习训练加速方法
CN113409884B (zh) * 2021-06-30 2022-07-22 北京百度网讯科技有限公司 排序学习模型的训练方法及排序方法、装置、设备及介质
US11742057B2 (en) 2021-07-22 2023-08-29 Pythia Labs, Inc. Systems and methods for artificial intelligence-based prediction of amino acid sequences at a binding interface
US11450407B1 (en) * 2021-07-22 2022-09-20 Pythia Labs, Inc. Systems and methods for artificial intelligence-guided biomolecule design and assessment
EP4409579A1 (en) 2021-10-01 2024-08-07 Atomwise Inc. Characterization of interactions between compounds and polymers using negative pose data and model conditioning
CN113951898B (zh) * 2021-10-15 2023-03-10 浙江大学 数据迁移的p300脑电信号检测方法及装置、电子设备、介质
US11680998B2 (en) * 2021-11-03 2023-06-20 Innovation Academy For Precision Measurement Science And Technology, Cas NMR relaxation time inversion method based on unsupervised neural network
CN115132295B (zh) * 2022-04-21 2024-05-24 腾讯科技(深圳)有限公司 分子分类方法、装置、设备及计算机可读存储介质
CN115328117B (zh) * 2022-07-15 2023-07-14 大理大学 基于强化学习的蛋白质动态配体通道最优路径分析方法
US12027235B1 (en) 2022-12-27 2024-07-02 Pythia Labs, Inc. Systems and methods for artificial intelligence-based binding site prediction and search space filtering for biological scaffold design
WO2024206225A2 (en) 2023-03-24 2024-10-03 Atomwise Inc. Graph edit distance determination in drug-like chemical spaces

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300127A1 (en) 2014-05-05 2016-10-13 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP2018529159A (ja) 2015-08-25 2018-10-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated トレーニングされた機械学習モデルのパフォーマンスを改善するための方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5048100A (en) 1988-12-15 1991-09-10 Michael Kuperstein Self organizing neural network method and system for general classification of patterns
US5491627A (en) 1993-05-13 1996-02-13 Arch Development Corporation Method and system for the detection of microcalcifications in digital mammograms
WO1997011350A2 (en) 1995-09-19 1997-03-27 Morphometrix Technologies Inc. A neural network assisted multi-spectral segmentation system
US6480627B1 (en) * 1999-06-29 2002-11-12 Koninklijke Philips Electronics N.V. Image classification using evolved parameters
CA2346588A1 (en) 2000-05-08 2001-11-08 Molecular Simulations Inc. Methods and systems for estimating binding affinity
US20020090631A1 (en) 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
AU2002324418A1 (en) 2001-01-19 2003-01-02 Engeneos, Inc. Methods and systems for designing machines including biologically-derived parts
US20030148391A1 (en) * 2002-01-24 2003-08-07 Salafsky Joshua S. Method using a nonlinear optical technique for detection of interactions involving a conformational change
US20060089335A1 (en) 2003-10-14 2006-04-27 Guosong Liu Compositions and methods for enhancing cognitive function and synaptic plasticity
US9317664B2 (en) 2003-10-14 2016-04-19 Verseon Corporation Method and device for partitioning a molecule
US7236615B2 (en) 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
US8145430B2 (en) 2005-03-11 2012-03-27 Schrodinger, Llc Predictive scoring function for estimating binding affinity
EP1904845A4 (en) 2005-07-07 2009-11-25 David E Kohne IMPROVED RESULTS AND APPLICATION OF COMPARISON EXAMPLES OF PROTEIN EXPRESSIONS
US7747070B2 (en) 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
CN102260742A (zh) * 2005-10-21 2011-11-30 基因信息股份有限公司 用于使生物标志产物水平与疾病相关联的方法和装置
US20090006059A1 (en) 2007-06-27 2009-01-01 Nidhi Arora Systems and methods for mapping binding site volumes in macromolecules
JP2009007302A (ja) 2007-06-28 2009-01-15 Nec Corp 仮想スクリーニング方法及び装置
US20090241222A1 (en) * 2008-03-19 2009-09-24 Jose Alberto Fernandez-Pol Tandem reapeat dna constructs producing proteins that attack plant pathogenic viruses, fungi, and bacteria by disrupting transcription factors essential for replication thereof in plants
JP2010113473A (ja) 2008-11-05 2010-05-20 Saitama Univ ペプチドとタンパク質の結合部位を予測する方法、装置、およびプログラム
EP2483813A1 (en) * 2009-10-01 2012-08-08 Chipdx LLC System and method for classification of patients
AU2009230796A1 (en) * 2009-10-28 2011-05-12 Canon Kabushiki Kaisha Location-based brightness transfer function
IL278227B (en) * 2011-04-29 2022-07-01 Cancer Prevention & Cure Ltd Data classification systems for identifying biomarkers and diagnosing diseases
WO2013163348A1 (en) 2012-04-24 2013-10-31 Laboratory Corporation Of America Holdings Methods and systems for identification of a protein binding site
CN102930181B (zh) * 2012-11-07 2015-05-27 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
AU2014318499B2 (en) * 2013-09-16 2019-05-16 Biodesix, Inc Classifier generation method using combination of mini-classifiers with regularization and uses thereof
KR102341026B1 (ko) 2013-09-27 2021-12-21 코덱시스, 인코포레이티드 구조에 기반한 예측 모델링
US9700219B2 (en) 2013-10-17 2017-07-11 Siemens Healthcare Gmbh Method and system for machine learning based assessment of fractional flow reserve
US9668699B2 (en) 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US20150278441A1 (en) 2014-03-25 2015-10-01 Nec Laboratories America, Inc. High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction
JP6671348B2 (ja) 2014-05-05 2020-03-25 アトムワイズ,インコーポレイテッド 結合親和性予測システム及び方法
US9965719B2 (en) 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10296796B2 (en) 2016-04-06 2019-05-21 Nec Corporation Video capturing device for predicting special driving situations
US10235771B2 (en) 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US10546237B2 (en) * 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
US10297070B1 (en) 2018-10-16 2019-05-21 Inception Institute of Artificial Intelligence, Ltd 3D scene synthesis techniques using neural network architectures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300127A1 (en) 2014-05-05 2016-10-13 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP2018529159A (ja) 2015-08-25 2018-10-04 クゥアルコム・インコーポレイテッドQualcomm Incorporated トレーニングされた機械学習モデルのパフォーマンスを改善するための方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006035480A1 (ja) * 2004-09-27 2006-04-06 Daio Paper Corporation 個別包装された吸収性物品およびその製造方法

Also Published As

Publication number Publication date
CN109964278A (zh) 2019-07-02
EP3433780A4 (en) 2020-02-26
CN109964278B (zh) 2023-06-27
EP3433780A2 (en) 2019-01-30
US10546237B2 (en) 2020-01-28
JP2020515922A (ja) 2020-05-28
US20200334528A1 (en) 2020-10-22
SG11201809343RA (en) 2018-11-29
US20180285731A1 (en) 2018-10-04
WO2018183263A3 (en) 2018-11-22
WO2018183263A2 (en) 2018-10-04
US12056607B2 (en) 2024-08-06
EP3433780B1 (en) 2021-06-16

Similar Documents

Publication Publication Date Title
JP7121725B2 (ja) 分類子出力を並行して評価することによる第1の分類子の誤差の訂正
US11080570B2 (en) Systems and methods for applying a convolutional network to spatial data
CN108140131B (zh) 用于将卷积网络应用于空间数据的系统和方法
Crampon et al. Machine-learning methods for ligand–protein molecular docking
EP3140763B1 (en) Binding affinity prediction system and method
US20210104331A1 (en) Systems and methods for screening compounds in silico
WO2023212463A1 (en) Characterization of interactions between compounds and polymers using pose ensembles
JP2024537793A (ja) 負のポーズデータ及びモデルコンディショニングを使用した化合物とポリマーとの間の相互作用の特徴付け
EP1673466A2 (en) Method and apparatus for analysis of molecular combination based on computational estimation of electrostatic affinity using basis expansions
CA2915953C (en) Systems and methods for physical parameter fitting on the basis of manual review
WASAN Prediction of protein-ligand binding affinity using neural networks
Long CAEPIDR: A Computational Approach to Efficient Peptide Influenced Drug Repurposing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210309

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220720

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220805

R150 Certificate of patent or registration of utility model

Ref document number: 7121725

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150