JP7297057B2 - 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 - Google Patents
特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 Download PDFInfo
- Publication number
- JP7297057B2 JP7297057B2 JP2021514871A JP2021514871A JP7297057B2 JP 7297057 B2 JP7297057 B2 JP 7297057B2 JP 2021514871 A JP2021514871 A JP 2021514871A JP 2021514871 A JP2021514871 A JP 2021514871A JP 7297057 B2 JP7297057 B2 JP 7297057B2
- Authority
- JP
- Japan
- Prior art keywords
- compound
- feature amount
- target
- compounds
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/15—Medicinal preparations ; Physical properties thereof, e.g. dissolubility
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Crystallography & Structural Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Medicinal Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Bioethics (AREA)
- Toxicology (AREA)
- Pathology (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は第1の実施形態に係るスクリーニング装置10(特徴量算出装置、スクリーニング装置)の構成を示すブロック図である。スクリーニング装置10は化合物(対象構造体)及び/またはポケット構造体(対象構造体)についての特徴量の算出、及び標的化合物の抽出(スクリーニング)を行う装置であり、コンピュータを用いて実現することができる。図1に示すように、スクリーニング装置10は処理部100、記憶部200、表示部300、及び操作部400を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については各種の設置形態を採用することができ、各構成要素が1箇所(1筐体内、1室内等)に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、スクリーニング装置10はインターネット等のネットワークNWを介して外部サーバ500、及びPDB(Protein Data Bank)等の外部データベース510に接続し、必要に応じて化合物の構造式、タンパク質の結晶構造等の情報を取得することができる。
図2は処理部100の構成を示す図である。処理部100は情報入力部110、特徴量算出部120、類似度算出部130、化合物抽出部140、表示制御部150、CPU160(CPU:Central Processing Unit)、ROM170(ROM:Read Only Memory)、及びRAM180(RAM:Random Access Memory)を備える。
記憶部200はDVD(Digital Versatile Disk)、ハードディスク(Hard Disk)、各種半導体メモリ等の非一時的記録媒体及びその制御部により構成され、図3に示す画像及び情報が記憶される。構造情報210は化合物の構造式、標的タンパク質の立体構造及びポケット位置を含む。立体構造情報220は、構造情報210から発生させた化合物及び/またはポケット構造体の立体構造の情報である。3次元AAM記述子230は、化合物またはポケット構造体の立体構造の周辺における1種類以上のアミノ酸の集積度合いを3次元空間において定量化した特徴量であり、後述する特徴量算出方法により算出される。なお、「AAM」は「アミノ酸マッピング(Amino Acid Mapping)」を意味する。不変量化AAM記述子240は、3次元AAM記述子230を化合物またはポケット構造体の回転及び並進について不変量化した特徴量である。類似度情報250は特徴量どうしの類似度を示す情報であり、化合物抽出結果260は類似度に基づいて抽出した標的化合物を示す情報である。
表示部300はモニタ310(表示装置)を備えており、入力した画像、記憶部200に記憶された画像及び情報、処理部100による処理の結果等を表示することができる。操作部400は入力デバイス及び/またはポインティングデバイスとしてのキーボード410及びマウス420を含んでおり、ユーザはこれらのデバイス及びモニタ310の画面を介して、本発明に係る特徴量算出方法の実行及び標的化合物の抽出に必要な操作を行うことができる(後述)。ユーザが実行できる操作には、例えば処理モード、算出する記述子の種類、スクリーニングに用いる記述子、類似度に対するしきい値の指定等が含まれる。
上述した構成のスクリーニング装置10では、操作部400を介したユーザの指示に応じて、特徴量(記述子)の算出及び/または標的化合物の抽出を行うことができる。以下、各処理の詳細を説明する。
スクリーニング装置10は、操作部400を介したユーザの指示に応じて、3次元AAM記述子及び/または不変量化AAM記述子を算出することができる。
図5は、化合物(対象構造体)についての3次元AAM記述子の算出手順を示すフローチャートである。なおリガンドは標的タンパク質との結合が確認されている化合物であり、図5の手順で3次元AAM記述子を算出することができる。ステップS100で、情報入力部110はユーザの操作に応じて化合物の構造式を入力する。これにより、入力した化学式で表される化合物が対象構造体として指定される(対象構造体指定工程)。
スクリーニング装置10では、化合物ではなく標的タンパク質に結合するポケット構造体を対象構造体として指定し、このポケット構造体に対する特徴量(3次元AAM記述子)を算出することができる。ポケット構造体は標的タンパク質の活性部位であるポケットに結合する対象構造体であり、「活性部位」とはポケット構造体が結合することにより標的タンパク質の活性が促進または抑制される部位を意味する。図9はポケット構造体に対する3次元AAM記述子の算出手順を示すフローチャートである。また、図10はポケット構造体に対する3次元AAM記述子の様子を示す概念図である。
上述した3次元AAM記述子はアミノ酸の3次元的な集積度合いを示しているが、化合物が同じでも重心移動、回転等が起きると値が変化し、また3次元情報であるのでデータ容量が大きい。そこで第1の実施形態に係るスクリーニング装置10では、3次元AAM記述子に加え、またはこれに代えて「3次元AAM記述子を化合物の回転及び並進に対して不変量化した不変量化AAM記述子」(不変量化特徴量)を算出することができる。なお、化合物の場合もポケット構造体の場合も、同じ手順で不変量化を行うことができる。化合物についての3次元AAM記述子を用いた場合は化合物についての不変量化AAM記述子が得られ、ポケット構造体についての3次元AAM記述子を用いた場合はポケット構造体についての不変量化AAM記述子が得られる。
上述の処理により算出した不変量化AAM記述子の有効性を説明する。
図12の(a)部分は、タンパク質ABL1(標的タンパク質の一例)に対するリガンドの構造式を示す。このリガンドの結合力は、IC50(50%阻害濃度)で1μMレベルである。これに対し、図12の(b)部分はリガンドとほぼ同じ不変量化AAM記述子を持つ化合物の構造式である。この化合物の活性を実測すると、リガンドと同じレベルであった。すなわち、図11は不変量化AAM記述子が類似の化合物が類似の薬効を有することを示す例である。このように、第1の実施形態によれば対象構造体の化学的性質を的確に示す特徴量(不変量化AAM記述子)を得ることができる。なお、結合力の強さを表す指標や単位は、二通りに分類することができる。一つは結合エネルギーで、単位としてはkJ/molやkcal/molが使われる。もう一つは上述したIC50あるいはKd(結合解離定数)であり、単位は濃度のM(=mol/L;モーラー)が用いられる。
以下の手順1~5により、不変量化AAM記述子によるヒットの見つけやすさを評価した。
(手順1)あるタンパク質(標的タンパク質)に対して、ヒット化合物X個とヒットでない化合物Y個とを混ぜる。
(手順2)(X+Y)個の化合物すべてについて、不変量化AAM記述子を計算する。
(手順3)記述子ごとの類似度を算出する。
(手順4)(X+Y)個の化合物を、不変量化AAM記述子の類似度に基づいてチーム分けする。
(手順5)ヒットが集まったチームが機械的に発生するかどうかチェックする。
図14は、上述した化合物群についてのImportance Sampling(重点サンプリング)のシミュレーション結果を示すグラフである。第1の実施形態に係る不変量化AAM記述子を用いた場合、ランダムなチーム分けの場合と比較したヒット探索時間(同じヒット数を発見するための薬効評価の回数)は、50%探索の場合で約2分の1、25%探索の場合約4分の1に短縮された。一方、Fingerprintを用いたチーム分けの場合、ヒット探索時間は短縮しなかった。なお、ここでのImportance Samplingのシミュレーションとは、チームごとに優先度を表す変数を与え、測定ごとに、ヒットが出たチームの優先度を上げ、ヒットが出なかったチームの優先度を下げるように、変数を更新しながら、より少ない測定回数でより多くのヒットを集める方法を意味する。図14では優先度の制御に機械学習手法の一種であるNB法(NB:Naive Bayes)を用いた例を示したが、これに限定する必要はない。
タンパク質AA2ARに対する32,464個の化合物(483個のヒットを含む)について、(その1)と同様にImportance Sampling(重点サンプリング)のシミュレーション結果を図15に示す。タンパク質AA2ARはX線結晶構造を得るのが困難な膜タンパクであるが、そのような膜タンパクの場合でも、ヒット探索時間は50%探索で約2分の1まで短縮された。
以上説明したように、第1の実施形態に係るスクリーニング装置10では、本発明に係る特徴量算出方法及び特徴量算出プログラムを用いて、対象構造体の化学的性質を的確に示す特徴量(3次元AAM記述子、不変量化AAM記述子)を算出することができる。
上述した3次元AAM記述子、不変量化AAM記述子を用いた、複数の化合物からの標的化合物(医薬候補化合物)の抽出について説明する。標的化合物の抽出はリガンドの記述子(3次元AAM記述子、不変量化AAM記述子)に基づいて行うモード(第1のモード)と標的タンパク質のポケット構造体の記述子(3次元AAM記述子、不変量化AAM記述子)に基づいて行うモード(第2のモード)がある。いずれのモードにより抽出を行うかは、操作部400を介したユーザの操作に応じて選択することができる。
図16はリガンドの3次元AAM記述子を用いたスクリーニングの手順を示すフローチャートである。処理が開始すると、特徴量算出部120はリガンドの3次元AAM記述子を算出する(ステップS300:特徴量算出工程)。なおリガンドは標的タンパク質との結合が確認されている化合物なので、ステップS300における3次元AAM記述子の算出は図5のフローチャートに示す手順により行うことができる。
図18は標的タンパク質のポケット構造体についての3次元AAM記述子を用いたスクリーニングの手順を示すフローチャートである。処理が開始すると、特徴量算出部120は標的タンパク質のポケット構造体についての3次元AAM記述子を算出する(ステップS400:特徴量算出工程)。ステップS400における3次元AAM記述子の算出は図9のフローチャートに示す手順により行うことができる。類似度算出部130は、化合物についての3次元AAM記述子と、ステップS400で算出したポケット構造体についての3次元AAM記述子との類似度を算出する(ステップS402:類似度算出工程)。類似度を算出したら、化合物抽出部140は類似度に基づいて標的化合物を抽出する(ステップS404:標的化合物抽出工程)。上述したリガンド入力の場合と同様に、類似度に基づく標的化合物の抽出(ステップS404)は、具体的には「類似度がしきい値以上の化合物を抽出する」、「類似度が高い順に化合物を抽出する」等により行うことができる。
以上説明したように、第1の実施形態に係るスクリーニング装置10では、本発明に係る特徴量算出方法及び特徴量算出プログラムにより算出した特徴量(3次元AAM記述子、不変量化AAM記述子)を用いて、本発明に係るスクリーニング方法及びスクリーニングプログラムにより医薬候補化合物のスクリーニングを効率よく行うことができる。
本発明の第2の実施形態に係る化合物創出装置について説明する。図20は化合物創出装置20(特徴量算出装置、化合物創出装置)の構成を示すブロック図である。なお、第1の実施形態と同様の要素には同一の参照符号を付し、詳細な説明を省略する。
上述した3次元AAM記述子、不変量化AAM記述子を用いた、標的化合物(医薬候補化合物)の立体構造生成について説明する。化合物創出装置20による標的化合物の立体構造生成では、検索を行わないので「スクリーニングによる検索の結果、解なし」となる場合でも化合物の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。立体構造の生成は、リガンドの記述子(3次元AAM記述子、不変量化AAM記述子)に基づいて行うモードと、標的タンパク質のポケット構造体の記述子(3次元AAM記述子、不変量化AAM記述子)に基づいて行うモードとがある。いずれのモードにより立体構造の生成を行うかは、操作部400を介したユーザの操作に応じて選択することができる。
図23はリガンド入力の場合の立体構造生成手順を示すフローチャートである。処理が開始すると、特徴量算出部120はリガンドの記述子(3次元AAM記述子)を算出する(ステップS500:対象構造体指定工程、立体構造発生工程、特徴量算出工程)。ステップS500の処理は、第1の実施形態と同様に本発明に係る特徴量算出方法及び特徴量算出プログラムを用いて行うことができる(図5~8及びそれらの図についての説明を参照)。
機械学習により構築した生成器を用いて生成した立体構造の例について説明する。この例では単純な全結合のニューラルネットを用いてライブラリ化合物のうち1,800個を上述の手法により学習し、残り200個の化合物の立体構造がどの程度再現できるかを調べた。その結果を図25に示す。ニューラルネットの中間層の数を増やすと、平均cos類似度は59%になった。図26はそのような類似度を示す例についての、3次元AAM記述子から生成した立体構造(構造式)と正解構造式(それぞれ図26の(a)部分、(b)部分)を示す図である。
上述した手順により生成される立体構造は、教師データとして与える化合物の特徴に影響される。したがって、教師データとして与える化合物の特徴を選択することで、特徴が異なる立体構造を有する化合物を生成できる。例えば、合成が容易な立体構造を有する化合物の3次元AAM記述子を教師データとして与えることで、リガンドと類似の薬効を有し、かつ合成が容易な立体構造を有する化合物を生成することができる。どのような化合物についての3次元AAM記述子を教師データとして与えるかは、生成したい化合物の特徴に合わせて選択することができる。
図23~26では3次元AAM記述子を用いた立体構造の生成について説明した。これに対し不変量化AAM記述子(不変量化特徴量)を用いた場合も、3次元AAM記述子を用いる場合と同様に、不変量化AAM記述子を教師データとし立体構造(立体化した構造式)を説明変数とした機械学習(深層学習)により標的化合物の立体構造を生成することができる。
化合物創出装置20では、上述したリガンド入力による立体構造生成に加えて、標的タンパク質を入力として標的化合物の立体構造を生成することができる。この場合も、リガンド入力の場合と同様に、3次元AAM記述子を用いた立体構造生成と不変量化AAM記述子を用いた立体構造生成とを行うことができる。
以上説明したように、第2の実施形態に係る化合物創出装置20では、本発明に係る特徴量算出方法及び特徴量算出プログラムにより算出した特徴量(3次元AAM記述子、不変量化AAM記述子)を用いて、本発明に係る化合物創出方法及び化合物創出プログラムにより医薬候補化合物の立体構造を効率よく創出することができる。
上述した第1の実施形態は特徴量の算出及びこれに基づくスクリーニングを行う態様であり、第2の実施形態は特徴量の算出及びこれに基づく標的化合物の立体構造創出を行う態様であるが、特徴量の算出に加えてスクリーニングと標的化合物の立体構造創出の両方を行ってもよい。そのため第3の実施形態に係る医薬候補化合物探索装置30(特徴量算出装置、スクリーニング装置、化合物創出装置;図28参照)では、図1に示すスクリーニング装置10の処理部100、あるいは図20に示す化合物創出装置20の処理部101に代えて図28に示す処理部102を有する。図29に示すように、処理部102は特徴量算出部120(特徴量算出部、不変量化部)、類似度算出部130(類似度算出部)、生成器構築部132(生成器構築部)、化合物抽出部140(化合物抽出部)、化合物立体構造生成部142(化合物立体構造生成部)を有し、特徴量の算出、スクリーニング、及び化合物の立体構造創出を行うことができる。また、医薬候補化合物探索装置30はこれに合わせた情報を記憶部202に記憶する。具体的には、図30に示すように、記憶部200及び記憶部201に記憶される情報(図3,22参照)が合わせて記憶部202に記憶される。
本発明では、医薬のターゲットとしてタンパク質以外に、DNA(Deoxyribonucleic Acid)、RNA(Ribonucleic Acid)、細胞膜、多糖を扱うことができる。ただし、第1~第3の実施形態において、アミノ酸を別のものに変更する必要がある。具体的には、DNAの場合はアミノ酸を核酸塩基へ変更し、RNAの場合はアミノ酸を核酸塩基へ変更し、細胞膜の場合はアミノ酸を脂質分子へ変更し、多糖の場合はアミノ酸を単糖分子へ変更する。以下では、この変更で、本発明でDNA、RNA、細胞膜、多糖も扱える理由を説明する。タンパク質、DNA、RNA、細胞膜、多糖は纏めて生体高分子と呼ばれ、固有のビルディングブロックから成り立っている。具体的には、タンパク質のビルディングブロックはアミノ酸、DNAのビルディングブロックは核酸塩基、RNAのビルディングブロックは同様に核酸塩基、細胞膜のビルディングブロックは脂質分子、多糖のビルディングブロックは単糖分子である。タンパク質以外の生体高分子であるDNA、RNA、細胞膜、多糖にも、タンパク質と同様に、活性部位であるポケットがあるため、本発明は、医薬のターゲット(標的生体高分子)がDNA、RNA、細胞膜、多糖の場合にも、タンパク質の場合に示した第1~第3の実施形態において、アミノ酸をターゲットのビルディングブロックへ変更することで、対応できる。なお、化合物あるいはポケット構造体の周辺におけるアミノ酸、核酸塩基、脂質分子、単糖分子の集積度合いの定量化時に、水を考慮することもできる。
本発明では、「化合物による標的生体分子単独での活性」という通常の活性以外にも、「化合物による、標的生体分子に加えてその他の生体分子からなる複合体である細胞の活性」についても扱うことができる。
<ターゲット及びプローブ>
医薬のターゲット(標的生体高分子)としてタンパク質以外の生体高分子(化合物)であるDNA、RNA、細胞膜、多糖を扱う場合、特徴量の算出においてプローブはアミノ酸ではなく別の物質(各ターゲットのビルディングブロック)にする。具体的には、ターゲットが「DNA、RNA、細胞膜、多糖」の場合、プローブはそれぞれ「1種類以上の核酸塩基、1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子」とする。また、これらをプローブとして集積度合いを定量化する際に、水、1種類以上のイオンを考慮してもよい。また、ターゲットが「DNA、RNA、細胞膜、多糖」のうち複数種類の生体高分子により構成される場合、プローブもターゲットの構成に応じて「1種類以上の核酸塩基、1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、1種類以上のイオン」のうち1つ以上(ターゲットの構成に応じた種類、数、及びそれらの組合せでよい)とすることができる。プローブを構成するイオンは、単原子イオンでもよいし多原子イオンでもよい。なお、いずれものプローブも、ファンデルワールス力を発生させることを前提とする。
特徴量(変形例1に係る特徴量)の算出及びスクリーニングを行う装置(特徴量算出装置、スクリーニング装置)の構成は、第1の実施形態と同様である(図1~3を参照)。ただし、図3における3次元AAM記述子230に代えて変形例1に係る記述子を算出及び記憶し、不変量化AAM記述子240に代えて変形例1に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第1の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第1の実施形態に係る特徴量の算出(図5参照)におけるプローブとしての「アミノ酸」を「1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、1種類以上のイオンのうち1つ以上(任意の種類、数、及び組合せで良い)」として分布関数を算出して(式(1)参照)この分布関数から変形例1に係る特徴量を算出し、変形例1に係る特徴量をフーリエ変換して変形例1に係る不変量化特徴量を算出する(式(2)参照)。また、2種類の異なるプローブ(1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、及び1種類以上のイオンのうち1つ以上で構成される第1のプローブと、1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、及び1種類以上のイオンのうち1つ以上で構成される第2のプローブであって第1のプローブとは異なる第2のプローブ)についての変形例1に係る特徴量を用いて、相関関数の角度積分により変形例1に係る不変量化特徴量を算出してもよい(式(3)、(4)参照)。
特徴量(変形例1に係る特徴量)の算出及び化合物の創出を行う装置(特徴量算出装置、化合物創出装置)の構成は、第2の実施形態と同様である(図20~22を参照)。ただし、図22における3次元AAM記述子230に代えて変形例1に係る記述子(変形例1に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例1に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第2の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例1においては、化合物の立体構造を教師データとし、変形例1に係る特徴量を説明変数とした機械学習(深層学習)により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例1に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第1から第3の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。
<ターゲット及びプローブ>
変形例2では、「タンパク質とタンパク質以外の生体高分子(DNA、RNA、細胞膜、多糖)との複合体」をターゲットとする。また、「1種類以上のアミノ酸」(第1のプローブ)と「1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、1種類以上のイオンのうち1つ以上」(第2のプローブ;任意の種類、数、組合せでよい)とをプローブとする。第1,第2のプローブの構成(種類、数、及びそれらの組合せ)はターゲットの構成に応じて設定することができる。プローブを構成するイオンは、単原子イオンでもよいし多原子イオンでもよい。なお、いずれものプローブもファンデルワールス力を発生させることを前提とする。
特徴量(変形例2に係る特徴量)の算出及びスクリーニングを行う装置(特徴量算出装置、スクリーニング装置)の構成は、第1の実施形態と同様である(図1~3を参照)。ただし、図3における3次元AAM記述子230に代えて変形例2に係る記述子(変形例2に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例2に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第1の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、変形例2に係る特徴量の算出(図5参照)におけるプローブとしての「アミノ酸」を「1種類以上のアミノ酸」(第1のプローブ)と「1種類以上の核酸塩基、1種類以上の脂質分子、水、1種類以上の単糖分子、1種類以上のイオンのうち1つ以上」(第2のプローブ;任意の種類、数、組合せでよい)として分布関数を算出して(式(1)参照)この分布関数から変形例2に係る特徴量を算出し、変形例2に係る特徴量をフーリエ変換して変形例2に係る不変量化特徴量を算出する(式(2)参照)。また、「1種類以上のアミノ酸」(第1のプローブ)と「1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、1種類以上のイオンのうち1つ以上」(第2のプローブ;任意の種類、数、組合せでよい)とのうち少なくとも一方が異なる2種類のプローブについての変形例2に係る特徴量を用いて、相関関数の角度積分により変形例2に係る不変量化特徴量を算出してもよい(式(3)、(4)参照)。
特徴量(変形例2に係る特徴量)の算出及び化合物の創出を行う装置(特徴量算出装置、化合物創出装置)の構成は、第2の実施形態と同様である(図20~22を参照)。ただし、図22における3次元AAM記述子230に代えて変形例2に係る記述子(変形例2に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例2に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第2の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例2においては、化合物の立体構造を教師データとし、変形例2に係る特徴量を説明変数とした機械学習(深層学習)により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例2に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第1から第3の実施形態及び変形例1と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。
<ターゲット及びプローブ>
変形例3では生体高分子(化合物)をターゲットとし、「電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及びそれらの組合せでよい)」(実数電荷を持ちファンデルワールス力を発生させる仮想的な点電荷)をプローブとする。これらの点電荷は「単一の点」の一例である。
特徴量(変形例3に係る特徴量;第2の特徴量、第2の不変量化特徴量)の算出及びスクリーニングを行う装置(特徴量算出装置、スクリーニング装置)の構成は、第1の実施形態と同様である(図1~3を参照)。ただし、図3における3次元AAM記述子230に代えて第2の記述子(第2の特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて第2の不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第1の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第1の実施形態に係る特徴量の算出(図5参照)におけるプローブとしての「アミノ酸」を「電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及びそれらの組合せでよい)」として分布関数を算出して(式(1)参照)この分布関数から第2の特徴量を算出し、第2の特徴量をフーリエ変換して第2の不変量化特徴量を算出する(式(2)参照)。また、2種類の異なるプローブ(第1の点電荷、第2の点電荷、第3の点電荷、第4の点電荷、第5の点電荷のうち1つ以上で構成される第1のプローブと、第1の点電荷、第2の点電荷、第3の点電荷、第4の点電荷、第5の点電荷のうち1つ以上で構成される第2のプローブであって第1のプローブとは異なる第2のプローブ)についての第2の特徴量を用いて、相関関数の角度積分により第2の不変量化特徴量を算出してもよい(式(3)、(4)参照)。
特徴量(第2の特徴量)の算出及び化合物の創出を行う装置(特徴量算出装置、化合物創出装置)の構成は、第2の実施形態と同様である(図20~22を参照)。ただし、図22における3次元AAM記述子230に代えて第2の記述子(第2の特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて第2の不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第2の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例3においては、化合物の立体構造を教師データとし、第2の特徴量を説明変数とした機械学習(深層学習)により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての第2の特徴量から標的生体高分子の立体構造を生成することができる。なお第1から第3の実施形態及び変形例1、2と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。
<ターゲット及びプローブ>
変形例4では生体高分子(化合物)をターゲットとし、「1種類以上のアミノ酸である第1のプローブと、電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、第1の点電荷と第2の点電荷とが離間して配置されたダイポール、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及び組合せで良い)である第2のプローブ」とをプローブとする。第2のプローブはダイポールを除く点電荷(第1~第5の点電荷のうち1つ以上)でもよい。第1から第5の点電荷は、「単一の点」の一例である。
特徴量(変形例4に係る特徴量)の算出及びスクリーニングを行う装置(特徴量算出装置、スクリーニング装置)の構成は、第1の実施形態と同様である(図1~3を参照)。ただし、図3における3次元AAM記述子230に代えて変形例4に係る記述子(変形例4に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例4に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第1の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第1の実施形態に係る特徴量の算出(図5参照)におけるプローブとしての「アミノ酸」を「1種類以上のアミノ酸である第1のプローブと、電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、第1の点電荷と第2の点電荷とが離間して配置されたダイポール、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及び組合せで良い)である第2のプローブ」として分布関数を算出して(式(1)参照)この分布関数から変形例4に係る特徴量を算出し、変形例4に係る特徴量をフーリエ変換して変形例4に係る不変量化特徴量を算出する(式(2)参照)。第2のプローブはダイポールを除く点電荷(第1~第5の点電荷のうち1つ以上)でもよい。また、第1のプローブと第2のプローブとのうち少なくとも一方が異なる2種類のプローブについての変形例4に係る特徴量を用いて、相関関数の角度積分により変形例4に係る不変量化特徴量を算出してもよい(式(3)、(4)参照)。
特徴量(変形例4に係る特徴量)の算出及び化合物の創出を行う装置(特徴量算出装置、化合物創出装置)の構成は、第2の実施形態と同様である(図20~22を参照)。ただし、図22における3次元AAM記述子230に代えて変形例4に係る記述子(変形例4に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例4に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第2の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例4においては、化合物の立体構造を教師データとし、変形例4に係る特徴量を説明変数とした機械学習(深層学習)により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例4に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第1から第3の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。
<ターゲット及びプローブ>
変形例5では生体高分子(化合物)をターゲットとし、「1種類以上の核酸塩基、1種類以上の脂質分子、水、1種類以上の単糖分子、1種類以上のイオンのうち1つ以上(任意の種類、数、及び組合せでよい)」である第1のプローブと、「電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、第1の点電荷と第2の点電荷とが離間して配置されたダイポール、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及び組合せでよい)」である第2のプローブとをプローブとする。第1のプローブを1種類以上の単原子イオンとし、第2のプローブを点電荷(第1~第5の点電荷のうち1つ以上)としてもよい。「単原子イオン」及び「点電荷」は「単一の点」の一例である。
特徴量(変形例5に係る特徴量;第3の特徴量、第3の不変量化特徴量)の算出及びスクリーニングを行う装置(特徴量算出装置、スクリーニング装置)の構成は、第1の実施形態と同様である(図1~3を参照)。ただし、図3における3次元AAM記述子230に代えて第3の記述子(第3の特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて第3の不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第1の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第1の実施形態に係る特徴量の算出(図5参照)におけるプローブとしての「アミノ酸」を「1種類以上の核酸塩基、1種類以上の脂質分子、水、1種類以上の単糖分子、1種類以上のイオンのうち1つ以上(任意の種類、数、及び組合せでよい)」である第1のプローブと、「電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、第1の点電荷と第2の点電荷とが離間して配置されたダイポール、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及び組合せでよい)」である第2のプローブとして分布関数を算出して(式(1)参照)この分布関数から第3の特徴量を算出し、第3の特徴量をフーリエ変換して第3の不変量化特徴量を算出する(式(2)参照)。また、第1のプローブと第2のプローブとのうち少なくとも一方が異なる2種類のプローブについての第3の特徴量を用いて、相関関数の角度積分により第3の不変量化特徴量を算出してもよい(式(3)、(4)参照)。上述のように、第1のプローブを1種類以上の単原子イオンとし、第2のプローブを点電荷(第1~第5の点電荷のうち1つ以上)としてもよい。「単原子イオン」及び「点電荷」は「単一の点」の一例である。
特徴量(第3の特徴量)の算出及び化合物の創出を行う装置(特徴量算出装置、化合物創出装置)の構成は、第2の実施形態と同様である(図20~22を参照)。ただし、図22における3次元AAM記述子230に代えて第3の記述子(第3の特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて第3の不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第2の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例5においては、化合物の立体構造を教師データとし、第3の特徴量を説明変数とした機械学習(深層学習)により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての第3の特徴量から標的生体高分子の立体構造を生成することができる。なお第1から第3の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。
<ターゲット及びプローブ>
変形例6では生体高分子(化合物)をターゲットとし、「1種類以上のアミノ酸」である第1のプローブと、「1種類以上の核酸塩基、1種類以上の脂質分子、水、1種類以上の単糖分子、1種類以上のイオンのうち1つ以上(任意の種類、数、及び組合せで良い)」である第2のプローブと、「電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、第1の点電荷と第2の点電荷とが離間して配置されたダイポール、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及び組合せで良い)」である第3のプローブと、をプローブとする。第2のプローブを1種類以上の単原子イオンとし、第3のプローブを第1~第5の点電荷のうち1つ以上としてもよい。「単原子イオン」及び「点電荷」は「単一の点」の一例である。
特徴量(変形例6に係る特徴量)の算出及びスクリーニングを行う装置(特徴量算出装置、スクリーニング装置)の構成は、第1の実施形態と同様である(図1~3を参照)。ただし、図3における3次元AAM記述子230に代えて変形例6に係る記述子(変形例6に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例6に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第1の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第1の実施形態に係る特徴量の算出(図5参照)におけるプローブとしての「アミノ酸」を「1種類以上のアミノ酸」である第1のプローブと、「1種類以上の核酸塩基、1種類以上の脂質分子、水、1種類以上の単糖分子、1種類以上のイオンのうち1つ以上(任意の種類、数、及び組合せで良い)」である第2のプローブと、「電荷が+1である第1の点電荷、電荷が-1である第2の点電荷、電荷が+0.1である第3の点電荷、電荷が-0.1である第4の点電荷、第1の点電荷と第2の点電荷とが離間して配置されたダイポール、電荷がゼロである第5の点電荷のうち1つ以上(任意の種類、数、及び組合せで良い)」である第3のプローブと、として分布関数を算出して(式(1)参照)この分布関数から変形例6に係る特徴量を算出し、変形例6に係る特徴量をフーリエ変換して変形例6に係る不変量化特徴量を算出する(式(2)参照)。また、第1のプローブと、第2のプローブと、第3のプローブとのうち少なくとも1つが異なる2種類のプローブについての変形例6に係る特徴量を用いて、相関関数の角度積分により変形例6に係る不変量化特徴量を算出してもよい(式(3)、(4)参照)。上述のように、第2のプローブを1種類以上の単原子イオンとし、第3のプローブを第1~第5の点電荷のうち1つ以上としてもよい。
特徴量(変形例6に係る特徴量)の算出及び化合物の創出を行う装置(特徴量算出装置、化合物創出装置)の構成は、第2の実施形態と同様である(図20~22を参照)。ただし、図22における3次元AAM記述子230に代えて変形例6に係る記述子(変形例6に係る特徴量)を算出及び記憶し、不変量化AAM記述子240に代えて変形例6に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第2の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例6においては、化合物の立体構造を教師データとし、変形例6に係る特徴量を説明変数とした機械学習(深層学習)により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例6に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第1から第3の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。
図31は、上述した図13と同様の系(タンパク質ABL1)について、化合物を対象構造体とする不変量化特徴量(アミノ酸をプローブとする不変量化特徴量、及びアミノ酸以外をプローブとする不変量化特徴量)によるヒットの見つけやすさを比較評価した結果の一例を示す図である。図31によれば、記述子(特徴量)の種類によって効果(ヒット数の期待値)に差があるものの、ランダムの場合(図13参照)と比較して期待値が向上することが分かる。なお、図31は(チーム数=183)でのクラスタリングの結果なので、「AAM」についてのヒット数が図13の場合(チーム数=221でのクラスタリングの結果)と異なっている。このように、アミノ酸以外をプローブとする不変量化特徴量を用いる場合においても、医薬候補化合物のスクリーニングを効率よく行うことができる。
上述した第1~第3の実施形態及び変形例1~7では「対象構造体について、(構造式等から)複数の単位構造体による立体構造を発生させる立体構造発生工程」を有する特徴量算出方法により特徴量を算出しているが、本発明では「機械学習により構成された、立体構造から特徴量を算出する生成器」を用いて特徴量(特徴量、第1~第3の特徴量)を算出してもよい。生成器は、例えば「『複数の化合物についての、化合物の立体構造を示す情報(3次元画像等)を教師データとし、特徴量(例えば、第1~第4の態様に係る特徴量のいずれか1つ)を説明変数とした学習用データセット』を生成器に入力して機械学習により学習させる学習処理工程を有する生成器の構築方法」により構築することができる。
<物性値及び/または毒性値との併用>
図33は、本発明に係る特徴量と物性を示す物性値及び/または毒性を示す毒性値とに基づくスクリーニングの処理を示すフローチャートである。この処理は、第1の実施形態に係るスクリーニング装置10(特徴量算出装置、スクリーニング装置)、及び第3の実施形態に係る医薬候補化合物探索装置30(特徴量算出装置、スクリーニング装置、化合物創出装置)と同様の装置により実行することができる。これらの装置において、上述した生成器を用いて特徴量を算出してもよい。例えば、スクリーニング装置10において、処理部100に代えて図34に示す構成の処理部103を用いてスクリーニングを行うことができる。
本発明に係る特徴量と物性を示す物性値とに基づくスクリーニングの実施例について説明する。ここでは、元の化合物に対し、複数の化合物(ライブラリ化合物)の中から「本発明に係る特徴量の類似度が基準値以下で、物性値が目標値を満たす化合物」を抽出する場合について説明する。上述したように、図34に示す構成の処理部103を有するスクリーニング装置10が、このようなスクリーニングの処理を実行することができる。スクリーニング装置10は図33のフローチャートに示す手順で処理を行ってもよいし、以下に説明するようにこの手順を本発明の第10の態様の範囲内で変更した手順(例えば、処理の順番を入れ替えてもよいし、抽出工程を個々の化合物について繰り返し行うのではなく複数の化合物について一括して行ってもよい)で処理を行ってもよい。
上述した物性値及び/または毒性値との併用の場合と同様に、図38のフローチャートを参照して以下で説明するように、本発明に係る特徴量と化合物の構造を示す特徴量(構造特徴量)とを用いてスクリーニングを行うこともできる。この処理は、例えばスクリーニング装置10において処理部100に代えて図39に示す構成の処理部104を用いてスクリーニングを行うことができる。なお、図38のフローチャートに関し、図33と同様の処理には同一のステップ番号を付し、詳細な説明を省略する。
本発明に係る特徴量と構造特徴量とに基づくスクリーニングの実施例について説明する。ここでは、図40の(a)部分に示す元の化合物C0に対し、複数の化合物C4~C6(ライブラリ化合物)の中から「本発明に係る特徴量の類似度が基準値以下で、元の化合物との構造特徴量の類似度が目標値を満たす化合物」を抽出する場合について説明する。上述したように、図39に示す構成の処理部104を有するスクリーニング装置10がスクリーニングの処理を実行することができる。スクリーニング装置10は図38のフローチャートに示す手順で処理を行ってもよいし、以下で説明するようにこの手順を本発明の第11の態様の範囲内で変更した手順(例えば、処理の順番を入れ替えてもよいし、抽出工程を個々の化合物について繰り返し行うのではなく複数の化合物について一括して行ってもよい)で処理を行ってもよい。
図43は本発明に係る特徴量と他の特徴量(物性値、毒性値等)を用いた場合の出力例を示す図である。図43の(a)部分はケース1~3について2つの化合物(化合物A,B)の構造を示す図であり、同図の(b)部分は各ケースについて特徴量の類似性距離及びClogP(logPの予測値;物性値の一例)を示す。図中の「類似性距離(AAM記述子)」とは、20種類のアミノ酸をプローブとした場合の、本発明に係る特徴量(回転、並進に対し不変量化している)の類似度を示す指標であり、この値が100以下であることを「特徴量が類似しているか否か」の基準とすることができる。すなわち、図43に示すケース1~3においては、「化合物A,Bの特徴量は類似している(したがって、結合力が同程度である)」ということができる。また、図43の(b)部分に示すClogPについては、「値が1違うと、物性としての差が大きい」(したがって、ケース1~3の化合物は物性の差が大きい)ということができる。以上より、本発明に係る特徴量と他の特徴量を併用することにより、結合力を維持しつつ物性及び/または毒性が改善された化合物を抽出することができることが分かる。
図33,38について上述した態様(フローチャート)では、基準とする化合物に対し結合力(特徴量と対応)が維持され、かつ物性値等が目標値を満たす化合物を抽出している。これに対し図45のフローチャートに示す処理によれば、結合力が向上する化合物(基準とする化合物よりも結合力が高い化合物)のスクリーニングを行うこともできる。このような処理は、処理部100に代えて例えば図46に示す処理部105を備えるスクリーニング装置10(図1を参照)により行うことができる。なお、図45のフローチャートに関し、図33,38と同様の処理には同一のステップ番号を付し、詳細な説明を省略する。
図47は、結合力が向上する化合物のスクリーニングの他の例を示すフローチャートである。これらの処理は、図46と同様の処理部105を備えるスクリーニング装置10により行うことができる。なお、図47において、図33,35,39のフローチャートと同様の処理については同一のステップ番号を付し、詳細な説明を省略する。
上述した態様に加えて、以下に記載した内容も本発明の範囲に含まれる。なお、以下に記載の方法、装置、プログラム等は、第1~第3の実施形態と同様の構成により実現することができる。
付記1に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、物性を示す物性特性値についての第2の目標値及び/または毒性を示す毒性特性値についての第3の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する特徴量算出工程と、候補構造について物性特性値及び/または毒性特性値を算出する特性値算出工程と、候補構造を採用または棄却する候補構造採用工程であって、算出した特徴量と、算出した物性特性値及び/または毒性特性値と、が第1の目標値ないし第3の目標値を満たしている場合は候補構造を採用し、第1の目標値ないし第3の目標値を満たしていない場合は候補構造を棄却する候補構造採用工程と、算出した特徴量と、算出した物性特性値及び/または毒性特性値と、が第1の目標値ないし第3の目標値を満たすまで候補構造取得工程、特徴量算出工程、特性値算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。
付記2に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、物性を示す物性特性値についての第2の目標値及び/または毒性を示す毒性特性値についての第3の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、算出した特徴量が第1の目標値に近づいている場合は候補構造を採用し、算出した特徴量が第1の目標値に近づいていない場合は候補構造を棄却する候補構造採用工程と、特徴量が第1の目標値を満たすまで候補構造取得工程、特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、特徴量が第1の目標値を満たす候補構造について、物性特性値及び/または毒性特性値を算出する特性値算出工程と、物性特性値及び/または毒性特性値を算出した候補構造に対応する化合物のうちから、物性特性値及び/または毒性特性値が第2の目標値及び/または第3の目標値を満たす化合物を抽出する抽出工程と、を有する。
付記3に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、物性を示す物性特性値についての第2の目標値及び/または毒性を示す毒性特性値についての第3の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について物性特性値及び/または毒性特性値を算出する特性値算出工程と、候補構造を採用または棄却する候補構造採用工程であって算出した物性特性値及び/または毒性特性値が第2の目標値及び/または第3の目標値に近づいている場合は候補構造を採用し、算出した物性特性値及び/または毒性特性値が第2の目標値及び/または第3の目標値に近づいていない場合は候補構造を棄却する候補構造採用工程と、算出した物性特性値及び/または毒性特性値が第2の目標値及び/または第3の目標値を満たすまで候補構造取得工程、特性値算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、算出した物性特性値及び/または毒性特性値が第2の目標値及び/または第3の目標値を満たす候補構造に対応する化合物について、第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する特徴量算出工程と、特徴量を算出した化合物のうちから、特徴量が第1の目標値を満たす化合物を抽出する抽出工程と、を有する。
付記4に係る化合物創出方法は、化合物について、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、物性を示す物性特性値についての第2の目標値及び/または毒性を示す毒性特性値についての第3の目標値と、を入力する入力工程と、第1の目標値に基づいて、第15から第17の態様のいずれか1つに係る化合物創出方法により複数の化合物を創出する創出工程と、複数の化合物について、物性特性値及び/または毒性特性値を算出する特性値算出工程と、複数の化合物のうちから、物性特性値及び/または毒性特性値が第2の目標値及び/または第3の目標値を満たす化合物を抽出する抽出工程と、有する。
付記5に係る化合物創出方法は、付記1から3のいずれか1つに係る化合物創出方法において、入力された情報に基づいて第1から第4の態様に係る特徴量算出方法のうちいずれか1つを選択する第1の選択工程をさらに有し、特徴量算出工程では選択した特徴量算出方法により特徴量を算出する。処理部101を備える化合物創出装置20や、処理部102を備える医薬候補化合物探索装置30、あるいはこれらと同様の構成を有する装置、システムは、ユーザの操作に応じて特徴量算出方法を選択することができる。
付記6に係る化合物創出方法は、付記1から5のいずれか1つに係る化合物創出方法において、物性特性値の算出方法及び/または毒性特性値の算出方法を選択する第2の選択工程をさらに有し、特性値算出工程では選択した算出方法により物性特性値及び/または毒性特性値を算出する。処理部101を備える化合物創出装置20や、処理部102を備える医薬候補化合物探索装置30、あるいはこれらと同様の構成を有する装置、システムは、ユーザの指示に応じて物性特性値の算出方法及び/または毒性特性値の算出方法を選択することができる。
付記7に係る化合物創出方法は、付記1から6のいずれか1つに係る化合物創出方法において、物性特性値は分子量、ClogP、極性表面積、分極率、及びローテータブルボンドの数(RBN)のうち1つ以上である。RBNの定義は「物性値及び/または毒性値との併用」の項で上述した通りである。
付記8に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、立体構造を示す構造特徴量についての第2の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する第1の特徴量算出工程と、候補構造について構造特徴量を算出する第2の特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、算出した特徴量及び算出した構造特徴量が第1の目標値及び第2の目標値を満たしている場合は候補構造を採用し、第1の目標値及び第2の目標値を満たしていない場合は候補構造を棄却する候補構造採用工程と、特徴量及び構造特徴量が第1の目標値及び第2の目標値を満たすまで候補構造取得工程、第1の特徴量算出工程、第2の特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。
付記9に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、立体構造を示す構造特徴量についての第2の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する第1の特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、算出した特徴量が第1の目標値を満たしている場合は候補構造を採用し、算出した特徴量が第1の目標値を満たしていない場合は候補構造を棄却する候補構造採用工程と、特徴量が第1の目標値を満たすまで候補構造取得工程、第1の特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、特徴量が第1の目標値を満たす候補構造について構造特徴量を算出する構造特徴量算出工程と、構造特徴量を算出した候補構造に対応する化合物から、第2の目標値との類似度がしきい値以下である構造特徴量を有する化合物を抽出する抽出工程と、を有する。
付記10に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、立体構造を示す構造特徴量についての第2の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について構造特徴量を算出する第2の特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、算出した構造特徴量が第2の目標値を満たしている場合は候補構造を採用し、算出した構造特徴量が第2の目標値を満たしていない場合は候補構造を棄却する候補構造採用工程と、構造特徴量が第2の目標値を満たすまで候補構造取得工程、第2の特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、構造特徴量が第2の目標値を満たす候補構造について特徴量を算出する第1の特徴量算出工程と、特徴量を算出した候補構造に対応する化合物から、第1の目標値との類似度がしきい値以下である構造特徴量を有する化合物を抽出する抽出工程と、を有する。
付記11に係る化合物創出方法は、化合物について、立体構造を示す情報と、第1から第4の態様のいずれか1つに係る特徴量についての第1の目標値と、立体構造を示す構造特徴量についての第2の目標値と、を入力する入力工程と、第15から第17の態様のいずれか1つに係る化合物創出方法により、特徴量が第1の目標値を満たす複数の候補構造を生成する生成工程と、複数の候補構造について構造特徴量を算出する算出工程と、複数の候補構造から、構造特徴量がしきい値以下である化合物を抽出する抽出工程と、を有する。
付記12に係る化合物創出方法は、付記8から10のいずれか1つに係る化合物創出方法において、第1から第4の態様に係る特徴量算出方法のうちいずれか1つを情報に基づいて選択する第1の選択工程をさらに有し、第1の特徴量算出工程では、選択した特徴量算出方法により特徴量を算出する。特徴量算出方法の選択は、ユーザの指示に基づいて行うことができる。
付記13に係る化合物創出方法は付記8から12のいずれか1つに係る化合物創出方法において、構造特徴量は化合物についてのFingerprint(Fingerprint記述子)である。Fingerprint記述子は、特定の官能基や部分構造の有無を0と1で表現した記述子である。
付記14に係る化合物創出方法は付記12または13に係る化合物創出方法において、構造特徴量の類似度を示す指標としてTanimoto係数を用いる。Tanimoto係数は、比較したい2化合物のFingerprint記述子を与えると0から1までの実数として算出され、1に近くなるほど類似度が高くなるように定義されている。
付記15に係る化合物創出方法は、化合物について、立体構造を示す情報と、結合力の目標値と、を入力する入力工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する特徴量算出工程と、第1から第4の態様のいずれか1つに係る特徴量に基づいて結合力を出力する予測モデルを用いて、算出した特徴量に対応する候補構造の結合力を推定する推定工程と、候補構造を採用または棄却する候補構造採用工程であって、推定した結合力が目標値を満たしている場合は候補構造を採用し、推定した結合力が目標値を満たしていない場合は候補構造を棄却する候補構造採用工程と、結合力が目標値を満たすまで候補構造取得工程、特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。
付記16に係る化合物創出方法は、化合物について、結合力の目標値を入力する入力工程と、第1から第4の態様のいずれか1つに係る特徴量に基づいて結合力を出力する予測モデルを用いて、目標値を満たす特徴量を推定する推定工程と、立体構造を変化させて候補構造を得る候補構造取得工程と、候補構造について、第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する第1の特徴量算出工程と、候補構造を採用または棄却する候補構造採用工程であって、算出した特徴量が推定した特徴量を満たしている場合は候補構造を採用し、算出した特徴量が推定した特徴量を満たしていない場合は候補構造を棄却する候補構造採用工程と、算出した特徴量が推定した特徴量を満たすまで候補構造取得工程、第1の特徴量算出工程、及び候補構造採用工程における処理を繰り返させる制御工程と、を有する。
付記17に係る化合物創出方法は、化合物について、結合力の目標値を入力する入力工程と、第1から第4の態様のいずれか1つに係る特徴量に基づいて結合力を出力する予測モデルを用いて、目標値を満たす特徴量を推定する推定工程と、推定した特徴量に基づいて、第15から第17の態様のいずれか1つに係る化合物創出方法により、目標値に対応する化合物の立体構造を生成する生成工程と、を有する。
付記18に係る予測モデル生成方法は、複数の化合物について立体構造を示す情報を入力する入力工程と、複数の化合物のそれぞれについて、第1から第4の態様のいずれか1つに係る特徴量算出方法を用いて特徴量を算出する特徴量算出工程と、特徴量を説明変数とし、特徴量に対応する結合力を教師データとした機械学習により化合物の結合力の予測モデルを生成する工程と、を有する。
付記19に係る予測モデルは、コンピュータに、化合物の特徴量に基づいて結合力を出力させる予測モデルであって、特徴量を説明変数とし結合力を教師データとした機械学習により構成されたニューラルネットワークを備え、入力された特徴量に対し学習済みの重み付け係数に基づく演算を行い、結合力を出力させる。付記18に係る予測モデル生成方法、及び付記19に係る予測モデルを用いて、「結合力が向上する化合物のスクリーニング(例1、2)」の項で説明したスクリーニングや付記15~17で説明した化合物の創出を行うことができる。なお、図32の(b)部分について上述したのと同様に、付記19に係る予測モデルのニューラルネットワークに対し出力側の層に結合力を与えて出力層から入力層に向けて情報を更新することで、入力層から化合物の特徴量(例えば、第1から第4の態様のいずれか1つに係る特徴量;学習のさせ方に依存する)が出力される。これにより、例えば付記16,17において、結合力の目標値から特徴量を推定することができる。
上述した予測モデルの生成方法、及び生成された予測モデルは毒性予測に応用することができる。ここで「毒性」として、例えばhERG阻害(hERG:Human Ether-a-go-go Related Gene)、CYP阻害(CYP:Cytochrome P450)を挙げることができる。hERG、CYPは生体高分子なので、生体高分子をターゲットとした特徴量を用いることにより、hERG阻害、CYP阻害を予測することができる。具体的には、hERG阻害による毒性の回避は、hERGとの結合力を「下げる」(基準となる化合物の結合力よりも下げる、結合力を目標値よりも下げる等)ことで実現できる。CYP阻害による毒性の回避についても同様である。このような毒性の予測は、毒性の低い化合物のスクリーニングあるいは創出において行うことができる。
付記20に係る化合物創出プログラムは、第15から第17の態様、付記1から17のいずれか1つに係る化合物創出方法をコンピュータに実行させる。付記20に係る化合物創出プログラムのコンピュータ読み取り可能なコードを記録した非一時的記録媒体も、本発明の一態様として挙げることができる。
付記21に係る特徴量算出方法は、化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、対象構造体について複数の単位構造体による立体構造を発生させる立体構造発生工程と、立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出工程と、を有し、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である。なお、以下に説明する付記22から40においては、付記21に係る特徴量算出方法を用いてもよいし、上述した第1~第4の態様に係る特徴量算出方法を用いてもよい。
付記22に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、対象構造体指定工程では対象構造体として結合化合物の構造式と、複数の探索対象化合物の構造式と、を指定し、立体構造発生工程では結合化合物の構造式から結合化合物の立体構造を発生させる方法と、複数の探索対象化合物の構造式から複数の探索対象化合物の立体構造を発生させる方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化して特徴量を算出する方法と、を指定する。付記22に係るスクリーニング方法はさらに、結合化合物の特徴量と複数の探索対象化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、結合化合物の立体構造に基づいて、複数の化合物から、特徴量が結合化合物についての特徴量としきい値以上の類似度である化合物を抽出する工程と、を有する。
付記23に係る化合物創出方法は、付記21に係る特徴量算出方法を用いた化合物創出方法であって、対象構造体指定工程では対象構造体として結合化合物の構造式を指定し、立体構造発生工程では結合化合物の構造式から結合化合物の立体構造を発生させる方法と、創出する化合物の立体構造の生成方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化して結合化合物の特徴量を算出する方法と、を指定する。付記23に係る化合物創出方法はさらに、結合化合物の特徴量と他の化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、結合化合物の特徴量との類似度がしきい値以上である特徴量を有する化合物の立体構造を発生させる工程と、を有する。
付記24に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、対象構造体指定工程では生体高分子の活性部位の立体構造と、複数の探索対象化合物の構造式と、を指定し、立体構造発生工程では活性部位に結合するポケット構造体の立体構造を発生させる方法と、複数の探索対象化合物の構造式から複数の探索対象化合物の立体構造を発生させる方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、ポケット構造体に対するプローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記24に係るスクリーニング方法はさらに、ポケット構造体の特徴量と複数の探索対象化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、生体高分子の活性部位の立体構造に基づいて、複数の探索対象化合物から、特徴量が生体高分子についての特徴量としきい値以上の類似度である化合物を抽出する工程と、を有する。図61は付記24に係るスクリーニング方法の処理を示すフローチャートであり、これらの処理により、例えば生体高分子の活性部位の立体構造から、その活性部位に適合する化合物を、既存の化合物群(複数の探索対象化合物)からスクリーニングすることができる。
付記25に係る化合物創出方法は、付記21に係る特徴量算出方法を用いた化合物創出方法であって、対象構造体指定工程では対象構造体として生体高分子の活性部位の構造式を指定し、立体構造発生工程では活性部位に結合するポケット構造体の立体構造を発生させる方法と、創出する化合物の立体構造の生成方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、ポケット構造体に対するプローブの集積度合いを定量化する方法と、プローブの集積度合いを定量化してポケット構造体の特徴量を算出する方法と、を指定する。付記25に係る化合物創出方法はさらに、ポケット構造体の特徴量と化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、ポケット構造体の特徴量との類似度がしきい値以上である特徴量を有する化合物の立体構造を発生させる工程と、を有する。図62は付記25に係る化合物創出方法の処理を示すフローチャートであり、これらの処理により、例えば生体高分子の活性部位の立体構造から、その活性部位に適合する化合物を、逆問題を解くことにより新たに創出することができる。
付記26に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、対象構造体指定工程では複数の結合化合物の構造式と、複数の探索対象化合物の構造式と、を指定し、立体構造発生工程では複数の結合化合物の立体構造を発生させる方法と、複数の探索対象化合物の立体構造を発生させる方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、複数の結合化合物のそれぞれに対するプローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記26に係るスクリーニング方法はさらに、複数の結合化合物のそれぞれについての結合力の値を入力する工程と、複数の結合化合物についての構造式と結合力の値との組から化合物の結合力の予測モデルを生成する方法を指定する工程と、結合力の目標値を指定する工程と、複数の探索対象化合物から、予測モデルを用いて目標値の結合力を有する化合物を抽出する工程と、を有する。図63は付記26に係るスクリーニング方法の処理を示すフローチャートであり、これらの処理により、例えば複数の化合物の構造式と結合力の値のセット(組)を用いて、目標の結合力を有する化合物を、既存の化合物群(複数の探索対象化合物)からスクリーニングすることができる。なお、付記26において、付記18,19に示す予測モデル生成方法及び予測モデルを用いることができる。
付記27に係る化合物創出方法は、付記21に係る特徴量算出方法を用いた化合物創出方法であって、対象構造体指定工程では複数の結合化合物の構造式を指定し、立体構造発生工程では複数の結合化合物の立体構造を発生させる方法と、創出する化合物の立体構造の生成方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記27に係る化合物創出方法はさらに、複数の結合化合物のそれぞれについての結合力の値を指定する工程と、複数の結合化合物についての構造式と結合力の値との組から化合物の結合力の予測モデルを生成する方法を指定する工程と、結合力の目標値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、結合力が目標値以上である化合物の立体構造を発生させる工程と、を有する。図64は付記27に係る化合物創出方法の処理を示すフローチャートであり、これらの処理により、例えば複数の化合物の構造式と結合力の値のセット(組)を用いて、目標の結合力を有する化合物を、逆問題を解くことにより新たに創出することができる。なお、付記27において、付記18,19に示す予測モデル生成方法及び予測モデルを用いることができる。
付記28に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であり、対象構造体指定工程では複数の探索対象化合物の構造式を指定し、立体構造発生工程では複数の探索対象化合物の構造式から複数の探索対象化合物の立体構造を発生させる方法を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化して特徴量を算出する方法と、を指定する。付記28に係るスクリーニング方法はさらに、結合化合物の立体構造を示す情報を入力する工程と、結合化合物の特徴量と複数の探索対象化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、結合化合物の立体構造に基づいて、複数の化合物から、特徴量が結合化合物についての特徴量としきい値以上の類似度である化合物を抽出する工程と、を有する。付記28に係るスクリーニング方法は付記22に係るスクリーニング方法を改変したものであり、結合化合物の構造式に代えて結合化合物の立体構造を入力する。このため、付記21に係る特徴量算出方法の工程のうち、結合化合物については立体構造を発生させるための工程(対象構造体指定工程と立体構造発生工程)は不要である。付記28によっても、付記22と同様に一つの結合化合物の立体構造から、その結合化合物と同じ結合力を持つ化合物を、既存の化合物群(複数の探索対象化合物)からスクリーニングすることができる。
付記29に係る化合物創出方法は、特徴量算出方法を用いた化合物創出方法である。付記29で用いる特徴量算出方法は、対象構造体について複数の単位構造体による立体構造を発生させる立体構造発生工程と、立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出工程と、を有し、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である。付記29に係る化合物創出方法は、結合化合物の立体構造を示す情報を入力する工程をさらに有し、立体構造発生工程では創出する化合物の立体構造の生成方法を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化して結合化合物の特徴量を算出する方法と、を指定する。付記29に係る化合物創出方法はさらに、結合化合物の特徴量と他の化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、結合化合物の特徴量との類似度がしきい値以上である特徴量を有する化合物の立体構造を発生させる工程と、を有する。付記29に係る化合物創出方法は付記23に係る化合物創出方法を改変したものであり、結合化合物の構造式に代えて結合化合物の立体構造を入力する。このため、結合化合物については、立体構造を発生させるための工程(対象構造体指定工程と立体構造発生工程)は不要である。付記29によっても、付記23と同様に一つの結合化合物の立体構造から、その結合化合物と同じ結合力を持つ化合物を、逆問題を解くことにより新たに創出することができる。
付記30に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、生体高分子の立体構造を示す情報を入力する工程と、情報に基づいて生体高分子の活性部位を特定する工程と、を有し、対象構造体指定工程では複数の探索対象化合物の構造式を指定し、立体構造発生工程では活性部位に結合するポケット構造体の立体構造を発生させる方法と、複数の探索対象化合物の構造式から複数の探索対象化合物の立体構造を発生させる方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、ポケット構造体に対するプローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記30に係るスクリーニング方法はさらに、ポケット構造体の特徴量と複数の探索対象化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、生体高分子の活性部位の立体構造に基づいて、複数の探索対象化合物から、特徴量が生体高分子についての特徴量としきい値以上の類似度である化合物を抽出する工程と、を有する。付記30に係るスクリーニング方法は付記24に係るスクリーニング方法を改変したものであり、生体高分子の活性部位の立体構造に代えて生体高分子の立体構造を入力する。このため、付記30に係るスクリーニング方法は「生体高分子の立体構造を示す情報に基づいて、生体高分子の活性部位を特定する工程」を有する。付記30によっても、付記24と同様に生体高分子の立体構造から、その活性部位に適合する化合物を、既存の化合物群(複数の探索対象化合物)からスクリーニングすることができる。
付記31に係る化合物創出方法は、付記21に係る特徴量算出方法を用いた化合物創出方法であり、生体高分子の立体構造を示す情報を入力する工程と、情報に基づいて生体高分子の活性部位を特定する工程と、を有し、対象構造体指定工程では生体高分子の活性部位の立体構造を指定し、立体構造発生工程では活性部位に結合するポケット構造体の立体構造を発生させる方法と、創出する化合物の立体構造の生成方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、ポケット構造体に対するプローブの集積度合いを定量化する方法と、プローブの集積度合いを定量化してポケット構造体の特徴量を算出する方法と、を指定する。付記31に係る化合物創出方法はさらに、ポケット構造体の特徴量と化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、ポケット構造体の特徴量との類似度がしきい値以上である特徴量を有する化合物の立体構造を発生させる工程と、を有する。付記31に係る化合物創出方法は付記25に係る化合物創出方法を改変したものであり、生体高分子の活性部位の立体構造に代えて生体高分子の立体構造を入力する。このため、付記31に係る化合物創出方法は「生体高分子の立体構造を示す情報に基づいて、生体高分子の活性部位を特定する工程」を有する。付記31によっても、付記25と同様に生体高分子の立体構造から、その活性部位に適合する化合物を、逆問題を解くことにより新たに創出することができる。
付記32に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、生体高分子の一次配列を示す情報を入力する工程と、情報に基づいて生体高分子の立体構造を発生させる工程と、立体構造に基づいて生体高分子の活性部位を特定する工程と、を有し、対象構造体指定工程では複数の探索対象化合物の構造式を指定し、立体構造発生工程では活性部位に結合するポケット構造体の立体構造を発生させる方法と、複数の探索対象化合物の構造式から複数の探索対象化合物の立体構造を発生させる方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、ポケット構造体に対するプローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記32に係るスクリーニング方法はさらに、ポケット構造体の特徴量と複数の探索対象化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、生体高分子の活性部位の立体構造に基づいて、複数の探索対象化合物から、特徴量が生体高分子についての特徴量としきい値以上の類似度である化合物を抽出する工程と、を有する。付記32に係るスクリーニング方法は付記24に係るスクリーニング方法を改変したものであり、生体高分子の活性部位の立体構造に代えて生体高分子の一次配列を入力する。このため、付記32に係るスクリーニング方法は「生体高分子の一次配列を示す情報に基づいて、生体高分子の立体構造を発生させる工程」と「生体高分子の立体構造に基づいて生体高分子の活性部位を特定する工程」とを有する。付記32によっても、付記24と同様に生体高分子の一次配列情報から、その活性部位に適合する化合物を、既存の化合物群(複数の探索対象化合物)からスクリーニングすることができる。
付記33に係る化合物創出方法では、対象構造体について立体構造を発生させる立体構造発生工程と、立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出工程と、を有し、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である特徴量算出方法を用いる。また、付記33に係る化合物創出方法は、生体高分子の一次配列を示す情報を入力する工程と、情報に基づいて生体高分子の立体構造を発生させる工程と、立体構造に基づいて生体高分子の活性部位を特定する工程と、を有し、立体構造発生工程では活性部位に結合するポケット構造体の立体構造を発生させる方法と、創出する化合物の立体構造の生成方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、ポケット構造体に対するプローブの集積度合いを定量化する方法と、プローブの集積度合いを定量化してポケット構造体の特徴量を算出する方法と、を指定する。付記33に係る化合物創出方法はさらに、ポケット構造体の特徴量と化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、ポケット構造体の特徴量との類似度がしきい値以上である特徴量を有する化合物の立体構造を発生させる工程と、を有する。
付記34に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、複数の結合化合物について立体構造を入力する工程を有し、対象構造体指定工程では複数の探索対象化合物の構造式と、を指定し、立体構造発生工程では複数の探索対象化合物の立体構造を発生させる方法と、を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、複数の結合化合物のそれぞれに対するプローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記34に係るスクリーニング方法はさらに、複数の結合化合物のそれぞれについての結合力の値を指定する工程と、複数の結合化合物についての立体構造と結合力の値との組から化合物の結合力の予測モデルを生成する方法を指定する工程と、結合力の目標値を指定する工程と、複数の探索対象化合物から、予測モデルを用いて目標値の結合力を有する化合物を抽出する工程と、を有する。
付記35に係る化合物創出方法では、対象構造体について立体構造を発生させる立体構造発生工程と、立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出工程と、を有し、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である特徴量算出方法を用いる。また、付記35に係る化合物創出方法は、複数の結合化合物のそれぞれについて立体構造を示す情報を入力する工程を有し、立体構造発生工程では創出する化合物の立体構造の生成方法を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化する方法と、集積度合いに基づいて特徴量を算出する方法と、を指定する。付記35に係る化合物創出方法はさらに、複数の結合化合物のそれぞれについての結合力の値を指定する工程と、複数の結合化合物についての立体構造と結合力の値との組から化合物の結合力の予測モデルを生成する方法を指定する工程と、結合力の目標値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、結合力が目標値以上である化合物の立体構造を発生させる工程と、を有する。
付記36に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、結合化合物について特徴量を入力する工程を有し、対象構造体指定工程では複数の探索対象化合物の構造式を指定し、立体構造発生工程では複数の探索対象化合物の構造式から複数の探索対象化合物の立体構造を発生させる方法を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化して特徴量を算出する方法と、を指定する。付記36に係るスクリーニング方法はさらに、結合化合物の特徴量と複数の探索対象化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、複数の化合物から、特徴量が化合物についての特徴量としきい値以上の類似度である化合物を抽出する工程と、を有する。付記36に係るスクリーニング方法は付記22に係るスクリーニング方法を改変したもので、結合化合物の構造式ではなく特徴量を入力する。このため、結合化合物については、付記21に係る特徴量算出方法の各工程(対象構造体指定工程、立体構造発生工程、及び特徴量算出工程)は不要である。付記36に係るスクリーニング方法によっても、付記22と同様に一つの結合化合物の特徴量から、その結合化合物と同じ結合力を持つ化合物を、既存の化合物群(複数の探索対象化合物)からスクリーニングすることができる。
付記37に係る化合物創出方法では、対象構造体について立体構造を発生させる立体構造発生工程と、立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出工程と、を有し、プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である特徴量算出方法を用いる。また、付記37に係る化合物創出方法は、結合化合物について特徴量を入力する工程を有し、立体構造発生工程では創出する化合物の立体構造の生成方法を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、プローブの集積度合いを定量化して結合化合物の特徴量を算出する方法と、を指定する。付記37に係る化合物創出方法はさらに、結合化合物の特徴量と他の化合物の特徴量との類似度の算出方法を指定する工程と、類似度のしきい値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、結合化合物の特徴量との類似度がしきい値以上である特徴量を有する化合物の立体構造を発生させる工程と、を有する。
付記38に係るスクリーニング方法は、付記21に係る特徴量算出方法を用いたスクリーニング方法であって、結合化合物についての特徴量を入力する工程を有し、対象構造体指定工程では複数の探索対象化合物の構造式を指定し、立体構造発生工程では複数の探索対象化合物の立体構造を発生させる方法を指定し、特徴量算出工程ではプローブの構造式と、プローブの構造式からプローブの立体構造を発生させる方法と、を指定する。付記38に係るスクリーニング方法はさらに、複数の結合化合物のそれぞれについての結合力の値を指定する工程と、複数の結合化合物についての特徴量と結合力の値との組から化合物の結合力の予測モデルを生成する方法を指定する工程と、結合力の目標値を指定する工程と、複数の探索対象化合物から、予測モデルを用いて目標値の結合力を有する化合物を抽出する工程と、を有する。
付記39に係る化合物創出方法は、付記21に係る特徴量算出方法を用いた化合物創出方法であって、複数の結合化合物についての特徴量を入力する工程を有し、立体構造発生工程では創出する化合物の立体構造の生成方法を指定する。付記39に係る化合物創出方法はさらに、複数の結合化合物のそれぞれについて特徴量及び結合力の値を指定する工程と、複数の結合化合物についての特徴量と結合力の値との組から化合物の結合力の予測モデルを生成する方法を指定する工程と、結合力の目標値を指定する工程と、特徴量に基づいて化合物の立体構造を発生させる際の条件を指定する工程と、生成方法及び条件の下で、結合力が目標値以上である化合物の立体構造を発生させる工程と、を有する。付記39に係る化合物創出方法は付記27に係る化合物創出方法を改変したもので、結合化合物の構造式ではなく特徴量を入力する。このため、結合化合物については、付記21に係る特徴量算出方法の各工程(対象構造体指定工程、立体構造発生工程、及び特徴量算出工程)は不要である。付記39に係る化合物創出方法によっても、付記27と同様に複数の化合物の特徴量と結合力の値のセット(組)を用いて、目標の結合力を有する化合物を、逆問題を解くことにより新たに創出することができる。なお、付記39においても、付記18,19に示す予測モデル生成方法及び予測モデルを用いることができる。
付記40に係る化合物情報処理方法は、付記21に係る特徴量算出方法を用いた化合物情報処理方法であって、対象構造体指定工程では対象構造体として化合物を指定し、立体構造発生工程では複数の原子による化合物の立体構造を発生させ、特徴量算出工程では、立体構造発生工程で発生させた化合物の立体構造の周辺における、プローブとしてのアミノ酸の集積度合いを3次元空間において定量化した特徴量である第1の特徴量を算出する。付記40に係る化合物情報処理方法はさらに、化合物に対するアミノ酸の集積度合いを、複数のタンパク質についての立体構造を示す情報が格納されたデータベースと照合する工程と、照合に基づいて複数のタンパク質から化合物が結合する標的タンパク質の候補を抽出する工程であって、化合物についてのアミノ酸の集積度合いとタンパク質のポケットを含む領域におけるアミノ酸の分布パターンとの一致度に基づいて標的タンパク質の候補を抽出する工程と、を有する。タンパク質のデータベースとしては例えばPDB(Protein Data Bank)を用いることができるが、この例に限定されるものではない。
(1)1つの化合物に対する情報の出力例
付記22から27に係るスクリーニング方法及び化合物創出方法において、化合物の構造式や他の記述子(特徴量)と併せて、各アミノ酸の集積度合いを図や数値として示すことができる。例えば、図66に示すように、化合物の名前、構造式、及び立体構造と対応させて、本発明に係る特徴量算出方法により算出した各アミノ酸の集積度合いを3次元的に示すことができる。また、図67に示すように、各アミノ酸の集積度合いを選択原子群(図67の右端列において丸印及び矢印で示した部分)の持ち分について表示することができる。
結合化合物や生体高分子の活性部位、及びスクリーニングや創出の対象となる化合物の差を見やすくするための出力態様として以下の例が考えられる。例えば、「各アミノ酸の集積度合いの差分を類似度として表現して提示する」、あるいは「各アミノ酸の集積度合いの差分を図や数値として提示する」、といった態様が考えられる。また、「各アミノ酸の集積度合いの差分をとり、一致している集積度合いの部分を検出し、原子ごとの持ち分の集積度合いと照合することで、一致している集積度合いの部分に対応する原子を特定し、その原子を構造式上に提示する」、といった態様も考えられる。また、逆問題を解くことによる立体構造の創出において、化合物の構造式の他、各アミノ酸の集積度合いが徐々に結合化合物や生体高分子の活性部位の集積度合いに近づいていく様子を提示することが考えられる。図74は、目標化合物(図中の“lig001”)に対し、スクリーニング化合物(“lig002”等)の各アミノ酸の集積度合いの差分を類似度として表現した例を示す図である。
複数の結合化合物と結合力の値のセットからの、結合力向上のためのスクリーニング、創出に関する情報の出力について説明する。例えば、図75に示すように、結合力の予測モデルの性能(実測と予測の対応、R2等)を提示することが考えられる。また、結合力にとって重要だった要因を、各アミノ酸の集積度合いや構造式の部分として提示することが考えられる。また、化合物の結合力の予測値を出力することも考えられる。
上述の(1)~(3)の態様により、ユーザはアミノ酸(プローブ)の集積度合いやこれに関連する情報を視覚により容易に把握することができるが、出力の際に、アミノ酸の全情報を出力するのではなく、各アミノ酸を親水性か疎水性か、あるいは中性か塩基性か酸性か、といった素性ごとにグループ分けし、それぞれで平均化した結果を出力することが考えらえる。
付記41に係る化合物探索サーバは、第1の化合物の立体構造を示す第1の情報と、探索対象となる複数の化合物を特定する第2の情報と、をクライアント装置から受信する受信部と、第1の化合物について第1から第4の態様のいずれか1つに係る特徴量算出方法で算出した特徴量と、複数の化合物についての特徴量と、に基づいて、複数の化合物から、第1の化合物についての特徴量との類似度が指定された範囲である目標特徴量を有する標的化合物を抽出する抽出部と、標的化合物の立体構造を示す第3の情報をクライアント装置に送信する送信部と、を備える。
付記42に係るクライアント装置は、第1の情報及び第2の情報を付記41に係る化合物探索サーバに送信する送信部と、第3の情報を化合物探索サーバから受信する受信部と、第3の情報を出力する出力部と、を備える。また、第1の情報及び第2の情報を付記41に係る化合物探索サーバに送信する送信機能と、第3の情報を化合物探索サーバから受信する受信機能と、第3の情報を出力する出力機能と、をコンピュータに実行させるプログラムや、そのプログラムのコンピュータ読み取り可能なコードが記録された非一時的記録媒体も、付記42の変形例として挙げることができる。
付記43に係る化合物探索システムは、付記41に係る化合物探索サーバと、付記42に係るクライアント装置と、を含む。
図76は付記41~43に係る化合物探索システム700(化合物探索システム)の構成を示す図である。化合物探索システム700は、化合物探索サーバ710(化合物探索サーバ)及びクライアント装置730(クライアント装置)を含み、これらがネットワークNWで接続されて構成されている。化合物探索サーバ710は、タンパク質やその他化合物の立体構造、特性(例えば特徴量、結合力、物性値、特性値)等が格納されたデータベース720を有する。化合物探索サーバ710は、PDB等の既存のデータベースにアクセスしてもよい。また、化合物探索サーバ710は、図77の機能ブロック図に示すように、受信部712(受信部)と、抽出部714(抽出部)と、送信部716(送信部)と、を備える。一方、図76,72に示すように、クライアント装置730の処理部740は送信部742(送信部)と、受信部744(受信部)と、出力部(746)と、を備える。これらの機能は、第1の実施形態について上述したようにCPU等のプロセッサを1つ以上用いて実現することができ、そのプロセッサが付記41に係る処理を実行する。クライアント装置730や、後述する他の付記についても同様である。
付記44に係る化合物創出サーバは、第1の化合物の立体構造を示す第1の情報をクライアント装置から受信する受信部と、第1の情報に基づいて、第1の化合物について第1から第4の態様のいずれか1つに係る特徴量算出方法を用いて特徴量を算出する算出部と、特徴量と付記15から17,23,25,27,29,31,33,35,37,39のうちいずれか1つに係る化合物創出方法とに基づいて、目標特徴量を有する第2の化合物であって、目標特徴量が特徴量に対し指定された範囲である第2の化合物の立体構造を示す第2の情報を生成する生成部と、第2の情報をクライアント装置に送信する送信部と、を備える。
付記45に係るクライアント装置は、第1の化合物の立体構造を示す第1の情報を付記44に係る化合物創出サーバに送信する送信部と、化合物創出サーバから第2の情報を受信する受信部と、第2の情報を出力する出力部と、を備える。
付記46に係る化合物創出システムは、付記44に係る化合物創出サーバと、付記45に係るクライアント装置と、を含む。
付記44~46に係る化合物創出システムは付記41~43に係る化合物探索システム700(化合物探索システム)と同様の構成(サーバとクライアント装置がネットワークを介して接続された構成;図76を参照)を採用することができる。ここで、図79の機能ブロック図に示すように、付記44に係る化合物創出サーバ710A(化合物創出サーバ)は、受信部712(受信部)と、送信部716(送信部)と、算出部717(算出部)と、生成部718(生成部)と、を有する。化合物創出システムにおけるクライアント装置は、図76に示すクライアント装置730と同様の構成を用いることができる。
付記47に係る化合物探索サーバは、複数の化合物についての立体構造を示す第1の情報及び結合力を示す第2の情報と、複数の探索対象化合物の立体構造を特定する第3の情報と、をクライアント装置から受信する受信部と、複数の化合物についての第1の情報及び第2の情報から、第1から第4の態様のいずれか1つに係る特徴量算出方法に係る特徴量に基づいて化合物の結合力を出力する予測モデルを生成する生成部と、複数の探索対象化合物のそれぞれについて、第3の情報に基づいて、第1から第4の態様のいずれか1つに係る特徴量算出方法により特徴量を算出する算出部と、複数の探索対象化合物のそれぞれについて、算出した特徴量を予測モデルに適用して結合力を推定する推定部と、複数の探索対象化合物から、複数の化合物についての結合力より高い結合力を有する化合物を抽出する抽出部と、抽出した化合物の立体構造を示す情報及び抽出した化合物の結合力を示す情報をクライアント装置に送信する送信部と、を有する。
付記48に係るクライアント装置は、複数の化合物についての立体構造を示す第1の情報及び結合力を示す第2の情報と、複数の探索対象化合物の立体構造を特定する第3の情報と、を付記47に係る化合物探索サーバに送信する送信部と、化合物探索サーバが抽出した、化合物の立体構造を示す情報及び抽出した化合物の結合力を示す情報を化合物探索サーバから受信する受信部と、化合物の立体構造を示す情報及び抽出した化合物の結合力を示す情報を出力する出力部と、を備える。
付記49に係る化合物探索システムは、付記47に係る化合物探索サーバと、付記48に係るクライアント装置と、を含む。
付記47~49に係る化合物探索システムは付記41~43に係る化合物探索システム700(化合物探索システム)と同様の構成(サーバとクライアント装置がネットワークを介して接続された構成;図76を参照)を採用することができる。ここで、図80の機能ブロック図に示すように、付記47に係る化合物探索サーバ710B(化合物探索サーバ)は、受信部712(受信部)と、抽出部714(抽出部)と、送信部716(送信部)と、算出部717(算出部)と、生成部718(生成部)と、推定部719(推定部)と、を有する。化合物探索システムにおけるクライアント装置は、図76に示すクライアント装置730と同様の構成を用いることができる。
付記50に係る化合物創出サーバは、複数の化合物についての立体構造を示す第1の情報及び結合力を示す第2の情報をクライアント装置から受信する受信部と、複数の化合物についての第1の情報及び第2の情報から、第1から第4の態様のいずれか1つに係る特徴量算出方法に係る特徴量に基づいて化合物の結合力を出力する予測モデルを生成する生成部と、予測モデルと付記15から17,23,25,27,29,31,33,35,37,39のうちいずれか1つに係る化合物創出方法とに基づいて、複数の化合物についての結合力より高い結合力を有する化合物の立体構造を示す情報を生成する生成部と、生成した情報及び生成した情報に対応する化合物の結合力を示す情報をクライアント装置に送信する送信部と、を有する。
付記51に係るクライアント装置は、複数の化合物についての立体構造を示す第1の情報及び結合力を示す第2の情報を付記50に係る化合物創出サーバに送信する送信部と、化合物創出サーバが生成した化合物の立体構造を示す情報及び生成した情報に対応する化合物の結合力を示す情報を化合物創出サーバから受信する受信部と、化合物創出サーバから受信した立体構造を示す情報及び結合力を示す情報を出力する出力部と、を備える。
付記52に係る化合物創出システムは、付記50に係る化合物創出サーバと、付記51に係るクライアント装置と、を含む。
上述した構成により、付記50~52に係る化合物創出システムのクライアント装置のユーザは、自らが指定した化合物より高い結合力を有する既存あるいは新規な化合物の構造式や、その結合力の値を受け取ることができる。化合物探索サーバ710の所有者等のサービス提供者が、構造式等を提供する化合物の現物(実際の化合物)を合成してユーザに提供してもよい。
20 化合物創出装置
30 医薬候補化合物探索装置
100 処理部
101 処理部
102 処理部
103 処理部
104 処理部
105 処理部
110 情報入力部
120 特徴量算出部
122 特徴量算出部
130 類似度算出部
132 生成器構築部
133 結合力予測部
134 特性値算出部
136 構造特徴量算出部
140 化合物抽出部
142 化合物立体構造生成部
150 表示制御部
160 CPU
170 ROM
180 RAM
200 記憶部
201 記憶部
202 記憶部
210 構造情報
220 立体構造情報
230 3次元AAM記述子
240 不変量化AAM記述子
250 類似度情報
260 化合物抽出結果
270 立体構造生成結果
300 表示部
310 モニタ
400 操作部
410 キーボード
420 マウス
500 外部サーバ
510 外部データベース
600 階層型ネットワーク
610 入力層
620 中間層
622 第1の中間層
624 第2の中間層
625 層
627 層
630 出力層
700 化合物探索システム
710 化合物探索サーバ
710A 化合物創出サーバ
710B 化合物探索サーバ
712 受信部
714 抽出部
716 送信部
717 算出部
718 生成部
719 推定部
720 データベース
730 クライアント装置
740 処理部
742 送信部
744 受信部
750 記憶部
760 操作部
762 キーボード
764 マウス
770 表示部
772 モニタ
A1 アミノ酸
A2 アミノ酸
A3 アミノ酸
AA2AR タンパク質
ABL1 タンパク質
C0 化合物
C1 化合物
C2 化合物
C3 化合物
C4 化合物
C5 化合物
C6 化合物
NW ネットワーク
PO ポケット
PS ポケット構造体
S100~S108 特徴量算出方法の各ステップ
S200~S206 特徴量算出方法の各ステップ
S300~S304 標的化合物抽出方法の各ステップ
S310~S326 スクリーニング方法の各ステップ
S400~S404 標的化合物抽出方法の各ステップ
S500~S504 立体構造創出方法の各ステップ
S600~S604 立体構造創出方法の各ステップ
TP 標的タンパク質
Claims (21)
- プロセッサを備える特徴量算出装置により実行される特徴量算出方法であって、
前記プロセッサは、
化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、
前記対象構造体の立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出工程であって、機械学習により構成された生成器を用いて前記対象構造体から前記特徴量を算出する特徴量算出工程と、
を実行し、
前記プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体であり、
前記生成器は、
前記対象構造体の前記立体構造を示す情報が入力されると前記対象構造体についての前記特徴量を算出する生成器であり、
前記対象構造体の前記立体構造を示す前記情報を教師データとし、前記特徴量を説明変数とした学習用データセットを用いた機械学習により構築された生成器であり、
前記プロセッサは、前記特徴量算出工程において、前記対象構造体の前記立体構造を示す前記情報を前記生成器に入力して前記特徴量を算出する、
特徴量算出方法。 - 前記プロセッサは、
前記対象構造体指定工程では前記対象構造体として化合物を指定し、
前記特徴量算出工程では、前記化合物の前記立体構造を示す前記情報を前記生成器に入力して、前記化合物の前記立体構造の周辺における、前記プローブとしてのアミノ酸の集積度合いを前記3次元空間において定量化した特徴量である第1の特徴量を算出する請求項1に記載の特徴量算出方法。 - 前記プロセッサは、
前記対象構造体指定工程では、標的タンパク質の活性部位であるポケットに結合するポケット構造体を前記対象構造体として指定し、
前記特徴量算出工程では、前記ポケット構造体の前記立体構造を示す前記情報を前記生成器に入力して、複数の仮想的球体による前記ポケット構造体の立体構造の周辺における、前記プローブとしてのアミノ酸の集積度合いを前記3次元空間において定量化した特徴量である第2の特徴量を算出する請求項1に記載の特徴量算出方法。 - 前記プロセッサは、
前記対象構造体指定工程では前記対象構造体として化合物を指定し、
前記特徴量算出工程では、前記化合物の前記立体構造を示す前記情報を前記生成器に入力して、前記化合物の前記立体構造の周辺における前記プローブの集積度合いであって、1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、複数の原子で構成される1種類以上のイオンのうち1つ以上を前記プローブとした集積度合いを前記3次元空間において定量化した特徴量である第3の特徴量を算出する請求項1に記載の特徴量算出方法。 - 前記生成器はニューラルネットワークを用いて構築された生成器である請求項1から4のいずれか1項に記載の特徴量算出方法。
- 前記対象構造体の前記立体構造を示す前記情報は前記対象構造体の3次元画像または構造式である請求項1から5のいずれか1項に記載の特徴量算出方法。
- 請求項1から6のいずれか1項に記載の特徴量算出方法をコンピュータに実行させる特徴量算出プログラム。
- 非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項7に記載の特徴量算出プログラムをコンピュータに実行させる記録媒体。
- 化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定部と、
前記対象構造体の立体構造の周辺における1種類以上のプローブの集積度合いを3次元空間において定量化した特徴量を算出する特徴量算出部であって、機械学習により構成された生成器を用いて前記対象構造体から前記特徴量を算出する特徴量算出部と、
を備え、
前記プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体であり、
前記生成器は、
前記対象構造体の前記立体構造を示す情報が入力されると前記対象構造体についての前記特徴量を算出する生成器であり、
前記対象構造体の前記立体構造を教師データとし、前記特徴量を説明変数とした学習用データセットを用いた機械学習により構築された生成器であり、
前記特徴量算出部は、前記対象構造体の前記立体構造を示す前記情報を前記生成器に入力して前記特徴量を算出し、
前記特徴量算出部は、前記対象構造体の前記立体構造を示す前記情報を前記生成器に入力して前記特徴量を算出する、
特徴量算出装置。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物を抽出するスクリーニング方法であって、
前記プロセッサは、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項2に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて請求項2に記載の特徴量算出方法を用いて前記第1の特徴量を算出する特徴量算出工程と、
前記複数の化合物についての前記第1の特徴量と前記リガンドについての前記第1の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から、前記類似度が目標値を満たす化合物を前記標的化合物として抽出し、または前記類似度が高い順に、決められた数の化合物を前記標的化合物として抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物を抽出するスクリーニング方法であって、
前記プロセッサは、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項2に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質のポケット構造体について、請求項3に記載の特徴量算出方法を用いて前記第2の特徴量を算出する特徴量算出工程と、
前記複数の化合物についての前記第1の特徴量と前記ポケット構造体についての前記第2の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から、前記類似度が目標値を満たす化合物を前記標的化合物として抽出し、または前記類似度が高い順に、決められた数の化合物を前記標的化合物として抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、
前記プロセッサは、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項4に記載の特徴量算出方法を用いて算出した前記第3の特徴量と、を関連付けて記憶する記憶工程と、
前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物について請求項4に記載の特徴量算出方法を用いて前記第3の特徴量を算出する特徴量算出工程と、
前記複数の化合物についての前記第3の特徴量と前記結合化合物についての前記第3の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から、前記類似度が目標値を満たす化合物を前記標的化合物として抽出し、または前記類似度が高い順に、決められた数の化合物を前記標的化合物として抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行されるスクリーニング方法であって、
前記プロセッサは、
前記対象構造体としての複数の化合物について立体構造を示す情報を入力する入力工程と、
前記複数の化合物のそれぞれについて、前記立体構造を示す前記情報に基づいて請求項1から4のいずれか1項に記載の特徴量算出方法により前記特徴量を算出する特徴量算出工程と、
前記複数の化合物のそれぞれについて、前記立体構造を示す前記情報に基づいて、物性を示す物性値及び/または毒性を示す毒性値を算出する特性値算出工程と、
前記複数の化合物から、前記特徴量の類似度が目標値を満たし、かつ前記物性値及び/または前記毒性値が目標値を満たす化合物を抽出する抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行されるスクリーニング方法であって、
前記プロセッサは、
複数の化合物について立体構造を示す情報を入力する入力工程と、
前記複数の化合物のそれぞれについて、前記立体構造を示す前記情報に基づいて請求項1から4のいずれか1項に記載の特徴量算出方法により前記特徴量を算出する第1の特徴量算出工程と、
前記複数の化合物のそれぞれについて、前記立体構造を示す前記情報に基づいて化合物の構造を示す構造特徴量を算出する第2の特徴量算出工程と、
前記複数の化合物のうちから、前記特徴量の類似度が目標値を満たし、かつ前記構造特徴量の類似度がしきい値以下である化合物を抽出する抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行されるスクリーニング方法であって、
前記プロセッサは、
複数の化合物について立体構造を示す情報を入力する入力工程と、
前記複数の化合物のそれぞれについて、前記立体構造を示す前記情報に基づいて請求項1から4のいずれか1項に記載の特徴量算出方法により前記特徴量を算出する特徴量算出工程と、
前記複数の化合物のそれぞれについて、前記特徴量に基づいて他の化合物との結合力を出力する予測モデルを用いて前記結合力を予測する予測工程と、
前記複数の化合物のうちから、前記結合力が目標値を満たす化合物を抽出する抽出工程と、
を実行し、
前記予測モデルは、コンピュータに、化合物の特徴量に基づいて結合力を出力させる予測モデルであって、特徴量を説明変数とし結合力を教師データとした機械学習により構成されたニューラルネットワークを備え、入力された特徴量に対し学習済みの重み付け係数に基づく演算を行い、結合力を出力させる予測モデルであり、
前記プロセッサは、
前記予測工程において、前記ニューラルネットワークに対し入力側の層に前記特徴量を与えて入力層から出力層に向けて演算を行うことで、前記出力層から前記特徴量に対応する前記結合力を出力させる、
スクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行されるスクリーニング方法であって、
前記プロセッサは、
複数の化合物について立体構造を示す情報を入力する入力工程と、
他の化合物との結合力の目標値を設定する設定工程と、
請求項1から4のいずれか1項に記載の特徴量算出方法により算出された特徴量に基づいて前記結合力を出力する予測モデルを用いて、前記目標値に対応する前記特徴量を推定する推定工程と、
前記複数の化合物のそれぞれについて、前記立体構造を示す前記情報に基づいて請求項1から4のいずれか1項に記載の特徴量算出方法により前記特徴量を算出する特徴量算出工程と、
前記算出の結果に基づいて、前記複数の化合物のうちから、前記推定した前記特徴量との類似度がしきい値以上である前記特徴量を有する化合物を抽出する抽出工程と、
を実行し、
前記予測モデルは、コンピュータに、化合物の特徴量に基づいて結合力を出力させる予測モデルであって、特徴量を説明変数とし結合力を教師データとした機械学習により構成されたニューラルネットワークを備え、入力された特徴量に対し学習済みの重み付け係数に基づく演算を行い、結合力を出力させる予測モデルであり、
前記プロセッサは、
前記推定工程において、前記ニューラルネットワークに対し出力側の層に前記結合力の前記目標値を与えて出力層から入力層に向けて演算を行うことで、前記入力層から前記目標値に対応する前記化合物の前記特徴量を出力させる、
スクリーニング方法。 - 請求項10から12のいずれか1項に記載のスクリーニング方法をコンピュータに実行させるスクリーニングプログラム。
- 非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項17に記載のスクリーニングプログラムをコンピュータに実行させる記録媒体。
- プロセッサを備えるスクリーニング装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサは、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項2に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて、請求項2に記載の特徴量算出方法を用いて前記第1の特徴量を算出する特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第1の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記リガンドの前記第1の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサは、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項2に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質のポケット構造体について、請求項3に記載の特徴量算出方法を用いて前記第2の特徴量を算出する特徴量算出工程と、
前記複数の化合物の立体構造を教師データとし、前記第1の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記ポケット構造体の前記第2の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサは、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記第3の特徴量と、を関連付けて記憶する記憶工程と、
前記タンパク質以外の前記標的生体高分子との結合が確認されている化合物である結合化合物について、請求項4に記載の特徴量算出方法を用いて前記第3の特徴量を算出する特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第3の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記結合化合物の前記第3の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078090 | 2019-04-16 | ||
JP2019078090 | 2019-04-16 | ||
PCT/JP2020/015198 WO2020213417A1 (ja) | 2019-04-16 | 2020-04-02 | 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020213417A1 JPWO2020213417A1 (ja) | 2020-10-22 |
JPWO2020213417A5 JPWO2020213417A5 (ja) | 2022-01-20 |
JP7297057B2 true JP7297057B2 (ja) | 2023-06-23 |
Family
ID=72836826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514871A Active JP7297057B2 (ja) | 2019-04-16 | 2020-04-02 | 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20220028499A1 (ja) |
EP (1) | EP3957989A4 (ja) |
JP (1) | JP7297057B2 (ja) |
CN (1) | CN113711035A (ja) |
CA (1) | CA3136930A1 (ja) |
SG (1) | SG11202110812YA (ja) |
WO (1) | WO2020213417A1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220571A (ja) | 2002-12-26 | 2004-08-05 | National Institute Of Advanced Industrial & Technology | タンパク質立体構造予測システム |
JP2007213290A (ja) | 2006-02-09 | 2007-08-23 | Pharma Design Inc | Gpcrに対するペプチド性リガンド候補の予測方法 |
WO2009064015A1 (ja) | 2007-11-12 | 2009-05-22 | In-Silico Sciences, Inc. | インシリコスクリーニング装置、および、インシリコスクリーニング方法 |
US20130046482A1 (en) | 2009-10-19 | 2013-02-21 | Jørgen Ellegaard Andersen | System and method for associating a moduli space with a molecule |
WO2014034577A1 (ja) | 2012-08-27 | 2014-03-06 | 株式会社京都コンステラ・テクノロジーズ | 化合物設計装置、化合物設計方法、及びコンピュータプログラム |
JP2017520868A (ja) | 2014-05-05 | 2017-07-27 | アトムワイズ,インコーポレイテッド | 結合親和性予測システム及び方法 |
JP2019508821A (ja) | 2015-12-31 | 2019-03-28 | サイクリカ インクCyclica Inc. | タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5946045B2 (ja) | 1976-08-10 | 1984-11-10 | ソニー株式会社 | 磁気再生装置 |
US9373059B1 (en) * | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
JP7048065B2 (ja) * | 2017-08-02 | 2022-04-05 | 学校法人立命館 | 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法 |
CN111279419B (zh) * | 2017-10-17 | 2023-10-10 | 富士胶片株式会社 | 特征量计算方法、筛选方法、以及化合物创建方法 |
-
2020
- 2020-04-02 CA CA3136930A patent/CA3136930A1/en active Pending
- 2020-04-02 WO PCT/JP2020/015198 patent/WO2020213417A1/ja unknown
- 2020-04-02 CN CN202080029018.8A patent/CN113711035A/zh active Pending
- 2020-04-02 EP EP20792167.7A patent/EP3957989A4/en active Pending
- 2020-04-02 JP JP2021514871A patent/JP7297057B2/ja active Active
- 2020-04-02 SG SG11202110812YA patent/SG11202110812YA/en unknown
-
2021
- 2021-10-08 US US17/497,349 patent/US20220028499A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220571A (ja) | 2002-12-26 | 2004-08-05 | National Institute Of Advanced Industrial & Technology | タンパク質立体構造予測システム |
JP2007213290A (ja) | 2006-02-09 | 2007-08-23 | Pharma Design Inc | Gpcrに対するペプチド性リガンド候補の予測方法 |
WO2009064015A1 (ja) | 2007-11-12 | 2009-05-22 | In-Silico Sciences, Inc. | インシリコスクリーニング装置、および、インシリコスクリーニング方法 |
US20130046482A1 (en) | 2009-10-19 | 2013-02-21 | Jørgen Ellegaard Andersen | System and method for associating a moduli space with a molecule |
WO2014034577A1 (ja) | 2012-08-27 | 2014-03-06 | 株式会社京都コンステラ・テクノロジーズ | 化合物設計装置、化合物設計方法、及びコンピュータプログラム |
JP2017520868A (ja) | 2014-05-05 | 2017-07-27 | アトムワイズ,インコーポレイテッド | 結合親和性予測システム及び方法 |
JP2019508821A (ja) | 2015-12-31 | 2019-03-28 | サイクリカ インクCyclica Inc. | タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020213417A1 (ja) | 2020-10-22 |
EP3957989A1 (en) | 2022-02-23 |
EP3957989A4 (en) | 2022-10-12 |
WO2020213417A1 (ja) | 2020-10-22 |
SG11202110812YA (en) | 2021-10-28 |
CN113711035A (zh) | 2021-11-26 |
CA3136930A1 (en) | 2020-10-22 |
US20220028499A1 (en) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | DG‐GL: Differential geometry‐based geometric learning of molecular datasets | |
Krone et al. | Visual analysis of biomolecular cavities: State of the art | |
Raza | Application of data mining in bioinformatics | |
JP7209751B2 (ja) | 化合物創出方法 | |
Xia et al. | Protein–ligand binding residue prediction enhancement through hybrid deep heterogeneous learning of sequence and structure data | |
Guo et al. | DeepPSP: a global–local information-based deep neural network for the prediction of protein phosphorylation sites | |
Gattani et al. | StackCBPred: A stacking based prediction of protein-carbohydrate binding sites from sequence | |
Hu et al. | Improving DNA-binding protein prediction using three-part sequence-order feature extraction and a deep neural network algorithm | |
Xu et al. | Protein depth calculation and the use for improving accuracy of protein fold recognition | |
Evteev et al. | Siteradar: utilizing graph machine learning for precise mapping of protein–ligand-binding sites | |
Kim et al. | Pocket extraction on proteins via the Voronoi diagram of spheres | |
Velten et al. | Principles and challenges of modeling temporal and spatial omics data | |
Guo et al. | TRScore: a 3D RepVGG-based scoring method for ranking protein docking models | |
JP7317104B2 (ja) | 特徴量算出方法、特徴量算出プログラム、非一時的記録媒体、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、非一時的記録媒体、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、記録媒体、及び化合物創出装置 | |
JP7297057B2 (ja) | 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 | |
Zhang et al. | Large-scale 3D chromatin reconstruction from chromosomal contacts | |
JP7483913B2 (ja) | 特徴量算出方法、スクリーニング方法、及び化合物創出方法 | |
Tarafder et al. | RBSURFpred: modeling protein accessible surface area in real and binary space using regularized and optimized regression | |
Xu et al. | Protein–protein interaction prediction based on Spectral Radius and general regression neural network | |
Kumar et al. | Bioinformatics in drug design and delivery | |
Chen et al. | ClusterX: a novel representation learning-based deep clustering framework for accurate visual inspection in virtual screening | |
Alnabati et al. | MarkovFit: Structure Fitting for Protein Complexes in Electron Microscopy Maps Using Markov Random Field | |
Azher et al. | Spatial Omics Driven Crossmodal Pretraining Applied to Graph-based Deep Learning for Cancer Pathology Analysis | |
CN115966249B (zh) | 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置 | |
Serafimova et al. | Using machine learning in accuracy assessment of knowledge-based energy and frequency base likelihood in protein structures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211020 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221228 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7297057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |