JP7483913B2 - 特徴量算出方法、スクリーニング方法、及び化合物創出方法 - Google Patents
特徴量算出方法、スクリーニング方法、及び化合物創出方法 Download PDFInfo
- Publication number
- JP7483913B2 JP7483913B2 JP2022553977A JP2022553977A JP7483913B2 JP 7483913 B2 JP7483913 B2 JP 7483913B2 JP 2022553977 A JP2022553977 A JP 2022553977A JP 2022553977 A JP2022553977 A JP 2022553977A JP 7483913 B2 JP7483913 B2 JP 7483913B2
- Authority
- JP
- Japan
- Prior art keywords
- compound
- feature
- target
- candidate
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims description 683
- 238000000034 method Methods 0.000 title claims description 296
- 238000004364 calculation method Methods 0.000 title claims description 242
- 238000012216 screening Methods 0.000 title claims description 108
- 108090000623 proteins and genes Proteins 0.000 claims description 141
- 102000004169 proteins and genes Human genes 0.000 claims description 141
- 239000000126 substance Substances 0.000 claims description 140
- 230000008569 process Effects 0.000 claims description 134
- 150000001413 amino acids Chemical class 0.000 claims description 91
- 239000000523 sample Substances 0.000 claims description 73
- 230000008859 change Effects 0.000 claims description 60
- 239000003446 ligand Substances 0.000 claims description 57
- 238000000605 extraction Methods 0.000 claims description 49
- 229920001222 biopolymer Polymers 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 102000039446 nucleic acids Human genes 0.000 claims description 13
- 108020004707 nucleic acids Proteins 0.000 claims description 13
- 150000007523 nucleic acids Chemical class 0.000 claims description 13
- 150000002500 ions Chemical class 0.000 claims description 11
- 150000002632 lipids Chemical class 0.000 claims description 6
- 150000002772 monosaccharides Chemical class 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 238000005411 Van der Waals force Methods 0.000 claims description 3
- 230000000704 physical effect Effects 0.000 description 89
- 235000001014 amino acid Nutrition 0.000 description 85
- 238000012545 processing Methods 0.000 description 52
- 230000006870 function Effects 0.000 description 42
- 229940000406 drug candidate Drugs 0.000 description 36
- 238000002910 structure generation Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 28
- 235000018102 proteins Nutrition 0.000 description 24
- 102000053602 DNA Human genes 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 229920002477 rna polymer Polymers 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 210000000170 cell membrane Anatomy 0.000 description 9
- 150000004676 glycans Chemical class 0.000 description 9
- 230000007721 medicinal effect Effects 0.000 description 9
- 229920001282 polysaccharide Polymers 0.000 description 9
- 239000005017 polysaccharide Substances 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 150000001518 atomic anions Chemical class 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000005481 NMR spectroscopy Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 235000004279 alanine Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000000329 molecular dynamics simulation Methods 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 101000823316 Homo sapiens Tyrosine-protein kinase ABL1 Proteins 0.000 description 2
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 2
- 102100022596 Tyrosine-protein kinase ABL1 Human genes 0.000 description 2
- -1 cell membranes Polymers 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 231100000053 low toxicity Toxicity 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 231100000252 nontoxic Toxicity 0.000 description 2
- 230000003000 nontoxic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 238000004618 QSPR study Methods 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 125000003295 alanine group Chemical group N[C@@H](C)C(=O)* 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000604 cryogenic transmission electron microscopy Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004526 pharmaceutical effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000004627 transmission electron microscopy Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Biochemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Description
図1は第1の実施形態に係るスクリーニング装置10(特徴量算出装置、スクリーニング装置)の構成を示すブロック図である。スクリーニング装置10は化合物(対象構造体)及び/またはポケット構造体(対象構造体)についての特徴量の算出、及び標的化合物の抽出(スクリーニング)を行う装置であり、コンピュータを用いて実現することができる。図1に示すように、スクリーニング装置10は処理部100(プロセッサ)、記憶部200、表示部300、及び操作部400を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については各種の設置形態を採用することができ、各構成要素が1箇所(1筐体内、1室内等)に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、スクリーニング装置10はインターネット等のネットワークNWを介して外部サーバ500、及びPDB(Protein Data Bank)等の外部データベース510に接続し、必要に応じて化合物の構造式、タンパク質の結晶構造等の情報を取得することができる。
図2は処理部100(プロセッサ)の構成を示すブロック図である。処理部100は情報入力部110、特徴量算出部120、類似度算出部130、化合物抽出部140、表示制御部150、CPU160(CPU:Central Processing Unit)、ROM170(ROM:Read Only Memory)、及びRAM180(RAM:Random Access Memory)を備える。
記憶部200はDVD(Digital Versatile Disk)、ハードディスク(Hard Disk)、各種半導体メモリ等の非一時的記録媒体及びその制御部により構成され、図3に示す画像及び情報が記憶される。構造情報210は化合物の構造式、標的タンパク質の立体構造及びポケット位置を含む。立体構造情報220は、化合物及び/またはポケット構造体の立体構造の情報であり、構造情報210から発生させたものでもよいし、既に立体化された情報を入力したものでもよい。AAS記述子230(第1の特徴量、第2の特徴量、第3の特徴量)は、化合物やポケット構造体等の対象構造体に対する1種類以上のプローブの断面積を示す特徴量であり、後述する特徴量算出方法により算出される。不変量化AAS記述子240(第1の不変量化特徴量、第2の不変量化特徴量、第3の不変量化特徴量)は、AAS記述子230を化合物またはポケット構造体の回転について不変量化した特徴量である。類似度情報250は特徴量どうしの類似度を示す情報であり、化合物抽出結果260は類似度に基づいて抽出した標的化合物を示す情報である。
表示部300はモニタ310(表示装置)を備えており、入力した画像、記憶部200に記憶された画像及び情報、処理部100による処理の結果等を表示することができる。操作部400は入力デバイス及び/またはポインティングデバイスとしてのキーボード410及びマウス420を含んでおり、ユーザはこれらのデバイス及びモニタ310の画面を介して、本発明に係る特徴量算出方法の実行及び標的化合物の抽出に必要な操作を行うことができる(後述)。ユーザが実行できる操作には、例えば処理モード、算出する記述子の種類、スクリーニングに用いる記述子、類似度に対するしきい値の指定等が含まれる。
上述した構成のスクリーニング装置10では、操作部400を介したユーザの指示に応じて、特徴量(記述子)の算出及び/または標的化合物の抽出を行うことができる。以下、各処理の詳細を説明する。
スクリーニング装置10は、操作部400を介したユーザの指示に応じて、AAS記述子及び/または不変量化AAS記述子を算出することができる。
AAS記述子は、化合物(対象構造体)に対しアミノ酸(アラニン、バリン等20種類)等のプローブを衝突させ、散乱させた場合の微分散乱断面積(断面積、散乱断面積)である。この微分散乱断面積は、スクリーニング装置10でシミュレーション(本発明の特徴量算出方法の実行)を行うことにより算出することができる。シミュレーションでは、図5に示すように、座標系の原点に配置された化合物900に対し、アミノ酸等のプローブ902(プローブ)を衝突、散乱させる状況を想定する。
ここで、Eはプローブの入射エネルギーを特定するための引数であり、bはプローブの衝突径数を特定するための引数であり、aはプローブの種類を特定するための引数である。なお、図5では1つのアミノ酸が化合物と散乱する場合について説明したが、上述のシミュレーションでは、2つ以上のアミノ酸を連結させたペプチドがプローブでもよい。この場合、式(1)における“a”は、ペプチドの種類を特定するための引数を意味する。
スクリーニング装置10では、標的タンパク質に結合するポケット構造体を対象構造体として指定し、このポケット構造体に対する特徴量(AAS記述子;第2の特徴量)を算出することもできる。ポケット構造体は標的タンパク質の活性部位であるポケットに結合する対象構造体であり、「活性部位」とはポケット構造体が結合することにより標的タンパク質の活性が促進または抑制される部位を意味する。図10はポケット構造体に対するAAS記述子の算出手順を示すフローチャートであり、図11は標的タンパク質とポケット構造体との関係を示す概念図である。
本発明では、医薬のターゲットとしてタンパク質以外の生体高分子(化合物)であるDNA(Deoxyribonucleic Acid)、RNA(Ribonucleic Acid)、細胞膜、多糖を扱うことができる。これらのターゲット化合物についての特徴量(第3の特徴量;AAS記述子の一態様)を算出する場合、プローブはアミノ酸ではなく別の物質(各ターゲットのビルディングブロック)にする。具体的には、ターゲットがDNA、RNA、細胞膜、多糖の場合、プローブはそれぞれ1種類以上の核酸塩基、1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子とする。また、これらをプローブとして特徴量を算出する際に、水、1種類以上のイオンを考慮してもよい。化合物の薬効(DNA等のターゲットへの結合力)は局所的には化合物と核酸塩基等(プローブ)との相互作用の結果として表されるので、化合物間で核酸塩基等の断面積を示す特徴量が類似であれば、それら化合物はターゲットとの結合力が類似していることを示す。すなわち、第3の特徴量が類似な化合物は類似の薬効を示す。したがって、第3の特徴量により化合物の化学的性質を的確に判断することができる。なお、第3の特徴量は第1,第2の特徴量の場合と同様に算出することができる(図5,6及びそれらの説明等を参照)。
上述したAAS記述子はアミノ酸等の断面積を示しているが、化合物が同じでも回転が起きると値が変化する。そこで第1の実施形態に係るスクリーニング装置10では、特徴量算出部120(プロセッサ)は、AAS記述子に加え、またはこれに代えて「AAS記述子を化合物の回転に対して不変量化した不変量化AAS記述子」(第1の不変量化特徴量、第2の不変量化特徴量、第3の不変量化特徴量)を算出することができる。なお、化合物の場合もポケット構造体の場合も、同じ手順で不変量化を行うことができる。化合物についてのAAS記述子(第1の特徴量、第3の特徴量)を用いた場合は化合物についての不変量化AAS記述子(第1の不変量化特徴量、第3の不変量化特徴量)が得られ、ポケット構造体についてのAAS記述子(第2の特徴量)を用いた場合はポケット構造体についての不変量化AAS記述子(第2の不変量化特徴量)が得られる。
以下の手順1~5により、不変量化AAS記述子によるヒットの見つけやすさを評価した。
(手順1)あるターゲット(標的タンパク質等)に対して、ヒット化合物X個とヒットでない化合物Y個とを混ぜる。
(手順2)(X+Y)個の化合物すべてについて、不変量化AAS記述子を計算する。
(手順3)記述子ごとの類似度を算出する。
(手順4)(X+Y)個の化合物を、不変量化AAS記述子の類似度に基づいてチーム分けする。
(手順5)ヒットが集まったチームが機械的に発生するかどうかチェックする。
本発明で用いられる特徴量(AAS記述子、不変量化AAS記述子、アミノ酸散乱記述子)によれば、例えば図12について説明したように、標的タンパク質に結合する標的化合物の抽出や創出を行うことができるが、これ以外にも、例えば標的タンパク質に結合しない標的化合物の抽出や創出を行うことができる。図13の(a)部分は、不変量化AAS記述子に基づいて算出した、標的タンパク質(図12の例と同じタンパク質ABL1)に結合する化合物(第1の標的化合物)のヒット数の期待値(ランダムにチーム分けした場合との比較)の例(プローブはアミノ酸である)であり、同図の(b)部分は同じく不変量化AAS記述子に基づいて算出した、標的タンパク質に結合しない化合物(第2の標的化合物)のヒット数の期待値の例である。図13から分かるように、本発明に係る特徴量を用いることにより、標的タンパク質に結合する化合物(第1の標的化合物)だけでなく、標的タンパク質に結合しない化合物(第2の標的化合物)についても、ヒットを容易に見つけることができる。ここで、結合力は例えばIC50(half maximal (50%) inhibitory concentration;50%阻害濃度)で測定することができ、この場合「結合する/しない」のしきい値には100~1000μM程度の値を用いることができるが、課題(どのような特性を評価するか)に応じて異なる指標や異なる値を用いてもよい。
以上説明したように、第1の実施形態に係るスクリーニング装置10(特徴量算出装置、スクリーニング装置)では、本発明に係る特徴量算出方法及びこれを実行するプログラム(特徴量算出プログラム)を用いて、対象構造体の化学的性質を的確に示す特徴量(AAS記述子、不変量化AAS記述子)を算出することができる。
上述したAAS記述子、不変量化AAS記述子を用いた、複数の化合物からの標的化合物(医薬候補化合物)の抽出について説明する。標的化合物の抽出はリガンドの記述子(AAS記述子、不変量化AAS記述子)に基づいて行うモード(第1のモード)と標的タンパク質のポケット構造体の記述子(AAS記述子、不変量化AAS記述子)に基づいて行うモード(第2のモード)と、結合化合物(タンパク質以外の標的生体高分子に結合することが確認されている化合物)の記述子(AAS記述子、不変量化AAS記述子)に基づいて行うモード(第3のモード)と、がある。いずれのモードにより抽出を行うかは、操作部400を介したユーザの操作に応じて選択することができる。
図14は、リガンドのAAS記述子を用いたスクリーニング(第1のモード)の手順を示すフローチャートである。処理が開始すると、特徴量算出部120はリガンドのAAS記述子を算出する(ステップS300:スクリーニング特徴量算出工程)。なおリガンドは標的タンパク質との結合が確認されている化合物なので、ステップS300におけるAAS記述子の算出は図6のフローチャートに示す手順により行うことができる。
図16は標的タンパク質のポケット構造体についてのAAS記述子を用いたスクリーニング(第2のモード)の手順を示すフローチャートである。処理が開始すると、特徴量算出部120は標的タンパク質のポケット構造体についてのAAS記述子を算出する(ステップS400:スクリーニング特徴量算出工程)。ステップS400におけるAAS記述子の算出は図11のフローチャートに示す手順により行うことができる。類似度算出部130は、化合物についてのAAS記述子と、ステップS400で算出したポケット構造体についてのAAS記述子との類似度を算出する(ステップS402:類似度算出工程)。類似度を算出したら、化合物抽出部140は類似度に基づいて標的化合物を抽出する(ステップS404:化合物抽出工程)。上述したリガンド入力の場合と同様に、類似度に基づく標的化合物の抽出(ステップS404)は、具体的には「類似度がしきい値以上の化合物を抽出する」、「類似度が高い順に化合物を抽出する」等により行うことができる。
第1の実施形態に係るスクリーニング装置10では、タンパク質以外の標的生体高分子に結合する標的化合物を抽出することもできる。この場合、上述した図14,16のフローチャートと同様の手順で、第3の特徴量を用いてスクリーニングを行う(第3のモード)。
以上説明したように、第1の実施形態に係るスクリーニング装置10では、本発明に係る特徴量算出方法(特徴量算出方法をコンピュータに実行させるプログラム)により算出した特徴量(AAS記述子、不変量化AAS記述子)を用いて、本発明に係るスクリーニング方法(及びそのスクリーニング方法をコンピュータに実行させるプログラム)により医薬候補化合物のスクリーニングを効率よく行うことができる。
本発明の第2の実施形態に係る化合物創出装置について説明する。図18は化合物創出装置20(特徴量算出装置、化合物創出装置)の構成を示すブロック図である。なお、第1の実施形態と同様の要素には同一の参照符号を付し、詳細な説明を省略する。
上述したAAS記述子、不変量化AAS記述子を用いた、標的化合物(医薬候補化合物)の立体構造生成について説明する。化合物創出装置20による標的化合物の立体構造生成では、検索を行わないので「スクリーニングによる検索の結果、解なし」となる場合でも化合物の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。立体構造の生成は、リガンドの記述子(AAS記述子、不変量化AAS記述子)に基づいて行うモード(第1のモード)と、標的タンパク質のポケット構造体の記述子(AAS記述子、不変量化AAS記述子)に基づいて行うモード(第2のモード)と、結合化合物の記述子(AAS記述子、不変量化AAS記述子)に基づいて行うモード(第3のモード)と、がある。いずれのモードにより立体構造の生成を行うかは、操作部400を介したユーザの操作に応じて選択することができる。
図21はリガンド入力の場合の立体構造生成手順を示すフローチャートである。処理が開始すると、特徴量算出部120はリガンドの記述子(AAS記述子)を算出する(ステップS500:対象構造体指定工程、立体構造発生工程、創出特徴量算出工程)。ステップS500の処理は、第1の実施形態と同様に本発明に係る特徴量算出方法(及びその特徴量算出方法をコンピュータに実行させるプログラム)を用いて行うことができる(図6~9及びそれらの図についての説明を参照)。
(Step1)図22の(a)部分に示すように、特徴量算出部120は、複数の化合物についてアミノ酸をプローブとしたAAS記述子(第1の特徴量)を算出し、化合物910の構造式を立体化した構造式912とAAS記述子914とのペアを作る。
(Step2)図22の(b)部分に示すように、生成器構築部132が、化合物の立体構造(構造式912)を教師データとしAAS記述子914を説明変数とした深層学習等の機械学習により生成器916を構築する。機械学習の手法は特定の手法に限定されず、例えば単純な全結合のニューラルネットでもよいし、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)や敵対的生成ネットワーク(GAN:Generative Adversarial Network)でもよい。ただし、立体構造の生成精度は用いる学習手法に依存するので、立体構造の生成条件、要求精度等の条件に応じて学習手法を選択することが好ましい。
図23は、機械学習により構築した生成器を用いて生成した立体構造の例について説明する。図23の(a)部分は立体構造の正解データであり、同図の(b)部分は生成器を用いて生成した立体構造の例である。なお、図23で創出の対象とした化合物は、図7,22における化合物910である。
上述した手順により生成される立体構造は、教師データとして与える化合物の特徴に影響される。したがって、教師データとして与える化合物の特徴を選択することで、特徴が異なる立体構造を有する化合物を生成できる。例えば、合成が容易な立体構造を有する化合物のAAS記述子を教師データとして与えることで、リガンドと類似の薬効を有し、かつ合成が容易な立体構造を有する化合物を生成することができる。どのような化合物についてのAAS記述子を教師データとして与えるかは、生成したい化合物の特徴に合わせて選択することができる。
図22~23ではAAS記述子(第1の特徴量)を用いた立体構造の生成について説明した。これに対し不変量化AAS記述子(第1の不変量化特徴量)を用いた場合も、AAS記述子を用いる場合と同様に、不変量化AAS記述子を教師データとし立体構造(立体化した構造式)を説明変数とした機械学習(深層学習)により標的化合物の立体構造を生成することができる。
化合物創出装置20では、上述したリガンド入力による立体構造生成に加えて、標的タンパク質を入力として標的化合物の立体構造を生成することができる。この場合も、リガンド入力の場合と同様に、AAS記述子(第2の特徴量)を用いた立体構造生成、及び不変量化AAS記述子(第2の不変量化特徴量)を用いた立体構造生成を行うことができる。
化合物創出装置20では、上述した態様に加え、タンパク質以外の標的生体高分子を入力として標的化合物の立体構造を生成することができる。この場合も、上述した態様と同様に、AAS記述子(第3の特徴量)を用いた立体構造生成と不変量化AAS記述子(第3の不変量化特徴量)を用いた立体構造生成とを行うことができる。
上述した態様では、機械学習により構成した生成器を用いて医薬候補化合物の立体構造を生成しているが、以下に説明するように、構造の多様性に基づいて化合物の立体構造を生成することもできる。
以下で説明する化合物創出方法は、上述した本発明の第23~第27の態様に対応したものであるが、第23~第27の態様(以下、「基本的構成」という)に対し、以下の構成(以下、「付加的構成」という)を適宜追加している。
基本的構成において、候補構造採用工程では、第1の採用処理として、候補構造の物性値と物性値の目標値との差分の絶対値が化学構造の物性値と物性値の目標値との差分の絶対値以下である場合は候補構造を採用する処理を行い、候補構造の物性値と物性値の目標値との差分の絶対値が化学構造の物性値と物性値の目標値との差分の絶対値より大きい場合は、候補構造の物性値と物性値の目標値との差分に基づいて第1の関数により第1の採用確率を算出し、候補構造を第1の採用確率で採用する処理を行う。
付加的構成その1において、第1の関数は候補構造の物性値と物性値の目標値との差分の絶対値と、化学構造の物性値と物性値の目標値との差分の絶対値と、の差分に対する単調減少関数である。
基本的構成、付加的構成その1~その2のいずれか1つにおいて、候補構造採用工程では、第2の採用処理として、構造群の構造多様性の増減量を算出し、増減量に基づいて第2の関数により第2の採用確率を算出し、候補構造を第2の採用確率で採用する処理を行う。
付加的構成その3において、第2の関数は構造多様性の増減量に対する単調増加関数である。
基本的構成、付加的構成その1~その4のいずれか1つにおいて、候補構造取得工程では、化学構造に原子または原子団を追加または削除して対象構造を生成し、対象構造を候補構造とする。
基本的構成、付加的構成その1~その5のいずれか1つにおいて、制御工程では、化学構造を変化させた回数が指定した回数に達した場合、及び/または候補構造の物性値が目標値に到達した場合に終了条件を満たしたと判定して入力工程、候補構造取得工程、物性値算出工程、及び候補構造採用工程の処理を終了させる。
図25は、構造の多様性に基づく化合物の立体構造創出を行う場合の化合物創出装置の構成を示す図である。この態様では、化合物創出装置20は、図18,19に示す処理部101に代えて、処理部103(プロセッサ)を有する。処理部103は、入力部105と、候補構造取得部107と、物性値算出部109と、候補構造採用部111と、制御部113と、表示制御部115と、CPU121と、ROM123と、RAM125とを有する。その他の構成は、図18と同様である。なお、処理部101の構成に加えて処理部103の構成を備える処理部を用いることにより、生成器による化合物創出と構造の多様性に基づく化合物の創出とを実行できるようにしてもよい。
図26は構造の多様性に基づく化合物創出方法の手順を示すフローチャートである。
入力部105は、一つまたは複数の化合物の化学構造(初期構造)と、化学構造(初期構造)における一つまたは複数の物性値と、物性値の目標値と、を入力する(ステップS1010:入力工程)。これらのデータは記憶部201に記憶されていたものを用いてもよいし、ネットワークNWを介して外部サーバ500及び外部データベース510から取得してもよい。どのようなデータを入力するかを、操作部400を介したユーザの指示入力に応じて決定してもよい。初期構造は1つでもよいし複数でもよい。また、物性値も1つでもよいし複数でもよい。
構造の多様性に基づく化合物の創出において、AAS記述子(第1~第3の特徴量)や不変量化AAS記述子(第1~第3の不変量化特徴量)の値を「物性値」とすることができ、これら物性値は、本発明の特徴量算出方法により算出することができる。また、リガンド、ポケット構造体、結合化合物等についてのAAS記述子や不変量化AAS記述子の値を物性値の「目標値」とすることができる。具体的な例については、後述する。
候補構造取得部107は、化学構造をランダムに変化させて候補構造を得る(ステップS1020:候補構造取得工程)。この際、化学構造を変化させられる方法であれば何を用いてもよい。例えば、化学構造に原子または原子団を追加または削除して対象構造を生成し、対象構造を候補構造とする方法を用いることができる。この方法は、具体的には(A)合成適性を評価する基準の化合物データベース、及び化合物構造(化学構造)を準備する工程と、(B)化合物構造への原子または原子団の追加、または化合物構造からの原子の削除のいずれかを選択する工程と、(C)化合物構造への原子の追加を選択した場合、化合物構造に含まれる原子の中から選択された原子に新規原子を結合させ、または化合物構造への原子の削除を選択した場合、化合物構造に含まれる原子の中から選択された原子を削除し、改変された化合物構造を得る工程と、(D)改変された化合物構造の合成適性を、化合物データベースの情報に基づいて判断する工程と、(E)改変された化合物構造が合成適性を有する場合は改変を確率的に許容し、改変された化合物構造が合成適性を有さない場合は改変を確率的に棄却する工程と、(F)工程(E)を経た化合物構造が終了条件を満たすまで、工程(B)~(E)を繰り返す工程と、を備える化合物構造の生成方法である。なお、発生させた候補構造を表示制御部115によりモニタ310(表示装置)に表示させてもよい。また、後述するステップS1090からステップS1020に戻ってきたときに、前回発生させた構造の中で物性値が目標値に近かった構造を、合成適性を評価するための化合物データベースに一つまたは複数追加し、ステップS1020において目標値に近い物性値を持つ構造を少しずつ発生させやすくすることもできる。
物性値算出部109は、候補構造(ステップS1020で変化させた構造)の物性値を算出する(ステップS1030:物性値算出工程、創出特徴量算出工程)。物性値の算出には、初期構造の物性値を見積もったときと同じ方法を用いることが好ましい。
候補構造採用部111は、物性値が目標値に近づいているか否かを判断する(ステップS1040:候補構造採用工程)。具体的には、構造変化前の物性値をf0、構造変化後の物性値をf1、物性値の目標値をFとしたときに、|F-f1|≦|F-f0|が成り立つ場合(候補構造の物性値と物性値の目標値との差分(第1の差分)の絶対値が化学構造の物性値と物性値の目標値との差分(第2の差分)の絶対値以下である場合)は、物性値が目標値に近づいている(遠ざかっていない)のでステップS1070へ進んで構造変化を採用する(第1の採用処理)。一方、|F-f1|>|F-f0|である場合(候補構造の物性値と物性値の目標値との差分(第1の差分)の絶対値が化学構造の物性値と物性値の目標値との差分(第2の差分)の絶対値より大きい場合)はステップS1050へ進む。
ステップS1050において第1の採用処理の結果候補構造が採用されなかった場合(確率(1-p1))、候補構造採用部111は、候補構造を採用するか否かを「化学構造の変化により、化学構造及び候補構造により構成される構造群の構造多様性が増加しているか否か」に基づいて判断する第2の採用処理を行う(ステップS1055,S1060,S1070)。第2の採用処理について以下説明する。なお、構造を表す指標をjとして、構造群をS={sj}と表す。構造群Sの構造多様性を与える関数をV(S)と表記する。V(S)は構造多様性が大きいほど大きな値を取るものとする。
初期構造をN(>1)個与えた場合に、N個の化学構造のうちのk番目の化学構造の構造変化の採用または棄却を考えているとする。m回目の試行において、構造変化前(m-1回目)の構造群Sm-1={s(m-1)j}と変化後(m回目)の構造群Sm={smj}から、k番目の化学構造の構造変化後の構造群Sk={s(m-1)0, s(m-1)1, ..., smk, ..., s(m-1)N}を定義し、dv=V(Sk)-V(Sm-1)を見積もる。すなわち、dvは構造変化による構造多様性の増減量を示す。dv≧0の場合(k番目の構造変化によって多様性が向上する場合;ステップS1055でYes)には、dv(構造多様性の増減量)に対する単調増加関数P2(dv)を与え、確率p2=P2(dv)を算出する(ステップS1060:第2の採用処理)。そして、適当に発生させた乱数を用いて確率p2でステップS1070(構造変化を採用する;第2の採用処理)に進み、確率(1-p2)でステップS1080(構造変化を棄却し、元の構造に戻す;棄却処理)に進む。単調増加関数P2(dv)は本発明における「第2の関数」に相当し、確率p2は本発明における「第2の採用確率」に相当する。
なお初期構造が1個の場合には、試行を表す指標をtとして、過去m回の試行で得た構造群Sprev={st-1, st-2, ..., st-m}と、採用または棄却を考えている構造stを加えた構造群Scurr={st, st-1, ..., st-(m-1)}とを考え、dv=V(Scurr)-V(Sprev)を算出し、初期構造が複数個の場合と同様に単調増加関数P2(dv)により確率p2を算出(ステップS1060:第2の採用処理)すればよい。
上述した「構造群の構造多様性を与える関数」としては、たとえばTanimoto係数(化合物の類似度を表す指標の1つ)に基づく以下のような定義が考えられる(他にも様々な定義が可能である)。具体的には、構造sをビット列(0または1の数列)のfingerprint(化合物の一定の規則にしたがって固定長のベクトルに変換したものであり、様々な生成方法が知られている)で表したものをFsとすると、Tanimoto係数の定義は以下の式(5)で表される。
上述した第1の採用処理、第2の採用処理、及び棄却処理を、与えられた初期構造のそれぞれについて行い、全ての化学構造について上述の処理が終了すると1回の試行が終了する。
以上説明したように、構造多様性に基づいて立体構造を創出する化合物創出方法によれば、ローカルミニマムからの脱出を促進し、また物性値の収束を早めることができるので、所望の物性値を持つ化合物の構造を効率的に探索することができる。
上述した態様の、構造多様性に基づく立体構造創出(化合物創出)における具体的な物性値や特徴量について説明する。
以上説明したように、第2の実施形態に係る化合物創出装置20では、本発明に係る特徴量算出方法により算出した特徴量(AAS記述子、不変量化AAS記述子)を用いて、本発明に係る化合物創出方法(及びその方法をコンピュータに実行させる化合物創出プログラム)により医薬候補化合物の立体構造を効率よく創出することができる。
上述した第1の実施形態は特徴量の算出及びこれに基づくスクリーニングを行う態様であり、第2の実施形態は特徴量の算出及びこれに基づく標的化合物の立体構造創出を行う態様であるが、特徴量の算出に加えてスクリーニングと標的化合物の立体構造創出の両方を行ってもよい。そのため第3の実施形態に係る医薬候補化合物探索装置30(特徴量算出装置、スクリーニング装置、化合物創出装置;図27参照)では、図1に示すスクリーニング装置10の処理部100、図18に示す化合物創出装置20の処理部101、あるいは図25に示す処理部103に代えて、図27に示す処理部102を有する。図28に示すように、処理部102は通信制御部110A(通信制御部)、特徴量算出部120(特徴量算出部)、類似度算出部130(類似度算出部)、生成器構築部132(生成器構築部)、化合物抽出部140(化合物抽出部)、化合物立体構造生成部142(化合物立体構造生成部)、表示制御部150(表示制御部)、CPU160、ROM170、及びRAM180を有し、特徴量の算出、スクリーニング、及び化合物の立体構造創出を行うことができる。また、医薬候補化合物探索装置30は、これらの処理に必要な情報や処理の結果等を記憶部202に記憶する。具体的には、図29に示すように、記憶部200及び記憶部201に記憶される情報(図3,20参照)が合わせて記憶部202に記憶される。
本発明では、医薬のターゲットとしてタンパク質以外に、DNA(Deoxyribonucleic Acid)、RNA(Ribonucleic Acid)、細胞膜、多糖を扱うことができる。ただし、タンパク質の場合のプローブ(アミノ酸)を別のものに変更する必要がある。具体的には、DNAの場合はアミノ酸を核酸塩基へ変更し、RNAの場合はアミノ酸を核酸塩基へ変更し、細胞膜の場合はアミノ酸を脂質分子へ変更し、多糖の場合はアミノ酸を単糖分子へ変更する。以下では、この変更で、本発明でDNA、RNA、細胞膜、多糖も扱える理由を説明する。
本発明では、「化合物による標的生体分子単独での活性」という通常の活性以外にも、「化合物による、標的生体分子に加えてその他の生体分子からなる複合体である細胞の活性」についても扱うことができる。
20 化合物創出装置
30 医薬候補化合物探索装置
100 処理部
101 処理部
102 処理部
103 処理部
105 入力部
107 候補構造取得部
109 物性値算出部
110 情報入力部
110A 通信制御部
111 候補構造採用部
113 制御部
115 表示制御部
120 特徴量算出部
121 CPU
123 ROM
125 RAM
130 類似度算出部
132 生成器構築部
140 化合物抽出部
142 化合物立体構造生成部
150 表示制御部
160 CPU
170 ROM
180 RAM
200 記憶部
201 記憶部
202 記憶部
210 構造情報
220 立体構造情報
230 AAS記述子
240 不変量化AAS記述子
250 類似度情報
260 化合物抽出結果
270 立体構造生成結果
300 表示部
310 モニタ
400 操作部
410 キーボード
420 マウス
500 外部サーバ
510 外部データベース
900 化合物
902 プローブ
910 化合物
912 構造式
914 AAS記述子
916 生成器
NW ネットワーク
PO ポケット
PS ポケット構造体
S100~S112 特徴量算出方法の各ステップ
S200~S206 特徴量算出方法のステップ
S300~S304 化合物抽出方法の各ステップ
S400~S404 化合物抽出方法の各ステップ
S500~S504 化合物創出方法の各ステップ
S600~S604 化合物創出方法の各ステップ
S1010~S1100 化合物創出方法の各ステップ
TP 標的タンパク質
b 衝突径数
rmin 最近接距離
θ a 散乱角
Claims (27)
- プロセッサを備える特徴量算出装置により実行される特徴量算出方法であって、
前記プロセッサは、
化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、
前記対象構造体について前記複数の単位構造体による立体構造を取得する立体構造取得工程と、
前記対象構造体に対する1種類以上のプローブの断面積を示す特徴量を算出するプローブ特徴量算出工程と、
を実行し、
前記プローブは、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された構造体である特徴量算出方法。 - 前記プロセッサは、
前記プローブ特徴量算出工程では、前記特徴量として断面積、または最近接距離及び散乱角を算出する請求項1に記載の特徴量算出方法。 - 前記プロセッサは、
前記プローブ特徴量算出工程では、前記プローブの種類、数、組合せ、衝突径数、及び入射エネルギーに依存する特徴量を前記特徴量として算出する請求項1または2に記載の特徴量算出方法。 - 前記プロセッサは、
前記立体構造取得工程では、指定された対象構造体の立体構造を発生させることにより前記取得を行う請求項1から3のいずれか1項に記載の特徴量算出方法。 - 前記プロセッサは、
前記対象構造体指定工程では前記対象構造体として化合物を指定し、
前記立体構造取得工程では前記複数の単位構造体としての複数の原子による前記化合物の立体構造を取得し、
前記プローブ特徴量算出工程では、前記立体構造取得工程で取得した前記化合物について、アミノ酸を前記プローブとして第1の特徴量を算出する請求項1から4のいずれか1項に記載の特徴量算出方法。 - 前記プロセッサが前記第1の特徴量を前記化合物の回転について不変量化して第1の不変量化特徴量を算出する不変量化工程をさらに有する請求項5に記載の特徴量算出方法。
- 前記プロセッサは、
前記プローブ特徴量算出工程では2種類の異なるアミノ酸について前記第1の特徴量を算出し、
前記不変量化工程では前記2種類の異なるアミノ酸についての前記第1の特徴量を用いて前記第1の不変量化特徴量を算出する請求項6に記載の特徴量算出方法。 - 前記プロセッサは、
前記対象構造体指定工程では、標的タンパク質の活性部位であるポケットに結合するポケット構造体を前記対象構造体として指定し、
前記立体構造取得工程では複数の仮想的球体による前記ポケット構造体の立体構造を取得し、
前記プローブ特徴量算出工程では、前記立体構造取得工程で取得した前記ポケット構造体について、アミノ酸を前記プローブとして第2の特徴量を算出する請求項1から4のいずれか1項に記載の特徴量算出方法。 - 前記プロセッサが前記第2の特徴量を前記ポケット構造体の回転について不変量化して第2の不変量化特徴量を算出する不変量化工程をさらに有する請求項8に記載の特徴量算出方法。
- 前記プロセッサは、
前記プローブ特徴量算出工程では2種類の異なるアミノ酸について前記第2の特徴量を算出し、
前記不変量化工程では前記2種類の異なるアミノ酸についての前記第2の特徴量を用いて前記第2の不変量化特徴量を算出する請求項9に記載の特徴量算出方法。 - 前記プロセッサは、
前記対象構造体指定工程では前記対象構造体として化合物を指定し、
前記立体構造取得工程では複数の原子による前記化合物の立体構造を発生させ、
前記プローブ特徴量算出工程では、前記立体構造取得工程で取得した前記化合物の前記立体構造について、1種類以上の核酸塩基、1種類以上の脂質分子、1種類以上の単糖分子、水、1種類以上のイオンのうち1つ以上を前記プローブとして第3の特徴量を算出する請求項1から4のいずれか1項に記載の特徴量算出方法。 - 前記プロセッサが前記第3の特徴量を前記化合物の回転について不変量化して第3の不変量化特徴量を算出する不変量化工程をさらに有する請求項11に記載の特徴量算出方法。
- プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第1の標的化合物及び/または前記標的タンパク質に結合しない第2の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項5に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて前記第1の特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第1の特徴量と前記リガンドについての前記第1の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第1の標的化合物及び/または前記第2の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第1の標的化合物及び/または前記標的タンパク質に結合しない第2の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項6に記載の特徴量算出方法を用いて算出した前記第1の不変量化特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて、前記第1の不変量化特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第1の不変量化特徴量と前記リガンドについての前記第1の不変量化特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第1の標的化合物及び/または前記第2の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第1の標的化合物及び/または前記標的タンパク質に結合しない第2の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項5に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
請求項8に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第2の特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第1の特徴量と前記ポケット構造体についての前記第2の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第1の標的化合物及び/または前記第2の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物から、標的タンパク質に結合する第1の標的化合物及び/または前記標的タンパク質に結合しない第2の標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項6に記載の特徴量算出方法を用いて算出した前記第1の不変量化特徴量と、を関連付けて記憶する記憶工程と、
請求項9に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第2の不変量化特徴量を算出するスクリーニング特徴量算出工程と、
前記複数の化合物についての前記第1の不変量化特徴量と前記ポケット構造体についての前記第2の不変量化特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記第1の標的化合物及び/または前記第2の標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備えるスクリーニング装置により実行され、複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項11に記載の特徴量算出方法を用いて算出した前記第3の特徴量と、を関連付けて記憶する記憶工程と、
前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物について前記第3の特徴量を算出する特徴量算出工程と、
前記複数の化合物についての前記第3の特徴量と前記結合化合物についての前記第3の特徴量との類似度を算出する類似度算出工程と、
前記複数の化合物から前記類似度に基づいて前記標的化合物を抽出する化合物抽出工程と、
を実行するスクリーニング方法。 - プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項5に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて、前記第1の特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第1の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記リガンドの前記第1の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項6に記載の特徴量算出方法を用いて算出した前記第1の不変量化特徴量と、を関連付けて記憶する記憶工程と、
前記標的タンパク質との結合が確認されている化合物であるリガンドについて前記第1の不変量化特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第1の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記リガンドの前記第1の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項5に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、を関連付けて記憶する記憶工程と、
請求項8に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第2の特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の立体構造を教師データとし、前記第1の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記ポケット構造体の前記第2の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、複数の化合物から標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項6に記載の特徴量算出方法を用いて算出した前記第1の不変量化特徴量と、を関連付けて記憶する記憶工程と、
請求項9に記載の特徴量算出方法を用いて、前記標的タンパク質の前記ポケット構造体について前記第2の不変量化特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の立体構造を教師データとし、前記第1の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記ポケット構造体の前記第2の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、請求項11に記載の特徴量算出方法を用いて算出した前記第3の特徴量と、を関連付けて記憶する記憶工程と、
前記タンパク質以外の前記標的生体高分子との結合が確認されている化合物である結合化合物について、前記第3の特徴量を算出する創出特徴量算出工程と、
前記複数の化合物の前記立体構造を教師データとし、前記第3の特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
前記生成器を用いて、前記結合化合物の前記第3の特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項5に記載の特徴量算出方法を用いて算出した前記第1の特徴量と、前記第1の特徴量の目標値としての、前記標的化合物との結合が確認されている化合物であるリガンドについての前記第1の特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項5に記載の特徴量算出方法を用いて前記第1の特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第1の特徴量が前記目標値に近づいているか否かに基づいて判断する第1の採用処理を行い、第1の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第2の採用処理を行い、第1の採用処理及び第2の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項6に記載の特徴量算出方法を用いて算出した前記第1の不変量化特徴量と、前記第1の不変量化特徴量の目標値としての、前記標的化合物との結合が確認されている化合物であるリガンドについての前記第1の不変量化特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項6に記載の特徴量算出方法を用いて前記第1の不変量化特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第1の不変量化特徴量が前記目標値に近づいているか否かに基づいて判断する第1の採用処理を行い、第1の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第2の採用処理を行い、第1の採用処理及び第2の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項8に記載の特徴量算出方法を用いて算出した前記第2の特徴量と、前記第2の特徴量の目標値としての、前記標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての前記第2の特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項8に記載の特徴量算出方法を用いて前記第2の特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第2の特徴量が前記目標値に近づいているか否かに基づいて判断する第1の採用処理を行い、第1の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第2の採用処理を行い、第1の採用処理及び第2の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、標的タンパク質に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項9に記載の特徴量算出方法を用いて算出した前記第2の不変量化特徴量と、前記第2の不変量化特徴量の目標値としての、前記標的タンパク質の活性部位であるポケットとの結合が確認されているポケット構造体についての前記第2の不変量化特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項9に記載の特徴量算出方法を用いて前記第2の不変量化特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第2の不変量化特徴量が前記目標値に近づいているか否かに基づいて判断する第1の採用処理を行い、第1の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第2の採用処理を行い、第1の採用処理及び第2の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。 - プロセッサを備える化合物創出装置により実行され、タンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
前記プロセッサが、
一つまたは複数の化合物の化学構造と、前記化学構造についての、請求項11に記載の特徴量算出方法を用いて算出した前記第3の特徴量と、前記第3の特徴量の目標値としての、前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物についての前記第3の特徴量と、を入力する入力工程と、
前記化学構造を変化させて候補構造を得る候補構造取得工程と、
前記候補構造について、請求項11に記載の特徴量算出方法を用いて前記第3の特徴量を算出する創出特徴量算出工程と、
前記候補構造を採用または棄却する候補構造採用工程であって、前記候補構造を採用するか否かを前記化学構造の前記変化により前記候補構造の前記第3の特徴量が前記目標値に近づいているか否かに基づいて判断する第1の採用処理を行い、第1の採用処理により前記候補構造が採用されなかった場合は、前記候補構造を採用するか否かを前記化学構造の前記変化により前記化学構造及び前記候補構造により構成される構造群の構造多様性が増加しているか否かに基づいて判断する第2の採用処理を行い、第1の採用処理及び第2の採用処理により前記候補構造が採用されなかった場合は前記化学構造の前記変化を棄却して前記変化をさせる前の前記化学構造に戻す棄却処理を行う候補構造採用工程と、
終了条件を満たすまで、前記入力工程、前記候補構造取得工程、前記創出特徴量算出工程、及び前記候補構造採用工程における処理を繰り返させる制御工程と、
を実行する化合物創出方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020164800 | 2020-09-30 | ||
JP2020164800 | 2020-09-30 | ||
PCT/JP2021/035520 WO2022071268A1 (ja) | 2020-09-30 | 2021-09-28 | 特徴量算出方法、スクリーニング方法、及び化合物創出方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022071268A1 JPWO2022071268A1 (ja) | 2022-04-07 |
JPWO2022071268A5 JPWO2022071268A5 (ja) | 2023-06-27 |
JP7483913B2 true JP7483913B2 (ja) | 2024-05-15 |
Family
ID=80950413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022553977A Active JP7483913B2 (ja) | 2020-09-30 | 2021-09-28 | 特徴量算出方法、スクリーニング方法、及び化合物創出方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230238084A1 (ja) |
EP (1) | EP4224480A4 (ja) |
JP (1) | JP7483913B2 (ja) |
CN (1) | CN116157680A (ja) |
WO (1) | WO2022071268A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995311B (zh) * | 2024-04-03 | 2024-06-14 | 烟台国工智能科技有限公司 | 基于贝叶斯优化的分子生成方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520868A (ja) | 2014-05-05 | 2017-07-27 | アトムワイズ,インコーポレイテッド | 結合親和性予測システム及び方法 |
WO2019078006A1 (ja) | 2017-10-17 | 2019-04-25 | 富士フイルム株式会社 | 特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、及び化合物創出装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6741937B2 (en) * | 2000-05-08 | 2004-05-25 | Accelrys Inc. | Methods and systems for estimating binding affinity |
JP4564097B2 (ja) | 2007-11-12 | 2010-10-20 | 株式会社インシリコサイエンス | インシリコスクリーニング装置、および、インシリコスクリーニング方法 |
EP2889791A4 (en) | 2012-08-27 | 2016-04-13 | Kyoto Constella Technologies Co Ltd | DEVICE FOR DESIGNING A CONNECTION PROCESS FOR THE DESIGN OF A CONNECTION AND COMPUTER PROGRAM |
US9373059B1 (en) | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
-
2021
- 2021-09-28 JP JP2022553977A patent/JP7483913B2/ja active Active
- 2021-09-28 EP EP21875569.2A patent/EP4224480A4/en active Pending
- 2021-09-28 CN CN202180063534.7A patent/CN116157680A/zh active Pending
- 2021-09-28 WO PCT/JP2021/035520 patent/WO2022071268A1/ja unknown
-
2023
- 2023-03-29 US US18/192,001 patent/US20230238084A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017520868A (ja) | 2014-05-05 | 2017-07-27 | アトムワイズ,インコーポレイテッド | 結合親和性予測システム及び方法 |
WO2019078006A1 (ja) | 2017-10-17 | 2019-04-25 | 富士フイルム株式会社 | 特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、及び化合物創出装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116157680A (zh) | 2023-05-23 |
JPWO2022071268A1 (ja) | 2022-04-07 |
WO2022071268A1 (ja) | 2022-04-07 |
EP4224480A1 (en) | 2023-08-09 |
US20230238084A1 (en) | 2023-07-27 |
EP4224480A4 (en) | 2024-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Padme: A deep learning-based framework for drug-target interaction prediction | |
Durham et al. | Solvent accessible surface area approximations for rapid and accurate protein structure prediction | |
Roy et al. | Self-consistent theory of many-body localisation in a quantum spin chain with long-range interactions | |
JP7209751B2 (ja) | 化合物創出方法 | |
JP7483913B2 (ja) | 特徴量算出方法、スクリーニング方法、及び化合物創出方法 | |
Simões et al. | CavVis—a field-of-view geometric algorithm for protein cavity detection | |
Zhang et al. | Predicting the materials properties using a 3d graph neural network with invariant representation | |
WO2020203551A1 (ja) | 特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、及び化合物創出装置 | |
Wilson et al. | Comparison of the MSMS and NanoShaper molecular surface triangulation codes in the TABI Poisson–Boltzmann solver | |
Rains et al. | A Bayesian method for construction of Markov models to describe dynamics on various time-scales | |
US20160371426A1 (en) | Systems and methods for physical parameter fitting on the basis of manual review | |
Concu et al. | On the relevance of feature selection algorithms while developing non-linear QSARs | |
JP7297057B2 (ja) | 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法 | |
Daberdaku | Identification of protein pockets and cavities by Euclidean Distance Transform | |
Eshlaghi et al. | Three-dimensional microstructure reconstruction for two-phase materials from three orthogonal surface maps | |
Daberdaku | Parallel computation of voxelised protein surfaces with OpenMP | |
McGrady et al. | AI for Chemical Space Gap Filling and Novel Compound Generation | |
Braga | Graph kernels and neural networks for predicting yields of chemical reactions | |
Sagar et al. | Physics-Guided Deep Generative Model For New Ligand Discovery | |
Letychevskyi et al. | Modern Methods and Software Systems of Molecular Modeling and Application of Behavior Algebra | |
Corrochano et al. | Learning the shapes of protein pockets | |
Griffiths | Sampling Configurational Energy Landscapes | |
Caires et al. | Lira: Rotational Invariant Shape and Electrostatic Descriptors for Small Molecules and Protein Pockets based on Real Spherical Harmonics | |
US20190050529A1 (en) | Systems and methods for variable fitting on the basis of manual review | |
Baskin et al. | Continuous molecular fields approach applied to structure-activity modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230515 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7483913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |