JP2023534867A - 薬物代謝酵素の阻害剤を予測するための訓練方法およびモデル - Google Patents
薬物代謝酵素の阻害剤を予測するための訓練方法およびモデル Download PDFInfo
- Publication number
- JP2023534867A JP2023534867A JP2023504628A JP2023504628A JP2023534867A JP 2023534867 A JP2023534867 A JP 2023534867A JP 2023504628 A JP2023504628 A JP 2023504628A JP 2023504628 A JP2023504628 A JP 2023504628A JP 2023534867 A JP2023534867 A JP 2023534867A
- Authority
- JP
- Japan
- Prior art keywords
- descriptors
- enzyme
- inhibitor
- training
- molecule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 102000004190 Enzymes Human genes 0.000 title claims abstract description 74
- 108090000790 Enzymes Proteins 0.000 title claims abstract description 74
- 239000003112 inhibitor Substances 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 34
- 108010001237 Cytochrome P-450 CYP2D6 Proteins 0.000 claims abstract description 23
- 102100021704 Cytochrome P450 2D6 Human genes 0.000 claims abstract description 23
- 229940079593 drug Drugs 0.000 claims abstract description 16
- 239000003814 drug Substances 0.000 claims abstract description 16
- 102000002269 Cytochrome P-450 CYP2C9 Human genes 0.000 claims abstract description 12
- 108010000543 Cytochrome P-450 CYP2C9 Proteins 0.000 claims abstract description 12
- 238000007637 random forest analysis Methods 0.000 claims description 34
- 230000002401 inhibitory effect Effects 0.000 claims description 23
- 238000012706 support-vector machine Methods 0.000 claims description 13
- 239000002676 xenobiotic agent Substances 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000002034 xenobiotic effect Effects 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 abstract description 26
- 108090000623 proteins and genes Proteins 0.000 abstract description 13
- 102000004169 proteins and genes Human genes 0.000 abstract description 13
- 101000826399 Homo sapiens Sulfotransferase 1A1 Proteins 0.000 abstract description 9
- 102100023986 Sulfotransferase 1A1 Human genes 0.000 abstract description 9
- 102100023983 Sulfotransferase 1A3 Human genes 0.000 abstract description 9
- 102100029152 UDP-glucuronosyltransferase 1A1 Human genes 0.000 abstract description 9
- 101710205316 UDP-glucuronosyltransferase 1A1 Proteins 0.000 abstract description 9
- 108010083982 monoamine-sulfating phenol sulfotransferase Proteins 0.000 abstract description 9
- 238000013459 approach Methods 0.000 abstract description 8
- 238000000126 in silico method Methods 0.000 abstract description 5
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 abstract description 3
- 230000008406 drug-drug interaction Effects 0.000 abstract description 3
- 206010070863 Toxicity to various agents Diseases 0.000 abstract description 2
- 230000002411 adverse Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract 1
- 108090001033 Sulfotransferases Proteins 0.000 description 17
- 102000004896 Sulfotransferases Human genes 0.000 description 17
- 108010092364 Glucuronosyltransferase Proteins 0.000 description 14
- 102000016354 Glucuronosyltransferase Human genes 0.000 description 13
- 238000000329 molecular dynamics simulation Methods 0.000 description 8
- 239000003446 ligand Substances 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- GACDQMDRPRGCTN-KQYNXXCUSA-N 3'-phospho-5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](OP(O)(O)=O)[C@H]1O GACDQMDRPRGCTN-KQYNXXCUSA-N 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 102000018832 Cytochromes Human genes 0.000 description 3
- 108010052832 Cytochromes Proteins 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 3
- 230000036267 drug metabolism Effects 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 101000919359 Homo sapiens Cytochrome P450 2C9 Proteins 0.000 description 2
- ZFMITUMMTDLWHR-UHFFFAOYSA-N Minoxidil Chemical compound NC1=[N+]([O-])C(N)=CC(N2CCCCC2)=N1 ZFMITUMMTDLWHR-UHFFFAOYSA-N 0.000 description 2
- 108010029485 Protein Isoforms Proteins 0.000 description 2
- 102000001708 Protein Isoforms Human genes 0.000 description 2
- QAOWNCQODCNURD-UHFFFAOYSA-L Sulfate Chemical compound [O-]S([O-])(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-L 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000004064 dysfunction Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000029142 excretion Effects 0.000 description 2
- 102000048369 human CYP2C9 Human genes 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000002207 metabolite Substances 0.000 description 2
- 229960003632 minoxidil Drugs 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000009456 molecular mechanism Effects 0.000 description 2
- 238000007254 oxidation reaction Methods 0.000 description 2
- YKPYIPVDTNNYCN-INIZCTEOSA-N prinomastat Chemical compound ONC(=O)[C@H]1C(C)(C)SCCN1S(=O)(=O)C(C=C1)=CC=C1OC1=CC=NC=C1 YKPYIPVDTNNYCN-INIZCTEOSA-N 0.000 description 2
- 229950003608 prinomastat Drugs 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- BFPYWIDHMRZLRN-UHFFFAOYSA-N 17alpha-ethynyl estradiol Natural products OC1=CC=C2C3CCC(C)(C(CC4)(O)C#C)C4C3CCC2=C1 BFPYWIDHMRZLRN-UHFFFAOYSA-N 0.000 description 1
- ARSRBNBHOADGJU-UHFFFAOYSA-N 7,12-dimethyltetraphene Chemical compound C1=CC2=CC=CC=C2C2=C1C(C)=C(C=CC=C1)C1=C2C ARSRBNBHOADGJU-UHFFFAOYSA-N 0.000 description 1
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 241000995051 Brenda Species 0.000 description 1
- 239000002083 C09CA01 - Losartan Substances 0.000 description 1
- BFPYWIDHMRZLRN-SLHNCBLASA-N Ethinyl estradiol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 BFPYWIDHMRZLRN-SLHNCBLASA-N 0.000 description 1
- IAJILQKETJEXLJ-UHFFFAOYSA-N Galacturonsaeure Natural products O=CC(O)C(O)C(O)C(O)C(O)=O IAJILQKETJEXLJ-UHFFFAOYSA-N 0.000 description 1
- 208000001953 Hypotension Diseases 0.000 description 1
- 102000004316 Oxidoreductases Human genes 0.000 description 1
- 108090000854 Oxidoreductases Proteins 0.000 description 1
- HSCJRCZFDFQWRP-JZMIEXBBSA-N UDP-alpha-D-glucose Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CO)O[C@@H]1OP(O)(=O)OP(O)(=O)OC[C@@H]1[C@@H](O)[C@@H](O)[C@H](N2C(NC(=O)C=C2)=O)O1 HSCJRCZFDFQWRP-JZMIEXBBSA-N 0.000 description 1
- HSCJRCZFDFQWRP-UHFFFAOYSA-N Uridindiphosphoglukose Natural products OC1C(O)C(O)C(CO)OC1OP(O)(=O)OP(O)(=O)OCC1C(O)C(O)C(N2C(NC(=O)C=C2)=O)O1 HSCJRCZFDFQWRP-UHFFFAOYSA-N 0.000 description 1
- HDYANYHVCAPMJV-UHFFFAOYSA-N Uridine diphospho-D-glucuronic acid Natural products O1C(N2C(NC(=O)C=C2)=O)C(O)C(O)C1COP(O)(=O)OP(O)(=O)OC1OC(C(O)=O)C(O)C(O)C1O HDYANYHVCAPMJV-UHFFFAOYSA-N 0.000 description 1
- XCCTYIAWTASOJW-XVFCMESISA-N Uridine-5'-Diphosphate Chemical compound O[C@@H]1[C@H](O)[C@@H](COP(O)(=O)OP(O)(O)=O)O[C@H]1N1C(=O)NC(=O)C=C1 XCCTYIAWTASOJW-XVFCMESISA-N 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- IAJILQKETJEXLJ-QTBDOELSSA-N aldehydo-D-glucuronic acid Chemical compound O=C[C@H](O)[C@@H](O)[C@H](O)[C@H](O)C(O)=O IAJILQKETJEXLJ-QTBDOELSSA-N 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 210000001772 blood platelet Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 231100000357 carcinogen Toxicity 0.000 description 1
- 239000003183 carcinogenic agent Substances 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 230000006957 competitive inhibition Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 210000000172 cytosol Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 231100000317 environmental toxin Toxicity 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000011067 equilibration Methods 0.000 description 1
- 229940011871 estrogen Drugs 0.000 description 1
- 239000000262 estrogen Substances 0.000 description 1
- SYTBZMRGLBWNTM-UHFFFAOYSA-N flurbiprofen Chemical compound FC1=CC(C(C(O)=O)C)=CC=C1C1=CC=CC=C1 SYTBZMRGLBWNTM-UHFFFAOYSA-N 0.000 description 1
- 229960002390 flurbiprofen Drugs 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229940097043 glucuronic acid Drugs 0.000 description 1
- 230000023611 glucuronidation Effects 0.000 description 1
- 239000003163 gonadal steroid hormone Substances 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 208000021822 hypotensive Diseases 0.000 description 1
- 230000001077 hypotensive effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- KJJZZJSZUJXYEA-UHFFFAOYSA-N losartan Chemical compound CCCCC1=NC(Cl)=C(CO)N1CC1=CC=C(C=2C(=CC=CC=2)C=2[N]N=NN=2)C=C1 KJJZZJSZUJXYEA-UHFFFAOYSA-N 0.000 description 1
- 229960004773 losartan Drugs 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000000269 nucleophilic effect Effects 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 229960005489 paracetamol Drugs 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 150000002989 phenols Chemical class 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 229940002612 prodrug Drugs 0.000 description 1
- 239000000651 prodrug Substances 0.000 description 1
- 239000003891 promutagen Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 229940036555 thyroid hormone Drugs 0.000 description 1
- 239000005495 thyroid hormone Substances 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- HDYANYHVCAPMJV-USQUEEHTSA-N udp-glucuronic acid Chemical compound O([P@](O)(=O)O[P@](O)(=O)OC[C@H]1[C@@H]([C@H]([C@@H](O1)N1C(NC(=O)C=C1)=O)O)O)[C@H]1O[C@@H](C(O)=O)[C@H](O)[C@@H](O)[C@@H]1O HDYANYHVCAPMJV-USQUEEHTSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Bioethics (AREA)
- Pharmacology & Pharmacy (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本発明は、薬物代謝酵素(DME)阻害剤の予測に関する。DMEの阻害は、有害な薬物間相互作用につながり、したがって、決定された分子によってDMEの阻害を予測することは、薬物毒性を防止するためにきわめて重要である。発明者らは、DMEの阻害を予測するために、統合したインシリコ蛋白質構造ベースの機械学習手法のプロトコルを生み出した。具体的には、本発明は、DMEの阻害を予測するためのモデルを訓練するための方法に関し、この方法は、物理化学的記述子および少なくとも1つの酵素構成における結合エネルギーを含む初期セットの中から記述子の数の選択と、入力として選択された記述子に基づいて、既知の阻害剤または非阻害剤の学習データベースにおける分類モデルの訓練とを含む。この手法により、CYP2C9、CYP2D6、SULT1A1、SULT1A3、およびUGT1A1の阻害の予測に成功した。
Description
本開示は、分類モデルを訓練し使用して、決定された薬物代謝酵素(Drug Metabolizing Enzymes、DME)、詳細には、シトクロムP450(cytochromesP450、CYP)、スルホトランスフェラーゼ(sulfotransferases、SULT)、およびUDPグルクロノシルトランスフェラーゼのファミリーに属する酵素における分子の阻害特性を予測することに関する。
薬物代謝酵素は、内因性分子、生体異物および人体に取り込まれた薬物の代謝に重要な役割を担う。その主な役割は、汚染物質または薬物などの内因性および外因性の化合物を速やかに排泄させるように修飾することによって生体を解毒することであるが、場合によっては、薬物代謝酵素は、その基質の毒性をより高めさせ、それによって、深刻な副作用および有害な薬物反応が誘発されることもある。第I相DMEは、代謝物をもたらす酸化反応への触媒作用を及ぼし、この代謝物は、排泄されるか、またはさらには、抱合反応に触媒作用を及ぼす第II相DMEによって修飾されるかのいずれかの場合がある。場合によっては、第II相DMEは、第I相DMEを経ることなく、化合物を直接修飾することができる。DMEの阻害は、活性部位における競合阻害、活性部位と酵素の外部との間の基質もしくは代謝フラックスの修飾、または薬物自体もしくはその代謝物による阻害(時間依存性阻害)に対応し、ひいては有害な薬物間相互作用につながる場合があるので、複雑な工程である。したがって、潜在的DME阻害を予測することは、薬物毒性を防止するためにきわめて重要である。
DMEの中でも、シトクロムP450(CYP)は、薬物、生体異物、および内因性分子の代謝を担う酸化酵素のスーパーファミリーである。市販の薬物の約75%は、6つの主要アイソフォーム、すなわち、1A2、2C8、2C9、2C19、2D6、および3A4をもつCYPによって代謝されることが推定される。CYP阻害は、薬物消失の減少をもたらし、そのことは、有害な薬物間相互作用の主な原因である。場合によっては、CYP酸化により、毒性代謝物がもたらされることもある。そのため、臨床薬物治療および早期段階薬物発見には、CYP酵素の潜在的阻害を特定することが必要である。
DMEの中でも、多くの薬物を代謝する別の酵素ファミリーは、スルホトランスフェラーゼ(SULT)である。SULTは、求核攻撃を実行することによって、補因子である3'-ホスホアデノシン5'-ホスホスルフェート(3'-Phosphoadenosine 5'-Phosphosulfate、PAPS)から、基質のヒドロキシル基またはアミノ基への硫酸抱合を触媒する。高濃度では、いくつかの基質は、酵素を阻害し、結合した不活性な補因子PAPを含むデッドエンド複合体が同定されている。硫酸抱合は、通常、排泄を促進させるが、いくつかの特殊な場合においては、いくつかの薬物の薬理学的活性が高まることもある(たとえば、血圧降下プロドラッグであるミノキシジルは、硫酸抱合後に完全に活性になる)。さらには、SULTは、DNAと共有結合することができる反応性の高い硫酸エステルを生成することによって、いくつかの化学物質を発がん性物質またはプロ変異原の活性化物質(たとえば、7,12-ジメチルベンズ(a)アントラセン)に変質させることができる。小さい内因性化合物および生体異物の代謝を担うSULTは、サイトゾルに局在している。ヒトのSULTの4つのファミリーは、今までに、SULT1、SULT2、SULT4、およびSULT6によって同定されている。SULT1ファミリーの中でも、フェノール、性ステロイドホルモン(エストロゲン)、甲状腺ホルモン、および薬物(たとえば、ミノキシジル、パラセタモール、17α-エチニルエストラジオール)のような幅広い様々な化合物を代謝するSULT 1A1は、最も発現されるものである(肝臓、腸、腎臓、甲状腺、血小板に見られる)。
最後に、UDPグルクロノシルトランスフェラーゼ(UDP-glucuronosyltransferase、UGT)は、ウリジン二リン酸グルクロニルトランスフェラーゼ遺伝子ファミリーに属する。UGTは、数多くの治療法および環境毒素、ならびに様々な内因性ステロイドおよび他のシグナル伝達分子へのグルクロン酸の糖部分の共有結合付加を触媒する。UGT触媒によるグルクロン酸抱合は、第II相薬物代謝反応の最大で35%までを占めると考えられている。3つの主要アイソフォーム、UGT 2B7、UGT 1A4、およびUGT 1A1は、UGTによって代謝される薬物のそれぞれ35%、20%、および15%の薬物修飾を担っている。
DMEを介する分子の阻害特性を予測するために、分類モデルに基づいた手法が提案されている。
具体的には、2015年8月26日、Bioinformatics 31(24)、3930~3937、doi: 10.1093/bioinformatics/btv486におけるV. Y. Martinyらによる発行物、「Integrated structure- and ligand-based in silico approach to predict inhibition of cytochrome P450 2D6」には、CYP2D6の予測についてのインシリコ手法について開示されており、ここでは、3つの学習アルゴリズム、すなわち、サポートベクターマシン、ランダムフォレスト、およびナイーブベイジアンを訓練し、試験して、シトクロムP450 2D6の阻害を予測している。
より具体的には、この論文では、1つのアポ構造PDB ID 2F9Qおよびプリノマスタットと共結晶化された1つのホロ構造においてCYP2D6の様々な分子動力学シミュレーション(molecular dynamics simulations、MD)を行って、結合エネルギーを最良に予測する結合部位配座を同定することについて開示している。
次いで、所与の分子の入力記述子として、拡張接続フィンガープリント(extended connectivity fingerprint、ECFP)を含む記述子セット、および最良のMD受容体配座において計算された蛋白質リガンド結合エネルギーを使用して、各分類モデルを、CYP2D6の343の阻害剤と3002の阻害剤とを含む学習データベースにおいて訓練した。
それらの阻害モデルは、訓練セットにおいては78%、外部検証セットにおいては75%の精度によりCYP2D6阻害を予測することができた。しかしながら、この方法は、いくつかの制約に悩まされる。まず、このモデルにおいて使用される記述子の数(最大で2000)および記述子のタイプ(ECFP)の数が大きいことにより、なぜ分子が阻害剤もしくは非阻害剤として予測されるのか、または分子の阻害特性に影響を与える主な理由を理解することができない。
さらには、記述子の数が大きいことにより、所与の分子について各記述子をコンピュータ計算するためのコンピュータ計算時間が必要であるので、分類モデルの訓練および使用の進みが遅くなる。
最後に、このモデルは、酵素の単一の配座についてコンピュータ計算された単一の結合エネルギーを記述子として使用する。様々な配座に対応するより多くの数の結合エネルギーを使用すると、予測モデルの性能を向上させることが可能になることが期待できる。
2015年8月26日、Bioinformatics 31(24)、3930~3937、doi: 10.1093/bioinformatics/btv486におけるV. Y. Martinyらによる発行物、「Integrated structure- and ligand-based in silico approach to predict inhibition of cytochrome P450 2D6」
Louet, M.、Labbe, C. M.、Fagnen, C.、Aono, C. M.、Homem-de-Mello, P.、Villoutreix, B. O.、Miteva, M. A.、Insights into molecular mechanisms of drug metabolism dysfunction of human CYP2C9*30.、PLoS One 2018、13 (5), e0197249
上記に鑑みて、本発明は、少なくとも1つの薬物代謝酵素、具体的には、タイプCYP、SULT、またはUGTの阻害を予測するための、改良された性能を有するモデルを提案することを目的とする。
本発明の別の目的は、訓練および使用が加速されるモデルを提案することである。
本発明の別の目的は、分子によって酵素の阻害因子をより良く理解するのに役立つことができるモデルを提案することである。
この目的のために、訓練装置によって実装される、決定されたCYP、SULT、またはUGT酵素の阻害剤を予測するためのモデルを訓練するための方法が開示され、この訓練装置は、コンピュータと、決定された酵素の阻害剤または非阻害剤であると知られている分子の数を含む訓練データセットを記憶するメモリとを備え、この方法は、
- 物理化学的分子記述子および決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む分子記述子の初期セットから、分子の阻害特性を予測する際の記述子の相対的重要度に基づいて、記述子のサブセットを選択するステップと、
- 分子に関してコンピュータ計算された分子記述子のサブセットから形成されるベクターを入力として受け取り、決定された酵素に関する分子の阻害特性の指示を出力するように構成された分類モデルの、訓練データセットに関する教師付き訓練を行うステップと
を含む。
- 物理化学的分子記述子および決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む分子記述子の初期セットから、分子の阻害特性を予測する際の記述子の相対的重要度に基づいて、記述子のサブセットを選択するステップと、
- 分子に関してコンピュータ計算された分子記述子のサブセットから形成されるベクターを入力として受け取り、決定された酵素に関する分子の阻害特性の指示を出力するように構成された分類モデルの、訓練データセットに関する教師付き訓練を行うステップと
を含む。
諸実施形態においては、決定された酵素は、
- CYP 2C9
- CYP 2D6
- SULT 1A1
- SULT 1A3、および
- UGT 1A1
からなる群の中から選択される。
- CYP 2C9
- CYP 2D6
- SULT 1A1
- SULT 1A3、および
- UGT 1A1
からなる群の中から選択される。
諸実施形態においては、記述子を、その相対的重要度に基づいて選択するステップは、学習データセットにおいて複数のランダムフォレストモデルを訓練するステップと、セットのすべての記述子のジニ重要度指数(Gini importance index)をコンピュータ計算するステップと、最も高いジニ重要度の記述子を選択するステップとを含む。
諸実施形態においては、選択する記述子の数の、その相対的重要度に基づく決定は、記述子の複数のセットが様々な数の記述子を有する複数のランダムフォレストモデルの平衡精度の代表値(average balanced accuracy)をコンピュータ計算するステップと、平衡精度を最大化する記述子の数を選択するステップとを含む。
諸実施形態においては、方法は、選択するステップの前に、記述子の初期セットから、
- 高度に相関する記述子、
- 訓練データセットのデータにおいて欠損値または無限大の値を有する記述子、および
- 訓練データセットに関する決定されたしきい値を下回る分散(variance)を有する記述子
を取り除くステップを含む。
- 高度に相関する記述子、
- 訓練データセットのデータにおいて欠損値または無限大の値を有する記述子、および
- 訓練データセットに関する決定されたしきい値を下回る分散(variance)を有する記述子
を取り除くステップを含む。
諸実施形態においては、分類モデルは、ランダムフォレストモデル、またはサポートベクターマシンモデルである。
別の目的によれば、分子が、所定の酵素の阻害剤であるかどうかを予測するように構成されている分類モデルが開示され、分類モデルは、上記の説明による方法に従って、訓練データセットにおいて訓練することによって取得される。
諸実施形態においては、分類モデルは、
- 上記の説明に従って訓練されるランダムフォレストモデルによって形成された第1の分類子、
- 上記の説明に従って訓練されるサポートベクターマシンモデルによって形成された第2の分類子、および
- 酵素の複数の配座についてコンピュータ計算された最も低い結合エネルギーと少なくとも1つのしきい値との比較に基づいて、分子が酵素の阻害剤であるかどうかを示す第3の分類子
から形成され得、モデルの出力は、3つの分類子に関する多数決(majority vote)である。
- 上記の説明に従って訓練されるランダムフォレストモデルによって形成された第1の分類子、
- 上記の説明に従って訓練されるサポートベクターマシンモデルによって形成された第2の分類子、および
- 酵素の複数の配座についてコンピュータ計算された最も低い結合エネルギーと少なくとも1つのしきい値との比較に基づいて、分子が酵素の阻害剤であるかどうかを示す第3の分類子
から形成され得、モデルの出力は、3つの分類子に関する多数決(majority vote)である。
候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法も開示され、この方法は、
- 候補分子の分子記述子のセット、および酵素の少なくとも1つの配座における候補分子の少なくとも1つの結合エネルギーをコンピュータ計算するステップと、
- コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、分子記述子のセット、および酵素の配座における候補分子の前記少なくとも1つの結合エネルギーから、前記候補分子が酵素の阻害剤であるか、または非阻害剤であるかに関する指示を出力するように訓練された分類モデルに提供するステップと、
- 前記候補分子が酵素の阻害剤であるか、または非阻害剤であるかに関する、分類によって出力される指示を受け取るステップと
を含む。
- 候補分子の分子記述子のセット、および酵素の少なくとも1つの配座における候補分子の少なくとも1つの結合エネルギーをコンピュータ計算するステップと、
- コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、分子記述子のセット、および酵素の配座における候補分子の前記少なくとも1つの結合エネルギーから、前記候補分子が酵素の阻害剤であるか、または非阻害剤であるかに関する指示を出力するように訓練された分類モデルに提供するステップと、
- 前記候補分子が酵素の阻害剤であるか、または非阻害剤であるかに関する、分類によって出力される指示を受け取るステップと
を含む。
諸実施形態においては、候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法は、上記に開示した訓練方法に従って分類モデルを訓練するステップをさらに含む。
諸実施形態においては、この方法は、コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、ランダムフォレストモデルによって形成された第1の分類子、およびサポートベクターマシンモデルによって形成された第2の分類子に提供するステップと、候補分子が所定の酵素の阻害剤であるか、または非阻害剤であるかどうかに関する指示を各分類子から受け取るステップと
を含み、方法は、
- 酵素の複数の配座について、酵素の各配座との候補分子の結合エネルギーをコンピュータ計算するステップと、
最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
3つの指示に関する多数決に従って、候補分子を酵素の阻害剤または非阻害剤と決定するステップと
をさらに含む。
を含み、方法は、
- 酵素の複数の配座について、酵素の各配座との候補分子の結合エネルギーをコンピュータ計算するステップと、
最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
3つの指示に関する多数決に従って、候補分子を酵素の阻害剤または非阻害剤と決定するステップと
をさらに含む。
諸実施形態においては、候補分子は、候補薬物または生体異物である。
別の目的によれば、コンピュータプログラム製品が開示され、このコンピュータプログラム製品は、上記に開示された訓練方法または予測方法を実装するためのコード命令を含む。
分類モデルを訓練する特許請求された方法は、分子記述子のサブセットを選択するステップを含み、この分子記述子は、分類モデルへの入力として使用され、分子記述子は、考慮されている分子の物理化学的パラメータ、および決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む。
記述子の選択は、酵素の阻害を予測する際の記述子の相対的重要度に基づいており、したがって、記述子の数が抑えられ、所与の分子の記述子をコンピュータ計算するためのコンピュータ計算時間も抑えられる。
さらには、ECFPの代わりに分子の物理化学的パラメータを使用すると、分子の阻害因子をより良く理解することが可能になる。
最後に、モデルは、性能を高めるために、酵素の種々の配座についてコンピュータ計算された様々な結合エネルギーを考慮し得る。ただし、結合エネルギーはまた、記述子選択にも供され、阻害を予測するための重要度が高いそれらのエネルギーのみが維持される。
本発明の他の特徴および利点は、添付の図面を参照して、非限定的な例によって与えられる次の詳細な説明から明らかになろう。
次に、決定された薬物代謝酵素(DME)の阻害剤を予測するためのモデルを訓練するための方法について説明する。図1bを参照すると、方法は、訓練装置1によって実装され、この訓練装置1は、コンピュータ10、例として、プロセッサ、マイクロプロセッサ、コントローラ、またはマイクロコントローラと、訓練データセットおよび検証データセットから構成される学習データセット、ならびにコンピュータによって実行されると上述した方法を実装するためのコード命令を記憶するメモリ11とを備える。訓練データセットおよび検証データセットは、決定された酵素の既知の阻害剤および非阻害剤のリストを含む。
考慮されているDMEは、シトクロムP450(CYP)、スルホトランスフェラーゼ(SULT)、またはUDPグルクロノシルトランスフェラーゼ(UGT)のファミリーに属する。より好ましくは、酵素は、次の群、
- CYP 2C9、
- CYP 2D6、
- SULT 1A1、
- SULT 1A3、および
- UGT 1A1
のうちの1つである。
- CYP 2C9、
- CYP 2D6、
- SULT 1A1、
- SULT 1A3、および
- UGT 1A1
のうちの1つである。
したがって、以下に開示される方法は、この群のうちの所与の酵素について行われ、得られたモデルは、前記酵素の阻害を予測するのに固有である。
図1aを参照すると、方法は、学習データセットを準備する予備ステップ90を含んでもよく、この予備ステップ90は、ChEMBL、PubChem、BRENDA、Aureus Sciences、またはTOXNETなどの文献またはデータベースから、決定された酵素の既知の阻害剤および非阻害剤を収集するステップを含む。さらには、見つかった阻害剤または非阻害剤の数が大きい場合、最も活性が高い阻害剤を維持するための選択を行ってもよい。分子の阻害特性は、酵素の特定の割合の不活性化を与える分子の濃度に対応する指標によって与えられる。最も活性が高い阻害剤を選択するためには、10μM以下の濃度で酵素の阻害を50%もたらすそれらの分子のみを選択することができる。これは、AC50(IC)≦10μMと表される。一方、50μM濃度で10%阻害未満を示す分子(AC10(IC)<50μM)など、最も少ない阻害の分子のみを維持するように選択を行ってもよい。類似性カットオフ0.8を伴う化学的多様性を採用した。次いで、セントロイドを使用して、訓練セットおよび試験セットを構成した。
一旦、このセットが得られると、外部検証データセットは、データセットにおける阻害分子と非阻害分子との両方のうち20%をランダムにとることによって構築することができ、残りの80%は、モデルについての訓練データセットとして維持される。
以下に、より詳細に開示するように、予測モデルは、所与の分子についてコンピュータ計算される記述子の数を入力として受け取るように、および決定された酵素の阻害剤または非阻害剤であるとして分子の分類を出力するように構成されている分類モデルである。
方法は、分子記述子の初期セットを構築するステップ100と、分子の阻害特性を予測する際にそれらの相対的重要度に基づいて、この初期セットの中から分子記述子のサブセットの選択200とを含む。
分子記述子の初期セットは、分子のサイズ、質量、かさ高、体積、形状、構造的対称性および複雑さ、柔軟性、元素、電界および結合、結合強度、極性、電気陰性度、分極性、イオン化ポテンシャル、芳香性、脂溶性、表面積、極表面積など、分子の特徴を表現する、物理化学的分子記述子を含む。
諸実施形態においては、物理化学的記述子は、分子の接続表表現からコンピュータ計算される数値プロパティであって、分子の配座には依存しない、2D物理化学的記述子を含む。例として、これらの記述子は、PaDELソフトウェアを使用して計算され得る。
分子記述子の初期セットは、少なくとも100の物理化学的記述子、例として、少なくとも500の物理化学的記述子、例として、500から2000の間の物理化学的記述子の初期数を含むことができる。
分子記述子の初期セットはまた、決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む。諸実施形態においては、酵素の少なくとも1つの構造は、例として、アポ構造および/または少なくとも1つのホロ共結晶化構造を含む、既知のデータベースから選択されてもよく、分子動力学シミュレーションは、酵素の異なる配座を生成するための各構造について実行されてもよい。配座生成には、例として、CHARMMまたはNAMDソフトウェアを使用してもよい。
酵素の各配座上の分子の結合エネルギーは、それぞれの配座における分子のドッキングを行うことによってコンピュータ計算され得る。AutoDock Vinaなどのソフトウェアが、この目的のために使用されてもよい。
好ましくは、記述子の初期セットは、酵素のいくつかの配座における複数の結合エネルギーを含む。例として、記述子の初期セットは、1から20の間の結合エネルギー、好ましくは、2から15の間の結合エネルギー、例として、2から10の間の結合エネルギーを含むことができる。これにより、同じ分類モデルにおいて、考慮される酵素の種々の配座を考慮に入れることが可能になる。これらの結合エネルギーは、ジニ重要度の計算によって、最終的記述子の選択に入る。
次いで、方法は、この初期セットの中から記述子のサブセットの選択200を含む。
選択するステップ200は、記述子の初期セットから、
- 訓練データセットのすべてのデータにおいて欠損値または無限大の値を有する記述子、
- 訓練データセットに関してヌルに近い分散を有する記述子(記述子を取り除くしきい値が設定され得、記述子は、前記しきい値を下回る分散を有する)
- (例として、ピアソン相対係数の絶対値が、0.85以上、例として、0.9以上の)高度に相関する記述子
を取り除く予備ステップ210を含んでもよい。
- 訓練データセットのすべてのデータにおいて欠損値または無限大の値を有する記述子、
- 訓練データセットに関してヌルに近い分散を有する記述子(記述子を取り除くしきい値が設定され得、記述子は、前記しきい値を下回る分散を有する)
- (例として、ピアソン相対係数の絶対値が、0.85以上、例として、0.9以上の)高度に相関する記述子
を取り除く予備ステップ210を含んでもよい。
次いで、記述子の選択200は、記述子を、分子の阻害特性を予測する際のそれらの相対重要度に基づいて選択するステップ220を含む。
諸実施形態においては、記述子のサブセットの選択は、訓練データセットにおいて複数のランダムフォレストモデルを訓練すること、および最も高いジニ重要度を有する記述子のサブセットを選択することを含む。
ここでは記述子に対応するX1、…、Xpを独立変数として、およびYを応答変数としてもつ2値分類問題について考えると、ランダムフォレストを構成する所与の木Tの所与のノードtにおいてY∈[0,1]である場合、ジニ指数は、
G(t)=2pt(1- pt)
と定義され、ただし、pt=P(Y=0|node=t)である。
G(t)=2pt(1- pt)
と定義され、ただし、pt=P(Y=0|node=t)である。
ジニ不純物指数としても知られているジニ指数は、データセット内のランダムに選ばれた要素を、データセット内の分類分布に従ってランダムにラベル付けされた場合、誤って分類する確率の尺度である。判断木またはランダムフォレストを訓練すると、所与のノードにおける最良の分岐は、ノードにおいてジニ指数の減少を最大化することによって選ばれる。変数Xjがノードtを2つのサブノードt1およびt2に分岐する場合、tにおけるジニ指数の減少は、
と定義される。
ここで、ntは、ノードtにおけるサンプル被験者の数であり、n1は、ノードt1におけるサンプル被験者の数であり、n2は、ノードt2におけるサンプル被験者の数である。変数Xjのジニ重要度は、
である。
したがって、この方法は、記述子の初期セット(ステップ210の終了時に記述子のうちのいくつかが取り除かれている)の各記述子のジニ重要度のコンピュータ計算と、それらのジニ重要度に従った記述子のランク付けと、ジニ重要度が最も高い記述子の数の選択とを含み得る。諸実施形態においては、複数のランダムフォレスト、たとえば数百から千の間のランダムフォレストが計算され得、各記述子のジニ重要度が代表値化され(averaged)得、それにより、モデル間のランダム性の差による予測精度への影響がなくなる。
ステップ220の終了時に選択される記述子のサブセットが、阻害を予測する際の物理化学的記述子よりも重要度が低い場合、結合エネルギーをもはや含まない場合があることに留意すべきである。しかしながら、以下に与えられる結果は、酵素CYP2C9、CYP2D6、SULT1A1、SULT1A3、およびUGT1A1のそれぞれについて、複数の結合エネルギーがステップ220の終了時に残っていることを示している。
ステップ220の終了時に選択される記述子のサブセットは、100未満の記述子、例として、50から100の間の記述子を含むことができる。諸実施形態においては、ステップ220の終了時に保持する記述子の数の決定は、最初の上位10から最初の100の記述子までの記述子の複数のセットを用いて計算されるランダムフォレストの性能を計算することを含むことができる。計算された性能は、感度と特異度との平均である平衡精度の代表値とすることができる。
図2を参照すると、酵素CYP2C9、CYP2D6、SULT 1A1、SULT1A3、およびUGT1A1について、横軸の、記述子の数、最初の10から最初の100までの記述子を有する記述子の複数のセットを用いた100のランダムフォレストに関する平衡精度の代表値が縦軸に示されている。平衡精度の代表値は、訓練データセットにおいてコンピュータ計算される。SULT 1A1およびCYP2D6の平衡精度は、40から60までの記述子の間で上昇し、次いで、平坦域に達し、またはさらにはCYP2D6についてはわずかに低下していることがわかり得る。したがって、記述子の数は、平衡精度を最大化するものとして設定することができる。
予測モデルの精度を向上させることに加えて、記述子の数を減らすことは、記述子の計算速度および正確さに重要な役割を果たす。例として、382を含む分子記述子のセットから始めるということは、1つの分子についてすべての記述子をコンピュータ計算するためのコンピュータ計算時間が8分であることを表す。83の記述子の選択を使用する場合、コンピュータ計算時間は、1分子当たり1分まで抑えられる。
同じことが、結合エネルギー計算についてのコンピュータ計算時間に当てはまるのは、1つの分子についてのコンピュータ計算時間に、分類モデルについてコンピュータ計算される結合エネルギーの数に関与し、対応する種々の蛋白質配座の数を乗じるからである。
一旦、記述子のサブセットが選択されると、方法は、記述子の選択されたサブセットを入力として受け取り、考慮されている酵素の阻害または非阻害として所与の分子の分類を出力するように構成されている分類モデルを訓練すること300を含む。
分類モデルは、ランダムフォレストモデルまたはサポートベクターマシンモデルのいずれかである。モデルは、学習データベースに関して、すなわち、訓練データセットの各分子について、教師付きの訓練によって訓練され、記述子の選択されたサブセットが分子についてコンピュータ計算され、決定された酵素における分子の阻害特性または非阻害特性の指示が、分類モデルに提供される。
分類モデルがランダムフォレストモデルである諸実施形態においては、複数の判断木が、訓練データセットからのブートストラップサンプルに基づいて構築され、記述子の小さいサブセットがランダムに選択されて、各木の各ノードにおいて判断が行われる。ランダムフォレストの最終分類は、多数決によってすべての木の結果を取り入れることによって得られる。
各木の各ノードにおける記述子の数は、当分野において幅広く受け入れられている√pと等しくてもよく、ここで、pは、ステップ200の終了時に選択される記述子のサブセットにおける記述子の数である。さらには、複数のランダムフォレストモデルが訓練され得、このランダムフォレスト内には、可変数(例として25から1024の間)の木があり、分類モデルは、木の数が最良の内部精度をもたらすものとして選択され得る。
分類モデルがサポートベクターマシンである実施形態においては、ステップ200の終了時に選択される記述子は、あらかじめ平均0に中心が置かれ、1に等しい分散にスケール付けされ得る。諸実施形態においては、SVMモデルは、放射基底関数カーネルに基づいている。パラメータ調整は、グリッドサーチによって行うことができ、コストパラメータは、2-2~220の範囲で最適化され、ガンマパラメータ/シグマパラメータは、2-20~22の範囲で変動する。
諸実施形態においては、ステップ300は、ランダムフォレストモデルとサポートベクターマシンモデルとの両方を訓練することを含む。
訓練された分類モデルのパラメータは、メモリに記憶され得る。
分類モデルは、一旦、訓練されると、候補薬物分子とすることができる分子の阻害特性を予測するのに使用され得る。次いで、分子の試験は、所与の分子についての選択された記述子のサブセットをコンピュータ計算すること、および訓練されたモデルにコンピュータ計算された記述子を与えることを含み、それにより、訓練されたモデルは、その分子を阻害または非阻害として分類することになる。
ランダムフォレストモデルとサポートベクターマシンモデルとの両方が訓練されている諸実施形態においては、分子の阻害特性の予測は、
- SVMモデルと、
- ランダムフォレストモデルと、
- 薬物代謝酵素の種々の蛋白質配座についてコンピュータ計算される、計算された結合エネルギーの最も低い第3の分類子であって、少なくとも1つ、および好ましくは2つのしきい値と比較される、第3の分類子と
に関して多数決をとることによって行うことができる。
- SVMモデルと、
- ランダムフォレストモデルと、
- 薬物代謝酵素の種々の蛋白質配座についてコンピュータ計算される、計算された結合エネルギーの最も低い第3の分類子であって、少なくとも1つ、および好ましくは2つのしきい値と比較される、第3の分類子と
に関して多数決をとることによって行うことができる。
この最後の分類子によれば、分子は、対応する結合エネルギー(種々の蛋白質配座の中で最も低いもの)が第1のしきい値T1よりも大きい場合、非阻害剤として、結合エネルギーが第2のしきい値T2(<T1)よりも小さい場合、阻害剤として割り当てられ得る。結合エネルギーがT1とT2との間にある場合、判断は行われない。種々の酵素配座についての最も低い結合エネルギーを用いると、対象のリガンドを収容するのに最も適している酵素配座を見つけることが可能になる。このリガンドについての最良のランク付けスコア(結合エネルギー)による生成されたドッキング位置により、原子レベルにおいて酵素/リガンドの相互作用に関する情報を獲得することが可能になる。
したがって、そのような実施形態においては、予測方法は、訓練されたSVMモデルおよびランダムフォレストモデルにコンピュータ計算された記述子を与えることに加えて、追加的なステップ、
- 酵素の複数の配座について、酵素の各配座との候補分子の結合エネルギーをコンピュータ計算するステップと、
- 最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
- 3つの指示に関する多数決に従って、候補分子を酵素の阻害剤または非阻害剤と決定するステップと
を含むことができる。
- 酵素の複数の配座について、酵素の各配座との候補分子の結合エネルギーをコンピュータ計算するステップと、
- 最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
- 3つの指示に関する多数決に従って、候補分子を酵素の阻害剤または非阻害剤と決定するステップと
を含むことができる。
記述子をコンピュータ計算し、訓練されたモデルを適用するためのコンピュータ計算装置は、上述の訓練装置と同じであっても、または異なっていてもよい。
(実施例)
CYP2C9の既知の阻害剤および既知の阻害剤をデータベースから取得し、AC50(IC)≦10μMの阻害剤のみを保持し、50μM濃度において<20%の阻害を示す非阻害剤を保持した。訓練データセットは、結果的に、3811の阻害剤および2468の非阻害剤をもたらした。CYP2D6の場合、訓練データセットは、結果的に、343の阻害剤、および3002の非阻害剤をもたらした。SULT1A1の場合、87の阻害剤、および500のデコイ(decoy)非阻害剤を維持した。SULT1A3の場合、76の阻害剤、および370のデコイ非阻害剤を維持した。UGT1A1の場合、71の阻害剤および361のデコイ非阻害剤を維持した。
CYP2C9の既知の阻害剤および既知の阻害剤をデータベースから取得し、AC50(IC)≦10μMの阻害剤のみを保持し、50μM濃度において<20%の阻害を示す非阻害剤を保持した。訓練データセットは、結果的に、3811の阻害剤および2468の非阻害剤をもたらした。CYP2D6の場合、訓練データセットは、結果的に、343の阻害剤、および3002の非阻害剤をもたらした。SULT1A1の場合、87の阻害剤、および500のデコイ(decoy)非阻害剤を維持した。SULT1A3の場合、76の阻害剤、および370のデコイ非阻害剤を維持した。UGT1A1の場合、71の阻害剤および361のデコイ非阻害剤を維持した。
2つのX線CYP2C9構造、すなわち、ロサルタンと共結晶化された5XXI、およびフルルビプロフェンと共結晶化された1R90を蛋白質構造データバンク(the Protein Data Bank)から取り入れた。多様な結合ポケット配座を含む、2つの結晶および5つの蛋白質セントロイド構造を含む7という数の配座を先に行ったMDシミュレーションから生成し、それについては、Louet, M.、Labbe, C. M.、Fagnen, C.、Aono, C. M.、Homem-de-Mello, P.、Villoutreix, B. O.、Miteva, M. A.、Insights into molecular mechanisms of drug metabolism dysfunction of human CYP2C9*30.、PLoS One 2018、13 (5), e0197249で閲覧可能である。
CYP2D6については、6つの配座を生成した。2つのX線構造、すなわち、プリノマスタットと共結晶化されたもの、3QM4と、アポ構造、2F9Qとを蛋白質構造データバンクから取り入れた。多様な結合ポケット配座を含む、2つの結晶構造および4つの蛋白質セントロイド構造を含む6という数の配座を先に行ったMDシミュレーションから生成し、それについては、Martiny VY、Carbonell P、Chevillard F、Moroy G、Nicot AB、Vayer P、Villoutreix BO、Miteva MA.、Integrated structure- and ligand-based in silico approach to predict inhibition of cytochrome P450 2D6. Bioinformatics. 2015、31(24):3930~7で閲覧可能である。
SULT1A1については、9つの配座を生成した。1つのX線構造4GRAを蛋白質構造データバンクから取り入れた。加えて、補因子PAPを含む2つの蛋白質セントロイド構造、および補因子PAPSを含む6つの蛋白質セントロイド構造を先に行ったMDシミュレーションから生成した。
SULT1A3については、補因子PAPSを含む13の蛋白質セントロイド構造を蛋白質構造データバンクから取り入れたX線構造2A3Rから開始して先に行ったMDシミュレーションから生成した。
UGT1A1については、補因子UDPグルクロン酸を含む10の蛋白質セントロイド構造を基質と補因子結合ドメインとのホモロジーモデルから開始して先に行ったMDシミュレーションから生成した。
1050という数の2D物理化学的分子記述子を、PaDELソフトウェアを用いて訓練および検証データセットにおいて計算した。いくつかの記述子をステップ210に従って、具体的には、ピアソンの相関係数(Pearson correlation coefficient)の絶対値が0.9よりも高い記述子を取り除くことによって取り除き、その結果、382という数の物理化学的記述子が残った。これらの記述子に、各配座についての結合エネルギーを加えた。次いで、ステップ220に従って、最も重要な記述子の選択を行った。図2は、CYP2D6、CYP2C9、SULT1A1、SULT1A3、およびUGT1A1についての、記述子の数とともに100のランダムフォレストに関する平衡精度の代表値の進展を表しているが、下記のTable 1(表1)は、382の物理化学的記述子と結合エネルギー記述子をすべて含む、すなわち記述子選択前の100のランダムフォレストに関する平衡精度の代表値を%で示している。
最終的に、CYP2C9については5つの結合エネルギーを含む上位88の記述子、CYP2D6については5つの結合エネルギーを含む上位88の記述子、SULT1A1については4つの結合エネルギーを含む上位60の記述子、SULT1A3については5つの結合エネルギーを含む上位85の記述子、およびUGT1A1については6つの結合エネルギーを含む上位86の記述子が選ばれた。
統計ソフトウェアパッケージRにおけるランダムフォレストRライブラリを使用して、ランダムフォレスト分類を行った。木の数ntreeが25~1024の範囲、およびノード当たりの記述子の数mtryが5~18の範囲にわたってスキャニングしてランダムフォレスト計算を実行した。各モデルについて、最良の内部精度をもつntreeとmtryとのパラメータの組合せを選択した。第2のスキャンを、訓練データセットが非平衡である場合に各木について取り入れる正/負の分子の数を選ぶことが可能になるRソフトウェアにおけるRandomForestのパラメータsampsizeにわたって行った。
Table 2(表2)においては、最終ランダムフォレストモデル予測精度が%で、およびそれらの対応するパラメータが示されている。平衡精度は、感度と特異度との平均である。
サポートベクターマシンモデルも、e1071およびCaretライブラリをもつRパッケージにおいて実装される放射カーネルを使用して作成した。パラメータ調整を、10回の検証を5回繰り返すことを用いるグリッドサーチによって行った。コストパラメータは、範囲2-2~220で最適化し、ガンマ/シグマは2-20から22まで変動させた。データセットの非平衡を高度に補償するために、重みパラメータを使用し、誤分類された可観測量にペナルティを課した。
Table 3(表3)においては、最終SVMモデル予測精度を%で、およびそれらの対応するパラメータが示されている。
両方のモデルが従来技術の項で論じた手法よりも高い平衡精度をCYP2D6にもたらすことに気付くことができる。具体的には、選択された記述子により、分子の阻害特性を試験するためのより高い精度および上昇したコンピュータ計算速度を得ることが可能になる。
上記に示したように、最終SVMモデルおよびRFモデルに加えて、DMEの種々の蛋白質配座についての計算された結合エネルギーのうちの最も低いものは、第3の分類子として利用することができる。それにより、SVMモデル、RFモデル、およびエネルギー判断に関して多数決をとるとき、DMEの阻害剤または非阻害剤として割り当てられることになる分子の最終判断が可能になる。
計算された結合エネルギーを第3の分類子として使用すると、
- CYP2C9およびCYP2D6についてのしきい値は、-7.0kcal/molおよび-8.5kcal/molとすることができ、したがって、この分類子によれば、分子は、その結合エネルギーが>-7.0kcal/molである場合、非阻害剤であり、その結合エネルギーが<-8.5kcal/molである場合、阻害剤であると判断される。
- SULT1A1およびSULT1A3についてのしきい値は、-5.0kcal/molおよび-7.5kcal/molであってよく、したがって、この分類子によれば、分子は、その結合エネルギーが>-5.0kcal/molである場合、非阻害剤であり、その結合エネルギーが<-7.5kcal/molである場合、阻害剤であると判断される。
- UGT1A1についてのしきい値は、-6.5kcal/molおよび-8.0kcal/molであってよく、したがって、この分類子によれば、分子は、その結合エネルギーが>-6.5kcal/molである場合、非阻害剤であり、その結合エネルギーが<-8.0kcal/molである場合、阻害剤であると判断される。
- CYP2C9およびCYP2D6についてのしきい値は、-7.0kcal/molおよび-8.5kcal/molとすることができ、したがって、この分類子によれば、分子は、その結合エネルギーが>-7.0kcal/molである場合、非阻害剤であり、その結合エネルギーが<-8.5kcal/molである場合、阻害剤であると判断される。
- SULT1A1およびSULT1A3についてのしきい値は、-5.0kcal/molおよび-7.5kcal/molであってよく、したがって、この分類子によれば、分子は、その結合エネルギーが>-5.0kcal/molである場合、非阻害剤であり、その結合エネルギーが<-7.5kcal/molである場合、阻害剤であると判断される。
- UGT1A1についてのしきい値は、-6.5kcal/molおよび-8.0kcal/molであってよく、したがって、この分類子によれば、分子は、その結合エネルギーが>-6.5kcal/molである場合、非阻害剤であり、その結合エネルギーが<-8.0kcal/molである場合、阻害剤であると判断される。
1 訓練装置
10 コンピュータ
11 メモリ
90 学習データセットを準備する予備ステップ
100 分子記述子の初期セットを構築するステップ
200 分子記述子のサブセットの選択
210 記述子を取り除く予備ステップ
220 記述子を選択するステップ
300 ランダムフォレストモデルとサポートベクターマシンモデルとの両方を訓練するステップ
10 コンピュータ
11 メモリ
90 学習データセットを準備する予備ステップ
100 分子記述子の初期セットを構築するステップ
200 分子記述子のサブセットの選択
210 記述子を取り除く予備ステップ
220 記述子を選択するステップ
300 ランダムフォレストモデルとサポートベクターマシンモデルとの両方を訓練するステップ
Claims (13)
- 訓練装置(1)によって実装される、決定されたCYP、SULT、またはUGT酵素の阻害剤を予測するためのモデルを訓練するための方法であって、前記訓練装置(1)が、コンピュータ(10)と、前記決定された酵素の阻害剤または非阻害剤であると知られている分子の数を含む訓練データセットを記憶するメモリ(11)とを備え、前記方法が、
- 物理化学的分子記述子および前記決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む分子記述子の初期セットから、分子の阻害特性を予測する際の前記記述子の相対的重要度に基づいて、記述子のサブセットを選択するステップ(220)と、
- 分子に関してコンピュータ計算された分子記述子の前記サブセットから形成されるベクターを入力として受け取り、前記決定された酵素に関する前記分子の前記阻害特性の指示を出力するように構成された分類モデルの、前記訓練データセットに関する教師付き訓練を行うステップ(300)と
を含む、方法。 - 前記決定された酵素が、
- CYP 2C9
- CYP 2D6
- SULT 1A1
- SULT 1A3、および
- UGT 1A1
からなる群の中から選択される、請求項1に記載の方法。 - 記述子を、前記記述子の相対的重要度に基づいて選択するステップが、学習データセットにおいて複数のランダムフォレストモデルを訓練するステップと、前記セットのすべての記述子のジニ重要度指数をコンピュータ計算するステップと、最も高いジニ重要度の前記記述子を選択するステップとを含む、請求項1または2に記載の方法。
- 選択する記述子の数を前記記述子の相対的重要度に基づいて決定するステップが、記述子の複数のセットが様々な数の記述子を有する複数のランダムフォレストモデルの平衡精度の代表値をコンピュータ計算するステップと、前記平衡精度を最大化する記述子の数を選択するステップとを含む、請求項3に記載の方法。
- 前記選択するステップ(220)の前に、記述子の前記初期セットから、
- 高度に相関する記述子、
- 前記訓練データセットのデータにおいて欠損値または無限大の値を有する記述子、および
- 前記訓練データセットに関する決定されたしきい値を下回る分散を有する記述子
を取り除くステップ(210)を含む、請求項3または4に記載の方法。 - 前記分類モデルが、ランダムフォレストモデル、またはサポートベクターマシンモデルである、請求項1から5のいずれか一項に記載の方法。
- 分子が、所定の酵素の阻害剤であるかどうかを予測するように構成されている分類モデルであって、請求項1から6のいずれか一項に記載の方法に従って、訓練データセットにおいて訓練することによって取得される、分類モデル。
- 前記分類モデルが、
- 請求項1から6のいずれか一項に従って訓練されるランダムフォレストモデルによって形成された第1の分類子、
- 請求項1から6のいずれか一項に従って訓練されるサポートベクターマシンモデルによって形成された第2の分類子、および
- 前記酵素の複数の配座についてコンピュータ計算された最も低い結合エネルギーと少なくとも1つのしきい値との比較に基づいて、分子が前記酵素の阻害剤であるかどうかを示す第3の分類子
から形成され、
前記モデルの出力が、前記3つの分類子に関する多数決である、
請求項7に記載の分類モデル。 - 候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法であって、
- 前記候補分子の分子記述子のセット、および前記酵素の少なくとも1つの配座における前記候補分子の少なくとも1つの結合エネルギーをコンピュータ計算するステップと、
- 前記コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、分子記述子の前記セット、および前記酵素の配座における前記候補分子の前記少なくとも1つの結合エネルギーから、前記候補分子が前記酵素の阻害剤であるか、または非阻害剤であるかに関する指示を出力するように訓練された分類モデルに提供するステップと、
- 前記候補分子が前記酵素の阻害剤であるか、または非阻害剤であるかに関する、分類によって出力される指示を受け取るステップと
を含む、方法。 - 請求項1から6のいずれか一項に記載の方法を実装することによって、前記分類モデルを訓練するステップをさらに含む、候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法。
- 前記コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、ランダムフォレストモデルによって形成された第1の分類子、およびサポートベクターマシンモデルによって形成された第2の分類子に提供するステップと、前記候補分子が前記所定の酵素の阻害剤であるか、または非阻害剤であるかどうかに関する指示を各分類子から受け取るステップとを含み、
- 前記酵素の複数の配座について、前記酵素の各配座との前記候補分子の結合エネルギーをコンピュータ計算するステップと、
- 最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
- 前記3つの指示に関する多数決に従って、前記候補分子を前記酵素の阻害剤または非阻害剤と決定するステップと
をさらに含む、請求項9または10に記載の方法。 - 前記候補分子が、候補薬物または生体異物である、請求項9から11のいずれか一項に記載の方法。
- コンピュータによって実行されると、請求項1から6のいずれか一項、または請求項9もしくは12に記載の方法を実装するためのコード命令を含む、コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20305852 | 2020-07-24 | ||
EP20305852.4 | 2020-07-24 | ||
PCT/EP2021/070646 WO2022018253A1 (en) | 2020-07-24 | 2021-07-23 | Training method and model for predicting inhibitors of drugs metabolizing enzymes |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023534867A true JP2023534867A (ja) | 2023-08-14 |
Family
ID=72046810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023504628A Pending JP2023534867A (ja) | 2020-07-24 | 2021-07-23 | 薬物代謝酵素の阻害剤を予測するための訓練方法およびモデル |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230290436A1 (ja) |
EP (1) | EP4186059A1 (ja) |
JP (1) | JP2023534867A (ja) |
WO (1) | WO2022018253A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115274002B (zh) * | 2022-06-13 | 2023-05-23 | 中国科学院广州地球化学研究所 | 一种基于机器学习的化合物持久性筛查方法 |
-
2021
- 2021-07-23 WO PCT/EP2021/070646 patent/WO2022018253A1/en active Application Filing
- 2021-07-23 US US18/006,030 patent/US20230290436A1/en active Pending
- 2021-07-23 EP EP21749568.8A patent/EP4186059A1/en active Pending
- 2021-07-23 JP JP2023504628A patent/JP2023534867A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4186059A1 (en) | 2023-05-31 |
WO2022018253A1 (en) | 2022-01-27 |
US20230290436A1 (en) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Burgess et al. | Mendelian randomization with fine‐mapped genetic data: choosing from large numbers of correlated instrumental variables | |
Lou et al. | A generalized combinatorial approach for detecting gene-by-gene and gene-by-environment interactions with application to nicotine dependence | |
Evangelou et al. | Meta-analysis methods for genome-wide association studies and beyond | |
Anahtar et al. | Applications of machine learning to the problem of antimicrobial resistance: an emerging model for translational research | |
Wei et al. | From disease association to risk assessment: an optimistic view from genome-wide association studies on type 1 diabetes | |
Güvenç Paltun et al. | Improving drug response prediction by integrating multiple data sources: matrix factorization, kernel and network-based approaches | |
Gilbert‐Diamond et al. | Analysis of gene‐gene interactions | |
Bagos | Genetic model selection in genome-wide association studies: robust methods and the use of meta-analysis | |
Thomas et al. | Network reconstruction of platelet metabolism identifies metabolic signature for aspirin resistance | |
Hizukuri et al. | Predicting target proteins for drug candidate compounds based on drug-induced gene expression data in a chemical structure-independent manner | |
Mugumbate et al. | Target identification of Mycobacterium tuberculosis phenotypic hits using a concerted chemogenomic, biophysical, and structural approach | |
WO2011044458A1 (en) | Compositions and methods for diagnosing genome related diseases and disorders | |
Wang et al. | Efficient gene–environment interaction tests for large biobank‐scale sequencing studies | |
Gemmer et al. | Can metabolic prediction be an alternative to genomic prediction in barley? | |
Li et al. | mBAT-combo: a more powerful test to detect gene-trait associations from GWAS data | |
JP2023534867A (ja) | 薬物代謝酵素の阻害剤を予測するための訓練方法およびモデル | |
Manduchi et al. | Genetic analysis of coronary artery disease using tree-based automated machine learning informed by biology-based feature selection | |
Atkinson et al. | Genetic structure correlates with ethnolinguistic diversity in eastern and southern Africa | |
Islam et al. | Molecular-evaluated and explainable drug repurposing for COVID-19 using ensemble knowledge graph embedding | |
Sridharan et al. | Developing supervised machine learning algorithms to evaluate the therapeutic effect and laboratory-related adverse events of cyclosporine and tacrolimus in renal transplants | |
Woodard et al. | Protein structural features predict responsiveness to pharmacological chaperone treatment for three lysosomal storage disorders | |
Jung et al. | A machine learning method for selection of genetic variants to increase prediction accuracy of type 2 diabetes mellitus using sequencing data | |
Gao et al. | Integrative analysis of genetical genomics data incorporating network structures | |
Saber et al. | Single nucleotide variants in Pseudomonas aeruginosa populations from sputum correlate with baseline lung function and predict disease progression in individuals with cystic fibrosis | |
Kingston et al. | Accounting for population structure in genetic studies of cystic fibrosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240219 |