JP2023534867A

JP2023534867A - 薬物代謝酵素の阻害剤を予測するための訓練方法およびモデル

Info

Publication number: JP2023534867A
Application number: JP2023504628A
Authority: JP
Inventors: マリア・ミテヴ; マリー－アン・ロリオ; アルノー・ニコ; エロディ・ゴールドワサー; クリスティアン・イェルシュ; カトリーヌ・ローラン
Original assignee: Universite de Nantes; Sorbonne Universite; Universite Paris Cite
Current assignee: Universite de Nantes; Sorbonne Universite; Universite Paris Cite
Priority date: 2020-07-24
Filing date: 2021-07-23
Publication date: 2023-08-14
Also published as: EP4186059A1; WO2022018253A1; US20230290436A1

Abstract

本発明は、薬物代謝酵素(DME)阻害剤の予測に関する。DMEの阻害は、有害な薬物間相互作用につながり、したがって、決定された分子によってDMEの阻害を予測することは、薬物毒性を防止するためにきわめて重要である。発明者らは、DMEの阻害を予測するために、統合したインシリコ蛋白質構造ベースの機械学習手法のプロトコルを生み出した。具体的には、本発明は、DMEの阻害を予測するためのモデルを訓練するための方法に関し、この方法は、物理化学的記述子および少なくとも1つの酵素構成における結合エネルギーを含む初期セットの中から記述子の数の選択と、入力として選択された記述子に基づいて、既知の阻害剤または非阻害剤の学習データベースにおける分類モデルの訓練とを含む。この手法により、CYP2C9、CYP2D6、SULT1A1、SULT1A3、およびUGT1A1の阻害の予測に成功した。

Description

本開示は、分類モデルを訓練し使用して、決定された薬物代謝酵素(Drug Metabolizing Enzymes、DME)、詳細には、シトクロムP450(cytochromesP450、CYP)、スルホトランスフェラーゼ(sulfotransferases、SULT)、およびUDPグルクロノシルトランスフェラーゼのファミリーに属する酵素における分子の阻害特性を予測することに関する。

薬物代謝酵素は、内因性分子、生体異物および人体に取り込まれた薬物の代謝に重要な役割を担う。その主な役割は、汚染物質または薬物などの内因性および外因性の化合物を速やかに排泄させるように修飾することによって生体を解毒することであるが、場合によっては、薬物代謝酵素は、その基質の毒性をより高めさせ、それによって、深刻な副作用および有害な薬物反応が誘発されることもある。第I相DMEは、代謝物をもたらす酸化反応への触媒作用を及ぼし、この代謝物は、排泄されるか、またはさらには、抱合反応に触媒作用を及ぼす第II相DMEによって修飾されるかのいずれかの場合がある。場合によっては、第II相DMEは、第I相DMEを経ることなく、化合物を直接修飾することができる。DMEの阻害は、活性部位における競合阻害、活性部位と酵素の外部との間の基質もしくは代謝フラックスの修飾、または薬物自体もしくはその代謝物による阻害(時間依存性阻害)に対応し、ひいては有害な薬物間相互作用につながる場合があるので、複雑な工程である。したがって、潜在的DME阻害を予測することは、薬物毒性を防止するためにきわめて重要である。

DMEの中でも、シトクロムP450(CYP)は、薬物、生体異物、および内因性分子の代謝を担う酸化酵素のスーパーファミリーである。市販の薬物の約75%は、6つの主要アイソフォーム、すなわち、1A2、2C8、2C9、2C19、2D6、および3A4をもつCYPによって代謝されることが推定される。CYP阻害は、薬物消失の減少をもたらし、そのことは、有害な薬物間相互作用の主な原因である。場合によっては、CYP酸化により、毒性代謝物がもたらされることもある。そのため、臨床薬物治療および早期段階薬物発見には、CYP酵素の潜在的阻害を特定することが必要である。

DMEの中でも、多くの薬物を代謝する別の酵素ファミリーは、スルホトランスフェラーゼ(SULT)である。SULTは、求核攻撃を実行することによって、補因子である3'-ホスホアデノシン5'-ホスホスルフェート(3'-Phosphoadenosine 5'-Phosphosulfate、PAPS)から、基質のヒドロキシル基またはアミノ基への硫酸抱合を触媒する。高濃度では、いくつかの基質は、酵素を阻害し、結合した不活性な補因子PAPを含むデッドエンド複合体が同定されている。硫酸抱合は、通常、排泄を促進させるが、いくつかの特殊な場合においては、いくつかの薬物の薬理学的活性が高まることもある(たとえば、血圧降下プロドラッグであるミノキシジルは、硫酸抱合後に完全に活性になる)。さらには、SULTは、DNAと共有結合することができる反応性の高い硫酸エステルを生成することによって、いくつかの化学物質を発がん性物質またはプロ変異原の活性化物質(たとえば、7,12-ジメチルベンズ(a)アントラセン)に変質させることができる。小さい内因性化合物および生体異物の代謝を担うSULTは、サイトゾルに局在している。ヒトのSULTの4つのファミリーは、今までに、SULT1、SULT2、SULT4、およびSULT6によって同定されている。SULT1ファミリーの中でも、フェノール、性ステロイドホルモン(エストロゲン)、甲状腺ホルモン、および薬物(たとえば、ミノキシジル、パラセタモール、17α-エチニルエストラジオール)のような幅広い様々な化合物を代謝するSULT 1A1は、最も発現されるものである(肝臓、腸、腎臓、甲状腺、血小板に見られる)。

最後に、UDPグルクロノシルトランスフェラーゼ(UDP-glucuronosyltransferase、UGT)は、ウリジン二リン酸グルクロニルトランスフェラーゼ遺伝子ファミリーに属する。UGTは、数多くの治療法および環境毒素、ならびに様々な内因性ステロイドおよび他のシグナル伝達分子へのグルクロン酸の糖部分の共有結合付加を触媒する。UGT触媒によるグルクロン酸抱合は、第II相薬物代謝反応の最大で35%までを占めると考えられている。3つの主要アイソフォーム、UGT 2B7、UGT 1A4、およびUGT 1A1は、UGTによって代謝される薬物のそれぞれ35%、20%、および15%の薬物修飾を担っている。

DMEを介する分子の阻害特性を予測するために、分類モデルに基づいた手法が提案されている。

具体的には、2015年8月26日、Bioinformatics 31(24)、3930～3937、doi: 10.1093/bioinformatics/btv486におけるV. Y. Martinyらによる発行物、「Integrated structure- and ligand-based in silico approach to predict inhibition of cytochrome P450 2D6」には、CYP2D6の予測についてのインシリコ手法について開示されており、ここでは、3つの学習アルゴリズム、すなわち、サポートベクターマシン、ランダムフォレスト、およびナイーブベイジアンを訓練し、試験して、シトクロムP450 2D6の阻害を予測している。

より具体的には、この論文では、1つのアポ構造PDB ID 2F9Qおよびプリノマスタットと共結晶化された1つのホロ構造においてCYP2D6の様々な分子動力学シミュレーション(molecular dynamics simulations、MD)を行って、結合エネルギーを最良に予測する結合部位配座を同定することについて開示している。

次いで、所与の分子の入力記述子として、拡張接続フィンガープリント(extended connectivity fingerprint、ECFP)を含む記述子セット、および最良のMD受容体配座において計算された蛋白質リガンド結合エネルギーを使用して、各分類モデルを、CYP2D6の343の阻害剤と3002の阻害剤とを含む学習データベースにおいて訓練した。

それらの阻害モデルは、訓練セットにおいては78%、外部検証セットにおいては75%の精度によりCYP2D6阻害を予測することができた。しかしながら、この方法は、いくつかの制約に悩まされる。まず、このモデルにおいて使用される記述子の数(最大で2000)および記述子のタイプ(ECFP)の数が大きいことにより、なぜ分子が阻害剤もしくは非阻害剤として予測されるのか、または分子の阻害特性に影響を与える主な理由を理解することができない。

さらには、記述子の数が大きいことにより、所与の分子について各記述子をコンピュータ計算するためのコンピュータ計算時間が必要であるので、分類モデルの訓練および使用の進みが遅くなる。

最後に、このモデルは、酵素の単一の配座についてコンピュータ計算された単一の結合エネルギーを記述子として使用する。様々な配座に対応するより多くの数の結合エネルギーを使用すると、予測モデルの性能を向上させることが可能になることが期待できる。

2015年8月26日、Bioinformatics 31(24)、3930～3937、doi: 10.1093/bioinformatics/btv486におけるV. Y. Martinyらによる発行物、「Integrated structure- and ligand-based in silico approach to predict inhibition of cytochrome P450 2D6」 Louet, M.、Labbe, C. M.、Fagnen, C.、Aono, C. M.、Homem-de-Mello, P.、Villoutreix, B. O.、Miteva, M. A.、Insights into molecular mechanisms of drug metabolism dysfunction of human CYP2C9*30.、PLoS One 2018、13 (5), e0197249

上記に鑑みて、本発明は、少なくとも1つの薬物代謝酵素、具体的には、タイプCYP、SULT、またはUGTの阻害を予測するための、改良された性能を有するモデルを提案することを目的とする。

本発明の別の目的は、訓練および使用が加速されるモデルを提案することである。

本発明の別の目的は、分子によって酵素の阻害因子をより良く理解するのに役立つことができるモデルを提案することである。

この目的のために、訓練装置によって実装される、決定されたCYP、SULT、またはUGT酵素の阻害剤を予測するためのモデルを訓練するための方法が開示され、この訓練装置は、コンピュータと、決定された酵素の阻害剤または非阻害剤であると知られている分子の数を含む訓練データセットを記憶するメモリとを備え、この方法は、
- 物理化学的分子記述子および決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む分子記述子の初期セットから、分子の阻害特性を予測する際の記述子の相対的重要度に基づいて、記述子のサブセットを選択するステップと、
- 分子に関してコンピュータ計算された分子記述子のサブセットから形成されるベクターを入力として受け取り、決定された酵素に関する分子の阻害特性の指示を出力するように構成された分類モデルの、訓練データセットに関する教師付き訓練を行うステップと
を含む。

諸実施形態においては、決定された酵素は、
- CYP 2C9
- CYP 2D6
- SULT 1A1
- SULT 1A3、および
- UGT 1A1
からなる群の中から選択される。

諸実施形態においては、記述子を、その相対的重要度に基づいて選択するステップは、学習データセットにおいて複数のランダムフォレストモデルを訓練するステップと、セットのすべての記述子のジニ重要度指数(Gini importance index)をコンピュータ計算するステップと、最も高いジニ重要度の記述子を選択するステップとを含む。

諸実施形態においては、選択する記述子の数の、その相対的重要度に基づく決定は、記述子の複数のセットが様々な数の記述子を有する複数のランダムフォレストモデルの平衡精度の代表値(average balanced accuracy)をコンピュータ計算するステップと、平衡精度を最大化する記述子の数を選択するステップとを含む。

諸実施形態においては、方法は、選択するステップの前に、記述子の初期セットから、
- 高度に相関する記述子、
- 訓練データセットのデータにおいて欠損値または無限大の値を有する記述子、および
- 訓練データセットに関する決定されたしきい値を下回る分散(variance)を有する記述子
を取り除くステップを含む。

諸実施形態においては、分類モデルは、ランダムフォレストモデル、またはサポートベクターマシンモデルである。

別の目的によれば、分子が、所定の酵素の阻害剤であるかどうかを予測するように構成されている分類モデルが開示され、分類モデルは、上記の説明による方法に従って、訓練データセットにおいて訓練することによって取得される。

諸実施形態においては、分類モデルは、
- 上記の説明に従って訓練されるランダムフォレストモデルによって形成された第1の分類子、
- 上記の説明に従って訓練されるサポートベクターマシンモデルによって形成された第2の分類子、および
- 酵素の複数の配座についてコンピュータ計算された最も低い結合エネルギーと少なくとも1つのしきい値との比較に基づいて、分子が酵素の阻害剤であるかどうかを示す第3の分類子
から形成され得、モデルの出力は、3つの分類子に関する多数決(majority vote)である。

候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法も開示され、この方法は、
- 候補分子の分子記述子のセット、および酵素の少なくとも1つの配座における候補分子の少なくとも1つの結合エネルギーをコンピュータ計算するステップと、
- コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、分子記述子のセット、および酵素の配座における候補分子の前記少なくとも1つの結合エネルギーから、前記候補分子が酵素の阻害剤であるか、または非阻害剤であるかに関する指示を出力するように訓練された分類モデルに提供するステップと、
- 前記候補分子が酵素の阻害剤であるか、または非阻害剤であるかに関する、分類によって出力される指示を受け取るステップと
を含む。

諸実施形態においては、候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法は、上記に開示した訓練方法に従って分類モデルを訓練するステップをさらに含む。

諸実施形態においては、この方法は、コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、ランダムフォレストモデルによって形成された第1の分類子、およびサポートベクターマシンモデルによって形成された第2の分類子に提供するステップと、候補分子が所定の酵素の阻害剤であるか、または非阻害剤であるかどうかに関する指示を各分類子から受け取るステップと
を含み、方法は、
- 酵素の複数の配座について、酵素の各配座との候補分子の結合エネルギーをコンピュータ計算するステップと、
最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
3つの指示に関する多数決に従って、候補分子を酵素の阻害剤または非阻害剤と決定するステップと
をさらに含む。

諸実施形態においては、候補分子は、候補薬物または生体異物である。

別の目的によれば、コンピュータプログラム製品が開示され、このコンピュータプログラム製品は、上記に開示された訓練方法または予測方法を実装するためのコード命令を含む。

分類モデルを訓練する特許請求された方法は、分子記述子のサブセットを選択するステップを含み、この分子記述子は、分類モデルへの入力として使用され、分子記述子は、考慮されている分子の物理化学的パラメータ、および決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む。

記述子の選択は、酵素の阻害を予測する際の記述子の相対的重要度に基づいており、したがって、記述子の数が抑えられ、所与の分子の記述子をコンピュータ計算するためのコンピュータ計算時間も抑えられる。

さらには、ECFPの代わりに分子の物理化学的パラメータを使用すると、分子の阻害因子をより良く理解することが可能になる。

最後に、モデルは、性能を高めるために、酵素の種々の配座についてコンピュータ計算された様々な結合エネルギーを考慮し得る。ただし、結合エネルギーはまた、記述子選択にも供され、阻害を予測するための重要度が高いそれらのエネルギーのみが維持される。

本発明の他の特徴および利点は、添付の図面を参照して、非限定的な例によって与えられる次の詳細な説明から明らかになろう。

一実施形態による訓練方法の主なステップを概略的に示す図である。一実施形態による訓練方法、および/または訓練された分類モデルを使用して分子の阻害特性を予測するための方法を実装するように構成されたコンピューティング装置を概略的に示す図である。 CYP2C9、CYP2D6、SULT1A1、SULT1A3、およびUGT1A1についての複数の記述子セットにより100のランダムフォレストに関する平衡精度の代表値を%で示すグラフである。

次に、決定された薬物代謝酵素(DME)の阻害剤を予測するためのモデルを訓練するための方法について説明する。図1bを参照すると、方法は、訓練装置1によって実装され、この訓練装置1は、コンピュータ10、例として、プロセッサ、マイクロプロセッサ、コントローラ、またはマイクロコントローラと、訓練データセットおよび検証データセットから構成される学習データセット、ならびにコンピュータによって実行されると上述した方法を実装するためのコード命令を記憶するメモリ11とを備える。訓練データセットおよび検証データセットは、決定された酵素の既知の阻害剤および非阻害剤のリストを含む。

考慮されているDMEは、シトクロムP450(CYP)、スルホトランスフェラーゼ(SULT)、またはUDPグルクロノシルトランスフェラーゼ(UGT)のファミリーに属する。より好ましくは、酵素は、次の群、
- CYP 2C9、
- CYP 2D6、
- SULT 1A1、
- SULT 1A3、および
- UGT 1A1
のうちの1つである。

したがって、以下に開示される方法は、この群のうちの所与の酵素について行われ、得られたモデルは、前記酵素の阻害を予測するのに固有である。

図1aを参照すると、方法は、学習データセットを準備する予備ステップ90を含んでもよく、この予備ステップ90は、ChEMBL、PubChem、BRENDA、Aureus Sciences、またはTOXNETなどの文献またはデータベースから、決定された酵素の既知の阻害剤および非阻害剤を収集するステップを含む。さらには、見つかった阻害剤または非阻害剤の数が大きい場合、最も活性が高い阻害剤を維持するための選択を行ってもよい。分子の阻害特性は、酵素の特定の割合の不活性化を与える分子の濃度に対応する指標によって与えられる。最も活性が高い阻害剤を選択するためには、10μM以下の濃度で酵素の阻害を50%もたらすそれらの分子のみを選択することができる。これは、AC50(IC)≦10μMと表される。一方、50μM濃度で10%阻害未満を示す分子(AC10(IC)<50μM)など、最も少ない阻害の分子のみを維持するように選択を行ってもよい。類似性カットオフ0.8を伴う化学的多様性を採用した。次いで、セントロイドを使用して、訓練セットおよび試験セットを構成した。

一旦、このセットが得られると、外部検証データセットは、データセットにおける阻害分子と非阻害分子との両方のうち20%をランダムにとることによって構築することができ、残りの80%は、モデルについての訓練データセットとして維持される。

以下に、より詳細に開示するように、予測モデルは、所与の分子についてコンピュータ計算される記述子の数を入力として受け取るように、および決定された酵素の阻害剤または非阻害剤であるとして分子の分類を出力するように構成されている分類モデルである。

方法は、分子記述子の初期セットを構築するステップ100と、分子の阻害特性を予測する際にそれらの相対的重要度に基づいて、この初期セットの中から分子記述子のサブセットの選択200とを含む。

分子記述子の初期セットは、分子のサイズ、質量、かさ高、体積、形状、構造的対称性および複雑さ、柔軟性、元素、電界および結合、結合強度、極性、電気陰性度、分極性、イオン化ポテンシャル、芳香性、脂溶性、表面積、極表面積など、分子の特徴を表現する、物理化学的分子記述子を含む。

諸実施形態においては、物理化学的記述子は、分子の接続表表現からコンピュータ計算される数値プロパティであって、分子の配座には依存しない、2D物理化学的記述子を含む。例として、これらの記述子は、PaDELソフトウェアを使用して計算され得る。

分子記述子の初期セットは、少なくとも100の物理化学的記述子、例として、少なくとも500の物理化学的記述子、例として、500から2000の間の物理化学的記述子の初期数を含むことができる。

分子記述子の初期セットはまた、決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む。諸実施形態においては、酵素の少なくとも1つの構造は、例として、アポ構造および/または少なくとも1つのホロ共結晶化構造を含む、既知のデータベースから選択されてもよく、分子動力学シミュレーションは、酵素の異なる配座を生成するための各構造について実行されてもよい。配座生成には、例として、CHARMMまたはNAMDソフトウェアを使用してもよい。

酵素の各配座上の分子の結合エネルギーは、それぞれの配座における分子のドッキングを行うことによってコンピュータ計算され得る。AutoDock Vinaなどのソフトウェアが、この目的のために使用されてもよい。

好ましくは、記述子の初期セットは、酵素のいくつかの配座における複数の結合エネルギーを含む。例として、記述子の初期セットは、1から20の間の結合エネルギー、好ましくは、2から15の間の結合エネルギー、例として、2から10の間の結合エネルギーを含むことができる。これにより、同じ分類モデルにおいて、考慮される酵素の種々の配座を考慮に入れることが可能になる。これらの結合エネルギーは、ジニ重要度の計算によって、最終的記述子の選択に入る。

次いで、方法は、この初期セットの中から記述子のサブセットの選択200を含む。

選択するステップ200は、記述子の初期セットから、
- 訓練データセットのすべてのデータにおいて欠損値または無限大の値を有する記述子、
- 訓練データセットに関してヌルに近い分散を有する記述子(記述子を取り除くしきい値が設定され得、記述子は、前記しきい値を下回る分散を有する)
- (例として、ピアソン相対係数の絶対値が、0.85以上、例として、0.9以上の)高度に相関する記述子
を取り除く予備ステップ210を含んでもよい。

次いで、記述子の選択200は、記述子を、分子の阻害特性を予測する際のそれらの相対重要度に基づいて選択するステップ220を含む。

諸実施形態においては、記述子のサブセットの選択は、訓練データセットにおいて複数のランダムフォレストモデルを訓練すること、および最も高いジニ重要度を有する記述子のサブセットを選択することを含む。

ここでは記述子に対応するX₁、…、X_pを独立変数として、およびYを応答変数としてもつ2値分類問題について考えると、ランダムフォレストを構成する所与の木Tの所与のノードtにおいてY∈[0,1]である場合、ジニ指数は、
G(t)=2p_t(1- p_t)
と定義され、ただし、p_t=P(Y=0|node=t)である。

ジニ不純物指数としても知られているジニ指数は、データセット内のランダムに選ばれた要素を、データセット内の分類分布に従ってランダムにラベル付けされた場合、誤って分類する確率の尺度である。判断木またはランダムフォレストを訓練すると、所与のノードにおける最良の分岐は、ノードにおいてジニ指数の減少を最大化することによって選ばれる。変数X_jがノードtを2つのサブノードt₁およびt₂に分岐する場合、tにおけるジニ指数の減少は、

と定義される。

ここで、n_tは、ノードtにおけるサンプル被験者の数であり、n₁は、ノードt₁におけるサンプル被験者の数であり、n₂は、ノードt₂におけるサンプル被験者の数である。変数X_jのジニ重要度は、

である。

したがって、この方法は、記述子の初期セット(ステップ210の終了時に記述子のうちのいくつかが取り除かれている)の各記述子のジニ重要度のコンピュータ計算と、それらのジニ重要度に従った記述子のランク付けと、ジニ重要度が最も高い記述子の数の選択とを含み得る。諸実施形態においては、複数のランダムフォレスト、たとえば数百から千の間のランダムフォレストが計算され得、各記述子のジニ重要度が代表値化され(averaged)得、それにより、モデル間のランダム性の差による予測精度への影響がなくなる。

ステップ220の終了時に選択される記述子のサブセットが、阻害を予測する際の物理化学的記述子よりも重要度が低い場合、結合エネルギーをもはや含まない場合があることに留意すべきである。しかしながら、以下に与えられる結果は、酵素CYP2C9、CYP2D6、SULT1A1、SULT1A3、およびUGT1A1のそれぞれについて、複数の結合エネルギーがステップ220の終了時に残っていることを示している。

ステップ220の終了時に選択される記述子のサブセットは、100未満の記述子、例として、50から100の間の記述子を含むことができる。諸実施形態においては、ステップ220の終了時に保持する記述子の数の決定は、最初の上位10から最初の100の記述子までの記述子の複数のセットを用いて計算されるランダムフォレストの性能を計算することを含むことができる。計算された性能は、感度と特異度との平均である平衡精度の代表値とすることができる。

図2を参照すると、酵素CYP2C9、CYP2D6、SULT 1A1、SULT1A3、およびUGT1A1について、横軸の、記述子の数、最初の10から最初の100までの記述子を有する記述子の複数のセットを用いた100のランダムフォレストに関する平衡精度の代表値が縦軸に示されている。平衡精度の代表値は、訓練データセットにおいてコンピュータ計算される。SULT 1A1およびCYP2D6の平衡精度は、40から60までの記述子の間で上昇し、次いで、平坦域に達し、またはさらにはCYP2D6についてはわずかに低下していることがわかり得る。したがって、記述子の数は、平衡精度を最大化するものとして設定することができる。

予測モデルの精度を向上させることに加えて、記述子の数を減らすことは、記述子の計算速度および正確さに重要な役割を果たす。例として、382を含む分子記述子のセットから始めるということは、1つの分子についてすべての記述子をコンピュータ計算するためのコンピュータ計算時間が8分であることを表す。83の記述子の選択を使用する場合、コンピュータ計算時間は、1分子当たり1分まで抑えられる。

同じことが、結合エネルギー計算についてのコンピュータ計算時間に当てはまるのは、1つの分子についてのコンピュータ計算時間に、分類モデルについてコンピュータ計算される結合エネルギーの数に関与し、対応する種々の蛋白質配座の数を乗じるからである。

一旦、記述子のサブセットが選択されると、方法は、記述子の選択されたサブセットを入力として受け取り、考慮されている酵素の阻害または非阻害として所与の分子の分類を出力するように構成されている分類モデルを訓練すること300を含む。

分類モデルは、ランダムフォレストモデルまたはサポートベクターマシンモデルのいずれかである。モデルは、学習データベースに関して、すなわち、訓練データセットの各分子について、教師付きの訓練によって訓練され、記述子の選択されたサブセットが分子についてコンピュータ計算され、決定された酵素における分子の阻害特性または非阻害特性の指示が、分類モデルに提供される。

分類モデルがランダムフォレストモデルである諸実施形態においては、複数の判断木が、訓練データセットからのブートストラップサンプルに基づいて構築され、記述子の小さいサブセットがランダムに選択されて、各木の各ノードにおいて判断が行われる。ランダムフォレストの最終分類は、多数決によってすべての木の結果を取り入れることによって得られる。

各木の各ノードにおける記述子の数は、当分野において幅広く受け入れられている√pと等しくてもよく、ここで、pは、ステップ200の終了時に選択される記述子のサブセットにおける記述子の数である。さらには、複数のランダムフォレストモデルが訓練され得、このランダムフォレスト内には、可変数(例として25から1024の間)の木があり、分類モデルは、木の数が最良の内部精度をもたらすものとして選択され得る。

分類モデルがサポートベクターマシンである実施形態においては、ステップ200の終了時に選択される記述子は、あらかじめ平均0に中心が置かれ、1に等しい分散にスケール付けされ得る。諸実施形態においては、SVMモデルは、放射基底関数カーネルに基づいている。パラメータ調整は、グリッドサーチによって行うことができ、コストパラメータは、2^-2～2²⁰の範囲で最適化され、ガンマパラメータ/シグマパラメータは、2^-20～2²の範囲で変動する。

諸実施形態においては、ステップ300は、ランダムフォレストモデルとサポートベクターマシンモデルとの両方を訓練することを含む。

訓練された分類モデルのパラメータは、メモリに記憶され得る。

分類モデルは、一旦、訓練されると、候補薬物分子とすることができる分子の阻害特性を予測するのに使用され得る。次いで、分子の試験は、所与の分子についての選択された記述子のサブセットをコンピュータ計算すること、および訓練されたモデルにコンピュータ計算された記述子を与えることを含み、それにより、訓練されたモデルは、その分子を阻害または非阻害として分類することになる。

ランダムフォレストモデルとサポートベクターマシンモデルとの両方が訓練されている諸実施形態においては、分子の阻害特性の予測は、
- SVMモデルと、
- ランダムフォレストモデルと、
- 薬物代謝酵素の種々の蛋白質配座についてコンピュータ計算される、計算された結合エネルギーの最も低い第3の分類子であって、少なくとも1つ、および好ましくは2つのしきい値と比較される、第3の分類子と
に関して多数決をとることによって行うことができる。

この最後の分類子によれば、分子は、対応する結合エネルギー(種々の蛋白質配座の中で最も低いもの)が第1のしきい値T1よりも大きい場合、非阻害剤として、結合エネルギーが第2のしきい値T2(<T1)よりも小さい場合、阻害剤として割り当てられ得る。結合エネルギーがT1とT2との間にある場合、判断は行われない。種々の酵素配座についての最も低い結合エネルギーを用いると、対象のリガンドを収容するのに最も適している酵素配座を見つけることが可能になる。このリガンドについての最良のランク付けスコア(結合エネルギー)による生成されたドッキング位置により、原子レベルにおいて酵素/リガンドの相互作用に関する情報を獲得することが可能になる。

したがって、そのような実施形態においては、予測方法は、訓練されたSVMモデルおよびランダムフォレストモデルにコンピュータ計算された記述子を与えることに加えて、追加的なステップ、
- 酵素の複数の配座について、酵素の各配座との候補分子の結合エネルギーをコンピュータ計算するステップと、
- 最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
- 3つの指示に関する多数決に従って、候補分子を酵素の阻害剤または非阻害剤と決定するステップと
を含むことができる。

記述子をコンピュータ計算し、訓練されたモデルを適用するためのコンピュータ計算装置は、上述の訓練装置と同じであっても、または異なっていてもよい。

(実施例)
CYP2C9の既知の阻害剤および既知の阻害剤をデータベースから取得し、AC50(IC)≦10μMの阻害剤のみを保持し、50μM濃度において<20%の阻害を示す非阻害剤を保持した。訓練データセットは、結果的に、3811の阻害剤および2468の非阻害剤をもたらした。CYP2D6の場合、訓練データセットは、結果的に、343の阻害剤、および3002の非阻害剤をもたらした。SULT1A1の場合、87の阻害剤、および500のデコイ(decoy)非阻害剤を維持した。SULT1A3の場合、76の阻害剤、および370のデコイ非阻害剤を維持した。UGT1A1の場合、71の阻害剤および361のデコイ非阻害剤を維持した。

2つのX線CYP2C9構造、すなわち、ロサルタンと共結晶化された5XXI、およびフルルビプロフェンと共結晶化された1R90を蛋白質構造データバンク(the Protein Data Bank)から取り入れた。多様な結合ポケット配座を含む、2つの結晶および5つの蛋白質セントロイド構造を含む7という数の配座を先に行ったMDシミュレーションから生成し、それについては、Louet, M.、Labbe, C. M.、Fagnen, C.、Aono, C. M.、Homem-de-Mello, P.、Villoutreix, B. O.、Miteva, M. A.、Insights into molecular mechanisms of drug metabolism dysfunction of human CYP2C9*30.、PLoS One 2018、13 (5), e0197249で閲覧可能である。

CYP2D6については、6つの配座を生成した。2つのX線構造、すなわち、プリノマスタットと共結晶化されたもの、3QM4と、アポ構造、2F9Qとを蛋白質構造データバンクから取り入れた。多様な結合ポケット配座を含む、2つの結晶構造および4つの蛋白質セントロイド構造を含む6という数の配座を先に行ったMDシミュレーションから生成し、それについては、Martiny VY、Carbonell P、Chevillard F、Moroy G、Nicot AB、Vayer P、Villoutreix BO、Miteva MA.、Integrated structure- and ligand-based in silico approach to predict inhibition of cytochrome P450 2D6. Bioinformatics. 2015、31(24):3930～7で閲覧可能である。

SULT1A1については、9つの配座を生成した。1つのX線構造4GRAを蛋白質構造データバンクから取り入れた。加えて、補因子PAPを含む2つの蛋白質セントロイド構造、および補因子PAPSを含む6つの蛋白質セントロイド構造を先に行ったMDシミュレーションから生成した。

SULT1A3については、補因子PAPSを含む13の蛋白質セントロイド構造を蛋白質構造データバンクから取り入れたX線構造2A3Rから開始して先に行ったMDシミュレーションから生成した。

UGT1A1については、補因子UDPグルクロン酸を含む10の蛋白質セントロイド構造を基質と補因子結合ドメインとのホモロジーモデルから開始して先に行ったMDシミュレーションから生成した。

1050という数の2D物理化学的分子記述子を、PaDELソフトウェアを用いて訓練および検証データセットにおいて計算した。いくつかの記述子をステップ210に従って、具体的には、ピアソンの相関係数(Pearson correlation coefficient)の絶対値が0.9よりも高い記述子を取り除くことによって取り除き、その結果、382という数の物理化学的記述子が残った。これらの記述子に、各配座についての結合エネルギーを加えた。次いで、ステップ220に従って、最も重要な記述子の選択を行った。図2は、CYP2D6、CYP2C9、SULT1A1、SULT1A3、およびUGT1A1についての、記述子の数とともに100のランダムフォレストに関する平衡精度の代表値の進展を表しているが、下記のTable 1(表1)は、382の物理化学的記述子と結合エネルギー記述子をすべて含む、すなわち記述子選択前の100のランダムフォレストに関する平衡精度の代表値を%で示している。

最終的に、CYP2C9については5つの結合エネルギーを含む上位88の記述子、CYP2D6については5つの結合エネルギーを含む上位88の記述子、SULT1A1については4つの結合エネルギーを含む上位60の記述子、SULT1A3については5つの結合エネルギーを含む上位85の記述子、およびUGT1A1については6つの結合エネルギーを含む上位86の記述子が選ばれた。

統計ソフトウェアパッケージRにおけるランダムフォレストRライブラリを使用して、ランダムフォレスト分類を行った。木の数ntreeが25～1024の範囲、およびノード当たりの記述子の数mtryが5～18の範囲にわたってスキャニングしてランダムフォレスト計算を実行した。各モデルについて、最良の内部精度をもつntreeとmtryとのパラメータの組合せを選択した。第2のスキャンを、訓練データセットが非平衡である場合に各木について取り入れる正/負の分子の数を選ぶことが可能になるRソフトウェアにおけるRandomForestのパラメータsampsizeにわたって行った。

Table 2(表2)においては、最終ランダムフォレストモデル予測精度が%で、およびそれらの対応するパラメータが示されている。平衡精度は、感度と特異度との平均である。

サポートベクターマシンモデルも、e1071およびCaretライブラリをもつRパッケージにおいて実装される放射カーネルを使用して作成した。パラメータ調整を、10回の検証を5回繰り返すことを用いるグリッドサーチによって行った。コストパラメータは、範囲2^-2～2²⁰で最適化し、ガンマ/シグマは2^-20から2²まで変動させた。データセットの非平衡を高度に補償するために、重みパラメータを使用し、誤分類された可観測量にペナルティを課した。

Table 3(表3)においては、最終SVMモデル予測精度を%で、およびそれらの対応するパラメータが示されている。

両方のモデルが従来技術の項で論じた手法よりも高い平衡精度をCYP2D6にもたらすことに気付くことができる。具体的には、選択された記述子により、分子の阻害特性を試験するためのより高い精度および上昇したコンピュータ計算速度を得ることが可能になる。

上記に示したように、最終SVMモデルおよびRFモデルに加えて、DMEの種々の蛋白質配座についての計算された結合エネルギーのうちの最も低いものは、第3の分類子として利用することができる。それにより、SVMモデル、RFモデル、およびエネルギー判断に関して多数決をとるとき、DMEの阻害剤または非阻害剤として割り当てられることになる分子の最終判断が可能になる。

計算された結合エネルギーを第3の分類子として使用すると、
- CYP2C9およびCYP2D6についてのしきい値は、-7.0kcal/molおよび-8.5kcal/molとすることができ、したがって、この分類子によれば、分子は、その結合エネルギーが>-7.0kcal/molである場合、非阻害剤であり、その結合エネルギーが<-8.5kcal/molである場合、阻害剤であると判断される。
- SULT1A1およびSULT1A3についてのしきい値は、-5.0kcal/molおよび-7.5kcal/molであってよく、したがって、この分類子によれば、分子は、その結合エネルギーが>-5.0kcal/molである場合、非阻害剤であり、その結合エネルギーが<-7.5kcal/molである場合、阻害剤であると判断される。
- UGT1A1についてのしきい値は、-6.5kcal/molおよび-8.0kcal/molであってよく、したがって、この分類子によれば、分子は、その結合エネルギーが>-6.5kcal/molである場合、非阻害剤であり、その結合エネルギーが<-8.0kcal/molである場合、阻害剤であると判断される。

1 訓練装置
10 コンピュータ
11 メモリ
90 学習データセットを準備する予備ステップ
100 分子記述子の初期セットを構築するステップ
200 分子記述子のサブセットの選択
210 記述子を取り除く予備ステップ
220 記述子を選択するステップ
300 ランダムフォレストモデルとサポートベクターマシンモデルとの両方を訓練するステップ

Claims

訓練装置(1)によって実装される、決定されたCYP、SULT、またはUGT酵素の阻害剤を予測するためのモデルを訓練するための方法であって、前記訓練装置(1)が、コンピュータ(10)と、前記決定された酵素の阻害剤または非阻害剤であると知られている分子の数を含む訓練データセットを記憶するメモリ(11)とを備え、前記方法が、
- 物理化学的分子記述子および前記決定された酵素の少なくとも1つの配座における少なくとも1つの結合エネルギーを含む分子記述子の初期セットから、分子の阻害特性を予測する際の前記記述子の相対的重要度に基づいて、記述子のサブセットを選択するステップ(220)と、
- 分子に関してコンピュータ計算された分子記述子の前記サブセットから形成されるベクターを入力として受け取り、前記決定された酵素に関する前記分子の前記阻害特性の指示を出力するように構成された分類モデルの、前記訓練データセットに関する教師付き訓練を行うステップ(300)と
を含む、方法。
前記決定された酵素が、
- CYP 2C9
- CYP 2D6
- SULT 1A1
- SULT 1A3、および
- UGT 1A1
からなる群の中から選択される、請求項1に記載の方法。
記述子を、前記記述子の相対的重要度に基づいて選択するステップが、学習データセットにおいて複数のランダムフォレストモデルを訓練するステップと、前記セットのすべての記述子のジニ重要度指数をコンピュータ計算するステップと、最も高いジニ重要度の前記記述子を選択するステップとを含む、請求項1または2に記載の方法。
選択する記述子の数を前記記述子の相対的重要度に基づいて決定するステップが、記述子の複数のセットが様々な数の記述子を有する複数のランダムフォレストモデルの平衡精度の代表値をコンピュータ計算するステップと、前記平衡精度を最大化する記述子の数を選択するステップとを含む、請求項3に記載の方法。
前記選択するステップ(220)の前に、記述子の前記初期セットから、
- 高度に相関する記述子、
- 前記訓練データセットのデータにおいて欠損値または無限大の値を有する記述子、および
- 前記訓練データセットに関する決定されたしきい値を下回る分散を有する記述子
を取り除くステップ(210)を含む、請求項3または4に記載の方法。
前記分類モデルが、ランダムフォレストモデル、またはサポートベクターマシンモデルである、請求項1から5のいずれか一項に記載の方法。
分子が、所定の酵素の阻害剤であるかどうかを予測するように構成されている分類モデルであって、請求項1から6のいずれか一項に記載の方法に従って、訓練データセットにおいて訓練することによって取得される、分類モデル。
前記分類モデルが、
- 請求項1から6のいずれか一項に従って訓練されるランダムフォレストモデルによって形成された第1の分類子、
- 請求項1から6のいずれか一項に従って訓練されるサポートベクターマシンモデルによって形成された第2の分類子、および
- 前記酵素の複数の配座についてコンピュータ計算された最も低い結合エネルギーと少なくとも1つのしきい値との比較に基づいて、分子が前記酵素の阻害剤であるかどうかを示す第3の分類子
から形成され、
前記モデルの出力が、前記3つの分類子に関する多数決である、
請求項7に記載の分類モデル。
候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法であって、
- 前記候補分子の分子記述子のセット、および前記酵素の少なくとも1つの配座における前記候補分子の少なくとも1つの結合エネルギーをコンピュータ計算するステップと、
- 前記コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、分子記述子の前記セット、および前記酵素の配座における前記候補分子の前記少なくとも1つの結合エネルギーから、前記候補分子が前記酵素の阻害剤であるか、または非阻害剤であるかに関する指示を出力するように訓練された分類モデルに提供するステップと、
- 前記候補分子が前記酵素の阻害剤であるか、または非阻害剤であるかに関する、分類によって出力される指示を受け取るステップと
を含む、方法。
請求項1から6のいずれか一項に記載の方法を実装することによって、前記分類モデルを訓練するステップをさらに含む、候補分子が所定の酵素の阻害剤であるかどうかを予測するための方法。
前記コンピュータ計算された分子記述子、および各コンピュータ計算された結合エネルギーを、ランダムフォレストモデルによって形成された第1の分類子、およびサポートベクターマシンモデルによって形成された第2の分類子に提供するステップと、前記候補分子が前記所定の酵素の阻害剤であるか、または非阻害剤であるかどうかに関する指示を各分類子から受け取るステップとを含み、
- 前記酵素の複数の配座について、前記酵素の各配座との前記候補分子の結合エネルギーをコンピュータ計算するステップと、
- 最も低いコンピュータ計算された結合エネルギーを2つのしきい値と比較し、前記比較から、第3の指示を推測するステップと、
- 前記3つの指示に関する多数決に従って、前記候補分子を前記酵素の阻害剤または非阻害剤と決定するステップと
をさらに含む、請求項9または10に記載の方法。
前記候補分子が、候補薬物または生体異物である、請求項9から11のいずれか一項に記載の方法。
コンピュータによって実行されると、請求項1から6のいずれか一項、または請求項9もしくは12に記載の方法を実装するためのコード命令を含む、コンピュータプログラム製品。