JP2004501348A - 分子極性表面積および生体吸収の予測 - Google Patents
分子極性表面積および生体吸収の予測 Download PDFInfo
- Publication number
- JP2004501348A JP2004501348A JP2001576456A JP2001576456A JP2004501348A JP 2004501348 A JP2004501348 A JP 2004501348A JP 2001576456 A JP2001576456 A JP 2001576456A JP 2001576456 A JP2001576456 A JP 2001576456A JP 2004501348 A JP2004501348 A JP 2004501348A
- Authority
- JP
- Japan
- Prior art keywords
- bonded
- molecule
- psa
- logp
- molecules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 claims abstract description 121
- 238000000034 method Methods 0.000 claims abstract description 66
- 230000031891 intestinal absorption Effects 0.000 claims abstract description 17
- 239000003814 drug Substances 0.000 claims description 19
- 230000035699 permeability Effects 0.000 claims description 18
- 229940079593 drug Drugs 0.000 claims description 16
- 238000010521 absorption reaction Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 239000012528 membrane Substances 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000007876 drug discovery Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 230000000968 intestinal effect Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 125000003118 aryl group Chemical group 0.000 claims 5
- 210000001218 blood-brain barrier Anatomy 0.000 abstract description 23
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 abstract description 6
- 230000035515 penetration Effects 0.000 abstract description 6
- KBPLFHHGFOOTCA-UHFFFAOYSA-N 1-Octanol Chemical compound CCCCCCCCO KBPLFHHGFOOTCA-UHFFFAOYSA-N 0.000 abstract description 4
- 229910052757 nitrogen Inorganic materials 0.000 abstract description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 abstract description 3
- 229910052760 oxygen Inorganic materials 0.000 abstract description 3
- 239000001301 oxygen Substances 0.000 abstract description 3
- 238000005192 partition Methods 0.000 abstract description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 2
- 125000004429 atom Chemical group 0.000 description 29
- 230000008499 blood brain barrier function Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 20
- 210000003169 central nervous system Anatomy 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000001727 in vivo Methods 0.000 description 6
- 238000012417 linear regression Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 229940000406 drug candidate Drugs 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 210000000170 cell membrane Anatomy 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 210000001035 gastrointestinal tract Anatomy 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 239000001257 hydrogen Substances 0.000 description 3
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 125000004430 oxygen atom Chemical group O* 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 150000001793 charged compounds Chemical class 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000002496 gastric effect Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000005462 in vivo assay Methods 0.000 description 2
- 210000000936 intestine Anatomy 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 125000004433 nitrogen atom Chemical group N* 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- XFJBGINZIMNZBW-CRAIPNDOSA-N 5-chloro-2-[4-[(1r,2s)-2-[2-(5-methylsulfonylpyridin-2-yl)oxyethyl]cyclopropyl]piperidin-1-yl]pyrimidine Chemical compound N1=CC(S(=O)(=O)C)=CC=C1OCC[C@H]1[C@@H](C2CCN(CC2)C=2N=CC(Cl)=CN=2)C1 XFJBGINZIMNZBW-CRAIPNDOSA-N 0.000 description 1
- 102100033350 ATP-dependent translocase ABCB1 Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 239000000232 Lipid Bilayer Substances 0.000 description 1
- 108010047230 Member 1 Subfamily B ATP Binding Cassette Transporter Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 150000001412 amines Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013098 chemical test method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000002919 epithelial cell Anatomy 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 125000005842 heteroatom Chemical group 0.000 description 1
- 150000002433 hydrophilic molecules Chemical class 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003870 intestinal permeability Effects 0.000 description 1
- 150000002634 lipophilic molecules Chemical class 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000000302 molecular modelling Methods 0.000 description 1
- 229940100692 oral suspension Drugs 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 229940002612 prodrug Drugs 0.000 description 1
- 239000000651 prodrug Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 230000001839 systemic circulation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Hematology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Urology & Nephrology (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Cell Biology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
分子の極性表面積が、三次元分子構造を参照することなく、窒素、酸素および関連する原子クラスタのカウントを組み入れる一次方程式を用いてコンピュータ計算される。候補化合物の腸内吸収および脳血液関門透過を予測するための方法およびシステムは、記述子として極性表面積およびオクタノール/水分配係数を用いる。
Description
【0001】
[発明の背景]
本発明は、薬学上の発見についてのコンピュータ計算方法に関する。特に、本発明は、分子の膜透過性および生理学的吸収の予測に関する。
【0002】
[関連技術の説明]
医薬化合物の開発において、所望の生物活性を有する化合物を同定することが化合物の薬剤としての適切性を決定するためにそれ自体で十分でないことはよく知られている。化合物は、必要な生物活性を示さなければならないだけでなく、好適には経口投与のような経済的かつ好都合な方法で、目的組織へ送達可能でなければならない。これは、いくつかの治療プロトコルでの課題であった。たとえば、色々なペプチド分子が有用な薬学活性を有することが示されているが、ヒト胃腸上皮組織のような生体膜を通して拡散するそれらの一般的に限定された能力が、それらの臨床的開発を限定している。効果的な経口投与は、薬剤が腸管膜を通して吸収され全身の循環に入ることを必要とし、そしてそのような吸収が制限されているならば、化合物の臨床的開発の見込みは、あまりない。
【0003】
薬剤開発を通して重要な関心事は腸内吸収ばかりでなく、候補化合物の血液脳関門を透過する能力も重要な関心事である。血液脳関門(BBB)は、循環系から中枢神経系の流体を分離する細胞系である。中枢神経系中の標的に向けられた薬剤は、BBBを透過することができるべきである。一方、他の標的組織に向けられた薬剤は、もしそれらが中枢神経系の流体中に自由に通過するならば、不要な副作用をもたらすかもしれない。
【0004】
生体吸収と血液脳関門透過のためのin vivoでの動物試験は、長い間実施されている。さらに、ヒト腸内caco−2細胞を用いる細胞ベースのin vivoアッセイは、薬剤候補化合物の生体膜透過性を測定するために広く用いられている。それらのプロトコルの両方は、速度が遅く、高価で、かつ多くの作業を必要とするために、より容易に得られた分子特性に基づく胃腸吸収および血液脳関門透過の能力を予測するコンピュータ計算方法が開発されている。また、そのようなコンピュータ計算方法は、どの化合物が合成されるべきかを決定する目的で、合成されていない化合物の仮想ライブラリの吸収および血液脳関門透過のコンピュータ内予測のために、非常に興味深い。これらのコンピュータ計算モデルにおいて、ヒト腸内吸収%(%HIA)または中枢神経系および血液中の化合物の濃度の定常状態割合の対数(しばしば、logBBと呼ばれる)のいずれかを評価する式が、考案されている。この式は、典型的には、分子特性と、化合物の分子構造から誘導されることができるパラメータとを用いる。これらの式を用いて、%HIAとlogBBがin vivo実験を実施する必要なしに評価される得る。
【0005】
多くのモデルは、腸内吸収または血液脳関門透過の性質を予測するために水素結合性、親油性、および分子量に関連する分子特性に焦点を合わせている。分子の極性表面積(PSA)とその%HIAとの間のS字型関係が、低い%HIAに相関する高い極性表面積と共に観察されている。これは、PalmらのPolar Molecular Surface Properties Predict the Intestinal Absorption of Drugs in Humans(Pharmaceutical Research, Vol. 14, No.5, p.568 (1997))に示されている。特に高いかまたは特に低い、親油性の尺度である、オクタノール/水分配係数(logP)を有する分子が、低い%HIAに関連していることもまた観察されている。Palm(上記)およびWilsらのHigh Lipophilicity Decreases Drug Transport Across Intestinal Epithelial Cells(The Journal of Pharmacology and Experimental Therapeutics, Volume 269, No.2, P.654 (1994))。PalmとWilsの両論文の開示は、本明細書中にこれらの全体が参照により援用される。
【0006】
したがって、分子のPSAは、良好に吸収される化合物と吸収が乏しい化合物を区別するために用いられることができるパラメータとして提唱されており、140平方オングストロームが切り捨て値として提案されている。ClarkのRapid Calculation of Polar Molecular Surface Area and its Application to the Prediction of Transport Phenomena 1. Prediction of Intestinal Absorption(Journal of Pharmaceutical Sciences, Vol.88, No.8, p.807(1999))。PSAはまた、膜透過性とlogBBを予測するための一次式での変数として用いられている。いくつかの場合に、logPが、そのような一次式でPSAと一緒に用いられている。ClarkのRapid Calculation of Polar Molecular Surface Area and its Application to the Prediction of Transport Phenomena 2. Prediction of Blood−Brain Barrier Penetration(Journal of Pharmaceutical Sciences,Vol.88, No.8, p.815 (1999))およびWiniwarterらのCorrelation of Human Jejunal Permeability (in Vivo) of Drugs with Experimentally and Theoretically Derived Parameters. A Multivariate Data Analysis Approach(Journal of Medicinal Chemistry 41, p.4939 (1998))。本明細書中でこれらの両方の全体が参照により援用される。
【0007】
これらのモデルは、in vivoおよびin vitroでの化学的試験への依存を減少させることにより薬剤候補の評価プロセスの速度を改善しているが、それらはコンピュータ計算の不経済を残し、そして多くの場合に、厳密な線形モデル化がそれらの予測値を限定している。PSA計算は、エネルギー最小化三次元分子構造の計算を必要とし、これはSunまたはSGI−R1000ワークステーションで10〜15秒のCPU時間を必要とする。候補化合物の大きなライブラリへのこれらの技法の効果的な応用は、それぞれの分子に必要なコンピュータ計算時間を減少させる技法を必要とする。
【0008】
[発明の概要]
一実施形態において、本発明は、複数の原子の種類のそれぞれの定義に当てはまる分子中の原子または原子クラスタの数の別々のカウントを行うこと、および別々のカウントの少なくともいくつかを用いて分子の極性表面積を評価することを含む、分子の極性表面積を評価する方法を含む。
【0009】
コンピュータ計算された極性表面積は、コンピュータ実施された化合物分析方法で有用であり、本発明はまた、分子のエネルギー最小化三次元構造を参照することなく分子の極性表面積をコンピュータ計算すること、およびその性質を予測するためにコンピュータ計算された極性表面積を用いることを含む膜透過性のための分子の性質を予測する方法を含む。
【0010】
薬剤を発見するための方法もまた提供される。一つの実施形態において、そのような方法は、データベースから分子の部分集合を選択することを含み、ここで、選択することは、データベース中のそれぞれの分子のPSAとlogPを数値的に評価すること、PSA−logP平面でデータベース中のそれぞれの化合物の位置を決定すること、およびPSA−logP平面上でそれぞれの位置に基づいて化合物を分類することを含む。
【0011】
[好適な実施形態の詳細な説明]
次に、本発明の実施形態を、添付の図面を参照して記載し、同様の符号は、全体を通して同様の構成要素を指す。本明細書に示されている説明で用いられている用語は、単に本発明のある特定の実施形態の詳細な説明に関連して用いられているので、いかなる限定または制限により解釈されるように意図されていない。さらに、本発明の実施形態は、いくつかの新規な特徴を含むことができ、それらのどれもが単独で所望の特質を担うか、または本明細書に記載された発明を実施するために必須であるものではない。
【0012】
多くの実施形態において、本発明は、コンピュータ実施された薬剤候補の評価プロセスで有用である。これらのプロセスにおいて、化合物の1つまたは複数のデータベースからの薬剤候補は、所望の特徴または特性のために汎用コンピュータで動作するソフトウエアコードを用いて予め評価される。この目的に用いられる汎用コンピュータは、ネットワークサーバ、ワークステーション、パーソナルコンピュータ、大型コンピュータなどを含めた、広範の種々の形態をとることができる。これらの化合物の評価を実施するコンピュータの設定を行う(configure)コードは、典型的にはCD−ROMのようなコンピュータ可読媒体上でユーザに提供される。このコードは、インターネットなどの、ローカルまたはワイドエリアネットワークの一部であるネットワークサーバからユーザによりダウンロードされることもできる。
【0013】
ソウトウエアが動作する汎用コンピュータは、典型的には、マウスおよび/またはキーボードのような1つもしくは複数の入力装置、ディスプレイ、ならびにランダムアクセス記憶集積回路およびハードディスクドライブのようなコンピュータ可読記憶媒体を含む。コードの1つもしくは複数の部分または全ては、ユーザから離れていることができ、たとえばLANサーバ、インターネットサーバ、ネットワーク記憶装置などのネットワークリソースに常駐することができることが理解されるだろう。典型的な実施形態において、ソフトウエアは、候補薬剤化合物もしくは組成物に関する種々の情報を入力として受け取り、そしてこの情報から、候補薬剤化合物の期待される生物学的、または化学的特性を、誘導、評価または予測する。データベースは、10,000、100,000、または多分それ以上の候補化合物を含み得る。いくつかの有利な実施形態において、ソフトウエアプログラムへの情報入力は、候補化合物のそれぞれについての構造的情報を含む。この情報は、通常、原子構成成分およびそれらの間の結合、本質的には2次元分子結合ダイアグラムで見出された情報に限定されている。この情報から、生物学的および/または化学的活性の予測が、有利に行われる。
【0014】
上述したように、データベースのどの化合物が容易に腸内吸収される可能性があるか、または血液脳関門を透過する可能性があるかを予測することが望ましい。また、上述したように、分子の極性表面積は、しばしば、この予測の一部として用いられる。極性表面積計算の従来の方法において、原子構成要素と原子間結合の配置は、既知の分子モデル化ツールを用いてエネルギー最小化3次元分子構造を生成するために用いられる。これらの計算は、真空中または溶液中で行われることができる。3次元構造が計算された後、PSAは、酸素原子、窒素原子、およびいずれの他の原子のファンデルワールス表面積内にも配置されていないそれらの結合された水素原子すべての、ファンデルワールス表面積の部分として定義され、ここで、ファンデルワールス表面は、原子のタイプのファンデルワールス半径を有する剛体球を満たす空間により定義されている。したがって、分子の「暴露された」酸素、窒素、および会合された水素の合計量が、PSAを定義する。
【0015】
従来のPSA計算は、腸内吸収を予測するプロセスにおいて有用である。しかしながら、エネルギー最小化三次元分子構造の生成は、コンピュータ計算的には困難であり、時間を必要とする。100,000化合物のコンビナトリアルライブラリでの全ての化合物のPSAを計算することは、広く用いられているワークステーションで、ざっと10〜20日のコンピュータ時間を必要とする。
【0016】
計算を300〜1000倍早くし、1時間未満で100,000分子データベースのそれぞれの分子のPSAの計算を可能にする原子および原子クラスタ分類方法によりPSAを計算することができることは、本発明の一つの態様である。このプロセスは図1に図示されている。
【0017】
次にこの図を参照すると、本方法は、複数の原子の種類を定義するブロック20で開始する。それぞれの原子の種類は、単一の原子または原子のクラスタを含むことができる。それぞれの種類は、また典型的には、クラスタ内および/または他の原子への結合の配置により定義される。たとえば、原子の種類には、「二重結合された酸素原子」、「単結合されたNH2基」などが挙げられる。本実施形態において、種類は、窒素原子、酸素原子、および結合された水素原子を含む。これは、これらの分子構成要素が分子のPSAに寄与するものであるためである。ブロック22において、それぞれ定義された種類に当てはまる、分析されている分子の原子または原子クラスタの数の別々のカウントが行われ、したがって、それぞれ定義された種類内の原子構成要素のカウントに相当する整数のリストをもたらす。図1のブロック24により示されているように、別々のカウントが、評価される分子の極性表面積を評価するために用いられる。以下でさらに詳述される有利な一実施形態において、カウントは、評価されたPSA値をもたらす簡単な算術計算で用いられる。したがって、エネルギー最小化三次元分子構造の関連した原子のファンデルワールス表面積をコンピュータ計算することによりPSAを計算するよりも、かかる計算時間がはるかに少ない簡単なコンピュータ計算が用いられる。
【0018】
特に有利な実施形態において、PSAは、以下のように非負の係数を有する一次方程式として表現される:
【0019】
【数4】
【0020】
ここで、Niは、種類iに当てはまる分子の原子または原子クラスタのカウントであり、そしてCiは、種類iに関連する係数である。このモデルにおいて、係数は、分子の全PSAに対するそれぞれの原子タイプの寄与を表す。種類が、分子のPSAを増す傾向がある全ての極性原子および原子クラスタを含むので、係数は全て非負である。上の式の係数は、複数の訓練分子を用いて非負の最小二乗線形回帰法を行うことにより計算されることができる。この技法は、有機化合物の沸点の予測が一つの例である他の少数の応用において既知である。HallとKierのElectrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information(J. Chem. Inf. Comput. Sci. Vol.35, 1039−1045 (1995))は、本明細書中でその全体が参照により援用される。係数を生成する手順は、訓練分子のセットを選択すること、およびエネルギー最小化三次元構造を計算し、かつ窒素、酸素およびそれらの結合された水素のファンデルワールス表面積をコンピュータ計算することにより、従来の方法でそれらのPSA値のすべてをコンピュータ計算することである。次いで、それぞれの種類の原子または原子クラスタのカウントを行うことが、それぞれの分子で行われる。次いで、上の式で計算されたPSAの誤差の2乗の合計が、回帰係数のそれぞれがゼロより大きいという制限で訓練セットの分子の全てにわたり最小化されるように、係数がコンピュータ計算される。
【0021】
これらの方法は、本発明に先立って、極性表面積の計算またはいかなる他の計算された(実験的に測定されたものでなくて)量には適用されていない。
全表面積または非極性表面積のような他の密接に関連した表面積量は、立体配座立体配座の変化により相当変化する可能性がある。対照的に、PSA値の広い範囲を通して、上述のPSAモデルの驚くべき正確さは、溶媒和された立体配座の極性表面積がそれらの関連する尺度よりも立体配座への依存性がかなり少ないことを示している。このような環境下でのみ、回帰計算のための適切な基礎を形成する分子のヘテロ原子の結合された状態のセットを確認することができる。
【0022】
以下に記載されている表1は、本発明の一実施形態での、原子の分類および関連した係数のリストを記載している。
【0023】
【表1】
【0024】
これらの係数は、Comprehensive Medicinal Chemistry(CMC)データベースに含まれている5,386個の最も医薬に似ている分子のエネルギー最小化三次元構造を用い、多数の配座異性体ではなく単一の伸展された配座異性体を用いて明示的にPSAを計算することにより得られた。分子は、訓練、試験および確認データセットに分離された。確認データセットは、錠剤、カプセル、または経口懸濁物形態で現在入手し得る製薬としてPhysician’s Desk Referenceに列挙されている440個の分子から成る。確認データセットに列挙されている化合物は、回帰にバイアスをかけないために訓練および試験データセットの作成に先立ってCMCデータセットから除かれた。訓練および試験データセットは、CMCからの残りの分子をそれらの明示的に計算されたPSA値の順に分類し、そして奇数番目の分子を訓練データセットに、そして偶数番目の分子を試験データセットへ割り当てることにより作成された。これは、等しいPSA範囲に広がる2つのデータセットを作成した。表1で上述した18種の原子の分類のそれぞれのカウントを行うことが、それぞれの分子で行われた。訓練データセットの分子のカウントは、上記式(1)で述べた形態の一次方程式で独立変数として用いられた。一次方程式を用いて予測されたPSAとエネルギー最小化三次元構造から計算されたPSAとの間の全誤差を最小にするように、従来のおよび既知の非線形最小二乗回帰法を用いて、係数が誘導された。係数は非負の定数に限定され、そして切片はゼロに固定された。
【0025】
図2は、上記式(1)と表1の係数とを用いて評価されたPSAの、確認データセットの三次元構造で計算されたPSAに対する散布図である。計算的に評価されたPSAと構造的に計算されたPSAとの一致は、
【数5】
式(1)の速算方法を用いたときの二乗平均平方根PSA誤差が5.9平方オングストロームに過ぎず、非常に良好である。算術式(1)ならびに表1の原子分類および係数を用いたとき、計算の速度は、ざっと1秒あたり20〜100超の分子である。これは、エネルギー最小化三次元構造を用いる従来のPSA計算方法の分子あたり10〜15秒に対し劇的な改良である。
【0026】
コンピュータ計算速度での大きな改善のために、PSA計算の上述の方法は、腸内吸収のそれらの性質のための大きな化合物データベースの候補薬剤の評価に有利に応用されることができる。上述の本発明の原理を用いて、化合物の三次元構造がPSAをコンピュータ計算するために作成される必要はなく、それにより候補薬剤の評価のプロセスは劇的に加速される。たとえば、生物学的に良好に吸収される可能性が高い化合物を選択するための上記に参照された一つの提案された方法は、140平方オングストロームのしきい値に対しPSAを比較することである。このモデルによると、このしきい値を超える化合物は、吸収性が乏しい可能性が高い。上の式(1)のようなPSA計算のための一次方程式を用いて、100,000化合物ライブラリがスクリーニングされることができ、吸収性が乏しい可能性が高い全ての化合物が、現在これらの応用のために広く用いられているワークステーションで1時間未満のコンピュータ計算時間で、残りから分離されることができる。
【0027】
他のモデルが、吸収性が乏しい可能性が高い化合物を同定するために提案されている。そのようなモデルは、分子記述子(それから予測が行われる)として、極性特性の数値尺度および/または親油性の数値尺度を含むことができる。極性特性の数値尺度の一つの例は、上に記載されたPSAである。親油性の数値尺度の例としては、logPとlogDが挙げられる。logPは上に記載されており、そしてlogDは、イオン化中心のために電荷効果が補正されたlogPである。以下に記載されたモデルにおいて、PSAとlogPは、用いられている特定の記述子であるが、極性特性および親油性の尺度を提供する他の記述子も本発明の原理により首尾よく用られ得ることは、当業者により理解されるであろう。
【0028】
logPはまた、実験的に決定されることができるけれども、上記の式(1)と同じ形態の一次方程式により、良好にモデル化されることは従来から知られている。したがって、データベースの分子の評価において、logPは、種々の原子分類での原子または原子クラスタのカウントおよび関連した乗法の係数に基づいて評価され得る。当業者にALOGPおよびCLOGPとして知られる二つの線形モデルが、広く用いられている。例えば、本明細書中でその全体が参照により援用されるGhoseらのprediction of Hydrophilic (Lipophilic) Properties of Small Organic Molecules Using Fragmental Methods: An Analysis of ALOGP and CLOGP Methods(Journal of Physical Chemistry A,Vol.102, 3762−3772)を参照。
【0029】
分子のパラメータPSAとlogPは、腸内吸収とlogBBの関連記述子である。これは、腸管へのまたは血液脳関門を通る受動拡散が、親水性および親油性領域の両方を有する脂質二重層を含む細胞膜を通した分子の拡散を必要とするためである。したがって、高親水性分子と、容易に水素結合を形成する分子とは、膜中へ容易に入ることはできない。さらに、高親油性分子は、一度親油性の内部に到達すると、容易に膜を離れない。PSAは親水性の尺度であり、そしてlogP(これは、親水性と親油性の両方の寄与を含む)は、したがって、膜浸透性の情報が誘導されることができるパラメータであると見出されている。
【0030】
膜透過性に対するPSAとlogPの間の相関関係は、しかしながら高度に非線形である。上に記載したように、高いlogPと低いlogPの両極端は、乏しい腸内吸収に関連している。分子のPSAは、腸内吸収に対してS字型の相関関係を示している。化学的空間の重要な部分に対する正確な生体吸収データが入手できるならば、十分な正確さで、候補薬剤の数的に測定された腸内吸収および/またはlogBB特性を予測できる正確な非線形モデルが、誘導されるであろう。そのようなデータが入手できないために、PSA値とlogP値に基づく新規なモデル化技法が開発されており、そして図3〜図5を参照して以下に記載されている。本発明のこの特徴により、標準の定量モデルよりむしろPSAとlogPに基づく統計ベースのパターン認識モデルが、吸収が乏しい化合物から良好に吸収される化合物を区別することに非常に成功していることが見出されている。
【0031】
本発明の一態様により、モデルは、受動拡散を介する腸内吸収のための分子の性質が、分子のPSAとlogPの関数、特にPSAとlogPの相互作用であることを仮定している。全ての分子は、したがって、二次元PSA−logP平面の位置を割り当てられることができる。PSA−logP平面における位置の関数として腸内吸収を定量的に予測するよりむしろ、PSA−logP平面の境界化領域が定義される。分子のPSAとlogPが境界化領域内にあるならば、分子は容易に腸内吸収される可能性が高いと考えられる。分子のPSAとlogPが境界化領域の外側にあるならば、分子は容易に腸内吸収される可能性が低いと考えられている。PSA−logP平面内で高い腸内吸収のこの境界化領域を画定するために、容易に吸収されるとして知られている化合物の統計的分析が行われた。容易に吸収され、かつ細胞膜を超えて活発に輸送されないとして知られている182個の化合物のPSAとlogPが計算された。これらの分子の(PSA、logP)座標についての分布は、多変量正規分布を仮定して統計的に分析された。
【0032】
図3は、この図で記号「+」で示されている既知の容易に吸収される化合物のPSA−logP平面での分布を示している。これらの分子の平均PSAは64.5867であり、平均logPは2.3226である。大まかに言えば、モデルは、それらの平均値に「近い」PSAとlogPを有する、分析されている新しい分子は同様に容易に吸収され、そしてそれらの平均値から「遠い」PSAとlogPを有する、分析されている新しい分子は容易に吸収されないだろうことを予測する。どのくらい近ければ十分近いのかを定義するために、モデルは、平均値からの距離を測定するための参照としてHotellingのT2距離を利用する。図3に示された境界30は、既知の容易に吸収される化合物により提供されたデータ点の標準統計的分析を用いて計算されたHotellingのT2距離に対して95%信頼領域である。
【0033】
化合物のT2距離をコンピュータ計算するために必要な係数は、以下のようにして決定される:1)良好に吸収される化合物の選択されたセットの平均PSAとlogPをコンピュータ計算する。2)それらの化合物のそれぞれのPSAとlogPの個々の値を平均中心化する(平均値を減ずる)。3)この平均中心化されたデータセットを数値的に安定な固有値と固有ベクトルを提供するいずれかのアルゴリズムで分解する(特異値分解(SVD)が用いられることができ、標準のU、S、およびV出力行列を与える)。平均値とSVDの結果(またはいくつかの似た方法からの固有値/固有ベクトル)を用いて、RencherによるMethods of Multivariate Analysis(John Wiley & Son, Inc.: New York, 1995)(本明細書中でそれの全体が参照により援用される)によって平均中心化により与えられた変換および共分散行列による乗法を行うために、新規なまたはモデル作成で用いられたいずれかの化合物(複数可)のT2距離(二乗されたMahalanobis距離としても知られている)をコンピュータ計算する。良好に吸収される化合物に対する化合物の類似性の信頼領域/確率は、RencherによるT2に対するF分布相関関係を用いてコンピュータ計算されることができる。
【0034】
図3の容易に吸収される化合物の分布のために、平均からのT2距離は、以下のようにコンピュータ計算される:
【数6】
ここで、AとBは、行列であり、
【数7】
および
【0035】
【数8】
【0036】
この方法で計算されたT2距離が6.126より大きいならば、化合物は、95%信頼領域、PSA−logP平面の図3の境界30の外側になり、そしてモデルによって吸収が乏しいと予測される。
【0037】
モデルは、吸収が乏しいとして知られている追加の分子のデータポイントをプロット(PSA、logP)することにより試験されることができる。これらは、図3で白丸として示されており、そしてそれらのほとんど全部が、境界30の外側にあることは直ちに明らかである。モデルの妥当性の別の証明は、腸管透過性のin vivoアッセイで通常用いられるcaco−2細胞アッセイで、高い膜透過性または低い膜透過性を示す分子をプロットすることにより得られる。図3において、高いcaco−2透過性を示す分子は「x」記号でプロットされ、そして低いcaco−2透過性を示す分子は白三角としてプロットされている。高い透過性の分子は境界30の主に内側にあり、そして低いcaco−2透過性の分子は境界30の主に外側にあることを見ることができる。T2距離およびそれらの関連する確率とin vivoデータとの比較は、caco−2細胞膜を通る透過性が、化合物が95%確率領域の外側に移動すると、急激に落ちることを明らかにしている。
【0038】
この方法の重要な一態様は、多変数正規分布が、化合物が良好に吸収される特定の参照化合物に似ている確率の評価を可能にすることである。分子がPSA−logP空間の重心からさらに遠くに移動するにつれて、良好に吸収される分子に似ているその確率は減少する。図3に示されているモデルは、「二者択一」の論理を用い、しきい値に対しそのT2距離を比べることにより分子を吸収が良好または乏しいとして特徴付けている。しかしながら、初めにコンピュータ計算されるT2距離の基礎計算は、良好に吸収される化合物への分子の類似の確率の一つの尺度であることがまた留意されることができる。したがって、モデルは分子を単に吸収が良好または乏しいとして分類するために用いられることができるだけでなく、化合物が既知の容易に吸収される化合物のセットに似ている吸収特性を有するだろう確率を定量するためにも用いられることができる。後者の場合、データベース中の化合物は、良好に吸収される化合物に似た吸収性質を有する可能性に従い、順序付けられることができる。この順序付けは、また逆に、合成とスクリーニングのために化合物に優先順位を付けるために用いられることができる。
【0039】
予測されたlogBBを計算するための改良された計算式もまた、上述した統計的モデルに基づいて開発されることができる。logBBは、変数としてPSAとlogPを有する一次式で、合理的な正確さでモデル化されることが示されている、Clark(上記)。しかしながら、Clarkにより提案されたもののような非制限線形モデルは、図3の境界30に当てはまる化合物に対しその適用を制限することにより改良されることができる。血液脳関門の透過は、腸内吸収よりもさらに困難であることが知られており、そして図3の境界30近辺で見られるcaco−2透過性での急激な落下は、これが線形性が顕著に失われる可能性が高い点であることを示唆している。最小メジアン二乗(LMedS)線形回帰が、係数がClarkにより述べられている係数と異なる頑健線形回帰をコンピュータ計算するために用いられ、そして改良された線形モデルが、R2がClarkの0.787ではなく0.861で得られている。さらに、境界30は、透過性の非線形性を取り扱うための第2の基準として用いられ、そして線形回帰により求められるlogBBに対するどのような予測も、分子が境界30の外側であれば無効であると考えられる。したがって、このlogBBモデルは、図3の領域の外側にある化合物のlogBBを数値的に予測してはいないが、そのような化合物が血液脳関門で透過性が乏しいであろうことを定性的に予測している。これらの原理により実施された線形回帰は、logBBの以下の式をもたらす:
【数9】
【0040】
これは、図4でグラフにより示されている。境界30の内側で、かつ線36の左側のPSA−logP平面に存在している化合物は、1より大きいBBを有する(すなわち、0より大きいlogBB)と予測され、そして境界30の内側で、かつ線40の右側のPSA−logP平面に存在している化合物は、0.5より小さいBBを有すると予測される。
【0041】
PSAとlogPに基づいてlogBBを予測するさらに頑健な数値モデルは、上に記載された既知の吸収される化合物のセットではなく既知のCNS浸透剤化合物を用いて、図3の境界30のような信頼楕円を考案することにより開発されることができる。したがって、一実施形態において、信頼楕円は、Comprehensive Medicinal Chemistry(CMC)データベースからの836個の化合物を用いて作成された。これらの836個は、CMCのクラスでCNS浸透剤を意味する881個の化合物の部分集合を含む。836個の特定のリストは、頑健統計分析により確認された45個の異常値を除くことにより得られた。45個の異常値は、15個の活発に輸送される化合物、10個の4級アミン、10個の非薬剤様化合物、および10個のエステル/プロドラッグを含んでいた。用いられた836個の化合物に対し、PSAの平均値は、上に記載された線形PSA式ではなくエネルギー最小化三次元構造で計算したときに、45.5131であることが見出された。平均の計算されたlogP(AlogP98数値法を用いて、上に参照したGhoseらを参照のこと)は、3.0867であることが見出された。上述したような従来の統計分析を用いると、このモデルのための行列AとBは:
【数10】
および
【0042】
【数11】
【0043】
このモデルにより、新しい化合物に対し方程式2の方法で計算されたT2距離が6.0202より大きいならば、化合物は95%信頼領域の外側になる。この方法で新しい化合物に対し計算されたT2距離が9.2725より大きいならば、化合物は、99%信頼領域の外側になる。
【0044】
このモデルは、Physician’s Desk Reference(PDR)に記載されている438個の経口で投与し得る化合物を用いて検証された。これらの化合物は、BBB浸透剤(242)、BBB非浸透剤(46)、活発に輸送される化合物(37)もしくは流出された化合物(30)、荷電された化合物(7)、または未知化合物(65)として分類された。図5は、結果(74個の活発に輸送、流出、または荷電された化合物は示されていない)を示している。6.202より少ないかまたは等しいT2により定義される95%信頼領域は、楕円42により境界化されており、そして9.2725より少ないかまたは等しいT2により定義される99%信頼領域は、楕円44により境界化されている。この図で見られるように、図5の2つのBBB信頼楕円は、BBB浸透剤とBBB非浸透剤化合物を適切に分離することができる。
【0045】
図5の信頼楕円は、また上記で誘導されかつ方程式3として示されているものよりもさらに良好なlogBBを数値的に予測する線形モデルを開発および使用するプロセスで用いられることもできる。
【0046】
文献検索はlogBBデータを有する124個の化合物を確認した。頑健回帰法(最小メジアン二乗(LMedS)回帰法、たとえばRousseeuw, P.JおよびLeroy, A.M.らのRobust Regression and Outlier Detection(John Wiley and Sons, New York, 1987)(本明細書中にその全体が参照により援用される)を参照)は、最も適した線形係数のコンピュータ計算に先立って、logBBデータセットから除外される可能性のある異常値を確認するために図5のBBB信頼楕円44と並行して用いられた。99%BBB信頼楕円の外側の化合物は排除され、そして2.5より大きな抵抗診断(RD)値は最小メジアン二乗(LMedS)回帰によると特定の観察のモデル空間の平面への一致が乏しいことの指標であり、したがって異常な観察である可能性が高いので、RD値>2.5を有する化合物は、より詳細に試験された。多くの化合物が、変則的に低いlogBB値を有すると観察され、それらの化合物の3個はp−糖タンパク質(pGp)流出基質であり、残りはSeeling(Eur. J. Biochem., 1998, 251, 252−261)により確認されたpGp基質に共通するファルマコフォアを共有している。
【0047】
二つの回帰法が、入手し得るlogBBを有する124個の化合物の異なる部分集合を用いて行われた。一つの回帰法において、図5の99%信頼楕円内にあるとともに、除外のための特定の理由(たとえば、活発に輸送されると知られている)が見出されない102個の化合物が選択された。これは、logBBのための以下の一次式をもたらした:
【数12】
【0048】
この式は、0.7329のR2を有するので、上の方程式3の一次式よりいくらか好ましくないように見える。第2の回帰は、図5の99%信頼楕円の外側、かつRD>2.5(RD値が高くなるほど、化合物は異常値である可能性が高くなる)の化合物を全て排除した。これにより86個の化合物が残った。これらの86個の化合物を用いて、logBBの別の一次式が導かれた:
【数13】
【0049】
この式は、0.8892のR2を有し、上の方程式3および4の両方よりも良好である。
【0050】
吸収モデルに関し上に記載されたように、未知化合物が図5の99%信頼楕円の外側にあるならば、数値的なlogBB予測は行われず、化合物は単に非浸透剤として定性的に分類される。楕円内の未知化合物は、適切な一次式を用いて数値的なlogBB予測に付されることができる。
【0051】
上に記載されたモデルは、特に化合物の大きなライブラリの評価に適用されるときに、従来の吸収とBBB透過性予測技法に優る種々の利点を有している。モデルは、数値係数と行列要素は異なる方法でわずかに変化する場合があるものの、どのように候補化合物のPSAとlogPが誘導されるとしても、有利に用いられることができる。たとえば、線形PSA式が(上記のようなエネルギー最小化三次元構造よりむしろ)上述の836個のCMC化合物でモデルを公式化するために用いられるならば、平均PSAは45.5131ではなく42.6381であり、そして行列A、BおよびlogBBのための一次式は以下のようになる:
【数14】
および
【0052】
【数15】
【0053】
【数16】
【0054】
上で議論したように、線形算術的PSA計算を用いて、PSAとlogPの両方が、定義された原子分類に当てはまるそれぞれの分子内での原子と原子クラスタの数の線形和を用いて計算されることができ、結果的にコンピュータ計算時間がはるかに少なくなる。さらに、定性的な予測の正確性もまた改良されている。したがって、高い精度で非常に速い化学データベーススクリーニングが、本発明の原理で行われることができる。
【0055】
式3、4、5および6の4つ全てを見ると、有用な線形logBB式は、いくらか一般的に特徴付けられることができるように思われる。式の形態が以下のように定義される場合:
【数17】
係数aは、有利には約−0.0145〜−0.0165であり、係数bは、有利には約0.21〜約0.33であり、そして定数項cは、有利には約0.039〜約0.12であり、それらの範囲内でより小さなc値およびより大きなb値が最も正確な式に関連しているように思われる。最も好適には、aは、約−0.0158〜約−0.0161であり、bは、約0.31〜約0.33であり、そしてcは、約0.039〜約0.040である。
【0056】
図6は、本発明の一実施形態に従うコンピュータ実施された分子スクリーニングシステムを示している。このシステムにおいて、原子構成要素と、関連する結合とについての情報は、化合物データベース50から検索される。この情報は、PSA評価モジュール52およびlogP評価モジュール54へ送られる。いくつかの有利な実施形態において、PSAは、式(1)で示したような一次方程式を用いて計算され、そして表1からの係数を用いる。logPは、ALOGPまたはCLOGP法を含む種々の既知の方法を用いて評価されることができる。評価されたPSA値とlogP値は、次いで分子選択/分類モジュール56へ送られる。このモジュール56は、興味のある化合物を、良好に吸収される化合物およびまたはCNS浸透剤化合物への類似の確率に従い分類する。モジュール56は、候補分子を、上記式(2)を用いて図3〜図5の範囲の内側または外側であるとして分離することができ、そしてまたPSA−logP平面での良好に吸収される化合物および/またはCNS浸透剤化合物の重心からの化合物の距離に基づいて、良好に吸収される化合物および/またはCNS浸透剤化合物への類似性を示す化合物の確率に従い、化合物を順序付けることができる。
【0057】
吸収が乏しい、または非BBB浸透剤であると予測された化合物58は、分離することができる。所望ならば、いくつかの化合物のPSA値とlogP値は、logBB評価モジュール60へ送られることができ、これは、たとえば上記の式3、4、5、または6のような一次式を用いて所望の分子のlogBBを数値計算する。
【0058】
本発明は、候補分子に優先順位を付ける広い目的に用いられる。仮想の意味でのみ存在する候補分子が、合成のために優先順位が付けられることができ、一方、合成されている候補分子はスクリーニングのために優先順位が付けられることができる。さらに、このプロセスは、何回も繰り返されることができる。合成とスクリーニングの後、in vitroおよび/またはin vivoでの吸収データが得られ、モデルに加えられることができる新しいデータポイントが作成される。したがって薬剤を発見するためのプロセスにおいて得られた新しい情報はモデル、およびその結果、合成された化合物を改良するために用いられることができる。
【0059】
前述の記載は、本発明のある種の実施形態を詳細に述べている。しかしながら、前述の記載がどのように詳細にテキスト中に表れたとしても、本発明は、多くの方法で実施されることができることが理解されるであろう。また上に述べられたように、本発明のある種の特徴または態様を記載するときの特定の用語の使用が、用語が関連する本発明の特徴または態様のいかなる特定の特質を含むように本明細書中で限定されるように用語が再定義されていることを意味すると考えられるべきではないことを注意すべきである。したがって、本発明の範囲は、併記の請求項とその均等物に従い解釈されるべきである。
【0060】
【図面の簡単な説明】
【図1】
図1は、本発明の一実施形態による極性表面積を計算する方法のフローチャートである。
【図2】
図2は、Physician’s Desk Referenceからの440個の化合物の極性表面積の評価対計算のプロットである。
【図3】
図3は、容易に吸収される化合物と吸収が乏しい化合物との間で統計的に画定された境界を含むPSA−logP平面での化合物の散布図である。
【図4】
図4は、図3の境界および予測された高いlogBBと低いlogBBを有する化学的空間の領域を示すPSA−logP平面の別のプロットである。
【図5】
図5は、CNS透過剤化合物とCNS非透過剤化合物との間で統計的に画定された境界を含むPSA−logP平面での化合物の散布図である。
【図6】
図6は、本発明の一実施形態での薬剤を発見するためのシステムのブロック図である。
[発明の背景]
本発明は、薬学上の発見についてのコンピュータ計算方法に関する。特に、本発明は、分子の膜透過性および生理学的吸収の予測に関する。
【0002】
[関連技術の説明]
医薬化合物の開発において、所望の生物活性を有する化合物を同定することが化合物の薬剤としての適切性を決定するためにそれ自体で十分でないことはよく知られている。化合物は、必要な生物活性を示さなければならないだけでなく、好適には経口投与のような経済的かつ好都合な方法で、目的組織へ送達可能でなければならない。これは、いくつかの治療プロトコルでの課題であった。たとえば、色々なペプチド分子が有用な薬学活性を有することが示されているが、ヒト胃腸上皮組織のような生体膜を通して拡散するそれらの一般的に限定された能力が、それらの臨床的開発を限定している。効果的な経口投与は、薬剤が腸管膜を通して吸収され全身の循環に入ることを必要とし、そしてそのような吸収が制限されているならば、化合物の臨床的開発の見込みは、あまりない。
【0003】
薬剤開発を通して重要な関心事は腸内吸収ばかりでなく、候補化合物の血液脳関門を透過する能力も重要な関心事である。血液脳関門(BBB)は、循環系から中枢神経系の流体を分離する細胞系である。中枢神経系中の標的に向けられた薬剤は、BBBを透過することができるべきである。一方、他の標的組織に向けられた薬剤は、もしそれらが中枢神経系の流体中に自由に通過するならば、不要な副作用をもたらすかもしれない。
【0004】
生体吸収と血液脳関門透過のためのin vivoでの動物試験は、長い間実施されている。さらに、ヒト腸内caco−2細胞を用いる細胞ベースのin vivoアッセイは、薬剤候補化合物の生体膜透過性を測定するために広く用いられている。それらのプロトコルの両方は、速度が遅く、高価で、かつ多くの作業を必要とするために、より容易に得られた分子特性に基づく胃腸吸収および血液脳関門透過の能力を予測するコンピュータ計算方法が開発されている。また、そのようなコンピュータ計算方法は、どの化合物が合成されるべきかを決定する目的で、合成されていない化合物の仮想ライブラリの吸収および血液脳関門透過のコンピュータ内予測のために、非常に興味深い。これらのコンピュータ計算モデルにおいて、ヒト腸内吸収%(%HIA)または中枢神経系および血液中の化合物の濃度の定常状態割合の対数(しばしば、logBBと呼ばれる)のいずれかを評価する式が、考案されている。この式は、典型的には、分子特性と、化合物の分子構造から誘導されることができるパラメータとを用いる。これらの式を用いて、%HIAとlogBBがin vivo実験を実施する必要なしに評価される得る。
【0005】
多くのモデルは、腸内吸収または血液脳関門透過の性質を予測するために水素結合性、親油性、および分子量に関連する分子特性に焦点を合わせている。分子の極性表面積(PSA)とその%HIAとの間のS字型関係が、低い%HIAに相関する高い極性表面積と共に観察されている。これは、PalmらのPolar Molecular Surface Properties Predict the Intestinal Absorption of Drugs in Humans(Pharmaceutical Research, Vol. 14, No.5, p.568 (1997))に示されている。特に高いかまたは特に低い、親油性の尺度である、オクタノール/水分配係数(logP)を有する分子が、低い%HIAに関連していることもまた観察されている。Palm(上記)およびWilsらのHigh Lipophilicity Decreases Drug Transport Across Intestinal Epithelial Cells(The Journal of Pharmacology and Experimental Therapeutics, Volume 269, No.2, P.654 (1994))。PalmとWilsの両論文の開示は、本明細書中にこれらの全体が参照により援用される。
【0006】
したがって、分子のPSAは、良好に吸収される化合物と吸収が乏しい化合物を区別するために用いられることができるパラメータとして提唱されており、140平方オングストロームが切り捨て値として提案されている。ClarkのRapid Calculation of Polar Molecular Surface Area and its Application to the Prediction of Transport Phenomena 1. Prediction of Intestinal Absorption(Journal of Pharmaceutical Sciences, Vol.88, No.8, p.807(1999))。PSAはまた、膜透過性とlogBBを予測するための一次式での変数として用いられている。いくつかの場合に、logPが、そのような一次式でPSAと一緒に用いられている。ClarkのRapid Calculation of Polar Molecular Surface Area and its Application to the Prediction of Transport Phenomena 2. Prediction of Blood−Brain Barrier Penetration(Journal of Pharmaceutical Sciences,Vol.88, No.8, p.815 (1999))およびWiniwarterらのCorrelation of Human Jejunal Permeability (in Vivo) of Drugs with Experimentally and Theoretically Derived Parameters. A Multivariate Data Analysis Approach(Journal of Medicinal Chemistry 41, p.4939 (1998))。本明細書中でこれらの両方の全体が参照により援用される。
【0007】
これらのモデルは、in vivoおよびin vitroでの化学的試験への依存を減少させることにより薬剤候補の評価プロセスの速度を改善しているが、それらはコンピュータ計算の不経済を残し、そして多くの場合に、厳密な線形モデル化がそれらの予測値を限定している。PSA計算は、エネルギー最小化三次元分子構造の計算を必要とし、これはSunまたはSGI−R1000ワークステーションで10〜15秒のCPU時間を必要とする。候補化合物の大きなライブラリへのこれらの技法の効果的な応用は、それぞれの分子に必要なコンピュータ計算時間を減少させる技法を必要とする。
【0008】
[発明の概要]
一実施形態において、本発明は、複数の原子の種類のそれぞれの定義に当てはまる分子中の原子または原子クラスタの数の別々のカウントを行うこと、および別々のカウントの少なくともいくつかを用いて分子の極性表面積を評価することを含む、分子の極性表面積を評価する方法を含む。
【0009】
コンピュータ計算された極性表面積は、コンピュータ実施された化合物分析方法で有用であり、本発明はまた、分子のエネルギー最小化三次元構造を参照することなく分子の極性表面積をコンピュータ計算すること、およびその性質を予測するためにコンピュータ計算された極性表面積を用いることを含む膜透過性のための分子の性質を予測する方法を含む。
【0010】
薬剤を発見するための方法もまた提供される。一つの実施形態において、そのような方法は、データベースから分子の部分集合を選択することを含み、ここで、選択することは、データベース中のそれぞれの分子のPSAとlogPを数値的に評価すること、PSA−logP平面でデータベース中のそれぞれの化合物の位置を決定すること、およびPSA−logP平面上でそれぞれの位置に基づいて化合物を分類することを含む。
【0011】
[好適な実施形態の詳細な説明]
次に、本発明の実施形態を、添付の図面を参照して記載し、同様の符号は、全体を通して同様の構成要素を指す。本明細書に示されている説明で用いられている用語は、単に本発明のある特定の実施形態の詳細な説明に関連して用いられているので、いかなる限定または制限により解釈されるように意図されていない。さらに、本発明の実施形態は、いくつかの新規な特徴を含むことができ、それらのどれもが単独で所望の特質を担うか、または本明細書に記載された発明を実施するために必須であるものではない。
【0012】
多くの実施形態において、本発明は、コンピュータ実施された薬剤候補の評価プロセスで有用である。これらのプロセスにおいて、化合物の1つまたは複数のデータベースからの薬剤候補は、所望の特徴または特性のために汎用コンピュータで動作するソフトウエアコードを用いて予め評価される。この目的に用いられる汎用コンピュータは、ネットワークサーバ、ワークステーション、パーソナルコンピュータ、大型コンピュータなどを含めた、広範の種々の形態をとることができる。これらの化合物の評価を実施するコンピュータの設定を行う(configure)コードは、典型的にはCD−ROMのようなコンピュータ可読媒体上でユーザに提供される。このコードは、インターネットなどの、ローカルまたはワイドエリアネットワークの一部であるネットワークサーバからユーザによりダウンロードされることもできる。
【0013】
ソウトウエアが動作する汎用コンピュータは、典型的には、マウスおよび/またはキーボードのような1つもしくは複数の入力装置、ディスプレイ、ならびにランダムアクセス記憶集積回路およびハードディスクドライブのようなコンピュータ可読記憶媒体を含む。コードの1つもしくは複数の部分または全ては、ユーザから離れていることができ、たとえばLANサーバ、インターネットサーバ、ネットワーク記憶装置などのネットワークリソースに常駐することができることが理解されるだろう。典型的な実施形態において、ソフトウエアは、候補薬剤化合物もしくは組成物に関する種々の情報を入力として受け取り、そしてこの情報から、候補薬剤化合物の期待される生物学的、または化学的特性を、誘導、評価または予測する。データベースは、10,000、100,000、または多分それ以上の候補化合物を含み得る。いくつかの有利な実施形態において、ソフトウエアプログラムへの情報入力は、候補化合物のそれぞれについての構造的情報を含む。この情報は、通常、原子構成成分およびそれらの間の結合、本質的には2次元分子結合ダイアグラムで見出された情報に限定されている。この情報から、生物学的および/または化学的活性の予測が、有利に行われる。
【0014】
上述したように、データベースのどの化合物が容易に腸内吸収される可能性があるか、または血液脳関門を透過する可能性があるかを予測することが望ましい。また、上述したように、分子の極性表面積は、しばしば、この予測の一部として用いられる。極性表面積計算の従来の方法において、原子構成要素と原子間結合の配置は、既知の分子モデル化ツールを用いてエネルギー最小化3次元分子構造を生成するために用いられる。これらの計算は、真空中または溶液中で行われることができる。3次元構造が計算された後、PSAは、酸素原子、窒素原子、およびいずれの他の原子のファンデルワールス表面積内にも配置されていないそれらの結合された水素原子すべての、ファンデルワールス表面積の部分として定義され、ここで、ファンデルワールス表面は、原子のタイプのファンデルワールス半径を有する剛体球を満たす空間により定義されている。したがって、分子の「暴露された」酸素、窒素、および会合された水素の合計量が、PSAを定義する。
【0015】
従来のPSA計算は、腸内吸収を予測するプロセスにおいて有用である。しかしながら、エネルギー最小化三次元分子構造の生成は、コンピュータ計算的には困難であり、時間を必要とする。100,000化合物のコンビナトリアルライブラリでの全ての化合物のPSAを計算することは、広く用いられているワークステーションで、ざっと10〜20日のコンピュータ時間を必要とする。
【0016】
計算を300〜1000倍早くし、1時間未満で100,000分子データベースのそれぞれの分子のPSAの計算を可能にする原子および原子クラスタ分類方法によりPSAを計算することができることは、本発明の一つの態様である。このプロセスは図1に図示されている。
【0017】
次にこの図を参照すると、本方法は、複数の原子の種類を定義するブロック20で開始する。それぞれの原子の種類は、単一の原子または原子のクラスタを含むことができる。それぞれの種類は、また典型的には、クラスタ内および/または他の原子への結合の配置により定義される。たとえば、原子の種類には、「二重結合された酸素原子」、「単結合されたNH2基」などが挙げられる。本実施形態において、種類は、窒素原子、酸素原子、および結合された水素原子を含む。これは、これらの分子構成要素が分子のPSAに寄与するものであるためである。ブロック22において、それぞれ定義された種類に当てはまる、分析されている分子の原子または原子クラスタの数の別々のカウントが行われ、したがって、それぞれ定義された種類内の原子構成要素のカウントに相当する整数のリストをもたらす。図1のブロック24により示されているように、別々のカウントが、評価される分子の極性表面積を評価するために用いられる。以下でさらに詳述される有利な一実施形態において、カウントは、評価されたPSA値をもたらす簡単な算術計算で用いられる。したがって、エネルギー最小化三次元分子構造の関連した原子のファンデルワールス表面積をコンピュータ計算することによりPSAを計算するよりも、かかる計算時間がはるかに少ない簡単なコンピュータ計算が用いられる。
【0018】
特に有利な実施形態において、PSAは、以下のように非負の係数を有する一次方程式として表現される:
【0019】
【数4】
【0020】
ここで、Niは、種類iに当てはまる分子の原子または原子クラスタのカウントであり、そしてCiは、種類iに関連する係数である。このモデルにおいて、係数は、分子の全PSAに対するそれぞれの原子タイプの寄与を表す。種類が、分子のPSAを増す傾向がある全ての極性原子および原子クラスタを含むので、係数は全て非負である。上の式の係数は、複数の訓練分子を用いて非負の最小二乗線形回帰法を行うことにより計算されることができる。この技法は、有機化合物の沸点の予測が一つの例である他の少数の応用において既知である。HallとKierのElectrotopological State Indices for Atom Types: A Novel Combination of Electronic, Topological, and Valence State Information(J. Chem. Inf. Comput. Sci. Vol.35, 1039−1045 (1995))は、本明細書中でその全体が参照により援用される。係数を生成する手順は、訓練分子のセットを選択すること、およびエネルギー最小化三次元構造を計算し、かつ窒素、酸素およびそれらの結合された水素のファンデルワールス表面積をコンピュータ計算することにより、従来の方法でそれらのPSA値のすべてをコンピュータ計算することである。次いで、それぞれの種類の原子または原子クラスタのカウントを行うことが、それぞれの分子で行われる。次いで、上の式で計算されたPSAの誤差の2乗の合計が、回帰係数のそれぞれがゼロより大きいという制限で訓練セットの分子の全てにわたり最小化されるように、係数がコンピュータ計算される。
【0021】
これらの方法は、本発明に先立って、極性表面積の計算またはいかなる他の計算された(実験的に測定されたものでなくて)量には適用されていない。
全表面積または非極性表面積のような他の密接に関連した表面積量は、立体配座立体配座の変化により相当変化する可能性がある。対照的に、PSA値の広い範囲を通して、上述のPSAモデルの驚くべき正確さは、溶媒和された立体配座の極性表面積がそれらの関連する尺度よりも立体配座への依存性がかなり少ないことを示している。このような環境下でのみ、回帰計算のための適切な基礎を形成する分子のヘテロ原子の結合された状態のセットを確認することができる。
【0022】
以下に記載されている表1は、本発明の一実施形態での、原子の分類および関連した係数のリストを記載している。
【0023】
【表1】
【0024】
これらの係数は、Comprehensive Medicinal Chemistry(CMC)データベースに含まれている5,386個の最も医薬に似ている分子のエネルギー最小化三次元構造を用い、多数の配座異性体ではなく単一の伸展された配座異性体を用いて明示的にPSAを計算することにより得られた。分子は、訓練、試験および確認データセットに分離された。確認データセットは、錠剤、カプセル、または経口懸濁物形態で現在入手し得る製薬としてPhysician’s Desk Referenceに列挙されている440個の分子から成る。確認データセットに列挙されている化合物は、回帰にバイアスをかけないために訓練および試験データセットの作成に先立ってCMCデータセットから除かれた。訓練および試験データセットは、CMCからの残りの分子をそれらの明示的に計算されたPSA値の順に分類し、そして奇数番目の分子を訓練データセットに、そして偶数番目の分子を試験データセットへ割り当てることにより作成された。これは、等しいPSA範囲に広がる2つのデータセットを作成した。表1で上述した18種の原子の分類のそれぞれのカウントを行うことが、それぞれの分子で行われた。訓練データセットの分子のカウントは、上記式(1)で述べた形態の一次方程式で独立変数として用いられた。一次方程式を用いて予測されたPSAとエネルギー最小化三次元構造から計算されたPSAとの間の全誤差を最小にするように、従来のおよび既知の非線形最小二乗回帰法を用いて、係数が誘導された。係数は非負の定数に限定され、そして切片はゼロに固定された。
【0025】
図2は、上記式(1)と表1の係数とを用いて評価されたPSAの、確認データセットの三次元構造で計算されたPSAに対する散布図である。計算的に評価されたPSAと構造的に計算されたPSAとの一致は、
【数5】
式(1)の速算方法を用いたときの二乗平均平方根PSA誤差が5.9平方オングストロームに過ぎず、非常に良好である。算術式(1)ならびに表1の原子分類および係数を用いたとき、計算の速度は、ざっと1秒あたり20〜100超の分子である。これは、エネルギー最小化三次元構造を用いる従来のPSA計算方法の分子あたり10〜15秒に対し劇的な改良である。
【0026】
コンピュータ計算速度での大きな改善のために、PSA計算の上述の方法は、腸内吸収のそれらの性質のための大きな化合物データベースの候補薬剤の評価に有利に応用されることができる。上述の本発明の原理を用いて、化合物の三次元構造がPSAをコンピュータ計算するために作成される必要はなく、それにより候補薬剤の評価のプロセスは劇的に加速される。たとえば、生物学的に良好に吸収される可能性が高い化合物を選択するための上記に参照された一つの提案された方法は、140平方オングストロームのしきい値に対しPSAを比較することである。このモデルによると、このしきい値を超える化合物は、吸収性が乏しい可能性が高い。上の式(1)のようなPSA計算のための一次方程式を用いて、100,000化合物ライブラリがスクリーニングされることができ、吸収性が乏しい可能性が高い全ての化合物が、現在これらの応用のために広く用いられているワークステーションで1時間未満のコンピュータ計算時間で、残りから分離されることができる。
【0027】
他のモデルが、吸収性が乏しい可能性が高い化合物を同定するために提案されている。そのようなモデルは、分子記述子(それから予測が行われる)として、極性特性の数値尺度および/または親油性の数値尺度を含むことができる。極性特性の数値尺度の一つの例は、上に記載されたPSAである。親油性の数値尺度の例としては、logPとlogDが挙げられる。logPは上に記載されており、そしてlogDは、イオン化中心のために電荷効果が補正されたlogPである。以下に記載されたモデルにおいて、PSAとlogPは、用いられている特定の記述子であるが、極性特性および親油性の尺度を提供する他の記述子も本発明の原理により首尾よく用られ得ることは、当業者により理解されるであろう。
【0028】
logPはまた、実験的に決定されることができるけれども、上記の式(1)と同じ形態の一次方程式により、良好にモデル化されることは従来から知られている。したがって、データベースの分子の評価において、logPは、種々の原子分類での原子または原子クラスタのカウントおよび関連した乗法の係数に基づいて評価され得る。当業者にALOGPおよびCLOGPとして知られる二つの線形モデルが、広く用いられている。例えば、本明細書中でその全体が参照により援用されるGhoseらのprediction of Hydrophilic (Lipophilic) Properties of Small Organic Molecules Using Fragmental Methods: An Analysis of ALOGP and CLOGP Methods(Journal of Physical Chemistry A,Vol.102, 3762−3772)を参照。
【0029】
分子のパラメータPSAとlogPは、腸内吸収とlogBBの関連記述子である。これは、腸管へのまたは血液脳関門を通る受動拡散が、親水性および親油性領域の両方を有する脂質二重層を含む細胞膜を通した分子の拡散を必要とするためである。したがって、高親水性分子と、容易に水素結合を形成する分子とは、膜中へ容易に入ることはできない。さらに、高親油性分子は、一度親油性の内部に到達すると、容易に膜を離れない。PSAは親水性の尺度であり、そしてlogP(これは、親水性と親油性の両方の寄与を含む)は、したがって、膜浸透性の情報が誘導されることができるパラメータであると見出されている。
【0030】
膜透過性に対するPSAとlogPの間の相関関係は、しかしながら高度に非線形である。上に記載したように、高いlogPと低いlogPの両極端は、乏しい腸内吸収に関連している。分子のPSAは、腸内吸収に対してS字型の相関関係を示している。化学的空間の重要な部分に対する正確な生体吸収データが入手できるならば、十分な正確さで、候補薬剤の数的に測定された腸内吸収および/またはlogBB特性を予測できる正確な非線形モデルが、誘導されるであろう。そのようなデータが入手できないために、PSA値とlogP値に基づく新規なモデル化技法が開発されており、そして図3〜図5を参照して以下に記載されている。本発明のこの特徴により、標準の定量モデルよりむしろPSAとlogPに基づく統計ベースのパターン認識モデルが、吸収が乏しい化合物から良好に吸収される化合物を区別することに非常に成功していることが見出されている。
【0031】
本発明の一態様により、モデルは、受動拡散を介する腸内吸収のための分子の性質が、分子のPSAとlogPの関数、特にPSAとlogPの相互作用であることを仮定している。全ての分子は、したがって、二次元PSA−logP平面の位置を割り当てられることができる。PSA−logP平面における位置の関数として腸内吸収を定量的に予測するよりむしろ、PSA−logP平面の境界化領域が定義される。分子のPSAとlogPが境界化領域内にあるならば、分子は容易に腸内吸収される可能性が高いと考えられる。分子のPSAとlogPが境界化領域の外側にあるならば、分子は容易に腸内吸収される可能性が低いと考えられている。PSA−logP平面内で高い腸内吸収のこの境界化領域を画定するために、容易に吸収されるとして知られている化合物の統計的分析が行われた。容易に吸収され、かつ細胞膜を超えて活発に輸送されないとして知られている182個の化合物のPSAとlogPが計算された。これらの分子の(PSA、logP)座標についての分布は、多変量正規分布を仮定して統計的に分析された。
【0032】
図3は、この図で記号「+」で示されている既知の容易に吸収される化合物のPSA−logP平面での分布を示している。これらの分子の平均PSAは64.5867であり、平均logPは2.3226である。大まかに言えば、モデルは、それらの平均値に「近い」PSAとlogPを有する、分析されている新しい分子は同様に容易に吸収され、そしてそれらの平均値から「遠い」PSAとlogPを有する、分析されている新しい分子は容易に吸収されないだろうことを予測する。どのくらい近ければ十分近いのかを定義するために、モデルは、平均値からの距離を測定するための参照としてHotellingのT2距離を利用する。図3に示された境界30は、既知の容易に吸収される化合物により提供されたデータ点の標準統計的分析を用いて計算されたHotellingのT2距離に対して95%信頼領域である。
【0033】
化合物のT2距離をコンピュータ計算するために必要な係数は、以下のようにして決定される:1)良好に吸収される化合物の選択されたセットの平均PSAとlogPをコンピュータ計算する。2)それらの化合物のそれぞれのPSAとlogPの個々の値を平均中心化する(平均値を減ずる)。3)この平均中心化されたデータセットを数値的に安定な固有値と固有ベクトルを提供するいずれかのアルゴリズムで分解する(特異値分解(SVD)が用いられることができ、標準のU、S、およびV出力行列を与える)。平均値とSVDの結果(またはいくつかの似た方法からの固有値/固有ベクトル)を用いて、RencherによるMethods of Multivariate Analysis(John Wiley & Son, Inc.: New York, 1995)(本明細書中でそれの全体が参照により援用される)によって平均中心化により与えられた変換および共分散行列による乗法を行うために、新規なまたはモデル作成で用いられたいずれかの化合物(複数可)のT2距離(二乗されたMahalanobis距離としても知られている)をコンピュータ計算する。良好に吸収される化合物に対する化合物の類似性の信頼領域/確率は、RencherによるT2に対するF分布相関関係を用いてコンピュータ計算されることができる。
【0034】
図3の容易に吸収される化合物の分布のために、平均からのT2距離は、以下のようにコンピュータ計算される:
【数6】
ここで、AとBは、行列であり、
【数7】
および
【0035】
【数8】
【0036】
この方法で計算されたT2距離が6.126より大きいならば、化合物は、95%信頼領域、PSA−logP平面の図3の境界30の外側になり、そしてモデルによって吸収が乏しいと予測される。
【0037】
モデルは、吸収が乏しいとして知られている追加の分子のデータポイントをプロット(PSA、logP)することにより試験されることができる。これらは、図3で白丸として示されており、そしてそれらのほとんど全部が、境界30の外側にあることは直ちに明らかである。モデルの妥当性の別の証明は、腸管透過性のin vivoアッセイで通常用いられるcaco−2細胞アッセイで、高い膜透過性または低い膜透過性を示す分子をプロットすることにより得られる。図3において、高いcaco−2透過性を示す分子は「x」記号でプロットされ、そして低いcaco−2透過性を示す分子は白三角としてプロットされている。高い透過性の分子は境界30の主に内側にあり、そして低いcaco−2透過性の分子は境界30の主に外側にあることを見ることができる。T2距離およびそれらの関連する確率とin vivoデータとの比較は、caco−2細胞膜を通る透過性が、化合物が95%確率領域の外側に移動すると、急激に落ちることを明らかにしている。
【0038】
この方法の重要な一態様は、多変数正規分布が、化合物が良好に吸収される特定の参照化合物に似ている確率の評価を可能にすることである。分子がPSA−logP空間の重心からさらに遠くに移動するにつれて、良好に吸収される分子に似ているその確率は減少する。図3に示されているモデルは、「二者択一」の論理を用い、しきい値に対しそのT2距離を比べることにより分子を吸収が良好または乏しいとして特徴付けている。しかしながら、初めにコンピュータ計算されるT2距離の基礎計算は、良好に吸収される化合物への分子の類似の確率の一つの尺度であることがまた留意されることができる。したがって、モデルは分子を単に吸収が良好または乏しいとして分類するために用いられることができるだけでなく、化合物が既知の容易に吸収される化合物のセットに似ている吸収特性を有するだろう確率を定量するためにも用いられることができる。後者の場合、データベース中の化合物は、良好に吸収される化合物に似た吸収性質を有する可能性に従い、順序付けられることができる。この順序付けは、また逆に、合成とスクリーニングのために化合物に優先順位を付けるために用いられることができる。
【0039】
予測されたlogBBを計算するための改良された計算式もまた、上述した統計的モデルに基づいて開発されることができる。logBBは、変数としてPSAとlogPを有する一次式で、合理的な正確さでモデル化されることが示されている、Clark(上記)。しかしながら、Clarkにより提案されたもののような非制限線形モデルは、図3の境界30に当てはまる化合物に対しその適用を制限することにより改良されることができる。血液脳関門の透過は、腸内吸収よりもさらに困難であることが知られており、そして図3の境界30近辺で見られるcaco−2透過性での急激な落下は、これが線形性が顕著に失われる可能性が高い点であることを示唆している。最小メジアン二乗(LMedS)線形回帰が、係数がClarkにより述べられている係数と異なる頑健線形回帰をコンピュータ計算するために用いられ、そして改良された線形モデルが、R2がClarkの0.787ではなく0.861で得られている。さらに、境界30は、透過性の非線形性を取り扱うための第2の基準として用いられ、そして線形回帰により求められるlogBBに対するどのような予測も、分子が境界30の外側であれば無効であると考えられる。したがって、このlogBBモデルは、図3の領域の外側にある化合物のlogBBを数値的に予測してはいないが、そのような化合物が血液脳関門で透過性が乏しいであろうことを定性的に予測している。これらの原理により実施された線形回帰は、logBBの以下の式をもたらす:
【数9】
【0040】
これは、図4でグラフにより示されている。境界30の内側で、かつ線36の左側のPSA−logP平面に存在している化合物は、1より大きいBBを有する(すなわち、0より大きいlogBB)と予測され、そして境界30の内側で、かつ線40の右側のPSA−logP平面に存在している化合物は、0.5より小さいBBを有すると予測される。
【0041】
PSAとlogPに基づいてlogBBを予測するさらに頑健な数値モデルは、上に記載された既知の吸収される化合物のセットではなく既知のCNS浸透剤化合物を用いて、図3の境界30のような信頼楕円を考案することにより開発されることができる。したがって、一実施形態において、信頼楕円は、Comprehensive Medicinal Chemistry(CMC)データベースからの836個の化合物を用いて作成された。これらの836個は、CMCのクラスでCNS浸透剤を意味する881個の化合物の部分集合を含む。836個の特定のリストは、頑健統計分析により確認された45個の異常値を除くことにより得られた。45個の異常値は、15個の活発に輸送される化合物、10個の4級アミン、10個の非薬剤様化合物、および10個のエステル/プロドラッグを含んでいた。用いられた836個の化合物に対し、PSAの平均値は、上に記載された線形PSA式ではなくエネルギー最小化三次元構造で計算したときに、45.5131であることが見出された。平均の計算されたlogP(AlogP98数値法を用いて、上に参照したGhoseらを参照のこと)は、3.0867であることが見出された。上述したような従来の統計分析を用いると、このモデルのための行列AとBは:
【数10】
および
【0042】
【数11】
【0043】
このモデルにより、新しい化合物に対し方程式2の方法で計算されたT2距離が6.0202より大きいならば、化合物は95%信頼領域の外側になる。この方法で新しい化合物に対し計算されたT2距離が9.2725より大きいならば、化合物は、99%信頼領域の外側になる。
【0044】
このモデルは、Physician’s Desk Reference(PDR)に記載されている438個の経口で投与し得る化合物を用いて検証された。これらの化合物は、BBB浸透剤(242)、BBB非浸透剤(46)、活発に輸送される化合物(37)もしくは流出された化合物(30)、荷電された化合物(7)、または未知化合物(65)として分類された。図5は、結果(74個の活発に輸送、流出、または荷電された化合物は示されていない)を示している。6.202より少ないかまたは等しいT2により定義される95%信頼領域は、楕円42により境界化されており、そして9.2725より少ないかまたは等しいT2により定義される99%信頼領域は、楕円44により境界化されている。この図で見られるように、図5の2つのBBB信頼楕円は、BBB浸透剤とBBB非浸透剤化合物を適切に分離することができる。
【0045】
図5の信頼楕円は、また上記で誘導されかつ方程式3として示されているものよりもさらに良好なlogBBを数値的に予測する線形モデルを開発および使用するプロセスで用いられることもできる。
【0046】
文献検索はlogBBデータを有する124個の化合物を確認した。頑健回帰法(最小メジアン二乗(LMedS)回帰法、たとえばRousseeuw, P.JおよびLeroy, A.M.らのRobust Regression and Outlier Detection(John Wiley and Sons, New York, 1987)(本明細書中にその全体が参照により援用される)を参照)は、最も適した線形係数のコンピュータ計算に先立って、logBBデータセットから除外される可能性のある異常値を確認するために図5のBBB信頼楕円44と並行して用いられた。99%BBB信頼楕円の外側の化合物は排除され、そして2.5より大きな抵抗診断(RD)値は最小メジアン二乗(LMedS)回帰によると特定の観察のモデル空間の平面への一致が乏しいことの指標であり、したがって異常な観察である可能性が高いので、RD値>2.5を有する化合物は、より詳細に試験された。多くの化合物が、変則的に低いlogBB値を有すると観察され、それらの化合物の3個はp−糖タンパク質(pGp)流出基質であり、残りはSeeling(Eur. J. Biochem., 1998, 251, 252−261)により確認されたpGp基質に共通するファルマコフォアを共有している。
【0047】
二つの回帰法が、入手し得るlogBBを有する124個の化合物の異なる部分集合を用いて行われた。一つの回帰法において、図5の99%信頼楕円内にあるとともに、除外のための特定の理由(たとえば、活発に輸送されると知られている)が見出されない102個の化合物が選択された。これは、logBBのための以下の一次式をもたらした:
【数12】
【0048】
この式は、0.7329のR2を有するので、上の方程式3の一次式よりいくらか好ましくないように見える。第2の回帰は、図5の99%信頼楕円の外側、かつRD>2.5(RD値が高くなるほど、化合物は異常値である可能性が高くなる)の化合物を全て排除した。これにより86個の化合物が残った。これらの86個の化合物を用いて、logBBの別の一次式が導かれた:
【数13】
【0049】
この式は、0.8892のR2を有し、上の方程式3および4の両方よりも良好である。
【0050】
吸収モデルに関し上に記載されたように、未知化合物が図5の99%信頼楕円の外側にあるならば、数値的なlogBB予測は行われず、化合物は単に非浸透剤として定性的に分類される。楕円内の未知化合物は、適切な一次式を用いて数値的なlogBB予測に付されることができる。
【0051】
上に記載されたモデルは、特に化合物の大きなライブラリの評価に適用されるときに、従来の吸収とBBB透過性予測技法に優る種々の利点を有している。モデルは、数値係数と行列要素は異なる方法でわずかに変化する場合があるものの、どのように候補化合物のPSAとlogPが誘導されるとしても、有利に用いられることができる。たとえば、線形PSA式が(上記のようなエネルギー最小化三次元構造よりむしろ)上述の836個のCMC化合物でモデルを公式化するために用いられるならば、平均PSAは45.5131ではなく42.6381であり、そして行列A、BおよびlogBBのための一次式は以下のようになる:
【数14】
および
【0052】
【数15】
【0053】
【数16】
【0054】
上で議論したように、線形算術的PSA計算を用いて、PSAとlogPの両方が、定義された原子分類に当てはまるそれぞれの分子内での原子と原子クラスタの数の線形和を用いて計算されることができ、結果的にコンピュータ計算時間がはるかに少なくなる。さらに、定性的な予測の正確性もまた改良されている。したがって、高い精度で非常に速い化学データベーススクリーニングが、本発明の原理で行われることができる。
【0055】
式3、4、5および6の4つ全てを見ると、有用な線形logBB式は、いくらか一般的に特徴付けられることができるように思われる。式の形態が以下のように定義される場合:
【数17】
係数aは、有利には約−0.0145〜−0.0165であり、係数bは、有利には約0.21〜約0.33であり、そして定数項cは、有利には約0.039〜約0.12であり、それらの範囲内でより小さなc値およびより大きなb値が最も正確な式に関連しているように思われる。最も好適には、aは、約−0.0158〜約−0.0161であり、bは、約0.31〜約0.33であり、そしてcは、約0.039〜約0.040である。
【0056】
図6は、本発明の一実施形態に従うコンピュータ実施された分子スクリーニングシステムを示している。このシステムにおいて、原子構成要素と、関連する結合とについての情報は、化合物データベース50から検索される。この情報は、PSA評価モジュール52およびlogP評価モジュール54へ送られる。いくつかの有利な実施形態において、PSAは、式(1)で示したような一次方程式を用いて計算され、そして表1からの係数を用いる。logPは、ALOGPまたはCLOGP法を含む種々の既知の方法を用いて評価されることができる。評価されたPSA値とlogP値は、次いで分子選択/分類モジュール56へ送られる。このモジュール56は、興味のある化合物を、良好に吸収される化合物およびまたはCNS浸透剤化合物への類似の確率に従い分類する。モジュール56は、候補分子を、上記式(2)を用いて図3〜図5の範囲の内側または外側であるとして分離することができ、そしてまたPSA−logP平面での良好に吸収される化合物および/またはCNS浸透剤化合物の重心からの化合物の距離に基づいて、良好に吸収される化合物および/またはCNS浸透剤化合物への類似性を示す化合物の確率に従い、化合物を順序付けることができる。
【0057】
吸収が乏しい、または非BBB浸透剤であると予測された化合物58は、分離することができる。所望ならば、いくつかの化合物のPSA値とlogP値は、logBB評価モジュール60へ送られることができ、これは、たとえば上記の式3、4、5、または6のような一次式を用いて所望の分子のlogBBを数値計算する。
【0058】
本発明は、候補分子に優先順位を付ける広い目的に用いられる。仮想の意味でのみ存在する候補分子が、合成のために優先順位が付けられることができ、一方、合成されている候補分子はスクリーニングのために優先順位が付けられることができる。さらに、このプロセスは、何回も繰り返されることができる。合成とスクリーニングの後、in vitroおよび/またはin vivoでの吸収データが得られ、モデルに加えられることができる新しいデータポイントが作成される。したがって薬剤を発見するためのプロセスにおいて得られた新しい情報はモデル、およびその結果、合成された化合物を改良するために用いられることができる。
【0059】
前述の記載は、本発明のある種の実施形態を詳細に述べている。しかしながら、前述の記載がどのように詳細にテキスト中に表れたとしても、本発明は、多くの方法で実施されることができることが理解されるであろう。また上に述べられたように、本発明のある種の特徴または態様を記載するときの特定の用語の使用が、用語が関連する本発明の特徴または態様のいかなる特定の特質を含むように本明細書中で限定されるように用語が再定義されていることを意味すると考えられるべきではないことを注意すべきである。したがって、本発明の範囲は、併記の請求項とその均等物に従い解釈されるべきである。
【0060】
【図面の簡単な説明】
【図1】
図1は、本発明の一実施形態による極性表面積を計算する方法のフローチャートである。
【図2】
図2は、Physician’s Desk Referenceからの440個の化合物の極性表面積の評価対計算のプロットである。
【図3】
図3は、容易に吸収される化合物と吸収が乏しい化合物との間で統計的に画定された境界を含むPSA−logP平面での化合物の散布図である。
【図4】
図4は、図3の境界および予測された高いlogBBと低いlogBBを有する化学的空間の領域を示すPSA−logP平面の別のプロットである。
【図5】
図5は、CNS透過剤化合物とCNS非透過剤化合物との間で統計的に画定された境界を含むPSA−logP平面での化合物の散布図である。
【図6】
図6は、本発明の一実施形態での薬剤を発見するためのシステムのブロック図である。
Claims (32)
- 分子の極性表面積を評価する方法であって:
複数の原子の種類のそれぞれの定義に当てはまる前記分子中の原子または原子クラスタの数の別々のカウントを行うこと、
前記別々のカウントの少なくともいくつかを用いて前記分子の極性表面積を評価することを含む方法。 - 前記評価することが、前記カウントの少なくともいくつかに1つまたは複数の係数を乗じること、およびそれらの積を合計することを含む、請求項1記載の方法。
- 前記複数の原子の種類が、単結合されたNH2、二重結合されたNH、二重に単結合されたNH、芳香族結合されたNH、芳香族結合されたN、三重結合されたN、単結合されたOH、二重結合されたO、二重に単結合されたO、および芳香族結合されたOのうちの1つまたは複数を含む、請求項1記載の方法。
- 前記複数の原子の種類が、単結合されたNH2、二重結合されたNH、二重に単結合されたNH、芳香族結合されたNH、芳香族結合されたN、三重結合されたN、単結合されたOH、二重結合されたO、二重に単結合されたO、および芳香族結合されたOの全てを含む、請求項3記載の方法。
- 分子の極性表面積を評価する方法であって、前記分子中に存在する、予め定義された原子タイプおよび/または原子クラスタタイプのカウントを実行すること、および前記分子のエネルギー最小化三次元分子構造を参照することなく、係数類により重みが付けられ、かつ一緒に合計された前記カウントを用いて前記分子極性表面積を評価することを含む方法。
- 前記予め定義された原子タイプおよび/または原子クラスタタイプが、単結合されたNH2、二重結合されたNH、二重に単結合されたNH、芳香族結合されたNH、芳香族結合されたN、三重結合されたN、単結合されたOH、二重結合されたO、二重に単結合されたO、および芳香族結合されたOのうちの1つまたは複数を含む、請求項5記載の方法。
- 膜透過性に対する分子の性質を予測する方法であって:
前記分子のエネルギー最小化三次元構造を参照することなく、前記分子の極性表面積をコンピュータ計算すること、および
前記性質を予測するために前記コンピュータ計算された極性表面積を用いることを含む方法。 - 薬剤を発見するための方法であって:
複数の分子の少なくともいくつかのエネルギー最小化三次元構造を参照することなく、前記分子の極性表面積をコンピュータ計算すること、および
更なる分析のために、前記分子の1つまたは複数を選択できるように、膜透過性予測モデルにおいて前記コンピュータ計算された極性表面積を用いることを含む方法。 - 前記複数の分子のlogPをコンピュータ計算すること、および前記膜透過性予測モデルで該コンピュータ計算されたlogPを用いることをさらに含む、請求項8記載の方法。
- 合成とスクリーニングのために化合物に優先順位をつけることを含む、請求項8記載の方法。
- 薬剤を発見するための方法であって:
データベースから分子の部分集合を選択することを含み、前記選択することが、
前記データベースの少なくともいくつかの分子の極性の性質の数値尺度を評価すること、
前記データベースの前記少なくともいくつかの分子の親油性の数値尺度を評価すること、
極性の性質−親油性平面で前記少なくともいくつかの分子の位置を決定すること、および
前記平面上でのそれらの位置に基づいて化合物を分類することを含む方法。 - 前記極性の性質の数値尺度が、PSAを含み、かつ前記親油性の数値尺度が、logPを含む、請求項11記載の方法。
- 前記分類することが、前記PSA−logP平面の予め定義された境界化領域に当てはまる化合物の部分集合を選択することを含む、請求項12記載の方法。
- 前記分類することが、合成とスクリーニングのために前記化合物に優先順位をつけることができるように、前記PSA−logP平面上の予め定義された点に関連して前記PSA−logP平面のそれらの位置に基づいて化合物を順序づけることを含む、請求項12記載の方法。
- 前記選択することが、前記PSA−logP平面において、前記データベースのそれぞれの分子と前記PSA−logP平面中の予め定義された点との間の距離を決定することを含む、請求項12記載の方法。
- PSAを数値的に評価することが、
複数の原子の種類を定義すること、
前記種類のそれぞれの定義に当てはまる前記分子中の原子の数の別々のカウントを行うこと、
前記別々のカウントの少なくともいくつかを用いて前記分子の極性表面積を評価することを含む、請求項12記載の方法。 - 汎用コンピュータに分子のPSA評価方法を実施させる命令が記録されたコンピュータ可読媒体であり、前記方法が、
複数の原子の種類のそれぞれの定義に当てはまる分子中の原子または原子クラスタの数の別々のカウントを行うこと、
複数の係数を検索すること、
前記別々のカウントに前記複数の係数の選択されたものを乗じること、およびそれらの積を合計することを含む媒体。 - コンピュータ実施された薬剤を発見するためのシステムであって、
三次元分子構造を参照することなく分子の極性の性質の数値尺度を評価するための評価モジュールと、
三次元分子構造を参照することなく分子の親油性の数値尺度を評価するための評価モジュールと、
前記評価の結果に基づいて分子を分類するための分子選択モジュールとを備えるシステム。 - 前記分類することが、前記分子を、容易に腸内吸収されると予測される第1の組、および腸内吸収が乏しいと予測される第2の組に分離することを含む、請求項18記載のシステム。
- 前記分類することが、既知の良好に吸収される化合物と似た吸収特性を有するそれらの確率に従い前記分子の少なくともいくつかを順序付けることを含む、請求項18記載のシステム。
- 前記極性の性質の数値尺度が、PSAを含み、かつ前記親油性の数値尺度が、logPを含む、請求項18記載の方法。
- 前記分子選択モジュールが、PSA−logP平面において、選択されている分子と前記PSA−logP平面の予め定義された点との間の距離を計算する、請求項21記載のシステム。
- 前記評価からlogBBを数値的に予測するために構成されたlogBB評価モジュールをさらに含む、請求項18記載のシステム。
- 前記分類することは、合成とスクリーニングのために化合物に優先順位をつけることを含む、請求項18記載のシステム。
- 薬剤を発見するためのシステムであって、
複数の分子の原子構成要素および原子間結合に関する情報を格納するデータベース、および
前記複数の分子のいずれかのエネルギー最小化三次元構造を参照することなく前記複数の分子のそれぞれのPSAを評価する手段を備えるシステム。 - 前記複数の分子のいずれかのエネルギー最小化三次元構造を参照することなく前記複数の分子のそれぞれのlogPを評価する手段をさらに備える、請求項25記載のシステム。
- 前記分子のそれぞれの腸内吸収の性質を予測する手段をさらに備える、請求項25記載のシステム。
- 前記PSAが、エネルギー最小化三次元構造を参照することなく評価される、請求項28記載の方法。
- 合成とスクリーニングのために化合物に優先順位をつけることを含む、請求項28記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/552,549 US6522975B1 (en) | 2000-04-19 | 2000-04-19 | Prediction of molecular polar surface area and bioabsorption |
PCT/US2001/040184 WO2001079841A1 (en) | 2000-04-19 | 2001-02-26 | Prediction of molecular polar surface area and bioabsorption |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004501348A true JP2004501348A (ja) | 2004-01-15 |
Family
ID=24205808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001576456A Pending JP2004501348A (ja) | 2000-04-19 | 2001-02-26 | 分子極性表面積および生体吸収の予測 |
Country Status (6)
Country | Link |
---|---|
US (3) | US6522975B1 (ja) |
EP (1) | EP1279034A4 (ja) |
JP (1) | JP2004501348A (ja) |
AU (1) | AU2001250005A1 (ja) |
CA (1) | CA2404929A1 (ja) |
WO (1) | WO2001079841A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005529158A (ja) * | 2002-05-28 | 2005-09-29 | ザ・トラスティーズ・オブ・ザ・ユニバーシティ・オブ・ペンシルベニア | 両親媒性ポリマーのコンピュータ分析および設計のための方法、システムおよびコンピュータプログラム製品 |
JP2011508228A (ja) * | 2007-12-28 | 2011-03-10 | エフ.ホフマン−ラ ロシュ アーゲー | 生理学的状態の評価 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6522975B1 (en) * | 2000-04-19 | 2003-02-18 | Pharmacopeia, Inc. | Prediction of molecular polar surface area and bioabsorption |
US8666677B2 (en) * | 2009-12-23 | 2014-03-04 | The Governors Of The University Of Alberta | Automated, objective and optimized feature selection in chemometric modeling (cluster resolution) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9804127D0 (sv) * | 1998-11-27 | 1998-11-27 | Astra Ab | New method |
US6522975B1 (en) * | 2000-04-19 | 2003-02-18 | Pharmacopeia, Inc. | Prediction of molecular polar surface area and bioabsorption |
WO2002082048A2 (en) * | 2001-04-05 | 2002-10-17 | Bdc Pharma Llc. | Structure/properties correlation with membrane affinity profile |
US20030120430A1 (en) * | 2001-12-03 | 2003-06-26 | Icagen, Inc. | Method for producing chemical libraries enhanced with biologically active molecules |
-
2000
- 2000-04-19 US US09/552,549 patent/US6522975B1/en not_active Expired - Lifetime
-
2001
- 2001-02-26 EP EP01923297A patent/EP1279034A4/en not_active Withdrawn
- 2001-02-26 CA CA002404929A patent/CA2404929A1/en not_active Abandoned
- 2001-02-26 WO PCT/US2001/040184 patent/WO2001079841A1/en active Application Filing
- 2001-02-26 AU AU2001250005A patent/AU2001250005A1/en not_active Abandoned
- 2001-02-26 JP JP2001576456A patent/JP2004501348A/ja active Pending
-
2002
- 2002-10-11 US US10/270,797 patent/US7113870B2/en not_active Expired - Lifetime
- 2002-12-13 US US10/319,294 patent/US20030114990A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005529158A (ja) * | 2002-05-28 | 2005-09-29 | ザ・トラスティーズ・オブ・ザ・ユニバーシティ・オブ・ペンシルベニア | 両親媒性ポリマーのコンピュータ分析および設計のための方法、システムおよびコンピュータプログラム製品 |
JP2011508228A (ja) * | 2007-12-28 | 2011-03-10 | エフ.ホフマン−ラ ロシュ アーゲー | 生理学的状態の評価 |
US9395355B2 (en) | 2007-12-28 | 2016-07-19 | Roche Diagnostics Operations, Inc. | Assessment of physiological conditions |
Also Published As
Publication number | Publication date |
---|---|
US6522975B1 (en) | 2003-02-18 |
US7113870B2 (en) | 2006-09-26 |
US20030114991A1 (en) | 2003-06-19 |
AU2001250005A1 (en) | 2001-10-30 |
CA2404929A1 (en) | 2001-10-25 |
US20030114990A1 (en) | 2003-06-19 |
EP1279034A1 (en) | 2003-01-29 |
WO2001079841A1 (en) | 2001-10-25 |
EP1279034A4 (en) | 2006-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Staszak et al. | Machine learning in drug design: Use of artificial intelligence to explore the chemical structure–biological activity relationship | |
Harper et al. | Prediction of biological activity for high-throughput screening using binary kernel discrimination | |
Wassermann et al. | Activity landscape representations for structure− activity relationship analysis | |
Allocco et al. | Quantifying the relationship between co-expression, co-regulation and gene function | |
Martin | Diverse viewpoints on computational aspects of molecular diversity | |
US7653491B2 (en) | Computer systems and methods for subdividing a complex disease into component diseases | |
Kortagere et al. | New predictive models for blood–brain barrier permeability of drug-like molecules | |
Lewis et al. | Modern 2D QSAR for drug discovery | |
US20070162406A1 (en) | Adjusted sparse linear programming method for classifying multi-dimensional biological data | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
US20070156343A1 (en) | Stochastic method to determine, in silico, the drug like character of molecules | |
US6957151B2 (en) | System and method for aqueous solubility prediction | |
JP7126337B2 (ja) | 化合物の生物活性を予測するためのプログラム、装置及び方法 | |
Hristozov et al. | Virtual screening applications: a study of ligand-based methods and different structure representations in four different scenarios | |
US20070294068A1 (en) | Line-walking recursive partitioning method for evaluating molecular interactions and questions relating to test objects | |
Bushel et al. | Computational selection of distinct class-and subclass-specific gene expression signatures | |
Stahura et al. | Differential Shannon entropy analysis identifies molecular property descriptors that predict aqueous solubility of synthetic compounds with high accuracy in binary QSAR calculations | |
Karlsson et al. | Handling sparsity with random forests when predicting adverse drug events from electronic health records | |
Chen et al. | PubChem BioAssays as a data source for predictive models | |
Hawkins et al. | The application of statistical methods to cognate docking: a path forward? | |
Wang et al. | Chemical data mining of the NCI human tumor cell line database | |
Di Fenza et al. | Caco-2 cell permeability modelling: a neural network coupled genetic algorithm approach | |
JP2004501348A (ja) | 分子極性表面積および生体吸収の予測 | |
Huang et al. | Hierarchical mixture models for longitudinal immunologic data with heterogeneity, non-normality, and missingness | |
Sharifi-Malvajerdi et al. | Malaria parasite clearance rate regression: an R software package for a Bayesian hierarchical regression model |