JP7126337B2 - 化合物の生物活性を予測するためのプログラム、装置及び方法 - Google Patents

化合物の生物活性を予測するためのプログラム、装置及び方法 Download PDF

Info

Publication number
JP7126337B2
JP7126337B2 JP2017093781A JP2017093781A JP7126337B2 JP 7126337 B2 JP7126337 B2 JP 7126337B2 JP 2017093781 A JP2017093781 A JP 2017093781A JP 2017093781 A JP2017093781 A JP 2017093781A JP 7126337 B2 JP7126337 B2 JP 7126337B2
Authority
JP
Japan
Prior art keywords
biological activity
compound
value
formula
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017093781A
Other languages
English (en)
Other versions
JP2018092575A (ja
Inventor
中 日高
美一 儀我
美保子 儀我
輝文 ▲高▼木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Takeda Pharmaceutical Co Ltd
Original Assignee
Takeda Pharmaceutical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Takeda Pharmaceutical Co Ltd filed Critical Takeda Pharmaceutical Co Ltd
Publication of JP2018092575A publication Critical patent/JP2018092575A/ja
Application granted granted Critical
Publication of JP7126337B2 publication Critical patent/JP7126337B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、化合物の生物活性を予測するためのプログラム、装置及び方法に関する。より詳しくは、対象化合物について任意の生物活性の有無又は高低を帰納的に予測するためのプログラム等に関する。
[発明の背景]
生物活性を測定(アッセイ)済みの化合物についてのアッセイデータに基づいて、未アッセイ化合物の生物活性をin silicoで予測することは、化学情報学(ケモインフォマティクス)における重要な課題の1つである(非特許文献1)。未アッセイ化合物の生物活性予測のための手法として、多数の既アッセイ化合物(参照化合物)のアッセイデータとそれらの化合物の構造情報とを統計処理し、参照化合物と未アッセイ化合物との構造の類似度合に基づいて未アッセイ化合物の生物活性を予測する手法が用いられている。この帰納的な手法は、「化合物間で構造が類似していれば生物活性も類似するはずであるから、化合物の構造上の『近さ』を定量化することで生物活性の予測が可能である」との仮説に基づくものである。化合物の構造情報には、化合物が有する構造的特徴や物理化学的特性等(例えば、分子量やCLogP)を計算機で扱いやすくするために数値化した「分子記述子(descriptor)」が用いられる。
上記の帰納的手法は、たとえばPubChem(https://pubchem.ncbi.nlm.nih.gov/)のようなデータベースに登録されている細胞系アッセイや酵素系アッセイ、動物試験などの様々なアッセイから得られるアッセイデータを利用でき、予測のために必要なアッセイデータセットを短期間で調製できる。これまで、QSAR(非特許文献2,3)、Support Vector Machine (SVM)(非特許文献4)、及びRandom Forest(非特許文献5)のような手法が提案され、利用可能となっている。
一方で、これらの手法は、以下のような課題を有している。
まず、対象事象と分子記述子との関係は一次関数で記述もしくは分離が可能な関係にあることを前提としており、回帰線(超平面)として線形式を用いるため、演算が単純で定量的な評価も容易である一方、どのような事象(例えば生物活性)にも適用できるわけではなく、柔軟性に乏しい。
さらに、用いられる分子記述子の種類が少なく、化合物の構造の差異(例えば、立体異性体)を正確に反映できない可能性がある(非特許文献6)。
アッセイデータセットの陰陽比が1:1の場合に最適となるように設計されているため、陰陽比が大きく偏っている場合、対象事象に応じた前処理(非特許文献7)が必要となり、前処理のために高度な統計学的知識が必要となる。
構造そのものに由来するフィンガープリントを用いた類似度比較あるいは類似度に基づくクラスタリング手法では、構造の類似度にとらわれるため、新規ケモタイプ(chemotype)には適用できない(非特許文献12)。
C. Lipinski, et al., Adv. Drug Delivery Rev., (2001), 46, 3-26 J. Dearden, et al., SAR QSAR Environ. Res., (2009), 20, 241-266 O. Obrezanova, et al., J. Chem. Inf. Model., (2007), 47, 1847-1857 H. Li, et al., J. Chem. Inf. Model, (2005), 45, 1376-1384 A. Prinzie, et al., Expert Systems with Applications, (2008), 34, 1721-1732 M. Muehlbacher, et al., J. Comput. Aided Mol. Des., (2011), 25, 1095-1106 N. V. Chawla, et al., Journal of Artificial Intelligence Research, (2002), 16, 321-357 俣野博、神保道夫、「熱・波動と微分方程式(現代数学への入門)」、第1章、2004 元田浩「データマイニングの基礎」、第3章、2006 小島正樹「薬学のための統計教科書」、第3章、2015 M.-H. Giga et al., Communications on pure and applied analysis (2013), 12, 2277-2296 S. Swamidass, et al., J. Chem. Inf. Model, (2007), 47, 952-964 R Wang et al., Perspect. Drug Discovery Des., (2000), 19, 47-66 J.Gasteiger et al., Angew Chem. Int. Ed. Engl., (1985), 24, 687-689
本発明は、未アッセイ化合物の生物活性予測のための技術であって、生物活性と分子記述子との関係がどのようなものであっても柔軟な予測を可能とし、化合物の構造を立体異性体のレベルで区別して精密に予測することを可能にする技術を提供することを主な目的とする。
上記課題解決のため、本発明は、以下の[1]~[21]を提供する。
[1] 対象化合物における任意の生物活性の有無又は高低を予測するためのプログラムであって、
(1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、前記参照化合物の前記対象化合物に対する寄与度を算出するステップ、
を実行するアルゴリズムを含むプログラム。
[2] 対象化合物における任意の生物活性の有無又は高低を予測するためのプログラムであって、
(1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)の値を用い、
空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物に対する参照化合物全体のうちk番目の参照化合物の
Figure 0007126337000001
を算出するステップを実行するアルゴリズムと、
Figure 0007126337000002
(式中、tは、任意の正の媒介変数を示し、
iは、化合物のi番目の分子記述子の値、
iは、i番目の分子記述子についての積分変数を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
(2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出するステップを実行するアルゴリズムと、
を含む、[1]のプログラム。
[3] 前記アルゴリズム(2)において、前記差分を、次の式(II)(III)により算出する、[2]のプログラム。
Figure 0007126337000003
(式中、m1は、前記生物活性を有することが既知である参照化合物の数、
2は、前記生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000004
は、式(I)と同義である。)
[4] (A)交差検定により、前記
Figure 0007126337000005
についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定するステップと、
(B)決定された変数tと係数hの条件下で、対象化合物の前記
Figure 0007126337000006
を算出するステップと、を実行する、[3]のプログラム。
[5] 複数の対象化合物のなかから任意の生物活性を有する候補化合物を選択するためのプログラムであって、
(1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)を用い、
空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の分子記述子の値について、下式(I)により、前記対象化合物それぞれに対する前記参照化合物全体のうちk番目の参照化合物の
Figure 0007126337000007
を算出するステップを実行するアルゴリズムと、
Figure 0007126337000008
(式中、tは、任意の正の媒介変数を示し、
iは、対象化合物のi番目の分子記述子の値、
iは、i番目の分子記述子についての積分変数を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
(2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との
Figure 0007126337000009
を、次の式(II)(III)により、前記対象化合物それぞれについて算出するステップを実行するアルゴリズムとを含み、
Figure 0007126337000010
(式中、m1は、前記生物活性を有することが既知である参照化合物の数、
2は、前記生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000011
は、式(I)と同義である。)
(A)交差検定により、前記
Figure 0007126337000012
についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定するステップと、
(B)決定された変数tと係数hの条件下で、各対象化合物の前記
Figure 0007126337000013
を算出し、出力するステップと、を実行するプログラム。
[6] 前記アルゴリズム(1)において、前記式(I)が下記式(I-2)又は式(I-3)に代替される、[2]~[5]のいずれかのプログラム。
Figure 0007126337000014
(式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、前記式(I)に同じである。)
[7] 前記アルゴリズム(1)において、前記式(I)が下記式(I-4)に代替される[2]~[5]のいずれかのプログラム。
Figure 0007126337000015
(式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じであり、
xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。)
[8][1]~[7]のいずれかのプログラムをコンピュータが読み取り可能に記録した記録媒体。
[9] 対象化合物における任意の生物活性の有無又は高低を予測するための解析装置であって、
(1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、前記参照化合物の前記対象化合物に対する寄与度を算出する手段、
を備える解析装置。
[10] 対象化合物における任意の生物活性の有無又は高低を予測するための解析装置であって、
(1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)の値を用い、
空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物に対する前記参照化合物全体のうちk番目の参照化合物からの
Figure 0007126337000016
を算出する手段と、
Figure 0007126337000017
(式中、tは、任意の正の媒介変数を示し、
iは、化合物のi番目の分子記述子の値、
iは、i番目の分子記述子についての積分変数を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
(2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出する手段と、
を備える、[9]の解析装置。
[11] 前記手段(2)において、前記差分を、次の式(II)(III)により算出する、[10]の解析装置。
Figure 0007126337000018
(式中、m1は、前記生物活性を有することが既知である参照化合物の数、
2は、前記生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000019
は、式(I)と同義である。)
[12] (A)交差検定により、前記
Figure 0007126337000020
についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定する手段と、
(B)決定された変数tと係数hの条件下で、各対象化合物の前記
Figure 0007126337000021
を算出し、出力する手段と、
を備える、[11]の解析装置。
[13] 複数の対象化合物のなかから任意の生物活性を有する候補化合物を選択するための解析装置であって、
(1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)を用い、
空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、対象化合物それぞれに対する参照化合物全体のうちk番目の参照化合物からの
Figure 0007126337000022
を算出する手段と、
Figure 0007126337000023
(式中、tは、任意の正の媒介変数を示し、
iは、対象化合物のi番目の分子記述子の値、
iは、i番目の分子記述子についての積分変数を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
(2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の前記参照化合物の生物活性値で重み付けして合算して得た値、との
Figure 0007126337000024
を、次の式(II)(III)により、前記対象化合物それぞれについて算出する手段と、
Figure 0007126337000025
(式中、m1は、前記生物活性を有することが既知である参照化合物の数、
2は、前記生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000026
は、式(I)と同義である。)
(A)交差検定により、前記
Figure 0007126337000027
についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定する手段と、
(B)決定された変数tと係数hの条件下で、各対象化合物の前記
Figure 0007126337000028
を算出し、出力する手段と、を備える解析装置。
[14] 前記手段(1)において、前記式(I)が下記式(I-2)又は式(I-3)に代替される、[10]~[13]のいずれかの解析装置。
Figure 0007126337000029
(式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、前記式(I)に同じである。)
[15] 前記手段(1)において、前記式(I)が下記式(I-4)に代替される[10]~[13]のいずれかの解析装置。
Figure 0007126337000030
(式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じであり、
xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。)
[16] 対象化合物における任意の生物活性の有無又は高低を予測する方法であって、
前記生物活性を有することが既知である化合物と有しないことが既知である化合物を参照化合物とし、
(1)前記参照化合物と前記対象化合物から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、前記参照化合物の前記対象化合物に対する寄与度を算出する手順を含み、
前記寄与度と、前記参照化合物の生物活性データと、に基づいて前記対象化合物の前記生物活性の有無又は高低を予測する方法。
[17] 対象化合物における任意の生物活性の有無又は高低を予測する方法であって、前記生物活性を有することが既知である化合物と有しないことが既知である化合物を参照化合物とし、
(1)前記参照化合物と前記対象化合物から各々計算される分子記述子n個(nは2以上の自然数)の値を用い、
空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物に対する前記参照化合物全体のうちk番目の参照化合物の
Figure 0007126337000031
を算出する手順と、
Figure 0007126337000032
(式中、tは、任意の正の媒介変数を示し、
iは、化合物のi番目の分子記述子の値、
iは、i番目の分子記述子についての積分変数を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
(2)前記生物活性を有することが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出する手順と、
(3)前記差分に基づいて前記対象化合物の前記生物活性の有無又は高低を予測する手順と、含む[16]の方法。
[18] 前記手順(2)において、前記差分を、次の式(II)(III)により算出し、
Figure 0007126337000033
(式中、m1は、前記生物活性を有することが既知である参照化合物の数、
2は、前記生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000034
は、式(I)と同義である。)
前記手順(3)において、交差検定により前記
Figure 0007126337000035
についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定し、
決定された変数tと係数hの条件下で算出される前記差分に基づいて前記対象化合物の前記生物活性の有無又は高低を予測する、[17]の方法。
[19] 複数の対象化合物のなかから任意の生物活性を有する候補化合物を選択する方法であって、
前記生物活性を有することが既知である化合物と有しないことが既知である化合物を参照化合物とし、
(1)前記対象化合物と前記参照化合物から各々計算される分子記述子n個(nは2以上の自然数)を用い、
空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物それぞれに対する前記参照化合物全体のうちk番目の参照化合物の
Figure 0007126337000036
を算出する手順と、
Figure 0007126337000037
(式中、tは、任意の正の媒介変数を示し、
iは、対象化合物のi番目の分子記述子の値、
iは、i番目の分子記述子についての積分変数を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
(2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の前記参照化合物の生物活性値で重み付けして合算して得た値、との
Figure 0007126337000038
を、次の式(II)(III)により、前記対象化合物それぞれについて算出する手順と、
Figure 0007126337000039
(式中、m1は、前記生物活性を有することが既知である参照化合物の数、
2は、前記生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000040
は、式(I)と同義である。)
(A)交差検定により、前記
Figure 0007126337000041
についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定する手順と、
(B)決定された変数tと係数hの条件下で算出される前記差分に基づいて、
前記対象化合物を候補化合物として選択する手順、とを含む方法。
[20] 前記手順(1)において、前記式(I)が下記式(I-2)又は式(I-3)に代替される、[17]~[19]のいずれかの方法。
Figure 0007126337000042
(式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、前記式(I)に同じである。)
[21] 前記手順(1)において、前記式(I)が下記式(I-4)に代替される、[17]~[19]のいずれかの方法。
Figure 0007126337000043
(式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じであり、
xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。)
本発明における用語の定義は以下のとおりである。
「生物活性」とは、化合物が、タンパク質、核酸、脂質、ビタミン、ホルモン、糖、ペプチド、アミノ酸等の「生体内分子」の機能(例えば酵素活性、遺伝子発現調整機能、補酵素活性、代謝調節機能、シグナル伝達機能等)あるいは臓器、組織、細胞、細胞内小器官等の機能を促進又は阻害する能力を意味する。「生物活性」には、化合物が上記生体内分子の機能の促進又は阻害をもたらす態様で該生体内分子と相互作用する能力をも意味する。ここで、「相互作用」とは、化合物が生体内分子に対して親和性を有し、当該生体内分子の分子構造中のいずれかの部位(例えば酵素活性ドメイン)に可逆的又は不可逆的に配位又は結合することを意味する。化合物が生体内分子に相互作用すると、当該生体内分子の機能(例えば酵素活性)の促進又は阻害が誘起される場合がある。本発明では、化合物が相互作用し得る生体内分子を特に「標的生体内分子」と称するものとする。標的生体内分子は特にタンパク質とされ得る。
本発明の「生物活性」は、細胞毒性及び遺伝毒性のような医薬としては好ましくないような作用をも包含する。
化合物の生物活性は、化合物と生体内分子(例えば酵素)を混合し、混合前後の生体内分子の機能(例えば酵素活性)を測定して比較することによって定量化できる。あるいは、化合物の生物活性は、化合物と臓器(例えば肝臓)等とを接触させ、接触前後の臓器の機能(例えばCYP活性)を測定して比較することによっても定量化できる。生物活性はまた、例えば、一定濃度の化合物での阻害率(%)、又は50%阻害濃度などによって表される。また、化合物の生物活性は、化合物と生体内分子(例えば酵素)を接触させ、化合物と生体内分子との相互作用の結果生成される複合体を検出し、生成量を測定することによって定量化することもできる。
本明細書においては、生体内分子あるいは臓器等に対して化合物を作用させた場合の当該生体内分子又は臓器等の機能あるいは標的生体内分子への化合物の相互作用量をアッセイ系により定量した値を、当該化合物の「生物活性値」という。
「参照化合物」とは、対象化合物について予測する生物活性を有することが既に知られている化合物と、有しないことが既に知られている化合物とをいう。参照化合物が予測する生物活性を有するか有しないかは、後述する判断基準値によって決定される。参照化合物も、対象化合物と同様に、有機化合物のうち、構造が確定していて通常の生物活性のスクリーニングに供試可能なものであればよい。本明細書において、参照化合物のうち、目的の生物活性を有するものを「親化合物」ともいう。
「判断基準値」:参照化合物が予測する生物活性を有するか有しないかを決定するためにアッセイ系ごとに設定される数値である。例えば、上記生物活性が生体内分子等の機能を促進する能力を示す場合、参照化合物の生物活性値が判断基準値以上であれば生物活性を有する(陽性)、以下であれば生物活性を有しない(陰性)と判断される。一方、上記生物活性が生体内分子等の機能を阻害する能力を示す場合、参照化合物の生物活性値が判断基準値以下であれば生物活性を有する(陽性)、以上であれば生物活性を有しない(陰性)と判断される。
判断基準値は、本発明の実施者が目的に応じて任意値に設定できるものである。一般的な判断基準値は、NCI Human tumor cell growth inhibition assay(NCI-H23 Cell)であれば59.5、HTS to identify Pax4 expression activator Measured in Cell-Based System Using RT-PCR (7144-01_Activator SinglePoint HTS Activity)であれば14.0、Inhibitors of USP1/UAF1: Primary Screenであれば20.0、MLPCN ERAP1 Measured in Biochemical System Using Plate Reader(7016-01 Inhibitor SinglePoint HTS Activity)であれば29.5、Luminescence-based cell-based primary high throughput screening assay to identify inhibitors of COUP-TFII (NR2F2)であれば34.0、NCI In Vivo Anticancer Drug Screen. Data for tumor model L1210 Leukemia (intraperitoneal) in B6D2F1 (BDF1) miceであれば138.0を用いることができるが、これらの値は、PubChem上に登録されているBioAssay Recordを参照し、個々のアッセイ系における活性有無判断の境界付近の値を選択することで容易に得られる。
「熱拡散方程式」とは、3次元空間xにおける熱伝導又は物質拡散を記述する偏微分方程式であり(非特許文献8参照)、次式のように定式化される。
Figure 0007126337000044
非特許文献11は、熱拡散方程式により、2次元に配置された複数のデータを分離する手法を開示している。ただし、当該文献は、予め分離可能であることが明らかとなっている仮想データを用いており、化合物の生物活性のように、データの分離の可否が明らかでない具体的な事象に対して、熱拡散方程式による手法を適用することは記載していない。さらに、当該文献には、本明細書に開示される具体的な手法(後述する、本発明のアルゴリズム及びステップ)は開示されていない。
「分子記述子」とは、化合物の持つ構造的特徴や物理化学的特性等を計算機で扱いやすくするために数値化したものである。分子記述子は、化合物の構造式から計算可能であり、市販のソフトウェア(例えば、Molecular Networks社製CORINA Symphony Descriptors (ver.1.0)やAffinity Science社製DRAGON(ver7.0)、paDEL-descriptor等)も利用できる。分子記述子としては、例えば、回転可能結合数(rotatable bond count、後掲「表1」の「NRotBond」に相当)、水素結合供与体数(hydrogen bond donor count、同「Hdon」)、分子量(同「Weight」)、CLogP(同XlogP」。水・オクタノール分配係数の予測値)、双極子モーメント(同「Dipole」)等が挙げられる。分子記述子の値は、公知の計算式に基づいて求めることもでき、例えばCLogPについては非特許文献13、双極子モーメントについては非特許文献14に開示される計算方法に従えば良い。「分子記述子」はまた、化合物の標的生体内分子の持つ構造的特徴や物理化学的特性等を数値化したものも含むこともできる。たとえば、標的生体内分子としてのキナーゼの分子記述子としては、キナーゼドメインのアミノ酸配列に由来するアミノ酸組成、モラン自己相関、及びゲアリー自己相関などがあげられ、これらは公開ソフトウェアであるProtein Feature Server(PROFEAT)2016などを利用して生成できる。
分子記述子の値は、一旦読み込んだ後、プログラム中で分子記述子ごとに平均値を引き標準偏差で割った(正規化(normalization)された)ものを以後の処理に用いる。
「寄与度」とは、対象化合物の生物活性を予測するための判断指標(スコア)を算出すために用いられる数値である。寄与度は、分子記述子に基づいて算出される、1つの参照化合物と対象化合物との「近さの度合い」である。
「ケモタイプ」とは、薬理学的視点から分類した、化合物群に共通する構造的特徴をいう。同一のケモタイプに属する化合物群は、共通の母核を有し、同一又は類似の薬理作用、代謝安定性、及び毒性を有する場合が多い。
本発明により、未アッセイ化合物の生物活性予測のための技術であって、生物活性と分子記述子との関係がどのようなものであっても柔軟な予測が可能であり、化合物の構造を立体異性体のレベルで区別して精密な予測が可能な技術が提供される。
また、化合物に由来する分子記述子だけでなく、当該化合物の標的生体内分子に由来する分子記述子を併せて用いる場合には、同一の標的生体内分子(例えばキナーゼ)をターゲットとしうる複数の化合物間での比較予測、あるいは同一の化合物に対する複数の標的生体内分子間での比較予測を行ない得る。これにより、例えば特定のキナーゼに対して高い選択性を有する化合物を予測し、選択し得る。
本発明に係る化合物の生物活性予測のためのプログラムが実行するステップを説明するフローチャートである。 n個の分子記述子がマップされた多次元空間を2次元で模式的に表す図である。 本発明に係る化合物の生物活性予測のための解析装置の構成例を示す図である。 PubChem(本明細書中、単に「データベース」ということもある)から抽出・集計されたアッセイ系リストの一部。 848件のアッセイ系の、Activeラベル比率とAUC極大値との関係を示す図である。 848件のアッセイ系の、データ数とAUC極大値との関係を示す図である。 V-score最上位群(X軸)と中位群(Y軸)のActiveラベル捕捉率平均値を比較した図である。 V-score最上位群(X軸)と中位群(Y軸)の生物活性値の平均値を比較した図である。 V-score最上位群(X軸)と中位群(Y軸)の、親化合物に対する構造類似度平均値を比較した図である。
以下、本発明を実施するための好適な形態について図面を参照しながら説明する。なお、以下に説明する実施形態は、本発明の代表的な実施形態の一例を示したものであり、これにより本発明の範囲が狭く解釈されることはない。
1.化合物の生物活性予測のためのプログラム
本発明に係るプログラムは、対象化合物における任意の生物活性の有無又は高低を予測するためのプログラムであって、以下のアルゴリズム(1),(2)を含むものである。
(1)生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、対象化合物と、から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、参照化合物の対象化合物に対する寄与度を算出するステップを実行するアルゴリズム(寄与度算出アルゴリズム)。
(2)生物活性を有することが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、生物活性を有しないことが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分(以下「スコア」とも称する)を算出するステップを実行するアルゴリズム(スコア算出アルゴリズム)。
本発明に係るプログラムは、寄与度算出アルゴリズム(1)とスコア算出アルゴリズム(2)とを用いて、以下のステップ(A),(B)により対象化合物における生物活性の有無又は高低を予測するものである。
(A)参照化合物の一部をテストセット、残りの参照化合物をトレーニングセットとして、該トレーニングセットの該テストセットに対する寄与度及びスコアを算出し、算出されたスコアと、テストセットの既知の生物活性値とを照合し、スコアの算出精度をそのROC曲線のAUCとして算出する。この操作を、複数の異なるテストセットを設定しつつ、パラメータ(後述する式(I),(II),(III)中の変数t及び係数h)を変化させながら繰り返し、好適なパラメータの値を決定するステップ(交差検定ステップ)。
(B)上記(A)で決定されたパラメータ値の条件下で、全ての参照化合物の対象化合物に対する寄与度及びスコアを算出し、該スコアを、対象化合物における生物活性の有無又は高低の予測値として出力するステップ(予測計算ステップ)。
本発明に係るプログラムは、交差検定ステップ(A)と予測計算ステップ(B)とからなる(図1参照)。これによって、本発明に係るプログラムは、参照化合物の分子記述子及び生物活性データと、対象化合物の分子記述子と、に基づいて対象化合物の生物活性の有無又は高低を予測可能とするものである。より具体的には、本発明に係るプログラムは、予測計算ステップ(B)において、スコア算出アルゴリズム(2)によって算出されるスコアに基づいて対象化合物の生物活性の有無又は高低を予測可能とするものである。
まず、寄与度算出アルゴリズム(1)とスコア算出アルゴリズム(2)について説明する。
1-1.寄与度算出アルゴリズム(1)
本アルゴリズムは、生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、対象化合物と、から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、参照化合物の対象化合物に対する寄与度を算出する。
より具体的には、本ステップでは、参照化合物と対象化合物とから各々計算される分子記述子n個(nは2以上の自然数)の値を用い、空間全体が微細領域(以下「メッシュ」とも称する)に区画されているn次元空間中で、いずれかのメッシュに帰属するように配置されたn個の分子記述子の値について、下式(I)により、対象化合物に対する参照化合物全体のうちk番目の参照化合物の
Figure 0007126337000045
(以下単に「寄与度」とも称する)を算出する。
Figure 0007126337000046
式中、tは、任意の正の媒介変数を示す。
iは、化合物のi番目の分子記述子の値を示す。
iは、i番目の分子記述子についての積分変数を示す。
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲のメッシュにあるものとする。
熱拡散方程式は、3次元空間xにおける熱伝導又は物質拡散を記述する偏微分方程式であり(非特許文献8参照)、次式のように定式化される。
Figure 0007126337000047
上記式の解として、多次元空間x内の1つの点に対する特定のメッシュからの寄与度は、上記式(I)のように数値積分で求めることができる。図2は、n個の分子記述子がマップされた多次元空間を2次元で模式的に表す。2次元平面において、生物活性を有することが既知である参照化合物(Active化合物)と有しないことが既知である化合物を含む参照化合物(Inactive化合物)、および対象化合物(活性未知の化合物)がプロットされている。このうち対象化合物が属するメッシュは太枠で示されている。対象化合物が属するメッシュに対する特定メッシュからの寄与度を求めるに際し、対象化合物の分子記述子の値xiに遠いメッシュは、小さな積分しか与えない。すなわち、対象化合物の生物活性予測に与える影響が小さい。一方、対象化合物の分子記述子の値xiに近いメッシュは、大きな積分を与える。すなわち、対象化合物の生物活性予測に与える影響が大きくなる。
式(I)によれば、数値積分による解として、1つの対象化合物に対するk番目の参照化合物からの寄与度を計算できる。k番目の参照化合物のi番目の分子記述子の値は、j番目のメッシュ範囲(aij-1~aij)にあるので、変数yiによって区間[aij-1,aij]で積分する。
式(I)に替えて、下記式(I-2)又は下記式(I-3)により、寄与度を算出してもよい。式(I-2)又は下記式(I-3)によれば、式(I)に比して演算処理を高速化できる。
Figure 0007126337000048
式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、式(I)に同じである。
また、式(I)に替えて、下記式(I-4)により、寄与度を算出してもよい。式(I-4)によれば、特に化合物構造に由来する分子記述子に当該化合物が結合する標的生体内分子タンパク質由来の分子記述子を併用する場合に、式(I)に比して演算処理を高速化できる。
Figure 0007126337000049
式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じである。
xpは、化合物の標的生体内分子のp番目の分子記述子の値を示す。
k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。
本ステップで用いられる分子記述子は、特に限定されないが、分子量、重原子数、水素結合供与体数、回転可能結合数、CLogPが挙げられる。
これに加えて、標的生体内分子の分子記述子としては、上記分子記述子に加えて、アミノ酸組成、モラン自己相関、及びゲアリー自己相関等が用いられ得る。
用いる分子記述子の数(種類)も、特に限定されないが、2以上の自然数であって目的に応じてユーザが任意に定めることができる。例えば、3以上、好ましくは10以上、より好ましくは30以上、特に好ましくは250以上である。なお、後述の実施例では、281種類の分子記述子を用いている。
1-2.スコア算出アルゴリズム(2)
本アルゴリズムは、生物活性を有することが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、生物活性を有しないことが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分(スコア)を算出する。
より具体的には、本ステップでは、次の式(II)(III)によりスコアを算出する。
Figure 0007126337000050
式中、m1は、生物活性を有することが既知である参照化合物の数、
2は、生物活性を有しないことが既知である参照化合物の数、
kは、k番目の参照化合物の生物活性値、
zは、生物活性のアッセイ系により任意に定める活性有無の判断基準値、
hは、正の係数、
tanhは、双曲線正接を示し、
Figure 0007126337000051
は、式(I)と同義である。
1-3.交差検定ステップ(A)
次に、寄与度算出アルゴリズム(1)とスコア算出アルゴリズム(2)とを用いた、交差検定ステップ(A)における処理について説明する(図1参照)。
ユーザが望ましい予測結果を得るためには、好適な変数tと係数hを定める必要があり、それを行うのが本ステップ(A)である。なお、定められた変数tと係数hを使って最終結果を得るのが次に説明する予測計算工程(B)である。
本ステップ(A)では、まず、参照化合物の分子記述子の値の読み込み、正規化が行われる。次に、参照化合物の一部をテストセット、残りの参照化合物をトレーニングセットとして、該トレーニングセットの該テストセットに対する寄与度及びスコアを算出し、算出されたスコアと、テストセットの既知の生物活性値とを照合し、スコアの算出精度をそのROC曲線のAUCとして算出する。そして、交差検定により、式(II)の
Figure 0007126337000052
(スコア)についてのROC曲線のAUC(非特許文献9)の好適値を与える変数tと係数hとを決定する。
ここで、AUCの好適値とは、ユーザが所望する予測対象範囲に応じて適宜設定し、プログラムに対して入力し得るものである。AUCの好適値の一例は極大値であり、AUCが極大値である場合、一般的に予測精度が最大となる。このため、AUCの極大値を与える変数tと係数hの条件下で算出された対象化合物のスコアに基づけば、生物活性の有無又は高低の予測を最も高い確度で行い得る。
AUCの好適値は、極大値に限られず、例えば極大値よりも一定範囲で小さな値であってもよい。AUCが極大値より小さな値である場合は、極大値である場合に比して予測の幅を拡げることができる。すなわち、AUCが極大値よりも一定範囲で小さな値となる変数tと係数hの条件下で算出された対象化合物のスコアに基づけば、予測したい生物活性を、その高低に関わらず、有する可能性がある対象化合物を選別できる。好適値として、極大値よりもどの範囲で小さな値を採用するかは、ユーザが所望するデータ数に応じて適宜設定し、プログラムに対して入力し得るものである。
例えば、対象化合物について、目的とする生物活性の有無あるいは高低を出来る限り正確に予測したい場合、AUCの極大を示す変数tと係数hをそのまま選択すればよい。一方、参照化合物のうち活性を有することが既知の化合物とは異なるケモタイプの化合物を得たい場合、変数tを、AUCの極大値を与える値よりも少し大きい値とするよう設定することで、分子記述子上、化合物空間(Chemical Space)では対象化合物から離れている参照化合物の寄与度を大きめに加味することができる。
交差検定は、特に限定されないが、例えばK-分割交差検定を採用できる。交差検定によって好適なAUCの値を与える変数tと係数hが決定されない場合、プログラムは、本ステップをもって処理を終了するものであってもよい。
データベース(PubChem)に登録された複数のアッセイ系について、後述する実施例と同様にして、化合物(参照化合物)構造式情報と生物活性データを取得し、式(I)と式(I-2)を用いた交差検定ステップ(A)を実行した。一部のアッセイ系について、ステップ(A)で決定された変数tと係数hを用いて得られる最大AUCの値を下記表に示す。表には、寄与度算出アルゴリズム(1)及びスコア算出アルゴリズム(2)における寄与度の算出に式(I)を用いた場合の最大AUCと、式(I-2)を用いて得られた最大AUCとを示す。いずれの場合にも近似の値が得られていることから、式(I)に対する式(I-2)及び式(I-3)の代替性が示される。
Figure 0007126337000053
1-4.予測計算ステップ(B)
寄与度算出アルゴリズム(1)とスコア算出アルゴリズム(2)とを用いた、予測計算ステップ(B)における処理について説明する(図1参照)。
先の交差検定ステップ(A)で、ユーザが望ましい予測結果を得るための好適な変数tと係数hが定められる。本ステップ(B)では、定められた変数tと係数hを使って、最終結果(対象化合物の活性予測結果)を得る。
本ステップ(B)では、交差検定ステップ(A)で決定された変数tと係数hの条件下で、全ての参照化合物の対象化合物に対する寄与度及びスコアを算出し、該スコアを、対象化合物における生物活性の有無又は高低の予測値として出力する。
このスコアに基づけば、ユーザは、対象化合物の生物活性の有無又は高低を予測することができる。すなわち、対象化合物のスコアが高い程、その対象化合物が生物活性を有する可能性が高い、あるいはより高い活性を有する可能性が高いと予測できる。
具体的には、スコアが正の値である対象化合物は、目的とする生物活性を有する可能性が高いと判断され、スコアが負の値である対象化合物は、目的とする生物活性を有さない可能性が高いと判断される。
また、スコアがより大きな正の値である対象化合物ほど、目的とする生物活性を有する可能性がより高いと判断され、活性値も高いと期待できる。
例えば、複数の対象化合物をスコアの大きい順にランクした場合に、上位から所定割合(カットオフ値)以内にランクされた対象化合物を生物活性値ありと予測し、それよりも下位にランクされた対象化合物を生物活性値なしと予測することができる。カットオフ値は任意に設定可能であるが、参照化合物における陰陽比率(アクティブ比率)を好適に採用できる。あるいは、カットオフ値として、例えば5%、好ましくは0.5%のような一定値を採用してもよい。カットオフ値は、対象化合物について目的の生物活性(例えば、薬理活性)を有するものを予測しようとする場合には小さく、目的の生物活性(例えば、細胞毒性)を有しないものを予測しようとする場合には大きく設定することが好ましい。
上記のように、本プログラムは、複数の対象化合物のなかから任意の生物活性を有する候補化合物、あるいは高い活性を有する候補化合物を選択するために利用できる。
スコアが高い対象化合物ほど、目的とする生物活性を有する可能性が高い、あるいはより高い活性を有する可能性が高いと予測されるため、ユーザは、スコアの高い対象化合物を候補化合物として選択できる。
この際、上述のとおり、AUCの極大値を与える変数tと係数hの条件下で算出された対象化合物のスコアに基づけば、高い確度で候補化合物の選択を行い得る。
また、AUCが極大値よりも一定範囲で小さな値となる変数tと係数hの条件下で算出された対象化合物のスコアに基づけば、候補化合物をより多数取得でき、参照化合物を含まない新規なケモタイプに属する候補化合物をも選択できる可能性がある。
以上のように、本発明に係るプログラムでは、式(I)において多数、具体的にはn個(nは2以上の自然数であり、好ましくは10以上、より好ましくは30以上、特に好ましくは250以上である。)の、分子記述子を用いることで、化合物の生物活性の有無あるいは高低という予測事象と分子記述子との関係を超次元空間へ拡張できる。このため、従来手法の一次関数による記述とは異なり、非線形回帰曲線(曲面)による記述が可能となり、分子記述子と予測事象との関係がどのようなものであっても適用でき、細密かつ柔軟な予測が可能とされる。化合物の生物活性の有無のみでなく、活性の高低の予測も可能
である点も本発明に係るプログラムの技術的特徴の1つである。
さらに、必ずしも化合物の構造の類似度に制限されることなく、新規なケモタイプの対象化合物にも適用できる。また、立体異性体同士のような構造上の差異がわずかな化合物同士であっても、全く独立に活性を予測することができる。
加えて、本発明に係るプログラムでは、式(II),(III)において、全ての参照化合物(空間全体)からの各対象化合物に対する寄与度を、参照化合物の活性の有無(陰陽)に分けて別々に積算した上で、全空間積分が0となるように値Cを調整することで、参照化合物のアッセイデータセットの陰陽比の偏りの影響を排除できる。
また、式(II),(III)においては、参照化合物の生物活性値vkと、アッセイ系により定まる活性有無の判断基準値zとを用いることによって、かつ双曲線正接の係数hを調整することによって、全参照化合物(空間全体)からの各対象化合物に対する寄与度を各々の参照化合物の生物活性値で重み付けしてスコアを算出する。このため、アッセイ系毎に異なるvkのスケールの違いを柔軟に扱うことが可能であり、アッセイ系に依存せずに汎用的な予測が可能とされている。
本発明に係るプログラムをユーザに提供する提供媒体としては、磁気ディスク、CD-ROM、固体メモリなどのコンピュータが読み取り可能な記録媒体の他、ネットワーク、衛星などの通信媒体を利用することができる。
2.化合物の生物活性予測のための解析装置
本発明に係る解析装置は、対象化合物における任意の生物活性の有無又は高低を予測するための解析装置であって、以下のアルゴリズム(1),(2)を実行する手段を備えるものである。
(1)生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、対象化合物と、から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、参照化合物の対象化合物に対する寄与度を算出するステップを実行するアルゴリズム(寄与度算出アルゴリズム)。
(2)生物活性を有することが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分(スコア)を算出するステップを実行するアルゴリズム(スコア算出アルゴリズム)。
さらに、本発明に係る解析装置は、寄与度算出アルゴリズム(1)とスコア算出アルゴリズム(2)とを用いて、以下のステップ(A2),(B2)を実行する手段を備える。
(A2)参照化合物の一部をテストセット、残りの参照化合物をトレーニングセットとして、該トレーニングセットの該テストセットに対する寄与度及びスコアを算出し、算出されたスコアと、テストセットの既知の生物活性値とを照合し、スコアの算出精度をそのROC曲線のAUCとして算出する。この操作を、複数の異なるテストセットを設定しつつ、パラメータ(式(I),(II),(III)中の変数t及び係数h)を変化させながら繰り返し、好適なパラメータの値を決定するステップ(交差検定ステップ)。
(B2)上記(A2)で決定されたパラメータ値の条件下で、全ての参照化合物の対象化合物に対する寄与度及びスコアを算出し、該スコアを、対象化合物における生物活性の有無又は高低の予測値として出力するステップ(予測計算ステップ)。
本発明に係る解析装置は、上述の本発明に係るプログラムを通常のコンピュータにインストールして構成することができる。
図3は、本発明に係る化合物の生物活性予測のための解析装置の構成例を示すブロック図である。解析装置1において、内部バス10は、例えばPCI(Peripheral Component Interconnect)またはローカルバス等により構成され、CPU11、ROM12、RAM13、及びインタフェース14を相互に接続している。各部は、内部バス10を介してデータの授受を行う。CPU11は、ROM12に記憶されている本発明に係るプログラムに従って処理を実行する。RAM13には、CPU11が各種の処理を実行する上において必要なデータ(分子記述子データ、参照化合物の生物活性データ等)やプログラム等が適宜記憶される。インタフェース14には、キーボード15とマウス16が接続されており、ユーザは、これらを用いてパラメータ等の設定を行うことができる。パラメータは、例えば、交差検定ステップ(A2)におけるAUCの好適値である。インタフェース14は、これらから出力された操作信号をCPU11に出力する。また、インタフェース14には、モニタ17とハードディスク18が接続されている。モニタ17は、CPU11に制御され、所定の画像を表示する。モニタ17には、予測計算ステップ(B2)で算出されたスコアが表示される。CPU11は、ハードディスク18に対して、インタフェース14を介してデータまたはプログラム等の記録または読み出しを行うことができる。
3.化合物の生物活性を予測する方法
本発明に係る化合物の生物活性予測方法は、上述の本発明に係るプログラム及び解析装置によって実施が可能であり、以下のアルゴリズムによる手順を含む。
(1)生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、対象化合物と、から各々計算される分子記述子の値を熱拡散方程式の解として得られる予測式に代入することにより、参照化合物の対象化合物に対する寄与度を算出する手順を実行するアルゴリズム(寄与度算出アルゴリズム)。
(2)生物活性を有することが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出する手順を実行するアルゴリズム(スコア算出アルゴリズム)。
本発明に係る生物活性予測方法は、寄与度算出アルゴリズム(1)とスコア算出アルゴ手順(2)とを用いて、以下の手順(A3),(B3)により対象化合物における生物活性の有無又は高低を予測するものである。
(A3)参照化合物の一部をテストセット、残りの参照化合物をトレーニングセットとして、該トレーニングセットの該テストセットに対する寄与度及びスコアを算出し、算出されたスコアと、テストセットの既知の生物活性値とを照合し、スコアの算出精度をそのROC曲線のAUCとして算出する。この操作を、複数の異なるテストセットを設定しつつ、パラメータ(式(I),(II),(III)中の変数t及び係数h)を変化させながら繰り返し、好適なパラメータの値を決定する手順(交差検定ステップ)。
(B3)上記(A3)で決定されたパラメータ値の条件下で、全ての参照化合物の対象化合物に対する寄与度及びスコアを算出し、該スコアに基づき、対象化合物における生物活性の有無又は高低を予測する手順(予測計算ステップ)。
本発明に係る生物活性予測方法は、参照化合物の生物活性データ及び生物活性データと、対象化合物の分子記述子と、に基づいて対象化合物の生物活性の有無又は高低を予測する。より具体的には、予測計算ステップ(B3)において、スコア算出アルゴリズム(2)によって算出されるスコアに基づいて対象化合物の生物活性の有無又は高低を予測する。
本発明に係る化合物の生物活性予測方法によれば、対象化合物のスコアが高い程、その対象化合物が生物活性を有する可能性が高い、あるいはより高い活性を有する可能性が高いと予測できる。従って、本発明に係る方法は、複数の対象化合物のなかから任意の生物活性を有する候補化合物、あるいは高い活性を有する候補化合物を選択するために利用できる。
本発明に係る化合物の生物活性予測方法では、上述のとおり、化合物の構造の類似度に制限されることなく、新規なケモタイプの対象化合物にも適用できる。さらに、化合物の生物活性の有無あるいは高低という予測事象と分子記述子との関係がどのようなものであっても細密かつ柔軟な予測が可能で、化合物の生物活性の有無のみでなく活性の高低の予測も可能である。加えて、本発明に係る化合物の生物活性予測方法では、参照化合物のアッセイデータセットの陰陽比の偏りの影響を受けずに、かつアッセイ系に依存せずに汎用的な予測が可能である。
従って、本発明に係る化合物の生物活性予測方法、並びにそのためのプログラム及び解析装置は、創薬研究において、未アッセイ化合物の生物活性やADMET特性(薬物動態特性)の予測、新規ケモタイプの発掘、デザイン化合物の優先順位付け、酵素に対する高選択性阻害薬の開発など、多くの応用が期待される。
[実施例1]
本発明に係る生物活性予測方法を、データベース(PubChem)から取得した様々な生物活性データを用いたクロスバリデーション(cross validation、非特許文献10)によって検証した。PubChemには、世界中の研究機関から、様々な種類の化合物の構造と生物活性データが登録されており、本発明の効果を検証するのに適している。ただし、第三者によるバリデーションがなされていないデータセットも含まれるので、事前クレンジングを行なった。
1.方法
(A)生物活性データと化学構造の取得
データベースから、2016年5月30日時点のBioActivity Data (Concise版)、Descriptions、SD-file(SDF形式の化学構造式情報ファイル)の全件データをダウンロードし、AID (Assay ID)ごとの生物活性データのリストを作成し、生物活性データファイルとした。
生物活性データファイルにおいて、まず「ACTIVITY_OUTCOME」の項目が「Active」ラベル(以降「Activeラベル」ともいう)または「Inactive」ラベルを有するレコードのみを残し、さらに、CID (Compound ID)が重複するレコードを除いたエントリーデータが8,000件以上、Activeラベル数が10件以上存在し「ACTIVITY_SCORE」の範囲が2以上のアッセイ系を選択した。これらの条件を満たすアッセイ系レコードの「CID」、「ACTIVITY_OUTCOME」、「ACTIVITY_SCORE」(生物活性値)を出力した。各アッセイ系の判断基準値は、ActiveラベルとInactiveラベルの「ACTIVITY_SCORE」の境界値の中間点とした。選択された848件のアッセイ系について、生物活性データファイルを作成した。リストの一部を図4に示す。
次に、生物活性データファイルに含まれる全てのCIDに該当する構造情報(Connection Table)をSD-file群から抽出し、脱塩して単一分子とした後、同位元素、不正価数(valence)、不適切原子種、ラジカル(radical)及び超巨大分子を含むものを除いた。さらに、構造式の描画ミスを排除した構造情報を有効な構造データとした。
(B)分子記述子の生成と選択
上記(A)で得られた構造データを、Daylight社製mol2smi (ver.4.95)を用いて分子記述子言語であるisomeric SMILESへ変換して文字情報として、続いてこのisomeric SMILESで記述された文字情報からOpenEye社製Omega (ver.2.5.1.4)を用いて最安定の立体配座(3D-conformer)を生成した。この3次元座標情報を入力とし、Molecular Networks社製CORINA Symphony Descriptors (ver.1.0)を用い、生成可能な全ての分子記述子1,273個を計算した。
この1,273個の内から以後の解析には281個を用いた。この281個の分子記述子と上記(A)の生物活性データとを、CIDで紐付け、アッセイ系ごとに解析用入力ファイルを作成した。
(C)標準化とデータクレンジング
解析用入力ファイルのデータ中に含まれる不適切なデータを、以下の手順でクレンジングした。
(i)281個の分子記述子毎に、平均と標準偏差を求め、全ての値について正規化した。
(ii)標準化した値を0.1ごとにビニング(binning)し、これを格子点として281次元のメッシュ空間に振り分けた。
(iii)同一メッシュに複数データが対応する場合、単一の分子記述子について互いの化合物の活性ラベル(Active/Inactive)が異なる組があれば、それらの化合物を解析対象から除外した。
各アッセイ系のデータ群についてクレンジング処理後、全体をトレーニングセット(参照化合物):テストセット(予測対象化合物)=9:1に分割してクロスバリデーションを行った。この際、各テストセット間でActiveラベルの比率ができるだけ等しくなるよう、かつ、ランダムになるように配慮した。
(D)プログラムのコーディング、クロスバリデーション
本発明に係るプログラムのアルゴリズムに従ってコーディングし、Microsoft社製の64-bit版Visual C++2013を用いてコンパイル、作成したプログラムを使い、(C)で標準化・クレンジングされた解析用入力ファイルのデータを入力データとし、処理した。すなわち、式(I)によりトレーニングセットのテストセット中の化合物に対する寄与度の算出を経て、式(II)、(III)の計算を行なった。以後、テストセット中の1つの化合物に対する活性予測スコア(式(II)によるスコア)を「V-score」と記載する。
式(II)における媒介変数tは6.0~12.0の範囲で0.2毎に31段階、双曲線正接の係数hは0.005、0.01、0.02、0.05、0.1、0.2、∞の7段階で設定し、テストセット毎にROC曲線のAUCを31×7=217通りのパラメータ毎に計算した。10個のテストセットにおける217通りの計算結果のAUCの平均値と標準偏差とを算出し、AUCの好適値を与える変数tと係数hを最適パラメータとして決定した。この一連の計算を、(A)で選択された848件のアッセイ系それぞれに対してバッチ的に行った。
(E)V-scoreと構造類似度との関係の解析
上記(A)の848件のアッセイ系中、(D)においてAUCの極大が得られ、かつAUCの極大値の平均値が0.65以上で標準偏差が0.12以下であった713件のアッセイ系の各々で、最適パラメータにおけるトレーニングセットとテストセットの10通りの組について、V-scoreの最上位から0.0~0.5%画分と5.0~5.5%画分を抽出し、PubChemに登録されている実際の生物活性データでもActiveであることを示すActiveラベル捕捉率、生物活性値及びトレーニングセットとテストセット間の構造類似度、のそれぞれの平均値を算出した。構造類似度は、上記(B)で得たisomeric SMILESで記述された文字列を基に、Daylight社製Toolkit (ver.4.95)を用いて2048 bitのフィンガープリント(fingerprint)を生成し、Tanimoto係数を計算して得た。
2.結果
(A)分子記述子の選択
上記1.(B)で選択された281個の分子記述子を「表1」に示す。
Figure 0007126337000054
Figure 0007126337000055
Figure 0007126337000056
Figure 0007126337000057
Figure 0007126337000058
Figure 0007126337000059
Figure 0007126337000060
(B)アッセイ系のAUC極大値
上記1.(B)で作成した解析用入力ファイルと、本発明に係るプログラムとを用い、1.(D)の手順に従って848件の各アッセイ系のAUC極大値(平均値)を求めた。各アッセイ系におけるテストセットのActiveラベル比率とAUC極大値との関係を図5に、テストセット化合物のデータ数とAUC極大値との関係を図6に示す。75%以上のアッセイ系でAUC極大値>0.75の予測精度を得ることができた。予測精度は、元データのActiveラベル比率やエントリーデータ数に無関係であった。
848件のアッセイ系は、多様であり、標的(酵素、細胞、又は核酸等)、検出法(蛍光、発光、又は結合アッセイ)、活性(阻害活性、促進活性、アゴニスト/アンタゴニスト活性)、及び目的(薬物開発、又はADMET評価等)も異なる。このようなアッセイ系の多様性にもかかわらず、上記1.(C)のデータクレンジングを行うのみで高い予測精度が得られ、本発明が柔軟性を有し、適用範囲が広いことが示された。
(C)V-scoreと活性値との関係
同一アッセイ系について、V-scoreが最上位(0.0~0.5%画分)にランクされた化合物群AをX軸、中位(5.0~5.5%画分)にランクされた化合物群BをY軸に取り、Activeラベルの捕捉率(図7)、生物活性値(図8)、トレーニングセット内のActiveラベル化合物(親化合物)との構造類似度(図9)、の各平均値をアッセイ系ごとにプロットした。
化合物群Bに比して、化合物群Aでは、より多くのActiveラベルデータが集まっており、生物活性値も遙かに高いことが明らかである。
一方で、親化合物との構造類似度には、化合物群A, Bの間で明瞭な差はない。これは、テストセット中で上位にランクされた化合物が、必ずしも親化合物と構造類似度が高いものばかりが集まっているわけではないことを意味している。すなわち、親化合物との構造類似度がそれほど高くなくても、分子記述子との関係によっては高いV-scoreが得られる場合があることを示しており、新規ケモタイプ発掘の可能性を支持するものである。
なお、最上位(0.0~0.5%画分)と中位(5.0~5.5%画分)以外の画分での結果から、下位の画分ほど生物活性値の平均値が低下する傾向にあり、V-scoreが生物活性値(すなわち、生物活性の高低)をよく反映することが明らかとなった。
[実施例2]
本発明に係る化合物活性予測方法により、高選択性のキナーゼ阻害活性を示す化合物の探索が可能であることを確認した。
標的生体内分子をキナーゼとし、キナーゼドメインのアミノ酸配列に由来する分子記述子は、キナーゼの供給元(本実施例においては、例えばカルバナイオサイエンス株式会社)のサイト上や、一般に公開されているデータベース(米国国立生物工学情報センター(NCBI)のReference Sequence)上の登録配列情報を取得して用いた。また、キナーゼに関する生物活性データが既知の化合物群について化合物構造情報ファイルをデータベース(PubChem)から取得し、化合物の構造に由来する分子記述子を生成して用いた。
既アッセイ化合物に対して本発明の熱拡散方程式の解として得られる予測式を用いて最適パラメータを求め、次にそのパラメータ条件下で、未アッセイ化合物の活性(キナーゼに対する選択的阻害活性)を予測した。手順は以下のとおりである。
解析対象としたキナーゼは、同一のHuman Kinomeに属するキナーゼ439種類とした。これらのキナーゼのキナーゼドメインのアミノ酸配列をもとに、PROFEAT2016を利用して分子記述子を生成し、そのうち特定の1045種の分子記述子を選択して用いた。
なお、PROFEAT2016の分子記述子はオンライン上に開示されている通りであるが、特に「表9」のグループのうちの一部ないし全部に属する分子記述子を用いることができる。標準偏差を算出できない分子記述子は、定法にしたがって適宜除外した。
Figure 0007126337000061
次に、既アッセイ化合物群について、データポイントの多いアッセイ(例えば化合物1μMでのキナーゼ阻害率)をACTIVITY_SCORE(生物活性値)として採用し、阻害率50%を境にActive/Inactiveのラベル付けをした。その後、実施例1の1.(A)及び(B)と同様の手順により、化合物群の構造データを得、それぞれの構造データに対して281個の分子記述子を生成した。
このように生成された計1326個の分子記述子について、実施例1の1.(C)と同様の手順によりデータクレンジング処理を行ない、次のステップで行なう計算処理の入力データとした。
クレンジング処理後、化合物をランダムにトレーニングセット(参照化合物):テストセット(予測対象化合物)=9:1に分割した。
実施例1(D)と同様の手順にしたがって、式(I)によりトレーニングセットのテストセット中の化合物に対する寄与度の算出を経て、式(II)、(III)の計算を行なった。ここで、式(II)における媒介変数tは8.75~9.50の範囲で0.05ごとに16段階、双曲線正接の係数hは0.001、0.002、0.005、0.01、0.02、0.05、0.1、0.2、∞の9段階で設定して最適パラメータを求めた。
本実施例では、寄与度は化合物と標的となる標的生体内分子(例えばキナーゼ)の組み合わせにより算出される。すなわち、化合物一つにつき、化合物構造に基づく分子記述281個の値に加え、標的生体内分子ひとつに対し最大で1045個ある分子記述子の値との組み合わせを計算することとなる。
ここで、実施例1の281次元に対して、本実施例では1326次元の計算が必要になることから、計算速度の効率化のため、下記式(I-3)から導かれる下記式(I-4)を用いて
Figure 0007126337000062
を算出した。
Figure 0007126337000063
本発明において対象化合物の生物活性の評価は式(I-3)により算出される「寄与度」の差分(スコア)に基づいて行われるものであるため、式(I-3)中の直積を式(I-3-i)に示されるようにe値の計算のみで代替することができる。さらに式(I-3-i)は結合法則により式(I-3-ii)に示されるように分割できる。
Figure 0007126337000064
したがって、上記式(I-3)から下記式(I-4)を導くことができる。
Figure 0007126337000065
式(I-4)中、tは、任意の正の媒介変数を示し、
xiは化合物のi番目の分子記述子の値を示し、
k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。
xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。この例の場合、nは1326、n1は281、n2は1045である。
複数化合物と複数標的生体内分子の情報から化合物の生物活性(ここではキナーゼに対する選択的阻害活性)を予測する場合、両者の直積に相当する全組合せについて計算する必要があり、次元数も非常に大きくなる。このため、そのまま計算すると、計算コストやメモリー必要量が無視できないほど大きくなることもありうる。
そこで、計算コストやメモリー必要量を低減するため、化合物の分子記述子と、化合物が結合する標的生体内分子の分子記述子部分とを予め分けて計算して、結果を保存しておき、組合せに応じてそれぞれの値を呼び出して足し合わせることで、計算時間と必要メモリー量とを大幅に減らすことが可能である。
すなわち、式(I-4)では数学の結合法則に基づいて計算を分割することができ、ここでは化合物の分子記述子のグループと、化合物が結合する標的生体内分子の分子記述子のグループに分割した。計算はGPGPU Tesla K80(NVDIA社製)をCUDA 7.5とVisual Studio2013がインストールされた64 bit版Windows 7 Professional搭載マシン上でコンパイルし、実行した。
上述と同様に交差検定を行ったところ、計算による予測スコアの予測精度は、ROC曲線のAUCが0.933と非常に高い値であった。また、予測結果をスコア順にソートし、実測のアッセイ結果と比較して正答率を確認したところ、正答率は96.0%であり、化合物のキナーゼへの選択的阻害活性の高低をも反映した結果が得られた。
さらに、これらキナーゼ群に対する活性が未アッセイの化合物群について、上記で得られた最適パラメータ条件下で、同様に計算を行ない、その予測スコアに基づいてアッセイしたところ、予想通り、選択的阻害活性を示す化合物が多く得られた。

Claims (18)

  1. 対象化合物における任意の生物活性の有無又は高低を予測するためのプログラムであって、
    (1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)の値を用い、
    空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物に対する参照化合物全体のうちk番目の参照化合物の
    Figure 0007126337000066
    を算出するステップを実行するアルゴリズムと、
    Figure 0007126337000067
    (式中、tは、任意の正の媒介変数を示し、
    iは、化合物のi番目の分子記述子の値、
    iは、i番目の分子記述子についての積分変数を示し、
    k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
    (2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出するステップを実行するアルゴリズムと、
    を含み、
    前記差分が正の値であるかより大きな正の値である場合、前記対象化合物が前記生物活性を有する可能性がある又はより高い活性を有する可能性があると判定し、前記差分が負の値である場合、前記対象化合物が前記生物活性を有さない可能性が高いと判定する
    プログラム。
  2. 前記アルゴリズム(2)において、前記差分を、次の式(II)(III)により算出する、請求項1記載のプログラム。
    Figure 0007126337000068
    (式中、m1は、前記生物活性を有することが既知である参照化合物の数、
    2は、前記生物活性を有しないことが既知である参照化合物の数、
    kは、k番目の参照化合物の生物活性値、
    zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
    hは、正の係数、
    tanhは、双曲線正接を示し、
    Figure 0007126337000069
    は、式(I)と同義である。)
  3. (A)交差検定により、前記
    Figure 0007126337000070
    についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定するステップと、
    (B)決定された変数tと係数hの条件下で、対象化合物の前記
    Figure 0007126337000071
    を算出するステップと、を実行する、請求項2記載のプログラム。
  4. 複数の対象化合物のなかから任意の生物活性を有する候補化合物を選択するためのプログラムであって、
    (1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)を用い、
    空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の分子記述子の値について、下式(I)により、前記対象化合物それぞれに対する前記参照化合物全体のうちk番目の参照化合物の
    Figure 0007126337000072
    を算出するステップを実行するアルゴリズムと、
    Figure 0007126337000073
    (式中、tは、任意の正の媒介変数を示し、
    iは、対象化合物のi番目の分子記述子の値、
    iは、i番目の分子記述子についての積分変数を示し、
    k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
    (2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との
    Figure 0007126337000074
    を、次の式(II)(III)により、前記対象化合物それぞれについて算出するステップを実行するアルゴリズムとを含み、
    Figure 0007126337000075
    (式中、m1は、前記生物活性を有することが既知である参照化合物の数、
    2は、前記生物活性を有しないことが既知である参照化合物の数、
    kは、k番目の参照化合物の生物活性値、
    zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
    hは、正の係数、
    tanhは、双曲線正接を示し、
    Figure 0007126337000076
    は、式(I)と同義である。)
    (A)交差検定により、前記
    Figure 0007126337000077
    についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定するステップと、
    (B)決定された変数tと係数hの条件下で、各対象化合物の前記
    Figure 0007126337000078
    を算出し、出力するステップと、を実行し、
    前記差分が正の値であるかより大きな正の値である対象化合物を、前記生物活性を有する可能性ある又はより高い活性を有する可能性がある候補化合物として選択する
    プログラム。
  5. 前記アルゴリズム(1)において、前記式(I)が下記式(I-2)又は式(I-3)に代替される、請求項1~4のいずれか一項に記載のプログラム。
    Figure 0007126337000079
    (式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、前記式(I)に同じである。)
  6. 前記アルゴリズム(1)において、前記式(I)が下記式(I-4)に代替される、請求項1~4のいずれか一項に記載のプログラム。
    Figure 0007126337000080
    (式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じであり、
    xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
    k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。)
  7. 請求項1~6のいずれか一項に記載のプログラムをコンピュータが読み取り可能に記録した記録媒体。
  8. 対象化合物における任意の生物活性の有無又は高低を予測するための解析装置であって、
    (1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)の値を用い、
    空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物に対する前記参照化合物全体のうちk番目の参照化合物からの
    Figure 0007126337000081
    を算出する手段と、
    Figure 0007126337000082
    (式中、tは、任意の正の媒介変数を示し、
    iは、化合物のi番目の分子記述子の値、
    iは、i番目の分子記述子についての積分変数を示し、
    k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
    (2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出する手段と、
    を備え
    前記差分が正の値であるかより大きな正の値である場合、前記対象化合物が前記生物活性を有する可能性ある又はより高い活性を有する可能性があると判定し、スコアが負の値である場合、前記対象化合物が前記生物活性を有さない可能性が高いと判定する、
    解析装置。
  9. 前記手段(2)において、前記差分を、次の式(II)(III)により算出する、請求項8記載の解析装置。
    Figure 0007126337000083
    (式中、m1は、前記生物活性を有することが既知である参照化合物の数、
    2は、前記生物活性を有しないことが既知である参照化合物の数、
    kは、k番目の参照化合物の生物活性値、
    zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
    hは、正の係数、
    tanhは、双曲線正接を示し、
    Figure 0007126337000084
    は、式(I)と同義である。)
  10. (A)交差検定により、前記
    Figure 0007126337000085
    についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定する手段と、
    (B)決定された変数tと係数hの条件下で、各対象化合物の前記
    Figure 0007126337000086
    を算出し、出力する手段と、
    を備える、請求項9記載の解析装置。
  11. 複数の対象化合物のなかから任意の生物活性を有する候補化合物を選択するための解析装置であって、
    (1)前記生物活性を有することが既知である化合物と有しないことが既知である化合物を含む参照化合物と、前記対象化合物と、から各々計算される分子記述子n個(nは2以上の自然数)を用い、
    空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、対象化合物それぞれに対する参照化合物全体のうちk番目の参照化合物からの
    Figure 0007126337000087
    を算出する手段と、
    Figure 0007126337000088
    (式中、tは、任意の正の媒介変数を示し、
    iは、対象化合物のi番目の分子記述子の値、
    iは、i番目の分子記述子についての積分変数を示し、
    k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
    (2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の前記参照化合物の生物活性値で重み付けして合算して得た値、との
    Figure 0007126337000089
    を、次の式(II)(III)により、前記対象化合物それぞれについて算出する手段と、
    Figure 0007126337000090
    (式中、m1は、前記生物活性を有することが既知である参照化合物の数、
    2は、前記生物活性を有しないことが既知である参照化合物の数、
    kは、k番目の参照化合物の生物活性値、
    zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
    hは、正の係数、
    tanhは、双曲線正接を示し、
    Figure 0007126337000091
    は、式(I)と同義である。)
    (A)交差検定により、前記
    Figure 0007126337000092
    についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定する手段と、
    (B)決定された変数tと係数hの条件下で、各対象化合物の前記
    Figure 0007126337000093
    を算出し、出力する手段と、を備え、
    前記差分が正の値であるかより大きな正の値である対象化合物を、前記生物活性を有する可能性ある又はより高い活性を有する可能性がある候補化合物として選択する
    解析装置。
  12. 前記手段(1)において、前記式(I)が下記式(I-2)又は式(I-3)に代替される、請求項8~11のいずれか一項に記載の解析装置。
    Figure 0007126337000094
    (式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、前記式(I)に同じである。)
  13. 前記手段(1)において、前記式(I)が下記式(I-4)に代替される請求項8~11のいずれか一項に記載の解析装置。
    Figure 0007126337000095
    (式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じであり、
    xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
    k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。)
  14. コンピュータにより実施される、対象化合物における任意の生物活性の有無又は高低を予測する方法であって、
    前記生物活性を有することが既知である化合物と有しないことが既知である化合物を参照化合物とし、
    (1)前記参照化合物と前記対象化合物から各々計算される分子記述子n個(nは2以上の自然数)の値を用い、
    空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物に対する前記参照化合物全体のうちk番目の参照化合物の
    Figure 0007126337000096
    を算出する手順と、
    Figure 0007126337000097
    (式中、tは、任意の正の媒介変数を示し、
    iは、化合物のi番目の分子記述子の値、
    iは、i番目の分子記述子についての積分変数を示し、
    k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
    (2)前記生物活性を有することが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値、との差分を算出する手順と、
    (3)前記差分が正の値であるかより大きな正の値である場合、前記対象化合物が前記生物活性を有する可能性がある又はより高い活性を有する可能性があると判定し、前記差分が負の値である場合、前記対象化合物が前記生物活性を有さない可能性が高いと判定する手順と、を含む方法。
  15. 前記手順(2)において、前記差分を、次の式(II)(III)により算出し、
    Figure 0007126337000098
    (式中、m1は、前記生物活性を有することが既知である参照化合物の数、
    2は、前記生物活性を有しないことが既知である参照化合物の数、
    kは、k番目の参照化合物の生物活性値、
    zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
    hは、正の係数、
    tanhは、双曲線正接を示し、
    Figure 0007126337000099
    は、式(I)と同義である。)
    前記手順(3)において、交差検定により前記
    Figure 0007126337000100
    についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定し、
    決定された変数tと係数hの条件下で算出される前記差分に基づいて前記対象化合物の前記生物活性の有無又は高低を予測する、請求項14記載の方法。
  16. コンピュータにより実施される、複数の対象化合物のなかから任意の生物活性を有する候補化合物を選択する方法であって、
    前記生物活性を有することが既知である化合物と有しないことが既知である化合物を参照化合物とし、
    (1)前記対象化合物と前記参照化合物から各々計算される分子記述子n個(nは2以上の自然数)を用い、
    空間全体が微細領域に区画されているn次元空間中で、いずれかの微細領域に帰属するように配置されたn個の前記分子記述子の値について、下式(I)により、前記対象化合物それぞれに対する前記参照化合物全体のうちk番目の参照化合物の
    Figure 0007126337000101
    を算出する手順と、
    Figure 0007126337000102
    (式中、tは、任意の正の媒介変数を示し、
    iは、対象化合物のi番目の分子記述子の値、
    iは、i番目の分子記述子についての積分変数を示し、
    k番目の参照化合物のi番目の分子記述子の値はaij-1~aijの範囲の微細領域にあるものとする。)
    (2)前記生物活性を有することが既知である参照化合物について算出された前記寄与度を各々の参照化合物の生物活性値で重み付けして合算して得た値と、前記生物活性を有しないことが既知である参照化合物について算出された前記寄与度を各々の前記参照化合物の生物活性値で重み付けして合算して得た値、との
    Figure 0007126337000103
    を、次の式(II)(III)により、前記対象化合物それぞれについて算出する手順と、
    Figure 0007126337000104
    (式中、m1は、前記生物活性を有することが既知である参照化合物の数、
    2は、前記生物活性を有しないことが既知である参照化合物の数、
    kは、k番目の参照化合物の生物活性値、
    zは、前記生物活性のアッセイ系により任意に定める活性有無の判断基準値、
    hは、正の係数、
    tanhは、双曲線正接を示し、
    Figure 0007126337000105
    は、式(I)と同義である。)
    (A)交差検定により、前記
    Figure 0007126337000106
    についてのROC(Receiver Operating Characteristic)曲線のAUC(Area Under the Curve)の好適値を与える変数tと係数hとを決定する手順と、
    (B)決定された変数tと係数hの条件下で算出される前記差分が正の値であるかより大きな正の値である対象化合物を、前記生物活性を有する可能性ある又は可能性がより高い候補化合物として選択する手順、とを含む方法。
  17. 前記手順(1)において、前記式(I)が下記式(I-2)又は式(I-3)に代替される、請求項14~16のいずれか一項に記載の方法。
    Figure 0007126337000107
    (式(I-2)及び式(I-3)中、t、xi、aij-1及びaijは、前記式(I)に同じである。)
  18. 前記手順(1)において、前記式(I)が下記式(I-4)に代替される、請求項14~16のいずれか一項に記載の方法。
    Figure 0007126337000108
    (式(I-4)中、t、xi、aij-1及びaijは前記式(I)に同じであり、
    xpは、化合物の標的生体内分子のp番目の分子記述子の値を示し、
    k番目の参照化合物と標的生体内分子の組み合わせにおけるp番目の分子記述子の値はapq-1~apqの範囲の微細領域にあるものとする。)

JP2017093781A 2016-10-27 2017-05-10 化合物の生物活性を予測するためのプログラム、装置及び方法 Active JP7126337B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016211112 2016-10-27
JP2016211112 2016-10-27
JP2016230124 2016-11-28
JP2016230124 2016-11-28

Publications (2)

Publication Number Publication Date
JP2018092575A JP2018092575A (ja) 2018-06-14
JP7126337B2 true JP7126337B2 (ja) 2022-08-26

Family

ID=62565595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017093781A Active JP7126337B2 (ja) 2016-10-27 2017-05-10 化合物の生物活性を予測するためのプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP7126337B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020031671A1 (ja) * 2018-08-08 2020-02-13 パナソニックIpマネジメント株式会社 材料記述子生成方法、材料記述子生成装置、材料記述子生成プログラム、予測モデル構築方法、予測モデル構築装置及び予測モデル構築プログラム
US11455440B2 (en) 2019-02-25 2022-09-27 International Business Machines Corporation Graphic user interface assisted chemical structure generation
CN110111857B (zh) * 2019-03-26 2023-04-28 南京工业大学 一种预测纳米金属氧化物生物毒性的方法
CN110728078B (zh) * 2019-11-14 2022-11-25 吉林大学 一种基于胶粘剂化学特性的粘接结构在全服役温度区间下的力学性能的预测方法
CN112331273B (zh) * 2020-10-28 2023-12-15 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004152029A (ja) 2002-10-30 2004-05-27 Fujitsu Ltd 機能予測支援方法、機能予測支援プログラムおよび機能予測支援装置
WO2007139037A1 (ja) 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
JP2010165230A (ja) 2009-01-16 2010-07-29 Pharma Design Inc 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004152029A (ja) 2002-10-30 2004-05-27 Fujitsu Ltd 機能予測支援方法、機能予測支援プログラムおよび機能予測支援装置
WO2007139037A1 (ja) 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
JP2010165230A (ja) 2009-01-16 2010-07-29 Pharma Design Inc 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム

Also Published As

Publication number Publication date
JP2018092575A (ja) 2018-06-14

Similar Documents

Publication Publication Date Title
JP7126337B2 (ja) 化合物の生物活性を予測するためのプログラム、装置及び方法
Qi et al. Clustering and classification methods for single-cell RNA-sequencing data
Mereu et al. Benchmarking single-cell RNA-sequencing protocols for cell atlas projects
Su et al. Single cell proteomics in biomedicine: High‐dimensional data acquisition, visualization, and analysis
Hao et al. SOMDE: a scalable method for identifying spatially variable genes with self-organizing map
Liu et al. Early diagnosis of complex diseases by molecular biomarkers, network biomarkers, and dynamical network biomarkers
Sutherland et al. Spline-fitting with a genetic algorithm: A method for developing classification structure− activity relationships
Ideker et al. Protein networks in disease
Harper et al. Prediction of biological activity for high-throughput screening using binary kernel discrimination
Reshef et al. Co-varying neighborhood analysis identifies cell populations associated with phenotypes of interest from single-cell transcriptomics
Abraham et al. Multiparametric analysis of screening data: growing beyond the single dimension to infinity and beyond
Dunkler et al. Statistical analysis principles for Omics data
Shanmugasundaram et al. Hit-directed nearest-neighbor searching
Kusuma et al. Prediction of ATP-binding sites in membrane proteins using a two-dimensional convolutional neural network
Todorov et al. Computational approaches for high‐throughput single‐cell data analysis
Zhu et al. Analysis of single-cell RNA-seq data by clustering approaches
Wolfien et al. Single-cell RNA sequencing procedures and data analysis
Yates et al. An inferential framework for biological network hypothesis tests
Magnusson et al. LiPLike: towards gene regulatory network predictions of high certainty
Becker et al. Predicting compound activity from phenotypic profiles and chemical structures
Zolotovskaia et al. Algorithmically reconstructed molecular pathways as the new generation of prognostic molecular biomarkers in human solid cancers
Seal et al. A Decade in a Systematic Review: The Evolution and Impact of Cell Painting
WO2021050760A1 (en) Systems and methods for pairwise inference of drug-gene interaction networks
Wang et al. SECANT: a biology-guided semi-supervised method for clustering, classification, and annotation of single-cell multi-omics
So et al. GraphComm: a graph-based deep learning method to predict cell-cell communication in single-cell RNAseq data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220816

R150 Certificate of patent or registration of utility model

Ref document number: 7126337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150