JP2010165230A

JP2010165230A - 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム

Info

Publication number: JP2010165230A
Application number: JP2009007697A
Authority: JP
Inventors: Shoyoshi Sugaya; 昇義菅谷
Original assignee: PharmaDesign Inc Japan
Current assignee: PharmaDesign Inc Japan
Priority date: 2009-01-16
Filing date: 2009-01-16
Publication date: 2010-07-29

Abstract

【課題】薬剤の標的となるタンパク質−タンパク質相互作用を予測する方法及びシステムを提供する。
【解決手段】タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、及び該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質−タンパク質相互作用を予測する数学モデルを構築する。
【選択図】図３

Description

本発明は、創薬の分野に関する。より詳細には、薬剤標的となるタンパク質−タンパク質相互作用（Ｐｒｏｔｅｉｎ−ＰｒｏｔｅｉｎＩｎｔｅｒａｃｔｉｏｎｓ：ＰＰＩ）を予測する方法及びシステムに関する。

生体の生物学的及び生理学的機能は、生体物質、特に、タンパク質の機能及びタンパク質同士の機能的ネットワークの働きにより担われ、制御、維持されている。とりわけ、ＰＰＩは、生体内で起こる様々な生物学的現象において、基本的かつ重要な役割を担っている。実際、腫瘍抑制タンパク質であるＴＰ５３とその制御タンパク質ＭＤＭ２間の相互作用が、腫瘍の発現に重要な影響を与えることなど、ＰＰＩと疾患との関係について、多くの知見が蓄積されつつある。

従って、ＰＰＩを制御することができる化合物、特に、低分子の化学薬剤を見つけることができれば、これまでに治療法が確立されていない、又は困難とされている多くの疾患を克服するための薬剤開発に大きく貢献することとなる。
これまで、ＰＰＩの境界面の多くは平坦で表面積が広いことから、ＰＰＩを低分子化合物で阻害することは難しいと考えられてきた。しかし、ＰＰＩのなかには、境界面に凹凸があり、かつ境界面のごく一部の領域のみが相互作用にとって重要な働きを担っているようなＰＰＩが存在することが、これまでの研究により明らかとなってきた。このようなＰＰＩに対して、現在、薬剤標的としての研究が盛んに行われている。これまでにも、ＭＤＭ２／ＴＰ５３、ＢＣＬ−Ｘ_Ｌ（ＢＣＬ−２）／ＢＡＫ及びＩＬ２／ＩＬ２受容体αなど３０以上のＰＰＩが阻害低分子化合物の標的として研究されてきた。実際に、ＢＣＬ−Ｘ_Ｌ（ＢＣＬ−２）／ＢＡＫのように、がんの治療におけるＰＰＩ阻害低分子化合物の高い阻害効果が、インビトロ及びインビボにおいて実験的に証明されており、製薬企業によって阻害薬の臨床開発が進められている例もある（ｈｔｔｐ：／／ｗｗｗ．ｎａｔｕｒｅ．ｃｏｍ／ｃｄｄ／ｊｏｕｒｎａｌ／ｖａｏｐ／ｎｃｕｒｒｅｎｔ／ａｂｓ／ｃｄｄ２００８１３７ａ．ｈｔｍｌ）。これらの研究は、低分子阻害薬開発における標的としてのＰＰＩの有用性を強く支持するものである。

ヒトゲノム配列プロジェクト完成以来、新規の薬剤標的タンパク質を発見することを目的とする様々なインシリコの手法が提案されてきた。例えば、既知の標的タンパク質の生物学的情報、関連薬剤情報及び物理化学的特徴に関する情報に基づいて機械学習を利用した方法（非特許文献１〜５）など、全てのヒトタンパク質から新規薬剤標的タンパク質をインシリコの手法によって発見する試みが、いくつか報告されている（特許文献１、非特許文献６及び７）。

一方、単一タンパク質ではなく、ＰＰＩの薬剤標的としての可能性を評価するための方法論は、現段階においては、未だ開発途上にある。
これまでに、任意に与えられた２つのタンパク質が相互作用するかどうかを予測する方法に関しては、幾つかの報告が存在する（特許文献２〜４）。また、ＰＰＩの薬剤標的性を予測する方法については、ＰＰＩの物理化学的特徴や機能的／薬剤関連情報を利用した方法（特許文献５）が報告されている。
発明者らは、相互作用に関わる機能ドメインを見つけ、遺伝子オントロジー（ＧｅｎｅＯｎｔｏｌｏｇｙ：ＧＯ）を使用して相互作用タンパク質間の生物学的機能の一致度を評価し、タンパク質表面の低分子化合物結合ポケットを見出すことによって、薬剤標的ＰＰＩを発見するためのインシリコ手法をこれまでに報告した（非特許文献８）。

米国特許第７，２４３，１１２号特開２００３−２３８５８７ＷＯ２００５／０８１１６６ＥＰ１１０４９０６ＷＯ２００５／０８４１９３

Ｂａｏ及びＳｕｎ，ＦＥＢＳＬｅｔｔ．５２１：１０９−１１４．２００２．Ｚｈｅｎｇら，Ｐｈａｒｍａｃｏｌ．Ｒｅｖ．５８：２５９−２７９．２００６．Ｈａｎら，ＤｒｕｇＤｉｓｃｏｖ．Ｔｏｄａｙ１２：３０４−３１３．２００７．Ｌｉ及びＬａｉ，ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ８：３５３．２００７．Ｙａｏ及びＲｚｈｅｔｓｋｙ，ＧｅｎｏｍｅＲｅｓ．１８：２０６−２１３．２００８．Ｋｒａｍｅｒ及びＣｏｈｅｎ，ＮａｔｕｒｅＲｅｖ．ＤｒｕｇＤｉｓｃｏｖ．３：９６５−９７２．２００４．Ｅｋｉｎｓら，Ｂｒ．Ｊ．Ｐｈａｒｍａｃｏｌ．１５２：２１−３７．２００７．Ｓｕｇａｙａら，ＢＭＣＰｈａｒｍａｃｏｌ．７：１０．２００７．

以上のように、ＰＰＩの薬剤標的としての可能性は非常に期待されるものであるが、これまでの方法は、ＰＰＩの薬剤標的としての可能性を評価するための基準について、例えば、ＰＰＩの物理化学的特徴のみ、あるいは生物学的機能に関する特徴のみなど、限定的な基準を使用するに留まっていた。また、阻害化合物の研究例があるＰＰＩについては、その薬剤標的としての可能性の評価は研究者個人に依存してきた。そのため、現在急速に蓄積されつつある膨大な量のＰＰＩデータから、ＰＰＩに関する、物理化学的特徴と生物学的機能に関する特徴の両方を含む様々な情報（属性）を利用し、統合的かつ効率的に薬剤標的としての可能性を評価する方法論の開発が強く望まれていた。

本発明者は、上記事情に鑑み、非特許文献８に報告の手法をさらに発展させ、ＰＰＩの立体構造情報、ＰＰＩを構成する各相互作用タンパク質に対して作用を有する既存薬剤／化合物の情報、並びに、ＰＰＩを構成する各相互作用タンパク質の生物学的機能に関する情報から選択した属性を特徴ベクトルとして使用し、機械学習法を導入することによって、統合的で効率的な薬剤標的候補の予測方法の確立に成功し、本発明を完成させた。
従って、本発明は、膨大なＰＰＩデータから薬剤標的となり得るＰＰＩを、機械学習法を適用して予測する、統合的かつ効率的な薬剤標的ＰＰＩの予測方法及びシステムの提供を目的とする。

本発明は、以下の（ａ）〜（ｃ）に示す属性を有するＰＰＩのデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるＰＰＩを予測する数学モデルを構築する方法である。
（ａ）ＰＰＩの立体構造の属性、
（ｂ）該ＰＰＩを構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、
（ｃ）該ＰＰＩを構成する各タンパク質の生物学的機能の属性
さらに、本発明は、ＰＰＩの立体構造の属性、該ＰＰＩを構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、並びに、該ＰＰＩを構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的ＰＰＩとそれ以外のＰＰＩを判別する数学モデルを、予測対象のＰＰＩへ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補ＰＰＩの予測システムである。

本発明によれば、膨大なＰＰＩデータから、薬剤標的となり得るＰＰＩを容易かつ迅速に、高い精度で選択することができる。発明者は、ＰＰＩの薬剤標的としての可能性を評価するために、ＰＰＩの立体構造情報、各相互作用タンパク質に対して作用を有する既存薬剤／化合物の情報、及び各相互作用タンパク質の生物学的機能に関する情報から幾つかの属性を選択し、それらを特徴ベクトルとして使用し、機械学習法を適用した。本発明の方法を、既知の３０の標的ＰＰＩと、立体構造が解かれている１，２９５のヒトＰＰＩに対して適用したところ、機械学習法によって構築した最適な数学モデルにおいては、既知の標的ＰＰＩを８１％の正確性（感度、８２％特異性、７９％）で他のＰＰＩと区別することができた。

本発明によれば、薬剤標的となり得るＰＰＩを予測するためのインシリコにおける統合的なシステムを構築することが可能となる。

「ｐｌａｎａｒｉｔｙ」の定義。ポケットを構成する原子の最小自乗平面（Ｌｅａｓｔ−ＳｑｕａｒｅｓＰｌａｎｅ：ＬＳＰ）に対して水平に観た図である。「ｐｌａｎａｒｉｔｙ」は、ポケット構成原子の立体座標データに基づいて計算する。全てのポケット構成原子の組合せのうち、最大の距離ｍａｘ（ｄ_ｉｊ）を計算する。ポケット構成原子のＬＳＰの計算後、距離ｄ_１及びｄ_２を計算する。距離ｄ_１は、ＬＳＰとＬＳＰの「上」（‘ａｂｏｖｅ’）に位置する原子との間の最大距離である。距離ｄ_２は、ＬＳＰとＬＳＰの「下」（‘ｂｅｌｏｗ’）に位置する原子との間の最大距離である。「ｎａｒｒｏｗｎｅｓｓ」の定義。（Ａ）全てのポケット原子をＬＳＰ上に射影する。「ｎａｒｒｏｗｎｅｓｓ」はこれらの射影原子の座標データに基づいて計算される。（Ｂ）ポケット原子が射影されたＬＳＰの鳥瞰図。射影された原子の全ての組合せのうち、最大距離ｄ_３を計算する。この例の場合、射影原子ｉ及びｊ間の距離が最大である。次に、距離ｄ_４及びｄ_５を計算する。ｄ_４は距離ｄ_３を与える射影原子ｉ及びｊを通る直線ｌ_ｉｊと、ｌ_ｉｊより「右」（‘ｒｉｇｈｔ’）側にある射影原子との最大距離である。ｄ_５は直線ｌ_ｉｊと、ｌ_ｉｊより「左」（‘ｌｅｆｔ’）側にある射影原子との最大距離である。ＳＶＭに基づく手法によるＰＰＩの薬剤標的性の評価法を模式的に示した図である。構築したＳＶＭモデルによるランダム学習データのＲＯＣ曲線。線形、多項式、ＲＢＦ及びシグモイドカーネルのＲＯＣ曲線は、１０，０００のランダム学習データセットに対して計算し、各偽陽性率の値に対する真陽性率の平均値をプロットした。線形、多項式、ＲＢＦ及びシグモイドカーネルのＲＯＣ曲線のＡＵＣ±標準偏差は、０．７６±０．０９，０．６７±０．２０，０．７８±０．１３及び０．６４±０．１７である。構築した最適なＳＶＭモデル（ＲＢＦカーネル使用、正例：負例＝１：１）によって、各例が「正」であると判断された回数の度数分布。

本発明における薬剤標的ＰＰＩを予測する方法は、ＰＰＩの薬剤標的としての可能性を機械学習法によって評価し、薬剤標的ＰＰＩを同定するインシリコの方法である。
本発明の実施態様の１つは、以下の（ａ）〜（ｃ）に示す属性を有するＰＰＩデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるＰＰＩを予測する数学モデルを作成する方法である。
（ａ）ＰＰＩの立体構造の属性、
（ｂ）該ＰＰＩを構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、
（ｃ）該ＰＰＩを構成する各タンパク質の生物学的機能の属性

ここで機械学習法とは、既存のデータに基づき、データの分類基準を獲得する方法で、該方法を適用することにより未知のデータの分類結果を予測することができる。本発明に使用される機械学習法としては、特に限定されるものではなく、例えば、ランダムフォレスト法、ブースティング法、ベイズ推定に基づく方法などを挙げることができ、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ：ＳＶＭ）法などが好適に利用可能である。
本発明に使用される機械学習法では、ＰＰＩに関する立体構造、各相互作用タンパク質に対して作用を有する既存薬剤／化合物、及び各相互作用タンパク質の生物学的機能から選択された情報をＰＰＩの属性として定義し、これを機械学習への入力となる特徴ベクトルとして使用する。
立体構造に関する属性とは、タンパク質の表面に存在する（潜在的）リガンド結合ポケット（リガンドが結合する又は結合すると予測されるタンパク質分子表面上に存在する領域）の物理化学的特性のことであり、例えば、リガンド結合ポケットの体積、構成原子の数、溶媒露出表面積（ＡｃｃｅｓｓｉｂｌｅＳｕｒｆａｃｅＡｒｅａ：ＡＳＡ）、コンパクト性（ｃｏｍｐａｃｔｎｅｓｓ）、平面性（ｐｌａｎａｒｉｔｙ）、細長さ（ｎａｒｒｏｗｎｅｓｓ）、曲率、疎水性度、水素結合供与原子の数、水素結合受容原子の数、リガンド結合ポケット表面上に出現するアミノ酸の頻度（アミノ酸組成）などから、１又は複数の特性を属性として使用することができる。ここでリガンドとは、特に限定されることはなく、例えば、タンパク質に結合する可能性のある低分子化合物、ペプチド、核酸、アミノ酸、糖、補酵素、イオン、タンパク質などを含む。

リガンド結合ポケットに関する情報の取得源及び取得手段は、特に限定されることはなく、例えば、タンパク質立体構造データベースＰＤＢ（Ｂｅｒｍａｎら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２８：２３５−２４２．２０００．）中の各タンパク質・ポリペプチド鎖に対し、例えば、ＭｏｌｅｃｕｌａｒＯｐｅｒａｔｉｎｇＥｎｖｉｒｏｎｍｅｎｔ（以下、ＭＯＥ）（ｈｔｔｐ：／／ｗｗｗ．ｃｈｅｍｃｏｍｐ．ｃｏｍ／）ソフトウェアパッケージに含まれるコンピュータプログラムＡｌｐｈａＳｉｔｅＦｉｎｄｅｒ（以下、ＡＳＦ）、Ｃａｓｔｐ（Ｄｕｎｄａｓら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３４：Ｗ１１６−Ｗ１１８．２００６．）、ＬＩＧＳＩＴＥ^ＣＳＣ（Ｈｕａｎｇ及びＳｃｈｒｏｅｄｅｒ，ＢＭＣＳｔｒｕｃｔ．Ｂｉｏｌ．６：１９．２００６．）、Ｐｏｃｋｅｔ−Ｆｉｎｄｅｒ（Ｈｅｎｄｌｉｃｈら，Ｊ．Ｍｏｌ．Ｇｒａｐｈ．Ｍｏｄｅｌ．１５：３５９−３６３．１９９７．）などのプログラム・ソフトウェアによって、タンパク質・ポリペプチド鎖の表面上のポケットを検出し、取得することができる。ここで、ポケットを特定する方法としては、特に限定はしないが、例えば、１つのポケットを構成しているアミノ酸残基の５０％又はそれ以上が他のポケットを構成するアミノ酸残基と共有される場合、この２つのポケットを融合して一つのポケットとして考慮するなど、目的に応じて適宜ポケットの同定条件を設定してもよい。従って、例えば、後述の実施例において示すように検出された全てのポケットのうち、ＰＰＩ境界面とオーバーラップする最大の領域を持つポケットのみを属性の対象として考慮してもよい。ＰＰＩ境界面を構成するアミノ酸に関する情報は、例えば、ＰＤＢｓｕｍ（Ｌａｓｋｏｗｓｋｉ，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３７：Ｄ３５５−Ｄ３５９．２００９．本発明の実施例において使用）、ＰＤＢ、Ｐｆａｍ（Ｆｉｎｎら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ２８１−Ｄ２８８．２００８．）などのデータベースから抽出することができる。

リガンド結合ポケットの体積は、ＭＯＥで計算し、ＰＰＩ属性の１つとして使用することができる。リガンドがポケットと結合するかどうかを評価する際、体積は、ポケット評価のための必須の特性の１つとなり得る。ポケット体積が小さすぎると、リガンドがポケットに結合することができなくなり、逆にポケット体積が大きすぎると、様々なタイプのリガンドが非特異的にポケットに結合する確率が高くなる。

リガンド結合ポケットの体積に代わる属性として、ポケット構成原子の数を利用することができる。ポケット構成原子の数は、ＭＯＥによって計算することができる。

リガンド結合ポケットのＡＳＡに関係する属性を１又は複数選択してもよい。ポケットＡＳＡもポケットが薬剤標的としてより適切かどうかを評価するために重要な属性となり得る。体積と同様に、リガンドが高い親和性でポケットに結合するには、適当なサイズのＡＳＡが必要である。選択可能な属性としては、例えば、ポケット表面のＡＳＡの値、あるいはポケットが検出されたタンパク質・ポリペプチド鎖の全表面のＡＳＡに対するポケット表面のＡＳＡの面積比などを挙げることができる。ここで、ポケット表面のＡＳＡ、及びポケットが検出されたタンパク質・ポリペプチド鎖の全表面のＡＳＡに対するポケット表面のＡＳＡの面積比を属性として選択する場合、全表面のＡＳＡは、タンパク質・ポリペプチド鎖を構成するアミノ酸のうち、溶媒に露出した全てのアミノ酸のＡＳＡの合計として計算してもよい。タンパク質・ポリペプチド鎖の各アミノ酸のＡＳＡは、例えば、ＭＯＥ、ＤＳＳＰプログラム（Ｋａｂｓｃｈ及びＳａｎｄｅｒ，Ｂｉｏｐｏｌｙｍｅｒｓ２２：２５７７−２６３７．１９８３．本発明の実施例）で計算することができる。計算による、あるアミノ酸のＡＳＡが、そのアミノ酸のＡＳＡの絶対値より１５％以上大きい場合、該アミノ酸は溶媒に露出されていると判断される。

ポケットを構成する原子の配置が、立体的空間においてどの程度コンパクトな状態になっているかを表現するものとして、例えば、Ｈａｊｄｕｋら（Ｈａｊｄｕｋら，Ｊ．Ｍｅｄ．Ｃｈｅｍ．４８：２５１８−２５２５．２００５．）の「コンパクト性（ｃｏｍｐａｃｔｎｅｓｓ）」を属性として使用することができる。ポケットの「コンパクト性」はポケットのＡＳＡでポケットの体積を除した値として定義される（Ｈａｊｄｕｋら，Ｊ．Ｍｅｄ．Ｃｈｅｍ．４８：２５１８−２５２５．２００５．）。

これまで、ＰＰＩ境界面の多くは平坦に近いと考えられてきたが、低分子化合物の標的として研究されているＰＰＩの多くは、ＰＰＩの境界面が平坦というよりはむしろ凹んでいる傾向にあることが明らかとなってきた。そこで、ポケットの平坦さを表す指標を属性として選択してもよい。例えば、発明者は、独自の指標として、平面性「ｐｌａｎａｒｉｔｙ」（図１）を本実施例において使用しているが、これに限定されるものではない。平面性「ｐｌａｎａｒｉｔｙ」は、ポケット構成原子の三次元座標データに基づいて計算され、以下の式１ように定義される

ここで、ｄ_１は、ポケット原子の三次元座標の最小自乗平面（Ｌｅａｓｔ−ＳｑｕａｒｅｓＰｌａｎｅ：ＬＳＰ）とＬＳＰより「上」（‘ａｂｏｖｅ’）の原子間の最大距離、ｄ_２は、ＬＳＰとＬＳＰより「下」（‘ｂｅｌｏｗ’）の原子間の最大距離、ｍａｘ（ｄ_ｉｊ）は、ポケットを構成する任意の２つの原子ｉ及びｊ間の距離のうち、最大の距離である。「ｐｌａｎａｒｉｔｙ」は、０（凹んでいる）から１（完全に平坦）の範囲にある。さらに、距離ｄ_１＋ｄ_２も属性として選択できる。ポケットに結合する低分子化合物のインシリコでの探索・設計においては、ポケットを構成する原子間の実際の距離、並びに、距離比は、しばしば、重要なファクターとなる。

ＢＣＬ−２／ＢＡＫ，ＥＳＲ１／ＮＣＯＡ２，ＭＤＭ２／ＴＰ５３及びＴＨＲＢ／ＮＣＯＡ２などのように詳細に研究された標的ＰＰＩのいくつかにおいては、天然のタンパク質／タンパク質複合体において、一方のタンパク質由来のα−へリックスが他方のタンパク質のポケットに相互作用する。このようなポケットに関しては、ポケットを鳥瞰した場合、細長い形状であることが多い。そこで、このポケットの細長さも属性として選択してもよい。例えば、発明者は、独自の測定方法として、細長さ「ｎａｒｒｏｗｎｅｓｓ」（図２）を本実施例において使用しているが、これに限定されるものではない。
まず、全てのポケット原子を原子のＬＳＰに射影し（図２を参照のこと）、射影された座標データを計算に使用する。「ｎａｒｒｏｗｎｅｓｓ」は、以下の式２ように定義される。

ここで、ｄ_３はＬＳＰに射影された射影原子間の距離のうち、最大の距離である。ｄ_４及びｄ_５は以下の通りである。ｄ_３を与える射影原子ｉ及びｊを通る直線をｌ_ｉｊと仮定した場合、ｄ_４はｌ_ｉｊより「右」（‘ｒｉｇｈｔ’）側に位置する射影原子とｌ_ｉｊとの最大距離である。ｄ_５は、ｌ_ｉｊより「左」（‘ｌｅｆｔ’）側に位置する射影原子とｌ_ｉｊとの最大距離である。「ｎａｒｒｏｗｎｅｓｓ」は０（完全な円形）から１（直線状）の範囲にある。「ｐｌａｎａｒｉｔｙ」と同様に、距離ｄ_４＋ｄ_５も属性として使用できる。

ポケットの曲率は、ポケットがどの程度凹んでいるかを表す指標として有用であり、これをＰＰＩの属性として利用することもできる。ポケットの曲率は、ポケット構成原子の最小自乗球面の半径をｒとすると、１／ｒで定義される（Ｃｏｌｅｍａｎら，Ｐｒｏｔｅｉｎｓ．６１：１０６８−１０７４．２００５．）。

タンパク質表面上に存在するリガンド結合ポケットの表面は、その他の表面に対して疎水性アミノ酸残基が多く存在していることが、これまでの研究により明らかにされている。従ってポケットの疎水性度も立体構造情報として有用であり、属性の１つとして採用しても良い。

加えて、ポケットの表面上に存在する水素結合受容原子と水素結合供与原子の数は、ポケットがどのような化学的性質を有するリガンドと相互作用する可能性があるかを知る上で、必要な情報となる。従って、ポケット構成原子中に存在する水素結合受容原子と水素結合供与原子の数を、ＰＰＩ属性の一つとして利用することもできる。

さらに、これまでの研究により、ＰＰＩ境界面においては、トリプトファン、フェニルアラニン、アルギニンなどの特定のアミノ酸がより好まれることが報告されている。そこで、タンパク質・ポリペプチド鎖の全表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度（アミノ酸組成）の割合を属性として採用してもよい。

ＰＰＩを構成する相互作用タンパク質には、米国食品医薬品局（ＦｏｏｄａｎｄＤｒｕｇＡｄｍｉｎｉｓｔｒａｔｉｏｎ：ＦＤＡ）承認薬によってすでに標的とされているものもあれば、ＦＤＡ承認薬が標的としていないタンパク質も含まれる。そこで、本発明の属性として、既存の薬剤に関する情報から選択することもできる。各相互作用タンパク質に対して作用を有する既存薬剤／化合物に関する情報は、当業者において周知の如何なる取得源及び取得方法によってもよいが、例えば、低分子薬の数、ＦＤＡ承認薬の数、バイオ医薬（例えば、抗体製剤など）の数、標的タンパク質に結合し得る研究段階化合物（研究段階化合物とは、まだ承認されていないが薬としての可能性を検証する研究が行われている化合物のことである。）の数、治験段階化合物（治験段階化合物とは、薬としての臨床開発が行われている段階の化合物のことである。）の数、栄養補強食品含有化合物（栄養補強食品含有化合物とは、栄養補強食品に含まれるアミノ酸、ビタミン及び糖などのことである。）の数、市場撤退医薬の数（市場撤退医薬とは、何らかの安全上の理由により市場から撤退した医薬品のことである。例：Ｖｉｏｘｘ，Ｂｅｘｔｒａ）、不法医薬（不法医薬とは、多くの先進国に於いて法的に禁止されている医薬品のことである。例：コカイン、ヘロイン）の数などの薬剤及び化合物に関する情報をＤｒｕｇＢａｎｋ（Ｗｉｓｈａｒｔら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ９０１−Ｄ９０６．２００８．）、ＫＥＧＧＤＲＵＧ（Ｋａｎｅｈｉｓａら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ４８０−Ｄ４８４．２００８．）などのデータベースから抽出することができる。例えば、ＤｒｕｇＢａｎｋデータベースでは、各薬剤又は化合物は８つの薬剤タイプ（‘ｓｍａｌｌｍｏｌｅｃｕｌｅ’（低分子薬），‘ｂｉｏｔｅｃｈ’（バイオ医薬），‘ａｐｐｒｏｖｅｄ’（承認薬），‘ｅｘｐｅｒｉｍｅｎｔａｌ’（研究段階化合物），‘ｉｎｖｅｓｔｉｇａｔｉｏｎａｌ’（治験段階化合物），‘ｎｕｔｒａｃｅｕｔｉｃａｌ’（栄養補強食品含有化合物），‘ｗｉｔｈｄｒａｗｎ’（市場撤退医薬），及び‘ｉｌｌｉｃｉｔ’（不法医薬））に分類されている。例えば、「アスピリン」は‘ｓｍａｌｌｍｏｌｅｃｕｌｅ’と‘ａｐｐｒｏｖｅｄ’に分類され、「インターフェロンα−ｎ３」は、‘ｂｉｏｔｅｃｈ’，‘ａｐｐｒｏｖｅｄ’及び‘ｉｎｖｅｓｔｉｇａｔｉｏｎａｌ’に分類される。１つのＰＰＩについて、各相互作用タンパク質を標的とする薬剤及び化合物の数を、薬剤タイプごとにカウントする。薬剤の数は各相互作用タンパク質に対してカウントされるため、各ＰＰＩは２つの数を属性として持つことになる。そこで、これら２つの数のうち、例えば、大きい方を‘ｌａｒｇｅ’、小さい方を‘ｓｍａｌｌ’などの用語を使用して識別する。２つの数が同じ場合、‘ｌａｒｇｅ’及び‘ｓｍａｌｌ’に対する同じ数を使用することができる。

さらに、生物学的機能に関する属性は、例えば、以下のように選択することができる。
まず、ＨＧＭＤ（Ｓｔｅｎｓｏｎら，Ｊ．Ｍｅｄ．Ｇｅｎｅｔ．４５：１２４−１２６．２００８．）、ＯＭＩＭ（Ｈａｍｏｓｈら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３３：Ｄ５１４−Ｄ５１７．２００５．）などのデータベースに登録されたヒト疾患に関する情報から対象ＰＰＩの関連疾患の有無などの属性を選択することができる。タンパク質が遺伝的に変異して引き起こされるヒト疾患に関する情報は、タンパク質の薬剤標的性を評価するためには重要な情報の１つである。この属性は、例えば、二値情報（１又は０）として表示される。例えば、ＰＰＩの相互作用タンパク質の両方がＯＭＩＭ登録疾患（同一の疾患に限定しない）に関係している場合、ＰＰＩのスコアを１とし、一方の相互作用タンパク質のみが関係して他方は関係しない場合、又は両方の相互作用タンパク質共に関係しない場合、ＰＰＩのスコアは０として処理することができる。

ＰＰＩのネットワークに関する情報から２つの属性を選択することができる。薬剤によって疾患状態を抑制するためには、ＰＰＩネットワーク又は生物学的パスウェイにおいて中心的な機能を担うタンパク質を標的とすることが好ましい場合がある。あるいは、ネットワーク又はパスウェイの辺縁領域で機能するタンパク質が、標的としてより適切である場合もある。そこで、ＰＰＩネットワークを、例えば、ＥｎｔｒｅｚＧｅｎｅ（Ｍａｇｌｏｔｔら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３５：Ｄ２６−Ｄ３１．２００７．）、ＢＯＮＤ（ｈｔｔｐ：／／ｂｏｎｄ．ｕｎｌｅａｓｈｅｄｉｎｆｏｒｍａｔｉｃｓ．ｃｏｍ／ｉｎｄｅｘ．ｊｓｐ？ｐｇ＝０）、ＤＩＰ（Ｓａｌｗｉｎｓｋｉら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３２：Ｄ４４９−Ｄ４５１．２００４．）、ＭＩＮＴ（Ｃｈａｔｒ−ａｒｙａｍｏｎｔｒｉら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３５：Ｄ５７２−Ｄ５７４．２００７．）、ＳＴＲＩＮＧ（Ｊｅｎｓｅｎら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３７：Ｄ４１２−Ｄ４１６．２００９．）、ＨＰＲＤ（ＫｅｓｈａｖａＰｒａｓａｄら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３７：Ｄ７６７−Ｄ７７２．２００９．）、ＢｉｏＧＲＩＤ（Ｂｒｅｉｔｋｒｅｕｔｚら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ６３７−Ｄ６４０．２００８．）などのデータベース中のヒトＰＰＩデータに基づいて構築した後、全ての相互作用タンパク質の数をカウントし、その数を本発明の属性として使用してもよい。各相互作用タンパク質に対して作用を有する既存薬剤／化合物の情報の属性と同様に、相互作用タンパク質は２つの数を属性として持つ。２つの数は、例えば、大きい方を‘ｌａｒｇｅ’小さい方を‘ｓｍａｌｌ’などの用語を使用して識別する。２つの数が同じ場合、‘ｌａｒｇｅ’及び‘ｓｍａｌｌ’に対して同じ数を属性として使用することができる。

さらに、３つの属性をＫＥＧＧＰＡＴＨＷＡＹ（Ｋａｎｅｈｉｓａら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ４８０−Ｄ４８４．２００８．）、ＢｉｏＣａｒｔａ（ｈｔｔｐ：／／ｗｗｗ．ｂｉｏｃａｒｔａ．ｃｏｍ／ｇｅｎｅｓ／ｉｎｄｅｘ．ａｓｐ）、Ｒｅａｃｔｏｍｅ（Ｍａｔｔｈｅｗｓら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３７：Ｄ６１９−Ｄ６２２．２００９．）、ＰａｔｈｗａｙＩｎｔｅｒａｃｔｉｏｎＤａｔａｂａｓｅ（Ｓｃｈａｅｆｅｒら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３７：Ｄ６７４−Ｄ６７９．２００９．）などのデータベースに登録されている生物学的パスウェイに関する情報から選択することができる。任意のＰＰＩに対し、相互作用する各タンパク質のそれぞれが関与するパスウェイの数をカウントし、本発明の属性として使用することができる。１つのＰＰＩは、２つの数を属性として持ち、それらを、例えば、‘ｌａｒｇｅ’ 及び‘ｓｍａｌｌ’などの用語を用いて識別することができる。さらに、相互作用タンパク質の両方が関与するパスウェイの数をカウントする。そして、この数も属性として使用することができる。

相互作用タンパク質間の生物学的機能の一致度も本発明の属性として使用することができる。一致度を評価するにあたり、例えば、ＧＯを利用することができる。ＧＯのデータベースは、生物学的ターム（用語）を、（１）分子機能（ｍｏｌｅｃｕｌａｒｆｕｎｃｔｉｏｎ）、（２）生体内における役割（ｂｉｏｌｏｇｉｃａｌｐｒｏｃｅｓｓ）、（３）細胞内構造及び分布（ｃｅｌｌｕｌａｒｃｏｍｐｏｎｅｎｔ）の３つのカテゴリーに分けて階層的・体系的に記述している。従って、生物学に関連した多くのタームをコンピューター上で統合的に利用することが可能となる。さらに、生物学の専門家による検証及び修正が行われているため、その信頼性も高い。ＧＯデータベースとしては、例えば、ｔｈｅＧｅｎｅＯｎｔｏｌｏｇｙ（ｈｔｔｐ：／／ｗｗｗ．ｇｅｎｅｏｎｔｏｌｏｇｙ．ｏｒｇ／），ＱｕｉｃｋＧＯ（ｈｔｔｐ：／／ｗｗｗ．ｅｂｉ．ａｃ．ｕｋ／ｅｇｏ／），ＥｎｔｒｅｚＧｅｎｅなどが利用可能である。相互作用タンパク質に割り当てられたＧＯタームに基づいて、３つの属性を計算し、これらを本発明の属性として利用することができる。２つの相互作用タンパク質間のＧＯタームの一致度スコアを計算する場合、相互作用タンパク質ペアｉ間の一致度スコア（Ｓ（ｉ）_ＧＯ）は、以下の式３のように定義することができる。

ここでＬ_ｊは、ＧＯのｊ番目の階層であり（例えば、最上位階層（Ｌ_ｊ＝１）から下位の階層（Ｌ_ｊ＞１）へ、Ｌ_ｊ＝１，２，３，・・・・・，２０となる）、ｎ_ｉｊは、あるタンパク質ペアｉのｊ番目の階層において共有されている同一のＧＯタームの数である。３つのＧＯカテゴリー、すなわち、分子機能、生体内における役割、細胞内構造及び分布に対する一致度スコアを計算する。

さらに、４つの属性を同一ファミリーに属するタンパク質（パラログ）の数に基づいて選択してもよい。標的タンパク質と同一のファミリーに含まれる非標的タンパク質への薬剤の結合によって引き起こされる副作用を考慮する場合、同一ファミリーに属するタンパク質の数は、あるタンパク質を薬剤標的として選択するか否かを決定する重要な因子の１つとなり得る。標的タンパク質に多くの同一ファミリータンパク質が有るほど、そのタンパク質を標的とする薬剤はより重篤な副作用を引き起こす可能性がある。同一ファミリーに含まれるタンパク質に関する情報は、ＫＥＧＧＯＲＴＨＯＬＯＧＹ（Ｋａｎｅｈｉｓａら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ４８０−Ｄ４８４．２００８．）、ＰＩＲＳＦ（Ｗｕら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３２：Ｄ１１２−Ｄ１１４．２００４．）、Ｉｎｐａｒａｎｏｉｄ（Ｂｅｒｇｌｕｎｄら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３６：Ｄ２６３−Ｄ２６６．２００８．）などのデータベースから抽出することができる。データベース毎に、２つの相互作用タンパク質のパラログの数をカウントする。その数は、例えば、‘ｌａｒｇｅ’ 及び‘ｓｍａｌｌ’などの用語を使用して識別する。

さらに、１２の属性をＵｎｉＧｅｎｅ（Ｐｏｎｔｉｕｓら，ＴｈｅＮＣＢＩｈａｎｄｂｏｏｋ．ｐｐ．２１．１−２１．１２２００３．）、ＢｏｄｙＭａｐ−Ｘｓ（Ｏｇａｓａｗａｒａら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３４：Ｄ６２８−Ｄ６３１．２００６．）、ＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（Ｂａｒｒｅｔｔら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３５：Ｄ７６０−Ｄ７６５．２００７．）、ＡｒｒａｙＥｘｐｒｅｓｓ（Ｐａｒｋｉｎｓｏｎら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３７：Ｄ８６８−Ｄ８７２．２００９．）などのデータベースに登録された、遺伝子発現パターンに関する情報から選択してもよい。薬剤標的として選択されるタンパク質が、限られた数の組織／器官において機能する場合に、そのタンパク質をコードする遺伝子の発現パターン情報の利用はより効果的である。例えば、ＵｎｉＧｅｎｅでは、遺伝子ごとに「健康状態（腫瘍・がん組織）」、「体の部位（組織／器官）」、「発達段階（成長段階）」に基づいた３つの遺伝子発現パターンが提供される。相互作用タンパク質をコードする遺伝子について、その遺伝子を発現している「健康状態」、「体の部位」、「発達段階」を数える。ＰＰＩは、２つの数を持つことになるので、これらの数を、例えば、‘ｌａｒｇｅ’ 及び‘ｓｍａｌｌ’などの用語で識別して使用することができる。さらに、両方の遺伝子が発現している「健康状態」、「体の部位」、「発達段階」も数えて、属性として使用することができる。遺伝子発現パターンに限定されることなく、タンパク質そのものの発現パターンを利用してもよい。

さらに、２つの相互作用タンパク質をコードする遺伝子間の発現パターンの類似度を計算し、本発明において属性として考慮してもよい。具体的には、発現パターンを二値情報（発現している場合：１、発現していない場合：０）に変換し、遺伝子ペアｉ（遺伝子ａとｂから構成される）の類似度スコア（Ｓ（ｉ）_{ｅｘｐｒｅｓｓｉｏｎ}）を、Ｄｉｃｅ’ｓｃｏｅｆｆｉｃｉｅｎｔ（ｖａｎＲｉｊｓｂｅｒｇｅｎ，Ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ．１９７９．)に基づいて、以下の式４のように定義し、求めることができる。

ここでｎ_{ａ＝１，ｂ＝１}は、両遺伝子（ａ及びｂ）が発現している（ａ＝１，ｂ＝１）、健康状態、体の部位、又は発達段階の数であり、ｎ_{ａ＝１，ｂ＝０}は、一方が発現され、他方が発現されない場合、ｎ_{ａ＝０，ｂ＝１}は、その逆の場合の数である。スコアは０（非類似）から１（類似）の範囲にある。スコアは３つの発現パターン（健康状態、体の部位、発達段階）毎に計算できる。

以下に実施例を示すが、本発明はこれに限定されるものではない。

１．方法
本実施例の概念図を図３に示す。
１−１．正例
ＰＰＩが以下の基準のいずれも満たす場合に、ＳＶＭによる機械学習に用いる正例として使用した。
第１に、ＰＰＩを阻害する効果を有する低分子化合物が発見・開発されていること。
第２に、ＰＰＩ阻害低分子化合物が結合し得るポケットがすでに同定され、それがＰＰＩの境界面と重なっていること。
第３に、ＰＰＩ阻害低分子化合物の阻害活性が、標的ＰＰＩの各タンパク質を用いたインビトロ及び／又はインビボにおける実験によって実証されていること。
以上の基準を満たすＰＰＩとして、薬剤標的ＰＰＩに関するこれまでの報告（Ｔｏｏｇｏｏｄ，Ｊ．Ｍｅｄ．Ｃｈｅｍ．４５：１５４３−１５５８．２００２．；Ａｒｋｉｎ及びＷｅｌｌｓ，ＮａｔｕｒｅＲｅｖ．ＤｒｕｇＤｉｓｃｏｖ．３：３０１−３１７．２００４．；Ｐａｇｌｉａｒｏら，Ｃｕｒｒ．Ｏｐｉｎ．Ｃｈｅｍ．Ｂｉｏｌ．８：４４２−４４９．２００４；Ｌｏｒｅｇｉａｎら，Ｊ．ＣｅｌｌＰｈｙｓｉｏｌ．２０４：７５０−７６２．２００５．：Ｚｈａｏ及びＣｈｍｉｅｌｅｗｓｋｉ，Ｃｕｒｒ．Ｏｐｉｎ．Ｓｔｒｕｃｔ．Ｂｉｏｌ．１５：３１−３４．２００５．：Ｆｌｅｔｃｈｅｒ及びＨａｍｉｌｔｏｎ，Ｃｕｒｒ．Ｔｏｐ．Ｍｅｄ．Ｃｈｅｍ．７：９２２−９２７．２００７．：Ｗｅｌｌｓ及びＭｃＣｌｅｎｄｏｎ，Ｎａｔｕｒｅ４５０：１００１−１００９．２００７．）から，３０のＰＰＩを正例として選択した（表１、より詳細には表２〜表１０を参照のこと）。

この３０ＰＰＩについて、タンパク質／化合物複合体の立体構造がすでに解析されているか、又は仮想的に構築されたタンパク質／化合物複合体のモデル構造が論文中に掲載されているかどうかを調査した。タンパク質／化合物複合体の立体構造がすでに解かれている１２ＰＰＩについては、タンパク質／化合物複合体の立体構造に基づいて化合物結合ポケットを検出した。タンパク質／化合物複合体の立体構造がまだ解かれていない１８ＰＰＩの場合には、タンパク質／タンパク質複合体の立体構造に基づいて、化合物結合ポケットを検出した。この場合、ＢＬＡＳＴＰプログラム（Ａｌｔｓｃｈｕｌら，ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２５：３３８９−３４０２．１９９７．）によるアミノ酸配列類似性検索をＰＤＢに対して行い、ＰＰＩが複数のＰＤＢエントリーに対してアミノ酸配列類似性を有している場合、全てのＰＤＢエントリーを考慮した。その結果、ポケットを検出するために使用したＰＤＢエントリーの数は、４１エントリーであった。１つのＰＰＩが複数のＰＤＢエントリーに類似性を示した場合、全てのＰＤＢエントリーを考慮し、最終的に９８のデータ例を正例として使用した。ポケット検出はＭＯＥＡＳＦにより行った。検出されたポケットが、原論文中のタンパク質／化合物複合体のモデル構造に記載されるものと同等かどうか、目視によりチェックした。化合物結合ポケットが、２つの別個なポケットとして、各々重なり合わないものとして同定された場合、両ポケットは別々のものとして解析を行った。検出したポケットに関し、立体構造の各属性を計算した。各相互作用タンパク質に対して作用を有する既存薬剤／化合物、並びに、各相互作用タンパク質の生物学的機能に関する属性は前述のように計算した。

１−２．テスト例
ＳＶＭによる機械学習に用いるテストデータと、そこから作成されるテスト例（予測対象例）を以下のようにして準備した。２８，０７７のヒトＰＰＩをＥｎｔｒｅｚＧｅｎｅデータベースから抽出した。本発明の方法では、タンパク質／タンパク質複合体の物理化学的／立体構造的特性を考慮するため、テストデータは、タンパク質／タンパク質複合体の立体構造がすでに解析されているヒトＰＰＩを使用した。タンパク質／タンパク質複合体の立体構造が解かれているＰＰＩを抽出するため、ＰＤＢに対して、ＢＬＡＳＴＰプログラムによってアミノ酸配列の類似性検索を行った。ＰＰＩのそれぞれの相互作用タンパク質が、同一のＰＤＢエントリー中の異なるポリペプチド鎖に対し、８０％以上のアミノ酸配列類似性を示し、２つのポリペプチド鎖がタンパク質／タンパク質複合体の立体構造中で互いに物理的に接触している場合、そのＰＰＩを本実施例のテストデータとして使用した。正例として使用されるＰＰＩを除き、ＰＤＢ中に類似の立体構造が存在するのは、１，２９５ＰＰＩであった。これらを本実施例においてテストデータとした。１，２９５ＰＰＩとアミノ酸配列の類似性を示すＰＤＢエントリーの総数は、６，６５６である。ＰＰＩが複数の立体構造に対してアミノ酸配列類似性を有している場合、全ての立体構造を考慮した。その結果、１０，９１５データ例をテスト例（例えば、表１１〜表１９を参照のこと）として使用した。

１−３．ＰＰＩの属性
本発明で使用されるＰＰＩの６９属性は、ＰＰＩの立体構造情報、各相互作用タンパク質に作用を有する既存薬剤／化合物情報、及び各相互作用タンパク質の生物的機能情報から選択される（表２０）。
従来の機械学習法による新規標的タンパク質の予測研究で利用されたタンパク質の特性は、タンパク質の物理化学的／構造的特性、又は機能的／薬剤関連特性のカテゴリーのいずれかに偏っていたが、これら従来の研究結果から、いずれのカテゴリーに属する特性も、標的タンパク質の薬剤標的性評価において欠くことの出来ない情報を含んでいることが強く示唆されている。従って、ＰＰＩの薬剤標的としての可能性をＳＶＭによって評価するにあたり、物理化学的／構造的特性及び機能的／薬剤関連特性の両方をＰＰＩの属性として利用した。

立体構造情報について、２８の属性を選択した。これらの属性はＰＰＩの境界面上に検出されるポケットの物理化学的特徴に関連している。これらの特徴は、ポケットの体積、ポケットのＡＳＡ、タンパク質・ポリペプチド鎖全体のＡＳＡに対するポケットのＡＳＡの比、ポケットのコンパクト性、ポケットの平面性、ポケットの平面性の計算に使用する原子間距離ｄ_１＋ｄ_２、ポケットの細長さ、ポケットの細長さの計算に使用する原子間距離ｄ_４＋ｄ_５、及びタンパク質・ポリペプチド鎖表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度の比（２０のアミノ酸について計算）である。ＰＰＩ境界面上に位置するポケットは、ＭＯＥＡＳＦによって検出した。ポケットの検出は、タンパク質／化合物又はタンパク質／タンパク質複合体を構成する全てのタンパク質・ポリペプチド鎖について行い、ポケットがタンパク質・ポリペプチド鎖上に見出されなかった場合には、そのタンパク質・ポリペプチド鎖は解析対象から除外した。正例については、ＰＰＩ阻害化合物が結合しているポケットを立体構造情報の属性の対象とし、テスト例については、ＰＰＩの境界面とのオーバーラップが最も大きいポケットを立体構造情報の属性の対象とした。
また、ＰＰＩを構成する相互作用タンパク質に対して作用を有する既存薬剤／化合物情報について、ＤｒｕｇＢａｎｋに基づいて１６の属性を選択した。これらの属性は、低分子薬の数、バイオ医薬品の数、ＦＤＡ承認薬の数パターンリーに含まれるタンパク質くしつ用タンパク質の数（属、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、市場撤退医薬品の数、及び不法医薬品の数である。それぞれの属性について、１つのＰＰＩについて、これを構成する２つのタンパク質に対応する数があるため、その大きいほうを‘ｌａｒｇｅ’、小さいほうを‘ｓｍａｌｌ’と定義して使用した。２つのタンパク質に対応する数が同一の場合には、‘ｌａｒｇｅ’と‘ｓｍａｌｌ’に対して同じ数を使用した。
生物学的機能情報からは、２５の属性を使用した。属性の１つは、ＯＭＩＭ中の疾患情報（関連疾患の有無）に関連する。他の属性は、ヒトＰＰＩネットワーク中の相互作用タンパク質の数（２つの相互作用タンパク質に対応して、‘ｌａｒｇｅ’と‘ｓｍａｌｌ’を使用）、ＫＥＧＧＰＡＴＨＷＡＹに基づく生物学的パスウェイの数（２つの相互作用タンパク質に対応した‘ｌａｒｇｅ’と‘ｓｍａｌｌ’と、２つのタンパク質が同時に含まれるパスウェイの数を使用）、ＧＯタームの一致度スコア（３つのＧＯカテゴリーごとに計算）、ＫＥＧＧＯＲＴＨＯＬＯＧＹ及びＰＩＲＳＦに基づいた同一ファミリーに属するタンパク質（パラログ）の数（ＫＥＧＧＯＲＴＨＯＬＯＧＹとＰＩＲＳＦのそれぞれに対して、２つの相互作用タンパク質に対応した‘ｌａｒｇｅ’と‘ｓｍａｌｌ’を使用）、ＵｎｉＧｅｎｅ中の遺伝子発現パターンに基づいて計数される、各遺伝子を発現している健康状態、体の部位、及び発達段階の数（相互作用タンパク質をコードする２つの遺伝子に対応して、‘ｌａｒｇｅ’と‘ｓｍａｌｌ’を使用。加えて、２つの遺伝子が同時に発現している場合の数も使用）、及び遺伝子発現パターンの類似性スコア（ＵｎｉＧｅｎｅの３つの遺伝子発現パターンごとに計算）である。

１−４．交差検定
正例とテスト例に対し、立体構造、薬剤／化合物、及び生物学的機能に関する各情報について６９の属性を計算し、ＳＶＭ法における特徴ベクトルとして使用した（表２０）。ＳＶＭによる機械学習にはＬｉｂｓｖｍ（バージョン２．８６）（ｈｔｔｐ：／／ｗｗｗ．ｃｓｉｅ．ｎｔｕ．ｅｄｕ．ｔｗ／〜ｃｊｌｉｎ／ｌｉｂｓｖｍ／）プログラムパッケージを使用した。ＰＰＩの薬剤標的性を評価する上で最適のＳＶＭモデルを、１０倍交差検定（データの９０％を学習に使用し、残りをテストに使用）を用いて検討した。交差検定には、３つのタイプの学習データ（正例：負例＝１：１、１：２、１：３）を使用し、Ｌｉｂｓｖｍに実装されている４つのカーネル関数（線形、多項式、ＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ（以下、ＲＢＦ）、シグモイド）を用いて行った。
１０，０００のランダム学習データセット（ランダムに選択した正例と負例によって構成される）を作成し、この学習データセットに対して交差検定を行った。学習データセットの作成に際しては、正例中の類似例の重複に起因する過剰学習を回避するために、学習データ中の３０の正例は、以下のルールに従い、９８の正例からランダムに選択した。ＣＤ４／ＨＬＡ−ＤＱＢ１及びＨＯＸＢ１／ＰＢＸ１などのように、ＰＰＩが１例のみを有する場合、この１例は学習データを作成するために常に選択される。一方、複数の類似立体構造の存在によって、ＰＰＩが複数例を有する場合（ＢＣＬ２／ＢＡＫ１，ＥＳＲ１／ＮＣＯＡ２，及びＦＫＢＰ１Ａ／ＴＧＦＢＲ１など）、類似例の重複を避けるため、複数例から１例のみをランダムに選択した。負例については、学習データにおける正例と負例の比に応じて、３０（１：１の場合），６０（１：２の場合）又は９０例（１：３の場合）を１０，９１５のテスト例からランダムに選択し、これを仮想的に交差検定における負例として使用した。各ランダム学習データに対し、カーネル関数中の最適なパラメータをＬｉｂｓｖｍパッケージ中のパラメータ選択プログラムによって評価し、その後、交差検定を行った。交差検定の結果に基づき、正確性、感度、及び特異性を計算した。これらは、
正確性＝（ＴＰ＋ＴＮ）／（ＴＰ＋ＴＮ＋ＦＰ＋ＦＮ），
感度＝ＴＰ／（ＴＰ＋ＦＮ），
特異性＝ＴＮ／（ＴＮ＋ＦＰ），
で定義され、ここで、ＴＰ，ＴＮ，ＦＰ及びＦＮは、各々、真陽性、真陰性、偽陽性、偽陰性の数を表す。１０，０００の学習データセットを用いて、１０，０００回の交差検定を行い、感度、特異性及び正確性の平均値を計算した。

２．結果
２−１．最適なＳＶＭモデルの選択
４つのカーネル関数によって構築された各ＳＶＭモデルのうち、ＲＢＦカーネルによるモデルは、４つのカーネル関数の中で最も高い正確性と特異性を示した（表２１）。線形、又は多項式のカーネルは、ＲＢＦカーネルより若干低い正確性を示し、シグモイドカーネルによる正確性が、最も低かった。感度については、正例：負例＝１：１の学習データの場合には、ＲＢＦカーネルによって構築されたＳＶＭモデルにおいて、正例：負例＝１：２及び１：３の学習データの場合には、線形カーネルによって構築されたＳＶＭモデルにおいて、最も高い値が得られた。全体として、ＲＢＦカーネルによるモデルが、正確性、感度、及び特異性について、比較的高い値を示し、本実施例においては、正例及び負例を区別するのにより適しているようであった。正例：負例＝１：１の学習データを使用したＳＶＭモデルによるＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ（以下、ＲＯＣ）曲線は、この結果を支持している（図４）。すなわち、ＲＢＦカーネルによるＳＶＭモデルのＲＯＣ曲線が最も広いＡｒｅａＵｎｄｅｒＣｕｒｖｅ（以下、ＡＵＣ）の値を持ち、多項式と線形がこれに次ぐことを示している。
表２１はまた、学習データ中により多くの負例が含まれる程、交差検定において、より高い正確性が得られることを示している。しかしながら、感度と特異性は、正例：負例＝１：２及び１：３の学習データにおいて不均衡な結果（感度と特異性が大きくかけ離れた値をとっている）を示した。特異性は、全てのカーネルにおいて徐々に増加するのに対し、感度は、劇的に減少している。このことは、ＳＶＭモデルがより多くの負例によって学習された場合、元々の負例を「負」であると判断する性能は高くなる一方、元々の正例を「正」であると判断する性能が、顕著に減少することを示唆している。本実施例においては、正例：負例＝１：１の学習データを使用するＲＢＦカーネルによって構築されたＳＶＭモデルの感度と特異性は、均衡関係にあることから、このモデルをＰＰＩの薬剤標的性の評価に対してより適したＳＶＭモデルと判断した。

本実施例における最適のＳＶＭモデルは、すでに既知の薬剤標的ＰＰＩ（正例）とその他のＰＰＩ（負例）を８１％の正確性で区別することができる（表２１）。この値は、単一の薬剤標的タンパク質の予測に関する従来の研究において得られた正確性の値（７５〜８５％）と同等である（非特許文献１〜５）。この結果は、対象となるＰＰＩに関する立体構造情報、薬剤／化合物情報、生物学的機能情報に関する種々の情報源からＰＰＩの属性を取得し利用する、本発明における手法が、従来の薬剤標的タンパク質の予測手法と同等もしくはそれ以上の正確性をもって、薬剤標的ＰＰＩを予測することが可能であることを示唆している。

２−２．新規の薬剤標的ＰＰＩの予測
１０，０００のランダムな学習データセットを使用し、上述の最適ＳＶＭモデルを適用して新規な薬剤標的ＰＰＩを予測した。ＳＶＭモデルを、各ランダム学習データによって構築し、正例及びテスト例に適用した。この工程を、１０，０００回繰り返し行った。１０，０００回の学習−予測の繰り返しにおいて、各例をＳＶＭモデルによって「正」であると判断した回数をカウントした。この回数が１０，０００に近いほど、その例が正例に類似していることを表している。
ＳＶＭモデルによって「正」であると判断された回数の度数分布によれば、正例及びテスト例は、本ＳＶＭモデルによって有効に分離されることが示された（図５）。１０，９１５テスト例中、６９例（４２ＰＰＩ）が、９，０００回以上「正」であると判断された（表２２及び表２３（左：正例、右：テスト例））。９，０００という閾値は、正例の度数分布の平均に基づいて設定した。

潜在的に薬剤標的性があると判断されたＰＰＩは、生物学的機能及び細胞内局在の点において、広範囲に及び、例えば、膜受容体／シグナル伝達タンパク質（ＣＤ２４７／ＳＨＣ１）、カルモジュリン／イオンチャンネル（ＣＡＬＭ１／ＫＣＮＮ２及びＣＡＬＭ１／ＲＹＲ１）（以上、細胞膜上及び細胞膜近傍で機能）、ＧＴＰアーゼ／その調節因子（ＡＲＨＧＤＩＡ／ＣＤＣ４２、ＨＲＡＳ／ＲＡＬＧＤＳなど）、リン酸化酵素／その調節因子（ＧＳＫ３Ｂ／ＡＸＩＮ１）（以上、細胞質内で機能）、ヒストンアセチル基転移酵素／転写因子（ＣＲＥＢＢＰ／ＨＩＦ１Ａ、ＣＲＥＢＢＰ／ＩＲＦ３，ＥＰ３００／ＨＩＦ１Ａなど）及び転写因子間のＰＰＩ（ＭＡＸ／ＭＹＣ，Ｓ１００Ｂ／ＴＰ５３，ＴＰ５３／ＴＰ５３ＢＰ１など）（以上、細胞核内で機能）などである（表２２）。ここに示したＰＰＩのうち、約半分は正例に含まれるタンパク質とその他のタンパク質との相互作用であるが、残りの半分は正例に含まれていないタンパク質同士の相互作用である。従って、本実施例で示したＳＶＭモデルは、正例による過剰学習を受けておらず、新規の薬剤標的を予測するのに適していると考えられる。興味深いことに、このＳＶＭモデルは、ＭＹＣ／ＭＡＸ及びＥＰ３００／ＨＩＦ１Ａなどの、阻害低分子化合物が既に見出されているＰＰＩを薬剤標的ＰＰＩとして予測することに成功している（本実施例においては、これらのＰＰＩはタンパク質／化合物複合体の立体構造及びモデル構造が解かれていないために、正例には加えていない）。この結果は、我々のアプローチが薬剤標的ＰＰＩの予測において非常に効果的であることを強く示唆するものである。

本発明によれば、薬剤標的の候補となり得るＰＰＩを、膨大なＰＰＩデータから、容易かつ迅速に選択することが可能となるため、創薬研究における新規なリード化合物の探索及び新薬の開発の促進に多大なる効果をもたらすものである。

Claims

以下の（ａ）〜（ｃ）に示す属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的となるタンパク質−タンパク質相互作用を予測する数学モデルを構築する方法。
（ａ）タンパク質−タンパク質相互作用の立体構造の属性、
（ｂ）該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、
（ｃ）該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性
前記正例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用の前記（ａ）〜（ｃ）に示す属性を有するデータセットであり、前記負例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用以外のタンパク質−タンパク質相互作用に関する前記（ａ）〜（ｃ）の属性を有するデータセットであることを特徴とする請求項１に記載の方法。
前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積（ＡＳＡ）、コンパクト性（ｃｏｍｐａｃｔｎｅｓｓ）、平面性（ｐｌａｎａｒｉｔｙ）、細長さ（ｎａｒｒｏｗｎｅｓｓ）、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される１又は複数であることを特徴とする請求項１又は２に記載の方法。
前記薬剤／化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、米国食品医薬品局（ＦｏｏｄａｎｄＤｒｕｇＡｄｍｉｎｉｓｔｒａｔｉｏｎ：ＦＤＡ）承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される１又は複数であることを特徴とする請求項１又は２に記載の方法。
前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態（腫瘍・がん組織）の数と体の部位（組織／器官）の数及び発達段階（成長段階）の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される１又は複数であることを特徴とする請求項１又は２に記載の方法。
請求項１乃至５のいずれかの方法により作成された薬剤標的候補となるタンパク質−タンパク質相互作用のモデルを使用して、薬剤標的タンパク質−タンパク質相互作用を予測する方法。
タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、並びに、該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的タンパク質−タンパク質相互作用とそれ以外のタンパク質−タンパク質相互作用を判別する数学モデルを、予測対象のタンパク質−タンパク質相互作用へ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補タンパク質−タンパク質相互作用の予測システム。
前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積（ＡＳＡ）、コンパクト性（ｃｏｍｐａｃｔｎｅｓｓ）、平面性（ｐｌａｎａｒｉｔｙ）、細長さ（ｎａｒｒｏｗｎｅｓｓ）、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される１又は複数であることを特徴とする請求項７に記載の予測システム。
前記薬剤／化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、ＦＤＡ承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される１又は複数であることを特徴とする請求項７に記載の予測システム。
前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態（腫瘍・がん組織）の数と体の部位（組織／器官）の数及び発達段階（成長段階）の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される１又は複数であることを特徴とする請求項７に記載の予測システム。