JP5946045B2

JP5946045B2 - 化合物設計装置、化合物設計方法、及びコンピュータプログラム

Info

Publication number: JP5946045B2
Application number: JP2014532989A
Authority: JP
Inventors: 恭史奥野; 千里金井; 達也吉川; 啓子多門
Original assignee: KYOTO CONSTELLA TECHNOLOGIES CO., LTD.; Kyoto University
Current assignee: KYOTO CONSTELLA TECHNOLOGIES CO., LTD.; Kyoto University
Priority date: 2012-08-27
Filing date: 2013-08-24
Publication date: 2016-07-05
Anticipated expiration: 2033-08-24
Also published as: JPWO2014034577A1; EP2889791A1; EP2889791A4; US20150310162A1; WO2014034577A1

Description

本発明は、タンパク質と相互作用する化合物を設計する化合物設計装置、コンピュータを用いてタンパク質と相互作用する化合物を設計する化合物設計方法、及び、タンパク質と相互作用する化合物をコンピュータに設計させるコンピュータプログラムに関する。

創薬のターゲットとなるタンパク質に対して、化合物との相互作用を予測する手法として、例えば、NMRやX線結晶構造解析等で実験的に得られたタンパク質の立体構造情報を用いて、化合物との結合部位を化合物とのドッキングにより評価する手法が挙げられる（例えば、特許文献１〜３参照）。また、コンピュータを用いて、新規構造を有する化合物を設計する手法の一つとして、de novoデザインが挙げられる。最適化手法に粒子群最適化手法を用いたde novoデザインとしては、例えば、非特許文献１に記載の技術が知られている。

また、近年、サポートベクターマシン等のパターン認識技術を利用し、タンパク質のアミノ酸配列情報や、化合物の各種記述子等から、タンパク質と化合物との相互作用を予測する技術が開発されている（特許文献４及び特許文献５参照）。

特開２００９−００７３０２号公報特開２００８−２１７５９４号公報特開２００８−０８１４３５号公報国際公開第２００７／１３９０３７号パンフレット国際公開第２００８／０５３９２４号パンフレット

Hartenfeller, M., Schneider G. et al.,"Concept of combinatorial denovo design of drug-like molecules by particle swarm optimization.", Chemicalbiology & drug design 72, 16-26 (2008).

従来のドッキングによる相互作用の予測では、既存の化合物の相互作用予測であり、新たな化合物デザインはできない。また、予測には、タンパク質の立体構造情報が必要であり、タンパク質の立体構造情報を得るには膨大な費用や時間がかかる。また、計算に膨大な時間を要することや、予測精度が低いという問題もあった。

また、非特許文献１等の従来法においては、リガンドの構造類似性に基づいたde novoデザインを行なっているが、デザインした化合物を実際に合成し、アッセイを行って、計算による予測結果を実験的に検証していないため、精度に関する信頼性において問題があった。

発明者らは、特許文献４に記載の、自らが開発した相互作用を予測するパターン認識技術を利用して、上述の課題が解決されることを見出した。

すなわち、本発明の化合物設計装置は、少なくとも、１又は複数の問い合わせタンパク質について、該タンパク質に対応するタンパク質情報が入力される入力手段と、
（ａ）１又は複数の化合物情報を生成するステップと、
（ｂ）化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップと、
（ｃ）最適化手法により、ステップ（ｂ）で算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報を更新するステップと、
（ｄ）ステップ（ｂ）とステップ（ｃ）とを複数回繰り返すステップと、
を実行する処理手段と、を備え、さらに、ステップ（ｂ）で算出されるスコアは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものである。

さらに、本発明の別の化合物設計装置においては、機械学習はサポートベクターマシンであり、第１の組み合わせに加えて第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとし、第１の組み合わせと第２の組み合わせとを分離する分離面が求められ、さらに、スコアは、スコア算出の対象となる化合物情報とスコア算出の対象となるタンパク質情報との組み合わせの、分離面からの距離を表したものである。

さらに、本発明の別の化合物設計装置においては、最適化手法として、群知能最適化手法、進化的計算手法、及び粒子群最適化手法からなる群より選択される一又は複数が採用される。

さらに、本発明の別の化合物設計装置においては、処理手段が、ステップ（ｃ）に続いて、
（ｃ１）ステップ（ｃ）において更新された化合物情報に近似する化合物情報の中から、化合物に対応する化合物情報を選択し、該化合物情報を、更新された化合物情報とするステップ、を実行する。

さらに、本発明の別の化合物設計装置は記憶手段を備え、該記憶手段は、更新された化合物情報を履歴として記憶し、処理手段が、ステップ（ｃ１）に続いて、
（ｃ２）記憶手段に記憶された履歴を参照し、選択された化合物情報が、履歴に含まれる化合物情報と同一であるかどうかを判断するステップと、
（ｃ３）ステップ（ｃ２）において、同一であると判断された場合に、別の化合物情報を選択して再度ステップ（ｃ２）を実行し、ステップ（ｃ２）において同一でないと判断された場合に、該化合物情報を更新された化合物情報とするステップと、
を実行する。

さらに、本発明の別の化合物設計装置においては、化合物情報が、化合物の化学構造を所定のルールに基づいて切断して生成されるフラグメントに対応するフラグメント情報から構成される。また、所定のルールとは、同一の化合物の化学構造に複数の切断位置が存在する場合に、複数の切断位置の取りうる全ての組み合わせによりフラグメントが生成されるというルールであることが好ましい。

さらに、本発明の別の化合物設計装置においては、化合物情報が、複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表される。

さらに、本発明の別の化合物設計装置においては、最適化手法が、粒子群最適化手法であり、設計される化合物のフラグメントの構成単位数が設定され、化合物情報を表す粒子の位置Xが以下のように表される。ただし、mはフラグメントの最大要素数、nは構成単位数である。

さらに、粒子の速度Vが、以下のように表される。ただし、mはフラグメントの最大要素数、nは構成単位数である。

別の本発明の化合物設計装置では、ステップ（ｂ）で算出されるスコアが、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコアと、活性値予測から得られたスコア、選択性予測から得られたスコア、ドッキング計算から得られたスコア、合成可能性予測から得られたスコア、ADME-Tox予測から得られたスコア、物性予測から得られたスコア、及び分子動力学法から得られた結合自由エネルギー予測から得られたスコアから選択される１又は複数とを組み合わせたものである。化合物の化学的特性を考慮することで、活性値の高い化合物や、受容体に対する選択性が高い化合物、標的タンパク質の活性ポケットに高い確率で結合する化合物、有機合成の可能性が高い化合物、薬物動態/毒性を考慮した化合物、動的な構造変化をともなうタンパク質に対してエネルギー的に安定な化合物など、目的に応じた化合物の設計が可能となる。

また、本発明のコンピュータを用いた化合物設計方法は、
（ア）コンピュータの備える入力手段に、少なくとも、１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報が入力されるステップと、
（イ）コンピュータの備える処理手段において、１又は複数の化合物情報が生成されるステップと、
（ウ）コンピュータの備える処理手段において、化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアが算出されるステップと、
（エ）コンピュータの備える処理手段において、最適化手法により、スコア算出ステップ（ウ）で算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報を更新するステップと、
を含み、ステップ（ウ）とステップ（エ）とを複数回繰返し、さらに、ステップ（ウ）で算出されるスコアは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものである。

また、本発明の別の化合物設計方法においては、機械学習はサポートベクターマシンであり、第１の組み合わせに加えて第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとし、第１の組み合わせと第２の組み合わせとを分離する分離面が求められ、さらに、スコアは、スコア算出の対象となる化合物情報とスコア算出の対象となるタンパク質情報との組み合わせの、分離面からの距離を表したものである。

また、本発明のコンピュータに化合物を設計させるコンピュータプログラムは、コンピュータに、
（i）１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報の入力を受け付けるステップと、
（ii）１又は複数の化合物情報を生成するステップと、
（iii）化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップと、
（iv）最適化手法により、ステップ（iii）で算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報を更新するステップと、
（v）ステップ（iii）とステップ（iv）とを複数回繰り返すステップと、
を実行させ、さらに、ステップ（iii）で算出されるスコアは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものである。

また、本発明の別の化合物設計プログラムにおいては、機械学習はサポートベクターマシンであり、第１の組み合わせに加えて第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとし、第１の組み合わせと第２の組み合わせとを分離する分離面が求められ、さらに、スコアは、スコア算出の対象となる化合物情報とスコア算出の対象となるタンパク質情報との組み合わせの、分離面からの距離を表したものである。

本発明によれば、タンパク質の立体構造情報は必要とせず、タンパク質名やアミノ酸配列等の情報及び、断片化された化合物、すなわちフラグメントの構造情報等、簡易に得ることのできる情報を基に、新たな化合物の構造を得ることができる。また、計算は短時間で可能であり、その結果得られた化合物は、高い確率で標的となるタンパク質と相互作用することが実施例に記載の検証実験から明らかとなった。

本発明におけるフレーム、ユニット、及びフラグメントの構成を示した図である。本発明の化合物設計装置、及びその化合物設計のフローチャートを示した図である。本発明の化合物設計装置、及びその化合物設計のフローチャートを示した図である。本発明の化合物設計装置、及びその化合物設計のフローチャートを示した図である。本発明による化合物設計の結果を示した図である。本発明による化合物設計の結果を示した図である。実施例３におけるQSARモデルにより得られた活性の予測値と実測値のプロット図である。本発明による化合物設計の結果を示した図である。

本発明は、化合物設計装置、コンピュータを用いた化合物設計方法、及びコンピュータに化合物を設計させるコンピュータプグラムである。本発明のコンピュータプグラムをコンピュータが実行することで、該コンピュータは化合物設計装置として機能し、本発明の化合物設計方法により化合物を設計することができる。

以下、本発明の化合物設計装置について、発明を実施するための形態に基づいて詳細に説明する。本発明の化合物設計装置は、少なくとも入力手段と処理手段とを備える。さらに、記憶手段、出力手段等を備えていてもよい。

１．入力手段
入力手段では、１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報が入力され、本発明の化合物設計装置がこれらの情報を受け付ける。

すなわち、ターゲットとするタンパク質を問い合わせタンパク質として、該タンパク質に対応するタンパク質情報が入力手段から入力されることで、該タンパク質に相互作用する化合物が設計される。また、化合物の設計は記憶手段に記憶された化合物情報を、最適化手法により更新することにより行われる。化合物情報から、最適化手法により更新されて得られた化合物情報に対応する化合物が、問い合わせタンパク質と相互作用する可能性の高い化合物であると推定される。

タンパク質情報とは、タンパク質の特徴を表す情報であり、具体的には、タンパク質名、アミノ酸配列、立体構造等が挙げられる。タンパク質情報はタンパク質記述子として表現される。また、タンパク質情報は多次元の特徴ベクトルとしてベクトル化され、２以上のタンパク質の相対的な違いは、ベクトル間の距離等の類似性指標として表される。タンパク質情報としてはアミノ酸配列を用いることが好ましい。例えば、既知のスペクトラム法に従って、アミノ酸配列を固定長ｋのアミノ酸配列に分解し、最大m個のミスマッチまで許容した長さｋのアミノ酸配列パターンの頻度の数等を記述子として用いることができる。

入力手段から入力されるタンパク質情報は簡易な情報であることが好ましく、かかる場合には、タンパク質記述子への変換は処理手段がステップの一つとして実行することができる。具体的には、入力手段から問い合わせタンパク質に対応するタンパク質名又はアミノ酸配列が入力され、処理手段が、問い合わせタンパク質に対応するタンパク質名又はアミノ酸配列から、タンパク質記述子を生成する。

また、入力手段では、１又は複数の化合物からなる化合物情報が入力され、本発明の化合物設計装置がこれらの情報を受け付けてもよい。問い合わせタンパク質に相互作用すると予想される化合物の母核構造が予め知られている場合には、該構造に関する情報を問い合わせ化合物情報として入力することで、予測の精度を向上させることができるためである。また、物質的に新規な母核構造が予め知られている場合には、該構造に関する情報を問い合わせ化合物情報として入力することで、新規性な化合物を設計することができる。化合物情報については後述する。

２．処理手段
処理手段は、１又は複数の化合物情報を生成するステップ（ａ）と、化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップ（ｂ）と、最適化手法により、ステップ（ｂ）で算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報を更新するステップ（ｃ）と、ステップ（ｂ）とステップ（ｃ）とを複数回繰り返すステップ（ｄ）と、を実行する。

ステップ（ａ）では、少なくとも、１又は複数の化合物情報を生成する。同時に、入力手段から入力された問い合わせタンパク質に対応するタンパク質情報に基づいた別のタンパク質情報を生成してもよい。また、入力手段から化合物情報が入力された場合には、該化合物情報に基づいた別の化合物情報を生成してもよい。

ここで、化合物情報とは、化合物の特徴を表す情報であり、具体的には、化合物名、化学構造、やその物性等を表したものである。化合物情報は化合物記述子又は化学記述子として表現される。また、化合物情報は多次元の特徴ベクトル化され、２以上の化合物の相対的な違いはベクトル間の距離等の類似性指標として表される。

ここで、化合物情報は、化合物の化学構造を断片化して得られるフラグメントに関する情報から構成される。化合物のフラグメントは、既知の化合物の化学構造を、Retrosynthetic Combinatorial Analysis Procedure（RECAP）ルール等の既知の手法により得られたものでもよく、独自のルールに基づいたフラグメント化により得られたものでもよく、ランダムなフラグメント化により得られたものでも構わない。RECAPルールは、化合物の化学構造上に化学反応に基づいた切断位置を設定する手法である。該手法により得られたフラグメント情報を用いた場合には、化学合成が不可能な化合物が設計されにくくなるという利点がある。

また、同一の化合物の化学構造上に複数の切断位置が存在する場合には、既知の手法では、全ての切断位置で断片化したフラグメントのフラグメント情報を用いていた。しかしながら、得られるフラグメントの種類が多い方が、本発明における化合物設計では好ましいことが本発明者らにより見出された。そこで、本発明者らは、同一の化合物の化学構造上に複数の切断位置が存在する場合に、複数の切断位置の取りうる全ての組み合わせによりフラグメントを生成することで、フラグメントの種類を増やすことを見出した。

具体的には、RECAPルール等の、化合物の化学構造上に化学反応に基づいた切断位置を設定する手法と、該手法において同一の化合物の化学構造上に複数の切断位置が存在する場合に、複数の切断位置の取りうる全ての組み合わせによりフラグメントを生成する手法を組み合わせることが好ましい。該手法により得られたフラグメント情報を用いた場合には、合成が困難でなく、且つ多様な化合物を設計することができる。

また、化合物のフラグメントは、母核フラグメント（母体フラグメントと呼称される場合もある。）と、置換基フラグメントとに分類される。母核フラグメントと置換基フラグメントは、任意のルールに基づいて連結することができる。例えば、各フラグメントに、化学的に妥当な結合手数と結合パターンを設定し、その結合手数と結合パターンに合わせてフラグメント同士を連結すればよい。

さらに、図１を参照して、構成単位すなわちユニットと、構成単位の組み合わせであるフレームについて詳細に説明する。化合物の設計は、フラグメントを構成単位（以下、ユニットと呼称される場合もある。）として組み合わせたフレームとして表現される。フレームは、１又は複数のユニットから構成され、フラグメントは結合手数が一致するユニットに割り当てられる。フレームを構成するユニット数及び、ユニットのトポロジーは自由に設定することができる。

ユニット数によって、設定されうるトポロジーが決定される。例えば、ユニット数が２個の場合、又は３個の場合は、それぞれの設定されるトポロジーは１個であるが、ユニット数が４個の場合には、設定されうるトポロジーは２個となる。本発明の化合物設計装置では、設計される化合物のユニット数が設定されることで、該ユニット数により設計されうるトポロジーに基づくフレームにおいて、各ユニットに相当するフラグメントが更新される。

問い合わせタンパク質と相互作用する化合物の中心骨格が既知である場合には、化合物情報を、該中心骨格を有する化合物に限定し、置換基フラグメントのみを更新することで、化合物設計の精度を高めることができる。また、物質的に新規な母核構造が予め知られている場合には、置換基フラグメントのみを更新することで、新規性な化合物を設計することができる。

化合物情報は、例えば、連続型や離散型等の数値表現で表すことができる。連続型とは、連続型ベクトル表現とも呼称され、複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表すことができる。離散型とは、離散型行列表現とも呼称され、フラグメントの利用頻度に応じたスコアを用いた行列として表現される。

連続型ベクトル表現では、化合物情報を複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表すことができる。かかる場合には、化合物情報を表すベクトルの次元が少なくなるため、好ましい。

具体的には、フラグメントの化合物記述子を計算し、計算したフラグメントの化合物記述子群について主成分分析を行い、得られた主成分のうち、寄与率の高い順に数個の主成分を抜き出しフラグメントを表すベクトルxとし、これらのベクトルの直和が、化合物情報を示すベクトルとなる。ここで、抜き出される主成分の数は、計算効率を考慮すると３個〜１０個が好ましい。フラグメントの記述子の主成分分析を行い、結果として得られた主成分のうち、寄与率の高いものを複数抜き出した場合、化合物情報ベクトルXは以下のように生成される。ここで、nはフレームにおける構成単位、すなわちユニットを表す。

また、前述の連続型ベクトル表現では、化合物情報を表すベクトルが空間内に離散的に存在するため、更新された化合物情報が、現実の化合物に対応していない特徴がある。そこで、離散型表現として、化合物情報をフラグメントに直接対応付けた行列で表すこともできる。

かかる場合には、化合物設計に用いるフラグメント数がm、構成単位数がnであった場合に、化合物情報を表す粒子の位置Xは、以下の数式で表される。

行例Xの各要素は、フラグメントの選択状態を示し、0が非選択、1が選択とする。各構成単位には1個のフラグメントが選択されるので、行列Xの列ベクトルは単位ベクトルとなるため、以下の数式で表される。

また、入力手段から入力された問い合わせタンパク質に対応するタンパク質情報は、別の形式のタンパク質情報に変換されることもある。具体的には、入力手段から問い合わせタンパク質に対応するタンパク質名が入力され、処理手段が、問い合わせタンパク質に対応するタンパク質名からアミノ酸配列情報を生成しさらに、そのアミノ酸配列情報を基にしてタンパク質記述子を生成する。

さらに、処理手段は、化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップ（ｂ）を実行する。

ここで、ステップ（ｂ）で算出される相互作用の可能性を示すスコアとは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものである。第１の組み合わせを教師データとした機械学習としては、例えば、サポートベクター回帰（Support Vector Regression、SVR）、Partial Least Squares（PLS）回帰等を用いることができる。

さらに、ステップ（ｂ）で算出される相互作用の可能性を示すスコアは、第１の組み合わせに加えて、第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとした機械学習により得られたものであってもよい。第１の組み合わせ、及び第２の組み合わせを教師データとした機械学習としては、例えば、サポートベクターマシン（Support Vector Machine、SVM）等を用いることができる。

ここで、第１の相互作用をするタンパク質と化合物とのペア（第１のペア）は、例えば、相互作用することが既知のタンパク質と化合物とのペアをいう。また、第２の相互作用をするタンパク質と化合物とのペア（第２のペア）は、例えば、相互作用をすることが知られていないタンパク質と化合物とのペアや、ランダムなタンパク質と化合物のペアをいう。相互作用することが知られていないタンパク質と化合物とのペアを第２のペアとすることが好ましいが、相互作用しない組み合わせを文献上で発見するのは非常に難しい。そこで、第２のペアには、ランダムなタンパク質と化合物とのペアを用いることが好ましい。

かかる場合には、第１のペアが正例の、第２のペアが負例の教師データとなる。第１のペア及び第２のペアは、論文等の文献やデータベースから得られた情報を使用してもよく、実験的に検証して得られた情報を使用してもよい。

第１のペアや、第１のペア及び第２のペアを、サポートベクターマシン等の機械学習法を用いて解析することにより学習モデルが構築される。該学習モデルを用いて、問い合わせ化合物と問い合わせタンパク質とのペアが、第１のペアに属するか、第２のペアに属するかを判定することができる。また、その可能性をスコアで表すことも可能である。

サポートベクターマシンとは、機械学習の一種である。特徴ベクトルにより構築された空間は特徴空間と呼ばれる。サポートベクターマシンは、カーネル関数を用いて、ベクトルを有限次元又は無限次元の特徴空間に写像し、該特徴空間上で線形分離を行うことで学習モデルが構築される。すなわち、複数のベクトルを最大マージンで分離する分離面が得られ、該分離面より２つのクラスにわけられる。したがって、該分離面により問い合わせたベクトルがどちらのクラスに属するかを判定することができる。

以下、サポートベクターマシンの具体的な手順について説明する。まず、第１のペアにおけるタンパク質に対応するタンパク質情報を含むタンパク質記述子と第１の組み合わせにおける化合物に対応する化合物情報を含む化合物記述子とを組み合わせる。これを第１の組み合わせという。同様に、第２のペアにおけるタンパク質に対応するタンパク質情報を含むタンパク質記述子と第２のペアにおける化合物に対応する化合物情報を含む化合物記述子とを組み合わせる。これを第２の組み合わせという。これらの組み合わせを用いて第１の組み合わせ及び第２の組み合わせのカーネルを計算して、サポートベクターマシンを行うことで、第１の組み合わせと第２の組み合わせとを分類する超平面が求められる。

化合物とタンパク質の相互作用関係を機械学習するためには、化合物とタンパク質の異種のデータ表現を統合し、相互作用関係を定量化する数理的枠組みが必要となる。すなわち、化合物xの特徴ベクトルをX、タンパク質yの特徴ベクトルをYと表すとき、それらからペア(x,y)の特徴ベクトルZ(x,y)をどのように構築するかが問題となる。ここでは、化合物ベクトルとタンパク質ベクトルを統合する有力な手段としてカーネル法を用いることができる。具体的には、化合物のカーネルK_cと、タンパク質のカーネルK_pを化合物ベクトルX(x)とタンパク質ベクトルY(y)とを用いて以下のように定義する。

また、本発明では、特に有効性が知られているテンソル積カーネルを用いた合成方法を用いて、化合物とタンパク質との相互作用関係を定量化してもよい。具体的には、タンパク質記述子と化合物記述子とを組み合わせた特徴ベクトルを以下の式で定義する。

上記のように化合物とタンパク質とのペアの特徴ベクトルを定義したとき、タンパク質記述子と化合物記述子との組み合わせのカーネルは以下のように定義できる。

また、問い合わせたベクトルの分離面からの距離は、第１の相互作用のしやすさの指標となり得る。すなわち、あるクラスに分類されたベクトルであっても、分離面との距離が近いものは誤って分類された可能性が高く、分離面との距離が遠いものは誤って分類された可能性が低い。つまり、問い合わせたベクトルに対応するタンパク質と化合物との組み合わせが、第１の相互作用をする可能性は、該ベクトルの分離面からの距離で表される。すなわち、ステップ（ｂ）では、問い合わせベクトルの分離面からの距離が、相互作用の可能性を示すスコアとして算出される。

以下、相互作用の可能性を示すスコアの算出方法について具体的に説明する。相互作用の可能性を示すスコアは、サポートベクターマシンの決定関数値ｘをシグモイド関数で変換した値ｓ_cとなる。これらの値は以下のように定義される。

ここで、αとβはサポートベクターマシンによる交差検定から得られるスコア分布に基づいて決定されるパラメータである。パラメータαとβは、以下の関数Ｆ（α，β）を最小化するように決定される。ここでiは学習データのインデックスである。yiは相互作用の有無を表す。相互作用あり、すなわち第１の組み合わせであると予測される場合は、y_iはプラス１となる。一方、相互作用無し、すなわち第２の組み合わせであると予測される場合は、y_iはマイナス１となる。

また、別の本発明では、ステップ（ｂ）で算出されるスコアが、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコアと、活性値予測から得られたスコア、選択性予測から得られたスコア、ドッキング計算から得られたスコア、合成可能性予測から得られたスコア、ADME-Tox予測から得られたスコア、物性予測から得られたスコア、及び分子動力学法から得られた結合自由エネルギー予測から得られたスコアから選択される１又は複数とを組み合わせたものである。化合物の化学的特性を考慮することで、活性値の高い化合物や、受容体に対する選択性が高い化合物、標的タンパク質の活性ポケットに高い確率で結合する化合物、有機合成の可能性が高い化合物、薬物動態/毒性を考慮した化合物、動的な構造変化をともなうタンパク質に対してエネルギー的に安定な化合物など、目的に応じた化合物の設計が可能となる。

第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコアと、他のスコアとの組み合わせ方法は限定されない。好ましくは、機械学習により得られたスコアと、活性値予測から得られたスコア、選択性予測から得られたスコア、ドッキング計算から得られたスコア、合成可能性予測から得られたスコア、ADME-Tox予測から得られたスコア、物性予測から得られたスコア、及び分子動力学法から得られた結合自由エネルギー予測から得られたスコアから選択される１又は複数とを乗算又は加算することによって組み合わせられる。

活性値予測とは、生物活性を引き起こす化合物の濃度を予測するものである。生物活性を引き起こす化合物濃度がCであった場合には、活性値予測から得られたスコアはマイナスlogCと表される。活性値予測の具体例として定量的構造活性相関が挙げられる。定量的構造活性相関（Quantitative Structure-Activity Relationship、QSAR）とは、回帰分析法などの統計学的手法を用いて、化合物の分子構造上の特徴と生物活性との相関関係を解析し、定量的な相関式を求める手法である。

ステップ（ｂ）で算出されるスコアを、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコア（以下、「s_c」とする。）と、活性値予測から得られたスコア（以下、「s_q」とする。）を用いる場合の手順を以下に説明する。評価関数sは、s_cとs_qとの２変数関数で定義される。

また、s_qは、QSARモデルにより算出され、生物活性の強さを定量的に予測した値（着目している生物活性を引き起こす化合物濃度Cから得られる値であるマイナスlogC）を表しており、以下のように定義される。

評価関数sは、以下の数式のように、s_cとs_qとの乗算で表される。重み係数wは、１又は任意の数字が設定される。ステップ（ｃ）では、最適化手法により、評価関数sを高めるように化合物情報が更新される。以下の数式の場合は、評価関数sの数値が大きくなるほど、問い合わせタンパク質との相互作用の可能性が高く、且つ生物活性が強いといえる。

また、選択性予測とは、結合の選択性を予測する手法である、受容体に複数のサブタイプが存在する場合に、特定のサブタイプに選択的に結合する化合物と、複数のサブタイプに非選択的に結合する化合物とが存在する。サポートベクターマシン等の機械学習法を用いて、これらの化合物情報を解析することにより学習モデルが構築される。該学習モデルにより、化合物情報に対応する化合物が、問い合わせタンパク質に選択的に結合するか否かを予測することができる。

サポートベクターマシンを用いた選択性予測では、予測対象のタンパク質に選択的に結合する化合物を第１の化合物とする。また、予測対象のタンパク質に非選択的に結合する、すなわち予測対象のタンパク質以外のタンパク質にも結合する化合物を第２の化合物とする。上述の方法と同様にサポートベクターマシンを用いて学習モデルを構築することで、問い合わせ化合物が、第１の化合物に属する可能性又は第２の化合物に属する可能性をスコアとして表すことができる。

ステップ（ｂ）で算出されるスコアを、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコア（以下、「s_c」とする。）と、選択性予測から得られたスコア（以下、「s_s」とする。）を用いる場合の手順を以下に説明する。評価関数sは、s_cとs_qとの２変数関数で定義される。

評価関数sは、以下の数式のように、s_sとs_cとの乗算で表される。重み係数wは、１又は任意の数字が設定される。ステップ（ｃ）では、最適化手法により、問い合わせタンパク質との相互作用の可能性が高まるように化合物情報が更新される。以下の数式の場合は、評価関数sの数値が大きくなるほど、問い合わせタンパク質との相互作用の可能性が高く、且つ問い合わせタンパク質に対する選択性が高いと言える。

また、ADME-Toxとは、吸収、分布、代謝、排泄、及び毒性からなる略語であり、生体における薬物動態や毒性をスコアとして計算することにより予測するものである。

ステップ（ｃ）では、最適化手法により、ステップ（ｂ）で算出されたスコアを基準として、問い合わせタンパク質との相互作用の可能性が高まるように化合物情報を更新する。最適化手法には、進化的アルゴリズム（Evolutionary Algorithm）や群知能（Swarm Intelligence、SI）を用いることができる。なかでも、粒子群最適化手法（Particle Swarm
Optimization）を用いることが好ましい。

粒子群最適化手法（Particle Swarm Optimization、PSO）とは、多次元の探索空間において位置と速度を持つ粒子群が最適解に対応する位置を効率的かつ網羅的に探索する最適化手法である。粒子同士が最適な位置について情報交換し、各粒子の最適な位置と粒子全体の最適な位置に基づいて、各粒子の位置と速度とが逐次更新され、その更新が複数回繰り返されることにより、粒子の位置が最適化される。

粒子群最適化手法の数式は、一般的に以下の数式で表される。

粒子群最適化手法において、化合物情報は粒子iと定義される。粒子iは、粒子iの位置に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアがステップ（ｂ）で算出されるが、ステップ（ｃ）では、該スコアと、粒子iがこれまでに得た最適なスコア（粒子iの見出した最良解）、さらに全粒子中でこれまでに得られた最適なスコア（全粒子で見出した最良解）に従って、粒子iの位置（粒子iの位置ベクトル）と速度（粒子iの速度ベクトル）とが更新される。

さらに、ステップ（ｄ）では、ステップ（ｂ）とステップ（ｃ）とを繰り返す。すなわち、ステップ（ｃ）で更新された粒子iについて、更新された粒子iの位置に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアが算出され、該スコアと、粒子iの最適なスコア、さらに全粒子中で最適なスコアに従って、粒子iの位置と速度とが更新される。ステップ（ｂ）とステップ（ｃ）とを複数回繰り返すことで、粒子iは、相互作用の可能性を示すスコアが高くなるように、位置と速度が更新され、最終的に最適解に対応する位置に到達する。

また、本発明の化合物情報が連続型で表現される場合には、ステップ（ｃ）で更新された化合物情報（以下、ベクトルXとする。）により生成される化合物は、フラグメントを組み合わせて生成される化合物に対応する化合物情報（以下、ベクトルYとする。）のうち、ベクトルXに近似するものである。

化合物に対応する化合物情報であるベクトルYは化合物空間上に非連続的に点在するため、ベクトルXベクトルYと一致しない場合がある。かかる場合には、複数のベクトルYの中から、ステップ（ｃ）で更新されたベクトルXに近似するものを一つ選択し、該化合物情報に対応する化合物と、入力手段から入力された問い合わせタンパク質との相互作用の可能性を示すスコアが算出される。好ましくは、更新された化合物情報に近似する化合物とは、化合物に対応する化合物情報のうち、更新された化合物情報に最も近似する化合物情報である。

すなわち、別の本発明の処理手段は、ステップ（ｃ）に続いて、ステップ（ｃ）において更新された化合物情報に近似する化合物情報の中から、化合物に対応する化合物情報を選択し、該化合物情報を、更新された化合物情報とするステップ（ｃ１）、を実行する

ここで、ステップ（ｃ１）では、化合物に対応する化合物情報の中から更新された化合物情報に近似する化合物情報を選択するが、好ましくは、化合物に対応する化合物情報のうち、更新された化合物情報に最も近似する化合物情報を選択することである。

また、本発明の化合物設計装置は、入力手段と処理手段の他、後述する記憶手段を備え、記憶手段は更新された化合物情報を履歴として記憶し、処理手段が、ステップ（ｃ１）に続いて、記憶手段に記憶された履歴を参照し、選択された化合物情報が、履歴に含まれる化合物情報と同一であるかどうかを判断するステップ（ｃ２）と、ステップ（ｃ２）において、同一であると判断された場合に、別の化合物情報を選択して再度ステップ（ｃ２）を実行し、ステップ（ｃ２）において同一でないと判断された場合に、該化合物情報を更新された化合物情報とするステップ（ｃ３）と、を実行する。

ステップ（ｃ１）では、更新された化合物情報に近似する化合物情報の中から化合物に対応している化合物情報を選択するが、選択された化合物情報が、過去に選択された化合物情報と同一となる場合がある。そこで、過去に選択された化合物情報と同一でない化合物情報を選択するように、記憶手段に記憶された履歴を参照し、同一であるかどうかを判断し、同一と判断された場合には別の化合物情報を選択する。化合物に対応する化合物情報のうち、更新された化合物情報に最も近似する化合物情報が選択され、同一と判断された場合に選択される別の化合物情報は、同一と判断された化合物情報の次に近似する化合物情報である。

化合物情報がベクトルで表される場合、近似している化合物情報とは、更新された位置ベクトルとの位置が近いもののことであり、その算出には距離などの類似性指標が用いられる。類似性指標には、ユークリッド距離、マハラノビス距離、tanimoto係数等があるが、好ましくはユークリッド距離を用いることができる。

また、化合物情報が、離散型表現を用いて行例Xとして表される場合には、上述の粒子最適化手法の一般式を適用することはできない。化合物設計に用いるフラグメント数がm、構成単位数がnであった場合に、粒子Xの速度Vは、以下の数式で表される。

化合物情報が行列Xとして表される場合の化合物情報更新のステップを具体的に説明する。まず、化合物情報の生成では、ランダムにフラグメントを選択することで各粒子の位置X₀とする。また、初期速度V₀もランダムに設定される。

次に、粒子の位置が対応する化合物と、問い合わせタンパク質との相互作用の予測スコアが計算される。スコアの計算結果に基づいて、V_pbestとV_gbestとを求める。ただし、V_pbestは各粒子が発見した最良解に対応する速度行列、V_gbestは全粒子における最良解に対応する速度行列で定義される。

下記数式に従って、 V_t+1が更新される。ただし、wは慣性定数、r₁とr₂は0から1までの一様乱数、c₁とc₂とは粒子が最良解に引き寄せられる大きさを表した定数である。

さらに、X_t+1は、ルーレット選択、ランキング選択、トーナメント選択、エリート選択等を用いて確率的に更新される。選択方法としては、ルーレット選択を用いることが好ましい。ボルツマン分布による位置X_tの選択確率Pr(X_t)は、下記の数式で表される。

ここで、T（＞0）は、温度パラメータと呼ばれる確率性の度合いを決定する定数である。T→0の極限において、Vを最大にするXに更新される。

粒子群最適化手法を用いた場合には、更新された粒子iの位置に対応する化合物が、過去に選択された化合物と同一の化合物となる場合がある。そこで、履歴を参照し、過去に選択された化合物と同一であるかどうかを判断し、同一と判断された場合には、更新された粒子iの位置に近似し、且つ別の化合物に対応する位置を、新たな粒子iの位置とする。

また、本発明の最適化手法として、粒子群最適化手法を用いた場合には、粒子が局所解に早期に収束する場合があり、かかる場合には、大域的な最適解を取りこぼす可能性があることが問題となる。そこで、局所解に収束しないように粒子の挙動を調整し、さらに収束状態から脱却するための手段を講じることが好ましい。

そこで、粒子群最適化手法において用いられる粒子を分割する。具体的には、粒子群を、複数のグループに分割し、一のグループには近接する粒子のみが含まれる。粒子間の情報交換は同一グループ内でのみ行われ、また、隣接するグループ間でのgbestのうち、良好な解を書き換える。

さらに、グループの局所化を防ぐため、同一グループ内での情報交換を第１階層とし、広域的な探索を行う第２階層を設定し、第２階層の解が良好であった場合に、第１階層の解を書き換えるよう設定する。第２階層のgbestは、任意の周期で初期化されることで広域的な多様性が維持される。このような分割階層型粒子群最適化を本発明に用いることで、粒子の多様性を維持し、より適切な化合物情報に更新される。

ステップ（ｄ）における、ステップ（ｂ）とステップ（ｃ）との繰返し回数は、予め定めておくことができる。すわわち、ステップ（ｅ）は、ステップ（ｂ）及びステップ（ｃ）の実行回数が規定回数未満である場合には、ステップ（ｂ）及びステップ（ｃ）を実行し、ステップ（ｂ）及びステップ（ｃ）の実行回数が規定回数に達した場合には、処理を終了するステップであり得る。

また、相互作用の可能性を示すスコアの規定値を定め、スコアが規定値に達するまでステップ（ｂ）及びステップ（ｃ）を繰り返してもよい。すわわち、ステップ（ｅ）は、相互作用の可能性を示すスコアが規定値未満である場合には、ステップ（ｂ）及びステップ（ｃ）を実行し、相互作用の可能性を示すスコアが規定値に達した場合には、処理を終了するステップであり得る。

ステップ（ｅ）は、ステップ（ｂ）の前に実行されてもよく、ステップ（ｃ）の前に実行されてもよい。

さらに、本発明の別態様でステップ（ｃ）に続いて、ステップ（ｃ１）、ステップ（ｃ２）、又はステップ（ｃ３）を実行する場合には、ステップ（ｃ１）、（ｃ２）又は（ｃ３）もステップ（ｃ）に続いて繰返し実行される。すなわち、ステップ（ｄ）は、ステップ（ｂ）ステップ（ｃ）、及びステップ（ｃ１）を複数回繰り返すステップ、ステップ（ｂ）とステップ（ｃ）、ステップ（ｃ１）、及びステップ（ｃ２）を複数回繰り返すステップ、又は、ステップ（ｂ）とステップ（ｃ）、ステップ（ｃ１）、ステップ（ｃ２）、及びステップ（ｃ３）を複数回繰り返すステップ、であり得る。

３．記憶手段
また、本発明の化合物設計装置は記憶手段を備えていてもよい。記憶手段には、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られた学習モデルが記憶される。処理手段は、ステップ（ｂ）で、学習モデルが記憶された記憶手段にアクセスし、スコアを算出する。

また、記憶手段は上述の学習モデルの他にも、活性値予測モデルや、選択性予測モデル、ドッキング計算モデル、合成可能性予測モデル、ADME-Tox予測モデル、物性予測から得られたスコア、分子動力学法モデル等、化合物の化学的特性の予測モデルが記憶されていてもよい。処理手段は、ステップ（ｂ＊）で、予測モデルが記憶された記憶手段にアクセスし、スコアを算出する。

また、本発明の別の態様では、記憶手段は、ステップ（ｂ１）において選択された化合物情報を履歴として記憶する。また、ステップ（ｄ１）では、記憶手段に記憶された履歴を参照し、選択された化合物情報が、履歴に含まれる化合物情報と同一であるかどうかを判断し、また、ステップ（ｄ３）では、ステップ（ｄ２）において、同一であると判断された場合に、別の化合物情報を選択して再度ステップ（ｄ２）を実行し、ステップ（ｄ２）において同一でないと判断された場合に、該化合物情報を更新された化合物情報とし、さらに、ステップ（ｄ４）では、ステップ（ｄ３）において選択された化合物情報を履歴として記憶手段に記憶させる。

記憶手段が化合物情報を構成するフラグメント情報からなるデータベースを記憶してもよい。処理手段は、ステップ（ａ）で、記憶手段に記憶されたフラグメント・データベースにアクセスして、ライブラリに含まれるフラグメント情報から、１又は複数の化合物情報を生成することができる。

４．出力手段
また、本発明の化合物設計装置は出力手段を備えていてもよい。出力手段は、処理手段により、問い合わせタンパク質と相互作用する可能性が最も高いと判断された化合物情報又は、該化合物情報に対応する化学構造を出力する。ここで、出力手段が出力する化合物は、既知の化学構造を有する化合物だけでなく、新規の化学構造を有する化合物である場合がある。

また、本発明は、コンピュータを用いた化合物設計方法、及びコンピュータに化合物を設計させるコンピュータプログラムも提供する。

さらに、図面を参照しながら本発明を詳細に説明する。図２は、本発明の化合物設計装置１の一態様及びフローチャートを示したものである。化合物設計装置１は、入力手段２、処理手段３、記憶手段４、及び出力手段５を備える。また、図３は本発明の化合物設計装置１の処理手段３が実行する処理のフローチャートと、各フローと記憶手段４との関連を示した図である。

化合物設計装置１の入力手段２には、問い合わせタンパク質に対応するタンパク質情報が入力される。さらに処理手段３では、入力されたタンパク質情報を基に、問い合わせタンパク質に対応する別のタンパク質情報を生成する。ここでは、入力手段２から問い合わせタンパク質のタンパク質名が入力され、処理手段３では、記憶手段４に記憶されたタンパク質データベースを参照して該タンパク質名に対応するアミノ酸配列を検索し、例えば、既知のスペクトラム法に従いアミノ酸配列を固定長kのアミノ酸配列に分解し、最大m個のミスマッチまで許容した長さkのアミノ酸配列パターンの頻度の数をタンパク質記述子として生成する。

また、記憶手段４にはフラグメント・データベースが記憶されている。フラグメント・データベースには、既知の化合物の化学構造を、RECAPルールによる切断位置で断片化したフラグメント記述子及び化学構造が格納されている。複数の切断位置が存在する化学構造については、複数の切断位置の取りうる全ての組み合わせから取得されたフラグメント記述子及び化学構造が格納されている。

処理手段３は、規定のフレームに基づいて、フラグメント・データベースに格納されているフラグメントの記述子及びおよび化学構造から化合物記述子をランダムに生成する。

さらに、処理手段３は生成された化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアを算出する。記憶手段４には、相互作用学習モデルが記憶されている。相互作用学習モデルは、少なくとも、第１の相互作用をするタンパク質と化合物、すなわち、正例として相互作用することが既知のタンパク質と化合物との組み合わせを教師データとした機械学習により得られたものである、

機械学習としてサポートベクターマシンを採用した場合には、第１の相互作用をするタンパク質と化合物とに加え、第２の相互作用をするタンパク質と化合物との組み合わせも教師データに用いられる。かかる場合、相互作用学習モデルとは、正例として相互作用することが既知のタンパク質と化合物とのそれぞれの記述子を組み合わせた特徴ベクトルと、負例として、タンパク質と化合物との記述子をランダムに組み合わせた特徴ベクトルとを用い、正例と負例とを分離する分離面をサポートベクターマシンにより特徴空間上に構築したもので、分離面からの距離を基に相互作用の可能性を示すスコアが算出される。

処理手段３は、記憶手段４に記憶されている相互作用学習モデルを参照し、生成した複数の化合物情報に対応する化合物の記述子を計算し、問い合わせタンパク質の記述子と組み合わせた特徴ベクトルの分離面からの距離に基づいて相互作用の可能性を示すスコアを算出する。特徴ベクトルが正例側に分類される場合は、分離面から遠い方が相互作用の可能性が高く、一方、特徴ベクトルが負例側に分類される場合は、負例内であれば、分離面に近いほうが相互作用の可能性が高いと予測される。

続いて、処理手段３は、化合物情報の更新が規定回数に到達しているかどうかを確認する。化合物情報の更新回数が規定回数未満であった場合には、相互作用の可能性を示すスコアに基づいて、最適化手法により化合物情報を更新する。

化合物情報の更新の回数が規定回数に達していた場合には、出力手段５から更新された化合物情報に対応する化合物の化学構造が出力される。

処理手段３では、化合物情報の更新回数が規定回数未満であった場合には、最適化手法により化合物情報を更新する。最適化手法としては粒子群最適化手法を採用する。複数の化合物情報について、それぞれの相互作用の可能性を示すスコアを基に、粒子群最適化手法により位置及び速度が更新される。

更新された化合物情報は、記憶手段４の化合物情報更新履歴に記録され、過去選択した化合物と同一の化合物を新たに選択しないように処理される。

続いて、図３を参照し、化合物情報を複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表した実施態様における、規定回数到達の確認以のフローを詳細に説明する。

化合物情報の更新が規定回数に到達していなかった場合には、処理手段３は、最適化手法により化合物情報を更新する。本実施態様では、化合物情報が存在する空間は連続的であるのに対し、対応する化合物を持つ化合物情報は空間内に離散的に存在するため、更新された化合物情報に化合物が対応していない可能性がある。そこで、処理手段３では、更新された化合物情報に近似する化合物情報の中から、化合物に対応している化合物情報を選択する。

さらに、処理手段３では、記憶手段４に記憶された化合物情報の更新履歴を参照し、更新履歴にある化合物情報と同一であるかどうかを確認する。同一であった場合には、化合物情報の選択ステップに戻って別の化合物情報を選択し、同一でなかった場合には、化合物情報の更新履歴にその化合物情報を記録する。

また、図４は、本発明の化合物設計装置の別態様である。記憶手段４には、相互作用学習モデルに加えて、活性値予測モデルや選択性予測モデル等の化合物の化学的特性を示すモデルが記憶されている。処理手段３では、化合物情報に対応する化合物の化学的特性を、記憶手段４に記憶されたモデルを参照してスコアを算出する（ｂ＊）。さらに該スコアと相互作用の可能性を示すスコアとを組み合わせたスコア（ｂ＊＊）を基準とし、以降のステップで最適化手法による化合物情報の更新が行われる。

また、本発明は、コンピュータを用いて上述の処理を実行することで化合物を設計する方法を提供する。

すなわち、本発明の、コンピュータを用いた化合物設計方法は、
（ア）コンピュータの備える入力手段に、少なくとも、１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報が入力されるステップと、
（イ）コンピュータの備える処理手段において、１又は複数の化合物情報が生成されるステップと、
（ウ）コンピュータの備える処理手段において、化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアが算出されるステップと、
（エ）コンピュータの備える処理手段において、最適化手法により、スコア算出ステップ（ウ）で算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報を更新するステップと、
を含み、
ステップ（ウ）とステップ（エ）とを複数回繰返し、さらに、ステップ（ウ）で算出されるスコアは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものである化合物設計方法である。

また、本発明の化合物設計方法の別の実施態様では、機械学習はサポートベクターマシンであり、第１の組み合わせに加えて第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとし、第１の組み合わせと第２の組み合わせとを分離する分離面が求められ、さらに、スコアは、スコア算出の対象となる化合物情報とスコア算出の対象となるタンパク質情報との組み合わせの、分離面からの距離を表したものである。

また、本発明の化合物設計方法の別の実施態様では、群知能最適化手法、進化的計算手法、及び粒子群最適化手法からなる群より選択される一又は複数が採用される。

さらに、本発明の化合物設計方法の別の実施態様では、ステップ（エ）に続いて、
（エ１）ステップ（エ）において更新された化合物情報に近似する化合物情報の中から、化合物に対応する化合物情報を選択し、該化合物情報を、更新された化合物情報とするステップ、を含む。

さらに、本発明の化合物設計方法の別の実施態様では、コンピュータの備える記憶手段が、更新された化合物情報を履歴として記憶し、コンピュータの備える処理手段が、ステップ（エ１）に続いて、
（エ２）記憶手段に記憶された履歴を参照し、選択された化合物情報が、履歴に含まれる化合物情報と同一であるかどうかを判断するステップと、
（エ３）ステップ（エ２）において、同一であると判断された場合に、別の化合物情報を選択して再度ステップ（エ２）を実行し、ステップ（エ２）において同一でないと判断された場合に、該化合物情報を更新された化合物情報とするステップと、を含む。

さらに、本発明の化合物設計方法の別の実施態様では、化合物情報が、化合物の化学構造を所定のルールに基づいて切断して生成されるフラグメントに対応するフラグメント情報から構成される。さらに、その所定のルールは、同一の化合物の化学構造に複数の切断位置が存在する場合に、複数の切断位置の取りうる組み合わせによりフラグメントが生成されることが好ましい。

さらに、本発明の化合物設計方法の別の実施態様では、化合物情報は、複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表される。

さらに、本発明の化合物設計方法の別の実施態様では、最適化手法として粒子群最適化手法を採用し、設計される化合物のフラグメントの構成単位数が設定され、化合物情報を表す粒子の位置Xが、以下の数式で表される。ただし、mはフラグメントの最大要素数、nは構成単位数である。

粒子の速度Vが、以下の数式で表される。ただし、mはフラグメントの最大要素数、nは構成単位数である。

また、本発明は、上述の方法による化合物設計に関する処理をコンピュータに実行させるプログラムを提供する。コンピュータは、該プログラムを実行することで、そのコンピュータは化合物設計装置として機能する。

すなわち、本発明の、コンピュータに化合物を設計させるコンピュータプログラムは、コンピュータに、
（i）１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報の入力を受け付けるステップと、
（ii）１又は複数の化合物情報を生成するステップと、
（iii）化合物情報に対応する化合物と、問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップと、
（iv）最適化手法により、ステップ（iii）で算出されたスコアを基準として、相互作用の可能性が高まるように化合物情報を更新するステップと、
（v）ステップ（iii）とステップ（iv）とを複数回繰り返すステップと、
を実行させ、さらに、ステップ（iii）で算出されるスコアは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものである、化合物設計コンピュータプログラムである。

また、本発明の化合物設計プログラムの別の実施態様では、機械学習はサポートベクターマシンであり、第１の組み合わせに加えて第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとし、第１の組み合わせと第２の組み合わせとを分離する分離面が求められ、さらに、スコアは、スコア算出の対象となる化合物情報とスコア算出の対象となるタンパク質情報との組み合わせの、分離面からの距離を表したものである。

また、本発明の化合物設計プログラムの別の実施態様では、最適化手法として、群知能最適化手法、進化的計算手法、及び粒子群最適化手法からなる群より選択される一又は複数が採用される。

さらに、本発明の化合物設計プログラムの別の実施態様では、ステップ（iv）に続いて、
（iv-1）ステップ（iv）において更新された化合物情報に近似する化合物情報の中から、化合物に対応する化合物情報を選択し、該化合物情報を、更新された化合物情報とするステップ、を含む。

さらに、本発明の化合物設計プログラムの別の実施態様では、コンピュータの備える記憶手段が、更新された化合物情報を履歴として記憶し、コンピュータの備える処理手段が、ステップ（iv-1）に続いて、
（iv-2）記憶手段に記憶された履歴を参照し、選択された化合物情報が、履歴に含まれる化合物情報と同一であるかどうかを判断するステップと、
（iv-3）ステップ（iv-2）において、同一であると判断された場合に、別の化合物情報を選択して再度ステップ（iv-2）を実行し、ステップ（iv-2）において同一でないと判断された場合に、該化合物情報を更新された化合物情報とするステップと、を含む。

さらに、本発明の化合物設計プログラムの別の実施態様では、化合物情報が、化合物の化学構造を所定のルールに基づいて切断して生成されるフラグメントに対応するフラグメント情報から構成される。さらに、その所定のルールは、同一の化合物の化学構造に複数の切断位置が存在する場合に、複数の切断位置の取りうる組み合わせによりフラグメントが生成されることが好ましい。

さらに、本発明の化合物設計プログラムの別の実施態様では、化合物情報は、複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表される。

さらに、本発明の化合物設計プログラムの別の実施態様では、最適化手法として粒子群最適化手法を採用し、設計される化合物のフラグメントの構成単位数が設定され、化合物情報を表す粒子の位置Xが、以下の数式で表される。ただし、mはフラグメントの最大要素数、nは構成単位数である。

実施例を参照して本発明をさらに詳細に説明するが、本発明は下記の実施例に限定されない。

実施例１
4,700個のCyclin-Dependent Kinase 2（CDK2）の既知活性化合物を用いて、クロスバリデーションを行った。4,700個の化合物のうち、600個を学習用データとして、相互作用学習モデルの構築に用いた。DRAGON6プログラムを用いて活性化合物の記述子を計算し、さらに、その標的タンパク質の記述子をスペクトラム法により計算した。

ここでは、化合物記述子として、DRAGON6 ver.6.0.30（Talete srl）を用いて化合物の構造・物性に関する記述子を計算した。具体的には、ブロック１−２（Constitutional descriptorsおよびRing
descriptors）、ブロック４−５（Walk and path countsおよびConnectivity indices）、ブロック８（2D
autocorrelations）、ブロック１０−１１（P_VSA-like descriptorsおよびETA indices）、ブロック２２−２４（Atom-centred
fragments、Atom-type E-state indices、及びCATS 2D）、ブロック２８（Molecular properties）の計８９４種類の記述子を計算した。

相互作用する各ペアの記述子同士を組み合わせて特徴ベクトルを構成し、サポートベクターマシンとしてLIBSVMプログラムを用いて相互作用学習モデルを構築した。

また、4,700個の化合物のうち、学習データとは別の600個を、フラグメント情報を作製するために用いた。該フラグメント情報は、組み合わされて化合物情報を構成する。（１）既知のRECAPルールに基づくフラグメント生成と、（２）RECAPルールにおいて同一の化合物の化学構造上に複数の切断位置が存在する場合に、複数の切断位置の取りうる全ての組み合わせによるフラグメント生成とを比較すると、以下のようにフラグメント、及び該フラグメントの組み合わせが得られた。

化合物はフラグメントの組み合わせとして表現される。したがって、（２）の手法は、（１）の手法と比較して５６倍の化合物を得られることがわかった。（２）の手法で化合物情報を生成した場合には、（１）の手法よりも高精度に化合物を設計できる可能性が示された。

続いて、処理手段は、上述の方法と同様にDRAGON6
ver.6.0.30（Talete srl）を用いてこれらのフラグメントの記述子を計算し、フラグメント・データベースを構成した。

さらに、設計される化合物のフレームとしては、３つの構成単位が直列したものを選択した。

上記の検証用データ及び学習用データのセットを10セット作成、繰返し検証を行った。

問い合わせタンパク質をCyclin-Dependent Kinase 2（CDK2）として入力した。処理手段は、CDK2のアミノ酸配列を検索し、それを基にスペクトラム法によりCDK2のタンパク質記述子を計算した。

また、処理手段では、上記の全フラグメント記述子に対して主成分分析を行い、寄与率の高い順に主成分を３個抜き出し、さらにフレームに対応するフラグメントがランダムに選択され、化合物情報を表すベクトルが生成された。化合物情報を表すベクトルは、９９０個生成された。

相互作用学習モデルにおいて、９９０個の化合物情報に対応する化学物質のそれぞれの記述子と、CDK2のタンパク質記述子とを組み合わせた特徴ベクトルの分離面からの距離をスコアとして計算し、粒子群最適化手法により化合物情報を表すベクトルの位置及び速度を更新した。更新における規定回数は5000回とした。

出力された設計化合物の中で、CDK2リガンドとして既知の化合物の化学構造と同一なものが得られた数をカウントした。結果を図５に示す。化合物の更新をランダム選択した比較例と比べて飛躍的高効率に化合物の設計が可能であることが示された。

実施例２
本発明を用いて、β2アドレナリン受容体（β2AR）を問い合わせタンパク質として、そのアンタゴニストの設計を行った。設計される化合物のフレームとしては、３つの構成単位が直列したものを選択した。ただし、中心の構成単位は母核として固定し、両端の置換フラグメント（R1及びR2）のみを更新した。

設計された化合物（R1：A〜H、R2：1〜13）のアッセイ実験を行い、本発明で設計された化合物が、問い合わせタンパク質であるβ2ARに相互作用するかどうかを調べた。結果を図６に示す。アッセイを行った化合物のうち、ヒットの閾値を３０μＭ未満に設定した場合、38％と非常に高いヒット率であった。また、ヒットの閾値を１５０μＭ未満に設定した場合では、74％とさらに高いヒット率を獲得した。

実施例３
別の本発明として、ステップ（ｂ）で第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコアと、活性値予測から得られたスコアとを乗算したスコアを基準とした化合物の設計を行った。CDK2及びV1bをターゲットとする化合物データベースを用いた。

まず、活性値予測のモデルとして、QSARモデルを構築した。QSARモデルの構築には、線形のε-SVR（Support Vector Regression）法を用いた。計算パラメータは、交差検定（5-fold）の値が最大になるように設定した。表２に、CDK2とV1bの各計算条件と結果を示す。

図７は構築したQSARモデルにより得られた計算値（予測活性値）と実測値のプロット図である。直線近くにプロットされる化合物ほど活性の予測値と実測値が近いことを示している。

続いて、フラグメント・データベースの構築を行った。QSARモデルの構築に利用した化合物のうち、CDK2は出現頻度の低いものを取り除いて得られた658個の化合物、V1bは350個の化合物から、実施例１と同様の方法でフラグメント化したところ、表３のようにフラグメント、及び該フラグメントの組み合わせが得られた。

問い合わせタンパク質であるCDK2、又はV1bをそれぞれ入力し、相互作用する各ペアの記述子同士を組み合わせて特徴ベクトルを構成し、サポートベクターマシンとしてLIBSVMプログラムを用いて相互作用学習モデルを構築した。

また、処理手段では、上記の全フラグメント記述子に対して主成分分析を行い、寄与率の高い順に主成分を３個抜き出した。さらにフレームに対応するフラグメントがランダムに選択され、化合物情報を表すベクトルが生成された。化合物情報を表すベクトルは、CDK2で６５８個、V1bで３５０個生成された。

さらに、処理手段では、ステップ（ｂ）において、以下のように評価関数sを算出した。ここで、s_qはQSARモデルにより得られた予測活性値、s_cは相互作用学習モデルにおいて、化合物情報に対応する化学物質のそれぞれの記述子と、問い合わせタンパク質のタンパク質記述子とを組み合わせた特徴ベクトルの分離面からの距離をスコアとして計算したものである。重み係数wは１に設定した。

さらに処理手段では、上記の評価関数sを最大化するように粒子群最適化手法により化合物情報を表すベクトルの位置及び速度を更新した。粒子数はそれぞれ128個、更新における規定回数は10000回とした。

本実施例では性能評価の指標としてF-measure（F値）を採用した。2値分類問題の予測精度の評価指標としてはRecall（再現率）やPrecision（適合率）が一般的だが、F値はトレードオフの関係にある再現率と適合率の値を１個の指標値で評価できるという利点がある。各評価値は、以下の数式によって定義される。

再現率は、既知リガンドのうち計算によって正しく陽性と判別される割合を表している。一方、適合率は計算によって陽性と予測される化合物に含まれる既知リガンドの割合を表している。F 値は適合率と再現率の調和平均で定義され、適合率と再現率の両方の値が大きくなるにしたがって、F 値は1 に近づきながら高い値を示す。ここで、tp、fn、fp、tnは表４の論理結合（TP、FN、FP、TN）に対応する化合物数を表している。また、表４は生物活性に関する実験結果と計算結果の関係を示した2×2分割表である。

結果を図８に示した。既知リガンドの実験で得られた活性値の範囲毎に予測精度を算出し、ターゲット毎に表にまとめた。QSARモデルと相互作用学習モデルを組み合わせた手法は、他の手法と比較して、化合物の設計の性能が高かった。特に実験による活性値レベルが高い既知化合物の設計に多く成功した。これは偽陽性化合物の発生を抑制し、高活性化合物をより効率的に設計することができることを示唆している。

実施例４
さらに、β2アドレナリン受容体を標的分子とし、その他のアドレナリン受容体に対して選択的な活性を有する新規化合物の設計を目的として、ステップ（ｂ）で第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコアと、選択性予測から得られたスコアとを乗算したスコアを基準とした化合物の設計を行った。

まず、選択性予測モデルの構築を行った。アドレナリン受容体はα1、α2、βの3種類と、さらに各3つのサブタイプ（α1A、α1B、α1D、α2A、α2B、α2C、β1、β2、β3）に分類される。サブタイプ毎の既知リガンド数を表５に示した。これらのデータは、市販化合物データベースや公用データベース（ChEMBL等）及び、発明者自ら論文・特許から収集したデータベースに由来する。いずれも、アッセイ実験によるIC50値が30μM以下のターゲット活性を示す化合物を既知リガンドと定義した。

β2の既知リガンドとして登録されている23003個のうち、3669個は他のサブタイプに対して選択的であった。一方、残りの19334個は、他のサブタイプの既知リガンドと重複しており、これらを非選択的とした。本実施例では、3669個の既知リガンドをポジティブデータ、残りの19334個をネガティブデータとして、選択性予測のためのSVMモデルを構築した。モデルの作成とスコア計算には、LIBSVMプログラムを用いた。

続いて、フラグメント・データベースの構築を行った。3669個のすべての既知リガンドを実施例１と同様の方法でフラグメント化した。結合手1本のフラグメントは8976個、結合手2本のフラグメント9715個であり、これらフラグメントの組み合わせによる化合物数は2.7×10¹⁰個であった。この中に含まれる3669個の既知リガンドを少ないステップ数で発見できるか否かによって各手法の性能を評価した。

さらに、処理手段では、ステップ（ｂ）で以下のように評価関数sを算出した。ここで、s_sは選択性予測モデルにより得られた選択性確率値、s_cは相互作用学習モデルにおいて、化合物情報に対応する化学物質のそれぞれの記述子と、問い合わせタンパク質のタンパク質記述子とを組み合わせた特徴ベクトルの分離面からの距離をスコアとして計算したものである。重み係数wは１に設定した。

処理手段では、上記の評価関数sを最大化するように粒子群最適化手法により化合物情報を表すベクトルの位置及び速度を更新した。粒子数はそれぞれ128個、更新における規定回数は10000回とした。

本実施例では性能評価の指標として前記のF-measure（F値）を採用した。β2アドレナリン受容体を標的とする検証結果を表６に示す。

実施例４の手法による結果と、実施例１の同様の手法による結果を比較した。選択性予測モデルと相互作用学習モデルを組み合わせた実施例４の手法は、他の手法と比較して、化合物の設計の性能が高かった。これは偽陽性化合物の発生を抑制し、選択性の高い化合物をより効率的に設計することができることを示唆している。これにより、最適化手法の評価関数に選択性予測モデルを組み込んで相互作用予測モデルと併用することにより、選択性を考慮したリアルタイムの構造最適化に効果があることが実証された。

１化合物設計装置
２入力手段
３処理手段
４記憶手段
５出力手段

Claims

少なくとも、１又は複数の問い合わせタンパク質について、該タンパク質に対応するタンパク質情報が入力される入力手段と、
（ａ）１又は複数の化合物情報を生成するステップと、
（ｂ）前記化合物情報に対応する化合物と、前記問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップと、
（ｃ）最適化手法により、ステップ（ｂ）で算出された前記スコアを基準として、前記相互作用の可能性が高まるように前記化合物情報を更新するステップと、
（ｄ）前記ステップ（ｂ）と前記ステップ（ｃ）とを複数回繰り返すステップと、
を実行する処理手段と、を備え、
さらに、前記ステップ（ｂ）で算出されるスコアは、少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものであり、
前記化合物情報が、同一の化合物の化学構造に複数の切断位置が存在する場合に、前記複数の切断位置の取りうる全ての組み合わせによりフラグメントが生成されるルールに基づいて切断して生成されるフラグメントに対応するフラグメント情報から構成される、
化合物設計装置
前記機械学習が、サポートベクターマシンであり、
前記第１の組み合わせに加えて、
第２の相互作用をするタンパク質と化合物に対応するタンパク質情報と化合物情報との第２の組み合わせを教師データとし、
前記第１の組み合わせと前記第２の組み合わせとを分離する分離面が求められ、
さらに、前記スコアは、スコア算出の対象となる化合物情報とスコア算出の対象となるタンパク質情報との組み合わせの、前記分離面からの距離を表したものである、
請求項１に記載の化合物設計装置
前記最適化手法が、群知能最適化手法、進化的計算手法、及び粒子群最適化手法からなる群より選択される一又は複数である、
請求項１又は２に記載の化合物設計装置
前記処理手段が、前記ステップ（ｃ）に続いて、
（ｃ１）前記ステップ（ｃ）において更新された化合物情報に近似する化合物情報の中から、化合物に対応する化合物情報を選択し、該化合物情報を、更新された化合物情報とするステップ、を実行する
請求項１〜３いずれか一項に記載の化合物設計装置
記憶手段を備え、
該記憶手段は、前記更新された化合物情報を履歴として記憶し、
前記処理手段が、前記ステップ（ｃ１）に続いて、
（ｃ２）前記記憶手段に記憶された前記履歴を参照し、選択された化合物情報が、前記履歴に含まれる化合物情報と同一であるかどうかを判断するステップと、
（ｃ３）前記ステップ（ｃ２）において、同一であると判断された場合に、別の化合物情報を選択して再度ステップ（ｃ２）を実行し、前記ステップ（ｃ２）において同一でないと判断された場合に、該化合物情報を更新された化合物情報とするステップと、
を実行する、
請求項１〜４いずれか一項に記載の化合物設計装置
前記化合物情報が、複数のフラグメント情報の主成分分析の結果として得られた１又は複数の主成分を軸に割り当てた空間に存在するベクトルの直和として表される、
請求項１〜５いずれか一項に記載の化合物設計装置
前記最適化手法が粒子群最適化手法であって、
前記粒子群最適化手法が、
設計される化合物のフラグメントの構成単位数が設定され、
前記化合物情報を表す粒子の位置Xが、
と表され、
前記粒子の速度Vが、
と表される、
請求項３〜６いずれか一項に記載の化合物設計装置
前記ステップ（ｂ）で算出されるスコアが、
第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたスコアと、活性値予測から得られたスコア、選択性予測から得られたスコア、ドッキング計算から得られたスコア、合成可能性予測から得られたスコア、ADME-Tox予測から得られたスコア、物性予測から得られたスコア、及び分子動力学法から得られた結合自由エネルギー予測から得られたスコアから選択される１又は複数とを組み合わせたものである、
請求項１〜７いずれか一項に記載の化合物設計装置
コンピュータを用いた化合物設計方法であって、
（ア）前記コンピュータの備える入力手段に、少なくとも、１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報が入力されるステップと、
（イ）１又は複数の化合物情報が生成されるステップと、
（ウ）前記化合物情報に対応する化合物と、前記問い合わせタンパク質との相互作用の可能性を示すスコアが算出されるステップと、
（エ）最適化手法により、前記ステップ（ウ）で算出されたスコアを基準として、前記相互作用の可能性が高まるように前記化合物情報を更新するステップと、
を含み、
前記ステップ（ウ）と前記ステップ（エ）とを複数回繰返し、
さらに、前記ステップ（ウ）で算出されるスコアは、
少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものであり、
前記化合物情報が、同一の化合物の化学構造に複数の切断位置が存在する場合に、前記複数の切断位置の取りうる組み合わせによりフラグメントが生成されるルールに基づいて切断して生成されるフラグメントに対応するフラグメント情報から構成される、
化合物設計方法
コンピュータに化合物を設計させるコンピュータプログラムであって、
前記コンピュータに、
（i）１又は複数の問い合わせタンパク質について、該タンパク質に対応する問い合わせタンパク質情報の入力を受け付けるステップと、
（ii）１又は複数の化合物情報を生成するステップと、
（iii）前記化合物情報に対応する化合物と、前記問い合わせタンパク質との相互作用の可能性を示すスコアを算出するステップと、
（iv）最適化手法により、前記ステップ（iii）で算出された前記スコアを基準として、前記相互作用の可能性が高まるように前記化合物情報を更新するステップと、
（v）前記ステップ（iii）と前記ステップ（iv）とを複数回繰り返すステップと、
を実行させ、さらに
前記ステップ（iii）で算出されるスコアは、
少なくとも、第１の相互作用をするタンパク質と化合物とに対応するタンパク質情報と化合物情報との第１の組み合わせを教師データとした機械学習により得られたものであり、
前記化合物情報が、同一の化合物の化学構造に複数の切断位置が存在する場合に、前記複数の切断位置の取りうる組み合わせによりフラグメントが生成されるルールに基づいて切断して生成されるフラグメントに対応するフラグメント情報から構成される、
化合物設計コンピュータプログラム