JP7048065B2 - 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法 - Google Patents

結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法 Download PDF

Info

Publication number
JP7048065B2
JP7048065B2 JP2017149996A JP2017149996A JP7048065B2 JP 7048065 B2 JP7048065 B2 JP 7048065B2 JP 2017149996 A JP2017149996 A JP 2017149996A JP 2017149996 A JP2017149996 A JP 2017149996A JP 7048065 B2 JP7048065 B2 JP 7048065B2
Authority
JP
Japan
Prior art keywords
dimensional structure
biopolymer
spatial arrangement
predicted
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017149996A
Other languages
English (en)
Other versions
JP2019028879A (ja
Inventor
浩太 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ritsumeikan Trust
Original Assignee
Ritsumeikan Trust
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ritsumeikan Trust filed Critical Ritsumeikan Trust
Priority to JP2017149996A priority Critical patent/JP7048065B2/ja
Publication of JP2019028879A publication Critical patent/JP2019028879A/ja
Application granted granted Critical
Publication of JP7048065B2 publication Critical patent/JP7048065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、標的とする生体高分子の立体構造と化合物の立体構造との結合性を予測する方法、装置、プログラム、記録媒体、および結合性の予測に使用する機械学習アルゴリズムの製造方法に関する。
現在、新規の医薬を開発するためには、非常に長い期間と莫大な費用がかかっている。そのため、創薬の分野においては、医薬品の開発を効率化することを目的として、薬物の候補となる化合物を探索または最適化する種々の方法が模索されている。そのような方法の1つとして、コンピュータ・シミュレーションにより、標的となる生体高分子(例えば、タンパク質)と結合するリガンドのスクリーニングを行う方法(インシリコスクリーニング)が研究されている。コンピュータ・シミュレーションにおいて行われる、ドッキングシミュレーションは、タンパク質および化合物の立体構造の情報に基づいて複合体の安定構造をコンピュータ上で予測するものである。
薬物の候補となる標的に結合する化合物をコンピュータ・シミュレーションにより探索する方法としては、例えば、分子動力学法などを使用したものが存在する。そのような標的生体分子に結合する化合物の候補を予測する手法としては、下記特許文献1に記載の方法などが挙げられる。
特許文献1には、タンパク質を含む標的生体分子と低分子化合物との結合性を予測するプログラムおよび支援方法が開示されている。特許文献1に記載のプログラムおよび支援方法は、量子化学計算などを用いた第1~第3シミュレーションを組み合わせる手法であり、標的生体分子の活性を制御する化合物の候補を、より正確に予測することが可能となる。
特開2016-166159号公報
特許文献1に記載のプログラムおよび支援方法では、タンパク質および低分子化合物の配置の座標データから、量子化学計算により相互作用エネルギー(結合自由エネルギーのエンタルピー項)を算出している。しかしながら、量子化学計算により相互作用エネルギーの計算を精密に行うためには、演算能力が高いワークステーションやスーパコンピュータが必要とされ、シミュレーションに比較的長い時間を要するという問題がある。また、結合性を予測する対象の化合物の数が増加するほど、シミュレーションに要する時間も長期化するという問題がある。
本発明の目的は、標的とする生体高分子の立体構造と化合物の立体構造との結合性について、得られる予測精度が高く演算速度が向上した、結合性予測方法、装置、プログラム、記録媒体、および結合性の予測に使用する機械学習アルゴリズムの製造方法を提供することにある。
上記目的を達成するための本発明は、以下に示す態様を含む。
(項1)
標的の生体高分子の指定と、結合性予測対象の化合物の立体構造とを取得するステップと、
生体高分子の立体構造を蓄積した立体構造データベースから、前記指定に対応する生体高分子の立体構造を取得するステップと、
取得した前記生体高分子の立体構造と前記化合物の立体構造とに基づいて、前記生体高分子と前記化合物との複合体の予測立体構造を生成するステップと、
生成した前記予測立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換するステップと、
変換した前記予測立体構造ベクトルを機械学習アルゴリズムに入力し、前記機械学習アルゴリズムを用いて前記予測立体構造ベクトルを判別することによって、前記生体高分子の立体構造と前記化合物の立体構造との結合性を予測するステップと、
を含む方法。
(項2)
前記機械学習アルゴリズムの学習に用いられる訓練データが、残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースに基づいて生成されている、項1に記載の方法。
(項3)
前記相互作用パターンデータベースが、
前記立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得するステップと、
前記立体構造データベースから取得した前記複合体の前記立体構造を、残基周辺に位置するリガンド原子の空間配置情報へ変換するステップと、
前記立体構造を取得するステップと、前記空間配置情報へ変換するステップとを繰り返し行うことにより、残基周辺に位置するリガンド原子の空間配置分布の統計を取得するステップと、
前記空間配置分布の統計に基づいて、複数の相互作用パターンを定義するステップと、
を含む方法により生成されている、項1または2に記載の方法。
(項A)
前記機械学習アルゴリズムが、ニューラルネットワーク構造の深層学習アルゴリズムである、項1から3のいずれかに記載の方法。
(項B)
結合性予測対象の前記化合物の立体構造が、理論的に求められた立体構造を含む、項Aに記載の方法。
(項C)
前記生体高分子が、タンパク質、核酸(DNA、RNA)または多糖である、項1から3およびAからBのいずれかに記載の方法。
(項D)
前記残基が、アミノ酸残基、ヌクレオチド残基、および単糖残基からなる群から選択されるいずれかの物質である、項1から3およびAからCのいずれかに記載の方法。
(項E)
結合性予測対象の前記化合物の立体構造を、前記立体構造データベースから取得する、項1から3およびAからDのいずれかに記載の方法。
(項F)
前記立体構造データベースが蛋白質構造データバンクである、項1から3およびAからEのいずれかに記載の方法。
(項4)
標的の生体高分子の指定と、結合性予測対象の化合物の立体構造とを取得する予測対象取得手段と、
生体高分子の立体構造を蓄積した立体構造データベースから、前記指定に対応する生体高分子の立体構造を取得する立体構造取得手段と、
取得した前記生体高分子の立体構造と前記化合物の立体構造とに基づいて、前記生体高分子と前記化合物との複合体の予測立体構造を生成する予測構造生成手段と、
生成した前記予測立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換手段と、
変換した前記予測立体構造ベクトルを機械学習アルゴリズムに入力し、前記機械学習アルゴリズムを用いて前記予測立体構造ベクトルを判別することによって、前記生体高分子の立体構造と前記化合物の立体構造との結合性を予測する結合性予測手段と、
を備える装置。
(項5)
コンピュータに、
標的の生体高分子の指定と、結合性予測対象の化合物の立体構造とを取得する予測対象取得機能と、
生体高分子の立体構造を蓄積した立体構造データベースから、前記指定に対応する生体高分子の立体構造を取得する立体構造取得機能と、
取得した前記生体高分子の立体構造と前記化合物の立体構造とに基づいて、前記生体高分子と前記化合物との複合体の予測立体構造を生成する予測構造生成機能と、
生成した前記予測立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換機能と、
変換した前記予測立体構造ベクトルを機械学習アルゴリズムに入力し、前記機械学習アルゴリズムを用いて前記予測立体構造ベクトルを判別することによって、前記生体高分子の立体構造と前記化合物の立体構造との結合性を予測する結合性予測機能と、
を実現させるプログラム。
(項6)
項5に記載のプログラムを記録した、コンピュータ読み取り可能な非一時的な有体の記録媒体。
(項7)
生体高分子の立体構造を蓄積した立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得するステップと、
前記立体構造データベースから取得した前記複合体の前記立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置情報へ変換するステップと、
前記空間配置情報を、残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す空間配置ベクトルへ変換するステップと、
前記立体構造データベースから取得した前記複合体の前記立体構造を、前記生体高分子の立体構造と前記リガンドの立体構造とに分割するステップと、
分割した前記生体高分子の立体構造と前記リガンドの立体構造とに基づいて、前記生体高分子と前記リガンドとの複合体の予測立体構造を生成するステップと、
生成した前記予測立体構造を前記相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換するステップと、
前記予測立体構造ベクトルと前記空間配置ベクトルとを訓練データとして、機械学習アルゴリズムを学習させるステップと、
を含む、機械学習アルゴリズムの製造方法。
(項8)
前記機械学習アルゴリズムを学習させるステップが、前記空間配置ベクトルを正例として、前記予測立体構造ベクトルについて正例または負例を示すラベルを決定し、前記予測立体構造ベクトルを入力層とし前記ラベルを出力層として、機械学習アルゴリズムを学習させるステップである、項7に記載の機械学習アルゴリズムの製造方法。
(項9)
前記相互作用パターンデータベースが、
前記立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得するステップと、
前記立体構造データベースから取得した前記複合体の前記立体構造を、残基周辺に位置するリガンド原子の空間配置情報へ変換するステップと、
前記立体構造を取得するステップと、前記空間配置情報へ変換するステップとを繰り返し行うことにより、残基周辺に位置するリガンド原子の空間配置分布の統計を取得するステップと、
前記空間配置分布の統計に基づいて、複数の相互作用パターンを定義するステップと、
を含む方法により生成されている、項7または8に記載の機械学習アルゴリズムの製造方法。
(項10)
生体高分子の立体構造を蓄積した立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得する複合体取得手段と、
前記立体構造データベースから取得した前記複合体の前記立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置情報へ変換する空間情報変換手段と、
前記空間配置情報を、残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す空間配置ベクトルへ変換する空間ベクトル変換手段と、
前記立体構造データベースから取得した前記複合体の前記立体構造を、前記生体高分子の立体構造と前記リガンドの立体構造とに分割する複合体分割手段と、
分割した前記生体高分子の立体構造と前記リガンドの立体構造とに基づいて、前記生体高分子と前記リガンドとの複合体の予測立体構造を生成する予測構造生成手段と、
生成した前記予測立体構造を前記相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換手段と、
前記予測立体構造ベクトルと前記空間配置ベクトルとを訓練データとして、機械学習アルゴリズムを学習させる学習手段と、
を備える、機械学習アルゴリズムの製造装置。
(項11)
コンピュータに、
生体高分子の立体構造を蓄積した立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得する複合体取得機能と、
前記立体構造データベースから取得した前記複合体の前記立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置情報へ変換する空間情報変換機能と、
前記空間配置情報を、残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す空間配置ベクトルへ変換する空間ベクトル変換機能と、
前記立体構造データベースから取得した前記複合体の前記立体構造を、前記生体高分子の立体構造と前記リガンドの立体構造とに分割する複合体分割機能と、
分割した前記生体高分子の立体構造と前記リガンドの立体構造とに基づいて、前記生体高分子と前記リガンドとの複合体の予測立体構造を生成する予測構造生成機能と、
生成した前記予測立体構造を前記相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換機能と、
前記予測立体構造ベクトルと前記空間配置ベクトルとを訓練データとして、機械学習アルゴリズムを学習させる学習機能と、
を実現させるプログラム。
(項12)
項11に記載のプログラムを記録した、コンピュータ読み取り可能な非一時的な有体の記録媒体。
本発明によると、得られる予測精度が高く演算速度が向上した、結合性予測方法、装置、プログラム、記録媒体、および結合性の予測に使用する機械学習アルゴリズムの製造方法を提供することができる。
本発明の実施の形態に係る結合性予測システムの概略構成図である。 ユーザ側装置のハードウェア構成を示すブロック図である。 相互作用パターンデータベースの作成手順を示すフローチャートである。 相互作用パターンデータベース作成処理の詳細を説明するための模式図である。 複合体の立体構造をアミノ酸周辺のリガンド原子の空間配置情報へ変換する手順を説明するための模式図である。 深層学習装置の機能を説明するためのブロック図である。 深層学習処理の手順を示すフローチャートである。 深層学習処理の詳細を説明するための模式図である。 ニューラルネットワークによる学習処理の詳細を説明するための模式図である。 結合性予測装置の機能を説明するためのブロック図である。 結合性予測処理の手順を示すフローチャートである。 結合性予測処理の詳細を説明するための模式図である。
以下、本発明の実施の形態を、添付の図面を参照して詳細に説明する。なお、以下の説明および図面において、同じ符号は同じまたは類似の構成要素を示すこととし、よって、同じまたは類似の構成要素に関する説明を省略する。
以下に説明する本発明の実施の形態では、標的のタンパク質の立体構造と化合物の立体構造との結合性を、ニューラルネットワーク構造の深層学習アルゴリズムに基づいて予測する場合を一例として説明する。結合性の予測に先立って、相互作用パターンデータベースと学習済みの深層学習アルゴリズムとが予め作成されている。
タンパク質の立体構造は、公知の蛋白質構造データバンク(PDB: Protein Data Bank、URL https://pdbj.org/、以下、単に蛋白質構造データバンクと記載する)から取得される。蛋白質構造データバンクは、核磁気共鳴法、X線結晶構造解析法等により実験的に確認されている種々のタンパク質の立体構造を、国際的に統一化されたフォーマットで記述して記録したデータベースである。例えば蛋白質構造データバンクでは、「pdbフォーマット」と呼ばれる形式で、立体構造が記述されている。pdbフォーマットでは、1行毎に情報が記述されており、1行に原子ひとつのX,YおよびZ座標が記載されている。
結合性を予測する対象である化合物は、本実施形態では低分子化合物である。低分子化合物の分子量は特に制限されないが、例えば300~800程度である。
タンパク質と化合物との複合体の立体構造は、相互作用パターンデータベースと照合することにより、相互作用パターンとの照合結果を表すベクトル情報へ変換される。変換されたベクトル情報は深層学習アルゴリズムに入力され、予測結果として、標的のタンパク質の立体構造と化合物の立体構造との結合性が出力される。
相互作用パターンデータベースは、複数の相互作用パターンをデータベースとして記録しており、所定の手順にて予め作成されている。相互作用パターンは、アミノ酸の周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義されている。
ニューラルネットワーク構造の深層学習アルゴリズムは、訓練データ(または教師データとも呼ぶ)を用いた学習ステップにより予め学習されている。
[構成の概要]
図1は、本発明の実施の形態に係る結合性予測システムの概略構成図である。本発明の実施の形態に係る結合性予測システムは、ユーザ側装置100(100A,100B)と、データサーバ200とを備える。ユーザ側装置100とデータサーバ200とはネットワーク99を通じて接続されている。任意の構成として、結合性予測システムは、ネットワーク99を通じて接続されるアプリケーションサーバ300をさらに備えることができる。
ユーザ側装置100は相互作用パターンデータベース110を備え、訓練データを用いた深層学習処理時には、深層学習装置100Aとして動作し、学習済みの深層学習アルゴリズムを用いた結合性予測処理時には、結合性予測装置100Bとして動作する。ユーザ側装置100は、例えば汎用コンピュータで構成されており、後述するフローチャートに基づいて、深層学習処理および結合性予測処理を行う。相互作用パターンデータベース110は、深層学習処理および結合性予測処理の両方において用いられる。
データサーバ200は立体構造データベース210を備える。立体構造データベース210には、実験的に確認された種々のタンパク質の立体構造が所定のフォーマットで記述されてデータベースとして記録されている。本実施形態では、立体構造データベース210は、上記した公知の蛋白質構造データバンクであり、以下の説明において所定の記述フォーマットとは、上記した「pdbフォーマット」を意味する。
[ハードウェア構成]
図2は、ユーザ側装置のハードウェア構成を示すブロック図である。ユーザ側装置100(100A,100B)は、処理部10(10A,10B)と、入力部16と、出力部17とを備える。
処理部10は、後述するデータ処理を行うCPU(Central Processing Unit)11と、データ処理の作業領域に使用するメモリ12と、後述するプログラムおよび処理データを記録する記録部13と、各部の間でデータを伝送するバス14と、外部機器とのデータの入出力を行うインタフェース部15とを備えている。入力部16および出力部17は、処理部10に接続されている。例示的には、入力部16はキーボードまたはマウス等の入力装置であり、出力部17は液晶ディスプレイ等の表示装置である。
処理部10は、以下の図3、図7および図11で説明する各ステップの処理を行うために、本発明に係るプログラムおよび深層学習アルゴリズムを、例えば実行形式(例えばプログラミング言語からコンパイラにより変換されて生成される)で記録部13に予め記録している。処理部10は、記録部13に記録したプログラムおよび深層学習アルゴリズムを使用して処理を行う。
なお、プログラムおよび学習後の深層学習アルゴリズムは、例えばDVD-ROMやUSBメモリ等の、コンピュータ読み取り可能であって非一時的な有形の記録媒体98から記録部13にインストールされてもよいし、別所に配置されたアプリケーションサーバ300(図1を参照)からネットワーク99を介して記録部13にインストールされてもよい。
以下の説明においては、特に断らない限り、処理部10が行う処理は、記録部13またはメモリ12に格納されたプログラムおよび深層学習アルゴリズムに基づいて、CPU11が行う処理を意味する。CPU11はメモリ12を作業領域として必要なデータ(処理途中の中間データ等)を一時記憶し、記録部13に演算結果等の長期保存するデータを適宜記録する。
[機能ブロックおよび処理手順]
以下ではまず、深層学習処理および結合性予測処理の両方において用いる相互作用パターンデータベースの作成方法について、図3~図5を参照して説明する。次に、訓練データを用いた深層学習アルゴリズムの学習方法について、図6~図9を参照して説明し、学習済みの深層学習アルゴリズムを用いた結合性の予測方法について、図10~図12を参照して説明する。
・相互作用パターンデータベースの作成
図3は、相互作用パターンデータベースの作成手順を示すフローチャートであり、図4は、相互作用パターンデータベース作成処理の詳細を説明するための模式図である。図5は、複合体の立体構造をアミノ酸周辺のリガンド原子の空間配置情報へ変換する手順を説明するための模式図である。
本実施形態では、図3に示す手順に沿って相互作用パターンデータベース110を予め作成しておき、ユーザ側装置100の記録部13に予め記録しておく。以下のステップS91~ステップS94の処理は、入力部16からのユーザの動作指示に基づいて、ユーザ側装置100の処理部10が行うことができる。
ステップS91において、処理部10は、立体構造データベース210から、タンパク質とリガンドとの複合体の立体構造を取得する。複合体の立体構造は所定の記述フォーマット(すなわち、上記した「pdbフォーマット」)で記録されている。
ステップS92において、処理部10は、立体構造データベース210から取得した複合体の立体構造を、アミノ酸周辺のリガンド原子の空間配置情報へ変換する。所定の記述フォーマットから変換されたリガンド原子の空間配置パターンの一例を図4(a)に示す。図4(a)に示す例では、アミノ酸原子41の周囲に位置するリガンド原子42の空間配置パターンの一例として、3種類の空間配置パターンが例示されている。図中、アミノ酸原子41を灰色の球体で表し、リガンド原子42を白色の球体で表す。
図5の模式図を参照して、複合体の立体構造をアミノ酸周辺のリガンド原子の空間配置情報へ変換する手順の一例を、具体的に説明する。本実施形態では、あるアミノ酸を構成する例えば原子3つについて、その周辺に存在するある種のリガンド原子の空間配置分布を求める。例えば、図5(a)の左側に示す立体構造がPDBファイル1に記述されており、図5(a)の右側に示す立体構造がPDBファイル2に記述されているケースを考える。まず、PDBファイル1について、以下のステップS921~S923の処理を行う。
ステップS921において、PDBファイルに記述されている立体構造の中から、相互作用しているタンパク質の3原子と、リガンドの1原子のペアとを抽出する。抽出した結果の構造を図5(b)にそれぞれ示す。
ステップS922において、抽出した構造を回転して向きを揃える。向きを揃えた結果の構造を図5(c)にそれぞれ示す。この図5(c)は図4(a)に相当する。
ステップS923において、向きが揃えられた複数の構造について、原子の種類が同じ構造を重ね合わせる。重ね合わせた結果を図5(d)に示す。例えば、図5(c)の左端に示す構造と図5(c)の右端に示す構造とは、原子の種類が同じであるので、これら構造を重ね合わせることにより、図5(d)の左側に示す構造を得る。
ステップS93において、処理部10は、ステップS91に示す立体構造の取得とステップS92に示す空間配置情報への変換とを繰り返し行うことにより、複数の複合体の立体構造について、リガンド原子の空間配置情報を複数取得し、アミノ酸周辺のリガンド原子の空間配置分布の統計を取得する。得られた空間配置分布の一例を図4(b)に示す。
図5の模式図を参照して説明すると、PDBファイル2について、上記したステップS921~S923の処理を行う。同様の処理を、立体構造データベース210から取得した複合体の立体構造の全てのPDBファイルについて行うことにより、4つの原子種類の組合せの数に相当する数の、空間配置分布が得られる。得られる空間配置分布は、図4(b)に例示されるとおりである。以後、後述するように、得られた空間配置分布のそれぞれについて、混合ガウス分布へのフィッティングを行う。
ステップS94において、処理部10は、空間配置分布の統計に基づいて相互作用パターンを定義し、相互作用パターンデータベース110を作成する。
図4(c)を参照して、相互作用パターンデータベース110の作成方法を説明する。例えば、破線1で囲む空間領域にリガンド原子42が配置されている空間配置のパターンを、「相互作用パターン1」として定義する。同様に、破線2で囲む空間領域にリガンド原子42が配置されている空間配置のパターンを、「相互作用パターン2」と定義し、破線3,4,5で囲む空間領域のそれぞれにリガンド原子42が配置されているそれぞれの空間配置のパターンを、「相互作用パターン3」、「相互作用パターン4」、「相互作用パターン5」とそれぞれ定義し、合計N種類(Nは自然数)の相互作用パターンを定義する。定義した相互作用パターン1から相互作用パターンNのそれぞれを、対応するリガンド原子の空間配置情報と対応付けて、相互作用パターンデータベース110として記録部13に記録し、相互作用パターンデータベース110を作成する。
これにより、或る化合物について、アミノ酸残基の周辺に位置するリガンド原子の空間配置情報が与えられると、この空間配置情報を相互作用パターンデータベース110と照合することにより、照合した化合物のリガンド原子の空間配置が、合計N種類の相互作用パターンのうちどの相互作用パターンに該当するのかを決定することが可能となる。
ここで、相互作用パターンデータベース110の作成に用いた立体構造データベース210は、実験的に確認された種々のタンパク質の立体構造を記録したデータベースである。したがって、相互作用パターンデータベース110との照合により、或る化合物についてリガンド原子の空間配置が「相互作用パターン1」に「該当する」と判断された場合、その空間配置は、リガンド原子がアミノ酸の周辺において実際に取り得る空間配置であり、「相互作用パターン1」であること、すなわち、図4(c)でいう破線1で囲む空間領域にリガンド原子が実際に配置可能であることを意味する。
図4(c)を参照して、相互作用パターンを定義する方法について説明する。相互作用パターンの定義には変分ベイズ推定の手法を用いる。本実施形態では、あるアミノ酸を構成する例えば原子3つについて、その周辺に存在するある種のリガンド原子の空間分布を混合ガウス分布として表現する。例えばアミノ酸におけるO-C-Oの周辺のリガンドC原子の空間分布をひとつの混合ガウス分布とし、アミノ酸におけるO-C-Nの周辺のリガンドC原子の空間分布を別の混合ガウス分布とする。すなわち原子種の組み合わせの数だけ、混合ガウス分布が存在する(この数をMとする)。なお原子種の定義は単純に元素のみでなく、sp2炭素やsp3炭素などの化学的性質を区別する。本実施形態ではSYBYL原子タイプを用いる。混合ガウス分布はガウス分布の線形和であり、すなわちガウス分布をG(μ,σ)とすると、混合ガウス分布はΣπG(μ,σ)で表される。ここで、k=1,2,・・・Kであり、Kはひとつの混合ガウス分布を構成するガウス分布の個数を意味する。π、μ、σ、の値のK個の組合せを求め、それぞれのガウス分布を相互作用パターンとして定義する。Kの値は空間分布によって異なり(つまりO-C-OとCの空間分布と、O-C-NとCの空間分布で異なる)この値は変分ベイズ法によって自動的に推定される。これをM個の空間分布について繰り返すことで様々な原子の種類での相互作用パターンを定義する。相互作用パターンを定義する方法のより詳細な手順については、本発明者らによる文献「Kasahara K, Kinoshita K, “Landscape of Protein-Small ligand Binding Modes”, 2016, Protein Science 25(9):1659-71」を参照されたい。
・深層学習処理
図6は、深層学習装置100Aの機能を説明するためのブロック図である。深層学習装置100Aの処理部10Aは、複合体取得部101と、空間情報変換部102と、空間ベクトル変換部103と、複合体分割部104と、予測構造生成部105と、予測ベクトル変換部106と、深層学習部107と、を備える。これらの機能ブロックは、コンピュータに深層学習処理を実行させるプログラムを、処理部10Aの記録部13にインストールし、このプログラムをCPU11が実行することにより実現される。
相互作用パターンデータベース110は、処理部10Aの記録部13に予め記録されている。深層学習部107が学習させる、学習前または学習途中の深層学習アルゴリズムは、処理部10Aの記録部13に予め記録されている。深層学習装置100Aの出力である、深層学習処理による学習済みの深層学習アルゴリズム108は、処理部10Aの記録部13に記録される。
図7は、深層学習処理の手順を示すフローチャートであり、図8は、深層学習処理の詳細を説明するための模式図である。
深層学習装置100Aの処理部10Aは、図7に示す処理を行う。図6に示す各機能ブロックを用いて説明すると、ステップS1の処理は複合体取得部101が行う。ステップS2の処理は空間情報変換部102が行い、ステップS3の処理は空間ベクトル変換部103が行う。ステップS4の処理は複合体分割部104が行い、ステップS5の処理は予測構造生成部105が行い、ステップS6の処理は予測ベクトル変換部106が行う。ステップS7の処理は深層学習部107が行う。
なお、ステップS1~ステップS6の処理は、深層学習に用いる訓練データを準備するステップであり、このうちステップS2~ステップS3の処理が、正例として用いる訓練データを準備するステップである。ステップS4~ステップS6の処理によって準備される訓練データは、正例として用いる訓練データと負例として用いる訓練データとが混在している訓練データである。
ステップS1において、処理部10Aは、立体構造データベース210から、タンパク質とリガンドとの複合体の立体構造を取得する。立体構造データベース210には、実験的に確認された種々のタンパク質の立体構造が所定の記述フォーマットで記録されており、処理部10Aは、深層学習アルゴリズムの訓練に用いる複合体の立体構造を複数取得する。例示的には、取得する複合体の立体構造は、約3,000種類である。
ステップS2において、処理部10Aは、立体構造データベース210から取得した複合体の立体構造を、アミノ酸周辺のリガンド原子の空間配置情報へ変換する。所定の記述フォーマットから変換されたリガンド原子の空間配置パターンの一例を図8(a)に示す。図8(a)に示す例では、アミノ酸原子41の周囲に位置するリガンド原子42の空間配置パターンの一例として、3種類の空間配置パターンが例示されている。本ステップS2の処理は、相互作用パターンデータベース110を作成する際のステップS92と同じである。
処理部10Aは、ステップS1において取得した複数の複合体の立体構造のそれぞれについて、ステップS2に示す空間配置情報への変換を繰り返し行う。
ステップS3において、処理部10Aは、リガンド原子の空間配置情報を相互作用パターンデータベース110と照合し、リガンド原子の空間配置情報を空間配置ベクトルへ変換する。例えば図8(b)の左図に示す例では、リガンド原子42の空間配置は「相互作用パターン2」に合致し、右図に示す例では、リガンド原子42の空間配置は「相互作用パターン4」に合致する。
空間配置情報に示されている各リガンド原子のそれぞれについて、このような相互作用パターンデータベース110との照合処理を行うことにより、相互作用パターンとの照合結果を表す空間配置ベクトル51を取得する。ここで、ステップS3において取得した空間配置ベクトル51は、実験的に確認された種々のタンパク質の立体構造を記録した立体構造データベース210から生成されていることから、空間配置ベクトル51は、アミノ酸の周辺に位置するリガンド原子が実際に取り得る正しい空間配置(正例)を示している。
処理部10Aは、ステップS2において得られた複数の空間配置情報のそれぞれについて、リガンド原子の空間配置情報を空間配置ベクトル51へ変換することにより、図8(c)に例示する複数の空間配置ベクトル51を取得する。これら複数の空間配置ベクトル51はすべて、アミノ酸原子41の周囲においてリガンド原子42が取り得る正しい空間配置を示しているので、ラベル値52に正例を意味する値を付して記録される。本実施形態では、正例を意味する値として、値「1」またはBoolean値「True」を使用し、負例を意味する値として、値「0」またはBoolean値「False」を使用する。
図8(c)を参照して、空間配置ベクトル51を具体的に説明する。例えば空間配置ベクトル51が7次元の整数ベクトル「0103000」で表されている場合を例にとる。この例では、2次元目の値が「1」であり、4次元目の値が「3」であり、1次元目、3次元目、5次元目、6次元目、および7次元目の値が「0」である。したがって、例示する空間配置ベクトル51は、「相互作用パターン2」で表される位置に存在するリガンド原子が存在するペアが1つあり、「相互作用パターン4」で表される位置にリガンド原子が存在するペアが3つあり、「相互作用パターン1、3、5、6、7」で表される位置には、リガンド原子42が位置していないことを意味している。
ステップS4において、処理部10Aは、ステップS1において立体構造データベース210から取得した複合体の立体構造を、タンパク質の立体構造とリガンドの立体構造とに分割する。例えば立体構造がpdbフォーマットで記述されている本実施形態では、行中の識別子「TER」により、タンパク質の立体構造を記載した行とリガンドの立体構造を記載した行との区切りが判別される。よって、pdbファイル中のこのように判別された区切り位置においてpdbファイルを分割することにより、タンパク質の立体構造とリガンドの立体構造とが分割される。
ステップS5において、処理部10Aは、分割した立体構造に基づいて、タンパク質とリガンドとの複合体の予測立体構造を生成する。本実施形態では、例えば分子モデリングシミュレーションソフトウェアであるAutoDockを用いて、複合体の立体構造を複数予測する。複合体の予測された立体構造は、所定の記述フォーマットで記録されている。このような複合体の立体構造を予測する処理を、ステップS1において取得した複数の複合体の立体構造に対して行う。例示的には、AutoDockにより予測されるドッキング構造の候補は、約13,000種類である。このステップS5の時点において取得される、複数の複合体の予測立体構造は、正しい予測構造(正例)と誤った予測構造(負例)とを含んでいる。
ステップS6において、処理部10Aは、ステップS5において生成した複合体の予測立体構造を相互作用パターンデータベース110と照合し、複合体の予測立体構造を予測立体構造ベクトルへ変換する。
ステップS3と同様に、予測立体構造に示されている各リガンド原子のそれぞれについて、図8(b)に例示する相互作用パターンデータベース110との照合処理を行うことにより、相互作用パターンとの照合結果を表す予測立体構造ベクトル53を取得する。
処理部10Aは、ステップS5において得られた複合体の複数の立体構造のそれぞれについて、予測立体構造を予測立体構造ベクトル53へ変換することにより、図8(d)に例示する複数の予測立体構造ベクトル53を取得する。この時点では、予測立体構造ベクトル53には、正例または負例を示すラベル値54は付されていない。予測立体構造ベクトル53のラベル値54は、後述するステップS7において、ステップS3において取得した空間配置ベクトル51と対比することにより、正例または負例が示される。
ステップS7において、処理部10Aは、ステップS3において取得した空間配置ベクトル51と、ステップS6において取得した予測立体構造ベクトル53とを訓練データとして、深層学習アルゴリズムを学習させる。
図9は、ニューラルネットワークによる学習処理の詳細を説明するための模式図である。深層学習タイプのニューラルネットワークとは、図9に示すニューラルネットワーク60のように、入力層61aと、出力層61bと、入力層61aおよび出力層61bの間の中間層61cとを備え、中間層61cが複数の層で構成されているニューラルネットワークである。深層学習タイプの場合、中間層61cを構成する層の数は、例えば5層以上とすることができる。
ニューラルネットワーク60では、層状に配置された複数のノード62が、隣接する層間においてのみ結合されている。これにより、情報が入力側の層61aから出力側の層61bに、図中矢印Dに示す一方向のみに伝播する。入力層61aのノード数は、例えば相互作用パターンのパターン数Nに対応している。
隣接する層間を結合する複数のノード62間のそれぞれには、結合重みw(またはシナプスウェイトとも呼ぶ)と呼ばれる係数が設定されている。ニューラルネットワークの学習とは、訓練データを入力することにより、例えば誤差逆伝播法(バックプロパゲーション法)に基づくアルゴリズムを用いて、この結合重みwを最適なものに更新する処理である。ニューラルネットワークによる深層学習は、例えば公知のソフトウェアツールキットを用いて行うことができる。
まず、処理部10Aは、正例のみで構成されている複数の空間配置ベクトル51と、正例および負例が混在している複数の予測立体構造ベクトル53とを対比することにより、複数の予測立体構造ベクトル53のそれぞれについて、ラベル値54を判定して記録する。正例を示す予測立体構造ベクトル53にはラベル値54に値「1」を付して記録し、負例を示す予測立体構造ベクトル53にはラベル値54に値「0」を付して記録する。
次に、処理部10Aは、図9に示すように、深層学習アルゴリズムを構成するニューラルネットワーク構造60の入力層61aに、空間配置ベクトル51または予測立体構造ベクトル53のベクトル情報を入力し、ニューラルネットワーク構造60の出力層61bに、入力層61aに入力したベクトル情報に対応するラベル値を入力する。
このような学習処理を、複数の空間配置ベクトル51または予測立体構造ベクトル53に対して再帰的に繰り返し行うことにより、結合重みwを最適なものに更新する。最適化された結合重みwとニューラルネットワーク60とを含む学習済みの深層学習アルゴリズム108は、記録部13に記録される。
・結合性予測処理
図10は、結合性予測装置100Bの機能を説明するためのブロック図である。結合性予測装置100Bの処理部10Bは、予測対象取得部111と、立体構造取得部112と、予測構造生成部113と、予測ベクトル変換部114と、結合性予測部115と、を備える。これらの機能ブロックは、コンピュータに結合性予測処理を実行させるプログラムを、処理部10Bの記録部13にインストールし、このプログラムをCPU11が実行することにより実現される。
相互作用パターンデータベース110は、処理部10Bの記録部13に予め記録されている。結合性予測処理に使用する学習済みの深層学習アルゴリズム108は、深層学習装置100Aにおいて学習されたものを使用する。
図11は、結合性予測処理の手順を示すフローチャートであり、図12は、結合性予測処理の詳細を説明するための模式図である。
結合性予測装置100Bの処理部10Bは、図11に示す処理を行う。図10に示す各機能ブロックを用いて説明すると、ステップS11の処理は予測対象取得部111が行い、ステップS12の処理は立体構造取得部112が行う。ステップS13の処理は予測構造生成部113が行い、ステップS14の処理は予測ベクトル変換部114が行う。ステップS15の処理は結合性予測部115が行う。
ステップS11において、処理部10Bは、標的とするタンパク質の指定と、結合性を予測する対象である化合物の立体構造とを取得する。本実施形態では、結合性を予測する対象である化合物の立体構造は、実験的に確認されている立体構造である。
標的とするタンパク質の指定は、入力部16を介してユーザから処理部10Bに入力される。結合性の予測対象である化合物の立体構造も、例えば入力部16を介してユーザから入力される。あるいは、結合性の予測対象である化合物の立体構造は予め記録部13に記録されており、入力部16を介してユーザが指定することにより、処理部10Bでの処理に供される。
ステップS12において、処理部10Bは、立体構造データベース210から、ステップS11において指定されたタンパク質の立体構造を取得する。
ステップS13において、処理部10Bは、ステップS12において取得した、標的とするタンパク質の立体構造と、ステップS11において取得した、結合性を予測する対象である化合物の立体構造とに基づいて、タンパク質と化合物との複合体の予測立体構造を生成する。
深層学習処理を行う際のステップS5と同様に、本実施形態では、例えば分子モデリングシミュレーションソフトウェアであるAutoDockを用いて、複合体の立体構造を複数予測する。複合体の予測された立体構造は、所定の記述フォーマットで記録されている。
ステップS14において、処理部10Bは、ステップS13において生成した複合体の予測立体構造を相互作用パターンデータベース110と照合し、複合体の予測立体構造を予測立体構造ベクトルへ変換する。
深層学習処理を行う際のステップS6と同様に、予測立体構造に示されている各リガンド原子のそれぞれについて、図8(b)に例示する相互作用パターンデータベース110との照合処理を行うことにより、相互作用パターンとの照合結果を表す予測立体構造ベクトル55を取得する。
処理部10Bは、ステップS13において得られた複合体の複数の立体構造のそれぞれについて、予測立体構造を予測立体構造ベクトル55へ変換することにより、図12に例示する複数の予測立体構造ベクトル55を取得する。
ステップS15において、処理部10Bは、ステップS14において取得した予測立体構造ベクトル55を、学習済みの深層学習アルゴリズム108に入力し、標的とするタンパク質の立体構造と、予測対象である化合物の立体構造との結合性を予測する。
処理部10Bは、学習済みの深層学習アルゴリズム108を構成するニューラルネットワーク構造60の入力層61aに、予測立体構造ベクトル55のベクトル情報を入力する。ニューラルネットワーク構造60の出力層61bには、入力層61aに入力したベクトル情報に対応するラベル値56が出力される。ここで、ラベル値56に値「1」が付されている予測立体構造ベクトル55は、実際に存在することが可能であると判定されたリガンド原子の空間配置であり、ラベル値56に値「0」が付されている予測立体構造ベクトル55は、実際に存在することが不可能であると判定されたリガンド原子の空間配置である。
処理部10Bは、予測立体構造ベクトル55とラベル値56との複数のペアを含む予測結果116のうち、例えばラベル値56に値「1」が付されているペアの予測立体構造ベクトル55を、ユーザへの出力として出力部17に出力する。あるいは、出力部17への出力に代えて、予測結果116を記録部13に記録してもよい。
以上、本発明によると、得られる予測精度が高く演算速度が向上した、結合性予測方法、装置、プログラム、記録媒体、および結合性の予測に使用する機械学習アルゴリズムの製造方法を提供することができる。
標的とするタンパク質の立体構造と低分子化合物の立体構造との結合性を予測する従来の方法では、タンパク質および低分子化合物の配置の座標データから、量子化学計算により相互作用エネルギーを算出している。これに対し、本発明による結合性の予測方法では、空間内に位置する原子の配置パターンの確率分布との差(すなわち、相互作用パターンデータベースとの照合)によって予測を行うので、量子化学計算による複雑なエネルギー計算が不要となり、シミュレーション速度を向上させることができる。また、本発明による結合性の予測方法によると、相互作用パターンデータベースとの照合により、原子の空間配置パターンはベクトル化されるので、ニューラルネットワークを用いた深層学習アルゴリズムへの適用に適した形式となる。
また、本発明による結合性の予測方法によると、AutoDock等の分子モデリングシミュレーションソフトウェアにより得られる予測構造を元に、さらに上記した確率分布による評価を加えることができるので、予測精度を向上させることができる。例示的には、予測精度は約90%以上である。
[付記事項]
以上、本発明を特定の実施の形態によって説明したが、本発明は上記した実施の形態に限定されるものではない。
上記実施の形態では、タンパク質を標的として化合物との結合性を予測しているが、タンパク質に代えて、核酸(DNA、RNA)、多糖等の生体高分子を使用してもよい。
上記実施の形態では、アミノ酸の周辺に位置するリガンド原子の空間配置分布の統計に基づいて相互作用パターンを定義しているが、リガンド原子の空間配置は、アミノ酸残基の周辺に位置するものに限られず、ヌクレオチド残基の周辺、単糖残基の周辺等に位置するものであってもよい。
上記実施の形態では、タンパク質の立体構造を蛋白質構造データバンクから取得しているが、タンパク質等の生体高分子の立体構造を蓄積したデータベースであれば、蛋白質構造データバンク以外の他のデータベースであってもよい。或いは、公共のデータベースである蛋白質構造データバンクを使用せず、例えば、自社内で研究段階にある未公開のタンパク質の立体構造を蓄積したプライベートなデータベースを、自社内または自研究所内のサーバに予め作成しておき、このプライベートなデータベースからタンパク質の立体構造を取得してもよい。
上記実施の形態では、機械学習アルゴリズムとしてニューラルネットワーク構造の深層学習アルゴリズムを用いているが、機械学習アルゴリズムはこれに限定されず、例えばサポートベクターマシン、ランダムフォレスト等の種々の機械学習アルゴリズムを用いることができる。
上記実施の形態では、結合性を予測する対象である化合物の立体構造は、入力部16を介してユーザから取得、または予め記録部13に記録されている立体構造を使用しているが、結合性予測対象の化合物の立体構造を取得する態様はこれに限らず、例えば、入力部16を介して対象とする化合物がユーザから指定され、蛋白質構造データバンク等の立体構造データベースから、指定に対応する化合物の立体構造を取得してもよい。
上記実施の形態では、結合性を予測する対象である化合物の立体構造は、実験的に確認されている立体構造であるが、結合性を予測する対象である化合物の立体構造は、理論的に求められた立体構造であってもよい。
上記実施の形態では、例えば分子モデリングシミュレーションソフトウェアであるAutoDockを用いて、複合体の立体構造を予測しているが、複合体の立体構造を予測するためのソフトウェアはAutoDockに限定されず、公知の種々の分子モデリングシミュレーションソフトウェアを用いることができる。
上記実施の形態では、処理部10は一体の装置として実現されているが、処理部10は一体の装置である必要はなく、CPU11、メモリ12、記録部13等が別所に配置され、これらがネットワークで接続されていてもよい。処理部10と、入力部16と、出力部17とについても、一ヶ所に配置される必要は必ずしもなく、それぞれ別所に配置されて互いにネットワークで通信可能に接続されていてもよい。
上記実施の形態では、処理部10A,10Bの各機能ブロックは単一のCPU11で実行されているが、これら各機能ブロックは単一のCPU11で実行される必要は必ずしもなく、複数のCPUで分散して処理されてもよい。
上記実施の形態では、深層学習処理100Aにおいて、相互作用パターンデータベース110および学習前または学習途中の深層学習アルゴリズムは、処理部10Aの記録部13に予め記録されているが、これらは外部のサーバ(例えば、図1に示すアプリケーションサーバ300)に記録されて、ネットワーク99を介して処理部10Aに取り込まれてもよい。同様に、上記実施の形態では、結合性予測装置100Bにおいて、相互作用パターンデータベース110および学習済みの深層学習アルゴリズム108は、処理部10Bの記録部13に予め記録されているが、これらも外部のサーバ(例えば、図1に示すアプリケーションサーバ300)に記録されて、ネットワーク99を介して処理部10Aに取り込まれてもよい。
上記実施の形態では、入力部16はキーボードまたはマウス等の入力装置で実現され、出力部17は液晶ディスプレイ等の表示装置で実現されているが、入力部16と出力部17とを一体化してタッチパネル式の表示装置として構成してもよい。
10(10A,10B) 処理部
11 CPU
12 メモリ
13 記録部
14 バス
15 インタフェース部
16 入力部
17 出力部
41 アミノ酸原子
42 リガンド原子
51 空間配置ベクトル
52 ラベル値
53 予測立体構造ベクトル
54 ラベル値
55 予測立体構造ベクトル
56 ラベル値
60 ニューラルネットワーク
61a 入力層
61b 出力層
61c 中間層
62 ノード
98 記録媒体
99 ネットワーク
100 ユーザ側装置
100A 深層学習装置
100B 結合性予測装置
101 複合体取得部
102 空間情報変換部
103 空間ベクトル変換部
104 複合体分割部
105 予測構造生成部
106 予測ベクトル変換部
107 深層学習部
108 深層学習アルゴリズム
110 相互作用パターンデータベース
111 予測対象取得部
112 立体構造取得部
113 予測構造生成部
114 予測ベクトル変換部
115 結合性予測部
116 予測結果
200 データサーバ
210 立体構造データベース
300 アプリケーションサーバ

Claims (12)

  1. 生体高分子の立体構造と化合物の立体構造との結合性をコンピュータにより予測する方法であって、
    標的の生体高分子の指定と、結合性予測対象の化合物の立体構造とを取得するステップと、
    生体高分子の立体構造を蓄積した立体構造データベースから、前記指定に対応する生体高分子の立体構造を取得するステップと、
    取得した前記生体高分子の立体構造と前記化合物の立体構造とに基づいて、前記生体高分子と前記化合物との複合体の予測立体構造を生成するステップと、
    生成した前記予測立体構造を、生体高分子の残基周辺に位置するリガンド原子の複数の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換するステップと、
    変換した前記予測立体構造ベクトルを学習済の機械学習アルゴリズムに入力し、前記機械学習アルゴリズムを用いて前記予測立体構造ベクトルを判別することによって、前記生体高分子の立体構造と前記化合物の立体構造との結合性を予測するステップと、
    を含み、
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されている、コンピュータによる結合性予測方法。
  2. 前記機械学習アルゴリズムの学習に用いられる訓練データが、残基周辺に位置するリガンド原子の複数の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースに基づいて生成されており、
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されている、請求項1に記載の結合性予測方法。
  3. 前記相互作用パターンデータベースが、
    前記立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得するステップと、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、残基周辺に位置するリガンド原子の空間配置情報へ変換するステップと、
    前記立体構造を取得するステップと、前記空間配置情報へ変換するステップとを繰り返し行うことにより、残基周辺に位置するリガンド原子の複数の空間配置分布の統計を取得するステップと、
    前記複数の空間配置分布の統計に基づいて、複数の相互作用パターンを定義するステップと、
    を含む方法により生成されており、
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されている、請求項1または2に記載の結合性予測方法。
  4. 前記混合型の確率分布は混合ガウス分布である、請求項1から3のいずれか一項に記載の結合性予測方法。
  5. 標的の生体高分子の指定と、結合性予測対象の化合物の立体構造とを取得する予測対象取得手段と、
    生体高分子の立体構造を蓄積した立体構造データベースから、前記指定に対応する生体高分子の立体構造を取得する立体構造取得手段と、
    取得した前記生体高分子の立体構造と前記化合物の立体構造とに基づいて、前記生体高分子と前記化合物との複合体の予測立体構造を生成する予測構造生成手段と、
    生成した前記予測立体構造を、生体高分子の残基周辺に位置するリガンド原子の複数の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換手段と、
    変換した前記予測立体構造ベクトルを学習済の機械学習アルゴリズムに入力し、前記機械学習アルゴリズムを用いて前記予測立体構造ベクトルを判別することによって、前記生体高分子の立体構造と前記化合物の立体構造との結合性を予測する結合性予測手段と、
    を備え
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されてい結合性予測装置。
  6. コンピュータに、
    標的の生体高分子の指定と、結合性予測対象の化合物の立体構造とを取得する予測対象取得機能と、
    生体高分子の立体構造を蓄積した立体構造データベースから、前記指定に対応する生体高分子の立体構造を取得する立体構造取得機能と、
    取得した前記生体高分子の立体構造と前記化合物の立体構造とに基づいて、前記生体高分子と前記化合物との複合体の予測立体構造を生成する予測構造生成機能と、
    生成した前記予測立体構造を、生体高分子の残基周辺に位置するリガンド原子の複数の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換機能と、
    変換した前記予測立体構造ベクトルを学習済の機械学習アルゴリズムに入力し、前記機械学習アルゴリズムを用いて前記予測立体構造ベクトルを判別することによって、前記生体高分子の立体構造と前記化合物の立体構造との結合性を予測する結合性予測機能と、
    を実現させ
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されているプログラム。
  7. 請求項に記載のプログラムを記録した、コンピュータ読み取り可能な非一時的な有体の記録媒体。
  8. コンピュータにより機械学習アルゴリズムを学習させる方法であって、
    生体高分子の立体構造を蓄積した立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得するステップと、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置情報へ変換するステップと、
    前記空間配置情報を、残基周辺に位置するリガンド原子の複数の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す空間配置ベクトルへ変換するステップと、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、前記生体高分子の立体構造と前記リガンドの立体構造とに分割するステップと、
    分割した前記生体高分子の立体構造と前記リガンドの立体構造とに基づいて、前記生体高分子と前記リガンドとの複合体の予測立体構造を生成するステップと、
    生成した前記予測立体構造を前記相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換するステップと、
    前記予測立体構造ベクトルと前記空間配置ベクトルとを訓練データとして、機械学習アルゴリズムを学習させるステップであり、前記空間配置ベクトルを正例として、前記予測立体構造ベクトルについて正例または負例を示すラベルを決定し、前記予測立体構造ベクトルを入力層とし前記ラベルを出力層として、機械学習アルゴリズムを学習させるステップと、
    を含み、
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されているコンピュータによる機械学習アルゴリズムの学習方法。
  9. 前記相互作用パターンデータベースが、
    前記立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得するステップと、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、残基周辺に位置するリガンド原子の空間配置情報へ変換するステップと、
    前記立体構造を取得するステップと、前記空間配置情報へ変換するステップとを繰り返し行うことにより、残基周辺に位置するリガンド原子の複数の空間配置分布の統計を取得するステップと、
    前記複数の空間配置分布の統計に基づいて、複数の相互作用パターンを定義するステップと、
    を含む方法により生成されており、
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されている、請求項に記載の機械学習アルゴリズムの学習方法。
  10. 生体高分子の立体構造を蓄積した立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得する複合体取得手段と、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置情報へ変換する空間情報変換手段と、
    前記空間配置情報を、残基周辺に位置するリガンド原子の複数の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す空間配置ベクトルへ変換する空間ベクトル変換手段と、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、前記生体高分子の立体構造と前記リガンドの立体構造とに分割する複合体分割手段と、
    分割した前記生体高分子の立体構造と前記リガンドの立体構造とに基づいて、前記生体高分子と前記リガンドとの複合体の予測立体構造を生成する予測構造生成手段と、
    生成した前記予測立体構造を前記相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換手段と、
    前記予測立体構造ベクトルと前記空間配置ベクトルとを訓練データとして、機械学習アルゴリズムを学習させる学習手段であり、前記空間配置ベクトルを正例として、前記予測立体構造ベクトルについて正例または負例を示すラベルを決定し、前記予測立体構造ベクトルを入力層とし前記ラベルを出力層として、機械学習アルゴリズムを学習させる学習手段と、
    を備え
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されている、機械学習アルゴリズムの学習装置。
  11. コンピュータに、
    生体高分子の立体構造を蓄積した立体構造データベースから、生体高分子とリガンドとの複合体の立体構造を取得する複合体取得機能と、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、生体高分子の残基周辺に位置するリガンド原子の空間配置情報へ変換する空間情報変換機能と、
    前記空間配置情報を、残基周辺に位置するリガンド原子の空間配置分布の統計に基づいて定義された複数の相互作用パターンを含む相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す空間配置ベクトルへ変換する空間ベクトル変換機能と、
    前記立体構造データベースから取得した前記複合体の前記立体構造を、前記生体高分子の立体構造と前記リガンドの立体構造とに分割する複合体分割機能と、
    分割した前記生体高分子の立体構造と前記リガンドの立体構造とに基づいて、前記生体高分子と前記リガンドとの複合体の予測立体構造を生成する予測構造生成機能と、
    生成した前記予測立体構造を前記相互作用パターンデータベースと照合し、前記相互作用パターンとの照合結果を表す予測立体構造ベクトルへ変換する予測ベクトル変換機能と、
    前記予測立体構造ベクトルと前記空間配置ベクトルとを訓練データとして、機械学習アルゴリズムを学習させる学習機能であり、前記空間配置ベクトルを正例として、前記予測立体構造ベクトルについて正例または負例を示すラベルを決定し、前記予測立体構造ベクトルを入力層とし前記ラベルを出力層として、機械学習アルゴリズムを学習させる学習機能と、
    を実現させ
    前記複数の空間配置分布が、生体高分子を構成する原子種の組み合わせの数に応じた複数の混合型の確率分布によって表現されているプログラム。
  12. 請求項11に記載のプログラムを記録した、コンピュータ読み取り可能な非一時的な有体の記録媒体。
JP2017149996A 2017-08-02 2017-08-02 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法 Active JP7048065B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017149996A JP7048065B2 (ja) 2017-08-02 2017-08-02 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017149996A JP7048065B2 (ja) 2017-08-02 2017-08-02 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法

Publications (2)

Publication Number Publication Date
JP2019028879A JP2019028879A (ja) 2019-02-21
JP7048065B2 true JP7048065B2 (ja) 2022-04-05

Family

ID=65478599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017149996A Active JP7048065B2 (ja) 2017-08-02 2017-08-02 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法

Country Status (1)

Country Link
JP (1) JP7048065B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7317104B2 (ja) * 2019-03-29 2023-07-28 富士フイルム株式会社 特徴量算出方法、特徴量算出プログラム、非一時的記録媒体、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、非一時的記録媒体、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、記録媒体、及び化合物創出装置
EP3957989A4 (en) * 2019-04-16 2022-10-12 FUJIFILM Corporation PROPERTY VALUE CALCULATION METHOD, PROPERTY VALUE CALCULATION PROGRAM, CHARACTERISTIC VALUE CALCULATION DEVICE, SCREENING METHOD, SCREENING PROGRAM AND METHOD OF CREATING A COMPOUND
EP3962932A4 (en) * 2019-05-02 2023-05-10 Board of Regents, The University of Texas System SYSTEM AND METHODS FOR INCREASING THE STABILITY OF SYNTHETIC PROTEINS
KR20220092899A (ko) 2019-11-11 2022-07-04 쇼와덴코머티리얼즈가부시끼가이샤 정보 처리 시스템, 정보 처리 방법, 및 정보 처리 프로그램
JP7509152B2 (ja) 2019-11-11 2024-07-02 株式会社レゾナック 情報処理システム、情報処理方法、および情報処理プログラム
JP7395974B2 (ja) 2019-11-12 2023-12-12 株式会社レゾナック 入力データ生成システム、入力データ生成方法、及び入力データ生成プログラム
US20230060812A1 (en) 2020-02-18 2023-03-02 Showa Denko Materials Co., Ltd. Information processing system, information processing method, and storage medium
CN111243668B (zh) * 2020-04-09 2020-08-07 腾讯科技(深圳)有限公司 分子结合位点检测方法、装置、电子设备及存储介质
US20230103487A1 (en) * 2020-06-24 2023-04-06 Sri International Unsupervised invertible physics-based vector representation for molecules
JP7125575B2 (ja) * 2020-11-13 2022-08-25 アヘッド・バイオコンピューティング株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理システム
CN116745850A (zh) 2020-11-27 2023-09-12 株式会社力森诺科 信息处理系统、信息处理方法及信息处理程序
JP2022167397A (ja) 2021-04-23 2022-11-04 昭和電工マテリアルズ株式会社 特性予測システム、特性予測方法、及び特性予測プログラム
JP2022167395A (ja) 2021-04-23 2022-11-04 昭和電工マテリアルズ株式会社 特性予測システム、特性予測方法、及び特性予測プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011752A (ja) 2005-06-30 2007-01-18 Kyoto Univ データ処理装置、データ処理プログラム、それを格納したコンピュータ読み取り可能な記録媒体、およびデータ処理方法
CN102930181A (zh) 2012-11-07 2013-02-13 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
JP2017520868A (ja) 2014-05-05 2017-07-27 アトムワイズ,インコーポレイテッド 結合親和性予測システム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011752A (ja) 2005-06-30 2007-01-18 Kyoto Univ データ処理装置、データ処理プログラム、それを格納したコンピュータ読み取り可能な記録媒体、およびデータ処理方法
CN102930181A (zh) 2012-11-07 2013-02-13 四川大学 基于分子描述符的蛋白质-配体亲和力预测方法
JP2017520868A (ja) 2014-05-05 2017-07-27 アトムワイズ,インコーポレイテッド 結合親和性予測システム及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOTA, K et al.,Ligand-binding site prediction of proteins based on known fragment-fragment interactions,Bioinformatics,2010年,Vol. 26, No. 12,p.1493-1499,URL:https://doi.org/10.1093/bioinformatics/btq232,検索日:2021年8月12日
笠原 浩太, 外1名,既知複合体立体構造の知識に基づいたタンパク質-リガンド結合様式予測手法の開発,ケモインフォティクス討論会予稿集,2008年,p.1-2,URL:https://doi.org/10.11545/ciqs.2008.0.O9.0,検索日:2021年8月12日

Also Published As

Publication number Publication date
JP2019028879A (ja) 2019-02-21

Similar Documents

Publication Publication Date Title
JP7048065B2 (ja) 結合性予測方法、装置、プログラム、記録媒体、および機械学習アルゴリズムの学習方法
Ajagekar et al. Quantum computing based hybrid solution strategies for large-scale discrete-continuous optimization problems
Gabaldón Large-scale assignment of orthology: back to phylogenetics?
US20180053328A1 (en) Systems and Methods for Processing Computational Workflows
US20050278124A1 (en) Methods for molecular property modeling using virtual data
CN1942878A (zh) 用于化学反应和生化过程的建模,模拟和分析的方法和设备
Song et al. Elastic structural analysis based on graph neural network without labeled data
Sibieude et al. Population pharmacokinetic model selection assisted by machine learning
WO2021183871A1 (en) Hybrid computational system of classical and quantum computing for drug discovery and methods
de Almeida Paiva et al. Protein structural bioinformatics: An overview
WO2006065950A2 (en) Modeling biological effects of molecules using molecular property models
Wang et al. Reconstruct high-resolution 3D genome structures for diverse cell-types using FLAMINGO
Santa Maria Jr et al. Perspective on the challenges and opportunities of accelerating drug discovery with artificial intelligence
Santander-Jiménez et al. Asynchronous non-generational model to parallelize metaheuristics: a bioinformatics case study
Yousif et al. Shape clustering using k-medoids in architectural form finding
Razali et al. Adaptive infill sampling strategy for metamodeling: Challenge and future research directions
Aburidi et al. Optimal Transport-Based Graph Kernels for Drug Property Prediction
Nguyen et al. How Quantum Mechanics and Machine Learning Could Collaboratively Advance the Field of Pharmaceutical Research
González-Domínguez Fast and accurate multiple sequence alignment with msaprobs-mpi
Flöther Early quantum computing applications on the path towards precision medicine
Marmolejo et al. Interaction fingerprints and their applications to identify hot spots
Chaurasia et al. CoSec: a hub of online tools for comparing secondary structure elements
Zhou Durable: Dynamic Using Rapid Biological Advances and Lasting Epigenetic Factors in Cancer Drug Response Via Machine Learning System
Sommer Druglike: Applications of Proof-of-Optimization in Democratized Drug Discovery [Draft]
Khan Current trends for customized biomedical software tools

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220316

R150 Certificate of patent or registration of utility model

Ref document number: 7048065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150