JP2022099245A

JP2022099245A - 創薬標的タンパク質の予測方法、創薬標的タンパク質の予測システム

Info

Publication number: JP2022099245A
Application number: JP2021170944A
Authority: JP
Inventors: 芳裕山西; Yoshihiro Yamanishi; 隆介澤田; Ryusuke Sawada
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2020-12-22
Filing date: 2021-10-19
Publication date: 2022-07-04

Abstract

【課題】治療目的の疾患の創薬標的タンパク質を予測する予測方法及び予測システムを提供する。【解決手段】治療目的の疾患の創薬標的タンパク質の予測方法において、創薬標的タンパク質を予測したい治療目的の疾患を選択し、その疾患について、まず臨床データ解析を行う解析工程Ｓ１１を行い、有効な可能性がある薬剤を特定し、この薬剤について、その化合物に対する結合タンパク質予測を行う予測工程Ｓ２１を行う。そして、予測された創薬標的タンパク質を、適宜モニタ等に表示させるＳ３１。【選択図】図１

Description

特許法第３０条第２項適用申請有り令和３年９月２７日～２９日オンラインで開催された第１０回生命医薬情報学連合大会，ポスター発表「臨床ビッグデータからの疾患予防薬の探索と治療標的の推定」にて公開（ウェブサイトのアドレス：ｈｔｔｐｓ：／／ｉｉｂｍｐ２０２１．ｈａｍａｄａｌａｂ．ｃｏｍ／ｐｏｓｔｅｒ／令和３年９月１５日インターネットで「２０２１年日本バイオインフォマティクス学会年会・第１０回生命医薬情報学連合大会（ＩＩＢＭＰ２０２１）」の「臨床ビッグデータからの疾患予防薬の探索と治療標的の推定」の要旨を公開（ウェブサイトのアドレス：ｈｔｔｐｓ：／／ｉｉｂｍｐ２０２１．ｈａｍａｄａｌａｂ．ｃｏｍ／ｏｎｌｉｎｅ／令和３年９月インターネットで「情報計算化学生物学会（ＣＢＩ学会）２０２１年大会」の「ＡＩによるデータ駆動型研究が拓く創薬と医療」の要旨を公開（ウェブサイトのアドレス：ｈｔｔｐｓ：／／ｃｂｉ－ｓｏｃｉｅｔｙ．ｏｒｇ／ｔａｉｋａｉ／ｔａｉｋａｉ２１／ＣＰＩ／Ｐ－０８＿Ｙａｍａｎｉｓｈｉ．ｐｄｆ

本発明は創薬標的タンパク質の予測方法および創薬標的タンパク質の予測システムに関する。

創薬標的は疾患の治療に繋がるタンパク質などの生体分子である。医薬品は創薬標的の生体分子に結合して、阻害や活性化など制御するように設計される。不適切な創薬標的を選択すると、医薬品開発の成功率は下がるため、創薬標的分子を特定することは医薬品開発における重要な課題である。

特許文献１は、タンパク質－タンパク質相互作用の立体構造の属性、該タンパク質－タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤／化合物の属性、及び該タンパク質－タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質－タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質－タンパク質相互作用を予測する数学モデルを構築することを開示している。

特許文献２は、既存の薬剤の中から、疾患に効果のある薬剤の候補を迅速かつ適切に選び出す方法を提供するものである。特許文献２は、次のような内容を開示している。薬剤探索装置１は、既知の複数の薬剤について遺伝子の発現量データを記憶した薬剤応答ＤＢ１３を備える。サンプルとコントロールの発現量データを入力し、サンプルとコントロールとの間での発現量の違いを表す変動データを算出する。薬剤応答ＤＢ１３から読み出した既知の複数の薬剤についての発現量データと疾患の変動データをパラメータとして、既知の複数の薬剤と疾患とをノードとするネットワーク構造を推定する。ネットワーク構造に基づいて既知の複数の薬剤と疾患をネットワーククラスタリングする。疾患と同じクラスタに分類された薬剤の中から、疾患と逆の相関を有する薬剤を選択し、選択された薬剤のデータを出力する。

特開２０１０－１６５２３０号公報特開２０１６－０９９６７４号公報

創薬標的となるタンパク質である創薬標的タンパク質を特定することは、医薬品開発において重要である。一方で、生体内におけるタンパク質等の数は膨大で、その機能なども明確ではない部分がある。また、関係性が直ちには明確ではないタンパク質が、生体の組織や器官等に密接な関係がある場合もある。さらには、治療薬や治療手段が確立されていない原因不明の難病も多数存在する。これらに対して、特許文献１の数学モデルの構築や特許文献２の薬剤探索を行う以外にも、創薬標的タンパク質の新たな予測方法が求められている。
係る状況下、本発明の目的は、治療目的の疾患の創薬標的タンパク質を予測することである。

本発明者は、上記課題を解決すべく鋭意研究を重ねた結果、下記の発明が上記目的に合致することを見出し、本発明に至った。すなわち、本発明は、以下の発明に係るものである。

＜１＞治療目的の疾患の創薬標的タンパク質の予測方法であって、
臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、
化合物とタンパク質に関する相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測方法。
＜２＞前記予測する工程が以下の（１）～（３）からなる予測スコア群から選択される１種類以上の予測スコアとして結合タンパク質を予測するものである前記＜１＞に記載の予測方法。
（１）前記化学構造データと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と化学構造の類似度が高い登録化合物を予測化合物として求める化学構造の予測スコア
（２）前記遺伝子発現プロファイルデータと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と遺伝子発現プロファイルの類似度が高い登録化合物を予測化合物として求める遺伝子発現の予測スコア
（３）化合物とタンパク質の相互作用に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア
＜３＞前記予測する工程が、前記予測スコア群から２種類以上の予測スコアを予測したものであり、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものである前記＜２＞に記載の予測方法。
＜４＞前記臨床データが、薬物有害事象報告システムに収集されたデータである、前記＜１＞～＜３＞のいずれかに記載の予測方法。
＜５＞前記解析する工程で、疾患予防薬の候補について、２以上の複数の疾患予防薬を抽出し、
前記予測する工程で、前記複数の疾患予防薬について、それぞれの結合タンパク質の候補を抽出し、これらの複数の疾患予防薬に対する結合タンパク質候補を組み合わせて、創薬標的タンパク質を予測する、前記＜１＞～＜４＞のいずれかに記載の予測方法。
＜６＞治療目的の疾患の創薬標的タンパク質を予測するシステムであって、
臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測システム。

本発明によれば、治療目的の疾患の創薬標的タンパク質を予測することができる。

本発明の予測方法に係る実施形態のフロー図である。本発明の予測方法に係る他の実施形態のフロー図である。本発明の予測システムに係る実施形態の概要図である。本発明の予測工程の例を説明するための図である。本発明の予測工程の一例にかかる工程の一部を説明するための図である。本発明の予測工程の一例にかかる工程の一部を説明するための図である。本発明の予測工程の一例にかかる工程の一部を説明するための図である。本発明の予測工程の他の一例にかかる工程の一部を説明するための図である。本発明の予測工程の他の一例にかかる工程の一部を説明するための図である。本発明の予測工程の他の一例にかかる工程の一部を説明するための図である。本発明の予測工程の他の一例を説明するための図である。

以下に本発明の実施の形態を詳細に説明するが、以下に記載する構成要件の説明は、本発明の実施態様の一例（代表例）であり、本発明はその要旨を変更しない限り、以下の内容に限定されない。なお、本明細書において「～」という表現を用いる場合、その前後の数値を含む表現として用いる。

［本発明の予測方法］
本発明の創薬標的タンパク質の予測方法は、治療目的の疾患の創薬標的タンパク質の予測方法であって、臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する。本願において、本発明の創薬標的タンパク質の予測方法を、単に本発明の予測方法と呼ぶ場合がある。

［本発明の予測システム］
本発明の創薬標的タンパク質の予測システムは、治療目的の疾患の創薬標的タンパク質を予測するシステムであって、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する。本願において、本発明の創薬標的タンパク質の予測システムを、単に本発明の予測システムと呼ぶ場合がある。

本発明の予測方法や本発明の予測システムによれば、創薬標的タンパク質を予測することができる。なお、本願において本発明の予測システムにより本発明の予測方法を行うこともでき、本願においてそれぞれに対応する構成は相互に利用することができる。

本発明者らは、創薬標的タンパク質の予測について検討するにあたり、臨床データの活用と、化合物の結合タンパク質を予測する技術を融合することを検討した。臨床データは、既存薬などに関する臨床データである。臨床データの解析によって既存薬がその薬の治療対象とは異なる他の疾患への治療効果などの影響があることを見出すことができる。他方、化合物と類似する化合物を特定する技術が検討されている。

本発明者らは、これらの情報を組み合わせて、ある疾患に影響がある薬剤について、その薬剤の化合物の構造やオミックスデータに基づいて、その化合物と結合するタンパク質を予測することができる可能性があることを見出し、本発明に至った。この手法によれば、結合タンパク質に関する情報から、疾患に対する創薬標的タンパク質自体が予測される。これは、従来の知見からは予測しにくい創薬標的タンパク質を見出すことができ、その創薬標的タンパク質を対象とした新薬の開発にも利用できるという利点を有する。

［創薬標的タンパク質を予測するフロー図］
図１は、本発明の予測方法に係る実施形態のフロー図である。創薬標的タンパク質を予測したい治療目的の疾患を選択し、その疾患について、まず臨床データ解析を行う解析工程のステップＳ１１が行われ、有効な可能性がある薬剤が特定される。この薬剤について、その化合物に対する結合タンパク質予測を行う予測工程のステップＳ２１を行う。そして、予測された創薬標的タンパク質が、ステップＳ３１にて、適宜、モニタ等に表示される。

図２は、本発明の予測方法に係る他の実施形態のフロー図である。図２はより詳しいフロー図の例を示すものである。まず、創薬標的タンパク質を予測したい疾患を入力する。次に、臨床データ解析にて、臨床データを用いて薬剤を投与したときの疾患の起こりやすさであるオッズ比を計算する。この疾患の起こりやすさが有意に低い、オッズ比＜１．０の薬剤を選択する。この疾患の起こりやすさが低い薬剤が、予防効果が期待できる疾患予防薬として抽出される。

次に、結合タンパク質予測にて、相互作用データやオミックスデータ、化学構造データを用いて、化学構造やオミックスデータに基づく予測スコアにより予測を行う。この予測スコアによる予測を、複数の薬剤について行うことで、これらの薬剤に共通する結合タンパク質を選択する。これにより、結合タンパク質の可能性が高いものと予測されるものを、創薬標的タンパク質と予測することができる。

［創薬標的タンパク質の予測システム］
図３は、本発明の予測システムに係る実施形態の概要図である。予測システム１は、入力部２に創薬標的タンパク質を予測したい疾患を入力する。この予測のための疾患予防薬を求める解析部の解析や、結合タンパク質を求める予測部の予測を行う制御部４を有する。この制御部４は、治療目的の疾患や、解析や予測を行うためのデータを収集したデータ部３のデータを利用する。また、予測システム１は、解析や予測のためのプログラム、解析結果や予測結果などを保存するメモリ５を有する。また、その制御等に関する情報や、予測結果を表示する表示部６を有する。

データ部３は、臨床データ３１や相互作用データ３２、オミックスデータ３３、化学構造データ３４などのデータを適宜、外部データベースなどから入手したり、設定したり、収集したものを用いることができる。また表示部６の出力に基づいて、創薬標的タンパク質とその予測スコアを、外部モニタ６１などに表示することができる。これらにはスーパーコンピュータやモニタなどを適宜採用して構成する。

［治療目的の疾患］
本発明の予測方法は、治療目的の疾患の創薬標的タンパク質の予測方法である。治療目的の疾患は、本発明の予測方法の治療目的の対象として選択された疾患である。治療目的の疾患は、治療薬が存在する疾患や治療薬が存在しない疾患、治療薬が入手しにくい疾患、治療薬を製造しにくい疾患、治療が難しい難病の疾患、患者数が少ない疾患などを対象とすることができる。

［解析工程］
解析する工程（解析工程）は、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤（化合物）を疾患予防薬として解析する工程である。

［臨床データ］
臨床データは、医薬品と、その医薬品副作用の有害事象などが収集されたデータである。臨床データは、薬物有害事象報告システムに収集されたデータを用いることができる。例えば、ＦＡＥＲＳやＪＡＤＥＲなどのデータベースが公開されており、これらを臨床データとして利用することができる。これらのデータベースは、そのまま用いてもよいが、例えば、明らかな誤記や表現の揺らぎなどのノイズが含まれている場合は、それらのノイズを低減したり、除去したりする処理を行ったものを、解析工程で用いる臨床データとしてもよい。また、治療目的の疾患について、単に疾患名で解析するだけでなく、臨床データに含まれているデータに、治療対象などに応じて薬効や治療の適切さに影響する因子である年齢や性別などのフィルタリングを行ったデータを臨床データとして用いてもよい。

「ＦＡＥＲＳ」（ＦＤＡＡｄｖｅｒｓｅＥｖｅｎｔｓＲｅｐｏｒｔｉｎｇＳｙｓｔｅｍ：米国食品医薬品局の有害事象報告システム）は、米国食品医薬品局（ＦＤＡ）が公開しているデータベースである。ＦＡＥＲＳには、ＤＥＭＯ、ＤＲＵＧ、ＲＥＡＣ、ＯＵＴＣ、ＲＰＳＲ、ＩＮＤＩ、ＴＨＥＲといった情報が含まれている。ＤＥＭＯは、性別、年齢、有害事象発現日、有害事象発生国等の患者の基本情報である。ＤＲＵＧは、医薬品名、投与ルート、投与量等の情報である。ＲＥＡＣは、有害事象名である。ＯＵＴＣは、症例の転帰である。ＲＰＳＲは、有害事象情報源である。ＩＮＤＩは、適応症である。ＴＨＥＲは、投与開始日、投与終了日、治療期間などの情報である。ＦＡＥＲＳの登録薬剤数は約１６，０００件以上、有害事象数は約４，０００万件の登録情報があり定期的に更新されている。

「ＪＡＤＥＲ」（ＪａｐａｎｅｓｅＡｄｖｅｒｓｅＤｒｕｇＥｖｅｎｔＲｅｐｏｒｔｄａｔａｂａｓｅ：日本医薬品副作用データベース）は、独立行政法人医薬品医療機器総合機構（ＰＭＤＡ）が公開しているデータベースである。ＪＡＤＥＲの登録薬剤数は約３，０００件以上、有害事象数は約１，０００万件の登録情報があり定期的に更新されている。

［オッズ比］
解析工程では、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算する。この疾患の起こりやすさは、オッズ比とも呼ばれる。投薬による臨床データは、新たに治療目的とする疾患に対して次の４種に分類できる。なお、ここでは既存薬を既存薬αとし、治療目的の疾患を疾患βとして説明する。なお、既存薬αは疾患βを治療する既存薬ではない状態の臨床データである。
分類Ａ：既存薬αを服用し、疾患βの患者である群
分類Ｂ：既存薬αを服用し、疾患βの患者ではない群
分類Ｃ：既存薬αを服用しておらず、疾患βの患者である群
分類Ｄ：既存薬αを服用しておらず、疾患βの患者ではない群

このような分類のもと、オッズ比は、次の式であらわすことができる。
オッズ比＝「分類Ａ×分類Ｄ」／「分類Ｂ×分類Ｃ」
すなわち、服用し患者である群（分類Ａ）と服用せず患者ではない群（分類Ｄ）の、服用し患者ではない群（分類Ｂ）と服用せず患者である群（分類Ｃ）に対する比率を示すものである。このオッズ比が高い場合、既存薬αを服用していても疾患βを発症しており、服用していなくても疾患βが発症しにくいことを示しており、既存薬αが予防薬や治療薬として期待しにくいことが考えられる。このオッズ比が低い場合、既存薬αを服用している者が疾患βを発症しにくく、服用していない者は疾患βを発症しやすいことを示しており、既存薬αが予防薬や治療薬として期待できることが考えられる。オッズ比は、有意に低いと統計学的な検定によるｐ値の低さ（ｐ＜０．０５など）で判断することができる。

このオッズ比を用いて、薬剤を投与したときの疾患の起こりやすさを計算することができ、オッズ比が低い薬剤を疾患予防薬とする解析を行うことができる。疾患予防薬は、１以上のものを候補として抽出するように解析することができ、疾患予防薬は２以上や、３以上、４以上など複数の候補を見出すものとしてもよい。疾患予防薬の候補数の上限は特に定めなくてもよいが、データ処理の効率や、創薬標的タンパク質の予測スコアの影響などを考慮して１００以下や、５０以下、３０以下などとしておいてもよい。

なお、オッズ比については、参考文献１として、「Horinouchi et al, Renoprotective effects of a factor Xa inhibitor: fusion of basic research and a database analysis, Sci Rep. 2018; 8: 10858.」を参照することができる。

［疾患予防薬］
解析工程で、臨床データから疾患の起こりやすさが低い薬剤を疾患予防薬として抽出する。疾患予防薬は、治療目的の疾患を潜在的に予防している可能性があると考えられる薬剤である。これらの薬剤のうち、有効成分や、主要成分である化合物が特定されているものを対象として結合タンパク質を予測する。

［予測工程］
予測する工程（予測工程）は、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程である。

［化合物とタンパク質との結合］
化合物とタンパク質は結合し、化合物は結合するタンパク質の機能に影響を与え、タンパク質を活性化させたり阻害させたりする。本願では、ある化合物が結合するタンパク質を結合タンパク質とよぶ。予測工程の機械学習に用いる学習データとしては、相互作用データや、遺伝子発現プロファイルデータ、化学構造データなどのデータを利用することができる。そして、これらを機械学習して、疾患予防薬として指定した薬剤の化合物としての構造等に着目して、その化合物（疾患予防薬）と結合するタンパク質を予測する。

［相互作用データ］
相互作用データは、化合物とタンパク質間の相互作用に関するデータである。これらのデータを有するデータベースとしては、例えば、ＣｈＥＭＢＬ、ＭＡＴＡＤＯＲ、ＤｒｕｇＢａｎｋ、ＰＤＳＰ－Ｋｉ、ＫＥＧＧＤＲＵＧ、ＢｉｎｄｉｎｇＤＢ、ＴｈｅｒａｐｅｕｔｉｃＴａｒｇｅｔＤａｔａｂａｓｅなどを用いることができる。これらからなる群から１以上を用いることができ、複数用いてもよい。化合物とタンパク質間の相互作用に関するデータは、上記以外の他のデータベースを用いてもよい。

ＣｈＥＭＢＬは、ＥＢＩが提供するＤｒｕｇ－ｌｉｋｅな生物活性低分子のデータベースである。

ＭＡＴＡＤＯＲ（ＭａｎｕａｌｌｙＡｎｎｏｔａｔｅｄＴａｒｇｅｔｓａｎｄＤｒｕｇｓＯｎｌｉｎｅＲｅｓｏｕｒｃｅ）は、タンパク質の化学的作用に関するデータベースである。

ＤｒｕｇＢａｎｋは、ＵｎｉｖｅｒｓｉｔｙｏｆＡｌｂｅｒｔａが開発した、ＦＤＡ認可済み薬剤や治験中の薬剤などの薬品とターゲットタンパク質に関する情報を収集、整理したデータベースである。

ＰＤＳＰ－Ｋｉ（ＰｓｙｃｈｏａｃｔｉｖｅＤｒｕｇＳｃｒｅｅｎｉｎｇＰｒｏｇｒａｍＫｉＤａｔａｂａｓｅ）は、パブリックドメイン内のリソースであり、薬物と分子標的との相互作用に関する情報を提供するデータベースである。

ＫＥＧＧＤＲＵＧ、日本、米国、欧州の医薬品情報を化学構造と成分の観点から一元的に集約したデータベースである。

ＢｉｎｄｉｎｇＤＢは、主に薬剤様分子と、創薬標的と考えられるタンパク質の相互作用に焦点を当てて、測定された結合親和性に関するデータベースである。

ＴｈｅｒａｐｅｕｔｉｃＴａｒｇｅｔＤａｔａｂａｓｅ（ＴＴＤ）は、既知の治療用タンパク質と核酸標的に関する情報を提供するデータベースである。

［遺伝子発現プロファイルデータ］
遺伝子発現プロファイルデータは、オミックスデータ（オミックス情報）に関する。オミックスデータは、網羅的な生体分子についての情報であり、具体的にはゲノム（Ｇｅｎｏｍｅ）やトランスクリプトーム（Ｔｒａｎｓｃｒｉｐｔｏｍｅ）、プロテオーム（Ｐｒｏｔｅｏｍｅ）、メタボローム（Ｍｅｔａｂｏｌｏｍｅ）、インタラクトーム（Ｉｎｔｅｒａｃｔｏｍｅ）、セローム（Ｃｅｌｌｏｍｅ）と呼ばれる、様々な網羅的な分子情報をまとめた情報である。疾患予防薬と、遺伝子発現プロファイルが類似する結合タンパク質が既知の化合物を特定するために遺伝子発現プロファイルデータなどを用いることができる。

［化学構造データ］
化学構造データは、化合物の化学構造記述式などに基づき、化学構造の特徴を見出すためのデータである。疾患予防薬の化合物が、既知のリガンドと化学構造が類似する場合、そのリガンドと対応するアクセプターを有する標的タンパク質を見出すことなどができる。このため、疾患予防薬の化合物と類似する化学構造を有する、既知のリガンドとして登録されている化合物を特定するために化学構造データなどを用いることができる。

［予測スコア］
予測する工程は、これらの化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する。

予測スコアは、結合タンパク質の可能性を示す指標とする点数である。予測スコアが高いものを結合タンパク質の可能性が高いものとし、予測スコアが低いものを結合タンパク質の可能性が低いものとすることができる。予測スコアは、予測スコアを算出する手法に応じて算出しやすい値をそのまま用いてもよいし、多数の化合物とタンパク質との組み合わせについて予測した結果を正規化して比較しやすいものとしてもよい。このような予測スコアを用いて、結合タンパク質を、疾患の創薬標的タンパク質として予測する。

予測する工程の予測スコアは、例えば、以下の（１）～（３）からなる予測スコア群のものなどを用いることができる。これらの予測スコア群から選択される１以上の予測スコアとして結合タンパク質を予測するものとすることができる。なお、（１）～（３）のそれぞれに対応する手法には、それぞれに属する予測スコアを求める手法が複数存在し得る。このため、（１）に属する予測スコアを複数用いたり、（２）に属する予測スコアを複数用いたり、（３）に属する予測スコアを複数用いることもできる。

（１）化学構造データと相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、疾患予防薬の化合物と化学構造の類似度を考慮して算出される予測スコア

この（１）に係る予測スコアは、例えば、ＫＣＦ－Ｓなどの記述子を利用して類似度を算出するものとして用いることができる。

この予測スコアの算出には、例えば、類似度検索や、ＫＣＦ－Ｓ記述子に関する以下の文献を参照することができる。

・参考文献２－１「Kotera et al., 2013, BMC Syst. Biol. Kotera, M., Tabei, Y., Yamanishi, Y., Moriya, Y., Tokimatsu, T., Kanehisa, M., and Goto, S.,"KCF-S: KEGG Chemical Function and Substructure for improved interpretability and prediction in chemical bioinformatics",BMC Systems Biology, 7(Suppl 6):S2, 2013」
・参考文献２－２「Sawada, R., Iwata, M., Umezaki, M., Usui, Y., Kobayashi, T., Kubono, T., Hayashi, S., Kadowaki, M., and Yamanishi, Y.,"KampoDB, database of predicted targets and functional annotations of natural medicines",Scientific Reports, 8:11216, 2018.」
・参考文献２－３「Tabei, Y., Kishimoto, A., Kotera, M., and Yamanishi, Y.,"Succinct Interval Splitting Tree for Scalable Similarity Search of Compound-Protein Pairs with Property Constraints",Proceedings of the 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD2013), 176-184, ACM New York, NY, USA, 2013.」などを参照することができる。

（２）遺伝子発現プロファイルデータと相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、疾患予防薬の化合物と遺伝子発現プロファイルの類似度を考慮して算出される予測スコア

この（２）に係る予測スコアは、例えば、遺伝子発現プロファイルデータ、オミックスデータに関する以下の文献を参照することができる。

・参考文献３－１「Lamb,J. et al., "The Connectivity Map: using gene-expression signatures to connect small molecules, genes, and disease". Science, 313, 1929-1935, 2006」
・参考文献３－２「Subramanian, A. et al., "A next generation connectivity Map: L1000 platform and the first 1,000,000 profiles". Cell, 171, 1437-1452, 2017」
・参考文献３－３「Iwata, M. et al., "Pathway-based drug repositioning for cancers: computational prediction and experimental validation", Journal of Medicinal Chemistry, 61(21), 9583-9595, 2018」などを参照することができる。

また、（２）の予測スコアを求めるにあたっては、適宜、疾患予防薬の遺伝子発現プロファイルを評価したデータを用いてもよいし、既知の遺伝子発現プロファイルデータがある場合は、そのデータを用いてもよい。

（３）化合物とタンパク質の相互作用に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア

この（３）に係る予測スコアは、化合物とタンパク質の結合などの相互作用の有無等に関して、機械学習を行った予測モデルを用いるものである。これらは、各種の機械学習を採用することができるが、より具体的には、以下の手法などを用いることができる。

（３Ａ）化合物とタンパク質に関する、相互作用ペアおよび非相互作用ペアを学習データとして、相互作用ペアと被相互作用ペアとを分離する機械学習を行った予測モデルを用いて、疾患予防薬の結合タンパク質を予測した結合タンパク質予測モデルの予測スコア

この（３Ａ）に係る予測スコアは、例えば、カーネル法の枠組みで、ペアワイズカーネル回帰、サポートベクターマシンにより算出することができる。この予測スコアに係る化合物の化学構造から予測するものや、ヒト由来細胞における化合物の遺伝子発現パターンから予測するものとしては、以下の文献などを参照することができる。
・参考文献４－１「Yamanishi, Y.,"Supervised Bipartite Graph Inference",Advances in Neural Information Processing Systems 21 (Koller, D., Schuurmans, D., Bengio, Y. and Bottou, L. eds.), 1841-1848, MIT Press, Cambridge, MA, 2009.」
・参考文献４－２「Bleakley, K. and Yamanishi, Y.,"Supervised prediction of drug-target interactions using bipartite local models",Bioinformatics, 25, 2397-2403, 2009.」
・参考文献４－３「Yamanishi et al, Bioinformatics, 2008」
・参考文献４－４「Yamanishi, Adv Neural Inf Process Syst, 2009」
・参考文献４－５「Bleakleyet al., Bioinformatics, 2009」
・参考文献４－６「Tabei et al, BMC Systems Biology, 2013」
・参考文献４－７「Hizukuri et al, BMC Med Genomics, 2015」
・参考文献４－８「Iwata et al, Sci rep, 2017; Sawada et al, Sci rep, 2018」

（３Ｂ）化合物とタンパク質との相互作用の有無を、化合物の構造の空間上で分類する機械学習により、疾患予防薬の結合タンパク質を予測した予測スコア

この（３Ｂ）に係る予測スコアは、スパースモデリングによるものであり、例えば、Ｌ１正則化ロジスティック回帰等により算出することができる。このようなロジスティック回帰を用いるものとしては、以下の文献などを参照することができる。

・参考文献５－１「Tabei, Y., Kotera, M., Sawada, R., and Yamanishi, Y.,"Network-based characterization of drug-protein interaction signatures with a space-efficient approach",
BMC Systems Biology, 13(Suppl 2):39, 2019.」
・参考文献５－２「Tabei, Y., Pauwels, E., Stoven, V., Takemoto, K., and Yamanishi, Y.,
"Identification of chemogenomic features from drug-target interaction networks using interpretable classifiers",Bioinformatics, 28, i487-i494, 2012.」

（３Ｃ）化学構造データと相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、化学構造に基づくグラフ畳み込みニューラルネットワークを用いて結合タンパク質について機械学習を行った予測モデルを用いて、疾患予防薬の結合タンパク質を予測した予測スコア

この（３Ｃ）に係る予測スコアは、深層学習モデルの一種であるグラフ畳み込みニューラルネットワークに基づき、以下の文献などを参照することができる。

・参考文献６－１「Fukunaga, I., Sawada, R., Shibata, T., Kaitoh, K., Sakai, Y., and Yamanishi, Y.,"Prediction of the Health Effects of Food Peptides and Elucidation of the Mode-of-action Using Multi-task Graph Convolutional Neural Network",Molecular Informatics, 39(1-2):e1900134, 2020.」
・参考文献６－２「Altae-Tran et al., 2017, ACS Cent. Sci. , 3, 4, 283-293 」

（３）の予測スコアとしては、ケモゲノミクス法に基づく結合タンパク質予測に関する、以下の文献などを参照することができる。

・参考文献７－１「Yamanishi, Y., Kotera, M., Moriya, Y., Sawada, R., Kanehisa, M., and Goto, S. "DINIES: drug-target interaction network inference engine based on supervised analysis",Nucleic Acids Research, 42, W39-W45, 2014」
・参考文献７－２「Yamanishi, Y., Araki, M., Gutteridge, A., Honda, W., and Kanehisa, M.,"Prediction of drug-target interaction networks from the integration of chemical and genomic spaces",Bioinformatics, 24, i232-i240, 2008.」

（３）の予測スコアとしては、トランスクリプトミクス法に基づく結合タンパク質予測に関する、以下の文献などを参照することができる。

・参考文献８－１「Sawada, R., Iwata, M., Tabei, Y., Yamato, H., and Yamanishi, Y.,"Predicting inhibitory and activatory drug targets by chemically and genetically perturbed transcriptome signatures",Scientific Reports, 8:156, 2018.」
・参考文献８－２「Iwata, M., Sawada, R., Iwata, H., Kotera, M., and Yamanishi, Y.,"Elucidating the modes of action for bioactive compounds in a cell-specific manner by large-scale chemically-induced transcriptomics",Scientific Reports, 7:40164, 2017.」
・参考文献８－３「Hizukuri, Y., Sawada, R., and Yamanishi, Y.,"Predicting target proteins for drug candidate compounds based on drug-induced gene expression data in a chemical structure-independent manner",BMC Medical Genomics, 8:82 (10 pages), 2015.」

（３）の予測スコアとしては、フェノミクス法に基づく結合タンパク質予測に関する、以下の文献などを参照することができる。

・参考文献９－１Takarabe, M., Kotera, M., Nishimura, Y., Goto, S., and Yamanishi, Y.,"Drug target prediction using adverse event report systems: a pharmacogenomic approach",Bioinformatics, 28, i611-i618, 2012.」
・参考文献９－２「Yamanishi, Y., Kotera, M., Kanehisa, M., and Goto, S.,"Drug-target interaction prediction from chemical, genomic and pharmacological data in an integrated framework",Bioinformatics, 26, i246-i254, 2010.」

図４は、本発明の予測工程の例を説明するための図である。図４は、特に、予測スコア群の（１）の予測スコアや、（２）の予測スコアを算出する流れを示したものである。薬物（薬剤）の化合物データに基づいて、上段に示すように、化合物構造データに関する類似化合物を特定する。これは、特に上記（１）の予測スコアに関する。この化合物データを用いた類似化合物は、化合物・タンパク質の相互作用（結合）データと照合して、タンパク質との相互作用が既知のものを利用することができる。例えば、疾患予防薬の化合物と類似化合物の類似度を予測スコアとすることができる。

同様に、図４の下段は、遺伝子発現プロファイルなどオミックスデータに関する類似化合物を特定する。これは、特に上記（２）の予測スコアに関する。このオミックスデータを用いた類似化合物は、化合物・タンパク質の相互作用（結合）データと照合して、タンパク質との相互作用が既知のものを利用することができる。例えば、疾患予防薬の化合物と類似化合物のオミックスデータによる類似度を予測スコアとすることができる。

図５、図６、および図７は、本発明の予測工程の一例にかかる工程の一部を説明するための図である。図５～７により、（１）の予測スコアを算出することができ、ＫＣＦ－Ｓ（参考文献「Kotera et al., 2013, BMC Syst. Biol.」）を参照して行うことができる。ＥＣＦＰやＤＲＡＧＯＮなど他の記述子やフィンガープリントを用いてもよい。グラフ畳み込みニューラルネットワークで生成される特徴ベクトルを用いてもよい。

図５に示すように、疾患予防薬の化学構造について、類似度が高い化合物を見出すために、所定の部分構造の有無やその数を特定する。この所定の部分構造は５０万などの多数のものであるが、図５では例えば、最も左の芳香族カルボン酸様の構造を１つ有し、左から２番目のエステル様構造を１つ有し、左から３番目のカルボン酸様構造を２つ有し、右から２番目のピラゾリジン様構造はなく（０）、最も右のエトキシ様構造を３つ有するものと特定する。

次に、疾患予防薬の部分構造の特定結果に基づいて、それと同様に部分構造の有無、その数について類似度が高い化合物を特定する。類似度は図６に示すような手法で行われる。ここでは、化合物Ｘ、化合物Ｙとの類似度を求める例を示す。化合物Ｘと、化合物Ｙについて、その部分構造の数値化を行って比較して、類似度を数値化する。この算出による類似度は、完全に一致するものであれば１となり、全く異なるものは０となる。１に近いほど、類似度が高いものとなる。類似度が最も高い化合物を抽出するものとしてもよいし、類似度が高い順に、複数の化合物を抽出するものとしてもよい。

図７は、図５，６のような化学構造の類似度が高いものを相互作用データと照合して、結合タンパク質の予測スコアを数値化する例である。ある疾患予防薬（Ｄｒｕｇ）を入力したとき、その疾患予防薬の化合物と類似度が高い順に、類似化合物として類似度（ＣｏｍｐｏｕｎｄＳｉｍｉｌａｒｉｔｙ）と合わせて抽出する。この類似化合物が、相互作用データにおいて結合タンパク質とされているものを確認する。そして、それぞれの類似化合物の類似度を、結合タンパク質のスコアとする。例えば、類似度が０．９１の類似化合物の結合タンパク質は、創薬標的タンパク質の予測（Ｅｓｔｉｍａｔｅｄｔａｒｇｅｔｐｒｏｔｅｉｎ）の予測スコア０．９１とすることができる。同様に類似度が０．８０の類似化合物の結合タンパク質の予測スコアは０．８０とすることができる。類似度が０．７７のときは、予測スコアを０．７７とすることができる。

［機械学習］
予測工程は、相互作用データや、遺伝子発現プロファイルデータ、化学構造データなどのデータを学習データとして、相互作用ペアと、非相互作用ペアを分離するためのニューラルネットワークモデルを用いて、疾患予防薬の結合タンパク質を予測するものとすることができる。予測工程は、これらのデータから、化合物と結合タンパク質との結合に係る学習済みモデル（学習済みニューラルネットワークモデル）を生成して、これを利用する。カーネル法やスパース分類器などの他の機械学習のモデルを用いてもよい。このような学習済みモデルを用いることで、解析工程で抽出された疾患予防薬の化合物を未知のデータとして入力したときに、出力される結合タンパク質を創薬標的タンパク質とする。

予測工程は、化学構造の類似度に基づく予測や、遺伝子発現プロファイルの類似度に基づく予測、グラフ畳み込みニューラルネットワークを用いた化学構造に基づく予測などの観点で予測することができるように学習済みモデルを作成する。これらの学習済みモデルはいずれかの学習済みモデルのみで用いてもよいし、複数の学習済みモデルを総合的に用いるものとしてもよい。

［カーネル法］
図８、図９、および図１０は、本発明の予測工程の他の一例にかかる工程の一部を説明するための図である。これらは、特に、上記（３）の予測スコアに関するものであり、機械学習を用いるものである。これはカーネル法による結合タンパク質を予測するものである。

図８に示すように、化合物とタンパク質間の相互作用予測を機械学習の視点から定式化を試みる。このために、化合物とタンパク質の既知の相互作用を学習データとして、相互作用が未知の化合物とタンパク質との相互作用を予測する学習済みモデル作成を行う。

図９に示すように、ここでは、化合物とタンパク質のペアを作成し、それが相互作用ペアか、非相互作用ペアかが既知のものを学習データとして用いて、化合物とタンパク質とのペアワイズ学習を行い、化合物とタンパク質の相互作用の有無を分離する予測のための特徴空間を作成する。

相互作用の機械学習に用いるデータの枠組みには、ケモゲノミクス法やフェノミクス法、トランスクリプトミクス法などを用いることができる。これらを学習データの化合物類似性や、タンパク質類似性に関する情報として利用して、相互作用を予測するものとする。

ケモゲノミクス法は、化合物の化学構造に関するケミカル空間と、タンパク質の配列・構造に関するゲノム空間の情報を組み合わせるものである。例えば、前述の参考文献「Yamanishi et al, Bioinformatics, 2008」、参考文献「Yamanishi, Adv Neural Inf Process Syst, 2009」、参考文献「Bleakley et al., Bioinformatics, 2009」、参考文献「Tabei et al, BMC Systems Biology, 2013」などを参考とすることができる。

フェノミクス法は、頭痛、吐き気、気分高揚、血圧の変化、疾患マーカーの変動など人体へのフェノタイプに関する薬理空間と、タンパク質の配列・構造に関するゲノム空間の情報を組み合わせるものである。

トランスクリプトミクス法は、化合物応答遺伝子発現に関する転写空間と、タンパク質の遺伝子発現に関するゲノム空間の情報を組み合わせるものである。例えば、参考文献「Hizukuri et al, BMC Med Genomics, 2015」、参考文献「Iwata et al, Sci rep, 2017; Sawada et al, Sci rep, 2018」を参考とすることができる。

［ロジスティック回帰］
ロジスティック回帰は、すべての化合物をタンパク質との相互作用の有りと無しに記述子の空間上で分類するときに用いることができる。ロジスティック回帰は、下記のＬ１正則化に基づくロジスティック回帰の式により算出するものとすることができる。この式において各記号は次のものである。Ｘｉ：化合物の記述子ｉ。ｎ：化合物の総数。ｗ：記述子の重み。Ｃ：正則化パラメータ。これにより、分類に効いている記述子の重みを大きくするように学習する。Ｌ２正則化に基づく学習法を用いてもよい。Ｌ１正則化のサポートベクターマシンなど他のスパース分類器を用いてもよい。

［ニューラルネットワーク］
図１１は、本発明の予測工程の他の一例を説明するための図である。参考文献「Altae-Tran et al., 2017, ACS Cent. Sci.」を参考とすることができる。ここでは、薬剤の化合物の化学構造に基づいて、グラフ畳み込みを行って、入力層に対する作用の有無を判別するニューラルネットワークを構築する。グラフ畳み込みでは、グラフトポロジーと原子特徴の抽出（１．ｅｘｔｒａｃｔｇｒａｐｈｔｏｐｏｌｏｇｙａｎｄａｔｏｍｆｅａｔｕｒｅｓ）を行い、グラフ畳み込みとプールの適用（２．ａｐｐｌｙｇｒａｐｈｃｏｎｖｏｌｕｔｉｏｎｓａｎｄｐｏｏｌｓ）を行い、グラフ集合の適用（３．ａｐｐｌｙｇｒａｐｈｇａｔｈｅｒ）を行い、密集層の適用（４．ａｐｐｌｙｄｅｎｓｅｌａｙｅｒ）を行う。このグラフ畳み込みを利用して、入力層、中間層、出力層のニューラルネットワークを構築して、相互作用の有無を判別する。このニューラルネットワークは、前述の（３Ｃ）の予測スコアに用いることができる。各タンパク質ごとに予測モデルを構築するシングルタスク学習、全てのタンパク質に対する予測モデルを同時に構築するマルチタスク学習、どちらを用いてもよい。

［統合スコア］
予測工程は、予測スコア群から２種類以上の予測スコアを予測し、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものとすることができる。例えば、（１）～（３）のそれぞれの予測スコアが算出されたら、それらを各指標内で正規化した値として、合計したものを統合スコアとすることができる。ある疾患予防薬に対応する結合タンパク質について、（１）から採用した予測スコアが０．９、（２）から採用した予測スコアが０．８、（３）から採用した第一の予測スコアが０．９５、（３）から採用した第二の予測スコアが０．８５、（３）から採用した第三の予測スコアが０．８のように予測スコアが算出されれば、これらを合計する統合スコアは、４．３のように算出される。

予測工程は、解析工程で複数の疾患予防薬を抽出し、これらの疾患予防薬の予測スコアを総合した予測スコアを求めるものとすることが好ましい。これを総合スコアと呼ぶものとしてもよい。例えば、疾患予防薬候補を２種、結合タンパク質を３種抽出する例で説明する。オッズ比から抽出された第一の疾患予防薬（ａ）について、結合タンパク質候補のタンパク質Ａ、タンパク質Ｂ、およびタンパク質Ｃのそれぞれの予測スコアや統合スコアを算出する。次に、第二の疾患予防薬（ｂ）について、結合タンパク質候補のタンパク質Ａ、タンパク質Ｂ、およびタンパク質Ｃのそれぞれの予測スコアや統合スコアを算出する。この第一の疾患予防薬（ａ）、および第二の疾患予防薬（ｂ）のそれぞれの予測スコアを合わせることで、タンパク質Ａ、タンパク質Ｂ、およびタンパク質Ｃの順位付けを複数の観点から見出した総合的なものとすることができ、信頼性の向上等が期待できる。

また、これらの統合スコアや総合スコアは、各疾患予防薬の予測スコアの和や、重みづけした和としてもよい。

このように本発明により創薬標的タンパク質を予測することができる。本発明により予測される創薬標的タンパク質は、創薬標的タンパク質の効率よい発見に資することができ、従来の手法では見落とされるような疾患との生体内における作用機序の関係が不明なものも抽出することができる。また、このようにして創薬標的タンパク質を予測すれば、疾患の治療薬の検討がおこないやすく、治療薬等の開発効率向上に寄与することが期待される。

［予測の流れ］
以下、本発明の一例に係る流れを更に詳細に説明する。

ある疾患αを解析対象として、疾患αの創薬標的タンパク質の検討を行った。疾患αは、例えば、有効な治療薬が少ない難病などを対象とすることができる。

［解析１．ＦＡＥＲＳによる解析工程］
薬物有害事象報告システム「ＦＡＥＲＳ」のデータベースのデータを用いて、疾患αのオッズ比を解析した。その結果を、表１に示す。これらの薬物はオッズ比が小さく、疾患予防薬の候補として抽出された。

［予測１．創薬標的タンパク質の予測］
解析１．の解析により抽出された疾患予防薬の化合物について、結合タンパク質を評価した。化合物とタンパク質の相互作用に関するデータベースを用いて、当該データベースに登録されているデータを教師データとして畳み込みニューラルネットワークを学習させ、学習済みモデルを作成した。この学習済みモデルを用いて、それぞれの薬物の有効物質となる化合物を対象として、その結合タンパク質を予測した。カーネル法やスパース分類器などの他の予測モデルを用いてもよい。
また、各疾患予防薬の化合物の結合タンパク質の予測スコアの和を統合スコアとした。さらに、これらの各化合物の予測スコアと、その和である総合スコアについて、表２に示す。

各化合物について、標的タンパク質が予測され、その予測スコアを求めることができる。また、複数の化合物について、それらの予測スコアの和とすることで、より総合的な予測スコアが高いタンパク質が見出される。この結果から、これらのタンパク質を創薬標的としての治療薬の開発などを行うことができる。

［過敏性腸症候群の解析例］
過敏性腸症候群(Irritable bowel syndrome)の創薬ターゲットを予測したケーススタディーの例を以下に示す。

［解析１－１．ＦＡＥＲＳによる解析工程］
薬物有害事象報告システム「ＦＡＥＲＳ」のデータベースのデータを用いて、過敏性腸症候群のオッズ比を解析した。
その結果、オッズ比が小さく、疾患予防薬の候補として次の薬物が抽出された。

［予測１－１．創薬標的タンパク質の予測］
解析１－１．の解析により抽出された疾患予防薬の化合物について、結合タンパク質を評価した。化合物とタンパク質の結合に関するデータベースであるＣｈＥＭＢＬ、ＭＡＴＡＤＯＲ、ＤｒｕｇＢａｎｋ、ＰＤＳＰ－Ｋｉ、ＫＥＧＧＤＲＵＧ、ＢｉｎｄｉｎｇＤＢ、ＴｈｅｒａｐｅｕｔｉｃＴａｒｇｅｔＤａｔａｂａｓｅを用いて、当該データベースに登録されている化合物・タンパク質間結合データを教師データとして、類似度検索、グラフ畳み込みニューラルネットワーク、ロジスティック回帰モデルを学習させ、学習済みモデルを作成した。学習データでクロスバリデーションを行い予測精度が最大になるハイパーパラメータを探索し、最適化されたハイパーパラメータを利用して各モデルを学習した。この学習済みモデルを用いて、それぞれの薬物の有効物質となる化合物を対象として、その結合タンパク質を予測した。
また、各疾患予防薬の化合物の結合タンパク質の予測スコアの和を統合スコアとした。

スコアが高いタンパク質の上位１０種類を予測したところ、以下の表のように、予測スコアが高い順に、ＴＤＰ１、ＫＣＮＨ２、ＯＰＲＫ１、ＮＲ１Ｉ２、ＯＲＭ１、ＴＰ５３、ＯＰＲＤ１、ＯＰＲＭ１、ＨＴＲ２Ａ、ＨＴＲ３Ａが予測された。

実際に、ＯＰＲＫ１、ＯＰＲＭ１、ＨＴＲ３Ａは過敏性腸症候群に対する既知の創薬ターゲットのタンパク質に対応していた。つまり、過敏性腸症候群に対する既知の創薬ターゲットを、提案手法によって再現できた例と考えられる。既知の創薬ターゲット以外のタンパク質は、過敏性腸症候群に対する新しい創薬ターゲットの候補として期待でき、これらのタンパク質を創薬標的としての治療薬の開発などを行うことができる。

本発明は、創薬標的タンパク質の予測に利用することができ、産業上有用である。

１予測システム
２入力部
３データ部
３１臨床データ
３２相互作用データ
３３オミックスデータ
３４化学構造データ
４制御部
５メモリ
６表示部
６１外部モニタ

Claims

治療目的の疾患の創薬標的タンパク質の予測方法であって、
臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１種類以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測方法。
前記予測する工程が以下の（１）～（３）からなる予測スコア群から選択される１種類以上の予測スコアとして結合タンパク質を予測するものである請求項１に記載の予測方法。
（１）前記化学構造データと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と化学構造の類似度が高い登録化合物を予測化合物として求める化学構造の予測スコア
（２）前記遺伝子発現プロファイルデータと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と遺伝子発現プロファイルの類似度が高い登録化合物を予測化合物として求める遺伝子発現の予測スコア
（３）化合物とタンパク質の相互作用（結合）に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア
前記予測する工程が、前記予測スコア群から２種類以上の予測スコアを予測したものであり、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものである請求項２に記載の予測方法。
前記臨床データが、薬物有害事象報告システムに収集されたデータである、請求項１～３のいずれかに記載の予測方法。
前記解析する工程で、疾患予防薬の候補について、２種類以上の複数の疾患予防薬を抽出し、
前記予測する工程で、前記複数の疾患予防薬について、それぞれの結合タンパク質の候補を抽出し、これらの複数の疾患予防薬に対する結合タンパク質候補を組み合わせて、創薬標的タンパク質を予測する、請求項１～４のいずれかに記載の予測方法。
治療目的の疾患の創薬標的タンパク質を予測するシステムであって、
臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される１種類以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測システム。