JP2022099245A - 創薬標的タンパク質の予測方法、創薬標的タンパク質の予測システム - Google Patents
創薬標的タンパク質の予測方法、創薬標的タンパク質の予測システム Download PDFInfo
- Publication number
- JP2022099245A JP2022099245A JP2021170944A JP2021170944A JP2022099245A JP 2022099245 A JP2022099245 A JP 2022099245A JP 2021170944 A JP2021170944 A JP 2021170944A JP 2021170944 A JP2021170944 A JP 2021170944A JP 2022099245 A JP2022099245 A JP 2022099245A
- Authority
- JP
- Japan
- Prior art keywords
- drug
- disease
- protein
- data
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】治療目的の疾患の創薬標的タンパク質を予測する予測方法及び予測システムを提供する。【解決手段】治療目的の疾患の創薬標的タンパク質の予測方法において、創薬標的タンパク質を予測したい治療目的の疾患を選択し、その疾患について、まず臨床データ解析を行う解析工程S11を行い、有効な可能性がある薬剤を特定し、この薬剤について、その化合物に対する結合タンパク質予測を行う予測工程S21を行う。そして、予測された創薬標的タンパク質を、適宜モニタ等に表示させるS31。【選択図】図1
Description
特許法第30条第2項適用申請有り 令和3年9月27日~29日オンラインで開催された第10回生命医薬情報学連合大会, ポスター発表「臨床ビッグデータからの疾患予防薬の探索と治療標的の推定」にて公開(ウェブサイトのアドレス:https://iibmp2021.hamadalab.com/poster/ 令和3年9月15日インターネットで「2021年日本バイオインフォマティクス学会年会・第10回生命医薬情報学連合大会(IIBMP2021)」の「臨床ビッグデータからの疾患予防薬の探索と治療標的の推定」の要旨を公開(ウェブサイトのアドレス:https://iibmp2021.hamadalab.com/online/ 令和3年9月インターネットで「情報計算化学生物学会(CBI学会)2021年大会」の「AIによるデータ駆動型研究が拓く創薬と医療」の要旨を公開(ウェブサイトのアドレス:https://cbi-society.org/taikai/taikai21/CPI/P-08_Yamanishi.pdf
本発明は創薬標的タンパク質の予測方法および創薬標的タンパク質の予測システムに関する。
創薬標的は疾患の治療に繋がるタンパク質などの生体分子である。医薬品は創薬標的の生体分子に結合して、阻害や活性化など制御するように設計される。不適切な創薬標的を選択すると、医薬品開発の成功率は下がるため、創薬標的分子を特定することは医薬品開発における重要な課題である。
特許文献1は、タンパク質-タンパク質相互作用の立体構造の属性、該タンパク質-タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、及び該タンパク質-タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質-タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質-タンパク質相互作用を予測する数学モデルを構築することを開示している。
特許文献2は、既存の薬剤の中から、疾患に効果のある薬剤の候補を迅速かつ適切に選び出す方法を提供するものである。特許文献2は、次のような内容を開示している。薬剤探索装置1は、既知の複数の薬剤について遺伝子の発現量データを記憶した薬剤応答DB13を備える。サンプルとコントロールの発現量データを入力し、サンプルとコントロールとの間での発現量の違いを表す変動データを算出する。薬剤応答DB13から読み出した既知の複数の薬剤についての発現量データと疾患の変動データをパラメータとして、既知の複数の薬剤と疾患とをノードとするネットワーク構造を推定する。ネットワーク構造に基づいて既知の複数の薬剤と疾患をネットワーククラスタリングする。疾患と同じクラスタに分類された薬剤の中から、疾患と逆の相関を有する薬剤を選択し、選択された薬剤のデータを出力する。
創薬標的となるタンパク質である創薬標的タンパク質を特定することは、医薬品開発において重要である。一方で、生体内におけるタンパク質等の数は膨大で、その機能なども明確ではない部分がある。また、関係性が直ちには明確ではないタンパク質が、生体の組織や器官等に密接な関係がある場合もある。さらには、治療薬や治療手段が確立されていない原因不明の難病も多数存在する。これらに対して、特許文献1の数学モデルの構築や特許文献2の薬剤探索を行う以外にも、創薬標的タンパク質の新たな予測方法が求められている。
係る状況下、本発明の目的は、治療目的の疾患の創薬標的タンパク質を予測することである。
係る状況下、本発明の目的は、治療目的の疾患の創薬標的タンパク質を予測することである。
本発明者は、上記課題を解決すべく鋭意研究を重ねた結果、下記の発明が上記目的に合致することを見出し、本発明に至った。すなわち、本発明は、以下の発明に係るものである。
<1> 治療目的の疾患の創薬標的タンパク質の予測方法であって、
臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、
化合物とタンパク質に関する相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測方法。
<2> 前記予測する工程が以下の(1)~(3)からなる予測スコア群から選択される1種類以上の予測スコアとして結合タンパク質を予測するものである前記<1>に記載の予測方法。
(1) 前記化学構造データと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と化学構造の類似度が高い登録化合物を予測化合物として求める化学構造の予測スコア
(2) 前記遺伝子発現プロファイルデータと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と遺伝子発現プロファイルの類似度が高い登録化合物を予測化合物として求める遺伝子発現の予測スコア
(3) 化合物とタンパク質の相互作用に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア
<3> 前記予測する工程が、前記予測スコア群から2種類以上の予測スコアを予測したものであり、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものである前記<2>に記載の予測方法。
<4> 前記臨床データが、薬物有害事象報告システムに収集されたデータである、前記<1>~<3>のいずれかに記載の予測方法。
<5> 前記解析する工程で、疾患予防薬の候補について、2以上の複数の疾患予防薬を抽出し、
前記予測する工程で、前記複数の疾患予防薬について、それぞれの結合タンパク質の候補を抽出し、これらの複数の疾患予防薬に対する結合タンパク質候補を組み合わせて、創薬標的タンパク質を予測する、前記<1>~<4>のいずれかに記載の予測方法。
<6> 治療目的の疾患の創薬標的タンパク質を予測するシステムであって、
臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測システム。
臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、
化合物とタンパク質に関する相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測方法。
<2> 前記予測する工程が以下の(1)~(3)からなる予測スコア群から選択される1種類以上の予測スコアとして結合タンパク質を予測するものである前記<1>に記載の予測方法。
(1) 前記化学構造データと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と化学構造の類似度が高い登録化合物を予測化合物として求める化学構造の予測スコア
(2) 前記遺伝子発現プロファイルデータと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と遺伝子発現プロファイルの類似度が高い登録化合物を予測化合物として求める遺伝子発現の予測スコア
(3) 化合物とタンパク質の相互作用に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア
<3> 前記予測する工程が、前記予測スコア群から2種類以上の予測スコアを予測したものであり、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものである前記<2>に記載の予測方法。
<4> 前記臨床データが、薬物有害事象報告システムに収集されたデータである、前記<1>~<3>のいずれかに記載の予測方法。
<5> 前記解析する工程で、疾患予防薬の候補について、2以上の複数の疾患予防薬を抽出し、
前記予測する工程で、前記複数の疾患予防薬について、それぞれの結合タンパク質の候補を抽出し、これらの複数の疾患予防薬に対する結合タンパク質候補を組み合わせて、創薬標的タンパク質を予測する、前記<1>~<4>のいずれかに記載の予測方法。
<6> 治療目的の疾患の創薬標的タンパク質を予測するシステムであって、
臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測システム。
本発明によれば、治療目的の疾患の創薬標的タンパク質を予測することができる。
以下に本発明の実施の形態を詳細に説明するが、以下に記載する構成要件の説明は、本発明の実施態様の一例(代表例)であり、本発明はその要旨を変更しない限り、以下の内容に限定されない。なお、本明細書において「~」という表現を用いる場合、その前後の数値を含む表現として用いる。
[本発明の予測方法]
本発明の創薬標的タンパク質の予測方法は、治療目的の疾患の創薬標的タンパク質の予測方法であって、臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する。本願において、本発明の創薬標的タンパク質の予測方法を、単に本発明の予測方法と呼ぶ場合がある。
本発明の創薬標的タンパク質の予測方法は、治療目的の疾患の創薬標的タンパク質の予測方法であって、臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する。本願において、本発明の創薬標的タンパク質の予測方法を、単に本発明の予測方法と呼ぶ場合がある。
[本発明の予測システム]
本発明の創薬標的タンパク質の予測システムは、治療目的の疾患の創薬標的タンパク質を予測するシステムであって、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する。本願において、本発明の創薬標的タンパク質の予測システムを、単に本発明の予測システムと呼ぶ場合がある。
本発明の創薬標的タンパク質の予測システムは、治療目的の疾患の創薬標的タンパク質を予測するシステムであって、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する。本願において、本発明の創薬標的タンパク質の予測システムを、単に本発明の予測システムと呼ぶ場合がある。
本発明の予測方法や本発明の予測システムによれば、創薬標的タンパク質を予測することができる。なお、本願において本発明の予測システムにより本発明の予測方法を行うこともでき、本願においてそれぞれに対応する構成は相互に利用することができる。
本発明者らは、創薬標的タンパク質の予測について検討するにあたり、臨床データの活用と、化合物の結合タンパク質を予測する技術を融合することを検討した。臨床データは、既存薬などに関する臨床データである。臨床データの解析によって既存薬がその薬の治療対象とは異なる他の疾患への治療効果などの影響があることを見出すことができる。他方、化合物と類似する化合物を特定する技術が検討されている。
本発明者らは、これらの情報を組み合わせて、ある疾患に影響がある薬剤について、その薬剤の化合物の構造やオミックスデータに基づいて、その化合物と結合するタンパク質を予測することができる可能性があることを見出し、本発明に至った。この手法によれば、結合タンパク質に関する情報から、疾患に対する創薬標的タンパク質自体が予測される。これは、従来の知見からは予測しにくい創薬標的タンパク質を見出すことができ、その創薬標的タンパク質を対象とした新薬の開発にも利用できるという利点を有する。
[創薬標的タンパク質を予測するフロー図]
図1は、本発明の予測方法に係る実施形態のフロー図である。創薬標的タンパク質を予測したい治療目的の疾患を選択し、その疾患について、まず臨床データ解析を行う解析工程のステップS11が行われ、有効な可能性がある薬剤が特定される。この薬剤について、その化合物に対する結合タンパク質予測を行う予測工程のステップS21を行う。そして、予測された創薬標的タンパク質が、ステップS31にて、適宜、モニタ等に表示される。
図1は、本発明の予測方法に係る実施形態のフロー図である。創薬標的タンパク質を予測したい治療目的の疾患を選択し、その疾患について、まず臨床データ解析を行う解析工程のステップS11が行われ、有効な可能性がある薬剤が特定される。この薬剤について、その化合物に対する結合タンパク質予測を行う予測工程のステップS21を行う。そして、予測された創薬標的タンパク質が、ステップS31にて、適宜、モニタ等に表示される。
図2は、本発明の予測方法に係る他の実施形態のフロー図である。図2はより詳しいフロー図の例を示すものである。まず、創薬標的タンパク質を予測したい疾患を入力する。次に、臨床データ解析にて、臨床データを用いて薬剤を投与したときの疾患の起こりやすさであるオッズ比を計算する。この疾患の起こりやすさが有意に低い、オッズ比<1.0の薬剤を選択する。この疾患の起こりやすさが低い薬剤が、予防効果が期待できる疾患予防薬として抽出される。
次に、結合タンパク質予測にて、相互作用データやオミックスデータ、化学構造データを用いて、化学構造やオミックスデータに基づく予測スコアにより予測を行う。この予測スコアによる予測を、複数の薬剤について行うことで、これらの薬剤に共通する結合タンパク質を選択する。これにより、結合タンパク質の可能性が高いものと予測されるものを、創薬標的タンパク質と予測することができる。
[創薬標的タンパク質の予測システム]
図3は、本発明の予測システムに係る実施形態の概要図である。予測システム1は、入力部2に創薬標的タンパク質を予測したい疾患を入力する。この予測のための疾患予防薬を求める解析部の解析や、結合タンパク質を求める予測部の予測を行う制御部4を有する。この制御部4は、治療目的の疾患や、解析や予測を行うためのデータを収集したデータ部3のデータを利用する。また、予測システム1は、解析や予測のためのプログラム、解析結果や予測結果などを保存するメモリ5を有する。また、その制御等に関する情報や、予測結果を表示する表示部6を有する。
図3は、本発明の予測システムに係る実施形態の概要図である。予測システム1は、入力部2に創薬標的タンパク質を予測したい疾患を入力する。この予測のための疾患予防薬を求める解析部の解析や、結合タンパク質を求める予測部の予測を行う制御部4を有する。この制御部4は、治療目的の疾患や、解析や予測を行うためのデータを収集したデータ部3のデータを利用する。また、予測システム1は、解析や予測のためのプログラム、解析結果や予測結果などを保存するメモリ5を有する。また、その制御等に関する情報や、予測結果を表示する表示部6を有する。
データ部3は、臨床データ31や相互作用データ32、オミックスデータ33、化学構造データ34などのデータを適宜、外部データベースなどから入手したり、設定したり、収集したものを用いることができる。また表示部6の出力に基づいて、創薬標的タンパク質とその予測スコアを、外部モニタ61などに表示することができる。これらにはスーパーコンピュータやモニタなどを適宜採用して構成する。
[治療目的の疾患]
本発明の予測方法は、治療目的の疾患の創薬標的タンパク質の予測方法である。治療目的の疾患は、本発明の予測方法の治療目的の対象として選択された疾患である。治療目的の疾患は、治療薬が存在する疾患や治療薬が存在しない疾患、治療薬が入手しにくい疾患、治療薬を製造しにくい疾患、治療が難しい難病の疾患、患者数が少ない疾患などを対象とすることができる。
本発明の予測方法は、治療目的の疾患の創薬標的タンパク質の予測方法である。治療目的の疾患は、本発明の予測方法の治療目的の対象として選択された疾患である。治療目的の疾患は、治療薬が存在する疾患や治療薬が存在しない疾患、治療薬が入手しにくい疾患、治療薬を製造しにくい疾患、治療が難しい難病の疾患、患者数が少ない疾患などを対象とすることができる。
[解析工程]
解析する工程(解析工程)は、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤(化合物)を疾患予防薬として解析する工程である。
解析する工程(解析工程)は、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤(化合物)を疾患予防薬として解析する工程である。
[臨床データ]
臨床データは、医薬品と、その医薬品副作用の有害事象などが収集されたデータである。臨床データは、薬物有害事象報告システムに収集されたデータを用いることができる。例えば、FAERSやJADERなどのデータベースが公開されており、これらを臨床データとして利用することができる。これらのデータベースは、そのまま用いてもよいが、例えば、明らかな誤記や表現の揺らぎなどのノイズが含まれている場合は、それらのノイズを低減したり、除去したりする処理を行ったものを、解析工程で用いる臨床データとしてもよい。また、治療目的の疾患について、単に疾患名で解析するだけでなく、臨床データに含まれているデータに、治療対象などに応じて薬効や治療の適切さに影響する因子である年齢や性別などのフィルタリングを行ったデータを臨床データとして用いてもよい。
臨床データは、医薬品と、その医薬品副作用の有害事象などが収集されたデータである。臨床データは、薬物有害事象報告システムに収集されたデータを用いることができる。例えば、FAERSやJADERなどのデータベースが公開されており、これらを臨床データとして利用することができる。これらのデータベースは、そのまま用いてもよいが、例えば、明らかな誤記や表現の揺らぎなどのノイズが含まれている場合は、それらのノイズを低減したり、除去したりする処理を行ったものを、解析工程で用いる臨床データとしてもよい。また、治療目的の疾患について、単に疾患名で解析するだけでなく、臨床データに含まれているデータに、治療対象などに応じて薬効や治療の適切さに影響する因子である年齢や性別などのフィルタリングを行ったデータを臨床データとして用いてもよい。
「FAERS」(FDA Adverse Events Reporting System:米国食品医薬品局の有害事象報告システム)は、米国食品医薬品局(FDA)が公開しているデータベースである。FAERSには、DEMO、DRUG、REAC、OUTC、RPSR、INDI、THERといった情報が含まれている。DEMOは、性別、年齢、有害事象発現日、有害事象発生国等の患者の基本情報である。DRUGは、医薬品名、投与ルート、投与量等の情報である。REACは、有害事象名である。OUTCは、症例の転帰である。RPSRは、有害事象情報源である。INDIは、適応症である。THERは、投与開始日、投与終了日、治療期間などの情報である。FAERSの登録薬剤数は約16,000件以上、有害事象数は約4,000万件の登録情報があり定期的に更新されている。
「JADER」(Japanese Adverse Drug Event Report database:日本医薬品副作用データベース)は、独立行政法人医薬品医療機器総合機構(PMDA)が公開しているデータベースである。JADERの登録薬剤数は約3,000件以上、有害事象数は約1,000万件の登録情報があり定期的に更新されている。
[オッズ比]
解析工程では、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算する。この疾患の起こりやすさは、オッズ比とも呼ばれる。投薬による臨床データは、新たに治療目的とする疾患に対して次の4種に分類できる。なお、ここでは既存薬を既存薬αとし、治療目的の疾患を疾患βとして説明する。なお、既存薬αは疾患βを治療する既存薬ではない状態の臨床データである。
分類A:既存薬αを服用し、疾患βの患者である群
分類B:既存薬αを服用し、疾患βの患者ではない群
分類C:既存薬αを服用しておらず、疾患βの患者である群
分類D:既存薬αを服用しておらず、疾患βの患者ではない群
解析工程では、臨床データから、薬剤を投与したときの疾患の起こりやすさを計算する。この疾患の起こりやすさは、オッズ比とも呼ばれる。投薬による臨床データは、新たに治療目的とする疾患に対して次の4種に分類できる。なお、ここでは既存薬を既存薬αとし、治療目的の疾患を疾患βとして説明する。なお、既存薬αは疾患βを治療する既存薬ではない状態の臨床データである。
分類A:既存薬αを服用し、疾患βの患者である群
分類B:既存薬αを服用し、疾患βの患者ではない群
分類C:既存薬αを服用しておらず、疾患βの患者である群
分類D:既存薬αを服用しておらず、疾患βの患者ではない群
このような分類のもと、オッズ比は、次の式であらわすことができる。
オッズ比=「分類A×分類D」/「分類B×分類C」
すなわち、服用し患者である群(分類A)と服用せず患者ではない群(分類D)の、服用し患者ではない群(分類B)と服用せず患者である群(分類C)に対する比率を示すものである。このオッズ比が高い場合、既存薬αを服用していても疾患βを発症しており、服用していなくても疾患βが発症しにくいことを示しており、既存薬αが予防薬や治療薬として期待しにくいことが考えられる。このオッズ比が低い場合、既存薬αを服用している者が疾患βを発症しにくく、服用していない者は疾患βを発症しやすいことを示しており、既存薬αが予防薬や治療薬として期待できることが考えられる。オッズ比は、有意に低いと統計学的な検定によるp値の低さ(p<0.05など)で判断することができる。
オッズ比=「分類A×分類D」/「分類B×分類C」
すなわち、服用し患者である群(分類A)と服用せず患者ではない群(分類D)の、服用し患者ではない群(分類B)と服用せず患者である群(分類C)に対する比率を示すものである。このオッズ比が高い場合、既存薬αを服用していても疾患βを発症しており、服用していなくても疾患βが発症しにくいことを示しており、既存薬αが予防薬や治療薬として期待しにくいことが考えられる。このオッズ比が低い場合、既存薬αを服用している者が疾患βを発症しにくく、服用していない者は疾患βを発症しやすいことを示しており、既存薬αが予防薬や治療薬として期待できることが考えられる。オッズ比は、有意に低いと統計学的な検定によるp値の低さ(p<0.05など)で判断することができる。
このオッズ比を用いて、薬剤を投与したときの疾患の起こりやすさを計算することができ、オッズ比が低い薬剤を疾患予防薬とする解析を行うことができる。疾患予防薬は、1以上のものを候補として抽出するように解析することができ、疾患予防薬は2以上や、3以上、4以上など複数の候補を見出すものとしてもよい。疾患予防薬の候補数の上限は特に定めなくてもよいが、データ処理の効率や、創薬標的タンパク質の予測スコアの影響などを考慮して100以下や、50以下、30以下などとしておいてもよい。
なお、オッズ比については、参考文献1として、「Horinouchi et al, Renoprotective effects of a factor Xa inhibitor: fusion of basic research and a database analysis, Sci Rep. 2018; 8: 10858.」を参照することができる。
[疾患予防薬]
解析工程で、臨床データから疾患の起こりやすさが低い薬剤を疾患予防薬として抽出する。疾患予防薬は、治療目的の疾患を潜在的に予防している可能性があると考えられる薬剤である。これらの薬剤のうち、有効成分や、主要成分である化合物が特定されているものを対象として結合タンパク質を予測する。
解析工程で、臨床データから疾患の起こりやすさが低い薬剤を疾患予防薬として抽出する。疾患予防薬は、治療目的の疾患を潜在的に予防している可能性があると考えられる薬剤である。これらの薬剤のうち、有効成分や、主要成分である化合物が特定されているものを対象として結合タンパク質を予測する。
[予測工程]
予測する工程(予測工程)は、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程である。
予測する工程(予測工程)は、化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程である。
[化合物とタンパク質との結合]
化合物とタンパク質は結合し、化合物は結合するタンパク質の機能に影響を与え、タンパク質を活性化させたり阻害させたりする。本願では、ある化合物が結合するタンパク質を結合タンパク質とよぶ。予測工程の機械学習に用いる学習データとしては、相互作用データや、遺伝子発現プロファイルデータ、化学構造データなどのデータを利用することができる。そして、これらを機械学習して、疾患予防薬として指定した薬剤の化合物としての構造等に着目して、その化合物(疾患予防薬)と結合するタンパク質を予測する。
化合物とタンパク質は結合し、化合物は結合するタンパク質の機能に影響を与え、タンパク質を活性化させたり阻害させたりする。本願では、ある化合物が結合するタンパク質を結合タンパク質とよぶ。予測工程の機械学習に用いる学習データとしては、相互作用データや、遺伝子発現プロファイルデータ、化学構造データなどのデータを利用することができる。そして、これらを機械学習して、疾患予防薬として指定した薬剤の化合物としての構造等に着目して、その化合物(疾患予防薬)と結合するタンパク質を予測する。
[相互作用データ]
相互作用データは、化合物とタンパク質間の相互作用に関するデータである。これらのデータを有するデータベースとしては、例えば、ChEMBL、MATADOR、Drug Bank、PDSP-Ki、KEGG DRUG、BindingDB、Therapeutic Target Databaseなどを用いることができる。これらからなる群から1以上を用いることができ、複数用いてもよい。化合物とタンパク質間の相互作用に関するデータは、上記以外の他のデータベースを用いてもよい。
相互作用データは、化合物とタンパク質間の相互作用に関するデータである。これらのデータを有するデータベースとしては、例えば、ChEMBL、MATADOR、Drug Bank、PDSP-Ki、KEGG DRUG、BindingDB、Therapeutic Target Databaseなどを用いることができる。これらからなる群から1以上を用いることができ、複数用いてもよい。化合物とタンパク質間の相互作用に関するデータは、上記以外の他のデータベースを用いてもよい。
ChEMBLは、EBIが提供するDrug-likeな生物活性低分子のデータベースである。
MATADOR(Manually Annotated Targets and Drugs Online Resource)は、タンパク質の化学的作用に関するデータベースである。
Drug Bankは、University of Albertaが開発した、FDA認可済み薬剤や治験中の薬剤などの薬品とターゲットタンパク質に関する情報を収集、整理したデータベースである。
PDSP-Ki(Psychoactive Drug Screening Program Ki Database)は、パブリックドメイン内のリソースであり、薬物と分子標的との相互作用に関する情報を提供するデータベースである。
KEGG DRUG、日本、米国、欧州の医薬品情報を化学構造と成分の観点から一元的に集約したデータベースである。
BindingDBは、主に薬剤様分子と、創薬標的と考えられるタンパク質の相互作用に焦点を当てて、測定された結合親和性に関するデータベースである。
Therapeutic Target Database(TTD)は、既知の治療用タンパク質と核酸標的に関する情報を提供するデータベースである。
[遺伝子発現プロファイルデータ]
遺伝子発現プロファイルデータは、オミックスデータ(オミックス情報)に関する。オミックスデータは、網羅的な生体分子についての情報であり、具体的にはゲノム(Genome)やトランスクリプトーム(Transcriptome)、プロテオーム(Proteome)、メタボローム(Metabolome)、インタラクトーム(Interactome)、セローム(Cellome)と呼ばれる、様々な網羅的な分子情報をまとめた情報である。疾患予防薬と、遺伝子発現プロファイルが類似する結合タンパク質が既知の化合物を特定するために遺伝子発現プロファイルデータなどを用いることができる。
遺伝子発現プロファイルデータは、オミックスデータ(オミックス情報)に関する。オミックスデータは、網羅的な生体分子についての情報であり、具体的にはゲノム(Genome)やトランスクリプトーム(Transcriptome)、プロテオーム(Proteome)、メタボローム(Metabolome)、インタラクトーム(Interactome)、セローム(Cellome)と呼ばれる、様々な網羅的な分子情報をまとめた情報である。疾患予防薬と、遺伝子発現プロファイルが類似する結合タンパク質が既知の化合物を特定するために遺伝子発現プロファイルデータなどを用いることができる。
[化学構造データ]
化学構造データは、化合物の化学構造記述式などに基づき、化学構造の特徴を見出すためのデータである。疾患予防薬の化合物が、既知のリガンドと化学構造が類似する場合、そのリガンドと対応するアクセプターを有する標的タンパク質を見出すことなどができる。このため、疾患予防薬の化合物と類似する化学構造を有する、既知のリガンドとして登録されている化合物を特定するために化学構造データなどを用いることができる。
化学構造データは、化合物の化学構造記述式などに基づき、化学構造の特徴を見出すためのデータである。疾患予防薬の化合物が、既知のリガンドと化学構造が類似する場合、そのリガンドと対応するアクセプターを有する標的タンパク質を見出すことなどができる。このため、疾患予防薬の化合物と類似する化学構造を有する、既知のリガンドとして登録されている化合物を特定するために化学構造データなどを用いることができる。
[予測スコア]
予測する工程は、これらの化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する。
予測する工程は、これらの化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する。
予測スコアは、結合タンパク質の可能性を示す指標とする点数である。予測スコアが高いものを結合タンパク質の可能性が高いものとし、予測スコアが低いものを結合タンパク質の可能性が低いものとすることができる。予測スコアは、予測スコアを算出する手法に応じて算出しやすい値をそのまま用いてもよいし、多数の化合物とタンパク質との組み合わせについて予測した結果を正規化して比較しやすいものとしてもよい。このような予測スコアを用いて、結合タンパク質を、疾患の創薬標的タンパク質として予測する。
予測する工程の予測スコアは、例えば、以下の(1)~(3)からなる予測スコア群のものなどを用いることができる。これらの予測スコア群から選択される1以上の予測スコアとして結合タンパク質を予測するものとすることができる。なお、(1)~(3)のそれぞれに対応する手法には、それぞれに属する予測スコアを求める手法が複数存在し得る。このため、(1)に属する予測スコアを複数用いたり、(2)に属する予測スコアを複数用いたり、(3)に属する予測スコアを複数用いることもできる。
(1) 化学構造データと相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、疾患予防薬の化合物と化学構造の類似度を考慮して算出される予測スコア
この(1)に係る予測スコアは、例えば、KCF-Sなどの記述子を利用して類似度を算出するものとして用いることができる。
この予測スコアの算出には、例えば、類似度検索や、KCF-S記述子に関する以下の文献を参照することができる。
・参考文献2-1「Kotera et al., 2013, BMC Syst. Biol. Kotera, M., Tabei, Y., Yamanishi, Y., Moriya, Y., Tokimatsu, T., Kanehisa, M., and Goto, S.,"KCF-S: KEGG Chemical Function and Substructure for improved interpretability and prediction in chemical bioinformatics",BMC Systems Biology, 7(Suppl 6):S2, 2013」
・参考文献2-2「Sawada, R., Iwata, M., Umezaki, M., Usui, Y., Kobayashi, T., Kubono, T., Hayashi, S., Kadowaki, M., and Yamanishi, Y.,"KampoDB, database of predicted targets and functional annotations of natural medicines",Scientific Reports, 8:11216, 2018.」
・参考文献2-3「Tabei, Y., Kishimoto, A., Kotera, M., and Yamanishi, Y.,"Succinct Interval Splitting Tree for Scalable Similarity Search of Compound-Protein Pairs with Property Constraints",Proceedings of the 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD2013), 176-184, ACM New York, NY, USA, 2013.」などを参照することができる。
・参考文献2-2「Sawada, R., Iwata, M., Umezaki, M., Usui, Y., Kobayashi, T., Kubono, T., Hayashi, S., Kadowaki, M., and Yamanishi, Y.,"KampoDB, database of predicted targets and functional annotations of natural medicines",Scientific Reports, 8:11216, 2018.」
・参考文献2-3「Tabei, Y., Kishimoto, A., Kotera, M., and Yamanishi, Y.,"Succinct Interval Splitting Tree for Scalable Similarity Search of Compound-Protein Pairs with Property Constraints",Proceedings of the 19th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD2013), 176-184, ACM New York, NY, USA, 2013.」などを参照することができる。
(2) 遺伝子発現プロファイルデータと相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、疾患予防薬の化合物と遺伝子発現プロファイルの類似度を考慮して算出される予測スコア
この(2)に係る予測スコアは、例えば、遺伝子発現プロファイルデータ、オミックスデータに関する以下の文献を参照することができる。
・参考文献3-1「Lamb,J. et al., "The Connectivity Map: using gene-expression signatures to connect small molecules, genes, and disease". Science, 313, 1929-1935, 2006」
・参考文献3-2「Subramanian, A. et al., "A next generation connectivity Map: L1000 platform and the first 1,000,000 profiles". Cell, 171, 1437-1452, 2017」
・参考文献3-3「Iwata, M. et al., "Pathway-based drug repositioning for cancers: computational prediction and experimental validation", Journal of Medicinal Chemistry, 61(21), 9583-9595, 2018」などを参照することができる。
・参考文献3-2「Subramanian, A. et al., "A next generation connectivity Map: L1000 platform and the first 1,000,000 profiles". Cell, 171, 1437-1452, 2017」
・参考文献3-3「Iwata, M. et al., "Pathway-based drug repositioning for cancers: computational prediction and experimental validation", Journal of Medicinal Chemistry, 61(21), 9583-9595, 2018」などを参照することができる。
また、(2)の予測スコアを求めるにあたっては、適宜、疾患予防薬の遺伝子発現プロファイルを評価したデータを用いてもよいし、既知の遺伝子発現プロファイルデータがある場合は、そのデータを用いてもよい。
(3) 化合物とタンパク質の相互作用に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア
この(3)に係る予測スコアは、化合物とタンパク質の結合などの相互作用の有無等に関して、機械学習を行った予測モデルを用いるものである。これらは、各種の機械学習を採用することができるが、より具体的には、以下の手法などを用いることができる。
(3A) 化合物とタンパク質に関する、相互作用ペアおよび非相互作用ペアを学習データとして、相互作用ペアと被相互作用ペアとを分離する機械学習を行った予測モデルを用いて、疾患予防薬の結合タンパク質を予測した結合タンパク質予測モデルの予測スコア
この(3A)に係る予測スコアは、例えば、カーネル法の枠組みで、ペアワイズカーネル回帰、サポートベクターマシンにより算出することができる。この予測スコアに係る化合物の化学構造から予測するものや、ヒト由来細胞における化合物の遺伝子発現パターンから予測するものとしては、以下の文献などを参照することができる。
・参考文献4-1「Yamanishi, Y.,"Supervised Bipartite Graph Inference",Advances in Neural Information Processing Systems 21 (Koller, D., Schuurmans, D., Bengio, Y. and Bottou, L. eds.), 1841-1848, MIT Press, Cambridge, MA, 2009.」
・参考文献4-2「Bleakley, K. and Yamanishi, Y.,"Supervised prediction of drug-target interactions using bipartite local models",Bioinformatics, 25, 2397-2403, 2009.」
・参考文献4-3「Yamanishi et al, Bioinformatics, 2008」
・参考文献4-4「Yamanishi, Adv Neural Inf Process Syst, 2009」
・参考文献4-5「Bleakleyet al., Bioinformatics, 2009」
・参考文献4-6「Tabei et al, BMC Systems Biology, 2013」
・参考文献4-7「Hizukuri et al, BMC Med Genomics, 2015」
・参考文献4-8「Iwata et al, Sci rep, 2017; Sawada et al, Sci rep, 2018」
・参考文献4-1「Yamanishi, Y.,"Supervised Bipartite Graph Inference",Advances in Neural Information Processing Systems 21 (Koller, D., Schuurmans, D., Bengio, Y. and Bottou, L. eds.), 1841-1848, MIT Press, Cambridge, MA, 2009.」
・参考文献4-2「Bleakley, K. and Yamanishi, Y.,"Supervised prediction of drug-target interactions using bipartite local models",Bioinformatics, 25, 2397-2403, 2009.」
・参考文献4-3「Yamanishi et al, Bioinformatics, 2008」
・参考文献4-4「Yamanishi, Adv Neural Inf Process Syst, 2009」
・参考文献4-5「Bleakleyet al., Bioinformatics, 2009」
・参考文献4-6「Tabei et al, BMC Systems Biology, 2013」
・参考文献4-7「Hizukuri et al, BMC Med Genomics, 2015」
・参考文献4-8「Iwata et al, Sci rep, 2017; Sawada et al, Sci rep, 2018」
(3B) 化合物とタンパク質との相互作用の有無を、化合物の構造の空間上で分類する機械学習により、疾患予防薬の結合タンパク質を予測した予測スコア
この(3B)に係る予測スコアは、スパースモデリングによるものであり、例えば、L1正則化ロジスティック回帰等により算出することができる。このようなロジスティック回帰を用いるものとしては、以下の文献などを参照することができる。
・参考文献5-1「Tabei, Y., Kotera, M., Sawada, R., and Yamanishi, Y.,"Network-based characterization of drug-protein interaction signatures with a space-efficient approach",
BMC Systems Biology, 13(Suppl 2):39, 2019.」
・参考文献5-2「Tabei, Y., Pauwels, E., Stoven, V., Takemoto, K., and Yamanishi, Y.,
"Identification of chemogenomic features from drug-target interaction networks using interpretable classifiers",Bioinformatics, 28, i487-i494, 2012.」
BMC Systems Biology, 13(Suppl 2):39, 2019.」
・参考文献5-2「Tabei, Y., Pauwels, E., Stoven, V., Takemoto, K., and Yamanishi, Y.,
"Identification of chemogenomic features from drug-target interaction networks using interpretable classifiers",Bioinformatics, 28, i487-i494, 2012.」
(3C) 化学構造データと相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、化学構造に基づくグラフ畳み込みニューラルネットワークを用いて結合タンパク質について機械学習を行った予測モデルを用いて、疾患予防薬の結合タンパク質を予測した予測スコア
この(3C)に係る予測スコアは、深層学習モデルの一種であるグラフ畳み込みニューラルネットワークに基づき、以下の文献などを参照することができる。
・参考文献6-1「Fukunaga, I., Sawada, R., Shibata, T., Kaitoh, K., Sakai, Y., and Yamanishi, Y.,"Prediction of the Health Effects of Food Peptides and Elucidation of the Mode-of-action Using Multi-task Graph Convolutional Neural Network",Molecular Informatics, 39(1-2):e1900134, 2020.」
・参考文献6-2「Altae-Tran et al., 2017, ACS Cent. Sci. , 3, 4, 283-293 」
・参考文献6-2「Altae-Tran et al., 2017, ACS Cent. Sci. , 3, 4, 283-293 」
(3)の予測スコアとしては、ケモゲノミクス法に基づく結合タンパク質予測に関する、以下の文献などを参照することができる。
・参考文献7-1「Yamanishi, Y., Kotera, M., Moriya, Y., Sawada, R., Kanehisa, M., and Goto, S. "DINIES: drug-target interaction network inference engine based on supervised analysis",Nucleic Acids Research, 42, W39-W45, 2014」
・参考文献7-2「Yamanishi, Y., Araki, M., Gutteridge, A., Honda, W., and Kanehisa, M.,"Prediction of drug-target interaction networks from the integration of chemical and genomic spaces",Bioinformatics, 24, i232-i240, 2008.」
・参考文献7-2「Yamanishi, Y., Araki, M., Gutteridge, A., Honda, W., and Kanehisa, M.,"Prediction of drug-target interaction networks from the integration of chemical and genomic spaces",Bioinformatics, 24, i232-i240, 2008.」
(3)の予測スコアとしては、トランスクリプトミクス法に基づく結合タンパク質予測に関する、以下の文献などを参照することができる。
・参考文献8-1「Sawada, R., Iwata, M., Tabei, Y., Yamato, H., and Yamanishi, Y.,"Predicting inhibitory and activatory drug targets by chemically and genetically perturbed transcriptome signatures",Scientific Reports, 8:156, 2018.」
・参考文献8-2「Iwata, M., Sawada, R., Iwata, H., Kotera, M., and Yamanishi, Y.,"Elucidating the modes of action for bioactive compounds in a cell-specific manner by large-scale chemically-induced transcriptomics",Scientific Reports, 7:40164, 2017.」
・参考文献8-3「Hizukuri, Y., Sawada, R., and Yamanishi, Y.,"Predicting target proteins for drug candidate compounds based on drug-induced gene expression data in a chemical structure-independent manner",BMC Medical Genomics, 8:82 (10 pages), 2015.」
・参考文献8-2「Iwata, M., Sawada, R., Iwata, H., Kotera, M., and Yamanishi, Y.,"Elucidating the modes of action for bioactive compounds in a cell-specific manner by large-scale chemically-induced transcriptomics",Scientific Reports, 7:40164, 2017.」
・参考文献8-3「Hizukuri, Y., Sawada, R., and Yamanishi, Y.,"Predicting target proteins for drug candidate compounds based on drug-induced gene expression data in a chemical structure-independent manner",BMC Medical Genomics, 8:82 (10 pages), 2015.」
(3)の予測スコアとしては、フェノミクス法に基づく結合タンパク質予測に関する、以下の文献などを参照することができる。
・参考文献9-1Takarabe, M., Kotera, M., Nishimura, Y., Goto, S., and Yamanishi, Y.,"Drug target prediction using adverse event report systems: a pharmacogenomic approach",Bioinformatics, 28, i611-i618, 2012.」
・参考文献9-2「Yamanishi, Y., Kotera, M., Kanehisa, M., and Goto, S.,"Drug-target interaction prediction from chemical, genomic and pharmacological data in an integrated framework",Bioinformatics, 26, i246-i254, 2010.」
・参考文献9-2「Yamanishi, Y., Kotera, M., Kanehisa, M., and Goto, S.,"Drug-target interaction prediction from chemical, genomic and pharmacological data in an integrated framework",Bioinformatics, 26, i246-i254, 2010.」
図4は、本発明の予測工程の例を説明するための図である。図4は、特に、予測スコア群の(1)の予測スコアや、(2)の予測スコアを算出する流れを示したものである。薬物(薬剤)の化合物データに基づいて、上段に示すように、化合物構造データに関する類似化合物を特定する。これは、特に上記(1)の予測スコアに関する。この化合物データを用いた類似化合物は、化合物・タンパク質の相互作用(結合)データと照合して、タンパク質との相互作用が既知のものを利用することができる。例えば、疾患予防薬の化合物と類似化合物の類似度を予測スコアとすることができる。
同様に、図4の下段は、遺伝子発現プロファイルなどオミックスデータに関する類似化合物を特定する。これは、特に上記(2)の予測スコアに関する。このオミックスデータを用いた類似化合物は、化合物・タンパク質の相互作用(結合)データと照合して、タンパク質との相互作用が既知のものを利用することができる。例えば、疾患予防薬の化合物と類似化合物のオミックスデータによる類似度を予測スコアとすることができる。
図5、図6、および図7は、本発明の予測工程の一例にかかる工程の一部を説明するための図である。図5~7により、(1)の予測スコアを算出することができ、KCF-S(参考文献「Kotera et al., 2013, BMC Syst. Biol.」)を参照して行うことができる。ECFPやDRAGONなど他の記述子やフィンガープリントを用いてもよい。グラフ畳み込みニューラルネットワークで生成される特徴ベクトルを用いてもよい。
図5に示すように、疾患予防薬の化学構造について、類似度が高い化合物を見出すために、所定の部分構造の有無やその数を特定する。この所定の部分構造は50万などの多数のものであるが、図5では例えば、最も左の芳香族カルボン酸様の構造を1つ有し、左から2番目のエステル様構造を1つ有し、左から3番目のカルボン酸様構造を2つ有し、右から2番目のピラゾリジン様構造はなく(0)、最も右のエトキシ様構造を3つ有するものと特定する。
次に、疾患予防薬の部分構造の特定結果に基づいて、それと同様に部分構造の有無、その数について類似度が高い化合物を特定する。類似度は図6に示すような手法で行われる。ここでは、化合物X、化合物Yとの類似度を求める例を示す。化合物Xと、化合物Yについて、その部分構造の数値化を行って比較して、類似度を数値化する。この算出による類似度は、完全に一致するものであれば1となり、全く異なるものは0となる。1に近いほど、類似度が高いものとなる。類似度が最も高い化合物を抽出するものとしてもよいし、類似度が高い順に、複数の化合物を抽出するものとしてもよい。
図7は、図5,6のような化学構造の類似度が高いものを相互作用データと照合して、結合タンパク質の予測スコアを数値化する例である。ある疾患予防薬(Drug)を入力したとき、その疾患予防薬の化合物と類似度が高い順に、類似化合物として類似度(Compound Similarity)と合わせて抽出する。この類似化合物が、相互作用データにおいて結合タンパク質とされているものを確認する。そして、それぞれの類似化合物の類似度を、結合タンパク質のスコアとする。例えば、類似度が0.91の類似化合物の結合タンパク質は、創薬標的タンパク質の予測(Estimated target protein)の予測スコア0.91とすることができる。同様に類似度が0.80の類似化合物の結合タンパク質の予測スコアは0.80とすることができる。類似度が0.77のときは、予測スコアを0.77とすることができる。
[機械学習]
予測工程は、相互作用データや、遺伝子発現プロファイルデータ、化学構造データなどのデータを学習データとして、相互作用ペアと、非相互作用ペアを分離するためのニューラルネットワークモデルを用いて、疾患予防薬の結合タンパク質を予測するものとすることができる。予測工程は、これらのデータから、化合物と結合タンパク質との結合に係る学習済みモデル(学習済みニューラルネットワークモデル)を生成して、これを利用する。カーネル法やスパース分類器などの他の機械学習のモデルを用いてもよい。このような学習済みモデルを用いることで、解析工程で抽出された疾患予防薬の化合物を未知のデータとして入力したときに、出力される結合タンパク質を創薬標的タンパク質とする。
予測工程は、相互作用データや、遺伝子発現プロファイルデータ、化学構造データなどのデータを学習データとして、相互作用ペアと、非相互作用ペアを分離するためのニューラルネットワークモデルを用いて、疾患予防薬の結合タンパク質を予測するものとすることができる。予測工程は、これらのデータから、化合物と結合タンパク質との結合に係る学習済みモデル(学習済みニューラルネットワークモデル)を生成して、これを利用する。カーネル法やスパース分類器などの他の機械学習のモデルを用いてもよい。このような学習済みモデルを用いることで、解析工程で抽出された疾患予防薬の化合物を未知のデータとして入力したときに、出力される結合タンパク質を創薬標的タンパク質とする。
予測工程は、化学構造の類似度に基づく予測や、遺伝子発現プロファイルの類似度に基づく予測、グラフ畳み込みニューラルネットワークを用いた化学構造に基づく予測などの観点で予測することができるように学習済みモデルを作成する。これらの学習済みモデルはいずれかの学習済みモデルのみで用いてもよいし、複数の学習済みモデルを総合的に用いるものとしてもよい。
[カーネル法]
図8、図9、および図10は、本発明の予測工程の他の一例にかかる工程の一部を説明するための図である。これらは、特に、上記(3)の予測スコアに関するものであり、機械学習を用いるものである。これはカーネル法による結合タンパク質を予測するものである。
図8、図9、および図10は、本発明の予測工程の他の一例にかかる工程の一部を説明するための図である。これらは、特に、上記(3)の予測スコアに関するものであり、機械学習を用いるものである。これはカーネル法による結合タンパク質を予測するものである。
図8に示すように、化合物とタンパク質間の相互作用予測を機械学習の視点から定式化を試みる。このために、化合物とタンパク質の既知の相互作用を学習データとして、相互作用が未知の化合物とタンパク質との相互作用を予測する学習済みモデル作成を行う。
図9に示すように、ここでは、化合物とタンパク質のペアを作成し、それが相互作用ペアか、非相互作用ペアかが既知のものを学習データとして用いて、化合物とタンパク質とのペアワイズ学習を行い、化合物とタンパク質の相互作用の有無を分離する予測のための特徴空間を作成する。
相互作用の機械学習に用いるデータの枠組みには、ケモゲノミクス法やフェノミクス法、トランスクリプトミクス法などを用いることができる。これらを学習データの化合物類似性や、タンパク質類似性に関する情報として利用して、相互作用を予測するものとする。
ケモゲノミクス法は、化合物の化学構造に関するケミカル空間と、タンパク質の配列・構造に関するゲノム空間の情報を組み合わせるものである。例えば、前述の参考文献「Yamanishi et al, Bioinformatics, 2008」、参考文献「Yamanishi, Adv Neural Inf Process Syst, 2009」、参考文献「Bleakley et al., Bioinformatics, 2009」、参考文献「Tabei et al, BMC Systems Biology, 2013」などを参考とすることができる。
フェノミクス法は、頭痛、吐き気、気分高揚、血圧の変化、疾患マーカーの変動など人体へのフェノタイプに関する薬理空間と、タンパク質の配列・構造に関するゲノム空間の情報を組み合わせるものである。
トランスクリプトミクス法は、化合物応答遺伝子発現に関する転写空間と、タンパク質の遺伝子発現に関するゲノム空間の情報を組み合わせるものである。例えば、参考文献「Hizukuri et al, BMC Med Genomics, 2015」、参考文献「Iwata et al, Sci rep, 2017; Sawada et al, Sci rep, 2018」を参考とすることができる。
[ロジスティック回帰]
ロジスティック回帰は、すべての化合物をタンパク質との相互作用の有りと無しに記述子の空間上で分類するときに用いることができる。ロジスティック回帰は、下記のL1正則化に基づくロジスティック回帰の式により算出するものとすることができる。この式において各記号は次のものである。Xi:化合物の記述子i。n:化合物の総数。w:記述子の重み。C:正則化パラメータ。これにより、分類に効いている記述子の重みを大きくするように学習する。L2正則化に基づく学習法を用いてもよい。L1正則化のサポートベクターマシンなど他のスパース分類器を用いてもよい。
ロジスティック回帰は、すべての化合物をタンパク質との相互作用の有りと無しに記述子の空間上で分類するときに用いることができる。ロジスティック回帰は、下記のL1正則化に基づくロジスティック回帰の式により算出するものとすることができる。この式において各記号は次のものである。Xi:化合物の記述子i。n:化合物の総数。w:記述子の重み。C:正則化パラメータ。これにより、分類に効いている記述子の重みを大きくするように学習する。L2正則化に基づく学習法を用いてもよい。L1正則化のサポートベクターマシンなど他のスパース分類器を用いてもよい。
[ニューラルネットワーク]
図11は、本発明の予測工程の他の一例を説明するための図である。参考文献「Altae-Tran et al., 2017, ACS Cent. Sci.」を参考とすることができる。ここでは、薬剤の化合物の化学構造に基づいて、グラフ畳み込みを行って、入力層に対する作用の有無を判別するニューラルネットワークを構築する。グラフ畳み込みでは、グラフトポロジーと原子特徴の抽出(1.extract graph topology and atom features)を行い、グラフ畳み込みとプールの適用(2.apply graph convolutions and pools)を行い、グラフ集合の適用(3.apply graph gather)を行い、密集層の適用(4.apply dense layer)を行う。このグラフ畳み込みを利用して、入力層、中間層、出力層のニューラルネットワークを構築して、相互作用の有無を判別する。このニューラルネットワークは、前述の(3C)の予測スコアに用いることができる。各タンパク質ごとに予測モデルを構築するシングルタスク学習、全てのタンパク質に対する予測モデルを同時に構築するマルチタスク学習、どちらを用いてもよい。
図11は、本発明の予測工程の他の一例を説明するための図である。参考文献「Altae-Tran et al., 2017, ACS Cent. Sci.」を参考とすることができる。ここでは、薬剤の化合物の化学構造に基づいて、グラフ畳み込みを行って、入力層に対する作用の有無を判別するニューラルネットワークを構築する。グラフ畳み込みでは、グラフトポロジーと原子特徴の抽出(1.extract graph topology and atom features)を行い、グラフ畳み込みとプールの適用(2.apply graph convolutions and pools)を行い、グラフ集合の適用(3.apply graph gather)を行い、密集層の適用(4.apply dense layer)を行う。このグラフ畳み込みを利用して、入力層、中間層、出力層のニューラルネットワークを構築して、相互作用の有無を判別する。このニューラルネットワークは、前述の(3C)の予測スコアに用いることができる。各タンパク質ごとに予測モデルを構築するシングルタスク学習、全てのタンパク質に対する予測モデルを同時に構築するマルチタスク学習、どちらを用いてもよい。
[統合スコア]
予測工程は、予測スコア群から2種類以上の予測スコアを予測し、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものとすることができる。例えば、(1)~(3)のそれぞれの予測スコアが算出されたら、それらを各指標内で正規化した値として、合計したものを統合スコアとすることができる。ある疾患予防薬に対応する結合タンパク質について、(1)から採用した予測スコアが0.9、(2)から採用した予測スコアが0.8、(3)から採用した第一の予測スコアが0.95、(3)から採用した第二の予測スコアが0.85、(3)から採用した第三の予測スコアが0.8のように予測スコアが算出されれば、これらを合計する統合スコアは、4.3のように算出される。
予測工程は、予測スコア群から2種類以上の予測スコアを予測し、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものとすることができる。例えば、(1)~(3)のそれぞれの予測スコアが算出されたら、それらを各指標内で正規化した値として、合計したものを統合スコアとすることができる。ある疾患予防薬に対応する結合タンパク質について、(1)から採用した予測スコアが0.9、(2)から採用した予測スコアが0.8、(3)から採用した第一の予測スコアが0.95、(3)から採用した第二の予測スコアが0.85、(3)から採用した第三の予測スコアが0.8のように予測スコアが算出されれば、これらを合計する統合スコアは、4.3のように算出される。
予測工程は、解析工程で複数の疾患予防薬を抽出し、これらの疾患予防薬の予測スコアを総合した予測スコアを求めるものとすることが好ましい。これを総合スコアと呼ぶものとしてもよい。例えば、疾患予防薬候補を2種、結合タンパク質を3種抽出する例で説明する。オッズ比から抽出された第一の疾患予防薬(a)について、結合タンパク質候補のタンパク質A、タンパク質B、およびタンパク質Cのそれぞれの予測スコアや統合スコアを算出する。次に、第二の疾患予防薬(b)について、結合タンパク質候補のタンパク質A、タンパク質B、およびタンパク質Cのそれぞれの予測スコアや統合スコアを算出する。この第一の疾患予防薬(a)、および第二の疾患予防薬(b)のそれぞれの予測スコアを合わせることで、タンパク質A、タンパク質B、およびタンパク質Cの順位付けを複数の観点から見出した総合的なものとすることができ、信頼性の向上等が期待できる。
また、これらの統合スコアや総合スコアは、各疾患予防薬の予測スコアの和や、重みづけした和としてもよい。
このように本発明により創薬標的タンパク質を予測することができる。本発明により予測される創薬標的タンパク質は、創薬標的タンパク質の効率よい発見に資することができ、従来の手法では見落とされるような疾患との生体内における作用機序の関係が不明なものも抽出することができる。また、このようにして創薬標的タンパク質を予測すれば、疾患の治療薬の検討がおこないやすく、治療薬等の開発効率向上に寄与することが期待される。
[予測の流れ]
以下、本発明の一例に係る流れを更に詳細に説明する。
以下、本発明の一例に係る流れを更に詳細に説明する。
ある疾患αを解析対象として、疾患αの創薬標的タンパク質の検討を行った。疾患αは、例えば、有効な治療薬が少ない難病などを対象とすることができる。
[解析1.FAERSによる解析工程]
薬物有害事象報告システム「FAERS」のデータベースのデータを用いて、疾患αのオッズ比を解析した。その結果を、表1に示す。これらの薬物はオッズ比が小さく、疾患予防薬の候補として抽出された。
薬物有害事象報告システム「FAERS」のデータベースのデータを用いて、疾患αのオッズ比を解析した。その結果を、表1に示す。これらの薬物はオッズ比が小さく、疾患予防薬の候補として抽出された。
[予測1.創薬標的タンパク質の予測]
解析1.の解析により抽出された疾患予防薬の化合物について、結合タンパク質を評価した。化合物とタンパク質の相互作用に関するデータベースを用いて、当該データベースに登録されているデータを教師データとして畳み込みニューラルネットワークを学習させ、学習済みモデルを作成した。この学習済みモデルを用いて、それぞれの薬物の有効物質となる化合物を対象として、その結合タンパク質を予測した。カーネル法やスパース分類器などの他の予測モデルを用いてもよい。
また、各疾患予防薬の化合物の結合タンパク質の予測スコアの和を統合スコアとした。さらに、これらの各化合物の予測スコアと、その和である総合スコアについて、表2に示す。
解析1.の解析により抽出された疾患予防薬の化合物について、結合タンパク質を評価した。化合物とタンパク質の相互作用に関するデータベースを用いて、当該データベースに登録されているデータを教師データとして畳み込みニューラルネットワークを学習させ、学習済みモデルを作成した。この学習済みモデルを用いて、それぞれの薬物の有効物質となる化合物を対象として、その結合タンパク質を予測した。カーネル法やスパース分類器などの他の予測モデルを用いてもよい。
また、各疾患予防薬の化合物の結合タンパク質の予測スコアの和を統合スコアとした。さらに、これらの各化合物の予測スコアと、その和である総合スコアについて、表2に示す。
各化合物について、標的タンパク質が予測され、その予測スコアを求めることができる。また、複数の化合物について、それらの予測スコアの和とすることで、より総合的な予測スコアが高いタンパク質が見出される。この結果から、これらのタンパク質を創薬標的としての治療薬の開発などを行うことができる。
[過敏性腸症候群の解析例]
過敏性腸症候群(Irritable bowel syndrome)の創薬ターゲットを予測したケーススタディーの例を以下に示す。
過敏性腸症候群(Irritable bowel syndrome)の創薬ターゲットを予測したケーススタディーの例を以下に示す。
[解析1-1.FAERSによる解析工程]
薬物有害事象報告システム「FAERS」のデータベースのデータを用いて、過敏性腸症候群のオッズ比を解析した。
その結果、オッズ比が小さく、疾患予防薬の候補として次の薬物が抽出された。
薬物有害事象報告システム「FAERS」のデータベースのデータを用いて、過敏性腸症候群のオッズ比を解析した。
その結果、オッズ比が小さく、疾患予防薬の候補として次の薬物が抽出された。
[予測1-1.創薬標的タンパク質の予測]
解析1-1.の解析により抽出された疾患予防薬の化合物について、結合タンパク質を評価した。化合物とタンパク質の結合に関するデータベースであるChEMBL、MATADOR、Drug Bank、PDSP-Ki、KEGG DRUG、BindingDB、Therapeutic Target Databaseを用いて、当該データベースに登録されている化合物・タンパク質間結合データを教師データとして、類似度検索、グラフ畳み込みニューラルネットワーク、ロジスティック回帰モデルを学習させ、学習済みモデルを作成した。学習データでクロスバリデーションを行い予測精度が最大になるハイパーパラメータを探索し、最適化されたハイパーパラメータを利用して各モデルを学習した。この学習済みモデルを用いて、それぞれの薬物の有効物質となる化合物を対象として、その結合タンパク質を予測した。
また、各疾患予防薬の化合物の結合タンパク質の予測スコアの和を統合スコアとした。
解析1-1.の解析により抽出された疾患予防薬の化合物について、結合タンパク質を評価した。化合物とタンパク質の結合に関するデータベースであるChEMBL、MATADOR、Drug Bank、PDSP-Ki、KEGG DRUG、BindingDB、Therapeutic Target Databaseを用いて、当該データベースに登録されている化合物・タンパク質間結合データを教師データとして、類似度検索、グラフ畳み込みニューラルネットワーク、ロジスティック回帰モデルを学習させ、学習済みモデルを作成した。学習データでクロスバリデーションを行い予測精度が最大になるハイパーパラメータを探索し、最適化されたハイパーパラメータを利用して各モデルを学習した。この学習済みモデルを用いて、それぞれの薬物の有効物質となる化合物を対象として、その結合タンパク質を予測した。
また、各疾患予防薬の化合物の結合タンパク質の予測スコアの和を統合スコアとした。
スコアが高いタンパク質の上位10種類を予測したところ、以下の表のように、予測スコアが高い順に、TDP1、KCNH2、OPRK1、NR1I2、ORM1、TP53、OPRD1、OPRM1、HTR2A、HTR3Aが予測された。
実際に、OPRK1、OPRM1、HTR3Aは過敏性腸症候群に対する既知の創薬ターゲットのタンパク質に対応していた。つまり、過敏性腸症候群に対する既知の創薬ターゲットを、提案手法によって再現できた例と考えられる。既知の創薬ターゲット以外のタンパク質は、過敏性腸症候群に対する新しい創薬ターゲットの候補として期待でき、これらのタンパク質を創薬標的としての治療薬の開発などを行うことができる。
本発明は、創薬標的タンパク質の予測に利用することができ、産業上有用である。
1 予測システム
2 入力部
3 データ部
31 臨床データ
32 相互作用データ
33 オミックスデータ
34 化学構造データ
4 制御部
5 メモリ
6 表示部
61 外部モニタ
2 入力部
3 データ部
31 臨床データ
32 相互作用データ
33 オミックスデータ
34 化学構造データ
4 制御部
5 メモリ
6 表示部
61 外部モニタ
Claims (6)
- 治療目的の疾患の創薬標的タンパク質の予測方法であって、
臨床データから、薬剤を投与したときの治療目的の疾患の起こりやすさを計算し、前記疾患の起こりやすさが低い薬剤を疾患予防薬として解析する工程と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1種類以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する工程と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測方法。 - 前記予測する工程が以下の(1)~(3)からなる予測スコア群から選択される1種類以上の予測スコアとして結合タンパク質を予測するものである請求項1に記載の予測方法。
(1) 前記化学構造データと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と化学構造の類似度が高い登録化合物を予測化合物として求める化学構造の予測スコア
(2) 前記遺伝子発現プロファイルデータと前記相互作用データを用いて、タンパク質と結合することが既知の登録化合物から、前記疾患予防薬の化合物と遺伝子発現プロファイルの類似度が高い登録化合物を予測化合物として求める遺伝子発現の予測スコア
(3) 化合物とタンパク質の相互作用(結合)に関する、機械学習を行った予測モデルを用いて、前記疾患予防薬の結合タンパク質を予測した予測スコア - 前記予測する工程が、前記予測スコア群から2種類以上の予測スコアを予測したものであり、その統合スコアを算出して、複数の前記結合タンパク質の候補に順位付けを行うものである請求項2に記載の予測方法。
- 前記臨床データが、薬物有害事象報告システムに収集されたデータである、請求項1~3のいずれかに記載の予測方法。
- 前記解析する工程で、疾患予防薬の候補について、2種類以上の複数の疾患予防薬を抽出し、
前記予測する工程で、前記複数の疾患予防薬について、それぞれの結合タンパク質の候補を抽出し、これらの複数の疾患予防薬に対する結合タンパク質候補を組み合わせて、創薬標的タンパク質を予測する、請求項1~4のいずれかに記載の予測方法。 - 治療目的の疾患の創薬標的タンパク質を予測するシステムであって、
臨床データから、薬剤を投与したときの疾患の起こりやすさを計算し、疾患の起こりやすさが低い薬剤を疾患予防薬として解析する解析部と、
化合物とタンパク質に関する、相互作用データ、遺伝子発現プロファイルデータ、および化学構造データからなる群から選択される1種類以上のデータを用いた予測スコアにより、前記疾患予防薬の化合物に対する結合タンパク質を予測する予測部と、を有し、
前記結合タンパク質を、前記疾患の創薬標的タンパク質として予測する、創薬標的タンパク質の予測システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020212044 | 2020-12-22 | ||
JP2020212044 | 2020-12-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022099245A true JP2022099245A (ja) | 2022-07-04 |
Family
ID=82261854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021170944A Pending JP2022099245A (ja) | 2020-12-22 | 2021-10-19 | 創薬標的タンパク質の予測方法、創薬標的タンパク質の予測システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022099245A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115406815A (zh) * | 2022-11-02 | 2022-11-29 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
-
2021
- 2021-10-19 JP JP2021170944A patent/JP2022099245A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115406815A (zh) * | 2022-11-02 | 2022-11-29 | 杭州华得森生物技术有限公司 | 基于多源数据融合的肿瘤细胞检测设备及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ching et al. | Opportunities and obstacles for deep learning in biology and medicine | |
JP7390711B2 (ja) | 個体およびコホートの薬理学的表現型予測プラットフォーム | |
Muzio et al. | Biological network analysis with deep learning | |
Marbach et al. | Tissue-specific regulatory circuits reveal variable modular perturbations across complex diseases | |
Woolf et al. | A fuzzy logic approach to analyzing gene expression data | |
US20220165435A1 (en) | Drug repositioning candidate recommendation system, and computer program stored in medium in order to execute each function of system | |
Alaimo et al. | Network-based drug repositioning: approaches, resources, and research directions | |
US20220020466A1 (en) | Methods and System for the Reconstruction of Drug Response and Disease Networks and Uses Thereof | |
Arowolo et al. | Optimized hybrid investigative based dimensionality reduction methods for malaria vector using KNN classifier | |
Li et al. | Evaluating disease similarity based on gene network reconstruction and representation | |
Diaz-Flores et al. | Evolution of artificial intelligence-powered technologies in biomedical research and healthcare | |
Pavel et al. | The potential of a data centred approach & knowledge graph data representation in chemical safety and drug design | |
Serçinoğlu et al. | In silico databases and tools for drug repurposing | |
JP2022099245A (ja) | 創薬標的タンパク質の予測方法、創薬標的タンパク質の予測システム | |
Gnanadesigan et al. | An integrated network topology and deep learning model for prediction of Alzheimer disease candidate genes | |
He et al. | Deep convolutional neural networks for predicting leukemia-related transcription factor binding sites from DNA sequence data | |
Nandhini et al. | Hybrid CNN-LSTM and modified wild horse herd Model-based prediction of genome sequences for genetic disorders | |
Caufield et al. | Cardiovascular informatics: building a bridge to data harmony | |
Boată et al. | Using digital twins in health care | |
Sharma et al. | Detecting protein complexes based on a combination of topological and biological properties in protein-protein interaction network | |
Joshi et al. | Artificial intelligence, big data and machine learning approaches in genome-wide SNP-based prediction for precision medicine and drug discovery | |
Huang et al. | Sequential reinforcement active feature learning for gene signature identification in renal cell carcinoma | |
Ettetuani et al. | Functional cluster analysis of glomerular disease | |
US20230260656A1 (en) | Cohort stratification into endotypes | |
Yue et al. | Identification of Key Ischemic Stroke Genes by Computational Systems Biology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211029 |