JP2024059395A - 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム - Google Patents

変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム Download PDF

Info

Publication number
JP2024059395A
JP2024059395A JP2022167053A JP2022167053A JP2024059395A JP 2024059395 A JP2024059395 A JP 2024059395A JP 2022167053 A JP2022167053 A JP 2022167053A JP 2022167053 A JP2022167053 A JP 2022167053A JP 2024059395 A JP2024059395 A JP 2024059395A
Authority
JP
Japan
Prior art keywords
variation
gene
data
pathway
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022167053A
Other languages
English (en)
Inventor
勝久 堀本
Katsuhisa Horimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Socium Inc
Original Assignee
Socium Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Socium Inc filed Critical Socium Inc
Priority to JP2022167053A priority Critical patent/JP2024059395A/ja
Priority to PCT/JP2023/037271 priority patent/WO2024085096A1/ja
Publication of JP2024059395A publication Critical patent/JP2024059395A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】これまでに蓄積されたデータの活用を可能にした変動パスウェイデータベース生成装置及び変動パスウェイデータベース生成方法、探索装置及び探索方法並びにプログラムを提供する。【解決手段】変動パスウェイデータベース生成装置1は、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部10と、疾患による遺伝子変動を算出する遺伝子変動算出部21と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出22と、予め定められた複数のパスウェイについて、亢進遺伝子または抑制遺伝子を含有する有意確率を求めるパスウェイ解析部23と、複数のパスウェイのそれぞれが亢進遺伝子または抑制遺伝子を含有する有意確率のデータをデータファイル毎に対応付けた変動パスウェイデータベースを記憶する記憶部30と、を備える。【選択図】図1

Description

本発明は、遺伝子の変動データと疾患または化合物との関連を示す知識情報を有効活用する技術に関する。
標的分子/化合物ペアの探索を基礎にする創薬アプローチと異なる、変動遺伝子群を基礎にするアプローチは、Broad InstituteとPfizerとの共同研究による「Connectivity Map」(非特許文献1)に始まる。この論文で、疾患の遺伝子発現とその疾患に薬効を示す化合物の関係性が発見・例証された。すなわち、疾患特異的遺伝子群で亢進する遺伝子群は、薬効を示す化合物の投与前後では抑制され、逆に疾患において抑制される遺伝子群は、化合物投与において亢進する、という「逆パターン」を示す。この関係を利用し、例えば、ある疾患の特異的変動遺伝子群の推定によって、化合物変動遺伝子データセットを準備すれば、当該疾患に薬効を示す化合物が推定できる。また、ある化合物の特異的変動遺伝子群の推定によって、疾患変動遺伝子データセットを準備すれば、その化合物が適応可能な疾患を推定できる。
「Connectivity Map」では、多数の化合物投与前後の遺伝子変動データセットに対して、疾患遺伝子発現をqueryにして「逆パターン」を示す化合物を探索するために、全遺伝子の発現量に対して特異的遺伝子群の発現量分布の偏りを指標にして探索するアルゴリズムも搭載されいる(非特許文献1)。
Justin Lamb他「The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease」SCIENCE 29 Sep 2006 Vol 313, Issue 5795 pp. 1929-1935
近年、生物機能を連動して発揮する分子群が「パスウェイ」と名付けられ、多数のパスウェイデータベースが構築されている。
本発明では、従来の変動遺伝子群の代わりに、これら集積された知識であるパスウェイ情報を利活用する。機能が多様な遺伝子の集団である変動遺伝子群に比べ、明確な生物機能が定義されているパスウェイの変動を利用することで、疾患要因や化合物MoA(mechanism of action 作用機序)を直接的且つ簡潔に推定することが可能になる。例えば、ある化合物に関して推定された責任遺伝子名を入力し、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、疾患データに基づいて予め作成された疾患変動パスウェイデータセットを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。
ここで、これまでに集積されたパスウェイ情報を利用するに際しての一つの課題は、現在までに蓄積された分子生物学の大量な知識と疾患及び薬剤変動計測データは、データの仕様が異なることである。
本発明は、上記背景に鑑み、これまでに蓄積されたデータの活用を可能にした変動パスウェイデータベース生成装置を提供することを目的とする。
本発明の変動パスウェイデータベース生成装置は、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部とを備える。
この構成により、仕様の異なるデータベースから収集したデータを疾患ごとあるいは化合物ごとに丸めてしまうのではなく、収集したデータファイルに対応付けた変動パスウェイデータを有する変動パスウェイデータベースを生成するので、当該変動パスウェイデータベースを利用して適切に疾患または化合物を探索することが可能となる。
本発明の変動パスウェイデータベース生成装置において、前記データファイルは、前記変動データを取得した条件のデータを含んでおり、前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付けてもよい。
本発明の変動パスウェイデータベース生成装置において、前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出してもよい。
本発明の探索装置は、上記した変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、遺伝子を特定するデータを入力する入力部と、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部とを備える。この構成により、入力部より入力された遺伝子を含有する複数のパスウェイの有意確率の結合確率に基づいて、当該遺伝子に関連する疾患または化合物を求めることができる。
本発明の探索装置は、前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、前記出力部は、前記有意結合確率および前記有意結合確率に対応する疾患名または化合物名を出力してもよい。
本発明の変動パスウェイデータベース生成方法は、変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを備える。
本発明の探索方法は、探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、前記探索装置が、遺伝子を特定するデータを入力するステップと、前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、前記探索装置が、上記した変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを備える。
本発明のプログラムは、疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを実行させる。
本発明のプログラムは、遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、遺伝子を特定するデータを入力するステップと、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、上記したプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを実行させる。
図1は、実施の形態の変動パスウェイデータベース生成装置の構成を示す図である。 図2は、実施の形態の変動パスウェイデータベース生成装置のデータ収集部にて整備されたデータを示す図である。 図3は、疾患による遺伝子変動の算出例を示す図である。 図4は、実施の形態の変動パスウェイデータベース生成装置の記憶部に記憶されたデータの例を示す図である。 図5は、実施の形態の変動パスウェイデータベース生成装置の動作を示すにフローチャートである。 図6は、実施の形態の探索装置の構成を示す図である。 図7は、責任遺伝子を含有するパスウェイが3パスウェイであった場合の結合確率の算出例を示す図である。 図8は、責任遺伝子を含有するパスウェイに対応する疾患リストである。 図9は、有意結合確率推定部の処理について説明するための図である。 図10は、実施の形態の探索装置の動作を示すフローチャートである。
以下、本発明の実施の形態に係る変動パスウェイデータベース生成装置および探索装置について、図面を参照しながら説明する。以下の説明では、変動パスウェイデータベース生成装置は、疾患に基づく変動パスウェイデータベースを生成する装置を例とする。また、探索装置は、入力された遺伝子のデータに基づき、関連する疾患の候補を探索する装置を例とする。
(変動パスウェイデータベース生成装置)
図1は、本実施の形態の変動パスウェイデータベース生成装置1の構成を示す図である。変動パスウェイデータベース生成装置1は、データ収集部10と、演算部20と、記憶部30と、出力部40とを備える。演算部20は、遺伝子変動算出部21と、変動遺伝子抽出部22と、パスウェイ解析部23とを有する。
データ収集部10は、既存の仕様の異なる複数のデータベースから、疾患に関連付けられた遺伝子の発現量の変動データを収めたデータファイルを収集する。データ収集部10は、例えば、スクレイピングなどにより半自動的にデータを収集する。データ収集部10は、収集したデータのキュレーションを行い、サンプル名毎の分別を行う。
図2は、データ収集部10で収集されたデータの例を示す図である。図2に示す例では、疾患D1についてデータファイルS1とS2が得られ、疾患D2についてデータS1が得られ、疾患D3についてデータS1が得られている。また、疾患D1のデータファイルS1については、対照データと条件1と条件2のデータが得られ、データファイルS2については対照データと条件1~3のデータが得られている。ここで、対照データは、疾患のないコントロール群から得られた遺伝子の変動データである。条件は、遺伝子の変動データを取得した条件を示している。ここで、条件とは、例えば、疾患データの場合であれば、患者重症度や試料採取部位などであり、後述する薬剤データの場合は、投与薬剤の濃度や投与時点などである。
演算部20の遺伝子変動算出部21は、該データファイルごとに、疾患に関連付けられた遺伝子の変動データを対照データと比較して、疾患による遺伝子変動を算出する。
図3は、疾患による遺伝子変動の算出例を示す図である。遺伝子変動算出部21は、各疾患のデータファイル毎に、対照データと条件データとを比較し、各遺伝子の発現量の変動を算出する。図3では、疾患D1のデータファイルS1における条件1データについて変動データを算出した例を示している。gene_1~gene_15694の各遺伝子について、コントロール群に対する変動割合r_1~r_15694を算出している。
変動遺伝子抽出部22は、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する。本実施の形態では、所定割合として1%、5%、10%の3パターンを用いる。
変動遺伝子抽出部22は、遺伝子変動算出部21で求めた変動割合を大きい順に並べ、上位から1%、5%、10%の遺伝子を亢進遺伝子とし、下位から1%、5%、10%の遺伝子を抑制遺伝子として抽出する。1%、5%、10%の3パターンにおいて亢進遺伝子、抑制遺伝子を求めているのは、上位または下位の何%を採用するかによって、次に説明するパスウェイ解析の結果が異なることがあり、変動パスウェイデータベースを利用するユーザがいくつかのパターンで探索を行えると便利だからである。
パスウェイ解析部23は、パスウェイに亢進遺伝子または抑制遺伝子を含む有意確率を求める。パスウェイの有意確率は、亢進遺伝子または抑制遺伝子の各パスウェイでの含有割合を超幾何分布に基づいて算出した確率である。パスウェイのデータは、例えば、KEGG Pathway Databaseなどのような既存のデータベースが存在しており、パスウェイが含有する遺伝子のデータは既知である。パスウェイ解析部23は、こうした既存のデータベースを利用して亢進遺伝子または抑制遺伝子が含まれる有意確率を求める。パスウェイ解析部23は、解析した結果を記憶部30に記憶する。記憶部30に記憶されたデータが、変動パスウェイデータベース生成装置1によって生成される変動パスウェイデータベース(以下、「変動パスウェイDB」という。)である。
図4は、記憶部30に記憶されたパスウェイ解析結果のデータの例を示す図である。図4に示すように、パスウェイ解析結果は、疾患のデータファイルごとに、条件、亢進/抑制、割合、遺伝子名セット、パスウェイ、有意確率の項目を有している。すでに説明したところと重複するが、条件は、データファイルの遺伝子変動データを取得した条件を示すデータであり、亢進/抑制と割合は、亢進遺伝子、抑制遺伝子として、遺伝子変動の順位が上位または下位の何%を用いたかを示すデータである。遺伝子名セットは、亢進遺伝子のセット、抑制遺伝子のセットを示し、パスウェイと含有確率は、各パスウェイに亢進遺伝子または抑制遺伝子を含有する有意確率を示す。
上述したとおり、記憶部30には、データファイルごとにデータが記憶される。したがって、収納されるファイル数は、(疾患数)×(データファイル数)×(対照データおよび条件データのペア数)×(所定の割合の段階数)×2(亢進・抑制)となる。本実施の形態では、疾患および条件が同じ場合であってもデータファイルごとにパスウェイ解析を行って、その結果を記憶する。疾患および条件が同じであっても、亢進遺伝子または抑制遺伝子の遺伝子名セットが異なり、各パスウェイの有意確率が異なる。このように変動パスウェイデータベースには、収集したデータファイルごとの仕様の違いが残されており、後述する探索装置によって疾患を探索する際に適切にメタ解析を行える。
図5は、変動パスウェイデータベース生成装置1の動作を示すフローチャートである。
変動パスウェイデータベース生成装置1のデータ収集部10は、オープンデータから、疾患の変動データを収集し、対照データと所定の条件で取得した変動データを収納したデータファイル(図2参照)を記憶する(S1)。
変動パスウェイデータベース生成装置1の遺伝子変動算出部21は、収集したデータの対照データと条件データの比を算出し、遺伝子変動の算出を行う(S2)。変動パスウェイデータベース生成装置1の変動遺伝子抽出部22は、遺伝子変動データに基づいて、亢進遺伝子と抑制遺伝子を抽出する(S3)。具体的には、遺伝子変動データの大きさに基づいて遺伝子を並び替え、その上位の所定割合の遺伝子を亢進遺伝子、下位の所定割合の遺伝子を抑制遺伝子として求める。本実施の形態では、所定割合については、1%、5%、10%の3段階とし、各割合に対して亢進遺伝子および抑制遺伝子を求めた。
変動パスウェイデータベース生成装置1のパスウェイ解析部23は、亢進遺伝子および抑制遺伝子の各遺伝子名セットについて、パスウェイ解析を実行し、全パスウェイについて、当該亢進遺伝子および抑制遺伝子が含まれる有意確率を算出し(S4)、算出した有意確率を記憶部30に記憶する。
(探索装置)
図6は、実施の形態の探索装置100の構成を示す図である。探索装置100は、責任遺伝子の入力を受け付けると、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、変動パスウェイデータベース生成装置1により予め作成された変動パスウェイデータベースを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。
探索装置100は、入力部110と、演算部120と、変動パスウェイDB130と、出力部140と、参照データベース(以下、「参照DB」という。)150とを備える。演算部120は、パスウェイ抽出部121と結合確率算出部122と有意結合確率推定部123とを備えている。
探索装置100の入力部110は、対象疾患を求めたい責任遺伝子のデータの入力を受け付ける。変動パスウェイDB130は、上記で述べた変動パスウェイデータベース生成装置1によって生成された変動パスウェイDBを記憶している。参照DB150は、パスウェイとその構成遺伝子とを対応付けて記憶したテーブルである。パスウェイ抽出部121は、参照DB150を参照して、入力部110にて入力された遺伝子を含有する複数のパスウェイを抽出する。
結合確率算出部122は、変動パスウェイDB130を探索し、疾患ごとに複数のパスウェイのそれぞれの有意確率を求め、当該有意確率を結合して疾患に対する結合確率を求める。具体的には、結合確率算出部122は、パスウェイ解析に用いるデータの条件(例えば、条件1、条件2等)と、亢進遺伝子または抑制遺伝子として用いる割合(例えば、上位1%等)の設定を受け付ける。結合確率算出部122は、設定された条件および割合のデータの中から、入力された責任遺伝子を含有するパスウェイを探索し、そのパスウェイの有意確率を読み出す。続いて、結合確率算出部122は、各パスウェイの有意確率を結合して、結合確率を算出する。
図7は、責任遺伝子を含有するパスウェイが3パスウェイであった場合の結合確率の算出例を示す図である。疾患D1について見ると、パスウェイ1の有意確率がp11,パスウェイ2の有意確率がp12,パスウェイ3の有意確率がp13であり、これらの結合確率がq1である。すなわち、疾患D1の結合確率は、q1である。同様に疾患D2の結合確率はq2である。ここでは疾患D1,D2についてのみ記載しているが、結合確率算出部122は、全疾患について結合確率qを求める。
有意結合確率推定部123は、全疾患についての結合確率のうち、統計的に有意な結合確率を推定する。統計的に有意な結合確率を有する疾患が本実施の形態の探索装置100によって探索すべき疾患である。
図8は、責任遺伝子を含有するパスウェイに対応する疾患リストであり、各疾患について結合確率が求められている。どの疾患を責任遺伝子と関連のある疾患であるとして探索するかは課題の一つである。疾患を絞り込みすぎると重要な適応疾患が漏れる可能性があり、逆に疾患が多すぎると探索された疾患についての検証に労力がかかる。本実施の形態の探索装置100は、結合確率qの絶対値を用いるのではなく、結合確率qの差分値について外れ値を検定することで、有意結合確率を推定する。
図9は、有意結合確率推定部123の処理を説明するための図である。有意結合確率推定部123は、結合確率算出部122にて求めた複数の疾患の結合確率について、小さい方から所定数の疾患の結合確率のlog値(log10(q))を算出し、log値を小さい順に並べる。log値を用いることにより、極めて小さな値であるq値を適切に扱うことができる。
図9に示す例では、log値が小さい方から疾患D1,D2,D3,・・・となっている。例えば、結合確率算出部122は、小さい方から51番目までの結合確率について有意結合確率を推定する。この所定数は、ユーザが任意に設定することができる。
次に、有意結合確率推定部123は、隣接する順位の結合確率の差分値を求める。疾患D1の結合確率と疾患D2の結合確率の差分値Δ、疾患D2の結合確率と疾患D3の結合確率の差分値Δ,・・・といった要領である。続いて、有意結合確率推定部123は差分値Δについて外れ値検定を行う。外れ値検定の有意確率はユーザが任意に設定することができる。本実施の形態では、有意確率を0.01とする。
有意結合確率推定部123は、外れ値のうち最も大きな外れ値を示した順位を探索し、その(順位-1)までを有意結合確率とする。例えば、順位1位と2位の差分値、順位2位と3位の差分値、順位5位と6位の差分値が、外れ値検定により外れ値であると求められた場合には、順位6位-1=順位5位までを有意結合確率とする。結合確率の絶対値は組み合わせる確率の数に依存するが、本実施の形態では、差分値の外れ値検定を採用するにより、適切な評価を行うことができる。
図10は、探索装置100の動作を示すフローチャートである。探索装置100の入力部110は、責任遺伝子の入力を受け付ける(S11)。探索装置100は、参照DB150に格納されている既存のパスウェイ/構成遺伝子名のテーブルを参照して、入力された責任遺伝子を含有するパスウェイを抽出する(S12)。ここで、本実施の形態においてテーブルは参照DB150として格納されているが、インターネットを通じて外部の既存のデータベース(例えば、上述したKEGG Pathway Database等)を参照してもよい。
次に、探索装置100は、遺伝子変動データの条件、および、上位何%の変動データを亢進遺伝子/抑制遺伝子とするかの検索条件の設定を受け付ける(S13)。探索装置100は、検索条件にマッチするデータの中から、責任遺伝子を遺伝子セットに一致するパスウェイデータファイルを読み出し、読み出したパスウェイの有意確率を結合して、疾患の結合確率を算出する(S14)。続いて、探索装置100は、抽出された複数の疾患のうち、結合確率が統計的に有意な結合有意確率を推定し(S15)、出力する疾患名を求める。探索装置100は、求めた疾患名を出力する(S16)。ここで、出力部140は、疾患名および結合確率のデータを数値が入力された表として出力してもよいし、対数グラフとして出力してもよい。
以上、本実施の形態の変動パスウェイデータベース生成装置1および探索装置100について説明した。本実施の形態の変動データベース生成装置1は、仕様の異なる複数のデータベースから収集したデータを用いて、変動データベースを生成する。この際、データファイルごとに遺伝子名セットおよびパスウェイの有意確率のデータを記憶しておく。すなわち、仕様の異なる複数のデータを無理に統合することなく、複数のデータファイルとして持っておく。そして、探索装置100は、変動パスウェイデータベース生成装置が生成した変動パスウェイDB130を用いて責任遺伝子を含有する複数のパスウェイの結合有意確率を求めることにより、適切なメタ解析により関連疾患を求めることができる。
本実施の形態の探索装置100によれば、複数の疾患についての結合確率を考慮して責任遺伝子に対応する関連疾患を適切に求めることができる。
なお、上記した実施の形態では、疾患に基づいて変動する遺伝子変動データを用いて変動パスウェイDBを生成し、変動パスウェイDBを用いて責任遺伝子に対応する関連疾患を求める例を挙げたが、本発明は、責任遺伝子に作用する薬剤を求めるためにも適用することが可能である。この場合には、変動パスウェイデータベース生成装置は、化合物に基づいて変動する遺伝子変動データを用いて変動パスウェイDBを生成し、変動パスウェイDBを用いて責任遺伝子に対応する化合物(すなわち薬剤)を求める。
この構成により、疾患に有効な薬剤の候補を推定でき、例えば、既存薬剤について別の適応疾患を探索するのにも役立つ。特に、希少疾患においては、有効な薬剤の探索は進んでいないが、本発明によれば、多くの労力をかけることなく希少疾患に有効な薬剤を推定できる。
以下、本実施の形態の探索装置の実施例について説明する。探索に使用する変動パスウェイDBは、予め上述した方法を用いて作成した。実施例では、変動パスウェイDBを用いて、HER2B阻害薬の適応疾患を推定する。責任遺伝子としてHER2Bを入力した。疾患の検索条件としては、5%亢進を設定した。
探索装置は、HER2Bを含有する次の5つのパスウェイを抽出し、探索を開始した。
Figure 2024059395000002
探索装置は、抽出した5つのパスウェイに対して、次のように疾患名およびその結合確率を推定した。なお、ここでは実際の疾患名は伏せている。
Figure 2024059395000003
探索装置は、50位までの差分値群について外れ値検定を実行した。
Figure 2024059395000004
外れ値検定の結果、3つの外れ値が検出された。外れ値が検出された順位のうち、最も大きい順位は10位であった。したがって、遺伝子名HER2Bを含有するパスウェイが有意に亢進している疾患は、(10位-1)の9疾患であると推定した。探索装置は、HER2B阻害剤は、これらの9つの疾患群に対し薬効を示す可能性が高いと推定できた。
1 変動パスウェイデータベース生成装置
10 データ収集部
20 演算部
30 記憶部
40 出力部
21 遺伝子変動算出部
22 変動遺伝子抽出部
23 パスウェイ解析部
100 探索装置
110 入力部
120 演算部
121 パスウェイ抽出部
122 結合確率算出部
123 有意結合確率推定部
130 変動パスウェイDB
140 出力部

Claims (9)

  1. 仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、
    前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、
    遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、
    予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、
    前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部と、
    を備える変動パスウェイデータベース生成装置。
  2. 前記データファイルは、前記変動データを取得した条件のデータを含んでおり、
    前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付ける請求項1に記載の変動パスウェイデータベース生成装置。
  3. 前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出する請求項1に記載の変動パスウェイデータベース生成装置。
  4. 請求項1に記載の変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、
    遺伝子を特定するデータを入力する入力部と、
    予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、
    前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、
    前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部と、
    を備える探索装置。
  5. 前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、
    前記出力部は、前記有意結合確率に基づいて選択した疾患または化合物のデータを出力する請求項4に記載の探索装置。
  6. 変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、
    前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
    前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
    前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
    前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
    前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
    を備える変動パスウェイデータベース生成方法。
  7. 探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、
    前記探索装置が、遺伝子を特定するデータを入力するステップと、
    前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
    前記探索装置が、請求項6に記載の変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
    前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
    を備える探索方法。
  8. 疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、
    仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
    前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
    遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
    予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
    前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
    を実行させるプログラム。
  9. 遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、
    遺伝子を特定するデータを入力するステップと、
    予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
    請求項8に記載のプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
    前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
    を実行させるプログラム。
JP2022167053A 2022-10-18 2022-10-18 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム Pending JP2024059395A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022167053A JP2024059395A (ja) 2022-10-18 2022-10-18 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム
PCT/JP2023/037271 WO2024085096A1 (ja) 2022-10-18 2023-10-13 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022167053A JP2024059395A (ja) 2022-10-18 2022-10-18 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2024059395A true JP2024059395A (ja) 2024-05-01

Family

ID=90737736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022167053A Pending JP2024059395A (ja) 2022-10-18 2022-10-18 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2024059395A (ja)
WO (1) WO2024085096A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6623774B2 (ja) * 2016-01-14 2019-12-25 富士通株式会社 パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
KR101701168B1 (ko) * 2016-05-11 2017-02-01 가천대학교 산학협력단 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법
JP6884389B2 (ja) * 2017-11-07 2021-06-09 国立研究開発法人産業技術総合研究所 解析装置、解析方法およびプログラム

Also Published As

Publication number Publication date
WO2024085096A1 (ja) 2024-04-25

Similar Documents

Publication Publication Date Title
Warr Representation of chemical structures
US20210202040A1 (en) Method for identifying and classifying sample microorganisms
Mohamed et al. Current status and prospects of computational resources for natural product dereplication: a review
US8803882B2 (en) Identifying on a graphical depiction candidate points and top-moving queries
Yeh et al. Extracting entity-relationship diagram from a table-based legacy database
US20010049680A1 (en) Information retrieval system, apparatus and method for selecting databases using retrieval terms
CN108121896B (zh) 一种基于miRNA的疾病间关系分析方法和装置
CN109460386B (zh) 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置
US20060179041A1 (en) Search system and search method
MX2012011923A (es) Asignacion de atributis aplicables para datos que describen la identidad personal.
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
CN111429980A (zh) 一种材料晶体结构特征的自动化获取方法
JPWO2008108297A1 (ja) 相同性検索システム
Regueira‐Iglesias et al. Critical review of 16S rRNA gene sequencing workflow in microbiome studies: From primer selection to advanced data analysis
JP2019086940A (ja) 関連スコア算出システム、方法およびプログラム
JP2009230520A (ja) 目的コンテンツ探索支援プログラム、目的コンテンツ探索支援方法、及び目的コンテンツ探索支援装置
KR101839572B1 (ko) 질병 관련 유전자 관계 분석 장치 및 방법
WO2024085096A1 (ja) 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム
Azizi et al. Protein structure prediction by means of sequential pattern mining
JP5345918B2 (ja) 文書検索方法、文書検索装置、文書検索プログラム
JP2006092478A (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
Sakthi et al. Evaluation and Customized Support of Dynamic Query form through web search
Theiß et al. Term indexing for the LEO-II prover
Xu et al. Covariant evolutionary event analysis for base interaction prediction using a relational database management system for RNA
Danek et al. Finding Approximate Tandem Repeats with the Burrows-Wheeler Transform