JP7404648B2 - 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム - Google Patents

治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム Download PDF

Info

Publication number
JP7404648B2
JP7404648B2 JP2019084188A JP2019084188A JP7404648B2 JP 7404648 B2 JP7404648 B2 JP 7404648B2 JP 2019084188 A JP2019084188 A JP 2019084188A JP 2019084188 A JP2019084188 A JP 2019084188A JP 7404648 B2 JP7404648 B2 JP 7404648B2
Authority
JP
Japan
Prior art keywords
information
database
protein
relationship
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019084188A
Other languages
English (en)
Other versions
JP2020181378A (ja
Inventor
健一 小林
真一郎 多湖
紘孝 柴田
晴康 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019084188A priority Critical patent/JP7404648B2/ja
Priority to US16/850,631 priority patent/US11615125B2/en
Publication of JP2020181378A publication Critical patent/JP2020181378A/ja
Application granted granted Critical
Publication of JP7404648B2 publication Critical patent/JP7404648B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • G06F16/3328Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、関連性探索方法、関連性探索装置、及び関連性探索プログラムに関する。
既知のデータベースでは、通常、データベース内に構築されたネットワークによって、データベース内の情報間の関連性を調べることができる(例えば、特許文献1参照)。
しかし、世の中には、単一のデータベースのみからでは調べることができない情報間の関連性が存在していることが多い。
特開2007-128163号公報
本件は、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索方法、関連性探索装置、及び関連性探索プログラムを提供することを目的とする。
1つの態様では、本件の関連性探索方法は、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成し、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する。
他の1つの態様では、本件の関連性探索装置は、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する作成部と、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する探索部と、
を備える。
他の1つの態様では、本件の関連性探索プログラムは、
コンピュータに、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させ、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索させる。
一つの側面では、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索方法を提供できる。
また、他の一つの側面では、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索装置を提供できる。
また、他の一つの側面では、単一のデータベースのみからでは調べることができない要素間の関連性を探索可能な関連性探索プログラムを提供できる。
図1は、関連性を探索する方法の一例のフローチャートである。 図2は、関連性探索装置の一例の構成図である。 図3Aは、第1のデータベースのグラフ構造の一例である。 図3Bは、第2のデータベースのグラフ構造の一例である。 図3Cは、図3A及び図3Bを結合した結合データベースのグラフ構造である。 図4は、治療薬を提示する方法の一例のフローチャートである。 図5は、治療薬提示装置の一例の構成図である。 図6Aは、治療薬と変異遺伝子との関係がリアクションパスウェイによって関係づけられたデータベースの一例である。 図6Bは、タンパク質-タンパク質相互作用データベースの一例である。 図6Cは、図6A及び図6Bの結合データベースの一例である。 図7は、パス作用確率の計算方法の一例を説明するための図である。 図8は、結果の提示例である。 図9Aは、変異タンパク質の情報と、変異タンパク質と相互作用するタンパク質の情報と、変異タンパク質とタンパク質との相互作用情報とを有するデータベースの一例である。 図9Bは、タンパク質の情報と、2つのタンパク質間の相互作用情報とを有するデータベースの一例である。 図9Cは、ターゲットタンパク質の情報と、ターゲットタンパク質と相互作用するタンパク質の情報と、ターゲットタンパク質とタンパク質との相互作用情報とを有するデータベースの一例である。 図9Dは、図9A、図9B及び図9Cの結合データベースの一例である。 図10は、作用確率の設定の一例を説明するためのフローチャートである。 図11Aは、作用確率の設定方法の一例を説明するための図である(その1)。 図11Bは、作用確率の設定方法の一例を説明するための図である(その2)。 図11Cは、作用確率の設定方法の一例を説明するための図である(その3)。 図11Dは、作用確率の設定方法の一例を説明するための図である(その4)。 図12は、学習方法の一例を説明するためのフローチャートである。 図13は、作用確率を反復的に少しずつ変更する理由の一例を説明するための図である。 図14は、友人関係を探索する方法の一例のフローチャートである。 図15は、友人探索装置の一例の構成図である。 図16Aは、第1のデータベースのグラフ構造の一例である。 図16Bは、第2のデータベースのグラフ構造の一例である。 図16Cは、図16A及び図16Bを結合した結合データベースのグラフ構造の一例である。 図17は、開示の関連性探索装置の一例のハードウェア構成図である。 図18は、開示の関連性探索装置の他の一例のハードウェア構成図である。 図19は、開示の関連性探索装置の他の一例のハードウェア構成図である。
(関連性探索方法、関連性探索装置、及び関連性探索プログラム)
本件の関連性探索方法は、複数の要素と、複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する。
関連性探索方法は、更に、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する。
関連性探索方法は、例えば、関連性があると判断された、直接に関連性がない2つの要素間の関連性を提示する。
本件の関連性探索装置は、作成部と、探索部とを少なくとも備え、更に必要に応じて、提示部を備える。
作成部は、複数の要素と、複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する。
探索部は、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する。
提示部は、関連性があると判断された、直接に関連性がない2つの要素間の関連性を提示する。
本件の関連性探索プログラムは、コンピュータに、複数の要素と、複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させる。
関連性探索プログラムは、更に、コンピュータに、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索させる。
関連性探索プログラムは、例えば、更に、コンピュータに、直接に関連性がない2つの要素間の関連性を提示させる。
結合データベースの構造は、例えば、要素をノードとし、関連性情報をエッジとするグラフ構造である。
関連性情報は、例えば、2つの要素間の関連性の強さを表す情報である。
なお、個々のデータベースには、全ての要素における全ての2つの組み合わせの関連性情報が存在している必要はない。
開示の関連性探索方法、関連性探索装置、及び関連性探索プログラムにおいては、例えば、以下のようにして、単一のデータベースのみからでは調べることができない要素間の関連性を探索する。
図1に、関連性を探索する方法の一例のフローチャートを示す。図2に、関連性探索装置1の構成図を示す。
<工程S101>
まず、結合データベースの作成を行う(S101)。結合データベースの作成は、例えば、関連性探索装置1の作成部11において行われる。
工程S101では、例えば、図3Aに示すグラフ構造を有する第1のデータベースと、図3Bに示すグラフ構造を有する第2のデータベースとを結合し、図3Cに示すグラフ構造を有する結合データベースを作成する。
第1のデータベースは、要素e1~要素e3と、2つの要素間の関連性情報k1~関連性情報k3とを有する。図3Aに示すグラフ構造は、要素e1~要素e3をノードとし、関連性情報k1~関連性情報k3をエッジとするグラフ構造である。
第2のデータベースは、要素e2、要素e3、要素e11、及び要素e12と、2つの要素間の関連性情報k11~関連性情報k14とを有する。図3Bに示すグラフ構造は、要素e2、要素e3、要素e11、及び要素e12をノードとし、関連性情報k11~関連性情報k14をエッジとするグラフ構造である。
結合データベースの作成では、例えば、重複する要素を一つの要素に統合する。
そうすると、第1のデータベースと第2のデータベースとを結合した結合データベースでは、図3Cに示すように、要素e1、要素e2、要素e3、要素e11、及び要素e12と、2つの要素間の関連性情報k1、関連性情報k2、及び関連性情報k11~関連性情報k14とを有する。図3Cに示すグラフ構造は、要素e1、要素e2、要素e3、要素e11、及び要素e12をノードとし、関連性情報k1、関連性情報k2、及び関連性情報k11~関連性情報k14をエッジとするグラフ構造である。
なお、結合データベースを作成する際、2つの要素間に異なる関連性情報がある場合(例えば、要素e2、要素e3との間に、異なる関連性情報k3と関連性情報k11とがある場合)、どちらの関連性情報を用いて結合データベースを作成してもよい。また、関連性情報は、結合データベースを作成した後に、学習データを用いて、更新することが好ましい。
また、結合するデータベースの数は、2つに限られず、3つ以上であってもよい。
<工程S102>
次に、結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する(S102)。2つの要素間の関連性の探索は、例えば、関連性探索装置1の探索部12において行われる。
例えば、図3Cに示すグラフ構造を有する結合データベースを用いて、直接に関連性がない要素e1と要素e11との関連性を探索する。この関連性は、図3Aに示すグラフ構造を有する第1のデータベース単独、及び図3Bに示すグラフ構造を有する第2のデータベース単独では見いだせない関連性である。要素e1と要素e11との関連性の強さは、例えば、要素e1及び要素e11間の一つの経路に存在する複数の関連性情報の合計により算出される。
本件の関連性探索方法、関連性探索装置、及び関連性探索プログラムに用いるデータベースとしては、特に制限はなく、目的に応じて適宜選択することができ、例えば、以下のデータベースなどが挙げられる。
・タンパク質と、タンパク質間の相互作用情報とが収録されたデータベース
・人名と、人名間の友人関係とが収録されたデータベース
関連性探索方法、関連性探索装置、及び関連性探索プログラムは、例えば、既存の単一のデータベースからは調べることができない、治療薬の探索・推薦、友人関係の探索などに用いることができる。
<治療薬の探索・推薦>
関連性探索方法、関連性探索装置、及び関連性探索プログラムは、既存の単一のデータベースからは調べることができない、治療薬の探索・推薦に用いることができる。
ガンなど遺伝子の変異が原因となって発症する病気は多い。遺伝子の変異は、患者の遺伝子解析を行うことで調べることができる。遺伝子の変異に起因する病気の治療に関しては、タンパク質に直接作用する分子標的治療薬が、効果を上げている。
しかし、病気の原因となる変異のある遺伝子から生成されるタンパク質(以下、「変異タンパク質」と称することがある)と、分子標的治療薬が直接作用するタンパク質(以下、「ターゲットタンパク質」と称することがある)とは等しいとは限らない。そのため、遺伝子の変異に対して有効な分子標的治療薬を割り出すことが、有効な治療のために必要となる。
従来、治療薬の探索は、作用が実験により確認されたパスウェイと呼ばれるタンパク質のパスが蓄積されているデータベースを用い、パスウェイの中から変異タンパク質からターゲットタンパク質までのパスを含むものを見つけ、それが有効であるかを精査するといった手順により行われている。パスウェイは作用の有無と種類とを示すものであり、それが直接に薬の有効性を示すものではないため、必ず医療知識保持者の介入が必要となる。
上記手順についてのコンピュータを用いた支援として、パスウェイデータベースからの検索を行うことで列挙を支援する方法、パスウェイの情報を利用して、ペトリネットなどの手法を用いてシミュレーションを行い、判断を支援する方法などが行われている。
しかし、これらの方法では、既知のパスウェイが前提となっている技術であるため、未知の薬効を発見できるものではない。
他方、ベイジアンネットなどを用いて統計的にパスウェイを推定する方法も提案されている。
しかし、この方法で得られるものは、パスウェイのグラフ構造のみであり、既知のパスウェイに付随する分岐条件、合流条件など統計的に得られない情報が欠けている。
また、タンパク質とタンパク質の1対1関係について、タンパク質の属性を調べることで薬効の有無を推定する方法が提案されている。
しかし、この方法では、複数のタンパク質の関係からなる(すなわち、経路長2以上の)パスについて推定を行うことはできない。
開示の関連性探索方法、関連性探索装置、及び関連性探索プログラムの一例を用いることで、疾患に対して薬効のある治療薬を、既知の治療薬のみならず、未知の治療薬についても提示することが可能となる。以下にその方法を説明する。
なお、以下において、関連性探索方法を治療薬の提示に用いる場合、治療薬提示方法と称する。関連性探索装置を治療薬の提示に用いる場合、治療薬提示装置と称する。関連性探索プログラムを治療薬の提示に用いる場合、治療薬提示プログラムと称する。
開示の治療薬提示方法においては、まず、複数のタンパク質の情報と、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とを備える複数のデータベースを結合して、結合データベースを作成する。
ここで、複数のデータベースは、以下(1)及び(2)の少なくともいずれかを満たす。
(1)複数のデータベースには、変異遺伝子から生成される変異タンパク質の情報を有するデータベース、及び治療薬が直接作用するターゲットタンパク質の情報を有するデータベースが含まれる。
(2)複数のデータベースには、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを有するデータベースが含まれる。
そのため、結合データベースは、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを有する。
治療薬提示方法においては、更に、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する。
治療薬提示方法においては、更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する。
なお、タンパク質の情報とは、例えば、タンパク質名、アミノ酸配列などが挙げられる。
開示の治療薬提示装置においては、複数のタンパク質の情報と、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とを備える複数のデータベースを結合して、結合データベースを作成する作成部を有する。
治療薬提示装置は、更に、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する探索部を有する。
治療薬提示装置は、更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する提示部を有する。
開示の治療薬提示プログラムにおいては、まず、コンピュータに、複数のタンパク質の情報と、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とを備える複数のデータベースを結合して、結合データベースを作成させる。
治療薬提示プログラムにおいては、更に、コンピュータに、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索させる。
治療薬提示プログラムにおいては、更に、コンピュータに、治療薬提示方法においては、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示させる。
開示の治療薬提示方法、治療薬提示装置、及び治療薬提示プログラムにおいては、例えば、以下のようにして、疾患に対して薬効のある治療薬を、既知の治療薬のみならず、未知の治療薬についても提示する。
図4に、治療薬を提示する方法の一例のフローチャートを示す。図5に、治療薬提示装置の構成図を示す。
<工程S201>
まず、結合データベースの作成を行う(S201)。結合データベースの作成は、例えば、治療薬提示装置2の作成部21において行われる。
工程S201では、例えば、図6Aに示すデータベースD1と、図6Bに示すデータベースD2とを結合し、図6Cに示す結合データベースD3を作成する。
図6Aは、治療薬と変異遺伝子との関係がリアクションパスウェイによって関係づけられたデータベースD1である。図6Aにおいて、P1~P5、P11~P15、P21~P25は、要素であるタンパク質を表す。図6Aにおいて、i1~i4、i11~i14、i21~i24は、リアクションパスウェイを構成する個々の関連性情報である、2つのタンパク質間の相互作用を示す相互作用情報(タンパク質-タンパク質相互作用、以下「PPI」と称することがある)を表す。タンパク質P1は、変異遺伝子1から生成される変異タンパク質である。タンパク質P11は、変異遺伝子2から生成される変異タンパク質である。タンパク質P21は、変異遺伝子3から生成される変異タンパク質である。タンパク質P5は、治療薬1が直接作用するターゲットffタンパク質である。タンパク質P15は、治療薬2が直接作用するターゲットタンパク質である。タンパク質P25は、治療薬3が直接作用するターゲットタンパク質である。
図6Bは、タンパク質P3、P13、P23と、PPI(i31、i32)とを有するデータベースD2である。
図6Cに示す結合データベースD3では、データベースD1にデータベースD2を加えたことにより、データベースD1には存在しなかった、以下の6種類の新しいパスが生成されている。
(i)P1-P15間のパス
(ii)P1-P25間のパス
(iii)P11-P5間のパス
(iv)P11-P25間のパス
(v)P21-P5間のパス
(vi)P21-P15間のパス
なお、結合するデータベースの数は、2つに限られず、3つ以上であってもよい。
結合に使用されるデータベースの一例を以下に示す。
・Reactome:リアクションパスウェイのデータベース
・HiNT:タンパク質-タンパク質相互作用データベース(PPIデータベース)
・INstruct:タンパク質-タンパク質相互作用データベース(PPIデータベース)
・Guide To Pharmacology:治療薬と遺伝子のデータベース(治療薬が直接作用するターゲットタンパク質の情報を含んでいる)
<工程S202>
次に、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する(S202)。変異タンパク質と、ターゲットタンパク質との関係性の探索は、例えば、治療薬提示装置11の探索部12において行われる。
例えば、図6Cに示す結合データベースD3を用いて、変異タンパク質とターゲットタンパク質との関係性を探索する。ここでの関係性とは、例えば、ターゲットタンパク質が変異タンパク質に及ぼす影響が挙げられる。そのような影響の強さは、例えば、変異タンパク質とターゲットタンパク質との間の経路に存在する複数の相互作用情報を統合して得られる。
例えば、変異タンパク質であるタンパク質P1と、ターゲットタンパク質であるタンパク質P15との間には、図7に示すように、5つのPPI(i1、i2、i31、i13、i14)が存在する。そして、例えば、個々の相互作用の相対的な強さを作用確率とし、その作用確率が図7に示すような確率であった場合、ターゲットタンパク質であるタンパク質P15との間のパスの作用確率は以下のように求められる。
パス作用確率=0.5×0.8×0.9×0.8×0.4=0.1152
変異タンパク質と、ターゲットタンパク質との関係性の探索は、例えば、存在する変異タンパク質-ターゲットタンパク質間の全てのパスについて行われてもよい。また、変異タンパク質と、ターゲットタンパク質との関係性の探索は、特定の変異タンパク質と、ターゲットタンパク質との間の全てのパスについて行われてもよい。
なお、作用確率の設定方法については、後述する。
<工程S203>
次に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する(S203)。当該提示は、例えば、治療薬提示装置11の提示部13において行われる。
具体的には、例えば、特定の変異タンパク質-ターゲットタンパク質間の全てのパスについて求められたパス作用確率を一覧として表示することにより行われる。例えば、変異タンパク質1に起因する疾患に有効な治療薬を提示する場合、変異タンパク質1-ターゲットタンパク質(P1、P15、P25)間の全てのパスについて求められた個々のパス作用確率を、図8に示すように、パス作用確率の数値が大きいものから順に並べた降順リストを作成し、表示する。
なお、特定の変異タンパク質と特定のターゲットタンパク質との間に複数のパスが存在する場合には、複数のパスから求められる複数のパス作用確率のうちで最も大きいパス作用確率を、特定の変異タンパク質と特定のターゲットタンパク質とのパス作用確率を代表するパス作用確率としてもよい(最尤推定)。
そして、特定の変異タンパク質からパス作用確率が最も高いターゲットタンパク質を求めることは、以下の変換を与えることにより、変異タンパク質からターゲットタンパク質への最短パスのターゲットタンパク質を求めることと等価となる。すなわち、特定の変異タンパク質からパス作用確率の高いターゲットタンパク質を求めることは、最短経路問題に帰着させることができ、例えば、最短経路問題の古典的な解法であるダイクストラ法で解くことができる。
距離=C・-log(作用確率)
なお、作用確率の高低を求める目的には定数Cの計算は不要である。
<<データベースの結合の変形例>>
以下に、工程S201におけるデータベースの結合の変形例を示す。
図6A~図6Cを用いた説明では、治療薬と変異遺伝子との関係がリアクションパスウェイによって関係づけられたデータベースD1を用いた。本変形例では、変異遺伝子から生成される変異タンパク質の情報を有するデータベースと、治療薬が直接作用するターゲットタンパク質の情報を有するデータベースと、2つのタンパク質間の相互作用を示す相互作用情報を有するデータベースを用いる。
図9Aに示すデータベースは、変異遺伝子から生成される変異タンパク質の情報と、変異タンパク質と相互作用するタンパク質の情報と、変異タンパク質とタンパク質との相互作用情報とを有するデータベースD4である。図9Aにおいて、P31、P32、P41、P42、P51、P52は、タンパク質を表す。図9Aにおいて、i41、i51、i61は、相互作用情報を表す。タンパク質P31は、変異遺伝子4から生成される変異タンパク質である。タンパク質P41は、変異遺伝子5から生成される変異タンパク質である。タンパク質P51は、変異遺伝子6から生成される変異タンパク質である。
図9Bに示すデータベースは、タンパク質の情報と、2つのタンパク質間の相互作用情報とを有するデータベースD5である。図9Bにおいて、P31、P32、P33、P34、P35、P42、P43、P44、P45、P52、P53は、タンパク質を表す。図9Bにおいて、i41、i42、i43、i44、i52、i53、i54、i62、i71、i72は、相互作用情報を表す。
図9Cに示すデータベースは、治療薬が直接作用するターゲットタンパク質の情報と、ターゲットタンパク質と相互作用するタンパク質の情報と、ターゲットタンパク質とタンパク質との相互作用情報とを有するデータベースD6である。図9Cにおいて、P34、P35、P44、P45、P54、P55は、タンパク質を表す。図9Cにおいて、i44、i54、i64は、相互作用情報を表す。
図9A、図9B、及び図9Cのデータベースを結合すると、図9Dに示す結合データベースが得られる。
<<作用確率の設定方法>>
工程202において、結合データベースを用いて、変異タンパク質と、ターゲットタンパク質との関係性を探索する際には、例えば、変異タンパク質とターゲットタンパク質との間の経路に存在する複数の相互作用情報から、変異タンパク質とターゲットタンパク質との相互作用の相対的な強さを求める。その際、個々の相互作用の相対的な強さ(個々の相互作用情報)である作用確率の積から、パス作用確率を求める。
その際の個々の作用確率は、例えば、ベイズ推定による機械学習により設定することができる。その方法の一例を以下に示す。
図10は、作用確率の設定の一例を説明するためのフローチャートである。
-工程S301(結合データベースの作成)-
まず、準備段階として、複数のデータベースを結合して、結合データベースを作成する(S301)。図11Aは、データベースを結合する様子の概念図である。図11Aにおいては、リアクションパスウェイデータベース(DB)として、Reactomeを用い、PPIデータベースとしてHINT及びINstructを用いる。
結合データベースの構造は、例えば、タンパク質をノードとし、タンパク質-タンパク質相互作用(PPI)をエッジとするグラフ構造であり、グラフ構造の規模としては、例えば、ノード数が数万となり、エッジ数が数十万となる。
-工程S302〔学習の準備段階(その1)〕-
作用確率の学習の準備段階(その1)として、結合データベースに対して、タンパク質-タンパク質相互作用(PPI)に作用確率の初期値を設定する(S302)。
この場合、各エッジの真の値は大きく異なる可能性があるため単一の初期値を与えることは危険である。また、作用確率を推定するうえで、訓練データとなる薬や症例ごとの薬効データには大きなバラつきがあるため、訓練データの多寡に応じて推定の精度を制御する必要がある。
そこで、作用確率としては単一の推定値を与えるのではなく、推定値の確率分布を与えることが好ましい。作用自体は有無を表すベルヌーイ分布で記述されるため、作用確率を表す確率分布はベルヌーイ分布の共役事前分布であるベータ分布を採ると利便性が高い(図11B)。図11Bは、タンパク質-タンパク質相互作用(PPI)に作用確率の初期値としてベータ分布を付与した状態を表す概念図である。
したがって、PPIの作用確率に事前分布としてベータ分布Be(αPPI,βPPI)を割り当てる。αPPIとβPPIは分布のパラメータであり、期待値が0.1などの低い値となるように設定する。その確率密度関数は以下で表される〔ただし、Β(,)はベータ関数〕。
Figure 0007404648000001
-工程S303〔学習の準備段階(その2)〕-
次に、作用確率の学習の準備段階(その2)として、既知のリアクションパスウェイ中のPPIの作用確率の事前分布を設定する。これは、既知のリアクションパスウェイは有効な薬効の機序となりえる有用性が高いため、既知のリアクションパスウェイ中のPPIの作用確率には高い事前分布を与えることが好ましいためである。ここで、既知のリアクションパスウェイは、パスウェイDBであるReactomeに収録された情報である。
既知のリアクションパスウェイ中に現れるPPIごとに、その作用確率を、ある程度高い確率、及び適切に設定した試行数で、ベイズ更新を行う(S303)。事前分布がベータ分布の確率密度関数fprior(x;α,β)で表されるとき、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.1)の試行を経ることによりベイズ更新された事後確率の密度関数はベイズの定理により次式のfposterior(x;α,β)で求められる。これは閉じた形式で解けるため、計算は容易である。αは、薬効があった数を表し、βは、薬効がなかった数を表す。
Figure 0007404648000002
なお、複数のリアクションパスウェイの間でPPIが重複する場合があるため、あるPPIのベイズ更新が複数回起こることがあり得る。
-工程S304〔サブステップ(類似PPIへのベイズ更新の適用)〕-
リアクションパスウェイ中のPPIと類似するPPIは、リアクションパスウェイのPPIと同様に振る舞うことが期待される。それが学習データに含まれないPPIであれば、未知の薬効を推定するための手がかりとなりえる。類似するPPIとしては、例えば、リアクションパスウェイ中のPPIと同じドメイン間相互作用を持つPPIが挙げられる。ここでは、「同じドメイン間相互作用を持つPPIは似ている」という仮定を適用している。類似PPIの判定には、例えば、INstructデータベースのタンパク質ドメイン間相互作用の情報を用いる。
そこで、リアクションパスウェイのPPIによるベイズ更新の際には、そのPPIの類似PPIも弱く(=試行数を減じて)ベイズ更新する(S304)。例えば、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.001)の試行を行う。そうすることで、知識の転用を行う。
図11Cは、既知のリアクションパスウェイ中に現れるPPIの作用確率をベイズ更新する状態を表す概念図である。
-工程S305(学習段階)-
学習段階として、学習データを用いて学習を行う(S305)。
学習は、例えば、以下の方法で行う。図11Dは、以下の方法により、学習データを用いて学習を行う状態を表す概念図である。図12は、以下の学習のフローチャートである。以下に、図12のフローチャートを用いて、学習データを用いた学習の一例を説明する。
--工程S401--
DGIdbデータベースとGuideToPharmacologyデータベースを用いて、既知の薬効のある変異タンパク質とターゲットタンパク質のペアの学習データを用意する(S401)。
--工程S402--
次に、学習データから1エントリを選び、変異タンパク質とターゲットタンパク質とのパスを最尤推定する(S402)。これは、最短経路問題を解くことと等価である。
--工程S403--
最尤推定したパス上のPPIに対し、ある程度高い確率と適切に設定した試行数でベイズ更新を行う(S403)。例えば、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.3)の試行を行う。
--工程S404--
工程S304と同様に、類似PPIについても弱くベイズ更新を行う(S404)。
--工程S405--
工程S402~工程S404を、全エントリについて繰り返す(S405)。
--工程S406--
ある変異タンパク質を選び、全てのターゲットタンパク質へのパス作用確率を列挙し、正例(学習データに存在するターゲットタンパク質)のパス作用確率が非正例のパス作用確率より低い場合、その正例のパスに属するPPIを比較的高い確率でベイズ更新する(S406)。例えば、成功率r(例えば、r=0.99)、試行数n(例えば、n=0.3)の試行を行う。
--工程S407--
全ての変異タンパク質について工程S406を繰り返す(S407)。
--工程S408--
ある変異タンパク質を選び、全てのターゲットタンパク質へのパス作用確率を列挙し、非正例のパス作用確率が正例のパス作用確率より高い場合、その非正例のパスに属するPPIを比較的低い確率でベイズ更新する(S408)。例えば、成功率r(例えば、r=0.10)、試行数n(例えば、n=0.3)の試行を行う。
--工程S409--
全ての変異タンパク質について工程S409を繰り返す(S409)。
--工程S410--
評価値(例えば、後述するRecall@kの平均)を求める(S410)。
--工程S411--
そして、評価が改善している間、工程S402~工程S410を繰り返す。
ここで、Recall@kはデータ中の全正解のうち、上位k個までに正解の何%が含まれるかを表す性能評価指標である。値が大きいほど正確であることを意味する。
ここで、作用確率を反復的に少しずつ変更する理由について述べる。
例えば、図13のようなPPIがあり、変異タンパクAからターゲットタンパクBという学習データのエントリが現れた場合、最初はA-X-Bというパスが選ばれる
このとき、真のパスがA-Z-Y-Bであった場合、最初に選ばれたパスは誤りである。もし、最初にA-X-BというパスのPPIにあまりにも高い確率を割り当てた場合、A-Z-Y-Bというパスは二度と辿られることは無くなってしまう。
もし、確率の変更が少しであれば、他の学習データから、A-Z,Z-Y,Y-BのPPIが高確率に学習されるチャンスが残る。これは誤った局所解に落ちて脱出できないという状態を避けることを意味する。
<友人関係の探索>
関連性探索方法、関連性探索装置、及び関連性探索プログラムは、既存の単一のデータベースからは調べることができない、友人関係の探索にも用いることができる。
現代では、インターネット上に多くのSocial networking service(以下、「SNS」と称することがある)が存在している。それらは、独立に、友人関係の探索を行う機能を有する場合がある。
しかし、SNS同士をまたいで友人関係の探索を行うことはできない。
開示の関連性探索方法、関連性探索装置、及び関連性探索プログラムの一例を用いることで、既存の単一のデータベースからは調べることができない友人関係を探索することが可能となる。以下にその方法を説明する。
なお、以下において、関連性探索方法を友人関係の探索に用いる場合、友人探索方法と称する。関連性探索装置を友人関係の探索に用いる場合、友人探索装置と称する。関連性探索プログラムを友人関係の探索に用いる場合、友人探索プログラムと称する。
開示の友人探索方法においては、まず、複数の人の情報と、複数の人における2人の間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する。
友人探索方法においては、更に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索する。
友人探索方法においては、例えば、更に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示する。
開示の友人探索装置においては、複数の人の情報と、複数の人における2人の間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する作成部を有する。
友人探索装置においては、更に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索する探索部を有する。
友人探索装置においては、例えば、更に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示する提示部を有する。
開示の友人探索プログラムは、コンピュータに、複数の人の情報と、複数の人における2人の間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させる。
友人探索プログラムにおいては、更に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索させる。
友人探索プログラムにおいては、例えば、更に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示させる。
結合データベースの構造は、例えば、人の情報をノードとし、関連性情報をエッジとするグラフ構造である。
関連性情報は、例えば、2人の間の直接の関連性の強さを表す情報であり、例えば、共通する趣味、共通する友人の数、SNS内での会話の回数などが挙げられる。
友人探索方法、友人探索装置、及び友人探索プログラムにおいては、例えば、以下のようにして、単一のデータベースのみからでは調べることができない要素間の関連性を探索する。
図14に、友人関係を探索する方法の一例のフローチャートを示す。図15に、友人探索装置3の構成図を示す。
<工程S501>
まず、結合データベースの作成を行う(S501)。結合データベースの作成は、例えば、友人探索装置3の作成部21において行われる。
工程S501では、例えば、図16Aに示すグラフ構造を有する第1のデータベースと、図16Bに示すグラフ構造を有する第2のデータベースとを結合し、図16Cに示すグラフ構造を有する結合データベースを作成する。
第1のデータベースは、人情報h1~人情報h3と、2人の間の直接の関連性を示す関連性情報y1~関連性情報y3とを有する。図16Aに示すグラフ構造は、人情報h1~人情報h3をノードとし、関連性情報y1~関連性情報y3をエッジとするグラフ構造である。
第2のデータベースは、人情報h2、人情報h3、人情報h11、及び人情報h12と、2人の間の直接の関連性を示す関連性情報y11~関連性情報y14とを有する。図16Bに示すグラフ構造は、人情報h2、人情報h3、人情報h11、及び人情報h12をノードとし、2人の間の直接の関連性を示す関連性情報y11~関連性情報y14をエッジとするグラフ構造である。
結合データベースの作成では、例えば、重複する人情報を一つの人情報に統合する。
そうすると、第1のデータベースと第2のデータベースとを結合した結合データベースでは、図16Cに示すように、人情報h1、人情報h2、人情報h3、人情報h11、及び人情報h12と、2人の間の直接の関連性を示す関連性情報y1、関連性情報y2、及び関連性情報y11~関連性情報y14とを有する。図16Cに示すグラフ構造は、人情報h1、人情報h2、人情報h3、人情報h11、及び人情報h12をノードとし、関連性情報y1、関連性情報y2、及び関連性情報y11~関連性情報y14をエッジとするグラフ構造である。
なお、結合データベースを作成する際、2人の間の直接の関連性を示す関連性情報がある場合(例えば、人情報h2、人情報h3との間に、異なる関連性情報y3と関連性情報y11とがある場合)、どちらの関連性情報を用いて結合データベースを作成してもよい。
また、結合するデータベースの数は、2つに限られず、3つ以上であってもよい。
<工程S502>
次に、結合データベースを用いて、直接に関連性がない2人の間の関連性を探索する(S502)。2人の間の関連性の探索は、例えば、友人探索装置3の探索部32において行われる。
例えば、図16Cに示すグラフ構造を有する結合データベースを用いて、直接に関連性がない人情報h1と人情報h11との関連性を探索する。この関連性は、図16Aに示すグラフ構造を有する第1のデータベース単独、及び図16Bに示すグラフ構造を有する第2のデータベース単独では見いだせない関連性である。人情報h1と人情報h11との関連性の強さは、例えば、人情報h1及び人情報h11間の一つの経路に存在する複数の関連性情報の合計により算出される。
<工程S503>
次に、関連性があると判断された、直接に関連性がない2人の間の関連性を提示する(S503)。提示は、例えば、友人探索装置3の提示部33において行われる。
例えば、関連性の提示としては、例えば、共通する趣味、共通する友人の数の提示などが挙げられる。
開示のプログラムは、使用するコンピュータシステムの構成及びオペレーティングシステムの種類・バージョンなどに応じて、公知の各種のプログラム言語を用いて作成することができる。
開示のプログラムは、内蔵ハードディスク、外付けハードディスクなどの記録媒体に記録しておいてもよいし、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、MOディスク(Magneto-Optical disk)、USBメモリ〔USB(Universal Serial Bus) flash drive〕などの記録媒体に記録しておいてもよい。プログラムをCD-ROM、DVD-ROM、MOディスク、USBメモリなどの記録媒体に記録する場合には、必要に応じて随時、コンピュータシステムが有する記録媒体読取装置を通じて、これを直接、又はハードディスクにインストールして使用することができる。また、コンピュータシステムから情報通信ネットワークを通じてアクセス可能な外部記憶領域(他のコンピュータ等)にプログラムを記録しておき、必要に応じて随時、外部記憶領域から情報通信ネットワークを通じてこれを直接、又はハードディスクにインストールして使用することもできる。
プログラムは、複数の記録媒体に、任意の処理毎に分割されて記録されていてもよい。
開示のプログラムは、例えば、開示のコンピュータが読み取り可能な記録媒体に記録してなる。
コンピュータが読み取り可能な記録媒体としては、特に制限はなく、目的に応じて適宜選択することができ、例えば、内蔵ハードディスク、外付けハードディスク、CD-ROM、DVD-ROM、MOディスク、USBメモリなどが挙げられる。
記録媒体は、プログラムが任意の処理毎に分割されて記録された複数の記録媒体であってもよい。
図17に、開示の関連性探索装置の一例を示す。
関連性探索装置10は、例えば、CPU11、メモリ12、記憶部13、表示部14、入力部15、出力部16、I/Oインターフェース部17等がシステムバス18を介して接続されて構成される。
CPU(Central Processing Unit)11は、演算(四則演算、比較演算等)、ハードウエア及びソフトウエアの動作制御などを行う。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などのメモリである。RAMは、ROM及び記憶部13から読み出されたOS(Operating System)及びアプリケーションプログラムなどを記憶し、CPU11の主メモリ及びワークエリアとして機能する。
記憶部13は、各種プログラム及びデータを記憶する装置であり、例えば、ハードディスクである。記憶部13には、CPU11が実行するプログラム、プログラム実行に必要なデータ、OSなどが格納される。
プログラムは、記憶部13に格納され、メモリ12のRAM(主メモリ)にロードされ、CPU11により実行される。
表示部14は、表示装置であり、例えば、CRTモニタ、液晶パネル等のディスプレイ装置である。
入力部15は、各種データの入力装置であり、例えば、キーボード、ポインティングデバイス(例えば、マウス等)などである。
出力部16は、各種データの出力装置であり、例えば、プリンタである。
I/Oインターフェース部17は、各種の外部装置を接続するためのインターフェースである。例えば、CD-ROM、DVD-ROM、MOディスク、USBメモリなどのデータの入出力を可能にする。
図18に、開示の関連性探索装置の他の一例を示す。
図18の一例は、クラウド型の構成例であり、CPU11が、記憶部13等とは独立している。この構成例では、ネットワークインターフェース部19、20を介して、記憶部13等を格納するコンピュータ30と、CPU11を格納するコンピュータ40とが接続される。
ネットワークインターフェース部19、20は、インターネットを利用して、通信を行うハードウェアである。
図19に、開示の関連性探索装置の他の一例を示す。
図19の一例は、クラウド型の構成例であり、記憶部13が、CPU11等とは独立している。この構成例では、ネットワークインターフェース部19、20を介して、CPU11等を格納するコンピュータ30と、記憶部13を格納するコンピュータ40とが接続される。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成し、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索することを特徴とする関連性探索方法。
(付記2)
前記結合データベースの構造が、前記要素をノードとし、前記関連性情報をエッジとするグラフ構造である付記1に記載の関連性探索方法。
(付記3)
前記関連性があると判断された、前記直接に関連性がない2つの要素間の関連性を提示する付記1から2のいずれかに記載の関連性探索方法。
(付記4)
治療薬提示方法であって、
前記複数の要素が、複数のタンパク質の情報であり、
前記関連性情報が、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報であり、
前記複数のデータベースが、以下(1)及び(2)の少なくともいずれかを満たし、
前記関連性を探索することが、変異タンパク質と、ターゲットタンパク質との関係性を探索することであり、
更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示することを含む、付記1から2のいずれかに記載の関連性探索方法。
(1)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報を有するデータベース、及び治療薬が直接作用する前記ターゲットタンパク質の情報を有するデータベースが含まれる。
(2)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報と、治療薬が直接作用する前記ターゲットタンパク質の情報とを有するデータベースが含まれる。
(付記5)
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される付記4に記載の関連性探索方法。
(付記6)
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値をベータ分布などの確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、付記5に記載の関連性探索方法。
(付記7)
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、付記6に記載の関連性探索方法。
(付記8)
友人探索方法であって、
前記複数の要素が、複数の人の情報であり、
前記関連性情報が、前記複数の人における2人の間の直接の関連性を示す関連性情報であり、
前記関連性を探索することが、直接に関連性がない2人の間の関連性を探索することであり、
更に、前記関連性があると判断された、前記直接に関連性がない2人の間の関連性を提示することを含む、付記1に記載の関連性探索方法。
(付記9)
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成する作成部と、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索する探索部と、
を備えることを特徴とする関連性探索装置。
(付記10)
前記結合データベースの構造が、前記要素をノードとし、前記関連性情報をエッジとするグラフ構造である付記9に記載の関連性探索装置。
(付記11)
前記関連性があると判断された、前記直接に関連性がない2つの要素間の関連性を提示する提示部を有する付記9から10のいずれかに記載の関連性探索装置。
(付記12)
治療薬提示装置であって、
前記複数の要素が、複数のタンパク質の情報であり、
前記関連性情報が、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報であり、
前記複数のデータベースが、以下(1)及び(2)の少なくともいずれかを満たし、
前記関連性を探索することが、変異タンパク質と、ターゲットタンパク質との関係性を探索することであり、
更に、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示する提示部を備える、付記9から10のいずれかに記載の関連性探索装置。
(1)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報を有するデータベース、及び治療薬が直接作用する前記ターゲットタンパク質の情報を有するデータベースが含まれる。
(2)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報と、治療薬が直接作用する前記ターゲットタンパク質の情報とを有するデータベースが含まれる。
(付記13)
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される付記12に記載の関連性探索装置。
(付記14)
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値をベータ分布などの確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、付記13に記載の関連性探索装置。
(付記15)
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、付記14に記載の関連性探索装置。
(付記16)
友人探索装置であって、
前記複数の要素が、複数の人の情報であり、
前記関連性情報が、前記複数の人における2人の間の直接の関連性を示す関連性情報であり、
前記関連性を探索することが、直接に関連性がない2人の間の関連性を探索することであり、
更に、前記関連性があると判断された、前記直接に関連性がない2人の間の関連性を提示する提示部を備える、付記9に記載の関連性探索装置。
(付記17)
コンピュータに、
複数の要素と、前記複数の要素における2つの要素間の直接の関連性を示す関連性情報とをそれぞれに備える複数のデータベースを結合して、結合データベースを作成させ、
前記結合データベースを用いて、直接に関連性がない2つの要素間の関連性を探索させる、
ことを特徴とする関連性探索プログラム。
(付記18)
前記結合データベースの構造が、前記要素をノードとし、前記関連性情報をエッジとするグラフ構造である付記17に記載の関連性探索プログラム。
(付記19)
前記関連性があると判断された、前記直接に関連性がない2つの要素間の関連性を提示する付記17から18のいずれかに記載の関連性探索プログラム。
(付記20)
治療薬提示プログラムであって、
前記複数の要素が、複数のタンパク質の情報であり、
前記関連性情報が、複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報であり、
前記複数のデータベースが、以下(1)及び(2)の少なくともいずれかを満たし、
前記関連性を探索することが、変異タンパク質と、ターゲットタンパク質との関係性を探索することであり、
更に、コンピュータに、変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、変異タンパク質に起因する疾患の治療薬として提示させる、付記17から18のいずれかに記載の関連性探索プログラム。
(1)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報を有するデータベース、及び治療薬が直接作用する前記ターゲットタンパク質の情報を有するデータベースが含まれる。
(2)前記複数のデータベースには、変異遺伝子から生成される前記変異タンパク質の情報と、治療薬が直接作用する前記ターゲットタンパク質の情報とを有するデータベースが含まれる。
(付記21)
前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
前記作用確率が、機械学習により設定される付記20に記載の関連性探索プログラム。
(付記22)
前記機械学習が、ベイズ推定による機械学習であり、
前記作用確率の初期値をベータ分布などの確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、付記21に記載の関連性探索プログラム。
(付記23)
前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、付記22に記載の関連性探索プログラム。
(付記24)
友人探索プログラムであって、
前記複数の要素が、複数の人の情報であり、
前記関連性情報が、前記複数の人における2人の間の直接の関連性を示す関連性情報であり、
前記関連性を探索することが、直接に関連性がない2人の間の関連性を探索することであり、
更に、コンピュータに、前記関連性があると判断された、前記直接に関連性がない2人の間の関連性を提示させることを含む、付記17から18のいずれかに記載の関連性探索プログラム。
1 関連性探索装置
2 治療薬提示装置
3 友人探索装置
11 作成部
21 作成部
31 作成部
12 探索部
22 探索部
23 提示部
33 提示部

Claims (6)

  1. プログラムされたコンピュータによって治療薬の関連性を探索して提示する治療薬提示方法であって、
    複数のタンパク質の情報と、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とをそれぞれに備える、以下(1)及び(2)の少なくともいずれかを満たす複数のデータベースを結合して、前記タンパク質の情報をノードとし、前記相互作用情報をエッジとするグラフ構造を有する結合データベースを作成し、
    (1)前記複数のタンパク質の情報が、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを含み、
    前記複数のデータベースが、前記変異タンパク質の情報を有するデータベース、及び前記ターゲットタンパク質の情報を有するデータベースを含む
    (2)前記複数のタンパク質の情報が、前記変異タンパク質の情報と、前記治療薬が直接作用する前記ターゲットタンパク質の情報とを含み、
    前記複数のデータベースが、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを有するデータベースを含む
    前記結合データベースを用いて、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報との関係性を探索し、
    前記変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、前記変異タンパク質に起因する疾患の治療薬として提示することを特徴とする治療薬提示方法。
  2. 前記結合データベースにおける個々の前記相互作用情報が、相互作用の相対的な強さを表す作用確率であり、
    前記作用確率が、機械学習により設定される請求項1に記載の治療薬提示方法。
  3. 前記機械学習が、ベイズ推定による機械学習であり、
    前記作用確率の初期値を、作用確率を表す確率分布とし、高い作用確率を与える対象の相互作用情報の作用確率の初期値をベイズ更新した後に、学習データを用いて学習を行う、請求項2に記載の治療薬提示方法。
  4. 前記機械学習の際、更に、高い作用確率を与える対象の前記相互作用情報と類似する相互作用情報の作用確率の初期値に対して、高い作用確率を与える対象の前記相互作用情報の前記作用確率の前記初期値の前記ベイズ更新よりも弱いベイズ更新を行う、請求項3に記載の治療薬提示方法。
  5. 複数のタンパク質の情報と、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とをそれぞれに備える、以下(1)及び(2)の少なくともいずれかを満たす複数のデータベースを結合して、前記タンパク質の情報をノードとし、前記相互作用情報をエッジとするグラフ構造を有する結合データベースを作成する作成部と、
    (1)前記複数のタンパク質の情報が、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを含み、
    前記複数のデータベースが、前記変異タンパク質の情報を有するデータベース、及び前記ターゲットタンパク質の情報を有するデータベースを含む
    (2)前記複数のタンパク質の情報が、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを含み、
    前記複数のデータベースが、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを有するデータベースを含む
    前記結合データベースを用いて、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報との関係性を探索する探索部と、
    前記変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、前記変異タンパク質に起因する疾患の治療薬として提示する提示部と、
    を備えることを特徴とする治療薬提示装置。
  6. コンピュータに、
    複数のタンパク質の情報と、前記複数のタンパク質における2つのタンパク質間の相互作用を示す相互作用情報とをそれぞれに備える、以下(1)及び(2)の少なくともいずれかを満たす複数のデータベースを結合して、前記タンパク質の情報をノードとし、前記相互作用情報をエッジとするグラフ構造を有する結合データベースを作成させ、
    (1)前記複数のタンパク質の情報が、変異遺伝子から生成される変異タンパク質の情報と、治療薬が直接作用するターゲットタンパク質の情報とを含み、
    前記複数のデータベースが、前記変異タンパク質の情報を有するデータベース、及び前記ターゲットタンパク質の情報を有するデータベースを含む
    (2)前記複数のタンパク質の情報が、前記変異タンパク質の情報と、前記治療薬が直接作用する前記ターゲットタンパク質の情報とを含み、
    前記複数のデータベースが、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報とを有するデータベースを含む
    前記結合データベースを用いて、前記変異タンパク質の情報と、前記ターゲットタンパク質の情報との関係性を探索させ、
    前記変異タンパク質に対して関係性があると判断されたターゲットタンパク質に作用する治療薬を、前記変異タンパク質に起因する疾患の治療薬として提示させる、
    ことを特徴とする治療薬提示プログラム。
JP2019084188A 2019-04-25 2019-04-25 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム Active JP7404648B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019084188A JP7404648B2 (ja) 2019-04-25 2019-04-25 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム
US16/850,631 US11615125B2 (en) 2019-04-25 2020-04-16 Relevance searching method, relevance searching apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019084188A JP7404648B2 (ja) 2019-04-25 2019-04-25 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム

Publications (2)

Publication Number Publication Date
JP2020181378A JP2020181378A (ja) 2020-11-05
JP7404648B2 true JP7404648B2 (ja) 2023-12-26

Family

ID=72921670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019084188A Active JP7404648B2 (ja) 2019-04-25 2019-04-25 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム

Country Status (2)

Country Link
US (1) US11615125B2 (ja)
JP (1) JP7404648B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002040913A (ja) 2000-07-28 2002-02-08 Katsunori Nonogaki 分子生物学的学習システム
JP2003203078A (ja) 2001-10-19 2003-07-18 Mitsubishi Electric Corp 生理機能解析方法及びシステム
JP2005267282A (ja) 2004-03-18 2005-09-29 Kitakyushu Foundation For The Advancement Of Industry Science & Technology 研究遺伝子産物関連度予測システム
JP2009070096A (ja) 2007-09-12 2009-04-02 Michio Kimura ゲノム情報と臨床情報との統合データベースシステム、および、これが備えるデータベースの製造方法
JP2010066814A (ja) 2008-09-08 2010-03-25 Nippon Telegr & Teleph Corp <Ntt> トピック友人距離測定装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2014235474A (ja) 2013-05-31 2014-12-15 国立大学法人京都大学 関係性グラフ相互連携システム
JP2018139111A (ja) 2013-01-29 2018-09-06 モレキュラー ヘルス ゲーエムベーハー 臨床判断支援のためのシステムおよび方法
JP2019507444A (ja) 2015-12-07 2019-03-14 データフォーキュア、インク. 測定データおよびテキストからオントロジーベースの動的学習および知識統合を行う方法およびシステム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100491666B1 (ko) * 2002-09-23 2005-05-27 학교법인 인하학원 단백질 상호작용 네트웍의 분할 시각화 기법
KR100470977B1 (ko) * 2002-09-23 2005-03-10 학교법인 인하학원 대규모 단백질 상호작용 데이터의 효율적 시각화 기법
JP2007128163A (ja) 2005-11-01 2007-05-24 Internatl Business Mach Corp <Ibm> 人物間の関連性を評価するシステム
US8396884B2 (en) * 2006-02-27 2013-03-12 The Regents Of The University Of California Graph querying, graph motif mining and the discovery of clusters
US7808921B2 (en) * 2006-05-19 2010-10-05 The Research Foundation Of State University Of New York Bridging centrality: a concept and formula to identify bridging nodes in scale-free networks
US20080059455A1 (en) * 2006-08-31 2008-03-06 Canoy Michael-David N Method and apparatus of obtaining or providing search results using user-based biases
EP2318548B1 (en) 2008-08-15 2013-10-16 Merrimack Pharmaceuticals, Inc. Methods and systems for predicting response of cells to a therapeutic agent
JP2010165230A (ja) 2009-01-16 2010-07-29 Pharma Design Inc 薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム
US10192641B2 (en) 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
US10129211B2 (en) * 2011-09-15 2018-11-13 Stephan HEATH Methods and/or systems for an online and/or mobile privacy and/or security encryption technologies used in cloud computing with the combination of data mining and/or encryption of user's personal data and/or location data for marketing of internet posted promotions, social messaging or offers using multiple devices, browsers, operating systems, networks, fiber optic communications, multichannel platforms
US9034839B2 (en) * 2012-04-20 2015-05-19 Aptamir Therapeutics, Inc. miRNA modulators of thermogenesis
CN107449921A (zh) 2012-05-22 2017-12-08 博格有限责任公司 用于鉴别药物诱导毒性标志物的基于细胞的探询式分析
US10318583B2 (en) * 2013-03-15 2019-06-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for recommending relationships within a graph database
US20170329914A1 (en) * 2016-05-11 2017-11-16 International Business Machines Corporation Predicting Personalized Cancer Metastasis Routes, Biological Mediators of Metastasis and Metastasis Blocking Therapies
WO2019161204A1 (en) * 2018-02-19 2019-08-22 Protabit LLC Platform for protein storage, analysis and engineering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002040913A (ja) 2000-07-28 2002-02-08 Katsunori Nonogaki 分子生物学的学習システム
JP2003203078A (ja) 2001-10-19 2003-07-18 Mitsubishi Electric Corp 生理機能解析方法及びシステム
JP2005267282A (ja) 2004-03-18 2005-09-29 Kitakyushu Foundation For The Advancement Of Industry Science & Technology 研究遺伝子産物関連度予測システム
JP2009070096A (ja) 2007-09-12 2009-04-02 Michio Kimura ゲノム情報と臨床情報との統合データベースシステム、および、これが備えるデータベースの製造方法
JP2010066814A (ja) 2008-09-08 2010-03-25 Nippon Telegr & Teleph Corp <Ntt> トピック友人距離測定装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2018139111A (ja) 2013-01-29 2018-09-06 モレキュラー ヘルス ゲーエムベーハー 臨床判断支援のためのシステムおよび方法
JP2014235474A (ja) 2013-05-31 2014-12-15 国立大学法人京都大学 関係性グラフ相互連携システム
JP2019507444A (ja) 2015-12-07 2019-03-14 データフォーキュア、インク. 測定データおよびテキストからオントロジーベースの動的学習および知識統合を行う方法およびシステム

Also Published As

Publication number Publication date
JP2020181378A (ja) 2020-11-05
US20200342015A1 (en) 2020-10-29
US11615125B2 (en) 2023-03-28

Similar Documents

Publication Publication Date Title
JP6662933B2 (ja) 臨床判断支援のためのシステムおよび方法
Blakely et al. Reflection on modern methods: when worlds collide—prediction, machine learning and causal inference
Steinrücken et al. Model‐based detection and analysis of introgressed Neanderthal ancestry in modern humans
JP2016513303A5 (ja)
Mancini et al. Computing personalised treatments through in silico clinical trials. A case study on downregulation in assisted reproduction
Lilhore et al. Hybrid model for precise hepatitis-C classification using improved random forest and SVM method
US20030220777A1 (en) Method and system for determining genotype from phenotype
Pölsterl et al. Heterogeneous ensembles for predicting survival of metastatic, castrate-resistant prostate cancer patients
JP2022524083A (ja) 薬物に依存しない患者固有の投薬レジメンのためのシステムおよび方法
Montoya et al. Efficient and robust approaches for analysis of sequential multiple assignment randomized trials: Illustration using the ADAPT-R trial
JP7404648B2 (ja) 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム
CN110009128A (zh) 行业舆情指数预测方法、装置、计算机设备及存储介质
Kobylińska et al. Explainable machine learning for modeling of early postoperative mortality in lung cancer
Tao et al. Predicting Glaucoma Progression to Surgery with Artificial Intelligence Survival Models
Petersen et al. Individualized treatment rules: Generating candidate clinical trials
Vittinghoff et al. Survival analysis
Shechter et al. Irreversible treatment decisions under consideration of the research and development pipeline for new therapies
Norgeot et al. Time aggregation and model interpretation for deep multivariate longitudinal patient outcome forecasting systems in chronic ambulatory care
CN111971754B (zh) 医学信息处理装置、医学信息处理方法及存储介质
van der Laan et al. Statistical learning of origin-specific statically optimal individualized treatment rules
Das et al. A discrete simulation optimization approach towards calibration of an agent-based simulation model of hepatitis C virus transmission
Zhou et al. Emerging methods for oncology clinical trials
Rotich Methods for Improving Inference in Clinical Outcomes
McDonough Utilizing data mining techniques and ensemble learning to predict development of surgical site infections in gynecologic cancer patients
Wang Robust and adaptive design approaches for stepped wedge cluster randomized trials

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190614

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R150 Certificate of patent or registration of utility model

Ref document number: 7404648

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150