JP2019505940A - 遺伝子型からの表現型の決定 - Google Patents

遺伝子型からの表現型の決定 Download PDF

Info

Publication number
JP2019505940A
JP2019505940A JP2018556018A JP2018556018A JP2019505940A JP 2019505940 A JP2019505940 A JP 2019505940A JP 2018556018 A JP2018556018 A JP 2018556018A JP 2018556018 A JP2018556018 A JP 2018556018A JP 2019505940 A JP2019505940 A JP 2019505940A
Authority
JP
Japan
Prior art keywords
individual
processor
score
cohort
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018556018A
Other languages
English (en)
Other versions
JP6826128B2 (ja
Inventor
ジュリアン・ゴフ
ジャン・ザウチャ
ナタリー・サールビー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Julian Gough
Original Assignee
Julian Gough
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Julian Gough filed Critical Julian Gough
Publication of JP2019505940A publication Critical patent/JP2019505940A/ja
Application granted granted Critical
Publication of JP6826128B2 publication Critical patent/JP6826128B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Ecology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

特定の変異のゲノム情報を調査することは、有用であるが、限られた情報を提供する。従って、背景母集団に対して被験者のゲノムを解析するためのシステム及び方法が提供される。各メンバーの間で、少なくとも影響の強さのしきい値を有する既知のオントロジータームである外れ値変異が決定される。利点として、被験者の外れ値変異は、既知の表現型との関係に関してさらにランク付けされてもよく、また、ゲノム配列の全体又は部分に関して識別されてもよい。

Description

本開示は、概して、所定の母集団内の遺伝的外れ値を含む、任意の種の個体の表現型の特性を、それらのゲノムに基づいて予測することに関する。
デオキシリボ核酸(DNA)の解析は、特定の種、母集団、生命体のプール、さらには特定の個体に関連する豊富な情報を提供した。度重なる発見は、遺伝データについての知識と、そのデータが個体の表現型にどのように影響するかについての知識とを常に増大させ続ける。例えば、被験者が、ラクターゼタンパク質をコード化する遺伝子MCM6における変異を保有する場合、当該被験者は十分なラクターゼを生成せず、乳糖不耐症を呈する。
ヒトには、例えば、医療/健康、フィットネス/スポーツ、適性、栄養、物理的/生理的特性、心理/精神などを含むさまざまな領域において、多数の例にわたる遺伝子型−表現型の関係がある。表現型は、医療/健康、フィットネス/スポーツ、適性、栄養、物理的/生理的特性、心理/精神などの領域にわたる。これらは、罹患率/リスク(例えば、傷又は病気に係る値)、レート(例えば、より速い回復又は順応性、代謝)、量(例えば、骨密度、心臓の容積)、又はバイナリ値(例えば、親知らずの欠如、又は、酵素の存在)、反応(例えば、薬、アルコール、カフェインに対する)などを包含する。多数のものが、科学的文献で議論され、基礎をなす変異体に関する情報を含む。これらは「既知の変異体」であり、重要ではあるが、ある人の遺伝的変異のうちの非常に小さな部分のみを表す。30億の塩基対があり、そのうち、タンパク質をコード化するエクソン(これはヒトゲノムの高々1.5%を構成する)のみに関して、個人ごとに、100000個のオーダーの変異体が変化し、すべての人々に関しても、高々175000個の「既知の変異体」(例えば、ヒト遺伝子変異データベース(Human Gene Mutation Database: HGMD)におけるエントリの個数)のみが存在する。
Shihab, H.A., Gough, J., Cooper, D.N., Barker, G.L.A., Edwards, K.J., Day, I.N.M., Gaunt, T., "Predicting the Functional, Molecular, and Phenotypic Consequences of Amino Acid Substitutions using Hidden Markov Models." Human mutation 34(1), 57-65, 2012 Jonathan von Brunken, Michael E. Houle, and Arthur Zimek, "Intrinsic Dimensional Outlier Detection in High-Dimensional Data," National Institute of Informatics Pham, Duc Truong, Stefan S. Dimov, and C. D. Nguyen. "Selection of K in K-means clustering." Proceedings of the Institution of Mechanical Engineers, Part C: Journal of Mechanical Engineering Science 219.1, 103-119, 2005
本開示の目的は、概して、所定の母集団内の遺伝的外れ値を含む、任意の種の個体の表現型の特性を、それらのゲノムに基づいて予測することに関する。
上述の問題及び他の課題に関して、ここに提示する実施形態が企図された。一実施形態及び一般的なイントロダクションとして、解析のために、ある種のある被験者個体が選択される。分子生物学アプローチを用いた原因解析を通じて個体の表現型の特性を予測することは、原因となる遺伝的決定因子の識別をもたらす可能性がある。本開示の実施形態は、概して、遺伝的原因を識別するとともに表現型の外れ値を検出する処理を変異体に結びつけることに関する。
種の背景母集団を考慮して、被験者がどの関連する変異体を有するかを識別するための決定が下される。できるだけ多様な一般的なヒトの背景を選択したり、又は、より限定された標的を有する背景を選択したりすることが所望される可能性がある。例えば、乳糖不耐症は、一般的な母集団における所定のヒトの被験者の場合にはまれ(例えば統計的な外れ値)であるかもしれないが、例えば、中国人の母集団サンプルに比較される場合には、そうではない。一般的な背景に対して中国人被験者の乳糖不耐症を決定するための解析を実行することはほとんど無意味であり、従って、中国人の母集団サンプルが選択されてもよい。しかしながら、このように、異なる母集団に関して被験者が有する変異体を決定するために、当該異なる母集団の背景サンプルが選択されてもよい。変異体は、関連(変異体と表現型との間の関連付けを識別すること、又は、遺伝形質と、当該形質を示す際のそのような予測子の強度との間の関連付けを識別することに関してさらに取り組まれてもよい。
SUPERFAMILYは、タンパク質の構造的分類(structural classification of proteins:SCOP)を表す隠れマルコフモデル(HMM)のライブラリを含むデータベースである。SUPERFAMILYは、ゲノム及び他の配列集合を含む、タンパク質をコード化するDNA配列の構造的ドメインのマッピングを提供し、インターネットアドレス「http://supfam.org/SUPERFAMILY/」でアクセス可能であり、参照によってここに組み込まれる。HMMに関する追加情報について、非特許文献1の論文が参照されてもよく、その全体は参照によって本明細書に組み込まれる。
は、完全に配列されたゲノムからの予め計算された乱れた予測の記録を備えるデータベースである。Dは、インターネットアドレス「http://d2p2.pro/」でアクセス可能であり、その全体は参照によって本明細書に組み込まれる。
FATHMM(「Functional Analysis through Hidden Markov Models:(隠れマルコフモデルによる機能解析)」)は、コード化する変異体(例えば、非同義の一塩基変異体(non-synonymous single nucleotide variant:nsSNV))と、コード化しない変異体との両方に係る機能的結果を予測するためのリソースである。FATHMMは、インターネットアドレス「http://fathmm.biocompute.org.uk」でアクセス可能であり、その全体は参照によって本明細書に組み込まれる。
dcGOは、機能、表現型、病気、及び追加の関連情報に関するドメイン中心のオントロジーのデータベースである。dcGOは、インターネットアドレス「http://supfam.org/SUPERFAMILY/dcGO/」でアクセス可能であり、その全体は参照によって本明細書に組み込まれる。
スペクトルクラスタリングは、複数の次元に基づくグループ化を提供する。スペクトルクラスタリングは、画像解析で使用される場合、色/明るさなどのベクトルを用いて(例えば、ランドスケープ中で:空、太陽、木、野、湖)、画像の領域のような複数の論理的関連物へ、画像をセグメント化する。ここでの実施形態が関連するヒトに関しては、眼色のような表現型は、対立遺伝子のベクターを用いて、茶、緑、青、薄茶、又はグレーのような基礎的な眼色へ母集団をセグメント化することになる。各個体/画素について、大域的なものではなく、それらの局所的な近傍に対する差に基づく定量的スコアが出力される。大域的な比較は、最も青い目を有する人を単に最も遠い外れ値としてランク付けするのに対して、スペクトルクラスタリングは、黄色の目を有するが眼色ランドスケープの中心に位置する1人のまれな人物を識別する。
もう1つの実施形態では、外れ値検出が固有次元(intrinsic dimensionality)によって提供される。固有次元は、問題となっている表現型の予測に最も関連する変異体の組み合わせまで遺伝変異体を低減させる方法として、局所的な外れ値検出に使用される。スペクトルクラスタリングがすべての次元を用いる場合、固有次元は、表現型を表すためにいくつの変数が必要であるかを説明する。両方の方法が以前からコンピュータビジョンで使用されている。より詳細な定義及び固有次元の使用例について、非特許文献2が参照されてもよく、その全体は参照によって本明細書に組み込まれ、インターネットアドレス「http://www.nii.ac.jp/TechReports/15-003E.pdf.」で利用可能である。
一実施形態では、
プロセッサによって、被験者及び背景母集団を含む複数の個体の生命体のゲノムデータにアクセスすることと、
上記プロセッサによって、上記ゲノムデータにおける複数の変異部位を識別することと、
上記複数の変異部位のうちの1つについて、
上記プロセッサによって、第1のデータレポジトリから、上記複数の変異部位のうちの1つに関連付けられた影響の強さを検索し、
上記プロセッサによって、第2のデータレポジトリから、上記複数の変異部位のうちの1つに関連付けられたオントロジータームとの関連度を検索し、
上記プロセッサによって、複数の表現型のうちの1つが、上記影響の強さ及び上記オントロジータームとの関連度の組み合わせであって、所定のしきい値量より高い組み合わせに関連すると決定することと、
上記プロセッサによって、実質的に、上記複数の個体のうちの2つによって形成される各組み合わせからの、関連する表現型のゲノムデータのうちの1つのデータをそれぞれ含む複数のデータペアの間の一致度を比較することと、
上記プロセッサによって、上記複数のペアのうちのそれぞれに係るレポートを生成することと
を含む方法が開示される。
もう1つの実施形態では、
通信インターフェース及びプロセッサを備えるシステムが開示され、
上記プロセッサは、
プロセッサによって、被験者及び背景母集団を含む複数の個体の生命体のゲノムデータにアクセスすることと、
上記プロセッサによって、上記ゲノムデータにおける複数の変異部位を識別することと、
上記複数の変異部位のうちの1つについて、
上記プロセッサによって、第1のデータレポジトリから、上記複数の変異部位のうちの1つに関連付けられた影響の強さを検索し、
上記プロセッサによって、第2のデータレポジトリから、上記複数の変異部位のうちの1つに関連付けられたオントロジータームとの関連度を検索し、
上記プロセッサによって、複数の表現型のうちの1つが、上記影響の強さ及び上記オントロジータームとの関連度の組み合わせであって、所定のしきい値量より高い組み合わせに関連すると決定することと、
上記プロセッサによって、実質的に、上記複数の個体のうちの2つによって形成される各組み合わせからの、関連する表現型のゲノムデータのうちの1つのデータをそれぞれ含む複数のデータペアの間の一致度を比較することと、
上記プロセッサによって、上記複数のペアのうちのそれぞれに係るレポートを生成することと
を実行する。
プロセッサは、1つのマイクロプロセッサ、1つ又は複数の処理コア、1つ又は複数のサーバ/ブレード、分散型プロセッサ(例えば「クラウド」)、及び/又は、計算、プログラミングされた方法ステップを実行するように動作可能である他の計算装置のうちの1つ又は複数を備えてもよく、及び/又は、ここに開示された方法ステップを実行するように実装されてもよいことは認識されるべきである。プロセッサは、データにローカルにアクセスするように動作可能なネットワークインターフェース(例えば、バス、バックプレーンなど)、データに遠隔にアクセスするように動作可能なネットワークインターフェース(例えば、イントラネット、インターネットなど)のような通信インターフェースに、及び/又は、他の通信インターフェースに関連付けられてもよい。プロセッサは、さらに、ヒト入力装置(例えば、マウス、トラックパッド、キーボードなど)にプロセッサへの命令を提供させ、及び/又は、ヒト出力装置(例えば、画面、端末、モニタ、プリンタなど)にヒト読取り可能な出力を提供させる、ヒトの入出力信号を備えてもよい。プロセッサは、データを読み出す/書き込むために、また、オプションで、プロセッサによって読み出されたときに、ここに開示した方法ステップをプロセッサに実行させるコンピュータ命令を検索するために、データレポジトリにアクセスしてもよい。データレポジトリは、プロセッサからローカルにアクセスされる記憶装置(例えば、内部ドライブ、レジスタ、メモリチップなど)であってもよく、及び/又は、遠隔にアクセスされる記憶装置(例えば、外部ドライブ、ネットワーク化された記憶装置、イントラネット/「クラウド」の記憶装置など)であってもよい。その結果、プロセッサは、プログラミング命令及びデータにアクセスし、これにより、ここに開示された所定の方法ステップを実行し、その結果を記憶装置及び/又はヒト読取り可能な出力を生成する出力装置に出力してもよい。
語句「少なくとも1つ」、「1つ又は複数」、及び「及び/又は」は、連言的かつ選言的である、多義的な表現である。例えば、表現「A、B、及びCの少なくとも1つ」、「A、B、又はCの少なくとも1つ」、「A、B、及びCの1つ又は複数」、「A、B、又はCの1つ又は複数」、及び「A、B、及び/又はC」のそれぞれは、Aのみ、Bのみ、Cのみ、A及びBの両方、A及びCの両方、B及びCの両方、又はA及びB及びCのすべてを意味する。
用語「ある("a" or "an")」エンティティは、そのエンティティの1つ又は複数を示す。このように、用語「ある」、「1つ又は複数」、及び「少なくとも1つ」は、ここでは、交換可能に使用される可能性がある。用語「備える」、「含む」、及び「有する」もまた交換可能に使用される可能性があることに注意する。
ここで使用される用語「自動的」及びその変形は、処理又は動作が実行されるときに、本質的なヒトの入力なしで行われる任意の処理又は動作を示す。しかしながら、処理又は動作の実行が本質的又は非本質的なヒトの入力を用いる場合であっても、処理又は動作の性能の前に入力が受信される場合、処理又は動作は自動的になりうる。ヒトの入力は、そのような入力が処理又は動作の実行方法に影響する場合、本質的であると考えられる。処理又は動作の実行に同意するヒトの入力は、「本質的」であるとは考えられない。
ここで使用される用語「コンピュータ可読媒体」は、実行するための命令をプロセッサへ提供することに関与する任意の有形の記憶装置を示す。そのような媒体は、不揮発性媒体、揮発性媒体、及び伝送媒体を含むが、これらに限定されない多数の形態をとってもよい。不揮発性媒体は、例えば、NVRAM、又は、磁気もしくは光ディスクを含む。揮発性媒体は、メインメモリなどのダイナミックメモリを含む。一般的な形態のコンピュータ可読媒体は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ又は他の任意の磁気媒体、光磁気媒体、CD−ROM、他の任意の光媒体、パンチカード、紙テープ、ホールのパターンを備えた他の任意の物理的媒体、RAM、PROM、EPROM、FLASH−EPROM、メモリーカードのようなソリッドステート媒体、他の任意のメモリチップ又はカートリッジ、又はコンピュータが読み出し可能な他の任意の媒体を含む。コンピュータ可読媒体がデータベースとして構成される場合、データベースは、リレーショナル、階層的、オブジェクト指向、及び/又は同様の、任意のタイプのデータベースであってもよいことは理解されるべきである。従って、本開示は、本開示のソフトウェア実装が格納される有形の記憶媒体、従来技術で認識された等価物、及び後継媒体を含むと考えられる。
ここで使用される用語「決定する」、「計算する」、及び「算出する」、及びそれらの変形は、交換可能に使用され、任意のタイプの方法、処理、数学的演算、又は技術を含む。
ここで使用される用語「モジュール」は、任意の、既知又は後に開発されるハードウェア、ソフトウェア、ファームウェア、人工知能、ファジー論理、又は、その構成要素に関連付けられた機能を実行可能なハードウェア及びソフトウェアの組み合わせを示す。さらに、本開示が例示的な実施形態に関して説明されるが、それとは別に、本開示の他の態様が特許請求の範囲に記載されうることが認識されるべきである。
本開示の実施形態に係る処理を示す。 本開示の実施形態に係る処理を示す。 本開示の実施形態に係る処理を示す。 本開示の実施形態に係る処理を示す。 本開示の実施形態に係る処理を示す。 本開示の実施形態に係るレポートを示す。 本開示の実施形態に係る第1の表を示す。 本開示の実施形態に係る第1の表を示す。 本開示の実施形態に係る第1の表を示す。 本開示の実施形態に係る第1の表を示す。 本開示の実施形態に係る第2の表を示す。 本開示の実施形態に係るシステムを示す。 本開示の実施形態に係るデータ処理モデルを示す。
本開示は添付の図面とともに説明される。
以下の説明は、実施形態を提供するのみであり、請求項の範囲、適用可能性、又は構成を制限することは意図されない。むしろ、以下の説明は、当業者に、実施形態の実装を可能にする説明を提供する。添付された請求項の精神及び範囲から外れることなく、構成要素の機能及び構成に対してさまざまな変形が行なわれてもよいことが理解されるであろう。
本説明において、図面中にサブ構成要素の識別子が存在する場合にはサブ構成要素の識別子に言及せず、複数個が使用されるある構成要素番号へ言及する場合は、同様の構成要素番号を備える任意の2つ以上の構成要素に言及することを意図している。そのような言及が単数形でされる場合、同様の構成要素番号を備える構成要素のうちの特定の1つへ限定することなく、当該構成要素のうちの1つに言及することを意図している。ここで、明示的にそうではないように言及した箇所、又は、別の限定又は識別を提供した箇所は、優先するものとする。
ここに開示されたシステム及び方法を含む所定の実施形態は、ソフトウェア、ハードウェア、ソフトウェア及びハードウェアの組み合わせ(ファームウェア)、モジュール、及び/又は関連付けられた解析ハードウェアとして具体化されてもよい。しかしながら、本開示を不必要に不明瞭にしないために、以下の説明は、ブロック図の形式で図示可能であり、周知であるかさもなければ要約される、公知の構造、構成要素、及び装置を省略する。
説明の目的で、本開示についての詳細な理解を提供するために多数の詳細事項が説明される。しかしながら、ここに説明した特定の詳細事項を越えて、さまざまな方法で本開示が実施されてもよいことが認識されるべきである。
従来技術は、ゲノムワイド関連解析(genome-wide association studies:GWAS)を用いて表現型を遺伝子型へ関連付ける。GWASは、ヒトの病気のような特定の表現型を標的とする。GWASは、典型的には、個体の大きなプール、一般的には1000〜10000個の個体を含むプールから遺伝子型データを収集する。このプールの一部が、選択された表現型を有し、又は有しない。次いで、遺伝的特徴及び病気の間で統計的に有意な相関が求められる。
GWASの成功にもかかわらず、複数の制限が存在する。1つの制限は、必要とされる遺伝子型決定の大規模なスケールである。もう1つの制限は、遺伝子型の組み合わせに表現型を関連付ける統計的検出力の不足である。さらにもう1つの制限は、遺伝子型の関連付けがしばしば非因果的な相関であるということである。さらに、統計的検出力におけるコホートサイズは、一般的な変異体との有意な関連付けを発見することのみをもたらす。ここに提供される実施形態は、これら及び他の制限に取り組み、少なくとも、遺伝子型−表現型の関連付けを決定することの最新技術を発展させる。ここに提供される所定の実施形態の利点は、因果関係の決定を可能にすること、GWASに比較して少数の背景サンプルを必要とすること、一般的又はまれな変異体の関連付けを提供すること、組み合わせの遺伝子型を検出すること、及び、より確実な予測をもたらすかもしれないことにある。
一実施形態では、ヒトなどの単一の被験者が、入力としてその遺伝データを提供する。データは、完全であってもよく、又は、その完全な遺伝データの一部のみを備えてもよい。次いで、データは、母集団に比較されたときに珍しい又は目立つ表現型の態様を予測するために用いられる。ここで、母集団は、一般的な母集団(例えばヒト)であってもよく、又は、より標的を限定されてもよい(例えば韓国人の祖先)。
一実施形態では、変異体の属性の予測に関するシステム及び方法が説明される。もう1つの実施形態では、複数の相互参照されたデータセットが使用され、これらがまとめられたとき、一連の科学的文献では知られていない変異体に関するステートメントを提供する。次いで、「既知」であるより多くの変異体に関する予測が行われてもよい。別の実施形態では、まれな変異体に関する予測が行われてもよく、1人に固有の点に関する予測さえ行われてもよい。もう1つの実施形態では、複数の変異体の組み合わせ(すなわち、ある人が変異体「a」及び「b」を有する場合、「c」ではなく「a」及び「b」、又は「d」ではない、など)に関する予測が行われてもよい。
図1A〜図1Eは、本開示の実施形態に係る処理を示す。一実施形態では、変異体−影響の予測子ツール及び機能−影響の予測子ツールには、背景母集団及び被験者のタンパク質ドメインを用いて、遺伝子型データがそれぞれ提供される。それらの結果は、スペクトルクラスタリングを利用することなどにより組み合わされ、また、オプションで、選択されたパラメータに基づいて構成される。次いで、それらの結果のランク及び優先順位が決定され、これにより、例えば、与えられた表現型の外れ値の詳細事項を提供する。それは、被験者の最も極端な表現型の決定を含んでもよい。
一実施形態では、ゲノムデータ106、108A〜108Bは生命体のプールから集められる。遺伝子型データは、一塩基多型(single nucleotide polymorphism:SNP)、エクソーム、又はゲノム配列全体のコレクションであってもよい。ゲノムデータは、少なくとも1つの被験者102からのゲノムデータ106と、背景母集団104A〜104Bからのゲノムデータ108とを含む。背景母集団104は、好ましくは、統計的に有意な個数のメンバーを含むように選択される。被験者102は、背景母集団において、予め決定された有意性の範囲内で外れ値として決定されてもよく、又は、外れ値ではないと決定されてもよい。有意性は、目的によって決定されてもよい。例えば、被験者102は、ある背景に係る1つの表現型に関して既知の外れ値であってもよく、被験者が外れ値になるか又はならないかもしれない他の表現型に関する決定が所望される。他の例示において、被験者102は未知の外れ値状態を有する。さらに他の実施形態では、背景母集団104は、任意の大きさ(例えば1000個以上のメンバー)になるように選択される。
もう1つの実施形態では、背景母集団104の実質的にすべてのメンバーの選択は、所望の母集団に対する所望の決定に従って選択される。例えば、被験者102は、複数の既知の一般的特性(例えば、ジェンダー、民族など)及び/又は既知の特定の特性(例えば表現型)を有する。次いで、同じ特性、異なる特性、又は、同様、一般的、及び/又は特定の特性を有する背景母集団104が選択されてもよい。例えば、被験者102は1人の韓国人男性であり、また、すべての韓国人男性のうちで被験者102の有意な遺伝的外れ値を決定することが望まれる場合には、背景母集団104は好ましくは韓国人男性のみを含む。しかしながら、特定の解析の目的が、すべてのヒトに比較したときの被験者102の有意な外れ値を決定することである場合、背景母集団104は好ましくはヒト母集団全体の代表サンプルを含む。もう1つの実施形態では、背景母集団104は、公開されたゲノムデータベース(例えば「23andme」)から選択される。ゲノムのデータ106、108は、完全であってもよく、又は、完全なゲノムの1つ又は複数の部分を含んでもよい。
もう1つの実施形態では、ゲノムデータ106,108は、次いで、背景母集団に関する変異部位のリストに変換され、変異体コールフォーマット(Variant Call Format:VCF)の変異部位112A〜112Dになるように処理される。VCFは、基準ゲノムに対する差に関して、又は、コホートにおける複数の個体間の互いのすべての差に関して、個体生命体のゲノムを格納する1つの方法を提供する。
変異部位112は、次いで、変異体がその一部になるか、変異体が制御するか、又は、変異体がコード化する、分子エンティティを予測するように処理される。一実施形態では、変異部位112の処理は、隠れマルコフモデル(HMM)予測を用いて実行される。もう1つの実施形態では、SUPERFAMILY及びDが被験者102のゲノム106に適用される。もう1つの実施形態では、非コード化領域における変異体は、遺伝子へのそれらの近接度によって、又は、遺伝子の上流又は下流の調節エレメントのような既知及び予測された特徴によって、タンパク質に関連付けられる。もう1つの実施形態では、非コード化領域における変異体は、CAGE、デオキシリボヌクレアーゼ高感受性部位(DNAase hypersensitive sites:DHS)、RNA−seq、及び応答タイミング又は染色質接触のようなハイスループットデータセットを用いた関連付けにより、タンパク質に関連付けられる。
変異部位112を、便宜上、単一の塩基112B、112Cとして、又は、互いに隣接した複数の塩基112A、112Dとして示す。変異部位112は、互いに隣接していない複数の塩基、選択肢(例えば、A及びB又はC)、排除(例えば、DではなくA)、及び/又は、既知もしくは知られうる他の変異体を含んでもよい。各変異部位112について、影響の強さが決定され、オントロジーターム(用語)の識別が行われる(それぞれ図1B及び図1Cを参照)。
図1Bは、各変異部位112の表現型について影響の強さが決定される一実施形態を示す。一実施形態では、変異体の影響の予測子ツールはFATHMMデータベースを備える。他のデータレポジトリへアクセスすることなど、他の影響の強さの決定が行われてもよいことが認識されるべきである。コード化する変異体及びコード化しない変異体の両方について、かつ、体細胞変異又は生殖細胞系列変異のいずれかのコンテキストにおいて、変異体−影響の予測をするために、FATHMMが利用されてもよいことにも注意すべきである。
一実施形態では、各変異部位112がデータベースのエントリに比較されるか、又は、変異体の影響の予測子ツールが、スコア114A〜114Dのような因果関係指標にアクセスする。スコア114は、既知のスケールにおいて特定の変異体(例えば変異体112A)の位置を示すような、未処理のスコアであってもよい。もう1つの実施形態では、表現型への有意な影響の強さ(例えば、「強」、「弱」、など)を有する及び/又は有しない変異体を容易に識別することなどのために、又は便宜上、他の指標又はラベルが利用されてもよい。結果として得られる影響の強さは、オントロジータームの識別情報と集約される(図1Dを参照)。
図1Cは、関連付けられたオントロジーターム118A〜118Dを有する変異体(例えば変異体112のうちのいくつか)に関して決定される一実施形態を示す。例えば、変異体1(112A)は、オントロジーターム118A(ラクターゼ)に関連付けられてもよい。単一のオントロジーターム内の変動に起因して、決定はスコアであってもよく、バイナリ値「YES/NO」の決定は、決定スコアが既知のスケールにおけるしきい値の上/下にあることを示してもよい、ということが認識されるべきである。結果として得られるオントロジータームの決定は、次いで、影響の強さのデータと集約される(図1Dを参照)。
図1Dは、表現型の影響の強さ(図1Bを参照)及びオントロジータームの決定(図1Cを参照)の組み合わせとして関連度が決定され、少なくとも1つの変異部位112が有意な予測子であること、かつ、有意な予測子が既知のオントロジータームであることを示す単一のスコアを提供する一実施形態を示す影響の強さのデータ及びオントロジータームの決定データの一方又は両方のスコアは、個々のデータソースの和からは異なる組み合わせを反映することなどのために、重み付けられてもよい。もう1つの実施形態では、次いで、スコアは、合計のスコアが予め決定されたしきい値又は式より大きいときなど(例えば上位0.5%など)、関連するもの120A、120B又は関連しないもの120C、120Dとして決定されてもよい。関連するデータとして決定された変異部位112はその後さらに処理される(図1Eを参照)。
図1Eは、各関連する変異体(例えば、変異体1(128)、変異体2(130)など)について、被験者102及び背景母集団104の距離が決定される一実施形態を示す。一実施形態では、変異体128,130の行列が形成される。セル122は同じもの同士の比較を示す。セル124A〜124D,126A〜126Bのスコアは、特定の生命体(例えば、被験者102、背景104などのうちの1つ)と、もう1つの生命体(例えば、被験者102、背景104などのうちの異なる1つ)との間の距離(又は、類似度、一致度など)を示すように計算されてもよい。従って、一実施形態では、各生命体は他の各生命体と比較可能である。次いで、被験者102及び背景104の間の距離は、特定の変異体の外れ値として、又は外れ値ではないものとして示されてもよい。
もう1つの実施形態では、スコアは、ターム頻度−逆文書頻度(term frequency-inverse document frequency:TF−IDF)を利用して決定されてもよい。
図2は、本開示の実施形態に係るレポート200を示す。レポート200は、被験者102のような個体について提供されてもよい。レポート200は、しきい値より高いオントロジーターム及び影響の強さの両方を有する変異体を、表200の複数の行218として提供してもよい。レポート200は、オントロジータームに関連する変異体を含む1つ又は複数のコレクション(例えば、各行218の変異体214の個数)について、背景母集団からの統計的な差を有するように共同で決定された。一実施形態では、3つの変異体が、母集団における、又は、少なくとも母集団の有意な部分(例えば約半分)における出現頻度の高さに起因して、個々に低いスコアを有する。しかしながら、3つの変異体の組み合わせがまれである場合、そのような組み合わせの有意性は高いかもしれない。もう1つの実施形態では、2つ以上の変異体を有する外れ値を識別するために、スペクトルクラスタリングが利用される。
従って、レポート200は、1つ又は複数行218のオントロジーターム202(例えば心電図異常)を含んでもよく、それは次いで、以下のようなオントロジーデータベース及び/又はオントロジータームの他のデータレポジトリから得られたもののような識別子(例えば「HP:0003115」)を含んでもよい。インターネットアドレスhttp://human-phenotype-ontology.github.ioでアクセス可能な「Human Phenotype」、インターネットhttp://www.informatics.jax.org/searches/MP_form.shtmlでアクセス可能な「Mammalian Phenotype」、インターネットアドレスhttp://amigo.geneontology.orgでアクセス可能な「Gene Ontology」、インターネットアドレスhttp://www.drugbank.caでアクセス可能な「Drugbank」、及び/又は「dcGO」(上記参照)。これらの全体は参照によって本明細書にそれぞれ組み込まれる。
一実施形態では、スコア204は、ランク206及び固有スコア(eigenscore)208を合成する。もう1つの実施形態では、スコア204が、固有スコア208の代わりに、ランク206及びI次元210を組み合わせる。スコアは次式によって決定されてもよい。
Figure 2019505940
Figure 2019505940
Figure 2019505940
Figure 2019505940
Figure 2019505940
m1は上記コホートにおける任意の個体の最低スコアであり、m2は上記コホートにおける任意の個体の最大スコアであり、nは上記コホートにおけるの個体の個数であり、sは上記コホートにおけるすべての固有スコアの合計であり、rankは、背景母集団内のランクである。
もう1つの実施形態では、ランク(例えば、コホート206におけるランク)は、スコア204によって背景母集団内のランキングを提供し、固有スコアは、スペクトルクラスタリングからの未処理のスコアを示す固有スコア208であり、I次元210は、固有次元からの未処理のスコアを含み、平均距離212によるコホート中のランクは、I次元210による背景母集団内のランクを含み、変異体214の個数は、オントロジーの関連付け(例えば、dcGOによって示されるもの)によって決定されるような、関連する変異体の個数を含み、オントロジー定義216は、ソースオントロジーデータベースによって提供される形式的な定義を含む。
ここで使用されるように、コホートは、複数の参加者(例えば、1つ又は複数の背景104のような背景個体と、被験者102)を含み、問題となっている1つ又は複数の個体及び背景を提供する。スペクトルクラスタリングの代わりに固有次元によってレポートを生成するために、スコア列204において、また、オプションで式(i)において、「固有スコア」の代わりに「平均距離」が使用されてもよい。
図3A〜図3Dは、本開示の実施形態に係る表300を示す。一実施形態では、表300は、行302A〜302Dと、列304、306、308、310、312、314、及び316とを示す。一実施形態では、表300は、外れ値である表現型の原因となる生物学的な理由を示す。表300は表200の1つの行に対応する。すなわち、列214は複数の変異体を列挙するのみであるのに対して、表300は、それらの変異体のそれぞれについて1つの行を含み、例えば「心電図異常」については、9つの変異体が存在する。したがって、完全な表300は9行を含むが、最初の2行のみを図示する。列304は変異体のゲノム座標を示し、列306は被験者の対立遺伝子を示し、列308は背景における対立遺伝子の頻度を示し、列310は変異体の重み又は結果スコア(例えばFATHMMから)を示し、列312は、距離行列を用いたコホートから平均距離(すなわち、当該変異体の単独の寄与分)を示し、列314は同じ変異体に接続された他の表現型を識別し。それはさらにスコア及び名前を含んでもよい。列316は、変異体(例えば行302の対応するもの)に関する情報、すなわち、特定の行302における変異体によって影響される配列を示し、また、さらに、識別子(ID)、アミノ酸置換、スーパーファミリー、e値、家族、及び家族のe値を含んでもよい。
図4は、本開示の実施形態に係る表400を示す。一実施形態では、表400は、複数の行402と、列404、406、408、410、及び412とを含む。一実施形態では、表400は、背景におけるスコアの分布を見るために、また、スペクトルクラスタリングのスコアを固有の乱雑性スコアに比較するために使用可能である。一実施形態では、列404は、ランク、例えば1つの個体に係る表200のランク206を提供し、列406のエントリは、数値識別子などによって行402内の個体を識別する。もう1つの実施形態では、個体番号ゼロは、被験者102のような被験者に関連付けられ、又は、1よりも大きい場合、多数の被験者102のうちの1つを示す。もう1つの実施形態では、列408は、1つの個体(例えば、表200における問題となっている被験者)に関するスコアを示し、列410は、1つの個体について列208ごとの絶対固有スコアを示し、列412は、1つの個体について列210の固有次元からの代替スコアを提供する。
図5は、本開示の実施形態に係るシステム500を示す。一実施形態では、生命体502A〜502Dは、列406(図4を参照)で識別される個体からのような、ゲノムデータ504を提供する。少なくとも1つの、ただしすべてよりは少ない個数の生命体502が、1つ又は複数の被験者生命体として識別される。プロセッサ510は、ゲノムデータ504における変異体部位について、影響の強さのデータ506及びオントロジータームデータ508にアクセスし、被験者用の有意な外れ値を決定する。次いで、プロセッサ510は、有意な外れ値をランク付けするようなレポート512を提供してもよく、それは、オプションで、診断及び/又は治療514のために提供されてもよい。
図6は、本開示の実施形態に係るデータ処理モデル600を示す。一実施形態では、被験者ゲノム602及び背景ゲノム604は各表現型について行列として合成され、これにより、そのような表現型について被験者ゲノム602及び背景ゲノム604の間の距離を決定する。
一実施形態では、行列610内の距離は、オントロジータームにマッピングされた各SNPからのFATHMM距離の寄与分を追加することで、すべての参加者(被験者102及び背景母集団104の組み合わせ)の間で取得される。
次に、ガウスカーネルが次式によって決定される。
Figure 2019505940
ガウスカーネルは、距離行列を類似度行列に変換するために適用される。ここで、
Figure 2019505940
次いで、スペクトルクラスタリングの修正版が実行される。
類似度行列から、固有値問題を解くためにラプラシアン(程度−類似度として定義される)が取得される。
データセットを複数のクラスタへ分割するために、2番目に小さな固有ベクトルが使用される。もう1つの実施形態では、クラスタリングに用いる最初のN個の最も小さな固有ベクトルを選択するために、エルボー法(elbow method)の修正版が使用される。次いで、標準的なK平均クラスタリングを用いて複数のクラスタへ分割するために、選択された固有ベクトルが使用される。
通常、画像分割のために使用される場合、スペクトルクラスタリングは、画像をN個のクラスタへ分割するために最初のN個の固有ベクトルを使用する。しかしながら、多次元スケーリングを利用する場合など、ゲノムデータについては、ゲノムデータを2個よりも多くのクラスタへ分割するために、最初の固有ベクトルのみが使用されてもよい。2つのクラスタは、3つのオプションのすべてを共通に有する1つのSNPにおいて分割する実施例において特に関連する可能性がある。
クラスタの個数Nは、非特許文献3で説明されるように選択されてもよく、その全体は参照によって本明細書に組み込まれる。
次に、各参加者のスコアは以下のように計算される。
局所的なクラスタの中心からユークリッドの距離と、大域的な中心からのクラスタの距離との組み合わせ。
スコアは次式によって決定される。
Figure 2019505940
また、クラスタサイズの補正係数は次式によって決定される。
Figure 2019505940
スコアは、表200の列208におけるもののように、ゲノムデータうちの1つと背景の残りとの間の距離を含む。Local_scoreは、複数の個体生命体のうちの1つから、被験者と同じクラスタにおける複数の個体生命体のそれぞれを含むのクラスタへの平均ユークリッド距離を示す。
Global_scoreは、あるクラスタ内の複数の生命体のうちのいくつかについて、コホート内の他のすべての生命体までの平均ユークリッド距離を示す。
cohort_sizeは、コホートにおける複数の個体生命体の個数を示し、これは、完全な表に現れるであろう行の個数と同じであり、その一部を図4に示す。
cluster_sizeは、クラスタにおけるコホートからの複数の個体生命体の個数を示す。
もう1つの実施形態では、データセット606は、HMM確率を含むようなSNP結果ファイル608に提供される。もう1つの実施形態では、オントロジーターム612は、オントロジーファイル618(例えばdcGO)を介してドメイン616(例えばSUPERFAMILY)にマッピングされる。次いで、行列610内の距離を決定するために、オントロジーファイル618及びSNP結果ファイル608がさらに利用されてもよい。
もう1つの実施形態では、基本低レベル線形代数ライブラリ(BLAS)を用いるもののような表現型予測子620が、固有値及び固有ベクトル622を生成する。その結果、レポート624が生成されてもよく、当該レポート624は、特定のオントロジータームについて、背景ゲノム604に対する被験者ゲノム602がの程度を報告してもよい。
もう1つの実施形態では、さらなる調査のためにゲノムにおける変異体を優先させることなどによって、変異体の優先順位を決定してもよい。例えば、既知の病気を有する患者のコホートにおいて、GWAS研究などで、変異体がコホートにおいてどの程度一般的であり、また、変異体が背景においてどの程度まれであるかに基づいて、変異体の優先順位を決定してもよい。もう1つの実施形態では、変異体の優先順位の決定に類似した方法で、さらなる研究のために遺伝子の優先順位が決定されてもよい。コホートの2つのメンバーが同じ変異体を共有しない可能性があるが、それらすべては、共通の遺伝子における異なる変異体を有することがあり、このことは、遺伝子が高い優先度を有することを示唆する。
もう1つの実施形態では、さらなる調査のためにオントロジータームの優先順位を決定することを含む、表現型の優先順位が提供される。一例として、1つの個体について、それらの表現型の予測のすべてが、当該表現型に与えられた優先順位を有してもよい場合、それについて、当該個体は、遺伝的変異に従って、背景に比較して、外れ値のより多く又は大部分である。1つの個体における表現型に寄与する同義遺伝子/変異体があってもよい。代替として、何か共通のもの(例えば共通の病気)を有するコホートについて、表現型の優先順位は、どのオントロジータームが、背景に関して、コホート内の関連付けられた遺伝子において最も遠隔した遺伝的変異を有するかを識別してもよい。
もう1つの実施形態では、表現型の優先順位のスコアは、ある個体について、各表現型のスコアを含む。スコアは、スペクトルクラスタリング又は固有次元などからの絶対スコアと、ランキングを用いるもののような、背景におけるそのようなスコアの分布とを考慮する機能の結果であってもよい。ある個体からのさらなる調査のためにオントロジータームの優先順位を決定するために、式(i)を用いて取得されるような、結果として得られる優先順位のスコアは、優先順位を用いて表現型をランク付けするために使用されてもよい。次いで、表現型の優先順位は、背景に関して遺伝的に最も遠隔した個体の特性を識別してもよい。別の実施形態では、この結果は、しきい値を選択し、各表現型のタームについて上述のしきい値のスコアを有するコホートのメンバーの個数を計数することで、コホートの表現型の優先順位に拡張可能である。
もう1つの実施形態では、遺伝子及び変異体の優先順位は、背景に対するコホート内の変動の頻度を調べることで、表現型の予測なしで提供されてもよい。もう1つの実施形態は、変異体スコア(例えばFATHMMから)に周波数を組み合わせる。そのような実施形態において、遺伝子及び変異体の優先順位は、表現型の予測から得られる。
もう1つの実施形態では、タームの予め考えられた関連は存在しない。ある個体について、表現型の優先順位のスコアと、変異体の優先順位のスコア(例えば、最高の優先順位を有する変異体は、最高の優先順位を有する表現型のタームに関連付けられた変異体のリスト内にある)との組み合わせとして、変異体の優先順位が決定され、これにより、当該組み合わせは、グループ内で最高の変異体の優先順位を有する。遺伝子の優先順位については、個々の変異体の優先順位のスコアは、(例えば、各遺伝子について合計することで)互いに組み合わせ可能である。コホートについて、表現型に基づく変異体/遺伝子の優先順位は、前述したものに類似しているかもしれないが、個体の代わりに、コホートの表現型のランク付けを利用する。他の実施形態では、(例えば、新生児の致死率のコホートにおいて)どの表現型が関心対象であるかについて予め考えられた概念があり、表現型のターム(例えば「新生児の致死率」)が使用されてもよい。新生児の死亡率に関連付けられたターム(例えば、「発生以上」、「胎盤の異常」)を列挙する、より一般的な実施形態が使用されてもよい。変異体又は遺伝子の優先順位は、関連についての予め考えられた概念との何らかの関係を有する可能性があるオントロジータームに限定されてもよい。
さらに他の実施形態では、ここに開示した実施形態によって生成された結果に基づいて、被験者102に対して治療が行われてもよい。治療は、薬の投与又は回避、遺伝治療、手術、運動、物理/作業療法、食事、環境、及び/又は他の医学的、薬学的、遺伝学的、もしくはライフスタイルの治療であってもよい。治療は、例えば潜在的な表現型の知覚された罹患率に基づく、検査のタイプ、頻度、又は時間に関する、変則的な検査の包含をさらに含んでもよい。
以上の説明では、例示のために、複数の方法が特定の順序で述べられた。代替の実施形態では、本方法は、説明されたものとは異なる順序で実行されてもよいことが認識されるべきである。上述した方法は、ハードウェア構成要素によって実行されてもよく、又は、一連の機械実行可能な命令として実施されてもよく、後者は、汎用プロセッサもしくは特定目的プロセッサ(GPU又はCPU)のような機械、又は、命令がプログラミングされた論理回路(FPGA)のような機械に、本方法を実行させるために使用されてもよいということも認識されるべきである。これらの機械実行可能な命令は、CD−ROMもしくは他のタイプの光ディスク、フロッピーディスケット、ROM、RAM、EPROM、EEPROM、磁気又は光カード、フラッシュメモリ、又は電子的命令を格納するのに適した他のタイプの機械可読媒体のような、1つ又は複数の機械可読媒体に格納されてもよい。代替として、本方法は、ハードウェア及びソフトウェアの組み合わせによって実行されてもよい。
実施形態についての詳細な理解をもたらすために、本明細書では特定の詳細事項が与えられた。しかしながら、当業者には、実施形態がこれらの特定の詳細事項なしで実施されてもよいことが理解されるであろう。例えば、不必要な詳細事項により実施形態を不明瞭にしないために、回路がブロック図で示されることがある。他の例では、公知の回路、処理、アルゴリズム、構造、及び技術は、実施形態を不明瞭にしないために、不必要な詳細事項なしで示されることがある。
さらに、実施形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として示される処理として説明されたことに注意する。フローチャートは、動作を逐次的処理として説明することがあるが、動作の多くは並列又は同時に実行可能である。さらに、動作の順序は再構成されてもよい。その動作が完了するとき処理は終了されるが、図面には含まれない追加のステップを有してもよい。処理は、方法、関数、手順、サブルーチン、サブプログラムなどに対応してもよい。処理が関数に対応する場合、その終了は、関数が呼び出し関数又はメイン関数への戻ることに対応する。
さらに、実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせによって実装されてもよい。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードとして実装されたとき、必要なタスクを実行するプログラムコード又はコードセグメントは、記憶媒体などの機械可読媒体に格納されてもよい。1つ又は複数のプロセッサが必要なタスクを実行してもよい。コードセグメントは、手順、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、又は、命令、データ構造、もしくはプログラム文の任意の組み合わせを表してもよい。コードセグメントは、情報、データ、引き数、パラメータ、又はメモリ内容をわたす及び/又は受信することで、もう1つのコードセグメント又はハードウェア回路に接続されてもよい。情報、引き数、パラメータ、データなどは、メモリ共有、メッセージ転送、トークン転送、ネットワーク送信などを含む任意の適切な手段を用いて、わたされる、転送される、又は送信されてもよい。
本開示の例示の実施形態がここに詳しく説明されているが、発明の概念が他の方法で種々に具体化及び使用されることと、添付の請求項が、従来技術によって限定されるものを除く、そのような変形を含むように解釈されるように意図されることとが理解されるべきである。

Claims (16)

  1. プロセッサによって、被験者及び背景母集団を含む複数の個体の生命体のゲノムデータにアクセスすることと、
    上記プロセッサによって、上記ゲノムデータにおける複数の変異部位を識別することと、
    上記複数の変異部位のうちの1つについて、
    上記プロセッサによって、第1のデータレポジトリから、上記複数の変異部位のうちの1つに関連付けられた影響の強さを検索し、
    上記プロセッサによって、第2のデータレポジトリから、上記複数の変異部位のうちの1つに関連付けられたオントロジータームとの関連度を検索し、
    上記プロセッサによって、複数の表現型のうちの1つが、上記影響の強さ及び上記オントロジータームとの関連度の組み合わせであって、所定のしきい値量より高い組み合わせに関連すると決定することと、
    上記プロセッサによって、実質的に、上記複数の個体のうちの2つによって形成される各組み合わせからの、関連する表現型のゲノムデータのうちの1つのデータをそれぞれ含む複数のデータペアの間の一致度を比較することと、
    上記プロセッサによって、上記複数のペアのうちのそれぞれに係るレポートを生成することと
    含む方法。
  2. 上記被験者は複数の被験者を含む、
    請求項1記載の方法。
  3. 上記比較は、変異体の既知の結果に関連付けられたレポジトリのエントリに基づいて重み付けられる、
    請求項1記載の方法。
  4. 上記レポートは、上記複数の表現型のうちのいくつかに関する上記被験者の統計的有意性の指標を含む、
    請求項1記載の方法。
  5. 上記レポートを生成するステップは、上記プロセッサによって、スペクトルクラスタリングレポートを生成することをさらに含む、
    請求項1記載の方法。
  6. 上記レポートを生成するステップは、上記プロセッサによって、固有次元レポートを生成することをさらに含む、
    請求項1記載の方法。
  7. 上記複数の表現型のうちのそれぞれについて、上記影響の強さ及び上記オントロジータームとの関連度の組み合わせとして決定された表現型が上記しきい値量よりも高いと上記プロセッサが決定したとき、上記比較するステップは、上記プロセッサによって実行される、
    請求項1記載の方法。
  8. 上記しきい値量は、部分的に、1つの関連スコアが上記複数の表現型に係る関連スコアの集合から導出された外れ値であることを示すしきい値変動として決定される、
    請求項1記載の方法。
  9. 上記複数の表現型を識別するステップは、隠れマルコフモデル(HMM)を適用して、上記複数の変異部位のうちのいくつかに関連付けられた分子実体の予測を取得することをさらに含む、
    請求項1記載の方法。
  10. 上記複数の表現型のうちのいくつかの間の差と、上記被験者及び上記背景母集団の間の関連付けられた差とによって、上記複数の表現型のエントリをランク付けすることをさらに含む、
    請求項1記載の方法。
  11. 上記複数の表現型のランク付けされたエントリから、より高位にランク付けされた表現型として対立遺伝子の識別情報を抽出することをさらに含む
    請求項10記載の方法。
  12. 上記関連する表現型のゲノムデータの各ペアの間の一致度を比較するステップは、TF−IDFを用いてスコアを導出することをさらに含む、
    請求項1記載の方法。
  13. 上記関連する表現型のゲノムデータの各ペアの間の一致度を比較するステップは、
    ゲノムデータの各ペアの間の距離を比較することと、
    ゲノムデータの各ペアの間の距離の比較結果から、固有値及び固有ベクトルを導出することとをさらに含む、
    請求項1記載の方法。
  14. 上記個体の生命体及び上記背景母集団のうちの少なくとも1つは、コホートを含み、
    上記距離は次式によって決定され、
    Figure 2019505940
    ここで、μは、次式によって決定される、クラスタのクラスタサイズのための補正係数であり、
    Figure 2019505940
    スコアは、少なくとも1つの上記個体のゲノムデータと、上記背景母集団のゲノムデータとの間の距離であり、
    local_scoreは、少なくとも1つの個体を含むクラスタのうちの当該少なくとも1つの個体からの平均ユークリッド距離を示し、
    global_scoreは、上記クラスタ内の上記複数の個体の生命体のうちのいくつかについて、上記少なくとも1つの個体以外の他のすべてに対する平均ユークリッド距離を示し、
    cohort_sizeは、上記コホートにおける上記少なくとも1つの個体の個数を示し、
    cluster_sizeは、上記クラスタにおける上記コホートにおける上記少なくとも1つの個体の個数を示す、
    請求項13記載の方法。
  15. 1つの個体及び背景母集団はコホートを構成し、
    スコアは次式によって決定され、
    Figure 2019505940
    Figure 2019505940
    Figure 2019505940
    Figure 2019505940
    Figure 2019505940
    m1は上記コホートにおける個体の最低スコアであり、
    m2は上記コホートにおける個体の最大スコアであり、
    nは上記コホートにおけるの個体の個数であり、
    sは上記コホートにおけるすべての固有スコアの合計であり、
    rankは、上記背景母集団に含まれる個体のランクである、
    請求項1記載の方法。
  16. 上記レポートに基づいて上記被験者への治療を実施することをさらに含む、
    請求項1記載の方法。
JP2018556018A 2016-01-18 2016-01-18 遺伝子型からの表現型の決定 Active JP6826128B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2016/000195 WO2017125778A1 (en) 2016-01-18 2016-01-18 Determining phenotype from genotype

Publications (2)

Publication Number Publication Date
JP2019505940A true JP2019505940A (ja) 2019-02-28
JP6826128B2 JP6826128B2 (ja) 2021-02-03

Family

ID=55453223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018556018A Active JP6826128B2 (ja) 2016-01-18 2016-01-18 遺伝子型からの表現型の決定

Country Status (6)

Country Link
US (1) US20200176085A1 (ja)
EP (1) EP3405897A1 (ja)
JP (1) JP6826128B2 (ja)
KR (1) KR102393306B1 (ja)
CN (1) CN109155150B (ja)
WO (1) WO2017125778A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021092231A1 (en) * 2019-11-06 2021-05-14 Chan Zuckerberg Biohub, Inc. User interface and backend system for pathogen analysis
EP4200858A4 (en) * 2020-10-09 2024-08-28 23Andme Inc FORMATTING AND STORAGE OF GENETIC MARKERS
KR20230092593A (ko) 2021-12-17 2023-06-26 주식회사 엘지유플러스 상담 콜 데이터 처리 장치 및 그 제어방법
CN116343913B (zh) * 2023-03-15 2023-11-14 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178020A (ja) * 2002-11-22 2004-06-24 System Biology Kenkyu Kiko 発現制御関係推定装置、発現制御関係推定方法、プログラム、および、記録媒体
JP2009537154A (ja) * 2006-05-18 2009-10-29 モレキュラー プロファイリング インスティテュート, インコーポレイテッド 疾患状態に対する個別化された医学的介入を決定するためのシステムおよび方法
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
WO2015061422A1 (en) * 2013-10-22 2015-04-30 Athena Diagnostics, Inc. Pathogenicity scoring system for human clinical genetics

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101410008A (zh) * 2003-05-28 2009-04-15 先锋高级育种国际公司 植物育种方法
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
CN104846076B (zh) * 2015-03-31 2019-02-05 江汉大学 一种测定杂交油菜新品种的特异性、一致性与稳定性的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178020A (ja) * 2002-11-22 2004-06-24 System Biology Kenkyu Kiko 発現制御関係推定装置、発現制御関係推定方法、プログラム、および、記録媒体
JP2009537154A (ja) * 2006-05-18 2009-10-29 モレキュラー プロファイリング インスティテュート, インコーポレイテッド 疾患状態に対する個別化された医学的介入を決定するためのシステムおよび方法
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
WO2015061422A1 (en) * 2013-10-22 2015-04-30 Athena Diagnostics, Inc. Pathogenicity scoring system for human clinical genetics

Also Published As

Publication number Publication date
KR102393306B1 (ko) 2022-04-29
EP3405897A1 (en) 2018-11-28
WO2017125778A1 (en) 2017-07-27
KR20180107157A (ko) 2018-10-01
CN109155150B (zh) 2022-06-07
US20200176085A1 (en) 2020-06-04
JP6826128B2 (ja) 2021-02-03
CN109155150A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
US10867702B2 (en) Individual and cohort pharmacological phenotype prediction platform
Zeng et al. Signatures of negative selection in the genetic architecture of human complex traits
Zeng et al. Prediction and validation of disease genes using HeteSim Scores
US11842802B2 (en) Efficient clinical trial matching
Lamont et al. Identification of predicted individual treatment effects in randomized clinical trials
Zou et al. Approaches for recognizing disease genes based on network
JP6826128B2 (ja) 遺伝子型からの表現型の決定
US11762950B1 (en) Automatic and blind segmentation of diverse data
Rifaioglu et al. Large‐scale automated function prediction of protein sequences and an experimental case study validation on PTEN transcript variants
González-Domínguez et al. Large-scale genome-wide association studies on a GPU cluster using a CUDA-accelerated PGAS programming model
Long et al. From function to translation: Decoding genetic susceptibility to human diseases via artificial intelligence
Li et al. Network Based Integrated Analysis of Phenotype‐Genotype Data for Prioritization of Candidate Symptom Genes
Simões et al. NERI: network-medicine based integrative approach for disease gene prioritization by relative importance
Jung et al. Biomarker detection in association studies: modeling SNPs simultaneously via logistic ANOVA
US11145401B1 (en) Systems and methods for generating a sustenance plan for managing genetic disorders
US11107555B2 (en) Methods and systems for identifying a causal link
US20240038326A1 (en) Method and system for phenotypic profile similarity analysis used in diagnosis and ranking of disease-driving factors
Ghosh et al. Comorbidity patterns and its impact on health outcomes: two-way clustering analysis
Tsai et al. Significance analysis of ROC indices for comparing diagnostic markers: applications to gene microarray data
Liang et al. New gene embedding learned from biomedical literature and its application in identifying cancer drivers
Wu et al. Multimodal Machine Learning Combining Facial Images and Clinical Texts Improves Diagnosis of Rare Genetic Diseases
Zhang et al. Topic modeling identifies novel genetic loci associated with multimorbidities in UK Biobank
Chen et al. Simultaneous analysis of common and rare variants in complex traits: application to SNPs (SCARVAsnp)
Yuan et al. Gene copy number analysis for family data using semiparametric copula model
Zhu et al. TripletGO: Integrating Transcript Expression Profiles with Protein Homology Inferences for High-Accuracy Gene Function Annotations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210114

R150 Certificate of patent or registration of utility model

Ref document number: 6826128

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250