JP2022530088A - マイクロサテライト解析のための方法およびシステム - Google Patents

マイクロサテライト解析のための方法およびシステム Download PDF

Info

Publication number
JP2022530088A
JP2022530088A JP2021563182A JP2021563182A JP2022530088A JP 2022530088 A JP2022530088 A JP 2022530088A JP 2021563182 A JP2021563182 A JP 2021563182A JP 2021563182 A JP2021563182 A JP 2021563182A JP 2022530088 A JP2022530088 A JP 2022530088A
Authority
JP
Japan
Prior art keywords
microsatellite
subject
cancer
sample
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021563182A
Other languages
English (en)
Other versions
JPWO2020219463A5 (ja
Inventor
ハロルド ガーナー,
Original Assignee
オービット ジェノミクス, インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オービット ジェノミクス, インコーポレーテッド filed Critical オービット ジェノミクス, インコーポレーテッド
Publication of JP2022530088A publication Critical patent/JP2022530088A/ja
Publication of JPWO2020219463A5 publication Critical patent/JPWO2020219463A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Ecology (AREA)

Abstract

本開示は、試料におけるマイクロサテライトおよびマイナー対立遺伝子を分類するための方法およびシステムを提供する。また、本開示は、マイクロサテライト座位に基づき状態のための分類子を作成するための、また、汎がんアッセイを行うための、方法およびシステムを提供する。本方法およびシステムは、対象由来の核酸試料の次世代配列決定、および試料におけるマイクロサテライト座位の遺伝子型決定が関与することができる。マイクロサテライト(MS)ならびにその変更および不安定性は、がん、神経学的疾患または心血管疾患を含む多数の複雑な多重遺伝子健康状態の陰にある遺伝的駆動力となり得る。

Description

相互参照
本出願は、2019年4月22日に出願された米国特許仮出願第62/837,109号の利益を主張するものであり、その全体を参照により本明細書に組み込む。
マイクロサテライト(MS)ならびにその変更および不安定性は、がん、神経学的疾患または心血管疾患を含む多数の複雑な多重遺伝子健康状態の陰にある遺伝的駆動力となり得る。現在、マイクロサテライトによりこれらの健康状態を予測する、検出する、診断するおよび特徴付けることは、患者のマイクロサテライトプロファイルを、これらの健康状態に関連するマイクロサテライトのデータベースに適合させることが関与し得る。斯かるアプローチは、健康状態の進行のさらに後期でのみ適用可能となり得、これにより、処置および処置成績の検出、予後、診断、選択における信頼性欠如および困難が生じ得る。したがって、依然として、マイクロサテライト座位の解析により、早期および後期の両方でこれらの健康状態を予測する、検出するおよび特徴付ける改善された方法の必要性がある。
ある態様では、本開示は、状態のための最適化された分類子を構築するためのコンピュータに実行される方法であって、複数のマイクロサテライトのサブセットを、複数の最適化サイクルにおける状態のための分類子としてランク付けするステップを含み、複数のマイクロサテライトのサブセットが、状態と相関するマイクロサテライトの初期集団におけるマイクロサテライトを含み、これにより、複数のマイクロサテライトのサブセットの最適化されたサブセットを、状態のための最適化された分類子として同定する、方法を提供する。一部の態様では、コンピュータに実行される方法は、状態を有する対象由来の試料の第1のセットにおけるマイクロサテライトと、状態を有しない対象由来の試料の第2のセットにおけるマイクロサテライトとを比較し、これにより、マイクロサテライトの初期集団を同定するステップをさらに含む。
ランク付けするステップは、状態を有する対象由来の試料の第1のセットにおけるマイクロサテライトと、状態を有しない対象由来の試料の第2のセットにおけるマイクロサテライトとを比較し、これにより、マイクロサテライトの初期集団を同定するステップを含むことができる。コンピュータに実行される方法は、複数の最適化サイクルの最適化サイクルにおけるランク付けするステップにおける使用のために、マイクロサテライトの初期集団からマイクロサテライトの初期サブセットの集団をランダムに選ぶステップを含む初期化を含むことができる。マイクロサテライトの初期集団の少なくとも約100個のサブセットの集団は、複数の最適化サイクルにおいて使用することができる。マイクロサテライトのサブセットのサブセットにおけるマイクロサテライトの最小数は、8となることができる。マイクロサテライトのサブセットのサブセットにおけるマイクロサテライトの最大数は、64となることができる。一部の事例では、重複マイクロサテライトは、マイクロサテライトのサブセットのサブセットにおいて許可されない。ランク付けするステップは、(i)マイクロサテライトのサブセット、(ii)状態を有する対象由来の試料におけるマイクロサテライト、および(iii)状態を有しない対象由来の試料におけるマイクロサテライトを使用して、受信者動作特性(ROC)解析を行うステップを含むことができる。複数の最適化サイクルの最適化サイクルにおけるランク付けするステップは、サブセットの各サブセットにおけるマイクロサテライトの感度および特異度の和を、状態のための分類子として決定するステップを含むことができる。複数の最適化サイクルの最適化サイクルは、マイクロサテライトの初期集団の10個の新たなサブセットを、複数の最適化サイクルの以前の最適化サイクル由来のサブセットに加えるステップを含むことができる。10個の新たなサブセットのうち7個は、以前の最適化サイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることにより作成することができ、10個の新たなサブセットのうち3個は、マイクロサテライトの初期集団由来のマイクロサテライトをランダムに選択することにより作成することができる。本方法は、少なくとも一部には、最適化サイクルにおいて最低ランク付けを有することに基づき、最適化サイクルにおけるサブセットの10個のサブセットを廃棄するステップをさらに含むことができる。一部の事例では、状態は、対象における健康状態の存在または非存在となることができる。状態は、対象における健康状態を発症する見込みの増加または減少となることができる。状態は、対象が健康状態の処置から利益を得る見込みの増加または減少となることができる。一部の事例では、状態は、対象が健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少となることができる。状態は、健康状態のための処置に対する対象の応答性となることができる。一部の事例では、状態は、対象における健康状態の予後となることができる。一部の事例では、健康状態は、がんとなることができる。がんは、肺がんとなることができる。他の事例では、健康状態は、神経学的疾患または心血管疾患となることができる。
別の態様では、本開示は、コンピュータに実行される方法であって、複数のパラメーターを使用して、対象由来の試料由来の状態のための分類子の値を決定するステップを含み、複数のパラメーターの各パラメーターが、状態を有する対象由来の試料および/または状態を有しない対象由来の試料由来の複数のマイクロサテライトのそれぞれの相関の統計的尺度である、方法を提供する。
複数の重みは、複数の最適な重みを含むことができる。一部の態様では、コンピュータに実行される方法は、複数の最適な重みを決定するステップを含むことができる。複数の最適な重みを決定するステップは、標準回帰解析を複数の重みに適用するステップを含むことができる。複数の最適な重みを決定するステップは、遺伝的アルゴリズムの使用を含むことができる。分類子を決定するステップは、マイナー対立遺伝子頻度データを使用するステップを含むことができる。複数のマイクロサテライトは、少なくとも10個のマイクロサテライトを含むことができる。一部の実例では、複数のマイクロサテライトのそれぞれは、状態の存在と相関する。分類子の値は、分類子を閾値と比較するステップをさらに含むことができる。一部の態様では、状態は、対象における健康状態の存在もしくは非存在、対象における健康状態を発症する見込みの増加もしくは減少、対象が健康状態の処置から利益を得る見込みの増加もしくは減少、対象が健康状態の処置による有害事象の増加したリスクを有する見込みの増加もしくは減少、健康状態のための処置に対する対象の応答性、またはこれらの組合せとなることができる。一部の事例では、健康状態は、がん、心血管疾患または神経学的疾患である。健康状態ががんである場合、がんは、肺がんとなることができる。
別の態様では、本開示は、対象のゲノム年齢を決定するコンピュータに実行される方法であって、対象由来の第1の試料におけるマイクロサテライトマイナー対立遺伝子特徴を決定するステップと、マイクロサテライトマイナー対立遺伝子特徴を参照により処理するステップと、処理するステップに基づき、対象のゲノム年齢を決定するステップとを含む方法を提供する。
一部の事例では、処理するステップは、マイクロサテライトマイナー対立遺伝子特徴を参照と比較するステップを含む。マイナー対立遺伝子特徴は、遺伝子座におけるマイナー対立遺伝子の数となることができる。マイナー対立遺伝子の数は、少なくとも3個の次世代配列決定配列リードによって支持され得る。マイナー対立遺伝子特徴は、遺伝子座における主要対立遺伝子のリードの総数に対して正規化されたマイナー対立遺伝子のリードの総数となることができる。本方法は、対象由来の第1の試料の次世代配列決定を行って、対象のマイクロサテライトの配列リードを作成するステップをさらに含むことができる。第1の試料は、血液、唾液または腫瘍を含むことができる。本方法は、第1のゲノム年齢を決定した後に、対象由来の第2の試料におけるマイナー対立遺伝子特徴を決定するステップをさらに含むことができる。本方法は、対象由来の第1の試料におけるマイナー対立遺伝子特徴、および対象由来の第2の試料におけるマイナー対立遺伝子特徴を評価するステップと、評価するステップに基づき、対象のゲノム加齢の速度を決定するステップとを含むことができる。
別の態様では、本開示は、コンピュータに実行される方法であって、対象由来の試料におけるマイクロサテライトを使用して、対象由来の試料のための複数の分類子を決定するステップと、複数の状態のための複数の参照分類子により、複数の分類子を処理するステップと、処理するステップに基づき、複数の状態の中から、対象のために、少なくとも1種の状態を決定するステップとを含む方法を提供する。
処理するステップは、複数の分類子を、複数の状態のための複数の参照分類子と比較するステップを含むことができる。一部の事例では、複数の状態のうち少なくとも1種の状態は、対象の複数の健康状態の中からの少なくとも1種の健康状態の存在または非存在を含む。一部の事例では、複数の状態のうち少なくとも1種の状態は、対象の複数の健康状態の中からの少なくとも1種の健康状態を発症する見込みの増加または減少を含む。複数の状態のうち少なくとも1種の状態は、対象が、対象の複数の健康状態の中からの少なくとも1種の健康状態の処置から利益を得る見込みの増加または減少を含むことができる。複数の状態のうち少なくとも1種の状態は、対象が、対象の複数の健康状態の中からの少なくとも1種の健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少を含むことができる。複数の状態のうち少なくとも1種の状態は、対象の複数の健康状態の中からの少なくとも1種の健康状態のための処置に対する対象の応答性を含むことができる。複数の健康状態は、複数のがんを含むことができ、複数のがんは、卵巣がん、乳がん、低悪性度神経膠腫、神経膠芽腫、肺がん、前立腺がんまたは黒色腫を含む。一部の事例では、複数の健康状態は、複数の神経学的疾患または複数の心血管疾患を含むことができる。
ある態様では、本開示は、1個または複数のプロセッサーによって実行されると、1個または複数のプロセッサーに、状態のための最適化された分類子を構築するための方法であって、複数のマイクロサテライトのサブセットを、複数の最適化サイクルにおける状態のための分類子としてランク付けするステップを含み、複数のマイクロサテライトのサブセットが、状態と相関するマイクロサテライトの初期集団におけるマイクロサテライトを含み、これにより、複数のマイクロサテライトのサブセットの最適化されたサブセットを、状態のための最適化された分類子として同定する、方法を行わせる、実行可能命令を含む、非一時的コンピュータ可読媒体を提供する。コンピュータに実行される方法は、状態を有する対象由来の試料の第1のセット由来のマイクロサテライト、および状態を有しない対象由来の試料の第2のセット由来のマイクロサテライトを比較し、これにより、マイクロサテライトの初期集団を同定するステップをさらに含むことができる。
ランク付けするステップは、状態を有する対象由来の試料の第1のセットにおけるマイクロサテライトと、状態を有しない対象由来の試料の第2のセットにおけるマイクロサテライトとを比較し、これにより、マイクロサテライトの初期集団を同定するステップを含むことができる。コンピュータに実行される方法は、複数の最適化サイクルの最適化サイクルにおけるランク付けするステップにおける使用のために、マイクロサテライトの初期集団からマイクロサテライトの初期サブセットの集団をランダムに選ぶステップを含む初期化を含むことができる。マイクロサテライトの初期集団の少なくとも約100個のサブセットの集団は、複数の最適化サイクルにおいて使用することができる。マイクロサテライトのサブセットのサブセットにおけるマイクロサテライトの最小数は、8となることができる。マイクロサテライトのサブセットのサブセットにおけるマイクロサテライトの最大数は、64となることができる。一部の実施形態では、重複マイクロサテライトは、マイクロサテライトのサブセットのサブセットにおいて許可されない。ランク付けするステップは、(i)マイクロサテライトのサブセット、(ii)状態を有する対象由来の試料におけるマイクロサテライト、および(iii)状態を有しない対象由来の試料におけるマイクロサテライトを使用して、受信者動作特性(ROC)解析を行うステップを含むことができる。複数の最適化サイクルの最適化サイクルにおけるランク付けするステップは、サブセットの各サブセットにおけるマイクロサテライトの感度および特異度の和を、状態のための分類子として決定するステップを含むことができる。複数の最適化サイクルの最適化サイクルは、マイクロサテライトの初期集団の10個の新たなサブセットを、複数の最適化サイクルの以前の最適化サイクル由来のサブセットに加えるステップを含むことができる。10個の新たなサブセットのうち7個は、以前の最適化サイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることにより作成することができ、10個の新たなサブセットのうち3個は、マイクロサテライトの初期集団由来のマイクロサテライトをランダムに選択することにより作成することができる。本方法は、少なくとも一部には、最適化サイクルにおいて最低ランク付けを有することに基づき、最適化サイクルにおけるサブセットの10個のサブセットを廃棄するステップをさらに含むことができる。状態は、対象における健康状態の存在または非存在となることができる。状態は、対象における健康状態を発症する見込みの増加または減少となることができる。状態は、対象が健康状態の処置から利益を得る見込みの増加または減少となることができる。状態は、対象が健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少となることができる。状態は、健康状態のための処置に対する対象の応答性となることができる。状態は、対象における健康状態の予後となることができる。健康状態は、がんとなることができる。がんは、肺がんとなることができる。健康状態は、神経学的疾患または心血管疾患となることができる。
別の態様では、本開示は、1個または複数のプロセッサーによって実行されると、1個または複数のプロセッサーに、複数のパラメーターを使用して、対象由来の試料由来の状態のための分類子の値を決定するステップであって、複数のパラメーターの各パラメーターが、状態を有する対象由来の試料および/または状態を有しない対象由来の試料由来の複数のマイクロサテライトのそれぞれの相関の統計的尺度である、ステップを含む方法を行わせる、実行可能命令を含む、非一時的コンピュータ可読媒体を提供する。
複数の重みは、複数の最適な重みを含むことができる。コンピュータに実行される方法は、複数の最適な重みを決定するステップを含むことができる。複数の最適な重みを決定するステップは、標準回帰解析を複数の重みに適用するステップを含むことができる。複数の最適な重みを決定するステップは、遺伝的アルゴリズムの使用を含むことができる。分類子を決定するステップは、マイナー対立遺伝子頻度データを使用するステップを含むことができる。複数のマイクロサテライトは、少なくとも10個のマイクロサテライトを含むことができる。複数のマイクロサテライトのそれぞれは、状態の存在と相関することができる。分類子の値は、分類子を閾値と比較するステップをさらに含むことができる。状態は、対象における健康状態の存在もしくは非存在、対象における健康状態を発症する見込みの増加もしくは減少、対象が健康状態の処置から利益を得る見込みの増加もしくは減少、対象が健康状態の処置による有害事象の増加したリスクを有する見込みの増加もしくは減少、健康状態のための処置に対する対象の応答性、またはこれらの組合せとなることができる。健康状態は、がん、心血管疾患または神経学的疾患となることができる。がんは、肺がんとなることができる。
別の態様では、本開示は、1個または複数のプロセッサーによって実行されると、1個または複数のプロセッサーに、対象のゲノム年齢を決定する方法であって、対象由来の第1の試料におけるマイクロサテライトマイナー対立遺伝子特徴を決定するステップと、マイクロサテライトマイナー対立遺伝子特徴を参照により処理するステップと、処理するステップに基づき、対象のゲノム年齢を決定するステップとを含む方法を行わせる、実行可能命令を含む、非一時的コンピュータ可読媒体を提供する。
処理するステップは、マイクロサテライトマイナー対立遺伝子特徴を参照と比較するステップを含むことができる。マイナー対立遺伝子特徴は、遺伝子座におけるマイナー対立遺伝子の数となることができる。マイナー対立遺伝子の数は、少なくとも3個の次世代配列決定配列リードによって支持され得る。マイナー対立遺伝子特徴は、遺伝子座における主要対立遺伝子のリードの総数に対して正規化されたマイナー対立遺伝子のリードの総数となることができる。本方法は、対象由来の第1の試料の次世代配列決定を行って、対象のマイクロサテライトの配列リードを作成するステップをさらに含むことができる。第1の試料は、血液、唾液または腫瘍を含むことができる。本方法は、第1のゲノム年齢を決定した後に、対象由来の第2の試料におけるマイナー対立遺伝子特徴を決定するステップをさらに含むことができる。本方法は、対象由来の第1の試料におけるマイナー対立遺伝子特徴および対象由来の第2の試料におけるマイナー対立遺伝子特徴を評価するステップと、評価するステップに基づき、対象のゲノム加齢の速度を決定するステップとを含むことができる。
別の態様では、本開示は、1個または複数のプロセッサーによって実行されると、1個または複数のプロセッサーに、対象由来の試料におけるマイクロサテライトを使用して、対象由来の試料のための複数の分類子を決定するステップと、複数の状態のための複数の参照分類子により、複数の分類子を処理するステップと、処理するステップに基づき、複数の状態の中から、対象のために、少なくとも1種の状態を決定するステップとを含む方法を行わせる、実行可能命令を含む、非一時的コンピュータ可読媒体を提供する。
処理するステップは、複数の分類子を、複数の状態のための複数の参照分類子と比較するステップを含むことができる。複数の状態のうち少なくとも1種の状態は、対象の複数の健康状態の中からの少なくとも1種の健康状態の存在または非存在を含むことができる。複数の状態のうち少なくとも1種の状態は、対象の複数の健康状態の中からの少なくとも1種の健康状態を発症する見込みの増加または減少を含むことができる。複数の状態のうち少なくとも1種の状態は、対象が、対象の複数の健康状態の中からの少なくとも1種の健康状態の処置から利益を得る見込みの増加または減少を含むことができる。複数の状態のうち少なくとも1種の状態は、対象が、対象の複数の健康状態の中からの少なくとも1種の健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少を含むことができる。複数の状態のうち少なくとも1種の状態は、対象の複数の健康状態の中からの少なくとも1種の健康状態のための処置に対する対象の応答性を含むことができる。複数の健康状態は、複数のがんを含むことができ、複数のがんは、卵巣がん、乳がん、低悪性度神経膠腫、神経膠芽腫、肺がん、前立腺がんまたは黒色腫を含むことができる。複数の健康状態は、複数の神経学的疾患または複数の心血管疾患を含むことができる。
本開示の別の態様は、1個または複数のコンピュータプロセッサーによって実行されると、本明細書における上述または他の箇所の方法のいずれかを実行する、機械実行可能コードを含む非一時的コンピュータ可読媒体を提供する。
本開示の別の態様は、1個または複数のコンピュータプロセッサーと、それにカップルされたコンピュータメモリとを含むシステムを提供する。コンピュータメモリは、1個または複数のコンピュータプロセッサーによって実行されると、本明細書における上述または他の箇所の方法のいずれかを実行する、機械実行可能コードを含む。
本開示の追加的な態様および利点は、本技術分野の当業者であれば、本開示の単なる説明的な実施形態が示され記載されている次の詳細な説明から、容易に明らかとなるであろう。了解されるであろうが、本開示は、他の実施形態および異なる実施形態が可能であり、本開示のいくつかの詳細は、様々な明確な点で改変が可能であり、改変は全て、本開示から逸脱することがない。したがって、図面および記載は、制限的ではなく説明的な性質のものとして考慮されるべきである。
参照による援用
本明細書で言及されているあらゆる刊行物、特許および特許出願は、あたかも個々の刊行物、特許または特許出願のそれぞれが、参照により組み込まれていると特にかつ個々に指し示されているのと同じ程度まで、参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が、本明細書に含有される開示と矛盾する程度まで、本明細書は、いかなる斯かる矛盾した材料よりも優先するおよび/またはその優位に立つことが意図される。
本発明の新規特色は、添付の特許請求の範囲において詳細に示される。本発明の特色および利点のより深い理解は、本発明の原理が利用されている説明的な実施形態を示す次の詳細な説明と、下で説明する添付の図面を参照することにより得られるであろう。
図1は、マイクロサテライト分類子を作成するためのコンピュータに実行される方法のワークフローの例を説明する。
図2は、情報価値があるマイクロサテライト座位を同定し、状態のための分類子を作成するためのコンピュータに実行される方法を使用した開発プロセスの例を説明する。
図3は、肺がんアッセイのための検証プロセスの例を説明する。
図4は、汎がんアッセイを検証する例を説明する。
図5は、患者試料の解析のためのワークフローの例を説明する。
図6は、髄芽腫(MB)関連MSの同定および検証に使用されるアプローチの略図を説明する。アプローチは、3つのステージを含む:訓練セットを使用した情報価値があるMS座位のコンピュータによる同定、独立した検証コホートにおけるマイクロサテライトマーカーの検証、およびこれらのMSに関連する遺伝子の下流解析。第1のステージは、年齢、民族性および配列決定技術に伴い変動するMSを排除するためのフィルターを含む。
図7A~図7Dは、検証および訓練データの例を説明する。図7Aは、訓練コホートにおける計量スコアの分布を説明する。図7Cは、検証コホートにおける計量スコアの分布を説明する。訓練(120名のMB対象および425名の対照対象)(図7B)および検証(102名のMB対象および428名の対照対象)(図7D)コホートにおいてROC解析を行った。 図7A~図7Dは、検証および訓練データの例を説明する。図7Aは、訓練コホートにおける計量スコアの分布を説明する。図7Cは、検証コホートにおける計量スコアの分布を説明する。訓練(120名のMB対象および425名の対照対象)(図7B)および検証(102名のMB対象および428名の対照対象)(図7D)コホートにおいてROC解析を行った。 図7A~図7Dは、検証および訓練データの例を説明する。図7Aは、訓練コホートにおける計量スコアの分布を説明する。図7Cは、検証コホートにおける計量スコアの分布を説明する。訓練(120名のMB対象および425名の対照対象)(図7B)および検証(102名のMB対象および428名の対照対象)(図7D)コホートにおいてROC解析を行った。 図7A~図7Dは、検証および訓練データの例を説明する。図7Aは、訓練コホートにおける計量スコアの分布を説明する。図7Cは、検証コホートにおける計量スコアの分布を説明する。訓練(120名のMB対象および425名の対照対象)(図7B)および検証(102名のMB対象および428名の対照対象)(図7D)コホートにおいてROC解析を行った。
図8Aは、MBに関する139個のMSの情報価値がある座位のゲノム位置を表示する円グラフを説明する。図8Bは、情報価値がある髄芽腫MS座位のジーンオントロジー解析を説明する。図8Cは、情報価値があるMS座位に関連する124個の遺伝子のタンパク質-タンパク質相互作用(PPI)ネットワークを説明する。PPIは、0.0007のエンリッチメント(enrichment)p-値を有するネットワークをもたらす129個のノードおよび49個のエッジを含有する。 図8Aは、MBに関する139個のMSの情報価値がある座位のゲノム位置を表示する円グラフを説明する。図8Bは、情報価値がある髄芽腫MS座位のジーンオントロジー解析を説明する。図8Cは、情報価値があるMS座位に関連する124個の遺伝子のタンパク質-タンパク質相互作用(PPI)ネットワークを説明する。PPIは、0.0007のエンリッチメント(enrichment)p-値を有するネットワークをもたらす129個のノードおよび49個のエッジを含有する。 図8Aは、MBに関する139個のMSの情報価値がある座位のゲノム位置を表示する円グラフを説明する。図8Bは、情報価値がある髄芽腫MS座位のジーンオントロジー解析を説明する。図8Cは、情報価値があるMS座位に関連する124個の遺伝子のタンパク質-タンパク質相互作用(PPI)ネットワークを説明する。PPIは、0.0007のエンリッチメント(enrichment)p-値を有するネットワークをもたらす129個のノードおよび49個のエッジを含有する。
図9は、本明細書に記載されている研究において使用される遺伝子型分布および分割表の例を説明する。第1染色体上のマイクロサテライトマーカー242626の遺伝子型の分布、塩基対153645035。この例のp-値は、3.5e-4である。右の表は、同じマイクロサテライトマーカーの分割表である。
図10は、年齢に対して感度が高いMSの同定に使用されるワークフローの概要を説明する。
図11は、配列決定技術に対して感度が高いMSの同定に使用されるワークフローの概要を説明する。
図12は、民族性に対して感度が高いMSの同定に使用されるワークフローの概要を説明する。
図13は、試料へのスコアの割り当てに使用される計量の例を説明する。上述のマーカーに対してそれぞれ遺伝子型22|22、12|12および13|13を有する仮説上の試料を考慮する。計量をこの試料に適用するために、MBおよび健康群における各遺伝子型の頻度の差を合計する:結果は、0.95のスコアである。換言すると、遺伝子型毎に、正常群におけるその頻度を、MB群における頻度から引き算する;次いで、差を合計する。結果的に、健康な対照個体は、主に、ネガティブスコアを有する一方、罹患個体は、ポジティブスコアを有する。
図14は、MBおよび健康試料を区別するための判断基準を決定するためのヨーデン(Youden)指標を説明する。ヨーデン指標を使用して、訓練セットにおけるROC曲線のカットオフを決定した。43個のマーカーのリストに最適な判断基準は、0.155である。同じ判断基準を使用して、検証コホートの特異度および感度を計算した。
図15は、MBに関する43個の情報価値がある座位の染色体位置を指し示すcircosプロットを説明する。
図16は、マイクロサテライトマーカー166663(RAI遺伝子に位置するエクソンマイクロサテライト)および164048(BLC6B遺伝子に位置するエクソンマイクロサテライト)の遺伝子型の分布を説明する。1個のCAGトリプレットの付加は、ミスセンス突然変異と同様に、タンパク質構造を変化させ、その機能を損なうことができる。
図17は、がんを発症する対象のリスクを評価するためのコンピュータに実行される方法による、マイクロサテライト解析の結果報告の出力の例を説明する。
図18は、本明細書に提供される方法を実行するようにプログラムまたは他の仕方で構成されたコンピュータシステムを説明する。
図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。 図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。 図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。 図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。 図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。 図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。 図19は、MBに関連する139個の情報価値がある生殖系列MSのリストを説明する。
図20は、MBシグネチャーセットにおける43個のマイクロサテライト座位のリストを説明する。 図20は、MBシグネチャーセットにおける43個のマイクロサテライト座位のリストを説明する。
図21は、情報価値があるMB MS座位のIngenuity Pathway analysisを説明する。
図22は、cBioportal MBコホートにおける情報価値があるMB MS座位関連遺伝子における突然変異を説明する。
図23は、135個の遺伝子対における突然変異が、MBがんリスク分類子内に有意に同時に発生する傾向があることを明らかにした、cBioportal MBがん研究の解析を説明する。 図23は、135個の遺伝子対における突然変異が、MBがんリスク分類子内に有意に同時に発生する傾向があることを明らかにした、cBioportal MBがん研究の解析を説明する。 図23は、135個の遺伝子対における突然変異が、MBがんリスク分類子内に有意に同時に発生する傾向があることを明らかにした、cBioportal MBがん研究の解析を説明する。
図24は、1標準偏差信頼区間を有する閾値を説明する。この区間の外側にある分類子は、状態を有する(0.5を上回る)または状態を有しない(0.1を下回る)のいずれかである対象を指し示す。閾値からさらに離れた分類子の値は、より強い指示を保有する。
I.概観
本開示は、例えば、マイクロサテライトを使用して状態のための分類子を作成するコンピュータに実行される方法を提供する。図1は、コンピュータに実行される方法が行われて、分類子を作成する仕方のワークフローの例を説明する。デオキシリボ核酸(DNA)配列は、状態を有する対象の試料由来の配列情報(101)および状態を有しない参照対象由来の配列情報(102)のデータベースから得られる。101および102由来のマイクロサテライト座位が同定(遺伝子型決定)され、互いに比較されて、状態とのみ関連または相関するマイクロサテライトの集団を明らかにする(103)。次に、マイクロサテライト座位の集団は、さらに解析され、重みを加えられて、分類子の最適化(105)のためのマイクロサテライト座位の初期セットに到達する(104)。最適化は、マイクロサテライトが状態に関連または相関する程度を繰り返しランク付ける。最適化は、最適化の追加的なサイクルのためのマイクロサテライトの追加的なセットにより反復することができる。一部の事例では、マイクロサテライトのセットは、ランダムに分割され、再度組み合わせされて、最適化の追加的なサイクルのためのマイクロサテライトの新たな初期セットを生じる(106)。最適化を完了したら、コンピュータに実行される方法は、分類子を作成するための最も情報価値がある可能性があるマイクロサテライトのセットを同定する(107)。追加的な検証または最適化ステップ(108)は、状態の存在または非存在が分かっている対象の追加的な試料(例えば、データベース由来)を解析することにより得ることができる。108の後に、コンピュータに実行される方法を使用して、最終分類子を作成することができる(109)。
ある態様では、本開示は、状態のためのマーカー(分類子)としてマイクロサテライトのセットを同定するための改善されたコンピュータに実行される方法を提供する。本方法は、状態を有する対象由来の試料の第1のセット由来のマイクロサテライト座位、および状態を有しない対象由来の試料の第2のセット由来のマイクロサテライト座位を比較し、これにより、マイクロサテライト座位(情報価値がある座位)の初期集団を同定するステップをさらに含むことができる。
一部の事例では、情報価値がある座位は、分類子として直接的に使用することができる。一部の事例では、情報価値がある座位を含む分類子は、対象における状態の存在または非存在を指し示すことができる。一部の事例では、情報価値がある座位を含む分類子は、対象における状態の発症の見込みの増加または減少を指し示すことができる。一部の実例では、情報価値がある座位を含む分類子は、対象が処置から利益を得る見込みの増加もしくは減少、または対象が処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少を指し示すことができる。一部の事例では、情報価値がある座位を含む分類子は、対象の状態のための処置に対する応答性を指し示すことができる。一部の実例では、情報価値がある座位の分類子は、対象における状態の予後を指し示すことができる。
一部の態様では、マイクロサテライトの初期集団座位(情報価値がある座位)は、コンピュータに実行される方法によって行われる遺伝的アルゴリズムにおける使用のためのものである。本方法は、状態を有する対象由来の試料におけるマイクロサテライトおよび状態を有しない対象由来の試料由来のマイクロサテライトのサブセットを比較することにより、マイクロサテライトの初期集団のサブセットを繰り返しランク付けするステップを含むことができる。本方法は、サブセットの初期サブセットがマイクロサテライトの初期集団座位からランダムに選ばれる、初期化を含むことができる。一部の実例では、マイクロサテライトの初期集団座位の約100個のサブセットが、遺伝的アルゴリズム(最適化サイクル)を通して使用され、サブセットのサブセットにおけるマイクロサテライトの最小数が8であり、サブセットのサブセットにおけるマイクロサテライトの最大数が64である。一部の実例では、繰り返しランク付けするステップは、複数の最適化サイクルを含み、複数の最適化サイクルは、マイクロサテライトの初期集団の10個の新たなサブセットを、最適化の以前のサイクル由来のサブセットに加えるステップを含む。10個の新たなサブセットのうち7個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることにより作成することができ、10個の新たなサブセットのうち3個は、マイクロサテライトの初期集団由来のマイクロサテライトをランダムに選択することにより作成される。一部の事例では、本方法は、最適化サイクルにおいてサブセットをランク付けするステップを含み、最適化サイクルにおいて最低ランク付けを有するサブセットのうち10個が廃棄され、よって、最適化のサイクルを通してマイクロサテライトの集団の100個のサブセットを維持する。遺伝的アルゴリズムは、マイクロサテライトのあらゆる組合せの繰り返しランク付けを行って、最も情報価値があるマイクロサテライト座位を同定するステップを含むことができる。遺伝的アルゴリズムは、情報価値が低いマイクロサテライト座位を除去し、情報価値がより高いマイクロサテライト座位のために選択するまたは重みを加えることにより、感度および特異度を改善することができる。一部の事例では、サイクルによって最適化されたマイクロサテライト座位によって同定された状態は、対象における健康状態の存在もしくは非存在、対象における健康状態の発症の見込みの増加もしくは減少、対象が健康状態のための処置から利益を得る見込みの増加もしくは減少、対象が健康状態のための処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少、健康状態のための処置に対する対象の応答性、対象の健康状態の予後、またはこれらの組合せを指し示すことができる。
別の態様では、本開示は、改善されたコンピュータに実行される方法であって、複数のパラメーターを使用して、対象由来の試料由来の状態のための分類子を決定するステップを含み、複数のパラメーターの各パラメーターが、状態を有する対象由来の試料および/または状態を有しない対象由来の試料由来の複数のマイクロサテライトのそれぞれの相関の統計的尺度である、方法を提供する。一部の事例では、複数のパラメーターは、標準回帰解析および遺伝的アルゴリズムの使用によって決定されたもの等、最適な重みを含む。一部の事例では、分類子は、マイナー対立遺伝子頻度データを使用することにより決定される。一部の事例では、状態は、対象における健康状態の存在もしくは非存在、対象における健康状態の発症の見込みの増加もしくは減少、対象が健康状態のための処置から利益を得る見込みの増加もしくは減少、対象が健康状態のための処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少、健康状態のための処置に対する対象の応答性、対象の健康状態の予後、またはこれらの組合せを指し示すことができる。一部の事例では、健康状態は、がん、神経学的疾患または心血管疾患である。
別の態様では、本開示は、対象由来の第1の試料におけるマイナー対立遺伝子特徴を決定し、マイナー対立遺伝子特徴を参照と比較し、比較に基づき対象のためのゲノム年齢を決定するために、コンピュータシステムを使用する方法を提供する。マイナー対立遺伝子特徴は、座位におけるマイナー対立遺伝子の数となることができ、対立遺伝子の数は、少なくとも1、少なくとも2、少なくとも3または3個超の次世代配列決定配列リードによって支持される。一部の事例では、マイナー対立遺伝子特徴は、座位における主要対立遺伝子のリードの総数に対して正規化された、マイナー対立遺伝子のリードの総数である。対象由来の第1の試料由来のマイナー対立遺伝子特徴を、同じ対象由来の第2の試料における第2のマイナー対立遺伝子特徴と比較して、ゲノム加齢の速度を決定することができる。
本開示は、マイクロサテライト座位および必要に応じてマイナー対立遺伝子情報を使用して作成された分類子に基づく、汎状態(pan-condition)アッセイを提供する。一部の事例では、汎状態アッセイは、汎がんアッセイである。
用語「約」または「およそ」は、当業者によって決定される、特定の値に許容される誤差範囲内を意味することができ、これは、一部には、値が測定または決定される仕方、例えば、測定システムの限界に依存するであろう。例えば、「約」は、所与の値における慣例に従った、1または1を超える標準偏差内を意味することができる。約は、値の+/-10%、+/-5%、+/-2%または+/-1%を意味することができる。本明細書および特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈がそれ以外のことを明らかに指示しない限り、複数の参照を含む。例えば、用語「1つの核酸(a nucleic acid)」は、複数の核酸(それらの混合物を含む)を含む。
II.状態のマイクロサテライト分類子を決定する方法
本開示は、状態のためのマイクロサテライト分類子を同定するための方法、例えば、コンピュータに実行される方法(例えば、図2を参照)およびシステムを提供する。状態は、対象における健康状態の存在もしくは非存在、対象における健康状態の発症の見込みの増加もしくは減少、対象が健康状態のための処置から利益を得る見込みの増加もしくは減少、対象が健康状態のための処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少、健康状態のための処置に対する対象の応答性、対象の健康状態の予後、またはこれらの組合せとなることができる。本方法は、状態を有する対象および状態を有しない対象由来の試料におけるマイクロサテライト座位を同定(遺伝子型決定)するステップを含むことができる。本方法は、状態のための統計的に情報価値があるマイクロサテライト座位を同定するステップを含むことができる。本方法は、統計的に情報価値があるマイクロサテライト座位を使用して、状態のための分類シグネチャーを開発するステップを含むことができる。分類シグネチャーを検証および使用して、対象由来の試料を検査することができる。
A.マイクロサテライト座位の遺伝子型決定
マイクロサテライト分類子を同定する方法は、状態を有する対象および状態を有しない対象由来の試料におけるマイクロサテライト座位を遺伝子型決定するステップを含むことができる。一部の事例では、遺伝子型決定するステップは、データベースにおける配列情報を解析するステップを含む。一部の事例では、遺伝子型決定するステップは、試料を得て、例えば、次世代配列決定によって、試料における核酸分子を解析するステップを含む。
1.配列情報のデータベース
一部の事例では、マイクロサテライト座位を同定(例えば、遺伝子型決定)する方法は、1種または複数のデータベース由来の配列情報を解析するステップを含むことができる。1種または複数のデータベースは、状態を有する対象、例えば、がんを有する対象またはがん細胞系由来の核酸試料の配列情報(例えば、配列リード)を含むことができる。1種または複数のデータベースは、参照配列(例えば、ヒトゲノムまたはその部分)を含むことができる。1種または複数のデータベースは、対象の集団(単数または複数)の変動または多型の配列を含むことができる。
1種または複数のデータベースは、ハイスループットまたは次世代配列決定によって作成された配列情報を含むことができる。1種または複数のデータベースは、対象由来の試料の全エクソーム配列決定(WES)、全ゲノム配列決定(WGS)またはこれらの組合せによって作成された配列データ(例えば、配列リードのデータ)を含むことができる。ある特定の実例では、1種または複数のデータベースは、標的化配列決定から作成された配列情報(例えば、配列リード情報)を含む。標的化配列決定は、対象由来の試料からの標的配列の濃縮を含むことができる。
データベースは、がんゲノムアトラス(The Cancer Genome Atlas)(TCGA)由来の配列情報、例えば、エクソームデータ、例えば、肺がんエクソームデータを含むことができる。データベースは、1000ゲノムプロジェクトに由来することができる。
2.試料
試料は、1名または複数の対象から得られるまたはそれに由来する生体試料となることができる。試料を処理または分画して、他の試料、例えば、他の生体試料を産生することができる。本開示に記載されている試料は、核酸分子を得ることができるいずれかの材料を含むことができる。
試料は、状態を有する対象から得ることができる。試料は、状態の症状を有する対象から得ることができる。試料は、状態を有する対象から得ることができるが、対象は、状態の症状を有しない。試料は、状態を有しない対象から得ることができる。試料は、がんを有する対象、がんを有すると疑われる対象、またはがんを有しもせずこれを有することが疑われもしない対象から得ることができる。
試料は、ヒト対象から得ることまたはそれに由来することができる。試料は、異なる温度(例えば、室温で、冷蔵もしくはフリーザー条件下で、25℃で、4℃で、-18℃で、-20℃でまたは-80℃で)または異なる懸濁液(例えば、EDTA収集管、または無細胞DNAもしくはRNA収集管)等、処理前に種々の貯蔵条件で貯蔵することができる。
試料は、がんを有する対象の処置の前および/または後に採取することができる。試料は、処置または処置レジメン中の対象から得ることができる。複数の試料を対象から得て、経時的に処置の効果をモニターすることができる。試料は、確定陽性または陰性診断が臨床検査により利用できない、がんを有することが分かっているまたは疑われる対象から採取することができる。試料は、がんを有することが疑われる対象から採取することができる。試料は、疲労、悪心、体重減少、痛みおよび疼痛、脱力、または出血等、説明のつかない症状を経験している対象から採取することができる。試料は、説明できる症状を有する対象から採取することができる。試料は、家族歴、年齢、高血圧もしくは高血圧前症、糖尿病もしくは糖尿病前症、過体重もしくは肥満、環境曝露、生活習慣リスク因子(例えば、喫煙、アルコール消費または薬物使用)、または他のリスク因子の存在等の因子によりがんを発症するリスクがある対象から採取することができる。
試料は、対象由来の生体試料となることができる。試料は、全血、末梢血、血漿、血清、唾液、粘液、尿、精液、リンパ液、羊水、糞便抽出物、頬スワブ、細胞、または他の体液または外科的生検もしくは外科的切除から得られる組織を含む組織となることができる。一部の事例では、試料は、一次対象(例えば、患者)由来の細胞系またはアーカイブ保存対象(例えば、患者)試料、例えば、保存試料、例えば、ホルマリン固定パラフィン包埋(FFPE)試料もしくは新鮮凍結試料となることができる。試料、例えば、生体試料は、エチレンジアミン四酢酸(EDTA)収集管、DNAもしくはRNA収集管、または無細胞DNAもしくは無細胞RNA収集管を使用して、対象から得ることまたはそれに由来することができる。試料、例えば、生体試料は、分画による全血試料に由来することができる。試料、例えば、生体試料またはその派生物は、細胞を含むことができる。試料、例えば、生体試料は、血液試料またはその派生物(例えば、収集管から収集された血液、または血液滴)となることができる。
試料は、アッセイされ得る1種または複数の分析物を含有することができる。試料は、1種または複数の核酸分子を含むことができる。1種または複数の核酸分子(またはプライマーおよびプローブを含む、本明細書に開示されているいずれかの核酸分子)は、いずれかの長さのヌクレオチドのポリマー形態、例えば、デオキシリボヌクレオチド(dNTP)もしくはリボヌクレオチド(rNTP)またはこれらのアナログのいずれかとなることができる。アナログは、天然に存在するホスホジエステル結合以外の他のヌクレオチドとの連結に関与する、またはホスホジエステル結合以外の連結により取り付けられた塩基を含む、天然に存在しない塩基、ヌクレオチドを含むことができる。ヌクレオチドアナログは、例えば、ホスホロチオエート、ホスホロジチオエート、ホスホロトリエステル、ホスホロアミデート、ボラノホスフェート、メチルホスホネート、キラル-メチルホスホネート、2-O-メチルリボヌクレオチド、ペプチド核酸(PNA)その他を含む。核酸分子は、デオキシリボ核酸(DNA)となることができる。DNAは、ゲノムDNA、ウイルスDNA、ミトコンドリアDNA、プラスミドDNA、増幅されたDNA、環状DNA、循環DNA、無細胞DNAまたはエクソソームDNAとなることができる。一部の実例では、DNAは、一本鎖DNA(ssDNA)、二本鎖DNA、変性二本鎖DNA、合成DNAおよびこれらの組合せである。環状DNAは、切断または断片化され得る。DNAは、目的の遺伝子もしくは遺伝子断片のコードもしくは非コード領域、連鎖解析から定義された座位(単数または複数)、エクソン、またはイントロンを含むことができる。DNAは、相補的DNA(cDNA)となることができる。核酸分子は、組換え核酸、分枝状核酸、プラスミド、ベクターまたは単離されたDNAとなることができる。核酸分子は、1個または複数の改変ヌクレオチド、例えば、メチル化ヌクレオチドまたはヌクレオチドアナログを含むことができる。ヌクレオチド構造に対する改変は、核酸分子のアセンブリの前またはその後に為すことができる。核酸分子のヌクレオチドの配列は、非ヌクレオチド構成成分によって中断されていてよい。核酸分子は、レポーター剤とのコンジュゲーションまたは結合等により、重合後にさらに改変されてよい。
核酸分子は、ゲノムまたは染色体におけるその位置によって同定され得る、座位、遺伝子座またはゲノム領域を含むことができる。一部の例では、座位は、遺伝子名によって参照することができ、核酸の当該物理的領域と関連するコードおよび非コード領域を包含することができる。遺伝子は、コード領域(エクソン)、非コード領域(イントロン)、転写制御または他の調節領域、およびプロモーターを含むことができる。別の例では、ゲノム領域は、命名された遺伝子内にイントロンまたはエクソンまたはイントロン/エクソン境界を取り込むことができる。
一部の実例では、核酸分子は、リボ核酸(RNA)を含む。RNAは、断片化されたRNAとなることができる。RNAは、分解されたRNAとなることができる。RNAは、マイクロRNAまたはその部分となることができる。RNAは、マイクロRNA(miRNA)、プレmiRNA、プリ(pri)miRNA、メッセンジャーRNA(mRNA)、プレmRNA、低分子干渉RNA(siRNA)、低分子ヘアピン型RNA(shRNA)、ウイルスRNA、ウイロイドRNA、ウイルソイドRNA、環状RNA(circRNA)、リボソームRNA(rRNA)、転移RNA(tRNA)、プレtRNA、長鎖非コードRNA(lncRNA)、核内低分子RNA(snRNA)、循環RNA、無細胞RNA、エクソソームRNA、ベクターに発現されるRNA、RNA転写物、合成RNA、リボザイム、無細胞RNAおよびこれらの組合せから選択される、RNA分子または断片化されたRNA分子(RNA断片)となることができる。
一部の事例では、試料は、無細胞核酸分子を含む。無細胞核酸分子は、例えば、対象由来の体液から供給されるあらゆる非被包性核酸分子を含むことができる。無細胞核酸(cfNA)分子は、細胞内に含有されていない、生体試料における核酸(例えば、無細胞RNA(cfRNA)分子または無細胞DNA(cfDNA)分子)となることができる。cfDNA分子は、血流中等、体液中を自由に循環することができる。無細胞DNA分子は、循環腫瘍DNA、例えば、腫瘍に起源をもつcfDNAとなることができる。
試料は、無細胞試料となることができる。無細胞試料は、無傷細胞を実質的に欠く生体試料となることができる。無細胞試料は、それ自体が細胞を実質的に欠く、または細胞が除去された試料に由来することができる、生体試料となることができる。無細胞試料の例は、血清もしくは血漿等、血液に由来する試料;尿;または精液、痰、糞便、管滲出液、リンパ液もしくは回収された洗浄液等、他の供給源に由来する試料を含む。
試料は、生殖系列核酸分子(例えば、非罹病細胞または組織、例えば、腫瘍由来の核酸)を含むことができる。試料は、腫瘍由来の核酸分子を含むことができる。一部の事例では、試料は、生殖系列核酸分子(例えば、非罹病組織由来の)および罹病組織(例えば、腫瘍)由来の核酸分子を含むことができる。
試料は、標的核酸分子を含むことができる。標的核酸分子は、その存在、量および/もしくは配列またはそれらのうち1種もしくは複数の変化が決定されることが望まれる、ヌクレオチド配列を有する核酸分子となることができる。
核酸分子(例えば、RNAまたはDNA)は、例えば、Qiagen QIAmp DNA Blood Miniキット、MP BiomedicalsのFastDNAキットプロトコール、またはNorgen Biotekの無細胞生体DNA単離キットプロトコールを使用して、試料から抽出することができる。抽出方法は、試料からあらゆるRNAまたはDNA分子を抽出することができる。抽出方法は、試料からRNAまたはDNA分子の部分を選択的に抽出することができる。試料から抽出されたRNA分子は、逆転写(RT)によってDNA分子へと変換することができる。逆転写は、逆転写酵素の作用による、リボ核酸(RNA)鋳型からのデオキシリボ核酸(DNA)の作成となることができる。
抽出された核酸の品質は、例えば、BIOANALYZERまたはNANODROPシステムを使用して解析することができる。
対象は、人物または個体となることができる。対象は、患者となることができる。対象は、がんを有するまたはこれを有することが疑われる人物となることができる。対象は、健康または生理的状況または状態を指し示す症状を表示することができる。対象は、健康または生理的状況または状態に関して無症候性となることができる。本明細書に記載されている対象は、哺乳動物綱のいずれかのメンバー:ヒトや、チンパンジーならびに他の類人猿およびサル種等の非ヒト霊長類;ウシ、ウマ、ヒツジ、ヤギ、ブタ等の家畜;ウサギ、イヌおよびネコ等の飼育動物;齧歯類、例えば、ラット、マウスおよびモルモットを含む実験動物その他を含む、哺乳動物を含むことができる。一態様では、哺乳動物は、ヒトである。
対象から得た試料の処理は、複数の核酸分子を単離、濃縮または抽出するのに十分な条件に試料を付し、複数の核酸分子をアッセイして、データセットを作成することを含むことができる。
対象の試料を解析して、1種または複数のマイクロサテライトを遺伝子型決定することができる。本明細書に記載されているマイクロサテライト、マイクロサテライト座位またはマイクロサテライト領域は、ヌクレオチド配列における1~6ヌクレオチドのタンデム反復を指すことができる。一部の事例では、マイクロサテライトは、6ヌクレオチドを超えるタンデム反復を含む。1種または複数のマイクロサテライトは、エクソンの上流、エクソンの下流、エクソン中、遺伝子間配列中、イントロン中、エクソンおよびイントロンにまたがる領域中、3’非翻訳領域(UTR)中、5’UTR中、またはゲノムにおける他のいずれかの領域に見出すことができる。一部の実例では、試料のマイクロサテライトのパターンは、参照におけるマイクロサテライトのパターンとは異なる。マイクロサテライトのパターンの差は、一塩基多型(SNP)、SNPのパーセンテージ、インデル(挿入、欠失、挿入および欠失の比、ならびにこれらの組合せ)、またはインデルのSNPに対する比を含むことができる。一部の実例では、マイクロサテライトの差のパターンは、例えば、所与の座位におけるホモ接合性、ヘテロ接合性またはマイナー対立遺伝子のパーセンテージをハプロタイプ決定することを含む。マイクロサテライトの差のパターンがエクソン領域に位置する場合、差は、非同義SNP、同義SNP、フレームシフトインデル、非フレームシフトインデル、ストップゲイン(stopgain)およびストップロス(stoploss)を含むことができる。試料は、例えば、年齢、性別または民族性(例えば、コーカサス人、アフリカ系アメリカ人、ヒスパニック系アメリカ人)について適合させることができる。一部の事例では、試料は、適合されていない。一部の事例では、試料は、例えば、健康様態、がん、心臓もしくは神経学的様態、治療様態もしくは応答、または疾患ステージを含む、追加的な臨床メタデータを伴うことができる。臨床メタデータをマイクロサテライトと相関させて、マイクロサテライトが、臨床メタデータに関して情報価値があるか否か決定することができる。
1種または複数のマイクロサテライトの同一性(例えば、遺伝子型)は、次世代配列決定、ハイスループット配列決定、合成による配列決定(sequencing-by-synthesis)、パイロシークエンシング、古典的サンガー配列決定方法、ライゲーションによる配列決定、合成による配列決定、ハイブリダイゼーションによる配列決定、RNA-Seq(Illumina)、ILLUMINA配列決定(可逆的終結ヌクレオチドを使用)、ペアードエンド配列決定、デジタル遺伝子発現(Helicos)、単一分子配列決定、例えば、合成による単一分子配列決定(SMSS)(Helicos)、Ion Torrent(半導体)配列決定(Life Technologies/Thermo-Fisher)、超並列配列決定、クローナル単一分子アレイ(Solexa)、ナノポア配列決定、Pacific Biosciences SMRT配列決定、ショットガン配列決定、マクサム・ギルバート(Maxim-Gilbert)配列決定、プライマーウォーキングおよび他のいずれかの配列決定方法を含む、いずれかの利用できる方法または技法により得ることができる。
次世代配列決定は、試料マルチプレックス化を含むことができる。試料マルチプレックス化は、少なくともまたは多くてもまたは約12種の試料、24種の試料、48種の試料、96種の試料、192種の試料、384種の試料、768種の試料または1536種の試料となることができる。配列決定深度は、約1×~約10×、約10×~約100×、約100×~約500×または約500×~約1000×となることができる。
配列決定深度は、少なくとも、多くてもまたは約1×、5×、10×、50×、100×、200×、250×、300×、400×または500×となることができる。塩基コーリングコンセンサス精度は、少なくとも95%、96%、97%、98%、99%または約99%超となることができる。品質スコアは、少なくともQ10(例えば、1:10未満の誤り率、90%超の推論される塩基コール精度)、Q20超(例えば、1:100未満の誤り率、99%超の推論される塩基コール精度)、Q30超(例えば、1:1000未満の誤り率、99.9%超の推論される塩基コール精度)、Q40超(例えば、1:10,000未満の誤り率、99.99%超の推論される塩基コール精度)またはQ50超(例えば、1:100,000未満の誤り率、99.999%超の推論される塩基コール精度)となることができる。アセンブリ方法は、次世代配列決定データセットにおけるマイクロサテライト遺伝子型をコーリングするために少なくとも95%、96%、97%、98%または99%精度を生じることができる。
核酸分子を配列決定に付した後に、適したバイオインフォマティクス処理を配列リードにおいて行うことができる。例えば、配列リードは、1種または複数の参照ゲノム(例えば、ヒトゲノム等、1または複数の種のゲノム)に整列することができる。整列された配列リードは、1種または複数の座位(例えば、1種または複数のマイクロサテライト座位)において定量化することができる。
一部の態様では、1種または複数のマイクロサテライトの同定(例えば、遺伝子型決定)は、例えば、プライマー、例えば、1種または複数のマイクロサテライト座位を挟む特異的プライマーを使用した、例えば、ポリメラーゼ連鎖反応(PCR)を行い、例えば、キャピラリー電気泳動または配列決定によって、例えば、増幅された断片を評価することによる、1種または複数のマイクロサテライト座位のヌクレオチド配列の増幅を含む。PCRは、定量的PCR(qPCR)、デジタルPCRまたは逆転写PCRとなることができる。増幅することまたは増幅は、核酸分子のサイズまたは量を増加させることができる。増幅される核酸分子は、一本鎖または二本鎖となることができる。増幅は、核酸分子の1または複数コピーの増幅された産物の作成を含むことができる。増幅は、例えば、伸長(例えば、プライマー伸長)またはライゲーションにより行うことができる。増幅は、プライマー伸長反応を行って、一本鎖核酸分子に相補的な鎖を作成し、一部の事例では、1または複数コピーの鎖および/または一本鎖核酸分子を作成することを含むことができる。
核酸分子、例えば、1種または複数のマイクロサテライト座位を含む核酸分子の増幅は、いずれかの核酸増幅方法、例えば、ループ媒介等温増幅(LAMP)、核酸配列ベース増幅(NASBA)、自家持続配列複製(3SR)、ローリングサークル増幅(RCA)、リコンビナーゼポリメラーゼ増幅(RPA)、多重置換増幅(MDA)、ヘリカーゼ依存性増幅(HDA)、鎖置換増幅(SDA)、ニッキング酵素増幅反応(NEAR)、指数関数的増幅反応(EXPAR)、ポリメラーゼスパイラル反応(PSR)、等温多重置換増幅(IMDA)、分岐(ramification)増幅方法(RAM)、単一プライマー等温増幅(SPIA)、RNAのシグナル媒介増幅技術(SMART)、ビーコン支援検出増幅(BADAMP)、核酸のヒンジ開始プライマー依存性増幅(HIP)、スマート(smart)増幅プロセス(SmartAmp)、ハイブリダイゼーション連鎖反応(HCR)、ある種の足掛かり配列(toehold)媒介鎖置換(TMSD)、リガーゼ連鎖反応、デジタルPCR(dPCR)、液滴デジタルPCR(ddPCR)または転写媒介増幅により行うことができる。増幅は、例えば、AMPLISEQを使用した、マルチプレックス増幅が関与し得る。一部の事例では、RNAは、増幅前に逆転写によってcDNAへと変換される。アッセイ読み出し情報は、定量的PCR(qPCR)値、デジタルPCR(dPCR)値、デジタル液滴PCR(ddPCR)値、蛍光値等、またはそれらの正規化された値を含むことができる。本明細書に提供される方法において使用され得る他のアッセイは、イムノアッセイ、電気化学的アッセイ、表面増感ラマン分光法(SERS)、量子ドット(QD)に基づくアッセイ、分子反転プローブ、CRISPR/Casに基づく検出(例えば、CRISPRタイピング(typing)PCR(ctPCR)、特異的高感度酵素レポーターアンロッキング(un-locking)(SHERLOCK)、DNAエンドヌクレアーゼ標的化CRISPRトランスレポーター(DETECTR)、CRISPR媒介アナログ複数事象(multi-event)記録装置(CAMERA))およびレーザー透過分光法(LTS)を含む。
マルチプレックス増幅は、約10~約50種の標的、約50~約100種の標的、約100~約500種の標的または約500~約1000種の標的を増幅することを含むことができる。アダプターを核酸分子に付加(例えば、ライゲーション)して、例えば、ILLUMINA配列決定プラットフォームにおいて、増幅および/または配列決定を容易にすることができ、例えば、ユニバーサルアダプターが挙げられる。ユニバーサルプライマーは、増幅のためにユニバーサルアダプターに結合することができる。
複数の試料を解析することができ、各マルチプレックス化試料にバーコードを付けることができる。試料から単離または抽出されたRNAまたはDNA分子に、例えば、同定可能なタグをタグ付けして、複数の試料のマルチプレックス化を可能にすることができる。いずれかの数のRNAまたはDNA試料をマルチプレックス化することができる。例えば、マルチプレックス化反応物は、少なくとも約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100種または100種超の初期試料由来のRNAまたはDNAを含有することができる。例えば、各DNA分子を、当該DNA分子が起源をもつ試料(および対象)まで遡ることができるように、複数の試料に、試料バーコードをタグ付けすることができる。斯かるタグは、ライゲーションによってまたはプライマーを用いたPCR増幅によって、RNAまたはDNA分子に取り付けることができる。
一部の事例では、ベイトセット(例えば、ハイブリダイゼーションプローブ、例えば、SURESELECTまたはSEQCAP)を使用して、標的、例えば、標的核酸分子を取得する。標的は、RNAおよび/またはDNAを含むことができる。ハイブリダイゼーションプローブは、少なくとも15、25、50、75、100、120または150塩基の長さとなることができる。ハイブリダイゼーションプローブは、15~50塩基、50~100塩基または100~150塩基の長さとなることができる。プローブは、1種または複数の座位(例えば、1種または複数のマイクロサテライト)の核酸配列(例えば、RNAまたはDNA)と配列相補性を有する核酸分子(例えば、RNAまたはDNA)となることができる。1種または複数の座位(例えば、1種または複数のマイクロサテライト)に選択的なプローブを使用した試料のアッセイは、アレイハイブリダイゼーション(例えば、マイクロアレイに基づく)、ポリメラーゼ連鎖反応(PCR)または核酸配列決定(例えば、RNA配列決定またはDNA配列決定)の使用を含むことができる。
一部の態様では、核酸分子の解析は、次世代配列決定を行うことを含む。一部の事例では、マイクロサテライトの配列決定は、例えば、増幅を行うことなく、直接的に行うことができる。次世代配列決定方法は、全ゲノム、全エクソームおよび部分的ゲノムまたはエクソームを包含することができる。次世代配列決定方法は、標的化された配列、濃縮された配列またはこれらの組合せにおいて使用することができる。
一部の実例では、濃縮は、配列決定および下流解析に先立ち、濃縮キットにより行われる。一部の事例では、濃縮は、濃縮キットにより行われて、遺伝的アルゴリズムの検証に付されるマイクロサテライト座位を濃縮する。濃縮キットの使用は、リードにおけるコール可能な対立形質または遺伝子型の数を増加させることができ、所与の試料のためにより大きいパーセンテージの情報価値がある座位を解析する能力を増加させることができる。濃縮キットは、マイクロサテライト、およびマイクロサテライトの片側または両側におけるフランキング配列の標的配列にハイブリダイズする濃縮アレイまたはプローブを含むことができる。一部の事例では、濃縮の使用は、濃縮キットを使用せずに得ることができるコール可能な遺伝子型の数と比較して、コール可能な遺伝子型の数を少なくとも5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%またはそれよりも多く増加させる。一部の実例では、濃縮キットの使用は、濃縮キットを使用しないコール可能な遺伝子型の数と比較して、コール可能な遺伝子型の数を少なくとも2、3、4、5、6、7、8、9、10倍またはそれよりも多く増加させる。一部の態様では、本明細書に開示されている濃縮キットは、本明細書に記載されている方法を行うために使用することができる組成物を含む。
3.遺伝子型決定のためのアルゴリズム
マイクロサテライトは、アルゴリズムを使用して遺伝子型決定することができる。アルゴリズムは、例えば、経験的に導かれた誤差モデルによってガイドされたベイジアンモデル選択、または離散化ガウス混合物(例えば、GenoTan)を使用することができる。アルゴリズムは、例えば、Repeatseqとなることができる。動的プログラミングに基づくアプローチまたはヒューリスティック方法を使用して、マイクロサテライトを遺伝子型決定することができる。マイクロサテライト遺伝子型決定のための他のツールは、PHOBOS、MISA、Tandem Repeats Finder、FullSSRまたはbMSISEAを含む。
B.情報価値があるマイクロサテライトの同定
情報価値があるマイクロサテライトの同定は、状態を有する対象の試料由来のマイクロサテライト座位の第1のセット、および状態を有しない対象の試料由来のマイクロサテライト座位の第2のセットの同定を含むことができる。一部の事例では、マイクロサテライト座位の第2のセットは、参照配列のデータベースから得ることができる。
1.統計
マイクロサテライト座位の第1のセットおよび第2のセットの間の差は、t-検定、Z-検定、ANOVA、回帰解析、マン・ホイットニー・ウィルコクソン、カイ二乗検定、相関、フィッシャー直接検定、ボンフェローニ補正およびベンジャミニ・ホッホバーグ(Benjamini-Hochberg)検定等、1種または複数の統計検定により統計的に検出および比較することができる。一部の事例では、統計的差異は、一般化フィッシャー直接検定を使用して定量化される。一部の事例では、ベンジャミニ・ホッホバーグ多重検定補正が適用されて、偽発見率を制御する。
2.マイクロサテライトフィルタリング
例えば、状態を有する対象由来の試料および状態を有しない対象由来の試料が、因子に適合しない場合、マイクロサテライトにフィルタリングをかけて、いずれかの数の因子、例えば、年齢、民族性、性別、配列決定プロトコール(例えば、WSG、WESまたは標的化配列決定)を制御することができる。潜在的なバイアスを有するマイクロサテライトは、その後の解析から除外することができる。マイクロサテライトをフィルタリングするための追加的なフィルターは、マイクロサテライト反復モチーフの長さ、マイクロサテライトの長さの総計(例えば、モチーフのコピーの数)、モチーフの配列(例えば、高いGC含量を有するもののみを使用)、マイクロサテライトの純度、例えば、モチーフのコピーの完璧なセットを中断し得るいずれかの塩基を有するか否かを含むことができる。一部の実例では、マイクロサテライトは、ゲノムにおけるそのポジション、例えば、エクソーム、イントロン、遺伝子間領域または非翻訳領域によってフィルタリングをかけることができる。フィルタリングは、マイクロサテライトに近接した遺伝子または機能的エレメントによるフィルタリングを含むことができる。
3.試料のスコアリング
統計検定は、受信者動作特性(ROC)曲線を生じることができ、ROC曲線下面積は、曲線下面積(AUC)と称される。AUCを決定して、マイクロサテライト座位のセットの比較の精度を評価することができる。より大きいAUCは、マイクロサテライト座位の第1のセットおよび第2のセットの間の差に対する状態の関連または相関のより高い精度を指し示すことができる。ROC曲線は、マイクロサテライト座位の第1のセットおよび第2のセットの間の差に対する状態の関連または相関についての感度(例えば、真陽性)および特異度(例えば、真陰性)の率を決定することができる。真陽性率、リコールまたは検出確率とも称される感度は、状態の存在または非存在について正確に同定される実際の陽性の比率を測定することができる。感度は、真陽性の数および偽陰性の数の和で割った真陽性の数を計算することにより、偽陰性の回避を定量化することができる。真陰性率とも称される特異度は、状態の存在または非存在について正確に同定される実際の陰性の比率を測定することができる。特異度は、真陰性の数および偽陽性の数の和で割った真陰性の数を計算することにより、偽陽性の回避を定量化することができる。
一部の実例では、マイクロサテライト座位の第2のセットとは異なるマイクロサテライト座位の第1のセットに対する状態の統計的に有意な関連または相関は、少なくとも70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の統計的精度を有する。一部の事例では、マイクロサテライト座位の第2のセットとは異なるマイクロサテライト座位の第1のセットに対する状態の統計的に有意な関連または相関は、少なくとも0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98または0.99の統計的特異度、および少なくとも0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98または0.99の統計的感度を有する。
一部の実例では、情報価値があるマイクロサテライトの同定は、がんゲノムアトラスプログラム(TCGA)由来のがんの型の配列等、状態を有する対象から得られる核酸配列を含むデータベースからのマイクロサテライト座位の第1のセット、および参照データベース(例えば、hg19または1000ゲノムプロジェクト)からのマイクロサテライト座位の第2のセットの同定を含む。乳がん等、がんの型は、例えば、ステージ、形態、組織学、遺伝子発現、受容体プロファイル、突然変異プロファイル、侵襲性、予後、悪性特徴等に基づく亜型となることができる。がんの型およびがんの亜型は、より精細なレベルで適用して、例えば、突然変異プロファイルまたは遺伝子発現に従って定義される、がんのある1つの組織学的な型またはがんの亜型を区別することができる。がんステージは、疾患進行に関する組織学的および病理学的特徴に基づくがん型の分類を指すことができる。一部の実例では、マイクロサテライト座位のセットは、ヌクレオチドバリアントまたは多型を含む核酸配列を含むデータベースから得られる。一部の事例では、マイクロサテライト座位の第1のセットは、状態を有する試料から得られ、データベースから得られるマイクロサテライト座位の第2のセットと比較される。
4.状態
一部の事例では、マイクロサテライト座位のセットの差に関連または相関する状態は、対象における健康状態の存在もしくは非存在、対象における健康状態の発症の見込みの増加もしくは減少、対象が健康状態のための処置から利益を得る見込みの増加もしくは減少、対象が健康状態のための処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少、健康状態のための処置に対する対象の応答性、対象の健康状態の予後、またはこれらの組合せを指し示すことができる。一部の事例では、健康状態は、がんである。一部の事例では、がんは、固形または血液学的悪性である。ある特定の事例では、がんは、転移性、再燃性または難治性である。マイクロサテライト座位のセットの差と関連または相関することができるがんは、急性骨髄球性白血病(LAMLまたはAML)、急性リンパ性白血病(ALL)、副腎皮質癌(ACC)、膀胱尿路上皮がん(BLCA)、脳幹神経膠腫、脳低悪性度(lower grade)神経膠腫(LGG)、脳腫瘍、乳がん(BRCA)、気管支腫瘍、バーキットリンパ腫、原発部位不明のがん、カルチノイド腫瘍、原発部位不明の癌腫、中枢神経系異型奇形様/ラブドイド腫瘍、中枢神経系胚性腫瘍、子宮頸部扁平上皮癌、子宮頸管内腺癌(CESC)がん、小児期がん、胆管細胞癌(CHOL)、脊索腫、慢性リンパ球性白血病、慢性骨髄性白血病、慢性骨髄増殖性障害、結腸(腺癌)がん(COAD)、結腸直腸がん、頭蓋咽頭腫、皮膚T細胞リンパ腫、内分泌膵島細胞腫瘍、子宮内膜がん、上衣芽細胞腫、上衣腫、食道がん(ESCA)、感覚神経芽腫、ユーイング肉腫、頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管がん、胆嚢がん、胃(gastric/stomach)がん、胃腸管カルチノイド腫瘍、胃腸管間質細胞腫瘍、胃腸管間質腫瘍(GIST)、妊娠性絨毛性腫瘍、多形神経膠芽腫(glioblstoma multiforme)神経膠腫GBM)、ヘアリー細胞白血病、頭頸部がん(HNSD)、心臓がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、島細胞腫瘍、カポジ肉腫、腎臓がん、ランゲルハンス細胞組織球増殖症、喉頭がん、口唇がん、肝臓がん、リンパ系新生物びまん性大細胞型B細胞リンパ腫(DLBCL)、悪性線維性組織球腫骨がん、髄芽腫、髄上皮腫、黒色腫、メルケル細胞癌、メルケル細胞皮膚癌、中皮腫(MESO)、原発不明による転移性扁平上皮頸部がん、口腔(mouth)がん、多発性内分泌新生物症候群、多発性骨髄腫、多発性骨髄腫/形質細胞新生物、菌状息肉症、骨髄異形成症候群、骨髄増殖性新生物、鼻腔がん、鼻咽頭がん、ニューロブラストーマ、非ホジキンリンパ腫、非黒色腫皮膚がん、非小細胞肺がん、口腔(oral)がん、口腔(oral cavity)がん、中咽頭がん、骨肉腫、他の脳および脊髄腫瘍、卵巣がん、卵巣上皮がん、卵巣胚細胞腫瘍、卵巣低悪性度腫瘍、膵がん、乳頭腫、副鼻腔がん、副甲状腺がん、骨盤がん、陰茎がん、咽頭がん、褐色細胞腫および傍神経節腫(PCPG)、中等度分化の松果体実質腫瘍、松果体芽腫、下垂体腫瘍、形質細胞新生物/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系(CNS)リンパ腫、原発性肝細胞性肝臓がん、前立腺腺癌(PRAD)等の前立腺がん、直腸がん、腎がん、腎細胞(腎臓)がん、腎細胞がん、気道がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、肉腫(SARC)、セザリー症候群、皮膚の皮膚性黒色腫(SKCM)、小細胞肺がん、小腸がん、軟部組織肉腫、扁平上皮癌、扁平上皮頸部がん、胃(stomach/gastric)がん、テント上原始神経外胚葉性腫瘍、T細胞リンパ腫、精巣がん精巣胚細胞腫瘍(TGCT)、咽頭がん、胸腺癌、胸腺腫(THYM)、甲状腺がん(THCA)、移行細胞がん、腎盂および尿管の移行細胞がん、絨毛性腫瘍、尿管がん、尿道がん、子宮がん、子宮がん、ぶどう膜黒色腫(UVM)、腟がん、外陰部がん、ワルデンストレーム高ガンマグロブリン血症、またはウィルムス腫瘍を含む。一部の態様では、がん型は、急性リンパ性白血病、急性骨髄球性白血病、膀胱がん、乳がん、脳がん、子宮頸部がん、胆管細胞癌、結腸がん、結腸直腸がん、子宮内膜がん、食道がん、胃腸管がん、神経膠腫、神経膠芽腫、頭頸部がん、腎臓がん、肝臓がん、肺がん、リンパ系新生物、黒色腫、骨髄球性新生物、卵巣がん、膵がん、褐色細胞腫および傍神経節腫、前立腺がん、直腸がん、扁平上皮癌、精巣がん、胃がん、または甲状腺がんを含む。
一部の事例では、健康状態は、肺がんまたは肺がんの亜型である。マイクロサテライト座位のセットの差(different)と関連または相関することができる肺がんは、非小細胞肺がん(NSCLC)(例えば、肺腺癌(LUAD)、肺扁平上皮癌(LUSC)および大細胞癌)、小細胞肺がん(SCLC)および肺カルチノイド腫瘍を含む。
一部の事例では、健康状態は、神経学的疾患である。マイクロサテライト座位のセットの差に関連または相関することができる神経学的疾患の例は、筋緊張性ジストロフィー、脆弱X関連振戦/失調症候群、脊髄小脳失調症、ケネディ病、ハンチントン病、球脊髄性筋萎縮症、進行性ミオクローヌスてんかん1(ウンフェルリヒト・ルントボルク病)、脆弱X症候群、脆弱X E症候群、歯状核赤核淡蒼球ルイ体萎縮症、フリートライヒ運動失調症、眼咽頭型筋ジストロフィー、脆弱X関連原発性卵巣不全、ハンチントン病様2、C9ORF72関連前頭側頭型認知症、および筋萎縮性側索硬化症を含む。健康状態は、自閉症となることができる。
一部の事例では、健康状態は、胃腸管の胃腸障害を含むことができる炎症性腸疾患(IBD)である。IBDの非限定的な例は、クローン病(CD)、潰瘍性大腸炎(UC)、不確定大腸炎(IC)、顕微鏡的大腸炎、便流変更性(diversion)大腸炎、ベーチェット病、および他の確定的でない形態のIBDを含む。一部の実例では、IBDは、線維症、線維性狭窄(fibrostenosis)、狭窄性および/または穿通性疾患、閉塞性疾患、または難治性である疾患(例えば、mrUC、難治性CD)、肛門周囲CD、または他の複雑な形態のIBDを含む。
一部の実例では、健康状態は、冠動脈性心疾患(CAD)、リウマチ性心疾患、先天性心疾患、心筋症、心臓の腫瘍、血管性腫瘍、心臓弁疾患、心臓の裏層の障害、発作、大動脈瘤、末梢動脈疾患、深部静脈血栓症(DVT)、または肺塞栓症を含むことができる心血管疾患である。
一部の事例では、健康状態は、酸塩基平衡異常、代謝性脳疾患、カルシウム代謝の障害、DNA修復欠乏障害、グルコース代謝障害、高乳酸塩血症、鉄代謝障害、脂質代謝障害、吸収不良症候群、メタボリックシンドロームX、先天性代謝異常、ミトコンドリア病、リン代謝障害、ポルフィリン症、プロテオスタシス欠乏、代謝性皮膚疾患、消耗症候群または水分電解質不均衡を含むことができる、代謝性疾患または障害である。
一部の事例では、健康状態は、アカラシア、アジソン病、成人スチル病、無ガンマグロブリン血症、円形脱毛症、アミロイドーシス、強直性脊椎炎、抗GBM/抗TBM腎炎、抗リン脂質症候群、自己免疫性血管浮腫、自己免疫性自律神経障害、自己免疫性脳脊髄炎、自己免疫性肝炎、自己免疫性内耳疾患(AIED)、自己免疫性心筋炎、自己免疫性卵巣炎、自己免疫性精巣炎、自己免疫性膵炎、自己免疫性網膜症、自己免疫性蕁麻疹、軸索&神経細胞ニューロパチー(AMAN)、バロー(Balo)病、ベーチェット病、良性粘膜類天疱瘡、水疱性類天疱瘡、キャッスルマン病(CD)、セリアック病、シャーガス病、慢性炎症性脱髄性多発ニューロパチー(CIDP)、慢性再発性多巣性骨髄炎(CRMO)、チャーグ・ストラウス症候群(CSS)または好酸球性肉芽腫症(EGPA)、瘢痕性類天疱瘡、コーガン症候群、寒冷凝集素症、先天性心ブロック、コクサッキー心筋炎、CREST症候群、クローン病、疱疹状皮膚炎、皮膚筋炎、デビック病(視神経脊髄炎)、円板状ループス、ドレスラー症候群、子宮内膜症、好酸球性食道炎(EoE)、好酸球性筋膜炎、結節性紅斑、本態性混合型クリオグロブリン血症、エヴァンス症候群、線維筋痛症、線維性肺胞炎、巨細胞動脈炎(側頭動脈炎)、巨細胞心筋炎、糸球体腎炎、グッドパスチャー症候群、多発性血管炎を伴う肉芽腫症、グレーブス病、ギラン・バレー症候群、橋本甲状腺炎、溶血性貧血、ヘノッホ・シェーンライン紫斑病(HSP)、妊娠性疱疹または妊娠性類天疱瘡(PG)、化膿性汗腺炎(HS)(反対型ざ瘡(Acne Inversa))、低ガンマグロブリン血症(hypogammalglobulinemia)、IgA腎症、IgG4関連硬化性疾患、免疫性血小板減少性紫斑病(ITP)、封入体筋炎(IBM)、間質性膀胱炎(IC)、若年性関節炎、若年性糖尿病(1型糖尿病)、若年性筋炎(JM)、川崎病、ランバート・イートン症候群、白血球破壊性血管炎、扁平苔癬、硬化性苔癬、木質性結膜炎、線状IgA病(LAD)、ループス、ライム病、メニエール病、顕微鏡的多発性血管炎(MPA)、混合性結合組織病(MCTD)、モーレン潰瘍、ムッハ・ハーベルマン病、多巣性運動ニューロパチー(MMN)またはMMNCB、多発性硬化症、重症筋無力症、筋炎、ナルコレプシー、新生児ループス、視神経脊髄炎、好中球減少症、眼性瘢痕性類天疱瘡、視神経炎(pptic neuritis)、回帰性リウマチ(PR)、PANDAS、傍腫瘍性小脳変性症(PCD)、発作性夜間ヘモグロビン尿症(PNH)、パリー・ロンベルグ(parry Romberg)症候群、毛様体扁平部炎(周辺部ぶどう膜炎)、パーソネージ・ターナー症候群、天疱瘡、末梢性ニューロパチー、静脈周囲脳脊髄炎、悪性貧血(PA)、POEMS症候群、結節性多発動脈炎、多腺性症候群I、II、III型、リウマチ性多発筋痛症、多発性筋炎、心筋梗塞後症候群、心膜切開後症候群、原発性胆汁性肝硬変、原発性硬化性胆管炎、プロゲステロン皮膚炎、乾癬、乾癬性関節炎、赤芽球癆(PRCA)、壊疽性膿皮症、レイノー現象、反応性関節炎、反射性交感神経性ジストロフィー、再発性多発軟骨炎、下肢静止不能症候群(RLS)、後腹膜線維症、リウマチ熱、関節リウマチ、サルコイドーシス、シュミット症候群、強膜炎、強皮症、シェーグレン症候群、精子&精巣自己免疫、全身硬直症候群(SPS)、亜急性細菌性心内膜炎(SBE)、スザック症候群、交感性眼炎(SO)、高安動脈炎、側頭動脈炎/巨細胞動脈炎、血小板減少性紫斑病(TTP)、トロサ・ハント症候群(THS)、横断性脊髄炎、1型糖尿病、潰瘍性大腸炎(UC)、未分化結合組織病(UCTD)、ぶどう膜炎、脈管炎、白斑、またはフォークト・小柳・原田病を含むことができる、自己免疫性疾患または障害である。
C.分類シグネチャーの開発
本開示は、対象由来の試料由来の状態のための分類子を作成するためのコンピュータに実行される方法を提供する(例えば、図2および図3を参照)。情報価値があるマイクロサテライト座位リストのリストは、状態を有する対象の第1の群から得られるもしくはそれに由来する試料および/または状態(例えば、肺がん等のがん)を有しない対象の第2の群から得られるもしくはそれに由来する試料を統計的に解析することにより作成することができる。試料の両方の群由来のDNAは、マルチプレックスプラットフォームにおいて配列決定することができる。一部の事例では、標的化配列決定は、ある特定の標的の濃縮により行われる。次に、配列決定結果を品質について解析し、マッピングして、がん試料および対照または参照の間の差を明らかにすることができる。次に、コンピュータに実行される方法を使用して、この差を解析して、分類子を作成することができる。分類子は、状態を有する対象から得られるもしくはそれに由来する追加的な試料および/または状態を有しない対象から得られるもしくはそれに由来する試料によりさらに最適化および検証することができる。一部の態様では、マイクロサテライト以外の情報価値がある遺伝的マーカーのリストは、分類シグネチャーを開発するためのこれらの方法によって作成することができる。
状態は、対象における健康状態の存在または非存在を指し示すことができる。一部の事例では、状態は、対象における健康状態の発症の見込みの増加または減少を指し示す。一部の実例では、状態は、対象が処置から利益を得る見込みの増加もしくは減少、または対象が処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少を指し示すことができる(状態のための分類子は、治療剤のためのコンパニオン診断として機能することができる)。一部の事例では、状態は、対象における健康状態のための処置に対する応答性を指し示すことができる。一部の実例では、状態は、対象における健康状態の予後を指し示す。一部の事例では、分類子は、値、例えば、数となることができる。例えば、値は、見込みの増加または減少(例えば、0~1の間の確率値)を指し示すことができる。分類子の値、例えば、数は、閾値、例えば、数と比較することができる。一部の実例では、閾値からの分類子値の距離は、真である状態を有するまたは有しないことの信頼または確率増加を指し示すことができる。一部の事例では、分類子値が、閾値から約0.5、1、1.5、2、2.5、3または3超の標準偏差である場合、コールが作製される(図24)。
分類子を作成するためのコンピュータに実行される方法は、処理すること、組み合わせること、統計的評価もしくはさらなる結果解析、またはこれらのいずれかの組合せを行うことができる。コンピュータに実行される方法は、サポートベクターマシン(SVM)、ニューラルネットワーク、ランダムフォレスト、クラスタリングアルゴリズム(またはソフトウェアモジュール)、勾配ブースティング、線形回帰、ロジスティック回帰および/または決定木を含む、教師ありまたは教師なし学習方法を含むことができる。教師あり学習アルゴリズムは、入力データおよび出力データの間の関係性を推論するための、標識され対にされた訓練データ例題のセットの使用に頼るアルゴリズムとなることができる。教師なし学習アルゴリズムは、訓練データセットから出力データへと推論を導くために使用されるアルゴリズムとなることができる。教師なし学習アルゴリズムは、処理データにおける隠れたパターンまたはグループ化を見出すための探索性データ解析のために使用され得るクラスター解析を含むことができる。教師なし学習方法の例は、主成分解析である。主成分解析は、1種または複数の変数のセットの次元数の低下を含むことができる。変数の所与のセットの次元数は、少なくとも1、5、10、50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、または1800超となることができる。変数の所与のセットの次元数は、多くても1800、1600、1500、1400、1300、1200、1100、1000、900、800、700、600、500、400、300、200、100、50、10、または10未満となることができる。
コンピュータに実行される方法は、統計的技法を行うステップを含むことができる。一部の実例では、統計的技法は、線形回帰、分類、再サンプリング方法、サブセット選択、縮小、次元低下、非線形モデル、木に基づく方法、サポートベクターマシン、教師なし学習またはこれらのいずれかの組合せを含むことができる。
線形回帰は、従属および独立変数の間の最良の線形関係性をフィットさせることにより、目標変数を予測するための方法となることができる。最良のフィットは、各点における形状および実際の観察の間の全距離の和が最小化されるような、最小二乗アプローチに対応することができる。線形回帰は、単純線形回帰および多重線形回帰を含むことができる。単純線形回帰は、単一の独立変数を使用して、従属変数を予測することができる。多重線形回帰は、最良の線形関係性をフィットさせることにより、2種以上の独立変数を使用して、従属変数を予測することができる。
分類は、正確な予測および解析を達成するために、カテゴリーをデータの収集物に割り当てるデータマイニング技法となることができる。分類技法は、ロジスティック回帰および判別解析を含むことができる。従属変数が二値(バイナリ)である場合、ロジスティック回帰を使用することができる。ロジスティック回帰を使用して、1種の従属バイナリ変数、および1種または複数の名目、順序、区間または比レベル独立変数の間の関係性を発見および記載することができる。再サンプリングは、本来のデータ試料から反復試料を導くステップを含む方法となることができる。一部の事例では、再サンプリングは、およその確率値をコンピュータ処理するために、一般的分布表の利用が関与することができない。再サンプリングは、実際のデータに基づいて特有のサンプリング分布を作成することができる。一部の事例では、再サンプリングは、解析的方法よりもむしろ実験的方法を使用して、特有のサンプリング分布を作成することができる。再サンプリング技法は、ブートストラッピングおよび交差検証を含むことができる。ブートストラッピングは、本来のデータからの置き換えによるサンプリングによって行うことができ、「選ばれなかった」データ点をテストケースとする。交差検証は、訓練データを複数の部分へと分割することによって行うことができる。
サブセット選択は、応答に関する予測因子のサブセットを同定することができる。サブセット選択は、最良のサブセット選択、前方への段階的選択、後方への段階的選択、ハイブリッド方法またはこれらのいずれかの組合せを含むことができる。一部の実例では、縮小は、全予測因子が関与するモデルをフィットさせるが、推定係数は、最小二乗推定と比べてゼロに向かって縮小される。この縮小は、分散を低下させることができる。縮小は、リッジ回帰およびラッソ(lasso)を含むことができる。次元低下は、n+1種の係数を推定する問題を、m+1種の係数のより単純な問題へと低下させることができ、この場合、m<nである。これは、変数のn種の異なる線形結合または射影(projection)をコンピュータ処理することにより達成することができる。次に、このようなn個の射影を予測因子として使用して、例えば最小二乗によって、線形回帰モデルをフィットさせることができる。次元低下は、主成分回帰および部分最小二乗を含むことができる。主成分回帰を使用して、変数の大きいセットから特色の低次元セットを得ることができる。主成分回帰において使用される主成分は、その後に直交性の方向におけるデータの線形結合を使用して、データにおける大部分の分散を捕捉することができる。部分最小二乗は、新たな特色を同定するために応答変数を利用することができるため、部分最小二乗は、主成分回帰の教師あり代替法として使用することができる。
非線形回帰は、モデルパラメーターの非線形結合であり、1種または複数の独立変数に依存する、関数によって観察データがモデル化された回帰解析の形態となることができる。非線形回帰は、ステップ関数、区分的関数、スプライン、一般化加法モデルまたはこれらのいずれかの組合せを含むことができる。
木に基づく方法は、回帰および分類問題の両方のために使用することができる。回帰および分類問題は、多数の単純領域への予測因子空間の層別化または分割が関与することができる。木に基づく方法は、バギング(bagging)、ブースティング、ランダムフォレストまたはこれらのいずれかの組合せを含むことができる。バギングは、反復との組合せを使用して本来のデータセットから訓練のための追加的なデータを作成することにより、予測の分散を減少させて、本来のデータと同じ身体化(carnality)/サイズの多段階を産生することができる。ブースティングは、いくつかの異なるモデルを使用して出力を計算し、次いで、加重平均アプローチを使用して結果を平均することができる。ランダムフォレストアルゴリズムは、訓練セットのランダムブートストラップ試料を導くことができる。サポートベクターマシンは、分類技法のために使用することができる。サポートベクターマシンは、最大マージンで点の2つのクラスを最も良く分離する超平面を見出すことを含むことができる。サポートベクターマシンは、マージンが最大化されるように、最適化問題を制約し、データを完璧に分類するという制約に付すことができる。
教師なし方法は、標識された応答なしで入力データを含むデータセットから推論を導くための方法となることができる。教師なし方法は、クラスタリング、主成分解析、k平均クラスタリング、階層的クラスタリングまたはこれらのいずれかの組合せを含むことができる。
1.遺伝的アルゴリズム
一部の態様では、分類子を作成するためのコンピュータに実行される方法は、遺伝的アルゴリズムの使用を含む。本方法は、状態を有しない試料由来のマイクロサテライト座位とは異なる、状態を有する試料由来のマイクロサテライト座位を同定することにより、状態と関連または相関するマイクロサテライト座位(情報価値がある座位)のサブセットの初期集団を作成するステップを含むことができる。遺伝的アルゴリズムを使用して、情報価値がある座位に基づき分類シグネチャーを決定することができる。遺伝的アルゴリズムは、最終分類子に含まれるように、最も情報価値があるマイクロサテライト座位のサブセットを選択することができる。遺伝的アルゴリズムは、重みを各サブセットに割り当てることができる。重みを加えることは、他の重みを加えるスキーム、例えば、各マイクロサテライト座位の相対的リスクに対する比例と組み合わせることができる。マイクロサテライトの各サブセットは、状態とサブセットの関連または相関に基づき繰り返しランク付けすることができる。次に、マイクロサテライト座位の初期集団のサブセットは、初期集団を、状態を有する対象および/または状態を有しない対象から得られるまたはそれに由来する追加的な試料と比較することにより最適化することができる。一部の事例では、約100個のサブセットの初期集団が、最適化において使用される。一部の事例では、少なくとも100、200、300、400または500個のサブセットの初期集団が、最適化において使用される。一部の実例では、最適化は、約100個のサブセットを追加的な試料と比較する少なくとも1サイクルを含む。一部の実例では、最適化は、約100個のサブセットを追加的な試料と比較する複数のサイクルを含む。各サブセットは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90または100個のマイクロサテライトを含むことができる。
繰り返しランク付けすることは、各サイクルの完了後に行うことができる。一部の事例では、繰り返しランク付けすることは、追加的な試料における状態の存在または非存在の決定における精度、感度および特異度についての受信者動作特性(ROC)解析のためのサブセットの統計的解析を行うことを含む。状態の存在または非存在を指し示すことに関して、所定の数(例えば、10個)の最も成績が悪いまたは最低ランク付けされたサブセットを同定し、廃棄することができる。最適化の各サイクルの開始前に一定数のサブセットを維持するために、新たなサブセットをサブセットの集団に加えることができる。一部の事例では、1、2、3、4、5、6、7、8、9、10個または10個超の新たなサブセットは、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成される。一部の実例では、1、2、3、4、5、6、7、8、9、10個または10個超の新たなサブセットは、最適化の以前のサイクルからランダムに選ばれる。10個の新たなサブセットが加えられる一部の実例では、3個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成され、7個は、最適化の以前のサイクルのサブセットからランダムに選ばれる。10個の新たなサブセットが加えられる一部の実例では、4個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成され、6個は、最適化の以前のサイクルのサブセットからランダムに選ばれる。10個の新たなサブセットが加えられる一部の実例では、5個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成され、5個は、最適化の以前のサイクルのサブセットからランダムに選ばれる。10個の新たなサブセットが加えられる一部の実例では、6個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成され、4個は、最適化の以前のサイクルのサブセットからランダムに選ばれる。10個の新たなサブセットが加えられる一部の実例では、6個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成され、4個は、最適化の以前のサイクルのサブセットからランダムに選ばれる。10個の新たなサブセットが加えられる一部の実例では、7個は、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成され、3個は、最適化の以前のサイクルのサブセットからランダムに選ばれる。新たなサブセットの重複は、最適化のサイクルに含まれてよい。一部の事例では、新たなサブセットの重複は、最適化のサイクルに含まれない。
一部の事例では、最適化の各サイクルの終わりに廃棄されているサブセットの数は、最適化の各サイクルに先立ちサブセットに加えられているサブセットの同数である。一部の事例では、5個の最低ランク付けされたサブセットが、最適化の各サイクルの終わりに廃棄されている一方で、5個の新たなサブセットが、最適化の各サイクルに先立ち加えられている。一部の事例では、10個の最低ランク付けされたサブセットが、最適化の各サイクルの終わりに廃棄されている一方で、10個の新たなサブセットが、最適化の各サイクルに先立ち加えられている。一部の事例では、20個の最低ランク付けされたサブセットが、最適化の各サイクルの終わりに廃棄されている一方で、20個の新たなサブセットが、最適化の各サイクルに先立ち加えられている。一部の事例では、50個の最低ランク付けされたサブセットが、最適化の各サイクルの終わりに廃棄されている一方で、50個の新たなサブセットが、最適化の各サイクルに先立ち加えられている。
一部の態様では、分類子を作成するためのコンピュータに実行される方法は、マイクロサテライトの統計的に重みを加えられていないサブセットを決定するステップを含む。一部の態様では、分類子を作成するためのコンピュータに実行される方法は、マイクロサテライトの統計的に重みを加えられたサブセットを決定するステップを含む。一部の事例では、重みサブセットは、相対的リスク、リスク比またはオッズ比によって重みを加えられる。分類子は、重みを加えられていなくても、重みを加えられていてもよい。一部の事例では、上述のコンピュータに実行される方法によって作成された分類子は、マイクロサテライト以外の遺伝的マーカーに基づくことができる。一部の事例では、分類子は、他のゲノム情報、例えば、一塩基多型(SNP)または遺伝的異常、例えば、コピー数異常、インデル等に基づくことができる。一部の事例では、分類子は、マイクロサテライトが位置する遺伝子の同一性に基づくことができる。
最適化のサイクルの完了後に、コンピュータに実行される方法は、最適化された精度、感度および特異度で、状態と関連または相関するマイクロサテライトを決定するステップを含むことができる。一部の態様では、コンピュータに実行される方法は、状態を有する試料、状態を有しない試料またはこれらの組合せを含む、試料の追加的なセットにより検証することができる(例えば、図3を参照)。検証は、状態、例えば、がんを有する対象由来の少なくとも10、20、30、50、100または1000種の試料(試料は、非腫瘍(生殖系列)試料または腫瘍試料となることができる)、および状態、例えば、がん、例えば、肺がんを有しない対象由来の少なくとも10、20、30、50、100または1000種の試料を使用するステップを含むことができる。
最適化および検証されたコンピュータに実行される方法は、対象由来の試料を解析する際に、状態のための分類子を作成することができる。状態は、対象における健康状態の存在または非存在を指し示すことができる。一部の事例では、状態は、対象における健康状態の発症の見込みの増加または減少を指し示す。一部の実例では、状態は、対象が処置から利益を得る見込みの増加もしくは減少、または対象が処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少を指し示すことができる。一部の事例では、状態は、対象の健康状態のための処置に対する応答性を指し示すことができる。一部の実例では、状態は、対象における健康状態の予後を指し示す。
状態は、がんの存在または非存在を指し示すことができる。一部の事例では、状態は、がんの発症の見込みの増加または減少を指し示す。一部の実例では、状態は、対象が処置から利益を得る見込みの増加もしくは減少、または対象が処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少を指し示す(分類子は、がん処置のためのコンパニオン診断となることができる)。一部の事例では、状態は、がんのための処置に対する応答性を指し示すことができる。処置は、外科手術、化学療法、放射線照射、薬物(例えば、アファチニブ、ゲフィチニブ、ベバシズマブ、クリゾチニブまたはセリチニブ)による標的化処置、または免疫療法(例えば、モノクローナル抗体、チェックポイント阻害剤、治療ワクチンまたは養子T細胞移入による処置)となることができる。一部の実例では、状態は、がんの予後を指し示す。一部の事例では、がんは、非小細胞肺がん(例えば、肺腺癌(LUAD)、肺扁平上皮癌(LUSC)および大細胞癌)、小細胞肺がん(SCLC)または肺カルチノイド腫瘍を含む肺がんである。
分類子は、いずれかの染色体、例えば、第1、第2、第3、第4、第5、第6、第7、第8、第9、第10、第11、第12、第13、第14、第15、第16、第17、第18、第19、第20、第21、第22、XまたはY染色体由来のマイクロサテライト座位を含むことができる。一部の事例では、分類子は、X染色体および/またはY染色体由来のマイクロサテライト座位を含有しない。
III.状態のための重みを加えられた分類子の作成
本開示は、状態に関連または相関することが同定されたマイクロサテライト座位に重みを加える方法を提供する。また、本開示は、状態に関連または相関することが同定されたマイクロサテライト座位以外の遺伝的マーカーに重みを加える方法を提供する。重みまたは重みを加えることは、状態に対する関連または相関に統計的に寄与する個々のマイクロサテライト座位のそれぞれの相対的な重要性または普及を指すことができる。例えば、高度な重みは、状態を有する対象から得られる試料においてのみ出現するマイクロサテライト座位およびそこにより高い頻度で出現するマイクロサテライト座位の両方に割り当てることができる。一部の事例では、重みは、リスク比、オッズ比または相対的リスクに基づき割り当てられる。重みの決定の一部である数値的構成成分の例は、感度、特異度、陰性適中率、陽性適中率、オッズ比、ハザード比またはこれらのいずれかの組合せを含む。一部の事例では、カットオフ(例えば、閾値)は、重みの計算に使用される数値的構成成分に課される。カットオフを下回る数値的分類子を有する試料は、重みの計算から除外することができる。重みは、計算の線形、非線形、代数、三角法、統計学習、ベイジアン、回帰または相関的手段の組合せに基づき計算することができる。マイクロサテライトまたはマイクロサテライトのセットに関連する、値(例えば、相対的リスク)を使用した重みを加えるスキーム、または回帰アプローチを使用して、分類子を作成することができる。重みを加えられた分類子を評価して、重みを加えることが、分類子の感度または特異度を改善するか否か決定することができる。感度および特異度(例えば、感度および特異度の和)を最大化するために、回帰解析(例えば、標準回帰解析)を使用して、座位毎に最適な重みをコンピュータ処理することができる。
一部の事例では、各マイクロサテライトに割り当てられた重みは、所定の値であり、所定の値は、試料サイズ、または状態およびマイクロサテライト座位の間の関連もしくは相関の強さを指示する。ある特定の実例では、各マイクロサテライトに割り当てられた重みは、相対的リスク、リスク比またはオッズ比を含む。一部の実例では、重みの所定の値は、感度、特異度またはこれらの組合せ(例えば、和)の数値的範囲を決定する。一部の実例では、重みの計算および割り当ては、サポートベクターマシン、決定木、ランダムフォレスト、ニューラルネットワークまたは深層学習ニューラルネットワーク(例えば、人工ニューラルネットワーク、回帰型ニューラルネットワーク、畳み込みニューラルネットワーク、認知、フィードフォワード、放射基底ネットワーク、深層フィードフォワード、回帰型ニューラルネットワーク、長期/短期記憶、ゲート付き回帰型ユニット、オートエンコーダ(AE)、変形形態AE、ノイズ除去AE、スパースAE、マルコフ鎖、ホップフィールドネットワーク、ボルツマン機械、制限付きBM、深層信念ネットワーク、深層畳み込みネットワーク、逆重畳ネットワーク、深層畳み込み逆グラフィックス(Inverse Graphics)ネットワーク、生成的敵対的(Generative Adversarial)ネットワーク、液体状態(Liquid State)機械、エクストリーム(Extreme)学習機械、各状態の(Each State)ネットワーク、深層残差ネットワーク、コホーネンネットワーク、サポートベクターマシンおよびニューラルチューリング機械)等のモデルを介してコンピュータによって実行される意思決定モデルを含む。
一部の実例では、マイクロサテライト座位に割り当てられた重みは、本明細書に記載されている分類子のための計算の一部として使用される。斯かる実例では、より大きい重みを有するマイクロサテライト座位は、より小さい重みを有するマイクロサテライト座位よりも、分類子の値に対して寄与することができる。一部の事例では、分類子の計算は、最適な重みのみの使用を含む。最適な重みは、少なくとも所定の閾値であるまたは所定の閾値を超える重みを含むことができる。
重みを加えられた分類子によって決定される状態は、対象における健康状態の存在または非存在を指し示すことができる。一部の事例では、重みを加えられた分類子によって決定される状態は、対象における健康状態の発症の見込みの増加または減少を指し示す。一部の実例では、重みを加えられた分類子によって決定される状態は、対象が処置から利益を得る見込みの増加もしくは減少、または対象が処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少を指し示す。一部の実例では、重みを加えられた分類子によって決定される状態は、対象の健康状態のための処置に対する応答性を指し示す。他の実例では、重みを加えられた分類子によって決定される状態は、対象における健康状態の予後を指し示すことができる。一部の事例では、健康状態は、がんである。一部の事例では、がんは、肺がん、例えば、非小細胞肺がん(例えば、肺腺癌(LUAD)、肺扁平上皮癌(LUSC)および大細胞癌)、小細胞肺がん(NSLC)または肺カルチノイド腫瘍である。
分類子は、例えばマイクロサテライトの、マイナー対立遺伝子分布に基づき決定することもできる。一部の事例では、分類子は、情報価値があるマイクロサテライト座位およびマイナー対立遺伝子分布の重みを加えた組合せを計算することにより決定することができる。マイナー対立遺伝子頻度は、分類子のための追加的な重みを加えたパラメーターとなることができる。マイナー対立遺伝子頻度は、全体的なゲノム安定性の指標となることができる。マイナー対立遺伝子頻度に基づく分類子を統計的に評価して(例えば、回帰解析によって)、分類子にマイナー対立遺伝子頻度を加えることが、分類子を改善するか否か決定することができる。
IV.汎状態(例えば、がん)リスクアッセイ
本開示は、汎状態(例えば、がん)分類子を作成するためのコンピュータに実行される方法を提供する(例えば、図2および図4を参照)。情報価値があるマイクロサテライト座位リストは、様々な状態(例えば、がん)型および健康な参照配列の試料を統計的に解析することから作成することができる。試料の両方の群由来のDNAは、マルチプレックスプラットフォームにおいて配列決定することができる。一部の事例では、配列決定は、例えばベイトセットを使用した、追加的な濃縮により標的化される。次に、配列決定結果が品質について解析されマッピングされて、状態(例えば、がん)試料および参照の間の差を明らかにする。この差をコンピュータに実行される方法によって(to)解析して、汎状態(例えば、がん)分類子を作成することができる。汎状態(例えば、がん)分類子は、様々な型の状態、例えば、がんの追加的な試料によりさらに最適化および検証することができる。
1種の状態または複数の状態のための汎状態(例えば、汎がん)分類子は、対象における複数の健康状態のうち少なくとも1種の健康状態の存在もしくは非存在、対象における複数の健康状態のうち少なくとも1種の健康状態の発症の見込みの増加もしくは減少、対象が、複数の健康状態のうち少なくとも1種の健康状態のための処置から利益を得る見込みの増加もしくは減少、対象が、複数の健康状態のうち少なくとも1種の健康状態のための処置による有害事象の増加したリスクを有する見込みの増加もしくは減少、複数の健康状態のうち少なくとも1種の健康状態のための処置に対する対象の応答性、またはこれらの組合せを指し示すことができる。複数の健康状態は、本明細書に開示されている健康状態のいずれかの組合せとなることができる。
一部の事例では、汎がん状態は、対象における複数の型のがんの存在または非存在を指し示すことができる。一部の実例では、汎がん状態は、対象における複数の型のがんの発症の見込みの増加または減少を指し示すことができる。ある特定の事例では、複数の型のがんは、同じ対象において一緒に高頻度で生じるがんである。代替事例では、複数の型のがんは、独立して生じるがんである。一部の実例では、汎がん状態は、対象が、処置から利益を得る可能性が高いもしくは可能性が低いこと、または対象が、処置の結果として有害事象のリスクが増加している可能性が高いもしくは可能性が低いことを指し示すことができる(汎がん分類子は、治療製品のためのコンパニオン診断となることができる)。一部の実例では、汎がん状態は、対象におけるがんのための処置に対する応答性を指し示すことができる。他の実例では、汎がん状態は、対象におけるがんの予後を指し示すことができる。本明細書に記載されている対象は、がんについて症候性または無症候性のいずれかとなることができる。一部の事例では、追加的な試験(例えば、身体検査、循環または無細胞がんバイオマーカーの解析、イメージング(例えば、コンピュータ断層撮影法(CT)、骨スキャン、磁気共鳴画像法(MRI)、ポジトロン放出断層撮影(PET)、超音波およびX線)、生検、遺伝的スクリーニング、遺伝子またはタンパク質発現レベル等)は、対象のための汎がん分類子に基づき使用することができる。
汎状態(例えば、汎がん)分類子を作成するためのコンピュータに実行される方法は、処理、組合せ、統計的評価もしくはさらなる結果解析、またはこれらのいずれかの組合せを行うステップを含むことができる。一部の態様では、汎状態(例えば、がん)分類子を作成するためのコンピュータに実行される方法は、複数型の状態(例えば、がん)を有しない対象から得られるまたはそれに由来する試料由来のマイクロサテライト座位とは異なる、複数型の状態(例えば、がん)を有する対象から得られるまたはそれに由来する試料由来のマイクロサテライト座位を同定することにより、複数型の状態(例えば、がん)と関連または相関するマイクロサテライト座位のサブセットの集団を先ず作成するステップを含む。マイクロサテライトの配列を、いずれかの配列決定方法によって先ず得ることができる。
複数型の状態(例えば、がん)に関連または相関するマイクロサテライト座位は、t-検定、Z-検定、ANOVA、回帰解析、マン・ホイットニー・ウィルコクソン、カイ二乗検定、相関、フィッシャー直接検定、ボンフェローニ補正およびベンジャミニ・ホッホバーグ検定等、1種または複数の統計検定により同定することができる。
統計検定は、受信者動作特性(ROC)曲線を生じることができ、ROC曲線下面積は、曲線下面積(AUC)と称される。AUCは、複数の型の状態(例えば、がん)に関連または相関するマイクロサテライト座位の同定の精度を決定することができる。より大きいAUCは、関連または相関のより高い精度を指し示すことができる。ROC曲線は、複数の型の状態(例えば、がん)に対するマイクロサテライト座位の関連または相関についての感度(例えば、真陽性)および特異度(例えば、真陰性)の率を決定することができる。複数型の状態(例えば、がん)に対するマイクロサテライト座位の統計的に有意な関連または相関は、少なくとも約70%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の統計的精度を有することができる。一部の事例では、複数型の状態(例えば、がん)に対するマイクロサテライト座位の統計的に有意な関連または相関は、少なくとも0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98または0.99の統計的特異度、および少なくとも0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98または0.99の統計的感度を有する。
一部の実例では、複数型の状態(例えば、がん)に関連または相関するマイクロサテライト座位を同定することは、複数型の状態(例えば、がん)の核酸配列を含むデータベースからマイクロサテライト座位の第1のセットを、参照データベース(例えば、hg19)からマイクロサテライト座位の第2のセットを同定することを含む。一部の事例では、マイクロサテライトの一部は、複数の型の状態(例えば、がん)と関連または相関すると同定される。一部の事例では、マイクロサテライトの一部は、1つの型の状態(例えば、がん)と関連または相関すると同定される。
複数の型のがんは、固形または血液学的悪性型のがんを含むことができる。一部の事例では、複数の型のがんは、転移性、再燃性または難治性となることができる。同定されたマイクロサテライト座位と関連または相関する複数の型のがんは、本明細書に開示されているいずれかの数(例えば、約4~約10、約10~約15、約15~約20または約4、約10、約15、約20、約25、約30または約50)のがんを含むことができる。
汎がんアッセイは、次のがんのうち少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15または16種をアッセイすることができるまたはこれについて検査することができる:乳がん、卵巣がん、前立腺がん、肺がん、多形神経膠芽腫、子宮体部子宮内膜癌、結腸腺癌、膀胱がん、尿路上皮癌、頭頸部扁平上皮癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胃腺癌、甲状腺癌、脳低悪性度神経膠腫、腎臓の乳頭状腎細胞癌および肝臓の肝細胞癌。
一部の事例では、マイクロサテライト座位のセットの差に関連または相関する複数の型のがんは、肺がんを含む。マイクロサテライト座位のセットの差(different)と関連または相関し得る肺がんは、非小細胞肺がん(例えば、肺腺癌(LUAD)、肺扁平上皮癌(LUSC)および大細胞癌)、小細胞肺がん(SCLC)および肺カルチノイド腫瘍を含む。
複数の型の状態(例えば、がん)と関連または相関するマイクロサテライト座位を含むサブセットの集団は、サブセット当たり少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90または100種のマイクロサテライト座位を含むことができる。一部の態様では、サブセットの集団は、複数型の状態(例えば、がん)とサブセットの関連または相関に基づき繰り返しランク付けされる。
次に、マイクロサテライト座位の集団のサブセットは、複数の型の状態(例えば、がん)を有する対象および/または複数型の状態(例えば、がん)を有しない対象から得られるまたはそれに由来する追加的な試料とサブセットの集団を比較することにより最適化することができる。一部の事例では、約100個のサブセットの集団が、最適化において使用される。一部の事例では、少なくとも100、200、300、400、500、1000、2000、3000または5000個のサブセットの集団が、最適化において使用される。一部の実例では、最適化は、約100個の同定されたサブセットを追加的な試料と比較するステップを少なくとも1サイクル含む。一部の実例では、最適化は、約100個の同定されたサブセットを追加的な試料と比較するステップを複数サイクル含む。
繰り返しランク付けすることは、各サイクルの完了後に行うことができる。一部の事例では、繰り返しランク付けすることは、追加的な試料における複数の型の状態(例えば、がん)の存在または非存在の決定において、精度、感度および特異度について受信者動作特性(ROC)解析のためにサブセットの統計的解析を行うことを含む。複数型の状態(例えば、がん)の存在または非存在を指し示すことにおいて最も成績が悪いまたは最低ランク付けされたサブセットのうち1個または複数を同定し、廃棄することができる。最適化の各サイクルの開始前に一定数のサブセットを維持するために、新たなサブセットをサブセットの集団に加えることができる。一部の事例では、新たなサブセットは、最適化の以前のサイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることから作成される。一部の実例では、新たなサブセットは、最適化の以前のサイクルからランダムに選ばれる。一部の事例では、最適化の各サイクルの終わりに廃棄されているサブセットの数は、最適化の各サイクルに先立ちサブセットに加えられているサブセットの同数である。
汎状態(例えば、汎がん)分類子を作成するためのコンピュータに実行される方法は、マイクロサテライト座位の統計的に重みを加えられていないサブセットを決定するステップを含むことができる。一部の態様では、汎状態(例えば、汎がん)分類子を作成するためのコンピュータに実行される方法は、マイクロサテライト座位の統計的に重みを加えられたサブセットを決定するステップを含む。汎状態(例えば、汎がん)分類子は、重みを加えられていなくても、重みを加えられていてもよい。
最適化のサイクルの完了後に、汎状態(例えば、汎がん)分類子を作成するコンピュータに実行される方法は、最適化された精度、感度および特異度で、状態と関連または相関するマイクロサテライト座位を含む。一部の態様では、コンピュータに実行される方法は、複数の型の状態(例えば、がん)を有する対象から得られるもしくはそれに由来する試料、複数の型の状態(例えば、がん)を有しない対象から得られるもしくはそれに由来する試料、またはこれらの組合せを含む試料の追加的なセットにより検証することができる。最適化および検証されたコンピュータに実行される方法は、対象由来の試料を解析する際に、汎状態(例えば、汎がん分類子)を作成することができる。汎状態(例えば、汎がん)は、対象におけるある型の健康状態(例えば、がん)の存在または非存在を指し示すことができる。ある特定の事例では、汎状態(例えば、汎がん)は、対象におけるある型の健康状態(例えば、がん)の発症の見込みの増加または減少を指し示す。一部の事例では、汎状態(例えば、汎がん)は、対象が処置から利益を得る見込みの増加もしくは減少、または対象が処置の結果として有害事象の増加したリスクを有する見込みの増加もしくは減少を指し示すことができる(汎状態、例えば、汎がん分類子は、治療製品のためのコンパニオン診断となることができる)。一部の実例では、汎状態(例えば、汎がん)は、対象のある型の健康状態(例えば、がん)のための処置に対する応答性を指し示す。他の実例では、汎状態(例えば、汎がん)は、対象におけるある型の健康状態(例えば、がん)の予後を指し示す。
分類子(例えば、マイクロサテライトのセット)は、汎状態(例えば、汎がん)アッセイにおいて状態(例えば、がん)毎に開発することができる。一部の事例では、個々のマイクロサテライト座位は、汎状態(例えば、汎がん)マイクロサテライト座位となることができる。
V.対象由来の試料の評価
本明細書に記載されている通りに作成された分類子を使用して、対象(例えば、患者)試料を解析することができる。対象由来の試料は、例えば、臨床検査室改善修正法(Clinical Laboratory Improvements Amendments)(CLIA)認証検査室において解析することができる。一部の事例では、キットが調製され、対象由来の試料は、CLIA検査室の外で解析される。図5は、例えば、CLIA認証ラボにおける対象(例えば、患者)試料解析パイプラインのためのワークフロー(500)の例を説明する;ワークフローは、マルチプレックス化汎がんアッセイのために試料を処理するために使用することができる。試料、例えば、血液、尿、脳脊髄液、精液、唾液、痰、糞便、リンパ液、組織(例えば、甲状腺、皮膚、心臓、肺、腎臓、乳房、膵、肝臓、筋肉、平滑筋、膀胱、胆嚢、結腸、腸、脳、食道または前立腺)またはこれらのいずれかの組合せ由来の試料が、複数の対象から得られる(501)。核酸分子、例えば、ゲノムDNAが、試料から抽出される。標的、例えば、マイクロサテライト標的が、マルチプレックス化(例えば、ベイト、例えば、ハイブリダイゼーションプローブを使用した)によって濃縮される;濃縮された標的にバーコードを付けて増幅することができる(503)。次世代配列決定アッセイが、例えば、約4、8、12、24、96、128、384または1536個のバッチにおける標的濃縮試料において行われる(505)。配列決定データを逆マルチプレックス化(de-multiplex)することができ(例えば、個々の試料それぞれに付加された特有の配列タグ(例えば、バーコード)を使用して)、品質管理フィルターを未加工の配列リードに適用することができ(例えば、Q30を超えるPhred品質)、遺伝子型が決定され(例えば、座位毎にリードが、フランキング配列を使用して参照配列と整列され、次いで、2個の主要対立遺伝子(遺伝子型)がコンピュータ処理される)、マイナー対立遺伝子分布(例えば、メジャー遺伝子型と比べた、マイナー対立遺伝子またはマイナー対立遺伝子の一部分の数)が、各試料のマイクロサテライト座位毎に決定される(507)(マイナー対立遺伝子は、少なくとも1、少なくとも2、少なくとも3個または3個超の配列リードによって支持され得る)。がん毎の試料毎のリスク分類子(例えば、少なくとも5、10、25、50または100個のマイクロサテライト座位に基づく)が計算される(509)(例えば、遺伝子型は、健康集団(例えば、GRCh38)遺伝子型における最も顕著な遺伝子型に関してモーダルまたは非モーダルであると決定され、全座位にわたって合計され、試料は、がんまたは正常遺伝子型を有する座位の一部分のカットオフに関して、座位が位置する場所に応じて、状態のリスクがあるまたはリスクがないと分類され得る)。リスクは、定量的スケールで表される、またはカテゴリー評価によって指し示され得る。リスク分類子を含む臨床検査室報告が作成され(511)、医療提供者、対象または保険会社に提供される。
図17は、臨床検査室報告の例を説明する。臨床検査室報告は、患者情報、検体情報、検査概要、検査結果、コメントおよび結果詳細を含むことができる。結果詳細は、遺伝子型決定されたマイクロサテライト座位の数、状態のための1種または複数のリスク分類子、1種または複数の閾値、および状態、例えば、肺がんを有するまたはそれを得ることの相対的リスク(例えば、低リスク、高リスク、「リスクがある」、「リスクがない」)を含むことができる。
報告は、非モーダル(主にがん)遺伝子型を有する対象の試料における座位の数を含むことができる。高リスクであると決定される健康状態存在の検出のための感度および特異度は、90%超となることができ、これらの対照試料生殖系列における非存在は肺がんについて「低リスク」であると決定される。アッセイの正確さは、参照対照における高度に保存された座位によって測定される場合、99%超となることができる。
一部の実例では、状態は、追加的な試験、例えば、身体検査、循環または無細胞がんバイオマーカーの解析、イメージング(例えば、コンピュータ断層撮影法、骨スキャン、磁気共鳴画像法、ポジトロン放出断層撮影、超音波およびX線)、生検、遺伝的スクリーニング、遺伝子発現またはタンパク質発現等によって検証またはさらに試験することができる。
VI.マイクロサテライトにおけるマイナー対立遺伝子
本開示は、対象のゲノム年齢およびゲノム加齢の速度を決定するコンピュータに実行される方法を提供する。ゲノム年齢は、年数に較正された数で示すことができる。例えば、ゲノム年齢が、対象の数値的年齢におおよそ等しい場合、全体的なゲノム安定性は、ゲノム年齢について正常となることができる。一部の実例では、ゲノム年齢は、対象の実際の年齢よりも若齢に、同じにまたはより高齢になることができる。対象の実際の年齢よりも高齢なゲノム年齢、または速いゲノム加齢の速度は、ゲノム不安定性、および加齢に関連する健康状態(例えば、疾患)、例えば、がん、心血管疾患、神経学的疾患等の発症に対する易罹患性を示唆することができる。ゲノム年齢およびゲノム加齢の速度は、同じ対象の異なる組織(例えば、皮膚または血液)から得られた試料の間で変動し得る。一部の事例では、ゲノム年齢およびゲノム加齢の速度は、対象の生活習慣(例えば、栄養、身体的または精神的ストレス)または医学的状態を指し示すことができる。対象のゲノム年齢に基づき、生活習慣の変化(例えば、禁煙、食事変更および運動)が対象に推奨される場合がある。
ゲノム年齢およびゲノム加齢の速度を決定するコンピュータに実行される方法は、対象由来の第1の試料におけるマイナー対立遺伝子特徴を決定し、第1の試料のマイナー対立遺伝子特徴を、参照のマイナー対立遺伝子特徴と比較して、マイナー対立遺伝子特徴の第1の差を得るステップを含むことができる。参照は、数値的年齢、民族性、性別等の関数として平均ゲノム年齢を決定するために、大きい集団にわたるマイナー対立遺伝子含量の分布を含むことができる。第1の試料および参照の間のマイナー対立遺伝子特徴の第1の差は、コンピュータに実行される方法によって、対象のゲノム年齢であると決定することができる。一部の態様では、対象由来の第2の試料は、参照と第1の試料との比較後の時点で参照と比較されて、マイナー対立遺伝子特徴の第2の差を得る。第1および第2の差の間の変化は、コンピュータに実行される方法によって、対象のゲノム加齢の速度であると決定することができる。一部の事例では、ゲノム加齢の追加的な速度は、マイナー対立遺伝子特徴を得て、より後のマイナー対立遺伝子特徴をより早いマイナー対立遺伝子特徴と比較することにより決定することができる。
本明細書に記載されているマイナー対立遺伝子特徴は、少なくとも1個の座位におけるマイナー対立遺伝子の数となることができる。一部の態様では、マイナー対立遺伝子特徴は、SNPのパーセンテージ、拡大のパーセンテージ、収縮のパーセンテージ、拡大および収縮のSNPに対する比、ヘテロ接合座位のパーセンテージ、ホモ接合座位のパーセンテージ、およびマイナー対立遺伝子を有する座位のパーセンテージを含む。一部の事例では、マイナー対立遺伝子特徴は、少なくとも1個の座位におけるSNPおよびインデル変形形態、マイクロサテライト変形形態、同義SNP、非同義SNP、ストップゲインSNP、ストップロスSNP、スプライシングバリアント(例えば、スプライシングジャンクション内の2bp)、フレームシフトインデルおよび非フレームシフトインデルの組合せを含む。一部の事例では、マイナー対立遺伝子特徴は、同じ対象において複数の時点にわたり決定される。
対象由来の試料から決定されるマイナー対立遺伝子特徴は、いずれかの配列決定方法からの少なくとも1個の配列リードを要求することができる。一部の事例では、マイナー対立遺伝子特徴は、いずれかの次世代配列決定方法からの少なくとも1、2、3、4、5、6、7、8、9、10、20、30、50または100個の配列リードにおいて同定することができる。対象由来の試料から決定されるマイナー対立遺伝子特徴は、いずれかの配列決定方法からの少なくとも1、少なくとも2、少なくとも3個または3個超の配列リードを要求することができる。
一部の実例では、対象由来の試料の配列から決定されるマイナー対立遺伝子特徴は、参照配列と比較される。比較は、少なくとも1個の座位におけるSNPおよびインデル変形形態、マイクロサテライト変形形態、同義SNP、非同義SNP、ストップゲインSNP、ストップロスSNP、スプライシングバリアント(例えば、スプライシングジャンクション内の2bp)、フレームシフトインデルおよび非フレームシフトインデルの組合せの異なる数を含む参照配列由来のマイナー対立遺伝子特徴の差を生じ得る。試料および参照の間のマイナー対立遺伝子特徴の差を、コンピュータに実行される方法によって決定して、ゲノム年齢を得ることができる。
一部の事例では、対象由来の第1の試料の第1の配列は、参照配列と比較されて、第1のマイナー対立遺伝子特徴および第1のゲノム年齢を得る。一部の実例では、同じ対象由来の第2の試料の第2の配列が、同じ参照配列と比較されて、第2のマイナー対立遺伝子特徴および第2のゲノム年齢を得る。第1のマイナー対立遺伝子特徴と第2のマイナー対立遺伝子特徴の間の比較は、ゲノム加齢の速度を決定することができる。ある特定の実例では、比較のために、より後の時点における同じ対象由来の試料から、複数のマイナー対立遺伝子特徴を得て、対象の異なる年齢においてゲノム加齢の複数の速度を得ることができる。
本開示は、対象由来の第1の試料におけるマイクロサテライトマイナー対立遺伝子特徴を決定するステップによって、対象のゲノム年齢を決定するコンピュータに実行される方法を提供する。マイクロサテライトマイナー対立遺伝子特徴は、参照配列と比較して、異なるSNPのパーセンテージ、拡大のパーセンテージ、収縮のパーセンテージ、拡大および収縮のSNPに対する比、ヘテロ接合座位のパーセンテージ、またはホモ接合座位のパーセンテージを有するマイクロサテライトを含むマイナー対立遺伝子となることができる。一部の事例では、マイクロサテライトマイナー対立遺伝子特徴は、参照配列と比較して、少なくとも1個の座位におけるSNPおよびインデル変形形態、マイクロサテライト変形形態、同義SNP、非同義SNP、ストップゲインSNP、ストップロスSNP、スプライシングバリアント(例えば、スプライシングジャンクション内の2bp)、フレームシフトインデルまたは非フレームシフトインデルの異なる組合せを有するマイクロサテライトを含むマイナー対立遺伝子を含む。一部の事例では、マイクロサテライトマイナー対立遺伝子特徴は、同じ対象において複数の時点にわたり決定される。
VI.コンピュータシステム、プロセッサーおよびメモリ
本開示は、本開示に記載されている方法を実行するように構成されたコンピュータシステムを提供する。一部の実例では、コンピュータネットワークに必要に応じて接続されたコンピュータ処理デバイスと、コンピュータ処理デバイスによって実行されるソフトウェアモジュールとを含むシステムが本明細書に開示されている。一部の実例では、システムは、中央処理装置(CPU)、メモリ(例えば、ランダムアクセスメモリ、フラッシュメモリ)、電子記憶装置、コンピュータプログラム、1個または複数の他のシステムと通信するための通信インターフェース、およびこれらのいずれかの組合せを含む。一部の実例では、システムは、コンピュータネットワーク、例えば、インターネット、インターネットと通信したイントラネットおよび/もしくはエクストラネット、遠隔通信、またはデータネットワークにカップルされる。一部の態様では、システムは、本開示に記載されている方法のいずれかの態様に関するデータおよび情報を記憶するための記憶装置を含む。システムの様々な態様は、製品または製造品である。
コンピュータプログラムの1つの特色は、指定のタスクを行うように書かれた、デジタル処理デバイスのCPUにおいて実行可能な命令シーケンスを含む。一部の態様では、コンピュータ可読命令は、特定のタスクを行うまたは特定の抽象データ型を実行する、関数、特色、アプリケーションプログラミングインターフェース(API)、データ構造その他等のプログラムモジュールとして実行される。様々な実施形態では、コンピュータプログラムは、様々な言語の様々なバージョンで書くことができる。
コンピュータ可読命令の機能性は、様々な環境において要望通りに組み合わされるまたは分布される。一部の実例では、コンピュータプログラムは、1つの命令シーケンスまたは複数の命令シーケンスを含む。コンピュータプログラムは、1つの場所から提供され得る。コンピュータプログラムは、複数の場所から提供され得る。一部の態様では、コンピュータプログラムは、1種または複数のソフトウェアモジュールを含む。一部の態様では、コンピュータプログラムは、一部にまたは全体的に、1種もしくは複数のウェブアプリケーション、1種もしくは複数のモバイルアプリケーション、1種もしくは複数のスタンドアロンアプリケーション、1種もしくは複数のウェブブラウザプラグイン、拡張、アドインもしくはアドオン、またはこれらの組合せを含む。
コンピュータシステム
本開示は、本開示の方法を実行するようにプログラムされたコンピュータシステムを提供する。図18は、本明細書に記載されている方法を実行するようにプログラムまたは他の仕方で構成され得るコンピュータシステム(1801)を示す。コンピュータシステム(1801)は、核酸ポジション情報を入力することと、帰属情報をデータセットに転送することと、データセットにより訓練されたアルゴリズムを作成することとを含む本開示の様々な態様を調節することができる。コンピュータシステム(1801)は、ユーザー電子デバイスまたはリモートコンピュータシステムとなることができる。電子デバイスは、モバイル電子デバイスとなることができる。
コンピュータシステム(1801)は、順次処理または並列処理のいずれかによる、シングルコアまたはマルチコアプロセッサーとなることができる中央処理装置(CPU、本明細書では同様に、「プロセッサー」および「コンピュータプロセッサー」)(1805)を含む。コンピュータシステム(1801)は、メモリ装置またはデバイス(1810)(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)、記憶装置(1815)(例えば、ハードディスク)、1個または複数の他のシステムと通信するための通信インターフェース(1820)(例えば、ネットワークアダプタ)、ならびにプリンター、モニター、USBドライブおよび/またはCD-ROMドライブ等、外部もしくは内部のいずれかまたはその両方にある周辺デバイス(1825)も含む。メモリ(1810)、記憶装置(1815)、インターフェース(1820)および周辺デバイス(1825)は、マザーボード等、通信バス(実線)を介してCPU(1805)と通信している。記憶装置(1815)は、データを記憶するためのデータ記憶装置(またはデータリポジトリ)となることができる。コンピュータシステム(1801)は、通信インターフェース(1820)を活用してコンピュータネットワーク(「ネットワーク」)(1830)に動作可能にカップルされ得る。ネットワーク(1830)は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信したイントラネットおよび/もしくはエクストラネットとなることができる。ネットワーク(1830)は、一部の事例では、遠隔通信および/またはデータネットワークである。ネットワーク(1830)は、分散コンピュータ処理を支持するピアツーピアネットワークを可能にすることができる1個または複数のコンピュータサーバーを含むことができる。ネットワーク(1830)は、一部の事例ではコンピュータシステム(1801)を活用して、コンピュータシステム(1801)にカップルされたデバイスがクライアントまたはサーバーとして振る舞うことを可能にすることができる、クライアント・サーバー構造を実行することができる。
CPU(1805)は、プログラムまたはソフトウェアに取り込まれ得る機械可読命令のシーケンスを実行することができる。命令は、メモリ(1810)に記憶され得る。命令は、CPU(1805)に向けることができ、これはその後、本開示の方法を実行するようにCPU(1805)をプログラムまたは他の仕方で構成することができる。CPU(1805)によって行われる操作の例は、フェッチ、デコード、実行およびライトバックを含むことができる。
CPU(1805)は、集積回路等の回路の一部となることができる。システム(1801)の1個または複数の他の構成成分が、回路に含まれ得る。一部の実施形態では、回路は、特定用途向け集積回路(ASIC)である。
記憶装置(1815)は、ドライバ、ライブラリおよび保存されたプログラム等のファイルを記憶することができる。記憶装置(1815)は、ユーザーデータ、例えば、ユーザー設定およびユーザープログラムを記憶することができる。コンピュータシステム(1801)は、一部の事例では、イントラネットまたはインターネットを介してコンピュータシステム(1801)と通信したリモートサーバーに位置する等、コンピュータシステム(1801)にとって外部にある1個または複数の追加的なデータ記憶装置を含むことができる。
コンピュータシステム(1801)は、ネットワーク(1830)を介して1個または複数のリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム(1801)は、リモートコンピュータシステムまたはユーザーと通信することができる。リモートコンピュータシステムの例は、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android対応デバイス、Blackberry(登録商標))またはパーソナルデジタルアシスタントを含む。ユーザーは、ネットワーク(1830)経由でコンピュータシステム(1801)にアクセスすることができる。
本明細書に記載されている方法は、コンピュータシステム(1801)の電子記憶場所に、例えば、メモリ(1810)またはデータ記憶装置(1815)において記憶された機械(例えば、コンピュータプロセッサー)実行可能コードとして実行することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用の際に、コードは、プロセッサー(1805)によって実行され得る。一部の事例では、コードは、記憶装置(1815)から検索され、プロセッサー(1805)による即時アクセスのためにメモリ(1810)に記憶され得る。一部の局面では、記憶装置(1815)が除外されることがあり、機械実行可能命令は、メモリ(1810)に記憶される。
コードは、コードを実行するように適応されたプロセッサーを有する機械による使用のために事前にコンパイルおよび構成され得る、またはランタイム中にコンパイルされ得る。コードは、コードが、事前にコンパイルされたまたはアズ(as)コンパイルされた様式で実行することを可能にするように選択され得るプログラミング言語で供給され得る。
コンピュータシステム(1801)等、本明細書に提供されるシステムおよび方法の態様は、プログラミングに取り込まれ得る。技術の様々な態様は、典型的には、ある型の機械可読媒体において運ばれるまたは具体化される機械(またはプロセッサー)実行可能コードおよび/または関連データの形態である、「製品」または「製造品」と考えることができる。機械実行可能コードは、ハードディスク等の記憶装置またはメモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)に記憶され得る。「記憶」型媒体は、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供することができる様々な半導体メモリ、テープドライブ、ディスクドライブその他を含む、コンピュータ、プロセッサーその他またはそれらの関連モジュールの有形メモリのうちいずれかまたは全てを含むことができる。ソフトウェアの全体または部分は、時には、インターネットまたは様々な他の遠隔通信ネットワークを介して通信され得る。斯かる通信は、例えば、あるコンピュータまたはプロセッサーから別のコンピュータまたはプロセッサーへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にすることができる。よって、ソフトウェアエレメントを有することができる別の型の媒体は、有線および光学地上通信線(landline)ネットワークを介してならびに様々なエアーリンク(air-link)を通って、ローカルデバイス間の物理的インターフェースを越えて使用される等の光波、電波および電磁波を含む。有線または無線リンク、光リンクその他等、斯かる波を運ぶ物理的エレメントも、ソフトウェアを有する媒体として考慮され得る。本明細書で使用される場合、非一時的、有形「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のためにプロセッサーへの命令の提供に関与するいずれかの媒体を指す。
A.電子デバイス
一部の態様では、本明細書に記載されているプラットフォーム、媒体、方法およびアプリケーションは、電子デバイス、プロセッサー、またはそれらの使用を含む(デジタル処理デバイスとも称される)。さらなる態様では、電子デバイスは、デバイスの関数を実行する1個または複数のハードウェア中央処理装置(CPU)を含む。またさらなる態様では、電子デバイスは、実行可能命令を行うように構成されたオペレーティングシステムをさらに含む。一部の態様では、電子デバイスは、コンピュータネットワークに必要に応じて接続される。さらなる態様では、電子デバイスは、ワールドワイドウェブにアクセスするように、インターネットに必要に応じて接続される。またさらなる態様では、電子デバイスは、クラウドコンピューティングインフラストラクチャーに必要に応じて接続される。一部の態様では、電子デバイスは、イントラネットに必要に応じて接続される。一部の態様では、電子デバイスは、データ記憶デバイスに必要に応じて接続される。本明細書における記載に従って、適した電子デバイスは、非限定的な例として、サーバーコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、サブノートブック(sub-notebook)コンピュータ、ネットブックコンピュータ、ネットパッド(net pad)コンピュータ、セットトップコンピュータ、ハンドヘルドコンピュータ、インターネット電化製品、モバイルスマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント、ビデオゲームコンソールおよび車両(vehicle)を含む。様々な実施形態では、多くのスマートフォンが、本明細書に記載されているシステムにおける使用に適する。様々な実施形態では、必要に応じたコンピュータネットワーク接続性を有する選択(select)テレビ、ビデオプレーヤーおよびデジタル音楽プレーヤーが、本明細書に記載されているシステムにおける使用に適する。適したタブレットコンピュータは、ブックレット(booklet)、スレートおよびコンバーチブル構成を有するものを含む。
一部の態様では、電子デバイスは、実行可能命令を行うように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションの実行のためのサービスを提供するプログラムおよびデータを含むソフトウェアである。様々な実施形態では、適したサーバーオペレーティングシステムは、非限定的な例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Ubuntu Linux(登録商標)、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)およびNovell(登録商標)NetWare(登録商標)を含む。様々な実施形態では、適したパーソナルコンピュータオペレーティングシステムは、非限定的な例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)等のUNIX様オペレーティングシステムを含む。一部の態様では、オペレーティングシステムは、クラウドコンピューティングによって提供される。様々な実施形態では、適したモバイルスマートフォンオペレーティングシステムは、非限定的な例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)BlackBerry OS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)Windows Phone(登録商標)OS、Microsoft(登録商標)Windows Mobile(登録商標)OS、Linux(登録商標)およびPalm(登録商標)WebOS(登録商標)を含む。
一部の態様では、デバイスは、記憶および/またはメモリデバイスを含む。記憶および/またはメモリデバイスは、一過的または永続的にデータまたはプログラムを記憶するために使用される1個または複数の物理的装置である。一部の態様では、デバイスは、揮発性メモリであり、記憶された情報を維持するために電源供給を要求する。一部の態様では、デバイスは、不揮発性メモリであり、電子デバイスが電源供給されない場合に、記憶された情報を保持する。さらなる態様では、不揮発性メモリは、フラッシュメモリを含む。一部の態様では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含む。一部の態様では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM(登録商標))を含む。一部の態様では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含む。一部の態様では、不揮発性メモリは、磁気抵抗ランダムアクセスメモリ(MRAM)を含む。一部の態様では、デバイスは、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブおよびクラウドコンピューティングに基づくストレージを含む記憶デバイスである。さらなる態様では、記憶および/またはメモリデバイスは、本明細書に開示されているもの等、デバイスの組合せである。
一部の態様では、電子デバイスは、視覚情報を対象に送るためのディスプレイを含む。一部の態様では、ディスプレイは、陰極線管(CRT)である。一部の態様では、ディスプレイは、液晶ディスプレイ(LCD)である。さらなる態様では、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LCD)である。一部の態様では、ディスプレイは、有機発光ダイオード(OLED)ディスプレイである。様々なさらなる態様では、OLEDディスプレイは、パッシブマトリックスOLED(PMOLED)またはアクティブマトリックスOLED(AMOLED)ディスプレイである。一部の態様では、ディスプレイは、プラズマディスプレイである。一部の態様では、ディスプレイは、EペーパーまたはEインクである。一部の態様では、ディスプレイは、ビデオプロジェクターである。またさらなる態様では、ディスプレイは、本明細書に開示されているもの等、デバイスの組合せである。
一部の態様では、電子デバイスは、対象から情報を受け取るための入力デバイスを含む。一部の態様では、入力デバイスは、キーボードである。一部の態様では、入力デバイスは、非限定的な例として、マウス、トラックボール、トラックパッド(trackpad)、ジョイスティック、ゲームコントローラーまたはスタイラスを含むポインティングデバイスである。一部の態様では、入力デバイスは、タッチスクリーンまたはマルチタッチスクリーンである。一部の態様では、入力デバイスは、声または他の音声入力を捕捉するためのマイクロホンである。一部の態様では、入力デバイスは、動作または視覚入力を捕捉するためのビデオカメラまたは他のセンサーである。さらなる態様では、入力デバイスは、キネクト(Kinect)、リープモーション(Leap Motion)その他である。またさらなる態様では、入力デバイスは、本明細書に開示されているもの等、デバイスの組合せである。
B.非一時的コンピュータ可読記憶媒体
一部の態様では、本明細書に記載されているプラットフォーム、媒体、方法およびアプリケーションは、必要に応じてネットワーク接続されたデジタル処理デバイスのオペレーティングシステムによって実行可能な命令を含むプログラムによりコードされた、1個または複数の非一時的コンピュータ可読記憶媒体を含む。さらなる態様では、コンピュータ可読記憶媒体は、電子デバイスの有形構成成分である。またさらなる態様では、コンピュータ可読記憶媒体は、電子デバイスから必要に応じて取り外し可能である。一部の態様では、コンピュータ可読記憶媒体は、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスその他を含む。一部の事例では、プログラムおよび命令は、媒体に永続的に、実質的に永続的に、半永続的にまたは非一時的にコードされている。
C.コンピュータプログラム
一部の態様では、本明細書に記載されているプラットフォーム、媒体、方法およびアプリケーションは、少なくとも1種のコンピュータプログラム、またはその使用を含む。コンピュータプログラムは、指定のタスクを行うように書かれた、電子デバイスのCPUにおいて実行可能な命令シーケンスを含む。コンピュータ可読命令は、特定のタスクを行うまたは特定の抽象データ型を実行する、関数、オブジェクト、アプリケーションプログラミングインターフェース(API)、データ構造その他等のプログラムモジュールとして実行され得る。様々な実施形態では、コンピュータプログラムは、様々な言語の様々なバージョンで書くことができる。
コンピュータ可読命令の機能性は、様々な環境において要望通りに組み合わされ得るまたは分布され得る。一部の態様では、コンピュータプログラムは、1つの命令シーケンスを含む。一部の態様では、コンピュータプログラムは、複数の命令シーケンスを含む。一部の態様では、コンピュータプログラムは、1つの場所から提供される。一部の態様では、コンピュータプログラムは、複数の場所から提供される。様々な態様では、コンピュータプログラムは、1種または複数のソフトウェアモジュールを含む。様々な態様では、コンピュータプログラムは、一部にまたは全体的に、1種もしくは複数のウェブアプリケーション、1種もしくは複数のモバイルアプリケーション、1種もしくは複数のスタンドアロンアプリケーション、1種もしくは複数のウェブブラウザプラグイン、拡張、アドインもしくはアドオン、またはこれらの組合せを含む。
D.ウェブアプリケーション
一部の態様では、コンピュータプログラムは、ウェブアプリケーションを含む。様々な実施形態では、ウェブアプリケーションは、様々な態様では、1種または複数のソフトウェアフレームワークおよび1種または複数のデータベースシステムを利用する。一部の態様では、ウェブアプリケーションは、Microsoft(登録商標).NETまたはルビーオンレイルズ(Ruby on Rails)(RoR)等のソフトウェアフレームワーク上に創出される。一部の態様では、ウェブアプリケーションは、非限定的な例として、リレーショナル、非リレーショナル、オブジェクト指向、結合的およびXMLデータベースシステムを含む1種または複数のデータベースシステムを利用する。さらなる態様では、適したリレーショナルデータベースシステムは、非限定的な例として、Microsoft(登録商標)SQLサーバー、mySQL(商標)およびOracle(登録商標)を含む。様々な実施形態では、ウェブアプリケーションは、様々な態様では、1種または複数の言語の1種または複数のバージョンで書かれている。ウェブアプリケーションは、1種または複数のマークアップ言語、提示定義言語、クライアント側スクリプト言語、サーバー側コーディング言語、データベースクエリー言語またはこれらの組合せで書かれていてよい。一部の態様では、ウェブアプリケーションは、ある程度まで、ハイパーテキストマークアップ言語(HTML)、拡張可能ハイパーテキストマークアップ言語(XHTML)または拡張可能(eXtensible)マークアップ言語(XML)等のマークアップ言語で書かれている。一部の態様では、ウェブアプリケーションは、ある程度まで、カスケーディング・スタイル・シート(CSS)等の提示定義言語で書かれている。一部の態様では、ウェブアプリケーションは、ある程度まで、非同期ジャバスクリプト(Javascript)およびXML(AJAX)、Flash(登録商標)アクションスクリプト(Actionscript)、ジャバスクリプトまたはSilverlight(登録商標)等のクライアント側スクリプト言語で書かれている。一部の態様では、ウェブアプリケーションは、ある程度まで、アクティブサーバーページ(ASP)、ColdFusion(登録商標)、パール(Perl)、Java(登録商標)、JavaServer Pages(JSP)、ハイパーテキストプリプロセッサ(PHP)、Python(商標)、ルビー(Ruby)、Tcl、スモールトーク(Smalltalk)、WebDNA(登録商標)またはグルービー(Groovy)等のサーバー側コーディング言語で書かれている。一部の態様では、ウェブアプリケーションは、ある程度まで、構造化クエリー言語(SQL)等のデータベースクエリー言語で書かれている。一部の態様では、ウェブアプリケーションは、IBM(登録商標)Lotus Domino(登録商標)等のエンタープライズサーバー製品を統合する。一部の態様では、ウェブアプリケーションは、メディアプレーヤーエレメントを含む。様々なさらなる態様では、メディアプレーヤーエレメントは、非限定的な例として、Adobe(登録商標)Flash(登録商標)、HTML 5、Apple(登録商標)QuickTime(登録商標)、Microsoft(登録商標)Silverlight(登録商標)、Java(登録商標)およびUnity(登録商標)を含む多くの適したマルチメディア技術のうち1種または複数を利用する。
E.モバイルアプリケーション
一部の態様では、コンピュータプログラムは、モバイル電子デバイスに提供されるモバイルアプリケーションを含む。一部の態様では、モバイルアプリケーションは、製造時にモバイル電子デバイスに提供される。一部の態様では、モバイルアプリケーションは、本明細書に記載されているコンピュータネットワークを介してモバイル電子デバイスに提供される。
様々な実施形態では、モバイルアプリケーションは、ハードウェア、言語および開発環境を使用した様々な技法によって創出される。様々な実施形態では、モバイルアプリケーションは、いくつかの言語で書かれている。適したプログラミング言語は、非限定的な例として、C、C++、C#、オブジェクティブ-C、Java(登録商標)、ジャバスクリプト、パスカル(Pascal)、オブジェクトパスカル、Python(商標)、ルビー、VB.NET、WMLおよびCSSありもしくはなしのXHTML/HTML、またはこれらの組合せを含む。
適したモバイルアプリケーション開発環境は、いくつかの供給源から利用することができる。市販の開発環境は、非限定的な例として、AirplaySDK、alcheMo、Appcelerator(登録商標)、Celsius、Bedrock、Flash Lite、.NET Compact Framework、RhomobileおよびWorkLight Mobileプラットフォームを含む。他の開発環境は、コストなしで利用することができ、非限定的な例として、Lazarus、MobiFlex、MoSyncおよびPhonegapを含む。また、モバイルデバイス製造業者は、非限定的な例として、iPhone(登録商標)およびiPad(登録商標)(iOS)SDK、Android(商標)SDK、BlackBerry(登録商標)SDK、BREW SDK、Palm(登録商標)OS SDK、Symbian SDK、webOS SDKならびにWindows(登録商標)Mobile SDKを含むソフトウェア開発キットを配布する。
様々な実施形態では、非限定的な例として、Apple(登録商標)App Store、Android(商標)Market、BlackBerry(登録商標)App World、PalmデバイスのためのApp Store、webOSのためのApp Catalog、モバイルのためのWindows(登録商標)Marketplace、Nokia(登録商標)デバイスのためのOvi Store、Samsung(登録商標)AppsならびにNintendo(登録商標)DSi Shopを含むモバイルアプリケーションの配布のためにいくつかの商業フォーラムが利用できる。
F.スタンドアロンアプリケーション
一部の態様では、コンピュータプログラムは、既存プロセスへのアドオンではなく、例えば、プラグインではなく、独立したコンピュータプロセスとして動作されるプログラムである、スタンドアロンアプリケーションを含む。様々な実施形態では、スタンドアロンアプリケーションは多くの場合、コンパイルされる。コンパイラは、プログラミング言語で書かれたソースコードを、アセンブリ言語または機械コード等のバイナリオブジェクトコードへと転換するコンピュータプログラム(複数可)である。適したコンパイルされたプログラミング言語は、非限定的な例として、C、C++、オブジェクティブ-C、COBOL、デルファイ(Delphi)、エッフェル(Eiffel)、Java(登録商標)、Lisp、Python(商標)、ビジュアルベーシックおよびVB.NET、またはこれらの組合せを含む。コンパイルは多くの場合、少なくとも一部には、実行可能プログラムを創出するために行われる。一部の態様では、コンピュータプログラムは、1種または複数の実行可能なコンパイルされたアプリケーションを含む。
G.ソフトウェアモジュール
一部の態様では、本明細書に記載されているプラットフォーム、媒体、方法およびアプリケーションは、ソフトウェア、サーバーおよび/もしくはデータベースモジュール、またはそれらの使用を含む。様々な実施形態では、ソフトウェアモジュールは、機械、ソフトウェアおよび言語を使用した様々な技法によって創出される。本明細書に開示されているソフトウェアモジュールは、数多くの仕方で実行することができる。様々な態様では、ソフトウェアモジュールは、ファイル、コードセクション、プログラミングオブジェクト、プログラミング構造、またはこれらの組合せを含む。さらに様々な態様では、ソフトウェアモジュールは、複数のファイル、複数のコードセクション、複数のプログラミングオブジェクト、複数のプログラミング構造、またはこれらの組合せを含む。様々な態様では、1種または複数のソフトウェアモジュールは、非限定的な例として、ウェブアプリケーション、モバイルアプリケーションおよびスタンドアロンアプリケーションを含む。一部の態様では、ソフトウェアモジュールは、1種のコンピュータプログラムまたはアプリケーション中に存在する。一部の態様では、ソフトウェアモジュールは、2種以上のコンピュータプログラムまたはアプリケーション中に存在する。一部の態様では、ソフトウェアモジュールは、1個の機械上にホストされる。一部の態様では、ソフトウェアモジュールは、2個以上の機械上にホストされる。さらなる態様では、ソフトウェアモジュールは、クラウドコンピューティングプラットフォーム上にホストされる。一部の態様では、ソフトウェアモジュールは、1つの場所における1個または複数の機械上にホストされる。一部の態様では、ソフトウェアモジュールは、2つ以上の場所における1個または複数の機械上にホストされる。
H.データベース
一部の態様では、本明細書に開示されているプラットフォーム、システム、媒体および方法は、1種もしくは複数のデータベース、またはその使用を含む。様々な実施形態では、多くのデータベースが、バーコード、ルート、小包(parcel)、対象またはネットワーク情報の記憶および検索に適している。様々な態様では、適したデータベースは、非限定的な例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、エンティティ関係性モデルデータベース、結合的データベースおよびXMLデータベースを含む。一部の態様では、データベースは、インターネットに基づく。さらなる態様では、データベースは、ウェブに基づく。またさらなる態様では、データベースは、クラウドコンピューティングに基づく。一部の態様では、データベースは、1個または複数のローカルコンピュータ記憶デバイスに基づく。
I.データ伝送
本明細書に提供される方法およびシステムを含む本明細書に記載されている主題は、1つまたは複数の場所における1つまたは複数の施設において行われるように構成することができる。施設の場所は、国家によって限定されず、いかなる国家または領土も含む。一部の実例では、1または複数のステップは、方法の別のステップが行われる国家とは異なる国家において行われる。一部の実例では、試料を得るための1または複数のステップは、試料から状態の存在または非存在を検出するための1または複数のステップが行われる国家とは異なる国家において行われる。一部の態様では、コンピュータシステムが関与する1または複数の方法ステップは、本明細書に提供される方法の別のステップが行われる国家とは異なる国家において行われる。一部の態様では、データ処理および解析は、本明細書に記載されている方法の1または複数のステップが行われる国家または場所とは異なる国家または場所において行われる。一部の態様では、1種または複数の物品、製品またはデータは、解析またはさらなる解析のために、施設のうち1つまたは複数から1つまたは複数の異なる施設へと転送される。物品は、対象から得られる1種または複数の構成成分、例えば、処理された細胞材料を含むがこれらに限定されない。処理された細胞材料は、RNAから逆転写されたcDNA、増幅されたRNA、増幅されたcDNA、配列決定されたDNA、単離および/または精製されたRNA、単離および/または精製されたDNA、ならびに単離および/または精製されたポリペプチドを含むがこれらに限定されない。データは、対象の層別化に関する情報、および本明細書に開示されている方法によって産生されるいずれかのデータを含むがこれらに限定されない。本明細書に記載されている方法およびシステムの一部の態様では、解析が行われ、その後のデータ伝送ステップは、解析の結果を伝達または伝送するであろう。
J.ウェブブラウザプラグイン
一部の態様では、コンピュータプログラムは、ウェブブラウザプラグインを含む。コンピュータ処理において、プラグインは、より大きいソフトウェアアプリケーションに特異的な機能性を加える1種または複数のソフトウェア構成成分である。ソフトウェアアプリケーションのメーカーは、プラグインを支持して、第三者開発者が、アプリケーションを拡張する能力を創出することを可能にし、新たな特色を容易に加えることを支持し、アプリケーションのサイズを低下させる。支持される場合、プラグインは、ソフトウェアアプリケーションの機能性のカスタマイズを可能にする。例えば、プラグインは、ウェブブラウザにおいて一般的に使用されて、ビデオを再生し、双方向性を生じ、ウイルスをスキャンし、特定のファイル型を表示する。様々な実施形態では、Adobe(登録商標)Flash(登録商標)プレーヤー、Microsoft(登録商標)Silverlight(登録商標)およびApple(登録商標)QuickTime(登録商標)を含む、いくつかのウェブブラウザプラグインを使用することができる。一部の態様では、ツールバーは、1種または複数のウェブブラウザ拡張、アドインまたはアドオンを含む。一部の態様では、ツールバーは、1種または複数のexplorerバー、ツールバンドまたはデスクバンドを含む。
様々な実施形態では、非限定的な例として、C++、デルファイ、Java(登録商標)、PHP、Python(商標)およびVB.NET、またはこれらの組合せを含む様々なプログラミング言語でのプラグインの開発を可能にする、いくつかのプラグインフレームワークを利用できる。
ウェブブラウザ(インターネットブラウザとも呼ばれる)は、ワールドワイドウェブにおいて情報資源を検索、提示および横断するための、ネットワークに接続された電子デバイスによる使用のために設計されたソフトウェアアプリケーションである。適したウェブブラウザは、非限定的な例として、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、Opera Software(登録商標)Opera(登録商標)およびKDE Konquerorを含む。一部の態様では、ウェブブラウザは、モバイルウェブブラウザである。モバイルウェブブラウザ(マイクロブラウザ、ミニブラウザおよび無線ブラウザとも呼ばれる)は、非限定的な例として、ハンドヘルドコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、サブノートブックコンピュータ、スマートフォン、音楽プレーヤー、パーソナルデジタルアシスタント(PDA)およびハンドヘルドビデオゲームシステムを含むモバイル電子デバイスにおける使用のために設計される。適したモバイルウェブブラウザは、非限定的な例として、Google(登録商標)Android(登録商標)ブラウザ、RIM BlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)ブラウザ、モバイルのためのMozilla(登録商標)Firefox(登録商標)、Microsoft(登録商標)Internet Explorer(登録商標)モバイル、Amazon(登録商標)Kindle(登録商標)ベーシックウェブ、Nokia(登録商標)ブラウザ、Opera Software(登録商標)Opera(登録商標)モバイルおよびSony(登録商標)PSP(商標)ブラウザを含む。
K.コンピュータを利用したビジネス方法
本明細書に記載されている方法は、1個または複数のコンピュータを利用することができる。コンピュータは、試料もしくは顧客追跡、データベース管理、分子プロファイリングデータの解析、細胞学的データの解析、データの記憶、課金(billing)、マーケティング、結果の報告、結果の記憶、またはこれらの組合せ等、顧客および試料情報を管理するために使用することができる。コンピュータは、データ、結果、課金情報、マーケティング情報(例えば、人口動態)、顧客情報または試料情報を表示するためのモニターまたは他のグラフィカルインターフェースを含むことができる。コンピュータは、データまたは情報入力のための手段を含むこともできる。コンピュータは、処理装置および固定されたもしくは取り外し可能な媒体、またはこれらの組合せを含むことができる。コンピュータは、コンピュータに物理的に近接しているユーザーによって、例えば、キーボードおよび/もしくはマウス経由で、または物理的なコンピュータに必ずしもアクセスを有するとは限らないユーザーによって、モデム、インターネット接続、電話接続、もしくは有線もしくは無線通信シグナル搬送波等の通信媒体を介してアクセスすることができる。一部の事例では、コンピュータは、ユーザーからコンピュータへとまたはコンピュータからユーザーへと情報を中継するために、サーバーまたは他の通信デバイスに接続することができる。一部の事例では、ユーザーは、取り外し可能な媒体等の媒体上の通信媒体を介して、コンピュータから得たデータまたは情報を記憶させることができる。本方法に関するデータは、関係者による受け取りおよび/または審査のために斯かるネットワークまたは接続をわたって伝送することができることが想定される。受け取る側の関係者は、個人、医療提供者または医療管理者となることができるがこれらに限定されない。一実例では、コンピュータ可読媒体は、生体試料の解析の結果の伝送に適した媒体を含む。媒体は、対象の結果を含むことができ、斯かる結果は、本明細書に記載されている方法を使用して得られる。
試料情報を得るエンティティは、次のうち1種または複数の目的のため、それをデータベースに記入することができる:在庫追跡、アッセイ結果追跡、注文追跡、顧客管理、顧客サービス、課金および販売。試料情報は、顧客氏名、特有の顧客本人証明、顧客関連の医学の専門家、指し示されているアッセイ(単数または複数)、アッセイ結果、妥当性様態、指し示されている妥当性検査、個体の病歴、予備的診断、疑われる診断、試料履歴、保険会社、医療提供者、第三者検査センター、またはデータベースにおける記憶に適したいずれかの情報を含むことができるがこれらに限定されない。試料履歴は、試料の古さ(age)、試料の型、取得方法、貯蔵方法または輸送方法を含むことができるがこれらに限定されない。
データベースは、顧客、医学の専門家、保険会社または他の第三者によってアクセス可能となることができる。データベースアクセスは、コンピュータまたは電話等の電子通信の形態をとることができる。データベースは、顧客サービス担当者、ビジネス担当者、コンサルタント、独立した検査センターまたは医学の専門家等の仲介者を介してアクセスすることができる。アッセイ結果等、データベースアクセスまたは試料情報の利用可能性または程度は、提供されるまたは提供されることになる製品およびサービスのための料金の支払いにより変化し得る。データベースアクセスまたは試料情報の程度は、患者または顧客機密保持のための一般に受け入れられるまたは法的な要件を順守するために制限され得る。
下に示す実施例は、単に説明を目的としており、本明細書に提供される特許請求の範囲の限定を意図するものではない。
(実施例1)
生殖系列マイクロサテライト遺伝子型は、髄芽腫(MB)を有する小児を区別する
序文
髄芽腫(MB)は、一般的な悪性小児期脳腫瘍である。MBを有する小児は未だ生涯にわたる環境曝露およびストレスを経験していないため、MBは主に、遺伝性または自発性の突然変異に起因し得る。大規模ゲノム特徴付けは、MB腫瘍を、少なくとも4種のコンセンサス分子サブグループ:WNT、SHH、群3および群4に分けており、これらはそれぞれ、別個の転写プロファイル、コピー数変更、体細胞突然変異および臨床成績を有する。小児科的脳がんは一般にかつMB特異的に、成人固形腫瘍において典型的に観察されるものの5分の1~10分の1の突然変異を有する。p53、PTEN、RBおよびEGFR等の最も顕著な腫瘍開始遺伝的突然変異が、著しく珍しいものとなる。加えて、公知の遺伝的な腫瘍の素因になる突然変異の発生率は、相対的に低くなることができる。PTCH、SMOおよびCTNNB1の突然変異ならびにMYCおよびMYCNの増幅等、数種の公知遺伝的異常は、個々には、動物モデルにおいてMBを効率的に引き起こすには不十分となり得、ヒト腫瘍の5%未満に見出すことができる増強性バックグラウンド、通常、p53不活性化を要求し得る。MBにおける多数のゲノムワイド関連研究(GWAS)は、非コード領域および反復性DNAを無視しつつ、一塩基バリアントに着目することができた。しかし、生殖系列マイクロサテライト(MS)挿入および欠失(インデル)と、ハンチントン病およびフリートライヒ運動失調症(コード配列におけるマイクロサテライトバリアントに起因する前者と、非コードイントロン配列におけるマイクロサテライトバリアントに起因する後者)等の多数の神経学的障害との間に連鎖が示され得る。さらに、マイクロサテライト変形形態は、いくつかのがんの遺伝的バックグラウンドに寄与することができる。加えて、多くのがん関連遺伝子は、MS座位(例えば、PTENおよびNF1)を含有し、一部の事例では、体細胞MSインデルは必然的に、がんに関係付けられた。これらの知見に基づき、許容的体質的遺伝的環境が、個体の転写および翻訳ランドスケープに影響するDNAマイクロサテライト反復エレメントの協同によって創出され得、これを、基礎を成す細胞プロセスのモジュレーションにより腫瘍形成に対して感受性にする。
MSは、タンデムに反復してアレイを形成する1~6塩基対単位を含むことができる。600,000個を超える特有のMSが、ヒトゲノムに存在し、これらは、遺伝子イントロン、エクソンおよび調節領域に包埋され得る。マイクロサテライト座位の長さは、鎖スリップ複製およびヘテロ接合体不安定性のため、高頻度で変化することができ、対立遺伝子間および個体間で変動する。このような変化は、Z-DNAおよびH-DNAフォールディングの誘導;ヌクレオソームポジショニングの変更;ならびにDNA結合部位のスペーシングの変化によって遺伝子発現に影響を与え得る。非コード変形形態は、それらの位置に近接した遺伝子のDNA二次構造およびタンパク質/RNA結合を変更し、転写および翻訳活性の変化ならびに選択的スプライシングをもたらし得る。これらの理由のため、MSは、遺伝子発現の「チューニングつまみ(tuning knob)」と呼ばれてきた。エクソン内で、3または6塩基対の反復エレメントを含有するマイクロサテライト座位は、コドントリプレットによりインフレームに維持することによりアミノ酸の増減を引き起こし得る;他の非モジュロ(non-modulo)-3の長さは、フレームシフト突然変異を引き起こし得る。MSを有する遺伝子は、神経系障害に不釣合に寄与することができる。タンデム反復、特に、CAGモチーフの拡大に対するこの特定の脆弱性は、神経発生における重要性を指し示すことができる。実際に、反復性エレメントは、神経学的疾患における役割を果たすことができる;ポリグルタミン酸反復は特に、ハンチントン病、脊髄小脳失調症および球脊髄性筋萎縮症における役割を果たすことができる。同様に、バイオインフォマティクス研究は、タンデム反復を受け入れる(hosting)多くの遺伝子が、神経機能を有し得ることを指し示す。
マイクロサテライト遺伝子型決定アルゴリズムの開発およびゲノム配列決定の進歩は、異なる型のがん(乳房、結腸、神経膠腫等)を有する罹患個体から健康個体を区別することができる生殖系列マイクロサテライト遺伝子型の同定を可能にした。本実施例には、その生殖系列DNAに基づき健康個体からMBを有する小児を区別することができるマイクロサテライト遺伝子型のセットが記載されている。
方法
患者試料
生殖系列DNA WESおよび髄芽腫(MB)患者由来のWGSを、次のデータセットからダウンロードした:phs000504、phs000409、EGAD00001000122、EGAD00001000275、EGAD00001000816、およびWaszak, S.M, et. Al(Spectrum and prevalence of genetic predisposition in medulloblastoma: a retrospective genetic study and prospective validation in a clinical trial cohort. The Lancet Oncology, Volume 19, Issue 6 , 785 - 798、その全体を参照により本明細書に組み込む)。その上、TruSeqエクソーム標的濃縮キットおよびIlluminaシーケンサーHiSeq 2500を使用して、6名のMB患者の血液DNA由来のWESを新たに作成した。生殖系列DNA WESおよび健康対照由来のWGSを1000ゲノムからダウンロードした。100名の健康な小児由来の生殖系列DNA WESは、NCT Heidelberg、Heidelberg、GermanyにおけるHopp Children’s Cancer Centerによって提供された。
配列マッピングおよび被覆度
Bowtie2を使用して、WESおよびWGSリードをヒトGRCh38/hg38参照ゲノムにマッピングした。全体的に見て、120種のMB生殖系列試料に関する被覆度は、31×(31.0±18.2)であった。対照群における試料に関する被覆度は、13×(13.4±7.8)であった。
マイクロサテライトリスト作成
ヒト参照ゲノムのバージョンGRCh38/hg38におけるマイクロサテライトのリストを、デフォルトパラメーターを使用したカスタムパールスクリプト「searchTandemRepets.pl」により作成した。このスクリプトは、マイクロサテライト研究において使用することができ、オンラインで自由に利用できる。簡潔に説明すると、「searchTandemRepets.pl」スクリプトは先ず、純粋反復性ストレッチについて探索した:不純物は許されない。次に、10塩基対のデフォルト値による「mergeGap」パラメーターを使用して、不完全反復および複合反復を取り扱った。基本的に、純粋反復配列のストレッチを中断した不純物は、10塩基対を超えない限り許容された。同様に、10塩基対よりも近い反復は、複合と考慮された。その結果、CAGmデータベースにおける反復は高度に純粋であり、複合反復の構成成分も高度に純粋であった。このスクリプトにより作成された初期リストは、1,671,121個のマイクロサテライトを含んだ。マイクロサテライト間の不適切リードマッピングの見込みを軽減するために、5塩基対長3’および5’フランキング領域の間に同じ反復モチーフを保有するマイクロサテライトの全サブセットを除去した。例えば、マイクロサテライト「GCTGC(A)34CTTAG」および「GCTGC(A)15CTTAG」は、マイクロサテライトの初期リストから予防的に除去した。マイクロサテライトは、より大きい反復性モチーフに包埋され得る。フィルタリングされたリストは、ヒトゲノムにおける625,195個の特有のマイクロサテライトを含んだ。
マイクロサテライト遺伝子型決定
プログラムRepeatseqを使用して、次世代配列決定リードにおけるマイクロサテライトの遺伝子型を決定した。Repeatseqは、経験的に導かれた誤差モデルによってガイドされたベイジアンモデル選択を使用する。誤差モデルは、配列ならびにリード特性:単位、長さおよび塩基品質を取り込んだ。Repeatseqは、3種の入力ファイル:参照ゲノム、ヒト参照ゲノムに整列されたリードを含有するファイル(.bamファイル)、および公知マイクロサテライトのリスト(本明細書に開示されている方法およびシステムに従った)において操作した。出力は、最も支持するリードを有する2個の対立遺伝子からなるマイクロサテライト座位毎に遺伝子型を収載する、バリアントコールフォーマット(.vcf)ファイルであった。他のマイクロサテライト遺伝子型決定プログラムに優るRepeatseqの利点は、アレイ長さ検出に先立ち参照ゲノムに各リードを再整列することであった。Repeatseqは、マイクロサテライトの研究において使用することができ、自由に利用できる。
Repeatseqの能力は、体細胞マイクロサテライト可変性:例えば、マイナー対立遺伝子の検出のために拡張された。マイナー対立遺伝子は、遺伝子型の主要対立遺伝子とは別個のものとなることができる;これは、ある年齢として正常組織において体細胞的に取得され得る。マイナー対立遺伝子は、マイクロサテライト変異性の指示として使用された。簡潔に説明すると、マイナー対立遺伝子の検出は、Repeatseq出力に立脚する2つのステップにより可能になった。第一に、再整列されたリードの出力は、Repeatseqへのコールにおいて可能になった。第二に、再整列されたリードは、遺伝子型の全主要対立遺伝子が除去される。残っているリードの中で、少なくとも3個のリードによって支持されるアレイの長さをマイナー対立遺伝子として計数した。しかし、異なる試料におけるマイナー対立遺伝子を比較する場合、代替アプローチを使用した。具体的には、総リード深度の少なくとも20%によって支持されるアレイの長さが、マイナー対立遺伝子として計数される。
統計
他のがんおよび対照に関するマイクロサテライト遺伝子型分布の以前の観察に基づき検出力計算を行って、検証のための検査セットに十分な試料が存在することを保証しつつ、訓練セットのサイズを選択した。0.01のこの帰無仮説の検査に関連した保存的第I種の過誤確率を検証の一部として選んだ。各対象群内の応答は、1の標準偏差により正規分布されていると示すことができる。2の実験および対照平均の真の差について、実験および対照群の集団平均が、120名の実験対象および426名の対照対象による研究について0.99を超える確率(検出力)で等しかったという帰無仮説が拒絶された。よって、訓練セットは、利用できる試料の数により適切に駆動されると予測された。
マイクロサテライト毎に、遺伝子型の分布は、訓練データセットにおける試料の2群:120名のMBおよび425名の健康対照由来の生殖系列DNAにおいて異なった。各事例では、一般化フィッシャー直接検定を使用して、統計的差異を定量化した。簡潔に説明すると、マイクロサテライト毎に、分割表に、2群:MBおよび正常の遺伝子型計数を投入した(図9)。次に、Rにてフィッシャー検定関数を使用して、分割表毎のp-値を計算した。ベンジャミニ・ホッホバーグ多重検定補正(n=43,457個の検定されたマイクロサテライト)を適用して、偽発見率を制御した。
年齢、民族性および配列決定プロトコールについて制御するためのマイクロサテライトフィルタリング
本研究は、MBに特異的な生殖系列マイクロサテライト変形形態を同定するように設計された;具体的には、統計的に有意なマイクロサテライトが、120種のMB試料および425種の健康対照において同定された。しかし、これらの試料は、年齢または配列決定プロトコールについて適合しなかった;さらに、これらは、民族性について部分的にしか適合しなかった。よって、このアプローチは、疾患様態単独よりもむしろ、年齢、配列決定および民族的バイアスによりマイクロサテライトを同定するリスクを有し得る。このリスクを軽減するために、マイクロサテライトを潜在的バイアス(年齢、配列決定または民族性についての)により同定し、これらをその後の解析から除外した。
年齢について制御:その遺伝子型が年齢に伴い非ランダムに変動するマイクロサテライトを同定するために、1,000ゲノムプロジェクト由来の100名の健康なヨーロッパ人の小児および501名のヨーロッパ人の成人を比較した。フィッシャー直接検定は、738個の(29,061個のうち)統計的に有意なマイクロサテライトを同定した:ベンジャミニ・ホッホバーグ補正(p-値<0.05)(図10)。
配列決定プロトコールについて制御:DNA配列決定プロトコール(WGS対WES)に基づき変動するマイクロサテライトを同定するために、1,000ゲノムプロジェクトにおける16名の個体における対にされたWGSおよびWES実験由来の遺伝子型を比較した。37,511個のマイクロサテライトについての遺伝子型の分布を、統計的差異について検定した(フィッシャー直接検定);ベンジャミニ・ホッホバーグ偽発見補正(p-値<0.05)を使用して、157個が異なることが見出された(図11)。この結果は、マイクロサテライトが、特に、大きい挿入または欠失を有する場合、リードマッピングエラーの傾向があるという事実が原因である可能性が高かった。よって、157個の同定されたマイクロサテライトは特に、マッピングエラーのまたはゲノムの高度可変領域に存在する傾向がある可能性がある;これらは、その後の解析から除外された。加えて、37,775個の同定されたマイクロサテライトコールは、134種のWGS試料に存在しなかった。結果的に、これらの37,775個は、リスク、診断または予後のマイクロサテライトに基づくアッセイには使用できなかった;これらは、その後の解析から除外された(図11)。
民族性について制御:民族性に従って変動するDNAマイクロサテライトを同定するために、全て1,000ゲノムプロジェクトに由来する352種のアメリカ人試料および502種のヨーロッパ人試料における遺伝子型の分布を比較および解析した。総計で、184,981回の統計検定を行ったところ、1,037個のマイクロサテライトが、ベンジャミニ・ホッホバーグ偽発見補正(p-値<0.05)を使用して有意に異なることが明らかにされた。さらに、59種の主にヨーロッパ人のMB試料および55種の主にアメリカ人のMB試料の群におけるマイクロサテライト遺伝子型の分布を試験した。そこで、13,899回の検定を為したところ、478個のマイクロサテライトが、ベンジャミニ・ホッホバーグ偽発見補正(p-値<0.05)後に異なることが見出された。両方のリストに存在する71個のマイクロサテライトが同定され、これらはさらなる解析から除外された(図12)。
上述の3ステップから得た特有のマイクロサテライトは、38,653個に達する;全てさらなる解析から除去された。
試料をスコアリングするための計量およびROC解析
試料をスコアリングするための計量:試料をスコアリングするための計量は、その特有のマイクロサテライト遺伝子型分布に基づき設計した。基本的に、計量は、各試料に属する遺伝子型の重みを加えた和であった:重みは、MBおよび健康群における遺伝子型毎の頻度の差から生じた。計量の視覚的概要を図13に示す。
ROC解析:受信者動作特性(ROC)解析を使用して、MBを有する試料を健康対照から区別することができる分類スキームを設計した。簡潔に説明すると、ROC曲線下面積(AUC)を、2群におけるスコアが、2群をどの程度区別するかについての尺度として使用した。次に、あらゆる将来の分類のためにカットオフを選択した。そこで、カットオフは、感度を最小化し、同時に特異度を最大化する単一のスコアであった;これは、ヨーデン指標を使用して同定された。ROC解析、AUC計算およびヨーデン指標最適化は、自由に利用できるRパッケージ:ROCRを使用して行った。
マイクロサテライトのサブセット(遺伝的アルゴリズム)
遺伝的アルゴリズムは、生物学的にインスピレーションを受けたアルゴリズムのクラスとなることができる。簡潔に説明すると、遺伝的アルゴリズムを使用して、139個のセットから、2ステップの繰り返しプロセスを使用して、マーカーの最も情報価値があるサブセットを同定した。先ず、139個のマイクロサテライトマーカーのランダムサブセットによりアルゴリズムを初期化した;次に、成績上位のサブセットを連続的に再度組み合わせ、再度評価し、再度ランク付けした。3種のハイパーパラメーター(例えば、繰り返しアルゴリズムが始まる前のパラメーターセット)を使用して、最大集団サイズ、各サブセットのサイズ、各サブセットの成績、および集団におけるサブセットの多様性を制御した。各ステップおよびハイパーパラメーターの詳細を下に示す。
初期化:初期集団における各サブセットは、総勢139個からランダムに選ばれたマーカーからなった。ハイパーパラメーターは、初期集団サイズおよび各サブセットのサイズを制御する。投入したら、後述する成績計量に基づき初期サブセットをランク付けした。
最適化:各最適化サイクルは、集団に10個の新たなサブセットを置くことにより始まった;これらのうち、7個は、既存集団の2個のメンバー(ランダムに選ばれる)を再度組み合わせることにより作成され、3個は、ランダムに作成された。2個のサブセットを再度組み合わせるために、それぞれを分割した;次に、2個の断片(各サブセットから1個)を再接合した。分割ポイントおよび断片は、ランダムに選ばれた。初期化において3個のランダムサブセットを作成し、これは、集団の多様性の維持に役立つ。新たなサブセットが作成されたら、成績計量に基づき集団を再度ランク付けした。最後に、10個の最も成績が悪いサブセットを廃棄して、集団サイズを維持した。
ハイパーパラメーター:100個のサブセットの集団サイズを初期化し、アルゴリズムを通して使用した。サブセットの最小および最大サイズは、それぞれ8および64個のマーカーに設定した。サブセットにおいて重複マーカーは許されなかった。120種のMB試料および425種の健康対照、例えば、本研究を通して使用された同じ訓練試料を使用したROC解析によって各サブセットの成績を決定した。感度および特異度の和は、各サブセットの成績を指示しており、遺伝的アルゴリズムの各世代における集団のランク付けを行うために使用された。
頑強性:遺伝的アルゴリズムのパラメーターは、コンピュータによる実現可能性のために選ばれた。しかし、遺伝的アルゴリズムの成績は、ハイパーパラメーターの選択に対して感度が低かった。加えて、最適化サイクルの詳細(各サイクルにおける新たなサブセットの数等)は、遺伝的アルゴリズムの結果に影響しなかった。
検証
使用された試料:研究が十分すぎるほどに駆動されていることを保証するために、検証研究において102名の実験対象および428名の対照対象を選んだ。訓練セットを解析する際に見出される対象(MB)および対照分布を使用すると(図7A)、各対象群内の応答は、1.1の標準偏差で正規分布していた。4.4の実験および対照平均の真の差について、実験および対照群の集団平均が、このサイズの試料および対照検証セットによる0.01の第I種の過誤確率について、0.99を超える確率(検出力)で等しかったという帰無仮説に基づき拒絶が為された。訓練および検証において使用された全対照試料を、全エクソーム配列決定に付した。MBについて、収集物は、全エクソームおよび全ゲノム試料の両方を含んだ。全ゲノム配列決定試料を検証のために排他的に使用した。
手順:訓練試料に使用された同じ計量により、各検証試料をスコアリングした。カットオフ(訓練において同定)を使用して、530種の検証試料のうちいずれがMBを有するか、また、いずれが健康対照であるかについて予測した。MBは、カットオフを上回る検証試料のために予測された。予測は、102種のMB試料および428種の健康対照の公知の同一性と比較した。これらの予測の感度および特異度は、訓練に匹敵した。
マイクロサテライト変異性
MBを有する個体が、マイクロサテライト変形形態の傾向が強かったか検査するために、マイクロサテライト毎の遺伝子型決定された対立遺伝子の総数(対立遺伝子ロード)をその変異性の尺度として使用し、この計量を疾患および対照コホートにわたり比較した。生じた計数が2つのエラー源に対して頑強となるように、対立遺伝子を定義した:(a)PCRアーチファクトの潜在的効果は、各対立遺伝子が、少なくとも2個のリードによって支持されることを要求することにより軽減され;(b)試料にわたるリード被覆度の差に対して正規化するために、各対立遺伝子は、マイクロサテライトにマッピングされたリードの総数の少なくとも20%によって支持されることが要求された。対立遺伝子は、試料の少なくとも20パーセントに存在するマッピングされたリードを有するマイクロサテライトに対してのみ計数された。次に、フィッシャー直接検定を行って、MB患者および健康個体の間の統計的有意性を確立した。このプロセスを、0.077の平均p-値により50回反復した。
2つの追加的な証拠を使用して、髄芽腫生殖系列におけるミスマッチ修復機構の統合性も評価した:(a)MBおよび対照試料における全(総計71,192)マイクロサテライトにわたり符合した、ホモ接合体およびヘテロ接合体遺伝子型;ならびに(b)MBおよび対照試料における全マイクロサテライト(総計71,192)にわたるマイクロサテライトアレイ長さ中央値の比較。前者の解析のため、異常ミスマッチ修復は、ヘテロ接合体遺伝子型の計数を増加させると予想することができる;しかし、症例および対照試料の差は、統計的に有意ではなかった。髄芽腫試料は共に、299,802個のヘテロ接合性遺伝子型および2,596,324個のホモ接合性遺伝子型を有した;対照試料は、283,037個のヘテロ接合性遺伝子型および2,449,046個のホモ接合性遺伝子型を有した。後者の解析のため、異常ミスマッチ修復は、対照と比較して、髄芽腫試料におけるより長いまたはより短いマイクロサテライトアレイ長さ中央値の蓄積をもたらすと予想することができる;重ねて、結果は、統計的に有意ではなかった。髄芽腫試料は、1,031個のマイクロサテライトについてより短いアレイ長さ中央値を、907個のマイクロサテライトについてより長いアレイ長さ中央値を有した;残っている69,254個のマイクロサテライトは、アレイ長さ中央値に差がなかった。
下流解析
その遺伝子型がMB対象および対照の間で有意に異なった139個のマイクロサテライト座位に関連する遺伝子を機能解析のために使用した。総計で、遺伝子間領域に位置するマイクロサテライトを除外して、124種の遺伝子が解析に含まれた。Ingenuity Pathway Analysis(QIAGEN Inc.)を使用して、経路解析を行った。PedcBioPortalを使用して、突然変異および同時発生事象を解析した。0.7の最小相互作用スコアを有するSTRING(高い信頼)および第1のシェルにおける5分子以下により、タンパク質-タンパク質相互作用(PPI)ネットワーク構築を行った。この設定は、129個のノードおよび49個のエッジを有するハブを作成し、0.0007のPPIエンリッチメントp-値を有するネットワークをもたらした。
結果
髄芽腫マイクロサテライトの情報価値がある座位の同定
一塩基突然変異は、MBゲノムワイド解析において特徴付けることができる。そこで、髄芽腫素因におけるマイクロサテライト変形形態の影響について研究した。この目的のため、コンピュータによるワークフローを開発して、年齢、民族性およびDNA配列決定プロトコールに伴い変動するものを補正しつつ、その遺伝子型が髄芽腫を有する小児および対照対象の間で異なる生殖系列マイクロサテライトを同定した(図6)。計量も開発して、マイクロサテライト遺伝子型のその特有の収集物に基づき各試料をスコアリングした。本アプローチを、222名の髄芽腫を有する小児および853名の健康対照対象由来の生殖系列DNA配列決定データに適用した。データを2群に分け、両者共に罹患および健康対象を含有し、第1の群は、120名の髄芽腫患者および425名の対照個体を含有する訓練するための群であり、第2の群は、102名の髄芽腫患者および428名の対照個体を有する検証のための群である。解析の第1段階において、訓練セットを使用して、120種の髄芽腫試料および425種の健康対照の両方に存在する43,457個の異なるマイクロサテライトを遺伝子型決定した。これらのマイクロサテライトのそれぞれについて、一般化フィッシャー直接検定を使用して、マイクロサテライト毎に2群間の遺伝子型分布における統計的差異を評価した。p-値<0.05により2,094個のマイクロサテライトを同定した。ベンジャミニ・ホッホバーグ多重検定補正(α=.05)後に、422個が、偽発見に合格した。3つの追加的なステップを行って、年齢、民族性およびDNA配列決定プロトコールに伴い変動するマイクロサテライトを除去した(図6、図10、図11および図12)。総計で、283個のマイクロサテライトを422個のリストから除去し、139個の低下したリストをもたらした(図19)。まとめると、本アプローチは、その遺伝子型が髄芽腫対象および健康対照の間で有意に異なった、139個のマイクロサテライトを生殖系列DNAから同定した。
髄芽腫マイクロサテライト分類子セット
髄芽腫試料および健康対照の区別において最良の成績を有するマイクロサテライトのサブセットを同定するために、139個のマイクロサテライトのセットを使用して、髄芽腫分類子を訓練した。先ず、計量を、139個のマイクロサテライトの遺伝子型に基づき各髄芽腫および対照試料をスコアリングするように設計した(詳細については方法および図13を参照)。次に、受信者動作特性(ROC)を作成および使用して、髄芽腫のためのバイナリ分類子として機能する試料スコアの能力を決定した。遺伝的アルゴリズム方法に基づくサブセット最適化戦略を使用して、2ステップの繰り返しプロセスを使用して識別マーカーの最良のサブセットを同定した。第一に、完全リストからサブセットをランダムに作成し、そのF-尺度によってランク付けした。第二に、成績上位のサブセットを連続的に混合し、再度評価し、再度ランク付けした。アルゴリズムは、87サイクルにおいて収束して、0.90のF-尺度および0.962の曲線下面積(AUC)による43個のマイクロサテライトのサブセットを明らかにした(図7、図20)。健康対照から髄芽腫試料を区別するための最適カットオフスコアが0.155であったことを指し示す、ヨーデン指標を決定した(図14)。0.92の特異度で、訓練セットに適用される場合の感度は、0.88であった(図7B)。ヒトゲノムにおけるこれら43個のマーカーの染色体位置を図15に示す。よって、43個のマイクロサテライトのセットを同定したところ、これらの遺伝子型分布は、88%感度および92%特異度で、健康対照から髄芽腫患者を区別することができた。
髄芽腫患者および健康対照由来の生殖系列DNAの独立したコホートを使用して、以前の結果を検証した。検証研究のため、102名の実験対象および428名の対照対象が含まれており、訓練セットを解析する際に見出される対象(髄芽腫)および対照分布を使用して(図7)、研究が十分すぎるほどに駆動されていることを保証した。訓練セットにおいて、各対象群内の応答は、1.1の標準偏差により正規分布された。4.4の実験および対照平均の真の差について、実験および対照群の集団平均が、このサイズの試料および対照セットによる0.01の第I種の過誤確率について、0.99を超える確率(検出力)で等しかったという帰無仮説の拒絶が為され得ることが見出された。最適カットオフ(0.155)を独立した検証試料セットに適用したところ、分類子が、0.95の感度および0.90の特異度で、対照から症例を区別することができたことが見出された(図7Cおよび図7D)。まとめると、高い感度および特異度で、生殖系列DNAを使用して、その遺伝子型分布が、健康対照からMB患者を区別することができると同定および検証された43個のMSのセットが得られた。
髄芽腫の情報価値があるマイクロサテライト座位の変異性
生殖系列において、MSにおけるインデルの率は、ゲノムにおける他の箇所の一塩基置換の率よりも有意に高く、それぞれ世代当たり座位当たり10-8と比較して、10-4~10-3である。しかし、突然変異率も、反復の長さ、その反復性モチーフ、およびDNAフォールディングにおける影響に基づき異なるMSについて変動する。その遺伝子型がMBと非ランダムに関連した、139個のMSに見出された差(図20)が、MBを有する個体に固有のマイクロサテライト遺伝子型変形形態の増加の結果となり得ることが仮定された。MBを有する個体が、マイクロサテライト変形形態の傾向が強かったか検査するために、マイクロサテライト毎の遺伝子型決定された対立遺伝子の総数(対立遺伝子ロード)をその変異性の尺度として使用し、この計量を疾患および対照コホートにわたり比較した。健康およびMB個体の間で遺伝子型決定された対立遺伝子の数に有意差はなく、MB患者において全般的なマイクロサテライト不安定性が存在しなかったという結論を支持する。対立遺伝子ロードによりMSの全てをランク付けすることにより、情報価値があるマイクロサテライトそれ自体の特徴関連について、予測能力を調査して、139個のマーカーが、解析された最も変異できる座位の中に存在するか否か決定した。これらはより変異できるMSの中に存在したが、最も変異できる部位を含まなかったことが見出された。その上、ホモ接合体およびヘテロ接合体遺伝子型の数ならびにマイクロサテライトアレイの長さを、MBにおける可変性の潜在的な供給源として比較した。両方の事例において、MBおよび対照生殖系列DNAの間に統計的に有意な差はなかった。これらの結果およびデータは、MBとこれらの139個のMSの関連が、単純に体質的な高変異性の結果という訳ではなく、これらの個々のマイクロサテライトの遺伝子型の帰結であったことを指し示す。
情報価値があるMST関連遺伝子の役割
その遺伝子型がMBおよび対照試料の間で異なった139個のMS座位のうち、114個はイントロン領域に、15個は遺伝子間領域に、6個は3’UTRに、3個はエクソン領域に、1個は5’UTRに位置した(図8A)。これらの遺伝子の潜在的機構的役割を理解するために、Ingenuity Pathway Analysis(登録商標)を行って、情報価値があるMS座位(遺伝子間領域に位置するMSを除外)に関連する124種の遺伝子を解析した。解析は、細胞周期、DNA複製、組換えおよび修復、ならびに細胞成長および増殖等、がんおよび分子細胞機能との統計的に有意な関連を明らかにし、がん生物学との関係性を指し示す(図8Bおよび図21)。情報価値があるMSに関連するこれらの124種の遺伝子における突然変異の出現を、cBioportalにおいて利用できる4種のMBコホートにおいて試験した。MB腫瘍における公知の低い突然変異率にもかかわらず、MBがん試料の平均して17%は、ニューロブラストーマ腫瘍の4.5%と比較して、これらの124種の遺伝子のうち少なくとも1種に突然変異を含有した(図22)。cBioportal内のSick Kids 2016データセットを使用した突然変異同時発生の解析は、あらゆる可能な(9,591=139(139-1)/2)マイクロサテライト対のうち135対が、有意に同時に発生することが見出された(p-値<0.05)ことを指し示した。2名の患者が、それぞれ20および10個のMB情報価値があるMS座位において突然変異の同時発生を有すると見出された(図23)。
タンパク質-タンパク質相互作用(PPI)ネットワークは、情報価値があるMS座位に関連する124種の遺伝子で構成されており(図8C)、129個のノードおよび49個のエッジを含有することが見出され、0.0007のPPIエンリッチメントp-値によるネットワークをもたらす。入力として使用されるタンパク質の数の少なさにもかかわらず、有意なハブは、MB腫瘍における顕著な経路(PI3K/AKT/mTOR)であるmTORに関係した。
3個の情報価値があるマイクロサテライト座位は、タンパク質コード配列に位置した(図8A);これらの全ては、トリヌクレオチド反復であった(RAI1、BCL6B、TNS1)。トリヌクレオチド反復の変形形態は、ハンチントン病、脊髄小脳失調症および脆弱X症候群等の神経学的および神経筋疾患の原因として認識された。これらの遺伝子のうち2種(RAI1、BCL6B)は、第17染色体の短腕に位置する転写因子であり、その欠失は、MB腫瘍の最も一般的なサブグループにおける反復性変更であった。BCL6B遺伝子は、結腸、胃および肝がんに関係付けられており、MB腫瘍におけるメジャー遺伝子型は、33/33であり、一方、対照においては30/33である(図16);この読み枠において、コドンCAGは、セリンに翻訳された。RAI1(レチノイド酸誘導性タンパク質)は、そのハプロ不全がスミス・マゲニス症候群を引き起こす、未知機能を有する核タンパク質をコードする。MB腫瘍におけるRAI1の2種のメジャー遺伝子型は、38/41および41/41であり、一方、対照では、38/38および38/41であった(図16)。RAI1タンパク質構造の変化の誘導は別として、短いポリグルタミン拡大も、転写因子活性をモジュレートすると考えられた。RAI1タンパク質は、MB腫瘍が生じる領域である小脳において高度に発現される。
本研究において、139個のMSのセットが、MB患者および健康対照の間で異なる遺伝子型を保有すると同定された。43個のMSのサブセットは、それぞれ0.95および0.90の感度および特異度で、その生殖系列DNAに基づき、対照からMB個体を区別することができた。
本研究は、3セットのマイクロサテライトを同定した:(a)髄芽腫試料および健康対照を一緒に区別した43個のマイクロサテライト;(b)髄芽腫試料および健康対照の間で統計的に異なる遺伝子型を有した139個のマイクロサテライト;ならびに(c)初期スクリーニングにおいて同定された422個のマイクロサテライト。全3セットにおけるマイクロサテライトは、偽発見に合格した。初期スクリーニングにおいて同定されたマイクロサテライトのセット(c)は、年齢、民族性および/またはDNA配列決定に対して感度が高い283個を含有した;結果的に、いずれもその後の解析に使用されなかった。民族的バイアスを有するマイクロサテライトの一部も、髄芽腫において役割を有する場合がある。多くの疾患(髄芽腫が含まれる)の有病率は、民族的な差を示すことができる。よって、283個のマイクロサテライトの再試験は、もう一度実現可能となることができ、髄芽腫を引き起こす遺伝的機構について公知である。
さらに、139個のマイクロサテライトの群(b)および43個のマイクロサテライトのそのサブセット(a)の間の関係性を調査した:後者は、健康対照から髄芽腫試料を区別したが、前者は区別しなかった。43個のマイクロサテライトのセットにおける突然変異は、遺伝子発現により大きい影響を有し得る;または、これらのマイクロサテライトを有する遺伝子は、疾患開始により大きい効果を有し得る。これは、43個のセットにおける2個のコードマイクロサテライトの存在によって支持され得る;両方の事例において、突然変異は、タンパク質一次構造に直接的影響を有し、二次構造および機能に潜在的影響を有し得る。加えて、43個のマイクロサテライトのセットは、5’および3’UTR領域に包埋されるより大きい比率を有した;これは、これらの領域におけるMSが、遺伝子発現/翻訳により強く影響したという可能性がある。これらの指示は、腫瘍組織において情報価値があるマイクロサテライトを有するこれらの遺伝子の発現研究により決定することができる。
これらの結果は、BCL6BおよびRAI1遺伝子に埋め込まれたポリグルタミンマイクロサテライトが、髄芽腫において役割を果たし得ることを指し示す。181個のポリグルタミンマイクロサテライトのみ(627,174個のうち)が、スクリーニングされたマイクロサテライトの完全リストに存在した。よって、機会単独は、最終リストの43個の情報価値があるマイクロサテライトにおける2個の存在を説明することができない;コンピュータシミュレーションを使用して、ランダムに起こるこの機会が、およそ1,000,000回に1回であることが推定された。第二に、ポリグルタミンマイクロサテライトは、脊髄および延髄性筋萎縮症、ハンチントン病ならびに様々な脊髄小脳失調症等の疾患における役割を果たすことができる。さらに、BCL6BおよびRAI1遺伝子の両方が、疾患に関連することができ;前者はリンパ腫に、後者はスミス・マゲニス症候群に関連することができる。ポリグルタミン病は、不溶性タンパク質凝集物によって特徴付けることができる:これは一部のがんには見られない。他方では、ポリグルタミン拡大は、影響されたタンパク質に応じて機能の獲得および喪失の両方を付与することができる。
本研究は、2つの全体的な結論を実証した。第一に、同定されたマイクロサテライト(特に、139個のセットおよび43個のサブセット)は、髄芽腫病因学における役割を果たすことができる。マイクロサテライトアレイ長さ変形形態の効果は、DNA二次構造、ヌクレオソームポジショニングおよびDNA結合部位における効果を含んだ。同定されたマイクロサテライトのうち3個は、タンパク質一次配列に影響した。マイクロサテライトは、健康対照からの髄芽腫を有する個体の区別を支援することができる;分類スキームは、それぞれ0.95および0.90の高い感度および特異度を実証した。
髄芽腫のための処置は、サバイバーに、難聴、失認、内分泌疾患、ならびに高められた発作および続発性悪性病変リスクを含む生涯にわたる負担を残し得る。髄芽腫の発症のリスクがある集団の同定は、低い侵襲性、より限局化された腫瘍制御手段を可能にする早期検出戦略を可能にし得る。しかし、このような小児の生活を改善する有効な仕方は、その腫瘍形成を防止するものとなることができる。がんワクチンを含む免疫療法の近年の進歩は、腫瘍特異的抗原に対して個体を免疫化する潜在力を創出する。斯かる戦略は、斯かる介入に適切な個体の選択を要求し得る。
(実施例2)
情報価値があるマイクロサテライトマーカーの同定
状態を有する対象(第1の群)および健康対照(第2の群)の両方の核酸配列の試料を、パブリックドメインデータベースから得る。両方の群でマイクロサテライト座位が同定される。マイクロサテライトを比較して、第1の群のみに見出され、状態に特異的に関連または相関するマイクロサテライト座位の差を明らかにする。統計的解析およびモデル化は、状態に対するその関連または相関について、これらの異なるマイクロサテライトに適用される。一部の実例では、マイクロサテライトに統計的に重みを加える。マイクロサテライトのセットが、状態に強く関連付けられると同定された後に、これらのマイクロサテライトは、訓練アルゴリズムへとアセンブルされて、状態に対するこれらのマイクロサテライト関連付けの精度、感度および特異度をさらに最適化する。訓練中のマイクロサテライトをランダムに再度組み合わせて、マイクロサテライトの追加的な組合せを作成することができる。訓練の完了後に、試料の追加的な独立したセットによりアルゴリズムを検証することができる。
例えば、がん患者および対応する健康対照の核酸配列を、それぞれがんゲノムアトラス(TCGA)および1000ゲノムプロジェクトからダウンロードする。両方の群でマイクロサテライト座位が同定される。2群間のマイクロサテライトの比較は、がん患者群のみに見出され、がんの型に特異的に関連または相関するマイクロサテライト座位の集団を明らかにする。次に、がんの型に関連付けられたこれらのマイクロサテライトは、訓練アルゴリズムに付されて、がんへの関連付けにおけるこれらのマイクロサテライトの精度、感度および特異度を増強する。訓練の完了後に、アルゴリズムは、がんを有するまたは健康対照に由来する試料の追加的なセットにより検証される。検証後に、アルゴリズムは、患者試料による適用の準備ができている。
(実施例3)
患者におけるリスク評価
ルーチンの健康検査の際に対象から血清試料を単離する。血清試料からDNAを抽出し、配列決定する。配列決定データを処理および解析して、対象に特有のマイクロサテライトのセットを得る。次に、対象のマイクロサテライトおよび汎がんデータベース由来のマイクロサテライトの間の比較に基づきがんを発症するリスクを決定するように設計されたコンピュータに実行される方法を使用して、マイクロサテライトのこのセットを解析する。同定された情報価値があるマイクロサテライトのそれぞれに、0~1の間に及ぶ重みを割り当てる。同定されたマイクロサテライトの精度、感度および特異度に基づき重みを作成する。次に、重みの和を決定し、1つの型のがんを発症する見込みのための分類子の創出に使用する。次に、汎がん分類子をコンパイルし、対象のリスク評価のために、複数のがんを発症する複数の見込みのための複数の分類子を報告する。汎がん分類子は、がん、例えば、乳がん、肺がん、前立腺がん、子宮頸部がん、多形神経膠芽腫、子宮体部子宮内膜癌、結腸腺癌、膀胱、尿路上皮癌、頭頸部扁平上皮癌、子宮頸部扁平上皮癌および子宮頸管内腺癌、胃腺癌、甲状腺癌、脳低悪性度神経膠腫、腎臓の乳頭状腎細胞癌、および肝臓の肝細胞癌を発症する対象の見込みのリスク評価を提供する。
対象は、検査室報告によってリスク評価を通知される(図5および図17)。検査概要と共に、患者、医療専門家および血清試料の情報が収載される。概要は、対象には現在がんがないが、対象のゲノムに、対象が肺がんを発症する見込みを増加させるいくつかの同定されたマイクロサテライトが存在することを明らかにする。肺がんを発症する見込みの分類子は、数値的出力を含み、肺がんを発症する見込みの閾値と比較される。肺がんを発症する見込みの閾値は、0.1~0.5の1標準偏差範囲で、0.3である(図24)。対象のための肺がんを発症する見込みの分類子は、2.3であり、この値は、対象が、将来がんを発症する可能性が非常に高いことを指し示す。したがって、対象の肺および呼吸器系に対して追加的な臨床上の注意が払われる。より多くのルーチンの肺イメージングが定期的に行われることが推奨される。対象はまた、喫煙を始めないように、また、公知エアロゾル化発癌物質を有するある特定の環境への延長された曝露を回避するように勧告される。さらに、概要は、リスク評価のパラメーター、例えば、利用される統計方法および閾値の種類、ならびに解析されるマイクロサテライト座位の数に関する概略を提供する。
(実施例4)
マイナー対立遺伝子を使用したゲノム年齢の測定
初代皮膚線維芽細胞由来のDNAの試料を、17歳のときに、また、再度30歳のときに対象から得る。DNA-seqライブラリを構築し、その後、次世代配列決定プラットフォームにより配列決定し、hg19にマッピングする。濃縮を実行して、マイナー対立遺伝子が集団において生じる傾向があるホットスポットを濃縮することができる。最小で5個のリードを有するマイナー対立遺伝子は、サンガー配列決定により独立に確認される。真陽性マイナー対立遺伝子を解析し、重みを加える。マイナー対立遺伝子が現れる位置の例は、遺伝子の上流または下流、エクソン領域、遺伝子間領域、イントロンおよびエクソンにまたがる領域、3’UTR、ならびに5’UTRを含む。マイナー対立遺伝子は、非同義バリアント、同義バリアント、フレームシフトインデル、非フレームシフトインデル、ストップゲイン、ストップロス、またはこれらの組合せとなることができる。
17歳のときに得られる試料およびhg19参照配列の間の比較から得られるマイナー対立遺伝子をコンピュータに実行される方法によって解析して、ゲノム年齢を明らかにする。マイナー対立遺伝子またはマイナー対立遺伝子の座位の数の増加は、対象の実年齢および体力よりも老化したゲノム年齢に寄与し得る。同じ対象から17歳および30歳のときに得られる試料を互いに比較して、同じ対象内のマイナー対立遺伝子のパターンの追加的な蓄積またはシフトを明らかにすることができる。17歳および30歳の間のマイナー対立遺伝子の比較は、対象が、マイナー対立遺伝子の総数に僅かな増加を有することを明らかにする。この増加をコンピュータに実行される方法によって解析して、対象における加速されたゲノム加齢速度を明らかにする。したがって、対象は、栄養のバランスおよび精神的ストレスの低下を強調するある特定の生活習慣を導入するように勧告される。
本実施例の好まれる態様について本明細書に示し記載してきたが、当業者には、斯かる態様が、単なる例として提供されていることが明確となるであろう。当業者であれば、本開示から逸脱することなく、多数の変形形態、変化および置換に気付くであろう。本開示の実施において、本明細書に記載されている本開示の態様の様々な代替を用いることができることを理解されたい。次の特許請求の範囲が、本開示の範囲を定義すること、また、斯かる特許請求の範囲内の方法および構造ならびにそれらの均等が、それによって網羅されることが意図される。

Claims (61)

  1. 状態のための最適化された分類子を構築するためのコンピュータに実行される方法であって、複数のマイクロサテライトのサブセットを、複数の最適化サイクルにおける前記状態のための分類子としてランク付けするステップを含み、前記複数のマイクロサテライトの前記サブセットが、前記状態と相関するマイクロサテライトの初期集団におけるマイクロサテライトを含み、これにより、前記マイクロサテライトの前記サブセットの最適化されたサブセットを、前記状態のための前記最適化された分類子として同定する、方法。
  2. 前記状態を有する対象由来の試料の第1のセットにおけるマイクロサテライト、および前記状態を有しない対象由来の試料の第2のセットにおけるマイクロサテライトを比較し、これにより、マイクロサテライトの前記初期集団を同定するステップをさらに含む、請求項1に記載の方法。
  3. 前記ランク付けするステップが、マイクロサテライトの前記サブセットを、前記状態を有する対象由来の試料におけるマイクロサテライトおよび前記状態を有しない対象由来の試料由来のマイクロサテライトと比較するステップを含む、請求項1に記載の方法。
  4. 前記複数の最適化サイクルの最適化サイクルにおけるランク付けにおける使用のために、マイクロサテライトの前記初期集団からマイクロサテライトの初期サブセットの集団をランダムに選ぶステップを含む初期化をさらに含む、請求項1に記載の方法。
  5. マイクロサテライトの前記初期集団の少なくとも100個のサブセットの集団が、前記複数の最適化サイクルにおいて使用される、請求項1に記載の方法。
  6. マイクロサテライトの前記サブセットのサブセットにおけるマイクロサテライトの最小数が、8である、請求項1に記載の方法。
  7. マイクロサテライトの前記サブセットのサブセットにおけるマイクロサテライトの最大数が、64である、請求項1に記載の方法。
  8. 重複マイクロサテライトが、マイクロサテライトの前記サブセットのサブセットにおいて許可されない、請求項1に記載の方法。
  9. 前記ランク付けするステップが、(i)マイクロサテライトの前記サブセット、(ii)前記状態を有する対象由来の試料におけるマイクロサテライト、および(iii)前記状態を有しない対象由来の試料におけるマイクロサテライトを使用して、受信者動作特性(ROC)解析を行うステップを含む、請求項1に記載の方法。
  10. 前記複数の最適化サイクルの最適化サイクルにおける前記ランク付けするステップが、前記サブセットの各サブセットにおけるマイクロサテライトの感度および特異度の和を、前記状態のための前記分類子として決定するステップを含む、請求項9に記載の方法。
  11. 前記複数の最適化サイクルの最適化サイクルが、マイクロサテライトの前記初期集団の10個の新たなサブセットを、前記複数の最適化サイクルの以前の最適化サイクル由来のサブセットに加えるステップを含む、請求項10に記載の方法。
  12. 前記10個の新たなサブセットのうち7個が、前記以前の最適化サイクル由来の2個のランダムに選ばれたサブセットをランダムに分割し再度組み合わせることにより作成され、前記10個の新たなサブセットのうち3個が、マイクロサテライトの前記初期集団からマイクロサテライトをランダムに選択することにより作成される、請求項11に記載の方法。
  13. 少なくとも一部には、前記最適化サイクルにおいて最低ランク付けを有することに基づき、前記最適化サイクルにおける前記サブセットの10個のサブセットを廃棄するステップをさらに含む、請求項12に記載の方法。
  14. 前記状態が、対象における健康状態の存在または非存在を含む、請求項1に記載の方法。
  15. 前記状態が、対象における健康状態を発症する見込みの増加または減少を含む、請求項1に記載の方法。
  16. 前記状態が、対象が健康状態の処置から利益を得る見込みの増加または減少を含む、請求項1に記載の方法。
  17. 前記状態が、対象が健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少を含む、請求項1に記載の方法。
  18. 前記状態が、健康状態のための処置に対する対象の応答性を含む、請求項1に記載の方法。
  19. 前記状態が、対象における健康状態の予後を含む、請求項1に記載の方法。
  20. 前記健康状態が、がんである、請求項14から19のいずれか一項に記載の方法。
  21. 前記がんが、肺がんである、請求項20に記載の方法。
  22. 前記健康状態が、神経学的疾患である、請求項14から19のいずれか一項に記載の方法。
  23. 前記健康状態が、心血管疾患である、請求項14から19のいずれか一項に記載の方法。
  24. コンピュータに実行される方法であって、複数のパラメーターを使用して、対象由来の試料由来の状態のための分類子の値を決定するステップを含み、前記複数のパラメーターの各パラメーターが、前記状態を有する対象由来の試料または前記状態を有しない対象由来の試料由来の複数のマイクロサテライトのそれぞれの相関の統計的尺度である、方法。
  25. 前記複数のパラメーターが、複数の重みを含む、請求項24に記載の方法。
  26. 前記複数の重みが、複数の最適な重みを含む、請求項25に記載の方法。
  27. 前記複数の最適な重みを決定するステップをさらに含む、請求項26に記載の方法。
  28. 前記複数の最適な重みを決定する前記ステップが、標準回帰解析を前記複数の重みに適用するステップを含む、請求項27に記載の方法。
  29. 前記複数の最適な重みを決定する前記ステップが、遺伝的アルゴリズムの使用を含む、請求項24に記載の方法。
  30. 前記分類子の前記値を決定する前記ステップが、マイナー対立遺伝子頻度データを使用するステップを含む、請求項24に記載の方法。
  31. 前記複数のマイクロサテライトが、少なくとも10個のマイクロサテライトを含む、請求項24に記載の方法。
  32. 前記複数のマイクロサテライトのそれぞれが、前記状態と相関する、請求項24に記載の方法。
  33. 前記分類子の前記値を閾値と比較するステップをさらに含む、請求項24に記載の方法。
  34. 前記状態が、対象における健康状態の存在または非存在を含む、請求項24に記載の方法。
  35. 前記状態が、対象における健康状態を発症する見込みの増加または減少を含む、請求項24に記載の方法。
  36. 前記状態が、対象が健康状態の処置から利益を得る見込みの増加または減少を含む、請求項24に記載の方法。
  37. 前記状態が、対象が健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少を含む、請求項24に記載の方法。
  38. 前記状態が、健康状態のための処置に対する対象の応答性を含む、請求項24に記載の方法。
  39. 前記状態が、がん、心血管疾患または神経学的疾患である、請求項34から38のいずれか一項に記載の方法。
  40. 前記がんが、肺がんである、請求項39に記載の方法。
  41. 対象のゲノム年齢を決定するコンピュータに実行される方法であって、
    a)対象由来の第1の試料におけるマイクロサテライトマイナー対立遺伝子特徴を決定するステップと、
    b)前記マイクロサテライトマイナー対立遺伝子特徴を参照により処理するステップと、
    c)前記処理するステップに基づき、前記対象の前記ゲノム年齢を決定するステップと
    を含む方法。
  42. 前記処理するステップが、前記マイクロサテライトマイナー対立遺伝子特徴を前記参照と比較するステップを含む、請求項41に記載の方法。
  43. 前記マイナー対立遺伝子特徴が、遺伝子座におけるマイナー対立遺伝子の数である、請求項41に記載の方法。
  44. マイナー対立遺伝子の前記数が、少なくとも3個の次世代配列決定配列リードによって支持される、請求項43に記載の方法。
  45. 前記マイナー対立遺伝子特徴が、遺伝子座における主要対立遺伝子のリードの総数に対して正規化されたマイナー対立遺伝子のリードリードの総数である、請求項41に記載の方法。
  46. 前記対象由来の前記第1の試料の次世代配列決定を行って、前記対象のマイクロサテライトの配列リードを作成するステップをさらに含む、請求項41に記載の方法。
  47. 前記第1の試料が、血液、唾液または腫瘍を含む、請求項46に記載の方法。
  48. 操作c)の後に、前記対象由来の第2の試料におけるマイナー対立遺伝子特徴を決定するステップをさらに含む、請求項45に記載の方法。
  49. 前記対象由来の前記第1の試料における前記マイナー対立遺伝子特徴および前記対象由来の前記第2の試料における前記マイナー対立遺伝子特徴を評価するステップと、前記評価するステップに基づき、前記対象のゲノム加齢の速度を決定するステップとをさらに含む、請求項47に記載の方法。
  50. コンピュータに実行される方法であって、
    a)対象由来の試料におけるマイクロサテライトを使用して、前記対象由来の前記試料のための複数の分類子を決定するステップと、
    b)複数の状態のための複数の参照分類子により、前記複数の分類子を処理するステップと、
    c)前記処理するステップに基づき、前記複数の状態の中から、前記対象のために少なくとも1種の状態を決定するステップと
    を含む方法。
  51. 前記処理するステップが、前記複数の分類子を前記複数の状態のための前記複数の参照分類子と比較するステップを含む、請求項50に記載の方法。
  52. 前記複数の状態のうち前記少なくとも1種の状態が、前記対象の複数の健康状態の中からの少なくとも1種の健康状態の存在または非存在を含む、請求項50に記載の方法。
  53. 前記複数の状態のうち前記少なくとも1種の状態が、前記対象の複数の健康状態の中からの少なくとも1種の健康状態を発症する見込みの増加または減少を含む、請求項50に記載の方法。
  54. 前記複数の状態のうち前記少なくとも1種の状態が、前記対象が、前記対象の複数の健康状態の中からの少なくとも1種の健康状態の処置から利益を得る見込みの増加または減少を含む、請求項50に記載の方法。
  55. 前記複数の状態のうち前記少なくとも1種の状態が、前記対象が、前記対象の複数の健康状態の中からの少なくとも1種の健康状態の処置による有害事象の増加したリスクを有する見込みの増加または減少を含む、請求項50に記載の方法。
  56. 前記複数の状態のうち前記少なくとも1種の状態が、前記対象の複数の健康状態の中からの少なくとも1種の健康状態のための処置に対する前記対象の応答性を含む、請求項50に記載の方法。
  57. 前記複数の健康状態が、複数のがんを含む、請求項51から56のいずれか一項に記載の方法。
  58. 前記複数のがんが、卵巣がん、乳がん、低悪性度神経膠腫、神経膠芽腫、肺がん、前立腺がんまたは黒色腫を含む、請求項57に記載の方法。
  59. 前記複数の健康状態が、複数の神経学的疾患または複数の心血管疾患を含む、請求項50に記載の方法。
  60. 1個または複数のプロセッサーによって実行されると、前記1個または複数のプロセッサーに、請求項1から59のいずれか一項に記載の方法を行わせる実行可能命令を含む、非一時的コンピュータ可読媒体。
  61. 請求項60に記載の非一時的コンピュータ可読媒体における前記命令を実行するように構成されたハードウェアプロセッサーを含む、コンピュータシステム。
JP2021563182A 2019-04-22 2020-04-21 マイクロサテライト解析のための方法およびシステム Pending JP2022530088A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962837109P 2019-04-22 2019-04-22
US62/837,109 2019-04-22
PCT/US2020/029145 WO2020219463A1 (en) 2019-04-22 2020-04-21 Methods and systems for microsatellite analysis

Publications (2)

Publication Number Publication Date
JP2022530088A true JP2022530088A (ja) 2022-06-27
JPWO2020219463A5 JPWO2020219463A5 (ja) 2023-04-27

Family

ID=72941731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021563182A Pending JP2022530088A (ja) 2019-04-22 2020-04-21 マイクロサテライト解析のための方法およびシステム

Country Status (11)

Country Link
US (1) US20220189583A1 (ja)
EP (1) EP3959341A4 (ja)
JP (1) JP2022530088A (ja)
KR (1) KR20220011630A (ja)
CN (1) CN114026253A (ja)
AU (1) AU2020260998A1 (ja)
BR (1) BR112021021128A2 (ja)
CA (1) CA3137720A1 (ja)
IL (1) IL287458A (ja)
MX (1) MX2021012988A (ja)
WO (1) WO2020219463A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113916218B (zh) * 2021-10-12 2024-01-26 中国科学院微小卫星创新研究院 星敏感器互判和仲裁方法及系统
CN114708916B (zh) * 2022-03-15 2023-11-10 至本医疗科技(上海)有限公司 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质
WO2024105220A1 (en) * 2022-11-17 2024-05-23 Universite De Poitiers Method for determining microsatellite instability status, kits and uses thereof

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084907A1 (en) * 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7991557B2 (en) * 2004-06-19 2011-08-02 Genenews Corporation Computer system and methods for constructing biological classifiers and uses thereof
WO2009039479A1 (en) * 2007-09-21 2009-03-26 H. Lee Moffitt Cancer Center And Research Institute, Inc. Genotypic tumor progression classifier and predictor
US20140235456A1 (en) * 2012-12-17 2014-08-21 Virginia Tech Intellectual Properties, Inc. Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci
US9471871B2 (en) * 2014-02-21 2016-10-18 Battelle Memorial Institute Method of generating features optimal to a dataset and classifier
WO2017176834A2 (en) * 2016-04-06 2017-10-12 University Of Florida Research Foundation, Incorporated Measurement of genomic age for predicting the risk of cancer
JP6703264B2 (ja) * 2016-06-22 2020-06-03 富士通株式会社 機械学習管理プログラム、機械学習管理方法および機械学習管理装置
BR112020002555A2 (pt) * 2017-08-07 2020-08-11 The Johns Hopkins University métodos e materiais para avaliar e tratar câncer
AU2018352203B2 (en) * 2017-10-16 2021-09-30 Illumina, Inc. Semi-supervised learning for training an ensemble of deep convolutional neural networks
US20200118644A1 (en) * 2018-10-15 2020-04-16 Tempus Labs, Inc. Microsatellite instability determination system and related methods

Also Published As

Publication number Publication date
WO2020219463A1 (en) 2020-10-29
EP3959341A4 (en) 2023-01-18
US20220189583A1 (en) 2022-06-16
EP3959341A1 (en) 2022-03-02
CA3137720A1 (en) 2020-10-29
KR20220011630A (ko) 2022-01-28
IL287458A (en) 2021-12-01
BR112021021128A2 (pt) 2022-02-08
CN114026253A (zh) 2022-02-08
AU2020260998A1 (en) 2021-11-25
MX2021012988A (es) 2022-03-04

Similar Documents

Publication Publication Date Title
US20200342958A1 (en) Methods and systems for assessing inflammatory disease with deep learning
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
JP7487163B2 (ja) がんの進化の検出および診断
US20220189583A1 (en) Methods and systems for microsatellite analysis
TWI816927B (zh) 用於計算世系特異性之遺傳風險評分之媒體、方法及系統
CN108292299A (zh) 从基因组变体预测疾病负担
JP2023524627A (ja) 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム
Wang et al. A review of cancer risk prediction models with genetic variants
CN113228190A (zh) 基于预测的肿瘤突变负荷的肿瘤分类
Jiang et al. Bioinformatics analysis discovers microtubular tubulin beta 6 class V (TUBB6) as a potential therapeutic target in glioblastoma
Sadeghi-Alavijeh et al. Rare variants in the sodium-dependent phosphate transporter gene SLC34A3 explain missing heritability of urinary stone disease
US20220213558A1 (en) Methods and systems for urine-based detection of urologic conditions
US20210142911A1 (en) Estimation of phenotypes using large-effect expression variants
Sirisena et al. Implementation of genomic medicine in Sri Lanka: initial experience and challenges
JP7470787B2 (ja) 単一試料からの腫瘍純度の推定
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
CN113160895A (zh) 一种结直肠癌风险评估模型及系统
US20230230655A1 (en) Methods and systems for assessing fibrotic disease with deep learning
US20220284984A1 (en) Somatic variant calling from an unmatched biological sample
WO2023055955A1 (en) Patient centric precision model for anti-tnf therapy
TW202331734A (zh) 甲基化生物標記選擇裝置及方法
Akbarzadeh et al. The Role of Different Linkage Disequilibrium Patterns in Genomic Prediction: The gBULP Based Exploratory Method in Tehran Cardiometabolic Genetic Study
WO2023106941A2 (en) Systems and methods for disease assessments
WO2024118650A2 (en) Pharmacokinetic modeling systems for improved therapeutic dosing
CA3223332A1 (en) Systems and methods for improved targeted therapy

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240329