JP2022522948A - ゲノムプロファイリングの類似性 - Google Patents

ゲノムプロファイリングの類似性 Download PDF

Info

Publication number
JP2022522948A
JP2022522948A JP2021539598A JP2021539598A JP2022522948A JP 2022522948 A JP2022522948 A JP 2022522948A JP 2021539598 A JP2021539598 A JP 2021539598A JP 2021539598 A JP2021539598 A JP 2021539598A JP 2022522948 A JP2022522948 A JP 2022522948A
Authority
JP
Japan
Prior art keywords
nos
adenocarcinoma
cancer
origin
indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021539598A
Other languages
English (en)
Other versions
JPWO2020146554A5 (ja
Inventor
ジム アブラハム
デヴィッド スペッツラー
ウォルフガング マイケル コーン
Original Assignee
カリス エムピーアイ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カリス エムピーアイ インコーポレイテッド filed Critical カリス エムピーアイ インコーポレイテッド
Publication of JP2022522948A publication Critical patent/JP2022522948A/ja
Publication of JPWO2020146554A5 publication Critical patent/JPWO2020146554A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • G01N33/57488Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites involving compounds identifable in body fluids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioethics (AREA)
  • Cell Biology (AREA)

Abstract

包括的な分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。そのようなデータを治療に対する患者反応と比較して、そのような治療に対する反応性または非反応性を予測するバイオマーカーシグネチャを同定することができる。本明細書において、本発明者らは、分子プロファイリングデータを使用して、腫瘍の一次系列または器官群を予測するバイオマーカーシグネチャを同定した。TIFF2022522948000294.tif84154

Description

優先権の主張
本出願は、2019年1月8日に出願された米国仮特許出願第62/789,929号;2019年4月18日に出願された米国仮特許出願第62/835,999号;2019年4月19日に出願された米国仮特許出願第62/836,540号;2019年5月3日に出願された米国仮特許出願第62/843,204号;2019年5月31日に出願された米国仮特許出願第62/855,623号;および2019年7月8日に出願された米国仮特許出願第62/871,530号の恩典を主張する。上記出願の各々の全内容が参照により本明細書に組み入れられる。
技術分野
本開示は、データ構造、データ処理および機械学習ならびに精密医療におけるそれらの使用、例えば、腫瘍試料の原発位置などの生体試料の起源を予測するための分子プロファイリングの使用を非限定的に含む、組織の特性評価の分野に関する。
背景
がん患者のための薬物療法は長らく挑戦であった。従来、患者ががんと診断されると、治療担当医は通常、がんの種類およびステージなど、観察可能な患者の臨床要因と慣例的に対応した所定の治療選択肢のリストから選択していた。その結果、がん患者は一般に、同じ種類およびステージのがんを患う他の患者と同じ治療を受けていた。同じ種類およびステージのがんの患者は同じ治療法に対して異なる反応を示すことが多いため、このような治療の効能は試行錯誤的に決定されることになる。そのうえ、患者が任意のそのような「万能(one-size-fits-all)」治療にすぐには反応しない場合、または以前にうまく行っていた治療が作用しなくなる場合、医師の治療選択は、多くの場合、せいぜい事例証拠に基づくものになるであろう。
2000年代後期まで、「がん系統」とも知られる患者のがんの種類と対応した従来の治療法のリストから、より情報に基づく選択を行うときに医師を支援するために、限られた分子検査が利用可能であった。例えば、乳がん患者の医師は、Herceptin(登録商標)を含む従来の治療選択肢のリストを提示されたならば、遺伝子HER2/neuの過剰発現に関して患者の腫瘍を検査することができたであろう。HER2/neuは当時、乳がんおよびHerceptin(登録商標)への反応性と関連することが知られていた。腫瘍がHER2/neu遺伝子を過剰発現することがわかっていた乳がん患者の約1/3が、Herceptin(登録商標)による治療に対して初期反応を示したが、それらの大部分は1年以内に進行し始めた。例えば、Bartsch, R. et al., Trastuzumab in the management of early and advanced stage breast cancer, Biologies. 2007 Mar; 1(1): 19-31を参照されたい。このタイプの分子検査は、特定の種類のがんのための公知の治療が、その種類のがんの一部の患者を治療する場合に他よりも効果的である理由を説明するのに役立ったが、この検査は、患者のための任意のさらなる治療選択肢を同定するものでも、排除するものでもなかった。
がん患者を治療するための万能手法に不満を抱き、また、多くの患者の腫瘍が進行し、最終的にはすべての従来療法を使い果たすという現実に直面して、がん専門医Daniel Von Hoff氏は、患者のためにさらなる非従来的な治療選択肢を同定しようとした。臨床観察に基づいて治療決定を下すことの限界および系統特異的な分子検査の限界を認識して、また、これらの限界のせいで有効な治療選択肢が見落とされていると考えて、Von Hoff氏らは、腫瘍の分子特性の包括的評価に基づいてがんのための個別化治療レジメンを決定するためのシステムおよび方法を開発した。このような「分子プロファイリング」への氏らの手法は、様々な検査技術を使用して患者の腫瘍から分子情報を収集して、がんの種類に関係なく特有の分子プロファイルを作成した。そして、医師は、その分子プロファイルの結果を使用して、がん細胞のステージ、解剖学的位置または解剖学的起源にかかわらず、患者のための候補治療の選択を支援することができる。Von Hoff DD, et al., Pilot study using molecular profiling of patients' tumors to find potential targets and select treatments for their refractory cancers. J Clin Oncol. 2010 Nov 20;28(33):4877-83を参照されたい。そのような分子プロファイリング手法は、他のやり方ならば治療担当医によって見落とされるであろう治療法の有望なベネフィットを示唆し得、同様に、特定の治療法の非有望なベネフィットをも示唆し、それにより、効果のない治療に伴う時間、費用、疾患進行および副作用を回避し得る。分子プロファイリングは、患者が複数の治療レジメンに反応しなかった、または耐性を発現した場合の「サルベージ療法」設定において特に有益であり得る。加えて、このような手法は、第一選択および他の標準治療レジメンのための意思決定を導くために使用することもできる。
原発不明がん(CUP)は、原発性腫瘍が広範囲の臨床および病理評価にかかわらず依然として正体不明な、転移性悪性腫瘍の臨床的に手強い不均一な集団を表す。全世界のがんの診断の約2~4%がCUPを含んでいる。例えば、Varadhachary. New Strategies for Carcinoma of Unknown Primary: the role of tissue of origin molecular profiling. Clin Cancer Res. 2013 Aug 1;19(15):4027-33を参照されたい。加えて、的確な腫瘍タイプの分類に関してあるレベルの診断不確実性が、腫瘍学の下位専門領域にわたりしばしば発生する。確定診断を確保するための努力は、診断プロセスを延長し、治療開始を遅らせる可能性がある。さらに、CUPは、最適以下の治療的介入の使用により説明され得る転帰不良と関連する。免疫組織化学(IHC)検査は、特に、低分化または未分化腫瘍の場合、腫瘍起源の部位を診断するための最も基準となる方法である。手強い症例における正確度を評価し、これらの研究のメタ解析を実行することにより、IHC分析が転移性腫瘍の特性評価に66%の正確度を有したことが報告された。例えば、Brown RW, et al. Immunohistochemical identification of tumor markers in metastatic adenocarcinoma: a diagnostic adjunct in the determination of primary site. Am J Clin Pathol 1997, 107:12e19; Dennis JL, et al. Markers of adenocarcinoma characteristic of the site of origin: development of a diagnostic algorithm. Clin Cancer Res 2005, 11:3766e3772; Gamble AR, et al. Use of tumour marker immunoreactivity to identify primary site of metastatic cancer. BMJ 1993, 306:295e298; Park SY, et al. Panels of immunohistochemical markers help determine primary sites of metastatic adenocarcinoma. Arch Pathol Lab Med 2007, 131:1561e1567; DeYoung BR, Wick MR. Immunohistologic evaluation of metastatic carcinomas of unknown origin: an algorithmic approach. Semin Diagn Pathol 2000, 17:184e193; Anderson GG, Weiss LM. Determining tissue of origin for metastatic cancers: meta-analysis and literature review of immunohistochemistry performance. Appl Immunohistochem Mol Morphol 2010, 18:3e8を参照されたい。治療レジメンは診断に高度に依存するため、これは、重要なまだ対処されていない臨床的必要性を表す。これらの課題に取り組むために、差次的遺伝子発現の評価に基づく起源組織(TOO)の同定を目標とするアッセイが開発され、臨床的に試験された。しかし、そのようなアッセイの診療への組み入れは、比較的不良の性能特性(83%~89%)および限られた試料入手可能性によって妨げられている。例えば、Pillai R, et al. Validation and reproducibility of a microarray-based gene expression test for tumor identification in formalin-fixed, paraffin-embedded specimens. J Mol Diagn 2011, 13:48e56; Rosenwald S, et al. Validation of a microRNA-based qRT-PCR test for accurate identification of tumor tissue origin. Mod Pathol 2010, 23:814e823; Kerr SE, et al. Multisite validation study to determine performance characteristics of a 92-gene molecular cancer classifier. Clin Cancer Res 2012, 18:3952e3960; Kucab JE, et al. A Compendium of Mutational Signatures of Environmental Agents. Cell. 2019 May 2; 177(4):821-836.e16を参照されたい。例えば、最近の市販のRNAベースのアッセイは、187個の腫瘍の試験セットにおいて感度83%を有し、別の300個の試料検証セットのわずか78%で結果を確認した。Hainsworth JD, et al, Molecular gene expression profiling to predict the tissue of source and direct site-specific therapy in patients with carcinoma of unknown primary site: a prospective trial of the Sarah Cannon research institute. J Clin Oncol. 2013 Jan 10; 31(2):217-23を参照されたい。これは、少なくとも一部は、正常細胞の混入、RNA安定性、およびRNA発現動態に関する典型的なRNAベースのアッセイの限界の結果であり得る。それにもかかわらず、初期の臨床試験は、治療をアッセイによって予測される腫瘍タイプとマッチさせることにベネフィットがある可能性を実証している。総合分子プロファイリングアッセイ、特に次世代DNAシーケンシングの利用可能性が増加するにつれ、ゲノム特徴がCUPの治療戦略に組み入れられてきた。例えば、Ross JS, et al. Comprehensive Genomic Profiling of Carcinoma of Unknown Primary Site New Routes to Targeted Therapies. JAMA Oncol. 2015;1(1):40-49を参照されたい。このアプローチは、TOOの明白な同定をめったに支援しないものの、それは、一部の患者における標的化可能な分子変化を明らかにする。したがって、特にCUPであるが、それに限定されるわけではないすべてのがん患者を助けるために、TOOの同定へのより強いアプローチの必要性がある。
機械学習モデルは、ラベル付き訓練データを分析し、その訓練データから推論を導くように構成されることができる。機械学習モデルが訓練されると、ラベルなしデータのセットが入力として機械学習モデルに提供され得る。機械学習モデルは、入力データ、例えば分子プロファイリングデータを処理し、訓練中に学習した推論に基づいて入力に関する予測を実行し得る。本開示は、複数の分類器モデルを組み合わせて、単一のモデルを使用することによって達成されるよりも正確な分類を達成するための「投票」方法論を提供する。
包括的な分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。本発明者らは、実質すべてのがん系統からの100,000人を優に超える腫瘍患者に対してこのようなプロファイリングを実施した。機械学習アルゴリズムを使用して患者データおよび分子データを処理して、追加的なバイオマーカーシグネチャを同定することができ、このバイオマーカーシグネチャを使用して、関心対象の様々な表現型を特性評価することができる。本明細書において、この「次世代プロファイリング」(NGP)アプローチが、生体試料の起源を予測するバイオシグネチャを構築するために適用された。
概要
包括的な分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。そのようなデータを治療に対する患者反応と比較して、そのような治療に対する反応性または非反応性を予測するバイオマーカーシグネチャを同定することができる。
本明細書に提供されるものは、腫瘍試料の系列を予測するためのシステムおよび方法である。本方法は、対象におけるがんから細胞を含む試料を得る工程;試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、試料に関するバイオシグネチャを得る工程;バイオシグネチャを、少なくとも1つの一次腫瘍起源を示すバイオシグネチャと比較する工程;および比較に基づいてがんの一次起源を分類する工程を含む。システムは、例えば、機械学習アルゴリズムを実行してバイオシグネチャを評価することによって、該方法を実現することができる。
本明細書に提供されるものは、生体試料の一次起源を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、データ処理装置は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、動作が、データ処理装置により、1つまたは複数のバイオマーカーデータ構造および1つまたは複数の試料データ構造を得る工程;データ処理装置により、試料と関連付けされた1つまたは複数のバイオマーカーを表す第一のデータを1つまたは複数のバイオマーカーデータ構造から抽出し、起源および試料データ構造を表す第二のデータを抽出し、予測される起源を表す第三のデータを抽出する工程;データ処理装置により、1つまたは複数のバイオマーカーを表す第一のデータと、起源および試料を表す第二のデータとに基づいて、機械学習モデルへ入力するためのデータ構造を生成する工程;データ処理装置により、生成されたデータ構造を機械学習モデルへの入力として提供する工程;データ処理装置により、生成されたデータ構造の機械学習モデルの処理に基づいて機械学習モデルによって生成された出力を得る工程;データ処理装置により、試料について予測される起源を表す第三のデータと、機械学習モデルによって生成された出力との間の差を決定する工程;ならびにデータ処理装置により、試料について予測される起源を表す第三のデータと、機械学習モデルによって生成された出力との間の差に基づいて、機械学習モデルの1つまたは複数のパラメータを調節する工程を含む。
いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2~8のいずれか1つに記載された1つまたは複数のバイオマーカーを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表4~8におけるバイオマーカーのそれぞれを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、これらのバイオマーカーの少なくとも1つを含み、任意で、1つまたは複数のバイオマーカーのセットは、表5、表6、表7、表8のマーカー、またはそれらの任意の組み合わせを含む、データ処理装置である。
同様に、本明細書に提供されるものは、生体試料の一次起源を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、データ処理装置は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、動作が、データ処理装置により、第一の分散データソースから、生体試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造を得る工程であって、第一のデータ構造が、試料を同定するキーバリューを含む、工程;データ処理装置により、第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程;データ処理装置により、第二の分散データソースから、1つまたは複数のバイオマーカーを有する試料に関する起源データを表すデータを構造化する第二のデータ構造を得る工程であって、起源データが、試料、起源、および予測される起源の指標を同定するデータを含み、第二のデータ構造もまた、試料を同定するキーバリューを含む、工程;データ処理装置により、第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程;データ処理装置により、メモリデバイスに記憶された第一のデータ構造および第二のデータ構造を使用して、(i)1つまたは複数のバイオマーカーのセットおよび試料を表すデータ、および(ii)予測される起源の指標を提供するラベルを含むラベル付き訓練データ構造を生成する工程であって、データ処理装置により、第一のデータ構造および第二のデータ構造を使用して生成することが、データ処理装置により、対象を同定するキーバリューに基づいて、試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造と、1つまたは複数のバイオマーカーを有する試料に関する予測される起源データを表す第二のデータ構造とを相関させることを含む、工程;ならびにデータ処理装置により、生成されたラベル付き訓練データ構造を使用して機械学習モデルを訓練する工程であって、生成されたラベル付き訓練データ構造を使用して機械学習モデルを訓練することが、データ処理装置により、生成されたラベル訓練データ構造を機械学習モデルへの入力として機械学習モデルに提供することを含む、工程を含む。
いくつかの態様において、動作はさらに、データ処理装置により、機械学習モデルから、生成されたラベル付き訓練データ構造の機械学習モデルの処理に基づいて機械学習モデルによって生成された出力を得る工程;ならびにデータ処理装置により、機械学習モデルによって生成された出力と、予測される起源の指標を提供するラベルとの間の差を決定する工程を含む。
いくつかの態様において、動作はさらに、データ処理装置により、機械学習モデルによって生成された出力と、予測される起源の指標を提供するラベルとの間の決定された差に基づいて、機械学習モデルの1つまたは複数のパラメータを調節する工程を含む。
いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2~8のいずれか1つに記載された1つまたは複数のバイオマーカーを含み、任意で、1つまたは複数のバイオマーカーのセットは、表5、表6、表7、表8、またはそれらの任意の組み合わせ中のマーカーを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、これらのバイオマーカーそれぞれを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、これらのバイオマーカーの少なくとも1つを含む。
同様に本明細書に提供されるものは、上記装置によって実行された動作のそれぞれに対応する工程を含む方法である。同様に、本明細書に提供されるものは、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって実行される場合に1つまたは複数のコンピュータに、上記装置によって実行された動作のそれぞれを実行させる命令を記憶する1つまたは複数の記憶媒体とを含むシステムである。同様に、本明細書に提供されるものは、1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に1つまたは複数のコンピュータに、上記装置によって実行される動作を実行させる命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体である。
本明細書に提供されるものは、試料の起源を決定するための方法であり、本方法は、試料を表す受け取った入力データと、特定の生物学的シグネチャとの間のペアワイズ類似度演算を実行するようにそれぞれ訓練済みである複数の機械学習モデルの各特定の機械学習モデルに関し、特定の機械学習モデルに、対象の試料を表す入力データを提供する工程であって、試料が対象の組織または器官から得られたものである、工程;特定の機械学習モデルによる提供された入力データの処理に基づいて、特定の機械学習モデルによって生成された出力データを得る工程であって、出力データが、提供された入力データによって表される試料が特定の生物学的シグネチャに対応する対象の体の一部分に由来した可能性を表す、工程;複数の機械学習モデルのそれぞれに関して得られた出力データを投票ユニットに提供する工程であって、提供された出力データが、複数の機械学習モデルのそれぞれによって決定された初期試料起源を表すデータを含む、工程;ならびに投票ユニットにより、提供された出力データに基づいて、予測される試料起源を決定する工程を含む。
いくつかの態様において、予測される試料起源は、提供された出力データに多数決原理を適用することによって決定される。いくつかの態様において、投票ユニットにより、提供された出力データに基づいて、予測される試料起源を決定する工程は、投票ユニットにより、複数の候補起源クラスの各初期起源クラスの出現回数を決定すること;および投票ユニットにより、複数の候補起源クラスのうち、最大の出現回数を有する初期起源クラスを選択することを含む。
いくつかの態様において、複数の機械学習モデルの各機械学習モデルは、ランダムフォレスト分類アルゴリズム、サポートベクターマシン、ロジスティック回帰、k近傍法モデル、人工ニューラルネットワーク、単純ベイズモデル、二次判別分析、ガウス過程モデル、またはそれらの任意の組み合わせを含む。いくつかの態様において、複数の機械学習モデルの各機械学習モデルはランダムフォレスト分類アルゴリズムを含む。いくつかの態様において、複数の機械学習モデルは、同じタイプの分類アルゴリズムの複数の表現を含む。
いくつかの態様において、入力データは、(i)試料属性、および(ii)複数の候補起源クラスの記述を表す。いくつかの態様において、複数の候補起源クラスは、前立腺、膀胱、子宮頸内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、および皮膚に関する少なくとも1つのクラスを含む。
いくつかの態様において、試料属性は、試料に関する1つまたは複数のバイオマーカーを含む。いくつかの態様において、1つまたは複数のバイオマーカーは、試料のすべての公知の遺伝子よりも少ない遺伝子のパネルを含む。いくつかの態様において、1つまたは複数のバイオマーカーは、試料のためのすべての公知の遺伝子を含む遺伝子のパネルを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、表2~8のいずれか1つに記載された1つまたは複数のバイオマーカーを含み、任意で、1つまたは複数のバイオマーカーのセットは、表5、表6、表7、表8、またはそれらの任意の組み合わせ中のマーカーを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、これらのバイオマーカーのそれぞれを含む。いくつかの態様において、1つまたは複数のバイオマーカーのセットは、これらのバイオマーカーの少なくとも1つを含む。
いくつかの態様において、入力データはさらに、試料および/または対象の記述、例えば、年齢または性別を表すデータを含む。
同様に、本明細書に提供されるものは、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって実行される場合に1つまたは複数のコンピュータに、試料の起源を決定するための方法を参照して記載された動作のそれぞれを実行させる命令を記憶する1つまたは複数の記憶媒体とを含むシステムである。同様に、本明細書に提供されるものは、1つまたは複数のコンピュータにより実行可能であり、そのように実行される場合に1つまたは複数のコンピュータに、試料の起源を決定するための方法を参照して記載された動作を実行させる命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体である。
本明細書に提供されるものは、(a)対象におけるがんからの細胞を含む生体試料を得る工程;(b)試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、試料に関するバイオシグネチャを得る工程;(c)バイオシグネチャを、一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャと比較する工程;および(d)比較に基づいてがんの一次起源を分類する工程を含む方法である。同様に、本明細書に提供されるものは、(a)対象からの細胞を含む生体試料を得る工程;(b)試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、試料に関するバイオシグネチャを得る工程;(c)得られた試料および1つまたは複数のバイオマーカーに基づいて入力データを生成する工程;(d)入力データのペアワイズ分析を実行することによって試料の起源を予測するように訓練済みである機械学習モデルに入力データを提供する工程であって、ペアワイズ分析を実行することが、入力データと、複数の起源の1つまたは複数に関する生物学的シグネチャとの間の類似度のレベルを決定する機械学習モデルを含む、工程;(e)入力データの機械学習モデルの処理に基づいて、機械学習モデルによって生成された出力データを得る工程;ならびに(f)出力データに基づいて試料の一次起源を分類する工程を含む方法である。
いくつかの態様において、生体試料は、ホルマリン固定パラフィン包埋(FFPE)組織、固定組織、コア針生検、穿刺吸引液、非染色スライド、新鮮凍結(FF)組織、ホルマリン試料、核酸もしくはタンパク質分子を保存する溶液に含まれる組織、新鮮な試料、悪性流体(malignant fluid)、体液、腫瘍試料、組織試料またはそれらの任意の組み合わせを含む。いくつかの態様において、生体試料は、固形腫瘍からの細胞、体液、またはそれらの組み合わせを含む。いくつかの態様において、体液は、悪性流体、胸膜液、腹腔液、またはそれらの任意の組み合わせを含む。いくつかの態様において、体液は、末梢血、血清、血漿、腹水、尿、脳脊髄液(CSF)、痰、唾液、骨髄、滑液、眼房水、羊水、耳垢、母乳、気管支肺胞洗浄液、精液、前立腺液、カウパー腺液、尿道球腺液、女性射精液、汗、糞便、涙液、嚢胞液、胸膜液、腹腔液、心膜液、リンパ液、糜粥、乳糜、胆汁、間質液、月経分泌物、膿、皮脂、嘔吐物、膣分泌液、粘膜分泌液、水便、膵液、鼻腔からの洗浄液、気管支肺吸引液、胞胚腔液または臍帯血を含む。
いくつかの態様において、工程(b)における評価は、各バイオマーカーに関するタンパク質または核酸の存在、レベル、または状態を決定することを含み、任意で、核酸は、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはそれらの組み合わせを含む。いくつかの態様において、タンパク質の存在、レベルまたは状態は、免疫組織化学(IHC)、フローサイトメトリー、イムノアッセイ、抗体もしくはその機能的断片、アプタマー、またはそれらの任意の組み合わせを使用して決定される。いくつかの態様において、核酸の存在、レベルまたは状態は、ポリメラーゼ連鎖反応(PCR)、インサイチューハイブリダイゼーション、増幅、ハイブリダイゼーション、マイクロアレイ、核酸シーケンシング、ダイターミネーションシーケンシング、パイロシーケンシング、次世代シーケンシング(NGS;ハイスループットシーケンシング)、全エキソームシーケンシング、全トランスクリプトームシーケンシング、またはそれらの任意の組み合わせを使用して決定される。いくつかの態様において、核酸の状態は、配列、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅、反復、コピー数、コピー数多型(CNV;コピー数変化;CNA)、またはそれらの任意の組み合わせを含む。いくつかの態様において、核酸の状態は、コピー数を含む。いくつかの態様において、アッセイは、次世代シーケンシングを含み、任意で、次世代シーケンシングは、表3~8における遺伝子、ゲノム情報、および融合転写物の選択を評価するために使用される。選択は、表3~8におけるすべての遺伝子、ゲノム情報、および融合転写物であることができる。
いくつかの態様において、分類する工程は、一次起源が複数の一次腫瘍起源の各メンバーである確率を決定すること、および最高の確率を有する一次起源を選択することを含む。
いくつかの態様において、一次腫瘍起源または複数の一次腫瘍起源は、前立腺、膀胱、子宮頸内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、および皮膚の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、もしくは38個すべてを含む。
いくつかの態様において、前立腺に関する少なくとも1つの予め決定されたバイオシグネチャは、FOXA1、PTEN、KLK2、GATA2、LCP1、ETV6、ERCC3、FANCA、MLLT3、MLH1、NCOA4、NCOA2、CCDC6、PTCH1、FOXO1、およびIRF4の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、または16個すべてを含む。いくつかの態様において、前立腺バイオシグネチャに関するアッセイを実施する工程は、バイオシグネチャのメンバーの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、または16個すべてに関する遺伝子コピー数を決定することを含む。
いくつかの態様において、一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャは、表125~142に記載されたバイオマーカーの選択を含み;任意で、i. 副腎起源を示す予め決定されたバイオシグネチャは、表125より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;ii. 膀胱起源を示す予め決定されたバイオシグネチャは、表126より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;iii. 脳起源を示す予め決定されたバイオシグネチャは、表127より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;iv. 乳房起源を示す予め決定されたバイオシグネチャは、表128より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;v. 結腸直腸起源を示す予め決定されたバイオシグネチャは、表129より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;vi. 食道起源を示す予め決定されたバイオシグネチャは、表130より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;vii. 眼起源を示す予め決定されたバイオシグネチャは、表131より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;viii. 女性生殖器および/もしくは腹膜起源を示す予め決定されたバイオシグネチャは、表132より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;ix. 頭部、顔面、もしくは頸部起源(特定不能)を示す予め決定されたバイオシグネチャは、表133より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;x. 腎臓起源を示す予め決定されたバイオシグネチャは、表134より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xi. 肝臓、胆嚢、および/もしくは導管起源を示す予め決定されたバイオシグネチャは、表135より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xii. 肺起源を示す予め決定されたバイオシグネチャは、表136より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xiii. 膵臓起源を示す予め決定されたバイオシグネチャは、表137より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xiv. 前立腺起源を示す予め決定されたバイオシグネチャは、表138より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xv. 皮膚起源を示す予め決定されたバイオシグネチャは、表139より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xvi. 小腸起源を示す予め決定されたバイオシグネチャは、表140より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;xvii. 胃起源を示す予め決定されたバイオシグネチャは、表141より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;および/またはxviii. 甲状腺起源を示す予め決定されたバイオシグネチャは、表142より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する特徴バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーを含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む。所望の信頼度レベルを有する起源を予測するために使用することができるバイオマーカーの任意の選択が提供される。
いくつかの態様において、一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャは、表10~124に記載されたバイオマーカーの選択を含み;任意で、i. 副腎皮質がん起源を示す予め決定されたバイオシグネチャは、表10より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;ii. 肛門扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表11より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;iii. 虫垂腺がん起源を示す予め決定されたバイオシグネチャは、表12より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;iv. 虫垂粘液性腺がんNOS起源を示す予め決定されたバイオシグネチャは、表13より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;v. 胆管NOS胆管がん起源を示す予め決定されたバイオシグネチャは、表14より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;vi. 脳星状細胞腫NOS起源を示す予め決定されたバイオシグネチャは、表15より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;vii. 脳退形成性星状細胞腫起源を示す予め決定されたバイオシグネチャは、表16より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;viii. 乳腺がんNOS起源を示す予め決定されたバイオシグネチャは、表17より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;ix. 乳がんNOSを示す予め決定されたバイオシグネチャは、表18より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;x. 浸潤性乳管腺がん起源を示す予め決定されたバイオシグネチャは、表19より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xi. 乳房浸潤性小葉腺がんNOS起源を示す予め決定されたバイオシグネチャは、表20より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xii. 乳房化生がんNOS起源を示す予め決定されたバイオシグネチャは、表21より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xiii. 子宮頸腺がんNOS起源を示す予め決定されたバイオシグネチャは、表22より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xiv. 子宮頸がんNOS起源を示す予め決定されたバイオシグネチャは、表23より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xv. 子宮頸扁平上皮がんNOS起源を示す予め決定されたバイオシグネチャは、表24より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xvi. 結腸腺がんNOS起源を示す予め決定されたバイオシグネチャは、表25より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xvii. 結腸がんNOS起源を示す予め決定されたバイオシグネチャは、表26より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xviii. 結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャは、表27より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xix. 結膜悪性黒色腫NOS起源を示す予め決定されたバイオシグネチャは、表28より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xx. 十二指腸膨大部腺がんNOS起源を示す予め決定されたバイオシグネチャは、表29より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxi. 子宮内膜類内膜腺がん起源を示す予め決定されたバイオシグネチャは、表30より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxii. 子宮内膜腺がんNOS起源を示す予め決定されたバイオシグネチャは、表31より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxiii. 子宮内膜がん肉腫起源を示す予め決定されたバイオシグネチャは、表32より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxiv. 子宮内膜漿液性がん起源を示す予め決定されたバイオシグネチャは、表33より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxv. 子宮内膜がんNOS起源を示す予め決定されたバイオシグネチャは、表34より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxvi. 未分化子宮内膜がん起源を示す予め決定されたバイオシグネチャは、表35より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxvii. 子宮内膜明細胞がん起源を示す予め決定されたバイオシグネチャは、表36より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxviii. 食道腺がんNOS起源を示す予め決定されたバイオシグネチャは、表37より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxix. 食道がんNOS起源を示す予め決定されたバイオシグネチャは、表38より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxx. 食道扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表39より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxi. 肝外胆管総胆管胆嚢腺がんNOS起源を示す予め決定されたバイオシグネチャは、表40より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxii. 卵管腺がんNOS起源を示す予め決定されたバイオシグネチャは、表41より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なく
とも50個の特徴を含む;xxxiii. 卵管がんNOS起源を示す予め決定されたバイオシグネチャは、表42より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxiv. 卵管がん肉腫NOS起源を示す予め決定されたバイオシグネチャは、表43より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxv. 卵管漿液性がん起源を示す予め決定されたバイオシグネチャは、表44より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxvi. 胃腺がん起源を示す予め決定されたバイオシグネチャは、表45より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxvii. 食道胃接合部腺がんNOS起源を示す予め決定されたバイオシグネチャは、表46より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxviii. 神経膠芽腫起源を示す予め決定されたバイオシグネチャは、表47より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xxxix. 神経膠腫NOS起源を示す予め決定されたバイオシグネチャは、表48より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xl. 神経膠肉腫起源を示す予め決定されたバイオシグネチャは、表49より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xli. 頭部、顔面または頸部NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表50より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xlii. 肝内胆管の胆管がん(intrahepatic bile duct cholangiocarcinoma)起源を示す予め決定されたバイオシグネチャは、表51より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xliii. 腎がんNOS起源を示す予め決定されたバイオシグネチャは、表52より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xliv. 腎明細胞がん起源を示す予め決定されたバイオシグネチャは、表53より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xlv. 腎臓の乳頭状腎細胞がん起源を示す予め決定されたバイオシグネチャは、表54より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xlvi. 腎臓の腎細胞がんNOS起源を示す予め決定されたバイオシグネチャは、表55より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xlvii. 喉頭NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表56より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xlviii. 左結腸腺がんNOS起源を示す予め決定されたバイオシグネチャは、表57より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xlix. 左結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャは、表58より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;l. 肝臓の肝細胞がんNOS起源を示す予め決定されたバイオシグネチャは、表59より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;li. 肺腺がんNOS起源を示す予め決定されたバイオシグネチャは、表60より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lii. 肺腺扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表61より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;liii. 肺がんNOS起源を示す予め決定されたバイオシグネチャは、表62より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;liv. 肺粘液性がん起源を示す予め決定されたバイオシグネチャは、表63より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lv. 肺神経内分泌がんNOS起源を示す予め決定されたバイオシグネチャは、表64より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lvi. 肺非小細胞がん起源を示す予め決定されたバイオシグネチャは、表65より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lvii. 肺肉腫様がん起源を示す予め決定されたバイオシグネチャは、表66より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lviii. 肺小細胞がんNOS起源を示す予め決定されたバイオシグネチャは、表67より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lix. 肺扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表68より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lx. 髄膜の髄膜腫(meninges meningioma)NOS起源を示す予め決定されたバイオシグネチャは、表69より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxi. 鼻咽頭NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表70より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxii. 乏突起神経膠腫NOS起源を示す予め決定されたバイオシグネチャは、表71より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxiii. 退形成性乏突起神経膠腫起源を示す予め決定されたバイオシグネチャは、表72より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxiv. 卵巣腺がんNOS起源を示す予め決定されたバイオシグネチャは、表73より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxv. 卵巣がんNOS起源を示す
予め決定されたバイオシグネチャは、表74より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxvi. 卵巣がん肉腫起源を示す予め決定されたバイオシグネチャは、表75より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxvii. 卵巣明細胞がんNOS起源を示す予め決定されたバイオシグネチャは、表76より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxviii. 卵巣類内膜腺がん起源を示す予め決定されたバイオシグネチャは、表77より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxix. 卵巣顆粒膜細胞腫NOS起源を示す予め決定されたバイオシグネチャは、表78より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxx. 卵巣高悪性度漿液性がん起源を示す予め決定されたバイオシグネチャは、表79より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxi. 卵巣低悪性度漿液性がん起源を示す予め決定されたバイオシグネチャは、表80より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxii. 卵巣粘液性腺がん起源を示す予め決定されたバイオシグネチャは、表81より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxiii. 卵巣漿液性がん起源を示す予め決定されたバイオシグネチャは、表82より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxiv. 膵腺がんNOS起源を示す予め決定されたバイオシグネチャは、表83より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxv. 膵がんNOS起源を示す予め決定されたバイオシグネチャは、表84より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxvi. 膵粘液性腺がん起源を示す予め決定されたバイオシグネチャは、表85より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxvii. 膵神経内分泌がんNOS起源を示す予め決定されたバイオシグネチャは、表86より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxviii. 耳下腺がんNOS起源を示す予め決定されたバイオシグネチャは、表87より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxix. 腹膜腺がんNOS起源を示す予め決定されたバイオシグネチャは、表88より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxx. 腹膜がんNOS起源を示す予め決定されたバイオシグネチャは、表89より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxi. 腹膜漿液性がん起源を示す予め決定されたバイオシグネチャは、表90より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxii. 胸膜中皮腫NOS起源を示す予め決定されたバイオシグネチャは、表91より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxiii. 前立腺腺がんNOS起源を示す予め決定されたバイオシグネチャは、表92より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxiv. 直腸S状部腺がんNOS起源を示す予め決定されたバイオシグネチャは、表93より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxv. 直腸腺がんNOS起源を示す予め決定されたバイオシグネチャは、表94より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxvi. 直腸粘液性腺がん起源を示す予め決定されたバイオシグネチャは、表95より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxvii. 後腹膜脱分化型脂肪肉腫起源を示す予め決定されたバイオシグネチャは、表96より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxviii. 後腹膜平滑筋肉腫NOS起源を示す予め決定されたバイオシグネチャは、表97より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;lxxxix. 右結腸腺がんNOS起源を示す予め決定されたバイオシグネチャは、表98より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xc. 右結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャは、表99より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xci. 唾液腺腺様嚢胞がん起源を示す予め決定されたバイオシグネチャは、表100より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xcii. 皮膚メルケル細胞がん起源を示す予め決定されたバイオシグネチャは、表101より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xciii. 皮膚結節性黒色腫起源を示す予め決定されたバイオシグネチャは、表102より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xciv. 皮膚扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表103より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xcv. 皮膚黒色腫起源を示す予め決定されたバイオシグネチャは、表104より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xcvi. 小腸消化管間質腫瘍(GIST)NOS起源を示す予め決定されたバイオシグネチャは、表105より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xcvii. 小腸腺がん起源を示す予め決定されたバイオシグネチャは、表106より選択される少なくとも
1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xcviii. 胃消化管間質腫瘍(GIST)NOS起源を示す予め決定されたバイオシグネチャは、表107より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;xcix. 胃印環細胞腺がん起源を示す予め決定されたバイオシグネチャは、表108より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;c. 甲状腺がんNOS起源を示す予め決定されたバイオシグネチャは、表109より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;ci. 退形成性甲状腺がんNOS起源を示す予め決定されたバイオシグネチャは、表110より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cii. 甲状腺乳頭がん起源を示す予め決定されたバイオシグネチャは、表111より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;ciii. 扁桃腺中咽頭舌扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表112より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;civ. 横行結腸腺がんNOS起源を示す予め決定されたバイオシグネチャは、表113より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cv. 尿路上皮膀胱腺がんNOS起源を示す予め決定されたバイオシグネチャは、表114より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cvi. 尿路上皮膀胱がんNOS起源を示す予め決定されたバイオシグネチャは、表115より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cvii. 尿路上皮膀胱扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表116より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cviii. 尿路上皮がんNOS起源を示す予め決定されたバイオシグネチャは、表117より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cix. 子宮の子宮内膜間質肉腫NOS起源を示す予め決定されたバイオシグネチャは、表118より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cx. 子宮平滑筋肉腫NOS起源を示す予め決定されたバイオシグネチャは、表119より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cxi. 子宮肉腫NOS起源を示す予め決定されたバイオシグネチャは、表120より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cxii. ブドウ膜黒色腫起源を示す予め決定されたバイオシグネチャは、表121より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cxiii. 膣扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表122より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;cxiv. 外陰部扁平上皮がん起源を示す予め決定されたバイオシグネチャは、表123より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;および/またはcxv. 皮膚体幹部黒色腫起源を示す予め決定されたバイオシグネチャは、表124より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する特徴バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49または50個の特徴バイオマーカーを含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の特徴バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む。いくつかの態様において、少なくとも1つの予め決定されたバイオシグネチャは、対応する表中で最高の重要度値を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む。本明細書に提供されるものは、起源を予測するために望ましい性能を得るために使用することができるバイオマーカーの任意の選択である。
いくつかの態様において、工程(b)は、バイオシグネチャの少なくとも1つのメンバーに関する遺伝子コピー数を決定することを含み、工程(c)は、遺伝子コピー数と参照コピー数(例えば二倍体)との比較により、遺伝子コピー数変化(CNA)を有するバイオシグネチャのメンバーを同定する工程を含む。いくつかの態様において、工程(b)は、バイオシグネチャの少なくとも1つのメンバーに関する配列を決定することを含み、工程(c)は、配列と参照配列(例えば野生型)との比較により、変異(例えば、点変異、挿入、欠失)を有するバイオシグネチャのメンバーを同定することを含む。いくつかの態様において、工程(b)は、バイオシグネチャの複数のメンバーに関する配列を決定することを含み、工程(c)は、配列を参照配列(例えば、野生型)と比較して、マイクロサテライトリピートを同定すること、およびマイクロサテライト不安定性(MSI)を有するバイオシグネチャのメンバーを同定することを含む。
好ましい態様において、バイオシグネチャ中のバイオマーカーは、対応する表、すなわち、上記表10~142の少なくとも1つに記載されるように評価される。
いくつかの態様において、本方法はさらに、バイオシグネチャ中のバイオマーカーの存在、レベル、または状態(例えば、各バイオマーカーがCNAおよび/または変異、および/またはMSIを有するかどうか)を同定する、分子プロファイル生成することを含む。
いくつかの態様において、本方法は、がんの分類された一次起源に少なくとも一部基づいて、患者のための治療、例えば、免疫療法、化学療法、またはそれらの組み合わせの投与を含む治療を選択することをさらに含む。例えば、本明細書における実施例1を参照されたい。
関連して、本明細書に提供されるものは、生成された分子プロファイルを含むレポートを作成することを含む、分子プロファイリングレポートを生成する方法であり、レポートは、がんの分類された一次起源を同定し、任意で、レポートは、選択された治療もまた同定する。いくつかの態様において、レポートは、コンピュータ生成される、プリントされたレポートおよび/もしくはコンピュータファイルである、ならびに/またはウェブポータルを介してアクセス可能である。
いくつかの態様において、試料は、原発不明がん(CUP)を含む。したがって、本方法は、CUPに関する一次起源および潜在的に治療を予測するために使用される。
いくつかの態様において、がんの一次起源を分類するための方法は、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャに対応する確率を計算する。いくつかの態様において、本方法は、2つの候補一次腫瘍起源の間のペアワイズ比較を含み、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャのいずれか1つに対応する確率が、計算される。いくつかの態様において、2つの候補一次腫瘍起源の間のペアワイズ比較は、機械学習分類アルゴリズムを使用して決定され、任意で、機械学習分類アルゴリズムは、投票モジュールを含む。いくつかの態様において、投票モジュールは、本明細書に提供される通り、例えば、上記の通りである。いくつかの態様において、複数の確率が、複数の予め決定されたバイオシグネチャに関して計算される。いくつかの態様において、確率は順位付けされる。いくつかの態様において、確率は閾値と比較され、任意で、閾値との比較が、がんの一次起源の分類の可能性が高いか、可能性が低いか、または不確定であるかを決定するために使用される。
いくつかの態様において、一次腫瘍起源または複数の一次腫瘍起源は、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;外陰部扁平上皮がん;およびそれらの任意の組み合わせの少なくとも1つを含む。
いくつかの態様において、一次腫瘍起源または複数の一次腫瘍起源は、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む。
関連して、本明細書に提供されるものは、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって実行される場合に1つまたは複数のコンピュータに、がんの一次起源を分類するための方法を参照して記載された動作を実行させる命令を記憶する1つまたは複数の記憶媒体とを含むシステムである。同様に、本明細書に提供されるものは、1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に1つまたは複数のコンピュータに、がんの一次起源を分類するための方法を参照して記載された動作を実行させる命令を含むソフトウェアを記憶する非一時的コンピュータ可読媒体である。
さらに関連して、本明細書に提供されるものは、がんの系列を同定するためのシステムであって、システムは、(a)少なくとも1つのホストサーバ;(b)少なくとも1つのホストサーバにアクセスして、データにアクセスし該データを入力するための、少なくとも1つのユーザインタフェース;(c)入力されたデータを処理するための、少なくとも1つのプロセッサ;(d)処理されたデータと、がんの一次起源を分類するための方法の比較工程および分類工程を実施するための命令とを記憶するための、プロセッサに結合された少なくとも1つのメモリ;および(e)がんの分類された一次起源を表示するための少なくとも1つのディスプレイを含む。いくつかの態様において、システムはさらに、処理されたデータと、上記のような潜在的治療の選択および/またはレポートの生成のための命令とを記憶するための、プロセッサに結合された少なくとも1つのメモリを含む。いくつかの態様において、少なくとも1つのディスプレイは、がんの分類された一次起源を含むレポートを含む。
本明細書に提供されるものは、体から得られた試料の疾患タイプを同定するためのシステムであって、システムが、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、動作が、システムにより、体から得られた疾患試料を表す試料生物学的シグネチャを得る工程;システムにより、試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、試料生物学的シグネチャを提供する工程であって、複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびにシステムにより、ペアワイズ分析に基づいて、体から得られた試料における可能性が高い疾患タイプを示すデータを表す、モデルによって生成された出力を受け取る工程を含む。
関連して、本明細書に提供されるものは、体から得られた試料の疾患タイプを同定するためのシステムであって、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、動作が、システムにより、体から得られた試料を表す試料生物学的シグネチャを得る工程;システムにより、試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、試料生物学的シグネチャを提供する工程であって、複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する工程;ならびにシステムにより、複数の異なる生物学的シグネチャの各特定の生物学的シグネチャに関して、特定の生物学的シグネチャによって同定された疾患タイプが試料における可能性が高い疾患タイプを同定する確率を示すデータを表す、モデルによって生成された出力を受け取る工程を含む。
同様に関連して、本明細書に提供されるものは、体から得られた試料の疾患タイプを同定するためのシステムであって、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、動作が、システムにより、体の第一の部分におけるがん試料から得られた生体試料を表す試料生物学的シグネチャを得る工程であって、試料生物学的シグネチャが、生体試料の複数の特徴を記述するデータを含み、複数の特徴が、体の第一の部分を記述するデータを含む、工程;システムにより、試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、試料生物学的シグネチャを提供する工程であって、複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する工程;ならびにシステムにより、体から得られた試料における可能性が高い疾患タイプを示すデータを表す、モデルによって生成された出力を受け取る工程を含む。
いくつかの態様において、疾患タイプは、がんのタイプを含み、任意で、疾患タイプは、一次腫瘍起源および組織学を含む。
いくつかの態様において、試料生物学的シグネチャは、がん試料中の1つまたは複数のバイオマーカーを評価するための、アッセイの性能に基づいて得られた特徴を表すデータを含み、任意で、アッセイは、次世代シーケンシングを含み、任意で、次世代シーケンシングは、表3~8中の遺伝子、ゲノム情報、および融合転写物の少なくとも1つを評価するために使用される。
いくつかの態様において、動作はさらに、モデルによって生成された出力に基づいて、同定された疾患タイプに関する提案された治療を決定する工程を含む。
いくつかの態様において、疾患タイプは、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんの少なくとも1つを含む。
いくつかの態様において、動作はさらに、モデルによって生成された出力に基づいて、試料の器官タイプを割り当てる工程を含み、任意で、器官タイプは、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む。
いくつかの態様において、異なる疾患タイプに対応する複数の異なる生物学的シグネチャは、表10~142のいずれか1つにおける少なくとも1つのシグネチャを含む。
本明細書に提供されるものは、がんの起源位置を同定するためのシステムであって、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、動作が、システムにより、第一の体の第一の部分におけるがん性新生物から得られた生体試料を表す試料生物学的シグネチャを得る工程であって、試料生物学的シグネチャが、生体試料の複数の特徴を記述するデータを含み、複数の特徴が、第一の体の第一の部分を記述するデータを含む、工程;システムにより、生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルへの入力として、試料生物学的シグネチャを提供する工程であって、モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャを少なくとも含む、工程;システムにより、第一の体の第一の部分におけるがん性新生物が、第一の体の第二の部分におけるがんによって引き起こされた可能性を表す、モデルによって生成された出力を受け取る工程;システムにより、受け取った出力に基づいて、モデルによって生成された受け取った出力が、1つまたは複数の予め決定された閾値を満たすかを決定する工程;ならびにシステムにより、受け取った出力が、1つまたは複数の予め決定された閾値を満たすことを決定する工程に基づいて、システムにより、第一の体の第一の部分におけるがん性新生物が、第一の体の第二の部分におけるがんによって引き起こされたことを決定する工程を含む。
いくつかの態様において、第一の体の第一の部分および/または第一の体の第二の部分は、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される。
いくつかの態様において、第一の体の第一の部分および/または第一の体の第二の部分は、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される。
いくつかの態様において、生体試料の複数の特徴は、(i)1つまたは複数のバリアントを同定するデータ、または(ii)遺伝子コピー数を同定するデータを含む。
いくつかの態様において、モデルによって生成された受け取った出力は、行列データ構造を含み、行列データ構造は、ペアワイズモデルによって評価された複数の特徴の各特徴に関するセルを含み、セルのそれぞれは、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第二の部分におけるがんによって引き起こされたことを示す確率を記述するデータを含む。
いくつかの態様において、がん性生物学的シグネチャはさらに、1つまたは複数の他の体の第三の部分に由来するがん性生体試料の分子プロファイルを表す第三のがん性生物学的シグネチャを含み、行列データ構造は、ペアワイズモデルによって評価された複数の特徴の各特徴に関するセルを含み、行列の第一列は、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第二の部分におけるがんによって引き起こされたことを示す確率を記述するデータをそれぞれ含む、セルのサブセットを含み、行列の第二列は、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第三の部分におけるがんによって引き起こされたことを示す確率を記述するデータをそれぞれ含む、セルのサブセットを含む。
いくつかの態様において、動作は、システムにより、第二の体の第一の部分における異なるがん性新生物から得られた異なる生体試料を表す異なる試料生物学的シグネチャを得る工程であって、異なる試料生物学的シグネチャが、異なる生体試料の複数の特徴を記述するデータを含み、複数の特徴が、第二の体の第一の部分を記述するデータを含む、工程;システムにより、異なる生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルへの入力として、異なる試料生物学的シグネチャを提供する工程であって、モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャを少なくとも含む、工程;システムにより、第二の体の第一の部分におけるがん性新生物が、第二の体の第二の部分におけるがんによって引き起こされた可能性を表す、モデルによって生成された異なる出力を受け取る工程;システムにより、受け取った異なる出力に基づいて、モデルによって生成された、受け取った異なる出力が、1つまたは複数の予め決定された閾値を満たすかを決定する工程;ならびにシステムにより、受け取った異なる出力が、1つまたは複数の予め決定された閾値を満たさないことを決定する工程に基づいて、コンピュータにより、第二の体の第一の部分におけるがん性新生物が、第二の体の第二の部分におけるがんによって引き起こされたものではないことを決定する工程をさらに含む。
いくつかの態様において、第二の体の第一の部分および/または第二の体の第二の部分は、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される。
いくつかの態様において、第二の体の第一の部分および/または第二の体の第二の部分は、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される。
本明細書に提供されるものは、がんの起源位置を同定するためのシステムであって、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、動作が、生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルを記憶するシステムにより、体の第一の部分におけるがん性新生物から得られた生体試料を表す試料生物学的シグネチャを受け取る工程であって、モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的を少なくとも含む、工程;システムにより、モデルを使用して、第一のがん性生物学的シグネチャおよび第二のがん性生物学的シグネチャを使用して試料生物学的シグネチャのペアワイズ分析を実行する工程;システムにより、実行されたペアワイズ分析に基づき、体の第一の部分におけるがん性新生物が体の第二の部分におけるがんによって引き起こされた可能性を生成する工程;システムにより、その他のデバイス上の表示のために別のデバイスに生成された可能性を提供する工程を含む。
いくつかの態様において、体の第一の部分および/または体の第二の部分は、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される。
いくつかの態様において、体の第一の部分および/または体の第二の部分は、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される。
本明細書に提供されるものは、体から得られたがん試料のがんタイプを同定するためのペアワイズ分析モデルを訓練するためのシステムであって、システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、動作が、システムにより、ペアワイズ分析モデルを生成する工程であって、ペアワイズ分析モデルを生成する工程が、複数のモデルシグネチャを生成することを含み、各モデルシグネチャが、疾患タイプのペア間を識別するように構成されている、工程;システムにより、訓練データ項目のセットを得る工程であって、各訓練データ項目が、DNAシーケンシングの結果を表し、(i)DNAシーケンシングの結果においてバリアントが検出されたか否か、および(ii)DNAシーケンシングの結果における遺伝子のコピー数を示すデータを含む、工程;ならびにシステムにより、訓練データ項目の得られたセットを使用してペアワイズ分析モデルを訓練する工程を含む。
いくつかの態様において、複数のモデルシグネチャは、ランダムフォレストモデルを使用して生成され、任意で、ランダムフォレストモデルは、勾配ブースティングフォレストを含む。
いくつかの態様において、疾患タイプは、少なくとも1つのがんタイプを含む。
いくつかの態様において、DNAシーケンシングの結果は、表5~6中の遺伝子の点変異、挿入、欠失、およびコピー数の少なくとも1つを含む。
いくつかの態様において、疾患タイプは、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんの少なくとも1つを含む。
いくつかの態様において、動作はさらに、モデルによって生成された出力に基づいて、試料の器官タイプを割り当てる工程を含み、任意で、器官タイプは、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む。
別段の定めがない限り、本明細書中で使用されるすべての科学技術用語は、本発明が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。本発明に使用するための方法および材料が本明細書に記載されるが、当技術分野において公知の他の適当な方法および材料を使用することもできる。材料、方法および例は例示でしかなく、限定的であることを意図しない。本明細書中で挙げられるすべての刊行物、特許出願、特許、配列、データベースエントリーおよび他の参考文献は全体として参照により本明細書に組み入れられる。矛盾が生じる場合、本明細書が、定義を含め、優先する。
本発明の他の特徴および利点が以下の詳細な説明および図面ならびに特許請求の範囲から明らかになる。
特許または出願ファイルは、カラーで作製された少なくとも1つの図面を含む。カラー図面を含む特許または特許出願公開公報のコピーは、要請および必要な料金の支払いをもって、庁によって提供される。
機械学習モデルを訓練するための従来技術システムの例のブロック図である。 試料起源を予測するように機械学習モデルを訓練するための訓練データ構造を生成するシステムのブロック図である。 対象からの試料データの試料起源を予測するように訓練された機械学習モデルを使用するためのシステムのブロック図である。 試料起源を予測するように機械学習モデルを訓練するための訓練データ構造を生成するプロセスのフローチャートである。 訓練済み機械学習モデルを使用して対象からの試料データの試料起源を予測するプロセスのフローチャートである。 試料起源を予測するためのペアワイズを実施するためのシステムの例である。 ペアワイズ分析を実施するようにそれぞれが訓練されている複数の機械学習モデルによって生成された出力を解釈するために投票ユニットを使用して試料起源を予測するためのシステムのブロック図である。 図1B、1C、1G、1Fおよび1Gのシステムを実現するために使用することができるシステム構成部品のブロック図である。 患者の生体検体の分子プロファイリングを利用する、がんのための個別化医療介入を決定するためのシステムの例示的態様のブロック図を示す。 患者の生体検体の分子プロファイリングを利用する、がんのための個別化医療介入を決定する方法である。 治療からのベネフィットを予測するために使用することができるシグネチャまたは分子プロファイルを同定する方法である。 (B)の代替選択バーション、の例示的態様のフローチャートである。 患者からの生体試料から原発腫瘍系統を予測するためのバイオシグネチャの訓練および試験を示す。 患者からの生体試料から原発腫瘍系統を予測するためのバイオシグネチャの訓練および試験を示す。 患者からの生体試料から原発腫瘍系統を予測するためのバイオシグネチャの訓練および試験を示す。 完全試験セットを使用して全モデルに関して生成されたスコアのプロットを示す。 前立腺起源の試験症例の予測例を示す。 図4Bの試験症例に関して生成された115×115マトリックスを示す。 15の器官群のいずれかへの7,476の試験症例のMDC/GPS予測に関するデータを含む表を示す。 図4Dに示すような、ただし結腸がんの場合の例を示す。 指示されたスコアの場合の器官群予測の性能を示す。 指示されたスコアの場合の器官群予測の性能を示す。 指示されたスコアの場合の器官群予測の性能を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 染色体アームによる指示されたがんタイプのクラスタ解析を示す。 原発不明がん/癌腫(CUP)を含むがんを分類するMDC/GPSの性能を示す。 原発不明がん/癌腫(CUP)を含むがんを分類するMDC/GPSの性能を示す。 原発不明がん/癌腫(CUP)を含むがんを分類するMDC/GPSの性能を示す。 原発不明がん/癌腫(CUP)を含むがんを分類するMDC/GPSの性能を示す。 原発不明がん/癌腫(CUP)を含むがんを分類するMDC/GPSの性能を示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。 本明細書に提供されるシステムおよび方法にしたがってゲノムプロファイリング類似性情報を組み込む分子プロファイリングレポートを示す。
詳細な説明
本明細書に記載されるものは、分子プロファイリングを使用することによって生物学的システム、生物、細胞、試料などの様々な表現型を特性評価するための方法およびシステムであって、機械学習モデルを訓練し、次いで、訓練済み機械学習モデルを使用してそのような表現型を特性評価するためのシステム、方法、装置、およびコンピュータプログラムを含む、方法およびシステムである。本明細書中で使用される用語「表現型」は、本明細書に提供されるシステムおよび/または方法を使用することにより、部分的または全体的に同定することができる任意の形質または特性を意味することができる。いくつかの実施形態において、システムは、例えば、本明細書に記載される方法における使用のために構成された、1つまたは複数の位置で1つまたは複数のコンピュータ上に1つまたは複数のコンピュータプログラムを含むことができる。
特性評価すべき表現型は、組織、解剖学的起源、医学的状態、不快、疾患、障害、またはそれらの有用な組み合わせを非限定的に含む、関心対象の任意の表現型であることができる。表現型は、例えば、疾患もしくは状態、疾患もしくは状態のステージ、疾患もしくは状態への感受性、疾患ステージもしくは状態の予後、生理的状態、または治療薬などの介入への反応/潜在的反応(またはその欠如)という、任意の観察可能な特性または形質であることができる。表現型は、対象の遺伝子構造および環境要因の影響ならびにこれら2つの相互作用のみならず、核酸配列へのエピジェネティック修飾の結果として生じることができる。
様々な態様において、対象における表現型は、対象からの生体試料を得ることおよび本明細書に提供されるシステムおよび/または方法を使用して試料を分析することによって特性評価される。例えば、対象または個体に関する表現型の特性評価は、疾患または状態を検出すること(発症前初期検出を含む)、疾患もしくは状態の予後、診断、もしくはセラノーシス(theranosis)を決定すること、または疾患もしくは状態のステージもしくは進行を決定することを含むことができる。表現型の特性評価は、特定の疾患、状態、疾患ステージおよび状態ステージに適した治療または治療の有効性、疾患進行の予測および尤度解析、特に疾患再発、転移性拡大または疾患再燃を同定することを含むことができる。表現型はまた、状態または疾患、例えばがんまたは腫瘍の臨床的に別個のタイプまたはサブタイプであることができる。表現型の決定はまた、生理的状態の決定、または例えば移植後の、器官窮迫もしくは器官拒絶の評価であることができる。本明細書に記載される組成物および方法は、個体ベースの対象の評価を可能にし、その評価は、治療においてより効率的で経済的な決定というベネフィットを提供することができる。
セラノスティクス(theranostics)は、疾患または疾患状態などの医学的状態の治療法または治療に影響する能力を提供する診断検査を含む。診断または予後検査がそれぞれ診断または予後予測を提供するのと類似の方法で、セラノスティクス検査はセラノーシスを提供する。本明細書に使用されるセラノスティクスは、予測医学、個別化医療、精密医療、統合医療、薬物診断学(pharmacodiagnostics)およびDx/Rxパートナーリングを含む、任意の所望の形態の治療関連検査を包含する。治療関連検査を使用して、個別の対象における薬物反応を予測および評価し、それにより、個別化された医学的推奨を提供することができる。反応の可能性を予測することは、例えば、対象が治療に曝露されるか、またはその他の方法で治療される前に、対象が候補治療剤に対するレスポンダーである可能性が高いか、または非レスポンダーである可能性が高いかを決定することであることができる。治療反応を評価することは、治療に対する反応をモニタすること、例えば、治療開始後の経時的な対象の改善またはその欠如をモニタすることであることができる。治療関連検査は、治療からベネフィットを受ける可能性が特に高いもしくはベネフィットを欠如する可能性が特に高い、治療に関する対象を選択するために、または個別の対象における治療有効性の初期客観的指標を提供するために、有用である。本明細書に提供されるシステムおよび方法を使用する特性評価は、より可能性が高い治療を選択し、それにより、ベネフィットのある治療を遅らせるという損失を避けるために、ならびに効果がより低いまたは無効な治療の財政的コストおよび罹患コストを避けるために、治療を変えるべきであると示す場合がある。
様々な態様において、セラノーシスは、治療有効性またはその欠如を予測すること、患者を治療に対するレスポンダーまたは非レスポンダーとして分類することを含む。予測された「レスポンダー」とは、治療からベネフィットを受け取る可能性が高い患者をいうことができ、一方で、予測された「非レスポンダー」は、治療からベネフィットを受け取る可能性が低い患者であることができる。特に詳記しないかぎり、ベネフィットは、全体的もしくは部分的な治癒、寛解、または状態もしくは症状の進行における任意の改善、低減もしくは低下を非限定的に含む、関心対象の任意の臨床的ベネフィットであることができる。セラノーシスは、任意の適当な治療に対するものであることができ、例えば、治療は、化学療法、免疫療法、標的化がん療法、モノクローナル抗体、小分子の少なくとも1つ、もしくはそれらの任意の有用な組み合わせを含む場合がある。
表現型は、腫瘍、新生物、もしくはがんの存在もしくはそれが発生する可能性を検出すること、または腫瘍、新生物、もしくはがんを特性評価すること(例えば、ステージ、グレード、侵襲性、転移もしくは再発の可能性など)を含むことができる。いくつかの態様において、がんは、急性骨髄性白血病(AML)、乳がん、胆管がん、結腸直腸腺がん、肝外胆管腺がん、女性生殖器悪性腫瘍、胃腺がん、胃食道腺がん、消化管間質腫瘍(GIST)、神経膠芽腫、頭頸部扁平上皮がん、白血病、肝細胞がん、低悪性度神経膠腫、肺細気管支肺胞上皮がん(BAC)、肺の非小細胞肺がん(NSCLC)、肺小細胞がん(SCLC)、リンパ腫、男性生殖器悪性腫瘍、胸膜悪性孤立性線維性腫瘍(MSFT)、黒色腫、多発性骨髄腫、神経内分泌腫瘍、節性びまん性大細胞型B細胞性リンパ腫、非上皮性卵巣がん(non-EOC)、卵巣表層上皮性がん、膵腺がん、下垂体がん、乏突起神経膠腫、前立腺腺がん、後腹膜もしくは腹膜がん、後腹膜もしくは腹膜肉腫、小腸悪性腫瘍、軟部組織腫瘍、胸腺がん、甲状腺がん、またはブドウ膜黒色腫を含む。本明細書におけるシステムおよび方法を使用して、これらおよび他のがんを特性評価することができる。したがって、表現型の特性評価は、本明細書に開示されたがんの1つの診断、予後またはセラノーシスを提供することであることができる。
様々な態様において、表現型は、組織または解剖学的起源を含む。例えば、組織は、筋肉、上皮、結合組織、神経組織、もしくはそれらの任意の組み合わせであることができる。例えば、解剖学的起源は、胃、肝臓、小腸、大腸、直腸、肛門、肺、鼻、気管支、腎臓、膀胱、尿道、下垂体、松果体、副腎、甲状腺、膵臓、副甲状腺、前立腺、心臓、血管、リンパ節、骨髄、胸腺、脾臓、皮膚、舌、鼻、眼、耳、歯、子宮、膣、精巣、陰茎、卵巣、乳房、乳腺、脳、脊髄、神経、骨、靱帯、腱、もしくはそれらの任意の組み合わせであることができる。関心対象の表現型の追加的で非限定的な例には、腫瘍のステージもしくはグレード、または腫瘍の起源、例えば、組織起源などの臨床特性が含まれる。
様々な態様において、表現型は、対象から得られた生体試料を分析することによって決定される。対象(個体、患者など)は、ウシ、トリ、イヌ、ウマ、ネコ、ヒツジ、ブタ、または霊長類の動物(ヒトおよび非ヒト霊長類を含む)などの哺乳動物を含むことができるが、それに限定されるわけではない。好ましい態様において、対象はヒト対象である。対象はまた、絶滅危惧であることから重要な哺乳動物、例えばシベリアトラ、または経済的に重要な哺乳動物、例えばヒトによる消費のために農場で飼育された動物、またはヒトに社会的に重要な動物、例えばペットとしてもしくは動物園で世話をされた動物を含むことができる。そのような動物の例には、食肉類、例えばネコおよびイヌ;スワイン(swine)、例えばブタ、成ブタ(hog)およびイノシシ;反芻類または有蹄類、例えばウシ、雄ウシ、ヒツジ、キリン、シカ、ヤギ、バイソン、ラクダまたはウマが含まれるが、それに限定されるわけではない。絶滅危惧であるまたは動物園で世話をされた鳥類に加えて、鶏(fowl)、より詳細には家禽(domesticated fowl)、例えば、飼鳥類(poultry)、例えばシチメンチョウおよびニワトリ、アヒル、ガチョウ、ホロホロチョウもまた含まれる。飼育されているブタおよびウマ(競走馬を含む)も含まれる。加えて、商業活動と関係がある任意の動物種、例えば農業および水産養殖、ならびに経済的生産性のための畜産および/またはフードチェーンの安全性において疾患のモニタリング、診断、および治療法の選択が通常の業務である他の活動と関係がある動物も含まれる。対象は、がんを含むが、それに限定されるわけではない先行疾患または状態を有する可能性がある。あるいは、対象は、いずれの公知の先行状態も有しない場合がある。対象はまた、がんに対する治療などの先行治療または過去の治療に無反応の場合がある。
データ分析および機械学習
本開示の局面は、生体試料の表現型を特性評価するなど、様々な分類を提供するように機械学習モデルを訓練するために使用することができる1つまたは複数の訓練データ構造のセットを生成するシステムに関する。上記のように、表現型の特性評価は、診断、予後、セラノーシスまたは他の関連する分類を提供することを含むことができる。例えば、分類は、対象の疾患状態、疾患もしくは障害のための治療の予測される有効性、または特定のバイオマーカーのセットを有する試料の解剖学的起源を含む場合がある。訓練されると、次いで訓練済み機械学習モデルを使用して、システムによって提供された入力データを処理し、処理された入力データに基づいて予測を行うことができる。入力データは、対象に関連する特徴のセットを含み得、そのようなデータは1つまたは複数の対象バイオマーカーを表し、データは、関心対象の表現型、例えば疾患および/または解剖学的起源を表す。いくつかの態様において、入力データはさらに、解剖学的起源を表す特徴を含む場合があり、システムは、試料がその解剖学的起源からのものであるかどうか記述する予測を行い得る。予測は、入力として機械学習モデルに提供される特定の特徴のセットの機械学習モデルの処理に基づいて機械学習モデルによって出力されるデータを含み得る。データは、非限定的に、1つまたは複数の対象バイオマーカーを表すデータ、疾患または解剖学的起源を表すデータおよび所望により提案された治療タイプを表すデータを含んでもよい。
本明細書に使用される「バイオマーカー」または「バイオマーカーのセット」は、機械学習モデルを訓練および検証し、未処理試料を分類するために使用される。そのような参照は、特定の核酸またはタンパク質などの特定のバイオマーカーを含み、任意で、そのような核酸またはタンパク質の状態もまた含む。バイオマーカーの状態の例は、存在、レベル(量、濃度など)、配列、位置、活性、構造、修飾、共有または非共有結合パートナーなどのような、照会することができる様々な局面を含む。非限定的な例として、バイオマーカーのセットは、特定の配列を有する遺伝子もしくは遺伝子産物(すなわち、mRNAもしくはタンパク質)(例えば、KRAS変異体)、および/または遺伝子もしくは遺伝子産物およびそのレベル(例えば、増幅されたERBB2遺伝子もしくは過剰発現されたHER2タンパク質)を含み得る。有用なバイオマーカーおよびそれらの局面は、下にさらに説明される。
本開示の革新的な局面は、訓練データ構造の生成に使用するための受信データストリームからの特定のデータの抽出を含む。重要な局面は、訓練データ構造に含めるための1つまたは複数のバイオマーカーの特定のセットの選択であり得る。理由は、特定のバイオマーカーの存在、非存在または他の状態が所望の分類を示し得るからである。例えば、ある疾患もしくは障害のための治療がベネフィットである可能性が高いかどうか、または腫瘍起源などの所望の表現型を決定するために、特定のバイオマーカーが選択され得る。実例として、本開示において、本出願人らは、機械学習モデルを訓練するために使用されると、異なるバイオマーカーのセットを使用する場合よりも腫瘍起源を正確に予測することができる訓練済みモデルを生じさせる特定のバイオマーカーのセットを提示する。実施例2~4を参照されたい。
システムは、入力データの機械学習モデルの処理に基づいて訓練済み機械学習モデルによって生成された出力データを得るように構成されている。様々な態様において、入力データは、1つまたは複数のバイオマーカーを表す生物学的データ、疾患もしくは障害を表すデータ、試料を表すデータ、試料起源を表すデータ、またはそれらの任意の組み合わせを含む。そして、システムは、特定のバイオマーカーのセットを有する生体試料の解剖学的起源を予測し得る。いくつかの実施形態において、疾患もしくは障害はがんのタイプを含み得、解剖学的起源は、様々な組織および器官を含むことができる。この設定において、バイオマーカーのセット、疾患または障害および様々な解剖学的起源を含む入力データの訓練済み機械学習モデルの処理に基づいて生成される訓練済み機械学習モデルの出力は、生体試料の予測される解剖学的起源を表すデータを含む。
いくつかの実施形態において、訓練済み機械学習モデルによって生成された出力データは所望の分類の確率を含む。実例として、そのような確率は、生体試料が特定の器官からの組織に由来する確率であり得る。他の実施形態において、出力データは、入力データの訓練済み機械学習モデルの処理に基づいて訓練済み機械学習モデルによって生成された任意の出力データを含み得る。いくつかの態様において、入力データは、バイオマーカーのセット、疾患もしくは障害を表すデータ、試料を表すデータ、試料起源を表すデータ、またはそれらの任意の組み合わせを含む。
いくつかの実施形態において、本開示によって生成された訓練データ構造は、特定の訓練サンプルに対応する特徴ベクトルを表すフィールドをそれぞれが含む複数の訓練データ構造を含み得る。特徴ベクトルは、訓練サンプルに由来し、かつ訓練サンプルを表す特徴のセットを含む。訓練サンプルには、例えば、生体試料の1つまたは複数のバイオマーカー、生体試料に関連する疾患または障害、および生体試料の解剖学的起源が含まれ得る。訓練データ構造は、それぞれの訓練データ構造が、特徴ベクトルのそれぞれの特徴を表す重みを割り当てられ得るため、フレキシブルである。したがって、複数の訓練データ構造の各訓練データ構造は、訓練中に機械学習モデルによって特定の推論が成されるように特別に構成されることができる。
モデルが、生体試料、例えば腫瘍試料の、可能性が高い解剖学的起源の予測を行うように訓練される非限定的な例を考えてみる。結果として、本明細書にしたがって生成される新規な訓練データ構造は、機械学習モデルの性能を改善するように設計されている。理由は、それが、特定のバイオマーカーのセットを有する生体試料の解剖学的起源を予測するように機械学習モデルを訓練するために使用されることができるからである。実例として、本開示によって記載される訓練データ構造、システムおよび動作を使用して訓練される前には特定のバイオマーカーのセットを有する生体試料の解剖学的起源に関する予測を実行することができなかった機械学習モデルが、本開示によって記載される訓練データ構造、システムおよび動作を使用して訓練されることにより、特定のバイオマーカーのセットを有する生体試料の解剖学的起源に関する予測を行うことを学習することができる。したがって、このプロセスは、他の点では汎用の機械学習モデルを採用し、その汎用機械学習モデルを、特定のバイオマーカーのセットを有する生体試料の解剖学的起源の予測を実行する特有のタスクを実行するための特殊なコンピュータへと変更する。
図1Aは、機械学習モデル110を訓練するための従来技術システム100の一例のブロック図である。いくつかの実施形態において、機械学習モデルは、例えば、サポートベクターマシンであり得る。あるいはまた、機械学習モデルは、ニューラルネットワークモデル、線形回帰モデル、ランダムフォレストモデル、ロジスティック回帰モデル、単純ベイズモデル、二次判別分析モデル、k近傍法モデル、サポートベクターマシンなどを含んでもよい。機械学習モデル訓練システム100は、以下に記載されるシステム、コンポーネントおよび技術が実現されることができる、1つまたは複数の位置で1つまたは複数のコンピュータ上にコンピュータプログラムとして実現され得る。機械学習モデル訓練システム100は、訓練データ項目のデータベース(またはデータセット)120からの訓練データ項目を使用して機械学習モデル110を訓練する。訓練データ項目は複数の特徴ベクトルを含み得る。各訓練ベクトルは、訓練ベクトルが表す訓練サンプルの特定の特徴にそれぞれが対応する複数の値を含み得る。訓練特徴は独立変数と呼ばれることもある。加えて、システム100は、特徴ベクトルに含まれる特徴ごとにそれぞれの重みを維持する。
機械学習モデル110は、入力訓練データ項目122を受け取り、入力訓練データ項目122を処理して出力118を生成するように構成されている。入力訓練データ項目は、複数の特徴(または独立変数「X」)および訓練ラベル(または従属変数「Y」)を含み得る。機械学習モデルは、訓練項目を使用して訓練され得、訓練されると、X=f(Y)を予測することができる。
機械学習モデル110が、受け取ったデータ項目のための正確な出力を生成することを可能にするために、機械学習モデル訓練システム100は、機械学習モデル110のパラメータの値を調節する、例えば初期値からパラメータの訓練済み値を決定するように機械学習モデル110を訓練し得る。訓練工程から導出されたこれらのパラメータは、完全に訓練済みの機械学習モデル110を使用する予測工程中に使用されることができる重みを含み得る。
機械学習モデル110を訓練するとき、機械学習モデル訓練システム100は、ラベル付き訓練データ項目のデータベース(データセット)120に記憶された訓練データ項目を使用する。データベース120は、複数の訓練データ項目のセットを記憶し、複数の訓練項目のセット中の各訓練データ項目はそれぞれのラベルと関連付けされている。一般に、訓練データ項目のためのラベルは、訓練データ項目のための正しい分類(または予測)、すなわち、機械学習モデル110によって生成された出力値によって訓練データ項目の分類として同定されるべき分類を同定する。図1Aを参照すると、訓練データ項目122が訓練ラベル122aと関連付けられ得る。
機械学習モデル訓練システム100は、目的関数を最適化するように機械学習モデル110を訓練する。目的関数の最適化は、例えば、損失関数130の最小化を含み得る。一般に、損失関数130は、(i)所与の訓練データ項目122を処理することによって機械学習モデル110によって生成された出力118、および(ii)訓練データ項目122のためのラベル122a、すなわち、訓練データ項目122を処理することによって機械学習モデル110が生成したはずである目標出力に従属する関数である。
従来の機械学習モデル訓練システム100は、データベース120からの訓練データ項目に対して従来の機械学習モデル訓練技術、例えばヒンジ損失、確率的勾配法、バックプロパゲーションを伴う確率的勾配降下法などの複数回の反復を実行して、機械学習モデル110のパラメータの値を繰り返し調節することにより、(累積)損失関数130を最小化するように機械学習モデル110を訓練することができる。すると、完全に訓練済みの機械学習モデル110は、ラベルなし入力データに基づいて予測を行うために使用することができる予測モデルとして展開され得る。
図1Bは、試料起源を予測するように機械学習モデルを訓練するための訓練データ構造を生成するシステムのブロック図である。
システム200は、2つ以上の分散コンピュータ210、310、ネットワーク230およびアプリケーションサーバ240を含む。アプリケーションサーバ240は、抽出ユニット242、メモリユニット244、ベクトル生成ユニット250および機械学習モデル270を含む。機械学習モデル270は、ニューラルネットワークモデル、線形回帰モデル、ランダムフォレストモデル、ロジスティック回帰モデル、単純ベイズモデル、二次判別分析モデル、k近傍法モデル、サポートベクターマシンなどの1つまたは複数を含み得る。各分散コンピュータ210、310は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータまたはデスクトップコンピュータなどを含み得る。あるいはまた、分散コンピュータ210、310は、それぞれ1つまたは複数の端末205、305によって入力されたデータを受け取るサーバコンピュータを含んでもよい。端末コンピュータ205、305は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータなどをはじめとする任意のユーザデバイスを含み得る。ネットワーク230は、1つまたは複数のネットワーク230、例えばLAN、WAN、有線イーサネットネットワーク、無線ネットワーク、セルラーネットワーク、インタネットまたはそれらの任意の組み合わせを含み得る。
アプリケーションサーバ240は、ネットワーク230を使用して第一の分散コンピュータ210および第二の分散コンピュータ310などの1つまたは複数の分散コンピュータによって提供されるデータレコード220、222、224、320を得る、または他のやり方で受け取るように構成されている。いくつかの実施形態において、それぞれの分散コンピュータ210、310は、異なるタイプのデータレコード220、222、224、320を提供し得る。例えば、第一の分散コンピュータ210は、対象からの生体試料に関するバイオマーカーを表すバイオマーカーデータレコード220、222、224を提供し得、第二の分散コンピュータ310は、試料データベース312から得られた対象に関する解剖学的起源または他の試料データを表す試料データ320を提供し得る。しかし、本開示は、2つのコンピュータ210、310がデータレコード220、222、224、230を提供することに限られる必要はない。そのような実施形態は、ロードバランシング、帯域幅最適化、またはその両方などの技術的利点を提供することができるが、データレコード220、222、224、230が同じコンピュータによってそれぞれ提供されることができることも考えられている。
バイオマーカーデータレコード220、222、224は、生体試料の生体認証属性を記述する任意のタイプのバイオマーカーデータを含み得る。実例として、図1Bの例は、DNAバイオマーカー220、タンパク質バイオマーカー222およびRNAデータバイオマーカー224を表すデータレコードを含むものとしてバイオマーカーデータレコードを示す。これらのバイオマーカーデータレコードはそれぞれ、対象のバイオマーカー、例えば対象のDNAバイオマーカー220a、タンパク質バイオマーカー222aまたはRNAバイオマーカー224aを記述する情報220a、222a、224aを構造化するフィールドを有するデータ構造を含み得る。しかし、本開示はそのように限定される必要はなく、任意の有用なバイオマーカーを評価することができる。いくつかの態様において、バイオマーカーデータレコード220、222、224は、DNAおよび/またはRNAからの次世代シーケンシングデータを含み、そのような次世代シーケンシングデータには、シングルバリアント、挿入および欠失、置換、転座、融合、切断、重複、増幅、喪失、コピー数、反復、全遺伝子変異量、マイクロサテライト不安定性などが含まれるが、それに限定されるわけではない。代替的または追加的に、バイオマーカーデータレコード220、222、224はまた、インサイチューハイブリダイゼーションデータを含んでもよい。そのようなインサイチューハイブリダイゼーションデータは、DNAコピー数、転座などを含み得る。代替的または追加的に、バイオマーカーデータレコード220、222、224は、全トランスクリプトームシーケンシングから得られたデータをはじめとするが、それに限定されるわけではない遺伝子発現または遺伝子融合などのRNAデータを含んでもよい。代替的または追加的に、バイオマーカーデータレコード220、222、224は、免疫組織化学(IHC)を使用して得られるようなタンパク質発現データを含んでもよい。代替的または追加的に、バイオマーカーデータレコード220、222、224は、複素数などのADAPTデータを含んでもよい。
いくつかの実施形態において、バイオマーカーデータレコード220、222、224は、表2~8のいずれか1つに記載された1つまたは複数のバイオマーカーおよび属性を含む。しかし、本開示はそれに限定される必要はなく、他のタイプのバイオマーカーが、所望により使用され得る。例えば、バイオマーカーデータは、全エキソームシーケンシング、全トランスクリプトームシーケンシングまたはそれらの組み合わせによって導出され得る。
試料データレコード320は、生体試料の様々な局面、例えば、試料が得られた組織および/または器官を記述する場合がある。例えば、試料データベース312から得られた試料データレコード320は、疾患もしくは障害320a-1(「不快」)、試料が得られた組織もしくは器官320a-2、試料タイプ320a-3、検証された試料起源ラベル320a-4、またはそれらの任意の組み合わせなどの生体試料のデータ属性を構造化するフィールドを有する1つまたは複数のデータ構造を含み得る。試料レコード320は、試料を記述する最大n個のデータレコードを含むことができ、この場合、nは0よりも大きい任意の正の整数である。例えば、図1の例は、疾患/障害、試料が得られた組織/器官、および試料タイプを記述する患者試料データを使用して機械学習モデルを訓練するが、本開示はそれに限定されるわけではない。例えば、いくつかの実施形態において、機械学習モデル370は、試料が得られた組織または器官320a-2および試料タイプ320a-3を含み、不快または障害320a-1を含まない患者試料情報を使用して試料の起源を予測するために訓練されることができる。
代替的にまたは追加的に、試料データレコード320はまた、試料が得られた対象の属性を含む、生体試料の詳細を記述するデータ属性を構造化するフィールドを含み得る。疾患または障害の例は、例えば、がんのタイプを含み得る。組織または器官は、例えば、組織のタイプ(例えば、筋組織、上皮組織、結合組織、神経組織など)または器官(例えば、結腸、肺、脳など)を含み得る。試料タイプは、試料のタイプ、例えば新鮮または凍結の腫瘍試料、体液、生検、FFPEなどを表すデータを含み得る。いくつかの実施形態において、試料が得られる対象の属性は、臨床属性、例えば、試料の病理学的詳細、対象の年齢および/または性別、対象の前治療などを含む。試料が一次起源未知の転移性試料(すなわち、原発不明がん(CUPS))である場合、属性は、試料が採取された位置を含み得る。非限定的な例として、一次起源未知の転移性病変は、肝臓または脳に見られ得る。したがって、図1Bの例は、試料データが疾患または障害、組織または器官、および試料タイプを含み得ることを示しているが、試料データは、本明細書に記載される他のタイプの情報を含みうる。そのうえ、試料データがヒト「患者」に限定される必要性はない。その代わりに、試料データレコード220、222、224および生体認証データレコード320は、任意の非ヒト生物を含む任意の所望の対象と関連付けられ得る。
いくつかの実施形態において、データレコード220、222、224、320のそれぞれは、それぞれの分散コンピュータからのデータレコードをアプリケーションサーバ240によって相関させることを可能にするキー付きデータを含み得る。キー付きデータは、例えば、対象識別子を表すデータを含み得る。対象識別子は、対象に関するバイオマーカーを対象に関する試料データと関連付けすることができる、対象を同定する任意の形態のデータを含み得る。
第一の分散コンピュータ210は、バイオマーカーデータレコード220、222、224をアプリケーションサーバ240に提供し得る(208)。第二の分散コンピュータ310は、試料データレコード320をアプリケーションサーバ240に提供し得る(210)。アプリケーションサーバ240は、バイオマーカーデータレコード220および試料データレコード220、222、224を抽出ユニット242に提供することができる。
抽出ユニット242は、受け取ったバイオマーカーデータ220、222、224および試料データレコード320を処理して、機械学習モデルを訓練するために使用することができるデータ220a-1、222a-1、224a-1、320a-1、320a-2、320a-3を抽出することができる。例えば、抽出ユニット242は、生体認証データレコード220、222、224のデータ構造のフィールドによって構造化されたデータ、転帰データレコード320のデータ構造のフィールドによって構造化されたデータまたはそれらの組み合わせを得ることができる。抽出ユニット242は、1つまたは複数の情報抽出アルゴリズム、例えばキー付きデータ抽出、パターンマッチング、自然言語処理などを実行して、生体認証データレコード220、222、224および試料データレコード320からそれぞれデータ220a-1、222a-1、224a-1、320a-1、320a-2、320a-3を同定し、取得し得る。抽出ユニット242は、抽出されたデータをメモリユニット244に提供し得る。抽出されたデータユニットは、データアクセス時間を改善し、抽出データへのアクセスにおける待ち時間を減らしてシステム性能を改善するために、フラッシュメモリ(ハードディスクとは違って)などのメモリユニット244に記憶され得る。いくつかの実施形態において、抽出されたデータは、メモリユニット244中にメモリ内データグリッドとして記憶されてもよい。
より詳細には、抽出ユニット242は、機械学習モデル270による処理のための入力データ構造260を生成するために使用されるバイオマーカーデータレコード220、222、224および試料データレコード320の一部分、例えば220a-1、222a-1、224a-1、320a-1、320a-2、320a-3を、生成された入力データ構造260のためのラベルとして使用される試料データレコードの部分320a-4からフィルタリングするように構成され得る。そのようなフィルタリングは、抽出ユニット242が、バイオマーカーデータと、疾患もしくは障害320a-1、試料が得られた(例えば、生検された)組織/器官320a-1、試料タイプ320a-3の詳細またはそれらの任意の組み合わせを含む試料データの第一の部分とを試料の検証された起源320a-4から分離することを含む。試料の検証された試料起源は、試料が得られたものと異なる組織/器官または同じ組織/器官であり得る。試料が得られた組織/器官が検証された起源と異なる可能性がある例は、疾患または障害が、第一の組織/器官から次いで試料が得られた第二の組織/器官に拡大した場合を含むことができる。すると、アプリケーションサーバ240は、バイオマーカーデータ220a-1、222a-1、224a-1と、疾患もしくは障害320a-1、組織もしくは器官320a-2、試料タイプの詳細(図1Bには示さず)またはそれらの組み合わせを含む試料データの第一の部分とを使用して、入力データ構造260を生成することができる。加えて、アプリケーションサーバ240は、試料の検証された起源320a-4を、生成されたデータ構造のためのラベルとして記述する試料データの第二の部分を使用することができる。
アプリケーションサーバ240は、メモリユニット244に記憶された抽出データを処理し、バイオマーカーデータレコード220、222、224から抽出されたバイオマーカーデータ220a-1、222a-1、224a-1を試料データ320a-1、320a-2、320a-3の第一の部分と相関させ得る。この相関の目的は、バイオマーカーデータを試料データとでクラスタ化して、生体試料に関する試料データが同じ生体試料に関するバイオマーカーデータとでクラスタ化されるようにすることである。いくつかの実施形態において、バイオマーカーデータと試料データの第一の部分との相関は、バイオマーカーデータレコード220、222、224および試料データレコード320のそれぞれと関連付けされたキー付きデータに基づき得る。例えば、キー付きデータは試料識別子または対象識別子、例えば、試料が得られた対象を含み得る。
アプリケーションサーバ240は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および試料データ320a-1、320a-2、320a-3の抽出された第一の部分を、ベクトル生成ユニット250への入力として提供する。ベクトル生成ユニット250は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および試料データ320a-1、320a-2、320a-3の抽出された第一の部分に基づいてデータ構造を生成するために使用される。生成されたデータ構造は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および試料データ320a-1、320a-2、320a-3の抽出された第一の部分を数値で表す複数の値を含む特徴ベクトル260である。特徴ベクトル260は、各タイプのバイオマーカーおよび各タイプの試料データのためのフィールドを含み得る。例えば、特徴ベクトル260は、(i)1つまたは複数のタイプの次世代シーケンシングデータ、例えばシングルバリアント、挿入および欠失、置換、転座、融合、切断、重複、増幅、喪失、コピー数、反復、全遺伝子変異量、マイクロサテライト不安定性、(ii)1つまたは複数のタイプのインサイチューハイブリダイゼーションデータ、例えばDNAコピー数、遺伝子コピー、遺伝子転座、(iii)1つまたは複数のタイプのRNAデータ、例えば遺伝子発現または遺伝子融合、(iv)1つまたは複数のタイプのタンパク質データ、例えば免疫組織化学を使用して得られる存在、レベルまたは細胞位置、(v)1つまたは複数のタイプのADAPTデータ、例えば複素数、および(vi)1つまたは複数のタイプの試料データ、例えば疾患または障害、試料タイプ、各試料の詳細などに対応する1つまたは複数のフィールドを含み得る。
ベクトル生成ユニット250は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および試料データ320a-1、320a-2、320a-3の抽出された第一の部分が各フィールドによって表されるデータを含む程度を示す重みを、特徴ベクトル260の各フィールドに割り当てるように構成されている。1つの実施形態において、例えば、ベクトル生成ユニット250は、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および試料データ320a-1、320a-2、320a-3の抽出された第一の部分に見られる特徴に対応する特徴ベクトルの各フィールドに「1」を割り当て得る。そのような実施形態において、ベクトル生成ユニット250はまた、例えば、抽出されたバイオマーカーデータ220a-1、222a-1、224a-1および試料データ320a-1、320a-2、320a-3の抽出された第一の部分に見られない特徴に対応する特徴ベクトルの各フィールドに「0」を割り当て得る。ベクトル生成ユニット250の出力は、機械学習モデル270を訓練するために使用することができる、特徴ベクトル260などのデータ構造を含み得る。
アプリケーションサーバ240は訓練特徴ベクトル260をラベル付けすることができる。具体的には、アプリケーションサーバは、試料データ320a-4の抽出された第二の部分を使用して、生成された特徴ベクトル260を検証された試料起源320a-4でラベル付けすることができる。検証された試料起源320a-4に基づいて生成された訓練特徴ベクトル260のラベルを使用して、試料レコード320によって表され、バイオマーカー220a-1、222a-1、224a-1(そのそれぞれが訓練データ構造260中で記述されることにより記述される)の特定のセットによって定義される疾患もしくは障害320a-1を有する、生体試料に関する起源であった組織または器官を予測することができる。
アプリケーションサーバ240は、特徴ベクトル260を機械学習モデル270への入力として提供することにより、機械学習モデル270を訓練することができる。機械学習モデル270は、生成された特徴ベクトル260を処理し、出力272を生成し得る。アプリケーションサーバ240は、損失関数280を使用して、機械学習モデル280の出力272と、訓練ラベルによって指定された値(顕彰された試料起源320a-4を記述する抽出された試料データの第二の部分に基づいて生成される)との間の誤差の量を決定することができる。損失関数280の出力282を使用して、機械学習モデル282のパラメータを調節することができる。
いくつかの実施形態において、機械学習モデル270のパラメータの調節は、機械学習モデルパラメータの手動チューニングを含み得る。あるいはまた、いくつかの実施形態において、機械学習モデル270のパラメータは、アプリケーションサーバ242によって実行される1つまたは複数のアルゴリズムによって自動的にチューニングされてもよい。
アプリケーションサーバ240は、生体試料に関するバイオマーカーデータのセットに対応する試料データベースに記憶された試料データレコード320ごとに、図1Bを参照して上述したプロセスの複数回の反復を実行し得る。これは、試料データベース312に記憶された、生体試料に関するバイオマーカーデータの対応するセットを有する各試料データレコード320が尽きるまで、機械学習モデル270が特定の誤差範囲内にまで訓練されるまで、またはそれらの組み合わせまで、数百回の反復、数千回の反復、数万回の反復、数十万回の反復、数百万回の反復またはより多数の反復を含み得る。機械学習モデル270は、例えば、機械学習モデル270が、ラベルなしバイオマーカーデータのセット、疾患もしくは障害データおよび試料タイプデータに基づいて、バイオマーカーデータを有する試料の起源を予測することができるとき、特定の誤差範囲内で訓練される。起源は、例えば、確率、起源の分類における信頼度の一般的指標などを含み得る。
図1Cは、対象からの試料データの試料起源を予測するための訓練済み機械学習モデル370を使用するためのシステムのブロック図である。
機械学習モデル370は、上記図1Bのシステムを参照して説明したプロセスを使用して訓練済みである機械学習モデルを含む。例えば、図1Bは、試料が得られた組織/器官422aおよび試料タイプ420aを表すデータを含む患者試料データを使用して試料起源を予測するように訓練された機械学習モデル370の例である。図1Bの例では、疾患、障害、もしくは不快は、モデルを訓練するために使用されなかったが、試料が得られた組織/器官422aおよび試料タイプ420aに加えて不快または障害を使用して機械学習モデル370を訓練できる、本開示の実施形態があり得る。訓練済み機械学習モデル370は、1つまたは複数のバイオマーカーのセット、疾患もしくは障害および他の関連する試料データ、例えば試料タイプ、入力特徴ベクトルに基づいて、バイオマーカーを有する生体試料の起源を予測することができる。いくつかの実施形態において、「起源」は、解剖学的システム、位置、器官、組織タイプなどを含み得る。
機械学習モデル370をホストするアプリケーションサーバ240は、ラベルなしバイオマーカーデータレコード320、322、324を受け取るように構成されている。バイオマーカーデータレコード320、322、324は、DNAバイオマーカー320a、タンパク質バイオマーカー322a、RNAバイオマーカー324aまたはそれらの任意の組み合わせなどの1つまたは複数の特定のバイオマーカーを表すデータを構造化するフィールドを有する1つまたは複数のデータ構造を含む。上述したように、受け取ったバイオマーカーデータレコードは、図1Cによって明示的には示されない様々なタイプのバイオマーカー、例えば(i)シングルバリアント、挿入および欠失、置換、転座、融合、切断、重複、増幅、喪失、コピー数、反復、全遺伝子変異量、マイクロサテライト不安定性などを含むが、それに限定されるわけではないDNAおよび/もしくはRNAからの次世代シーケンシングデータ、(ii)1つもしくは複数のタイプのインサイチューハイブリダイゼーションデータ、例えばDNAコピー、遺伝子コピー、遺伝子転座、(iii)1つもしくは複数のタイプのRNAデータ、例えば遺伝子発現もしくは遺伝子融合、(iv)1つもしくは複数のタイプのタンパク質データ、例えば、免疫組織化学を使用して得られる存在、レベルもしくは位置、または(v)1つもしくは複数のタイプのADAPTデータ、例えば複素数を含み得る。いくつかの実施形態において、バイオマーカーデータレコード320、322、324は、表2~8のいずれか1つに記載された1つまたは複数のバイオマーカーおよび属性を含む。しかし、本開示は、それに限定される必要はなく、所望により他のバイオマーカーを使用してもよい。例えば、バイオマーカーデータは、全エキソームシーケンシング、全トランスクリプトームシーケンシングまたはそれらの組み合わせによって得られ得る。
機械学習モデル370をホストするアプリケーションサーバ240はまた、受け取ったバイオマーカーデータレコード320、322、324によって表されるバイオマーカーを有する生体試料の試料データ420aによって記述される生体試料のために提案された起源データ422aを表す試料データ420を受け取るように構成されている。生体試料420aのために提案された起源データ422aは同じくラベルなしであり、バイオマーカーデータレコード320、322、324によって表すバイオマーカーを有する生体試料の起源に関する単なる示唆である。しかし、本明細書の他の箇所に述べるように、疾患(例えば、がん)が例えば、器官から器官に拡大する潜在性のせいで、試料が得られた組織/器官422aは、実際の試料起源でない場合がある。
いくつかの実施形態において、試料データ420は、ネットワーク230を介して端末405によって受け取られるまたは提供(305)され、バイオマーカーデータは第二の分散コンピュータ310から得られる。バイオマーカーデータは、様々なアッセイを実施するために使用される実験機器から導出され得る。例えば、本明細書における実施例1を参照されたい。試料データ420は、試料が得られた組織/器官422aおよび試料タイプ420aを表すデータを含むことができる。試料が得られた組織/器官422aは、試料の提案された起源と称される場合がある。他の実施形態において、試料データ420a、提案された起源422a、およびバイオマーカーデータ320、322、324のそれぞれは、端末405から受け取られ得る。例えば、端末405は、医師、医師の元で働く被雇用者もしくは医師の代行者または試料を表すデータ、提案された起源を表すデータおよび生体試料に関する患者属性を表すデータを入力する他の人物のユーザデバイスであり得る。いくつかの実施形態において、試料データ420は、組織または器官名によって記述される、提案された起源を表すデータのフィールドを構造化するデータ構造を含み得る。他の実施形態において、試料データ420は、より複雑な試料データ、例えば試料タイプ、試料が得られた患者の年齢および/または性別などを表すデータのフィールドを構造化するデータ構造を含み得る。
アプリケーションサーバ240は、バイオマーカーデータレコード320、322、324、試料データ420および提案された起源データ422を受け取る。アプリケーションサーバ240は、バイオマーカーデータレコード320、322、324、試料データ420および起源データ422を抽出ユニット242に提供し、この抽出ユニットは、バイオマーカーデータレコード320、322、324および試料データレコード420、422のフィールドから(i)特定のバイオマーカーデータ、例えばDNAバイオマーカーデータ320a-1、タンパク質発現データ322a-1、324a-1、(ii)試料データ420a-1、および(iii)提案された起源データ422a-1を抽出するように構成されている。いくつかの実施形態において、抽出されたデータは、バッファ、キャッシュなどとしてメモリユニット244に記憶され、その後、ベクトル生成ユニット250が処理のための入力を受け取るためのバンド幅を有するとき、入力としてベクトル生成ユニット250に提供される。他の実施形態において、抽出されたデータは、処理のためにベクトル生成ユニット250に直接提供される。例えば、いくつかの実施形態においては、複数のベクトル生成ユニット250を用いて、待ち時間を減らすために入力の並列処理を可能にしてもよい。
ベクトル生成ユニット250は、複数のフィールドを含み、バイオマーカーデータのタイプごとの1つまたは複数のフィールドおよび起源データのタイプごとの1つまたは複数のフィールドを含む、特徴ベクトル360などのデータ構造を生成することができる。例えば、特徴ベクトル360の各フィールドは、(i)バイオマーカーデータレコード320、322、324から抽出することができる各タイプの抽出されたバイオマーカーデータ、例えば各タイプの次世代シーケンシングデータ、各タイプのインサイチューハイブリダイゼーションデータ、各タイプのRNAまたはDNAデータ、各タイプのタンパク質(例えば免疫組織化学)データおよび各タイプのADAPTデータ、および(ii)試料データレコード420、422から抽出することができる各タイプの試料データ、例えば各タイプの疾患または障害、各タイプの試料および各タイプの起源詳細に対応し得る。
ベクトル生成ユニット250は、抽出されたバイオマーカーデータ320a-1、322a-1、324a-1、抽出された試料420a-1および抽出された起源422a-1が各フィールドによって表されるデータを含む程度を示す重みを、特徴ベクトル360の各フィールドに割り当てるように構成されている。1つの実施形態において、例えば、ベクトル生成ユニット250は、抽出されたバイオマーカーデータ320a-1、322a-1、324a-1、抽出された試料420a-1および抽出された起源422a-1中に見られる特徴に対応する特徴ベクトル360の各フィールドに「1」を割り当て得る。そのような実施形態において、ベクトル生成ユニット250はまた、例えば、抽出されたバイオマーカーデータ320a-1、322a-1、324a-1、抽出された試料420a-1および抽出された起源422a-1中に見られない特徴に対応する特徴ベクトルの各フィールドに「0」を割り当て得る。ベクトル生成ユニット250の出力は、訓練済み機械学習モデル370に入力として提供されることができる、特徴ベクトル360などのデータ構造を含み得る。
訓練済み機械学習モデル370は、訓練段階中に決定され、図1Bを参照して説明された調節済みパラメータに基づいて、生成された特徴ベクトル360を処理する。訓練済み機械学習モデルの出力272は、バイオマーカー320a-1、322a-1、324a-1を有する生体試料に関する試料420a-1の起源422a-1の指標を提供する。いくつかの実施形態において、出力272は、バイオマーカー320a-1、322a-1、324a-1を有する生体試料に関する試料420a-1の起源422a-1を示す確率を含み得る。そのような実施形態において、出力272は、ネットワーク230を使用して端末405に提供(311)され得る。すると、端末405は、特徴ベクトル360によって表されたバイオマーカーを有する生体試料の予測される起源を示す出力をユーザインタフェース420上に生成し得る。
他の実施形態において、出力272は、出力272の意味を解読するように構成された予測ユニット380に提供されてもよい。例えば、予測ユニット380は、出力272を有効性の1つまたは複数のカテゴリーにマッピングするように構成されることができる。そして、予測ユニット328の出力は、検査室職員、医療提供者、対象、対象者の保護者、看護師、医師などによるレビューのために、ネットワーク230を使用して端末305に提供(311)されるメッセージ390の一部として使用されることができる。
図1Dは、試料起源を予測するように機械学習モデルを訓練するための訓練データ構造を生成するプロセス400のフローチャートである。1つの局面において、プロセス400は、第一の分散データソースから、生体試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化するフィールドを含む第一のデータ構造を得る工程(410)、第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程(420)、第二の分散データソースから、生体試料と、1つまたは複数のバイオマーカーを有する生体試料に関する起源データとを表すデータを構造化するフィールドを含む第二のデータ構造を得る工程(430)、第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程(440)、第一のデータ構造および第二のデータ構造に基づいて、(i)1つまたは複数のバイオマーカー、(ii)生体試料、(iii)起源、および(iv)生体試料に関する予測される起源を表すデータを構造化するラベル付き訓練データ構造を生成する工程(450)、および生成されたラベル付き訓練データを使用して機械学習モデルを訓練する工程(460)を含み得る。
図1Eは、対象からの試料データの試料起源を予測するように訓練済みである機械学習モデルを使用するプロセス500のフローチャートである。1つの局面において、プロセス500は、生体試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータ構造を得る工程(510)、生体試料に関する試料データを表すデータを得る工程(520)、生体試料に関する起源タイプを表すデータを得る工程(530)、(i)1つまたは複数のバイオマーカー、(ii)生体試料、および(iii)起源タイプを表すデータを構造化する機械学習モデルに入力するためのデータ構造を生成する工程(540)、生成されたデータ構造を、1つまたは複数の得られたバイオマーカー、1つまたは複数の試料タイプおよび1つまたは複数の起源を表すデータを構造化するラベル付き訓練データ構造を使用して試料起源を予測するように訓練済みである機械学習モデルへの入力として提供する工程(550)、提供されたデータ構造の機械学習モデルの処理に基づいて機械学習モデルによって生成された出力を得る工程(560)、および機械学習モデルによって生成された、得られた出力に基づいて、1つまたは複数のバイオマーカーを有する生体試料に関する予測される起源を決定する工程(570)を含み得る。
本明細書に提供されるものは、複数の機械学習モデルを用いて分類性能を改善する方法である。従来、所望の予測/分類を実行するためには単一のモデルが選択される。例えば、最適な所望の性能を有するモデルを同定するために、訓練段階中、様々なモデルパラメータまたはモデルのタイプ、例えばランダムフォレスト、サポートベクターマシン、ロジスティック回帰、k近傍法、人工ニューラルネットワーク、単純ベイズ、二次判別分析またはガウス過程モデルを比較し得る。本出願人らは、単一のモデルの選択が、あらゆる設定において最適な性能を提供し得るわけではないことを理解した。代わりに、複数のモデルを訓練して予測/分類を実行させ、共同予測を使用して分類を行うことができる。このシナリオにおいては、各モデルが「投票」することを許され、投票の大多数を獲得する分類が勝者と見なされる。
本明細書に開示されるこの投票方略は、モデル構築(例えば、訓練データを使用)とナイーブ試料を分類するための用途の両方を含む、任意の機械学習分類に適用されることができる。このような設定は、生物学、金融、通信、メディアおよびエンタテイメントの分野のデータを含むが、これらに限定されない。いくつかの好ましい態様において、データは高次元の「ビッグデータ」である。いくつかの態様において、データは、本明細書に記載されるような分子プロファイリングによって得られた生物学的データを含むが、それに限定されるわけではない生物学的データを含む。例えば実施例1を参照されたい。分子プロファイリングデータには、例えば特定のバイオマーカーパネルのための高次元次世代シーケンシングデータ(例えば実施例1を参照)または全エキソームおよび/もしくは全トランスクリプトームデータが含まれることができるが、これらに限定されない。分類は、例えば表現型を特性評価するために有用な任意の分類であることができる。例えば、分類は、診断(例えば有疾患もしくは健康)、予後(例えば、良い転帰もしくは悪い転帰を予測する)、セラノーシス(例えば、治療効能もしくはその欠如を予測もしくはモニタする)または他の表現型特性評価(例えば、CUP腫瘍試料の起源)を提供し得る。投票方略の適用例が、本明細書中、実施例2~4に提供される。
図1Fは、試料起源を予測するためにペアワイズ分析を実行するためのシステムの例である。疾患タイプは、例えば、システムにより処理された対象試料の起源を含むことができる。対象試料の起源は、例えば、がんなどの疾患が発生した対象の体の位置を含むことができる。実施例を参照して、対象の腫瘍生検が、対象の肝臓から得られる場合がある。次いで、入力データが、生検された腫瘍に基づいて生成され、ペアワイズ分析モデル340への入力として提供されることができる。モデルは、生成された入力データをそれぞれの公知のタイプの疾患(例えば、異なるがんタイプ)の対応する生物学的シグネチャと比較することができる。ペアワイズ分析モデル340によって生成された出力に基づき、コンピュータ310は、入力データによって表される生検された腫瘍が、肝臓に発生したか、または膵臓などの対象の体のどこか他の部分に発生したかを決定することができる。次いで、生検された腫瘍だけに治療が基づくこととは対照的に、疾患の起源に基づき1つまたは複数の治療が決定されることができる。
より詳細には、システム300は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニット320を含むことができる。いくつかの実施形態において、1つまたは複数のプロセッサおよび1つまたは複数のメモリ320は、コンピュータ310などのコンピュータで実現される場合がある。
システム300は、第一の生物学的シグネチャデータ322、324を入力として得ることができる。第一の生物学的シグネチャ322、324データは、1つまたは複数のバイオマーカー322、試料データ324、または両方を含むことができる。試料データ324は、体から得られた試料、例えば、組織試料、腫瘍試料、悪性流体、または本明細書に記載されるような他の試料を表すデータ含むことができる。いくつかの実施形態において、生物学的シグネチャ322、324は、疾患、例えばがんの特徴を表す。いくつかの実施形態において、特徴は、次世代シーケンシング(NGS)を使用して得られた分子データを表す場合がある。いくつかの実施形態において、非限定的に変異、多型、欠失、挿入、置換、転座、融合、切断、重複、喪失、増幅、反復、または遺伝子コピー数をはじめとするが、それに限定されるわけではない特徴は、疾患試料のDNAに存在し得る。いくつかの実施形態において、特徴は、疾患のRNAに存在し得る。
システムは、ペアワイズ分析を実行するように訓練された機械学習モデル340へ入力するための入力データを生成することができる。機械学習モデルは、ニューラルネットワークモデル、線形回帰モデル、ランダムフォレストモデル、ロジスティック回帰モデル、単純ベイズモデル、二次判別分析モデル、k近傍法モデル、サポートベクターマシンなどを含むことができる。機械学習モデル340は、1つまたは複数のコンピュータ上の1つまたは複数の位置における1つまたは複数のコンピュータプログラムとして実現されることができる。
いくつかの実施形態において、生成される入力データは、生物学的シグネチャ322、324を表すデータを含み得る。他の実施形態において、生物学的シグネチャを表す生成されるデータは、ベクトル生成ユニット330を使用して生成されるベクトル332を含むことができる。例えば、ベクトル生成ユニット330は、メモリユニット320から生物学的シグネチャデータ322、324を得て、生物学的シグネチャデータ322、324に基づき、ベクトル空間内に生物学的シグネチャデータ322、324を表す入力ベクトル333を生成することができる。生成されるベクトル332は、入力としてペアワイズ分析モデル340に提供されることができる。
ペアワイズ分析モデル340は、生物学的シグネチャ341-1、341-2、341-n(nは、任意の正の非ゼロ整数である)をそれぞれ用いた、生物学的シグネチャ322、324を表す入力ベクトル352のペアワイズ分析を実行するように構成されることができる。複数の異なる生物学的シグネチャのそれぞれは、異なるタイプの疾患、例えば、異なるタイプのがんに対応する。いくつかの実施形態において、モデル340は、生物学的シグネチャ341-1、341-2、341-nによって表される複数の生物学的シグネチャ分類のそれぞれとの入力試料の特徴の類似度レベルを決定することにより、試料の起源を入力試料に基づき決定するように訓練された単一モデルであることができる。他の実施形態において、モデル340は、入力ベクトル332と、341-1などの1つの生物学的シグネチャとの間のペアワイズ比較をそれぞれ実行する複数の異なるモデルを含むことができる。そのような例では、各モデルによって生成される出力データを投票ユニットによって評価して、処理された入力ベクトル332によって表される試料の起源を決定することができる。
ペアワイズ分析モデル340は、コンピュータ310などのシステムにより得られることができる出力342を生成することができる。出力342は、ペアワイズ分析に基づいて、可能性が高い試料の疾患タイプを示すことができる。いくつかの実施形態において、出力342は、図4Cに記載される行列などの行列を含むことができる。システムは、生成された行列に基づいて、予測ユニット350を使用して、可能性が高い疾患タイプを示すデータ360を決定することができる。
本明細書における実施例3~4は、そのようなシステムの実施形態を提供する。これらの実施例では、モデルは、115の疾患タイプを識別するように訓練され、各疾患タイプは、一次腫瘍起源および組織学を含む。いくつかの態様において、データ360は、確率によって順位付けされる疾患タイプのリストを提供する。所望であれば、データ360は、様々な疾患タイプの集約として提示されることができる。この例では、そのような器官群の集合体が提示され、その際、各器官群は、適切な疾患タイプを含む。例として、器官群「結腸」は、疾患タイプ「結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん」などを含む。
図1Gは、ペアワイズ分析を実行するためにそれぞれ訓練される複数の機械学習モデルによって生成された出力を解釈するために投票ユニットを使用して試料起源を予測するためのシステムのブロック図である。システム600は、図1Fのシステム300に類似する。しかし、ペアワイズ分析を実行するように訓練された単一の機械学習モデル340の代わりに、システム600は、ペアワイズ分析を実行するように訓練された複数の機械学習モデル340-0、340-1…340-x(xは、1よりも大きな任意の非ゼロ整数である)を含む。システム600はまた、投票ユニット480を含む。非限定的な例として、システム600は、特定セットのバイオマーカーを有する生体試料の起源を予測するために使用されることができる。実施例2~4を参照されたい。
各機械学習モデル370-0、370-1、370-xは、特定のタイプの入力データ320-0、320-1…320-x(xは、1よりも大きな任意の非ゼロ整数であり、機械学習モデルの数xと等しい)を分類するように訓練された機械学習モデルを含むことができる。いくつかの実施形態において、各機械学習モデル340-0、340-1、340-x(図1GにPW比較モデルと表示)は、訓練されることができ、またはそうではなく、(i)試料データを表すデータを含む入力ベクトルと、(ii)公知の疾患タイプ、対象の体の部分、もしくはその両方を表すデータを含む特定の生物学的シグネチャを表す別のベクトルとの間の特定のペアワイズ比較を実行するように構成されることができる。したがって、そのような実施形態において、分類動作は、(i)試料データ(例えば、試料起源、試料タイプなど)を表すデータを含む入力データベクトルおよび(ii)特定の機械学習モデルに関連付けられた生物学的シグネチャに十分に類似していると、または特定の機械学習モデルに関連付けられた生物学的シグネチャとの類似が不十分であると、試料と関連付けされた1つまたは複数のバイオマーカーを分類することを含むことができる。いくつかの実施形態において、入力ベクトルは、入力ベクトルと生物学的シグネチャとの間の類似度が予め決定された閾値を満たす場合、生物学的シグネチャと十分に類似し得る。
いくつかの実施形態において、機械学習モデル340-0、340-1、340-xのそれぞれは、同じタイプであることができる。例えば、機械学習モデル340-0、340-1、340-xのそれぞれは、例えば、異なるパラメータを使用して訓練された、ランダムフォレスト分類アルゴリズムであることができる。他の実施形態において、機械学習モデル340-0、340-1、340-xは、異なるタイプであることができる。例えば、1つもしくは複数のランダムフォレスト分類器、1つもしくは複数のニューラルネットワーク、1つもしくは複数のk近傍分類器、他のタイプの機械学習モデルまたはそれらの任意の組み合わせがあることができる。
試料データおよび試料と関連付けされた1つまたは複数のバイオマーカーを表す420などの入力データは、アプリケーションサーバ240によって得ることができる。試料データは、本明細書に記載の試料タイプ、試料起源などを含むことができる。いくつかの実施形態において、入力データ420は、1つまたは複数の分散コンピュータ310、405からネットワーク230を介して得られる。実例として、入力データ項目420の1つまたは複数は、複数の異なるデータソース210、405からのデータを相関させることによって生成されることができる。そのような実施形態においては、(i)生体試料に関するバイオマーカーを記述する第一のデータを第一の分散コンピュータ310から得ることができ、(ii)生体試料を記述する第二のデータおよび関連データを第二のコンピュータ405から得ることができる。アプリケーションサーバ240は、第一のデータと第二のデータとを相関させて、入力データ構造420などの入力データ構造を生成することができる。このプロセスは図1Cにさらに詳細に説明されている。入力データ420は、ベクトル生成ユニット250に提供されることができる。ベクトル生成ユニット250は、それぞれ入力データ420を表す入力ベクトル360-0、360-1、360-xを生成することができる。いくつかの実施形態はベクトル360-0、360-1、360-xを連続的に生成し得るが、本開示はそのように限定される必要はない。
いくつかの実施形態において、各入力データ構造320-0、320-1、320-xは、生体試料のバイオマーカーを表すデータ、生体試料を記述するデータおよび関連するデータ(例えば、試料タイプ、試料と関連付けされた疾患または障害、および/もしくは試料が得られた患者特性)、またはそれらの任意の組み合わせを含むことができる。生体試料のバイオマーカーを表すデータは、遺伝子または遺伝子産物の特定のサブセットまたはパネルを記述するデータを含むことができる。あるいはまた、いくつかの実施形態において、生体試料のバイオマーカーを表すデータは、例えば、全エキソームシーケンシングおよび/または全トランスクリプトームシーケンシングを介して、公知の遺伝子または遺伝子産物の完全なセットを表すデータを含むことができる。公知の遺伝子の完全なセットは、生体試料が得られた対象の遺伝子すべてを含むことができる。いくつかの実施形態において、機械学習モデル340-0、340-1、340-xのそれぞれは同じタイプの機械学習モデル、例えば、入力データベクトルを、機械学習モデルによって処理されるベクトルによって関連付けられる試料起源(例えば組織または器官)に対応するものとして分類するように訓練されたランダムフォレストモデルである。そのような実施形態において、機械学習モデル340-0、340-1、340-xのそれぞれは同じタイプの機械学習モデルであるが、機械学習モデル340-0、340-1、340-xのそれぞれは異なる方法で訓練されてもよい。機械学習モデル340-0、340-1、340-xは、入力ベクトル360-0、360-1、360-xと関連付けされた生体試料が、入力ベクトル360-0、360-1、360-xと関連付けされた解剖学的起源から得られた可能性が高いかを表す出力データ372-0、372-1、372-xをそれぞれ生成することができる。この例において、入力データセットおよびそれらの対応する入力ベクトルは同じである。例えば、入力データの各セットは、同じバイオマーカー、同じ試料タイプ、同じ起源またはそれらの任意の組み合わせを有する。それにもかかわらず、訓練するために使用される様々な訓練法を考慮すると、図1Gに示すように、入力ベクトル360-0、361-1、361-xを処理する各機械学習モデル370-0、370-1、370-xに基づいて、それぞれの機械学習モデル340-0、340-1、340-xは、それぞれ異なる出力372-0、372-1、372-xを生成し得る。
あるいはまた、機械学習モデル340-0、340-1、340-xのそれぞれは、入力データを、生体試料の最も可能性が高い起源であるとして分類するように訓練された、または他のやり方で構成された異なるタイプの機械学習モデルであることもできる。例えば、第一の機械学習モデル340-1はニューラルネットワークを含むことができ、機械学習モデル340-1はランダムフォレスト分類アルゴリズムを含むことができ、機械学習モデル340-xはk近傍法アルゴリズムを含むことができる。この例において、これら異なるタイプの機械学習モデル340-0、340-1、340-xのそれぞれは、入力ベクトルを受け取り、処理し、入力ベクトルが、同じく入力ベクトルと関連付けされた試料起源にと関連付けされるかを決定するように訓練される、または他のやり方で構成されることができる。この例において、入力データセットおよびそれらの対応する入力ベクトルは同じであることができる。例えば、入力データの各セットは、同じバイオマーカー、同じ試料タイプ、同じ起源またはそれらの任意の組み合わせを有する。したがって、機械学習モデル340-0は、入力ベクトル360-0を処理し、入力ベクトル360-0と関連付けされた生体試料が、同じく入力ベクトル360-0と関連付けされた起源である可能性が高いかを示す出力データ372-0を生成するように訓練されたニューラルネットワークであることができる。加えて、機械学習モデル340-1は、この例の場合には入力ベクトル360-0と同じである入力ベクトル360-1を処理し、入力ベクトル360-1と関連付けされた生体試料が、同じく入力ベクトル360-1と関連付けされた起源である可能性が高いかを示す出力データ272-1を生成するように訓練されたランダムフォレスト分類アルゴリズムであることができる。この入力ベクトル解析方法は、x個の入力、x個の入力ベクトルおよびx個の機械学習モデルのそれぞれで継続することができる。図1Gを参照しながらこの例を続けると、機械学習モデル340-xは、この例の場合には入力ベクトル360-0および360-1と同じである入力ベクトル360-xを処理し、入力ベクトル360-xと関連付けされた対象が、同じく入力ベクトル360-xと関連付けされた治療に反応する可能性が高いのか、反応しない可能性が高いのかを示す出力データ372-xを生成するように訓練されたk近傍法アルゴリズムであることができる。
あるいはまた、機械学習モデル340-0、340-1、340-xのそれぞれは、同じタイプの機械学習モデルあることもできるし、それぞれが異なる入力を受け取るように構成されている異なるタイプの機械学習モデルであることもできる。例えば、第一の機械学習モデル340-0への入力は、生体試料からのバイオマーカーの第一のサブセットまたは第一のパネルを表すデータを含むベクトル360-0を含み、次いで、ベクトル360-0の機械学習モデル340-0処理に基づいて、試料がいくつかの起源からである可能性が高いのか、低いのかを予測することができる。加えて、この例において、第二の機械学習モデル340-1への入力は、バイオマーカーの第一のサブセットまたは第一のパネルと異なる、生体試料からのバイオマーカーの第二のサブセットまたは第二のパネルを表すデータを含むベクトル360-1を含むことができる。次いで、第二の機械学習モデルは、入力ベクトル360-1と関連付けされた試料が、反応する可能性が高いのか、または入力ベクトル360-2と関連付けされた起源である可能性が高いのかを示す第二の出力データ372-1を生成することができる。この入力ベクトル解析方法は、x個の入力、x個の入力ベクトル、およびx個の機械学習モデルのそれぞれで継続することができる。x番目の機械学習モデル340-xへの入力は、他のx-1個の入力データベクトル340-0~340-x-1の(i)少なくとも1つ、(i)2つ以上、または(iii)それぞれと異なる、対象のバイオマーカーのx番目のサブセットまたはx番目のパネルを表すデータを含むベクトル360-xを含むことができる。いくつかの実施形態において、x個の入力データベクトルの少なくとも1つが、試料からのバイオマーカーの完全なセットを表すデータ、例えば、次世代シーケンシングデータを含むことができる。そして、x番目の機械学習モデル340-xは、第二の出力データ372-xを生成することができ、第二の出力データ372-xは、入力ベクトル360-xと関連付けされた試料が、入力ベクトル360-xと関連付けされた起源である可能性が高いのかを示す。
上記システム400の複数の実施形態は、限定的であることを意図するのでなく、代わりに、本開示を使用するとき用いることができる、複数の機械学習モデル340-0、340-1、340-xおよびそれらのそれぞれの入力の構成の単なる例である。これらの例を参照するとき、対象は、任意のヒト、非ヒト動物、植物または本明細書に記載される他の対象であることができる。上記のように、入力特徴ベクトルは、入力データに基づいて生成され、入力データを表すことができる。したがって、各入力ベクトルは、1つまたは複数のバイオマーカー、疾患または障害、試料タイプ、起源、患者データ、バイオマーカーを有する試料の起源を含むデータを表すことができる。
図1Gの実施形態において、出力データ372-0、372-1、372-xは、投票ユニット480を使用して分析することができる。例えば、出力データ372-0、372-1、372-xは投票ユニット480に入力されることができる。いくつかの実施形態において、出力データ372-0、372-1、372-xは、機械学習モデルによって処理された入力ベクトルと関連付けされた生体試料が、機械学習モデルによって処理されたベクトルと関連付けされたある起源である可能性が高いのかを示すデータであることができる。試料が入力ベクトルと関連付けされ、各機械学習モデルによって生成されたかを示すデータは、「0」または「1」を含むことができる。入力ベクトル360-0の機械学習モデル340-0の処理に基づいて機械学習モデル340-0によって産生された「0」は、入力ベクトル360-0と関連付けされた試料が、入力ベクトル360-0と関連付けされた起源である可能性が低いことを示すことができる。同様に、入力ベクトル360-0の機械学習モデル370-0の処理に基づいて機械学習モデル360-0によって産生された「1」は、入力ベクトル360-0と関連付けされた試料が、入力ベクトル360-0と関連付けされた起源である可能性が高いことを示すことができる。この例は「0」を「可能性が低い」として使用し、「1」を「可能性が高い」として使用するが、本開示はそのように限定されない。代わりに、出力クラスを表すための出力データとして任意の値を生成することができる。例えば、いくつかの実施形態においては、「可能性が低い」クラスを表すために「1」を使用し、「可能性が高い」クラスを表すために「0」を使用することもできる。さらに他の実施形態においては、出力データ372-0、372-1、372-xは、機械学習モデルによって処理された入力ベクトルと関連付けされた試料が所与の起源(例えば所与の器官)と関連付けされる可能性を示す確率を含むことができる。そのような実施形態においては、例えば、生成された確率を閾値に適用し、閾値が満たされる場合、機械学習モデルによって処理された入力ベクトルと関連付けされた対象がその起源である可能性が高いと決定されることができる。
いくつかの実施形態において、機械学習モデルは、試料がある起源である可能性が高いのか、または低いのかを示す代わりに、または示すことに加えて、試料が別の起源と比べてある起源である可能性が高いかの指標を出力する。例えば、機械学習モデルは、試料が前立腺起源(すなわち前立腺由来)である可能性が高いのか、もしくは低いのかを示す場合があり、または機械学習モジュールは、試料が前立腺由来である可能性がもっとも高いのか、それとも結腸由来である可能性がもっとも高いのかを示す場合がある。任意のそのような起源をそのように比較することができる。
投票ユニット480は、受け取った出力データ370-0、372-1、372-xを評価し、処理された入力ベクトル360-0、360-1、360-xと関連付けされた試料が、処理された入力ベクトル360-0、360-1、360-xと関連付けされた起源である可能性が高いのかを決定することができる。次いで、投票ユニット480は、受け取った出力データ370-0、372-1、372-xのセットに基づいて、入力ベクトル360-0、360-1、360-xと関連付けされた試料が、入力ベクトル360-0、360-2、360-xと関連付けされた起源である可能性が高いのかを決定することができる。いくつかの実施形態において、投票ユニット480は「多数決原理」を適用することができる。多数決原理を適用して、投票ユニット480は、試料が所与の起源であることを示す出力372-0、372-1、および372-xと、試料がその起源でない(または上記のような異なる起源である)ことを示す出力372-0、372-1、372-xとを集計することができる。そして、大多数の予測または票を有するクラス(例えば起源A由来であるか、もしくは起源A由来でないか、または起源A由来であり起源B由来でない)が、入力ベクトル360-0、360-1、360-xと関連付けされた対象に適した分類として選択される。例えば、大多数は、試料が起源A由来であるか、または起源A由来でないかを決定する場合があり、あるいはまた、大多数は、試料が起源A由来であるか、または起源B由来であるかを決定する場合がある。
いくつかの実施形態において、投票ユニット480はより微妙な分析を完成することができる。例えば、いくつかの実施形態において、投票ユニット480は、機械学習モデル340-0、340-1、340-xごとの信頼度スコアを記憶することができる。この機械学習モデル340-0、340-1、340-xごとの信頼度スコアは、はじめに、0、1などのデフォルト値に設定されることができる。その後、入力ベクトルの処理のラウンドごと、投票ユニット480またはアプリケーションサーバ240の他のモジュールが、機械学習モデルが、直前の反復回中に投票ユニット480によって選択された試料分類を正確に予測したかどうかに基づいて、機械学習モデル340-0、340-1、340-xの信頼度スコアを調節することができる。したがって、機械学習モデルごとの記憶された信頼度スコアは、機械学習モデルごとの履歴精度の指標を提供することができる。
より微妙な手法において、投票ユニット480は、それぞれ各機械学習モデル340-0、340-1、340-xによって生成された出力データ372-0、372-0、372-xを、機械学習モデルのために計算された信頼度スコアに基づいて調節することができる。したがって、機械学習モデルが履歴的に正確であることを示す信頼度スコアを使用して、機械学習モデルによって生成された出力データの値をブーストすることができる。同様に、機械学習モデルが履歴的に不正確であることを示す信頼度スコアを使用して、機械学習モデルによって生成された出力データの値を減らすことができる。機械学習モデルによって生成された出力データの値のそのようなブーストまたは減少は、例えば、信頼度スコアを、減少の場合には1よりも小さく、ブーストの場合には1よりも大きい乗数として使用することによって達成することができる。また、他の動作を使用して、例えば、出力データの値から信頼度スコアを減算して出力データの値を減らして、または出力データの値に信頼度スコアを加算して出力データの値をブーストして、出力データの値を調節することもできる。機械学習モデルによって生成された出力データの値をブーストする、または減らすための信頼度スコアの使用は、試料が、ある起源に由来するのかしないのか、または2つの可能な起源のうちの1つに由来するのかを決定するための1つまたは複数の閾値に適用される確率を出力するように機械学習モデルが構成されている場合に、特に有用である。理由は、機械学習モデルの出力を調節するための信頼スコアを使用して、生成された出力値をクラス閾値よりも上または下に動かし、それにより、機械学習モデルによる、その履歴精度に基づく予測を変更することができるからである。
複数の機械学習モデルの出力を評価するための投票ユニット480の使用は、単一の機械学習モデルのみの出力の代わりに、複数の機械学習モデル間のコンセンサスを評価することができるため、対象バイオマーカーの特定のセットのための試料の起源の予測においてより高い精度をもたらすことができる。
図1Hは、図1B、1C、1G、1Fおよび1Gのシステムを実現するために使用することができるシステムコンポーネントのブロック図である。
コンピューティングデバイス600は、様々な形態のデジタルコンピュータ、例えばラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームおよび他の適切なコンピュータを表すことを意図したものである。コンピューティングデバイス650は、様々な形態のモバイルデバイス、例えばパーソナルデジタルアシスタント、携帯電話、スマートフォンおよび他の類似のコンピューティングデバイスを表すことを意図したものである。加えて、コンピューティングデバイス600または650はUSB(Universal Serial Bus)フラッシュドライブを含むことができる。USBフラッシュドライブはオペレーティングシステムおよび他のアプリケーションを記憶することができる。USBフラッシュドライブは、別のコンピューティングデバイスのUSBポートに挿入することができる無線トランスミッタまたはUSBコネクタなどの入出力コンポーネントを含むことができる。ここに示すコンポーネント、それらの接続および関係ならびにそれらの機能は、例示的でしかなく、本明細書に記載および/または特許請求される発明の実施形態を限定することを意図したものではない。
コンピューティングデバイス600は、プロセッサ602と、メモリ604と、記憶デバイス608と、メモリ604および高速拡張ポート610に接続する高速インタフェース608と、低速バス614および記憶デバイス608に接続する低速インタフェース612とを含む。コンポーネント602、604、608、608、610および612のそれぞれは、様々なバスを使用して相互接続され、共通のマザーボード上に実装される、または適切な他のやり方で取り付けられることができる。プロセッサ602は、GUIのためのグラフィカル情報を外部入出力デバイス、例えば高速インタフェース608に結合されたディスプレイ616に表示するための、メモリ604または記憶デバイス608に記憶された命令を含む、コンピューティングデバイス600内で実行するための命令を処理することができる。他の実施形態においては、複数のプロセッサおよび/または複数のバスを、適宜、複数のメモリおよびメモリのタイプとともに使用することもできる。また、必要な動作の一部分をそれぞれが提供する複数のコンピューティングデバイス600が、例えばサーババンク、ブレードサーバの群またはマルチプロセッサシステムとして接続されることもできる。
メモリ604は、情報をコンピューティングデバイス600内に記憶する。1つの実施形態において、メモリ604は、1つまたは複数の揮発性メモリユニットである。別の実施形態において、メモリ604は、1つまたは複数の不揮発性メモリユニットである。メモリ604はまた、別の形態のコンピュータ可読媒体、例えば磁気または光学ディスクであることもできる。
記憶デバイス608は、コンピューティングデバイス600のための大容量記憶を提供することができる。1つの実施形態において、記憶デバイス608は、コンピュータ可読媒体、例えばフロッピーディスクデバイス、ハードディスクデバイス、光学ディスクデバイスもしくはテープデバイス、フラッシュメモリもしくは他の類似のソリッドステートメモリデバイスまたはデバイスを記憶エリアネットワークもしくは他の構成で含むデバイスのアレイである、またはそれを含むことができる。コンピュータプログラム製品が情報担体中に有形的に具現化されることができる。コンピュータプログラム製品はまた、実行される場合に上記のような1つまたは複数の方法を実行する命令を含むことができる。情報担体は、メモリ604、記憶デバイス608またはオンプロセッサメモリ602などのコンピュータ可読または機械可読媒体である。
高速制御装置608はコンピューティングデバイス600のための帯域幅集中的動作を管理し、低速制御装置612は低帯域幅集中的動作を管理する。このような機能の割当ては単に例示的である。1つの実施形態において、高速制御装置608は、メモリ604、ディスプレイ616(例えばグラフィックスプロセッサまたはアクセレレータを介して)および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート610に結合される。実施形態において、低速制御装置612は記憶デバイス608および低速拡張ポート614に結合される。様々な通信ポート、例えばUSB、Bluetooth、イーサネット、無線イーサネットを含むことができる低速拡張ポートは、例えばネットワークアダプターを介して、1つまたは複数の入出力デバイス、例えばキーボード、ポインティングデバイス、マイク/スピーカ対、スキャナまたはネットワーキングデバイス、例えばスイッチもしくはルータに結合されることができる。コンピューティングデバイス600は、図示するようないくつかの異なる形態で実現されることができる。例えば、標準的なサーバ620として実現されることもできるし、そのようなサーバの群として多重に実現されることもできる。また、ラックサーバシステム624の一部として実現されることもできる。加えて、ラップトップコンピュータ622などのパーソナルコンピュータとして実現されることもできる。あるいはまた、コンピューティングデバイス600からのコンポーネントがモバイルデバイス(図示せず)、例えばデバイス650中の他のコンポーネントと組み合わされることもできる。そのようなデバイスのそれぞれが1つまたは複数のコンピューティングデバイス600、650を含むこともできるし、システム全体が、互いと通信する複数のコンピューティングデバイス600、650で構成されることもできる。
コンピューティングデバイス600は、図面に示されているように、いくつかの異なる形態で実現されることができる。例えば、標準的なサーバ620として実現されることもできるし、そのようなサーバの群として多重に実現されることもできる。また、ラックサーバシステム624の一部として実現されることもできる。加えて、ラップトップコンピュータ622などのパーソナルコンピュータとして実現されることもできる。あるいはまた、コンピューティングデバイス600からのコンポーネントがモバイルデバイス(図示せず)、例えばデバイス650中の他のコンポーネントと組み合わされることもできる。そのようなデバイスのそれぞれが1つまたは複数のコンピューティングデバイス600、650を含むこともできるし、システム全体が、互いと通信する複数のコンピューティングデバイス600、650で構成されることもできる。
コンピューティングデバイス650は、とりわけ、プロセッサ652、メモリ664および入出力デバイス、例えばディスプレイ654、通信インタフェース666およびトランシーバ668を含む。デバイス650はまた、さらなる記憶を提供するための記憶デバイス、例えばマイクロドライブまたは他のデバイスを備えることもできる。コンポーネント650、652、664、654、666および668のそれぞれは、様々なバスを使用して相互接続され、コンポーネントのいくつかは、共通のマザーボードに取り付けられる、または適切な他のやり方で取り付けられることができる。
プロセッサ652は、メモリ664に記憶された命令を含め、コンピューティングデバイス650内で命令を実行することができる。プロセッサは、別々かつ複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されることができる。加えて、プロセッサは、いくつかのアーキテクチャのいずれかを使用して実現されることができる。例えば、プロセッサ610は、CISC(Complex Instruction Set Computers)プロセッサ、RISC(Reduced Instruction Set Computer)プロセッサまたはMISC(Minimal Instruction Set Computer)プロセッサであることができる。プロセッサは、例えば、デバイス650の他のコンポーネントの協調、例えばユーザインタフェースの制御、デバイス650によって実行されるアプリケーションおよびデバイス650による無線通信を提供することができる。
プロセッサ652は、ディスプレイ654に結合された制御インタフェース658およびディスプレイインタフェース656を介してユーザと通信することができる。ディスプレイ654は、例えば、TFT(Thin-Film-Transistor Liquid Crystal Display)ディスプレイもしくはOLED(Organic Light Emitting Diode)ディスプレイまたは他の適切なディスプレイ技術であることができる。ディスプレイインタフェース656は、グラフィカルおよび他の情報をユーザに提示するためにディスプレイ654を駆動するための適切な回路を含むことができる。制御インタフェース658は、ユーザからコマンドを受け、それを、プロセッサ652への提出に備えて変換することができる。加えて、デバイス650と他のデバイスとの近接区域通信を可能にするために、プロセッサ652と通信する外部インタフェース662が提供されることもできる。外部インタフェース662は、例えば、いくつかの実施形態においては有線通信を提供することもできるし、他の実施形態においては無線通信を提供することもできるし、また、複数のインターフェースが使用されることもできる。
メモリ664は情報をコンピューティングデバイス650内に記憶する。メモリ664は、コンピュータ可読媒体、揮発性メモリユニットまたは不揮発性メモリユニットの1つまたは複数として実現されることができる。また、拡張メモリ674が提供され、例えばSIMM(Single In Line Memory Module)カードインターフェースを含むことができる拡張インターフェース672を介してデバイス650に接続されることもできる。そのような拡張メモリ674は、デバイス650のための余分の記憶空間を提供することもできるし、デバイス650のためのアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ674は、上記プロセスを実行または補足するための命令を含むこともできるし、セキュリティ情報を含むこともできる。したがって、例えば、拡張メモリ674は、デバイス650のためのセキュリティモジュールとして提供されることができ、デバイス650の安全な使用を許す命令でプログラムされることができる。加えて、安全なアプリケーションが、SIMMカードを介して、さらなる情報とともに、例えば同定情報をSIMMカード上にハッキング不可能に配置することにより、提供されることもできる。
メモリは、例えば、以下に詳述するようなフラッシュメモリおよび/またはNVRAMメモリを含むことができる。1つの実施形態において、コンピュータプログラム製品が情報担体中に有形的に具現化される。コンピュータプログラム製品は、実行される場合に、上記のような1つまたは複数の方法を実行する命令を含む。情報担体は、例えばトランシーバ668または外部インタフェース662を介して受け取ることができる、メモリ664、拡張メモリ674またはオンプロセッサメモリ652などのコンピュータ可読または機械可読媒体である。
デバイス650は、必要ならばデジタル信号処理回路を含むことができる通信インタフェース666を介して無線通信することができる。通信インターフェース666は、様々なモードまたはプロトコル、例えば、とりわけGSMボイスコール、SMS、EMSもしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA、CDMA2000またはGPRSの下で通信を提供することができる。そのような通信は、例えば、無線周波数トランシーバ668を介して実施されることができる。加えて、近距離通信が、例えばBluetooth、Wi-Fiまたは他のそのようなトランシーバ(図示せず)を使用して実施されることができる。加えて、GPS(Global Positioning System)レシーバモジュール670が、さらなるナビゲーション関連および位置関連の無線データをデバイス650に提供することができ、その無線データが、デバイス650上で作動するアプリケーションによって適切に使用されることができる。
デバイス650はまた、ユーザから音声情報を受け取り、それを使用可能なデジタル情報に変換することができるオーディオコーデック660を使用して、聴覚的に通信することもできる。オーディオコーデック660は、同様に、例えばデバイス650のハンドセット内のスピーカを通してなど、ユーザのための可聴音を生成することができる。そのような音は、電話通話からの音を含むこともできるし、録音、例えばボイスメッセージ、音楽ファイルなどを含むこともできるし、デバイス650上で作動するアプリケーションによって生成された音を含むこともできる。
コンピューティングデバイス650は、図示するように、いくつかの異なる形態に実現されることができる。例えば、携帯電話680として実現されることができる。また、スマートフォン682、パーソナルデジタルアシスタントまたは他の類似のモバイルデバイスの一部として実現されることもできる。
本明細書に記載されるシステムおよび方法の様々な実施形態は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそのような実施形態の組み合わせとして実現されることができる。これらの様々な実施形態は、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受け取り、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスにデータおよび命令を送るために結合されている、専用または汎用であることができる少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能である1つまたは複数のコンピュータプログラムとしての実施形態を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも知られる)は、プログラマブルプロセッサのための機械命令を含み、高レベル手続きおよび/またはオブジェクト指向プログラミング言語および/またはアセンブリ/機械語で実現されることができる。本明細書中で使用される用語「機械可読媒体」または「コンピュータ可読媒体」とは、機械命令を機械可読信号として受け取る機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、装置および/またはデバイス、例えば磁気ディスク、光学ディスク、メモリ、プログラマブル論理デバイス(PLD)をいう。用語「機械可読信号」とは、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号をいう。
ユーザとの対話を提供するために、本明細書に記載されるシステムおよび技術は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタならびにユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータ上で実現されることができる。ユーザとの対話を提供するために、他の種類のデバイスが使用されることもできる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであることができ;ユーザからの入力は、音響、音声または触覚入力を含む任意の形態で受け取ることができる。
本明細書に記載されるシステムおよび技術は、バックエンドコンポーネント、例えばデータサーバを含む、またはミドルウェアコンポーネント、例えばアプリケーションサーバを含む、またはフロントエンドコンポーネント、例えば、ユーザが本明細書に記載されるシステムおよび技術の実施形態と対話することができるグラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータを含む、またはそのようなバックエンド、ミドルウェアもしくはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムとして実現されることができる。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信、例えば通信ネットワークによって相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)およびインタネットを含む。
コンピューティングシステムはクライアントおよびサーバを含むことができる。クライアントとサーバとは一般に互いに遠隔であり、通常、通信ネットワークを通して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で作動し、互いにクライアント・サーバ関係を有するコンピュータプログラムのおかげで生じる。
コンピュータシステム
本方法の実施はまた、コンピュータ関連のソフトウェアおよびシステムを用い得る。本明細書に記載されるようなコンピュータソフトウェア製品は通常、本明細書に記載されるような方法の論理ステップを実行するためのコンピュータ実行可能命令を有するコンピュータ可読媒体を含む。適当なコンピュータ可読媒体には、フロッピーディスク、CD-ROM/DVD/DVD-ROM、ハードディスクドライブ、フラッシュメモリ、ROM/RAM、磁気テープなどが含まれる。コンピュータ実行可能命令は、適当なコンピュータ言語またはいくつかの言語の組み合わせで書かれ得る。基本的な計算生物学法が、例えば、Setubal and Meidanis at al., Introduction to Computational Biology Methods(PWS Publishing Company, Boston, 1997);Salzberg, Searles, Kasif, (Ed.), Computational Methods in Molecular Biology(Elsevier, Amsterdam, 1998);Rashidi and Buehler, Bioinformatics Basics: Application in Biological Science and Medicine(CRC Press, London, 2000)およびOuelette and Bzevanis Bio informatics: A Practical Guide for Analysis of Gene and Proteins(Wiley & Sons, Inc., 2.sup.nd ed., 2001)に記載されている。米国特許第6,420,108号を参照されたい。
本方法はまた、多様な目的、例えばプローブ設計、データの管理、分析および機器操作のための様々なコンピュータプログラム製品およびソフトウェアを利用し得る。米国特許第5,593,839号、第5,795,716号、第5,733,729号、第5,974,164号、第6,066,454号、第6,090,555号、第6,185,561号、第6,188,783号、第6,223,127号、第6,229,911号および第6,308,170号を参照されたい。
加えて、本方法は、米国特許出願第10/197,621号、第10/063,559号(米国特許出願公開第20020183936号)、第10/065,856号、第10/065,868号、第10/328,818号、第10/328,872号、第10/423,403号および第60/482,389号に示されるような、インタネットなどのネットワークを介して遺伝情報を提供する方法を含む態様に関する。例えば、1つまたは複数の分子プロファイリング技術を1つの場所、例えば市、州、国または大陸で実施することができ、その結果を異なる市、州、国または大陸へ送信することができる。次いで、第二の場所で治療選択を全体的または部分的に行うことができる。本明細書に記載されるような方法は、異なる場所の間での情報の転送処理を含む。
システムの従来のデータネットワーキング、アプリケーション開発および他の機能的局面(およびシステムの個々のオペレーティングコンポーネントのコンポーネント)は、本明細書中で詳細に記載されないかもしれないが、本明細書に記載されるような一部である。さらに、本明細書に含まれる様々な図面に示される接続線は、様々な要素の間の例示的な機能的関係および/または物理的結合を表すことを意図したものである。実際のシステムには、多くの代替的または追加的な機能的関係または物理的接続が存在し得ることが留意されるべきである。
本明細書に詳述される様々なシステムコンポーネントには、以下:デジタルデータを処理するためのプロセッサを含むホストサーバまたは他のコンピューティングシステム;デジタルデータを記憶するための、プロセッサに結合されたメモリ;デジタルデータを入力するための、プロセッサに結合された入力デジタイザ;プロセッサによるデジタルデータの処理を命令するための、メモリに記憶され、プロセッサによってアクセス可能なアプリケーションプログラム;プロセッサによって処理されたデジタルデータから導出された情報を表示するための、プロセッサおよびメモリに結合されたディスプレイデバイス;および複数のデータベースの1つまたは複数が含まれ得る。本明細書中で使用される様々なデータベースは、患者データ、例えば家族歴、年齢層および環境データ、生体試料データ、以前の治療およびプロトコルデータ、患者臨床データ、生体試料の分子プロファイリングデータ、治療薬および/または治験薬に関するデータ、遺伝子ライブラリ、疾患ライブラリ、薬物ライブラリ、患者追跡調査データ、ファイル管理データ、財務管理データ、請求データおよび/またはシステムの運用に有用な同種のデータを含み得る。当業者が理解するように、ユーザコンピュータは、オペレーティングシステム(例えばWindows NT、95/98/2000、OS2、UNIX、Linux、Solaris、MacOSなど)、ならびに通常はコンピュータに付随する様々な従来のサポートソフトウェアおよびドライバを含み得る。コンピュータとして、任意の適当なパーソナルコンピュータ、ネットワークコンピュータ、ワークステーション、ミニコンピュータ、メインフレームなどを挙げることができる。ユーザコンピュータは、ネットワークアクセスを有する家庭または医療/ビジネス環境にあることができる。例示的な態様において、アクセスは、ネットワークを介するアクセスまたは市販のウェブブラウザソフトウェアパッケージを介したインタネットを介するアクセスである。
本明細書中で使用される用語「ネットワーク」は、ハードウェアコンポーネントとソフトウェアコンポーネントの両方を組み込む任意の電子通信手段を含むものとする。当事者間の通信は、任意の適当な通信チャネル、例えば電話ネットワーク、エクストラネット、イントラネット、インタネット、対話デバイスのポイント、パーソナルデジタルアシスト(例えばPalm Pilot(登録商標)、Blackberry(登録商標))、携帯電話、キオスクなど)、オンライン通信、衛星通信、オフライン通信、無線通信、トランスポンダ通信、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ネットワーク接続またはリンクされたデバイス、キーボード、マウスおよび/または任意の適当な通信もしくはデータ入力モダリティを通して達成され得る。そのうえ、システムは、本明細書中ではTCP/IP通信プロトコルを使用して実現されるものとして記載されることが多いが、システムは、IPX、Appletalk、IP-6、NetBIOS、OSIまたはいくつもの既存もしくは将来のプロトコルを使用して実現されてもよい。ネットワークがインタネットなどのパブリックネットワークの性質を有するならば、ネットワークが安全ではなく、傍受されるおそれがあると想定することが有利であるともいえる。インタネットと関連して使用されるプロトコル、規格およびアプリケーションソフトウェアに関連する具体的な情報は一般に当業者に公知であり、したがって、本明細書中で詳述する必要はない。例えば、内容が参照により本明細書に組み入れられる、Dilip Naik, Internet Standards and Protocols (1998);Java 2 Complete, various authors, (Sybex 1999);Deborah Ray and Eric Ray, Mastering HTML 4.0 (1997);およびLoshin, TCP/IP Clearly Explained (1997) and David Gourley and Brian Totty, HTTP, The Definitive Guide (2002)を参照されたい。
様々なシステムコンポーネントは、標準的なモデム通信、ケーブルモデム、Dishネットワーク、ISDN、DSL(Digital Subscriber Line)または様々な無線通信方法と関連して通常は使用されるようなローカルループを介するISP(Internet Service Provider)への接続を例として含む、データリンクを介するネットワークに独立して、個別に、または集合的に適当に結合され得る。例えば、参照により本明細書に組み入れられる、Gilbert Held, Understanding Data Communications (1996)を参照されたい。ネットワークは、他のタイプのネットワーク、例えば双方向テレビ(ITV)ネットワークとして実現されてもよいことに留意すること。そのうえ、システムは、本明細書に記載される類似の機能を有する任意のネットワーク上での任意の商品、サービスまたは情報の使用、販売または頒布を考慮する。
本明細書中で使用される「送信」は、ネットワーク接続を介して1つのシステムコンポーネントからもう1つのシステムコンポーネントへと電子データを送ることを含み得る。加えて、本明細書中で使用される「データ」は、コマンド、クエリ、ファイル、記憶用のデータなどの情報をデジタルまたは任意の他の形態で包含することを含み得る。
システムは、ウェブサービス、ユーティリティコンピューティング、パーベイシブおよび個別化コンピューティング、セキュリティおよびアイデンティティソリューション、オートノミックコンピューティング、コモディティコンピューティング、モビリティおよびワイヤレスソリューション、オープンソース、生体認証、グリッドコンピューティングおよび/またはメッシュコンピューティングと関連した使用を考慮する。
本明細書に詳述される任意のデータベースは、リレーショナル、階層、グラフィカルまたはオブジェクト指向構造および/または任意の他のデータベース構成を含み得る。データベースを実現するために使用され得る一般的なデータベース製品としては、IBM(White Plains, NY)のDB2、Oracle Corporation(Redwood Shores, CA)から市販されている様々なデータベース製品、Microsoft Corporation(Redmond, Washington)のMicrosoft AccessもしくはMicrosoft SQL Serverまたは任意の他の適当なデータベース製品がある。そのうえ、データベースは、例えばデータテーブルまたはルックアップテーブルのような任意の適当なやり方で編成されてもよい。各レコードは、単一のファイル、一連のファイル、リンクされた一連のデータフィールドまたは任意の他のデータ構造であり得る。特定のデータの関連付けは、当技術分野において公知である、または実施されているような任意の所望のデータ関連付け技術によって達成され得る。例えば、関連付けは、手動で達成されてもよいし、自動で達成されてもよい。自動関連付け技術として、例えば、データベースサーチ、データベースマージ、GREP、AGREP、SQL、サーチを高速化するためのテーブル内のキーフィールドの使用、すべてのテーブルおよびファイルの順次サーチ、検索を簡素化するための公知の順序に従うファイル内のレコードのソートなどを挙げることができる。関連付け工程は、例えば、事前に選択されたデータベースまたはデータセクタの「キーフィールド」を使用して、データベースマージ機能によって達成され得る。
より具体的には、「キーフィールド」は、キーフィールドによって定義されたオブジェクトの上位クラスにしたがってデータベースを分割する。例えば、特定のタイプのデータは、複数の関連するデータテーブル中のキーフィールドとして指定され得、その場合、データテーブルは、キーフィールド中のデータのタイプに基づいてリンクされ得る。リンクされたデータテーブルのそれぞれ中のキーフィールドに対応するデータは、好ましくは、同じである、または同じタイプである。しかし、同一ではないが類似するデータをキーフィールド中に有するデータテーブルもまた、例えばAGREPを使用してリンクさせ得る。1つの態様にしたがって、任意の適当なデータ記憶技術を使用して、標準フォーマットなしでデータを記憶し得る。データセットは、例えば、ISO/IEC 7816-4ファイル構造を使用して個々のファイルを記憶すること;1つまたは複数のデータセットを含む1つまたは複数の基礎ファイルを露出させる専用のファイルが選択されるドメインを実現すること;階層ファイリングシステムを使用して個々のファイルに記憶されたデータセットを使用すること;単一ファイル中にレコードとして記憶されたデータセットを使用すること(圧縮、SQLアクセス可能、ハッシュ化された1つまたは複数のキー、数値、最初のタプルによるアルファベットなど);BLOB(Binary Large Object);ISO/IEC 7816-6データエレメントを使用してコードされたグループ解除データエレメントとして記憶されること;ISO/IEC 8824および8825におけるようにISO/IEC Abstract Syntax Notation(ASN.1)を使用してコードされたグループ解除データエレメントとして記憶されること;および/またはフラクタル圧縮方式、画像圧縮法などを含み得る他の専有技術を使用することを含む、任意の適当な技術を使用して記憶され得る。
1つの例示的な態様において、多種多様な情報を異なるフォーマットで記憶する能力は、情報をBLOBとして記憶することによって容易になる。したがって、任意のバイナリ情報を、データセットと関連付けされた記憶スペースに記憶することができる。BLOB法は、固定記憶割り当て、循環キュー技術またはメモリ管理に関するベストプラクティス(例えば、ページ化メモリ、リースト・リーセントリー・ユーズド(least recently used)など)のいずれかを使用して、固定メモリオフセットを介してバイナリのブロックとしてフォーマットされたグループ解除されたデータエレメントとしてデータセットを記憶し得る。BLOB法を使用することにより、様々なフォーマットを有する様々なデータセットを記憶する能力が、データセットの複数の無関係な所有者によるデータの記憶を容易にする。例えば、記憶され得る第一のデータセットが第一の当事者によって提供され得、記憶され得る第二のデータセットが無関係の第二当事者によって提供され得、さらに、記憶され得る第三のデータセットが、第一および第二の当事者とは無関係の第三当事者によって提供され得る。これら3つの例示的なデータセットのそれぞれが、異なるデータ記憶フォーマットおよび/または技術を使用して記憶される異なる情報を含み得る。さらに、各データセットが、同じく他のサブセットと異なり得るデータのサブセットを含んでもよい。
上述したように、様々な態様において、データは、共通フォーマットに関係なく記憶することができる。しかし、1つの例示的な態様において、データセット(例えばBLOB)は、データを操作するために提供される場合に、標準的なやり方でアノテーションを付され得る。アノテーションは、様々なデータセットを管理するときに有用な情報を運ぶように構成されている、各データセットに関連する短いヘッダ、トレーラまたは他の適切なインジケータを含み得る。例えば、アノテーションは、本明細書中、「条件ヘッダ」、「ヘッダ」、「トレーラ」または「ステータス」と呼ばれることもあり、データセットのステータスの表示を含むこともあるし、データの特定の発行者または所有者に相関した識別子を含むこともある。データの後続バイトは、例えば、データの発行者または所有者のID、ユーザ、トランザクション/メンバシップアカウント識別子などを示すために使用され得る。これらの条件アノテーションのそれぞれは本明細書中でさらに詳述される。
データセットアノテーションはまた、他のタイプのステータス情報および様々な他の目的に使用されてもよい。例えば、データセットアノテーションは、アクセスレベルを確立するセキュリティ情報を含み得る。アクセスレベルは、例えば、特定の個人、従業員のレベル、企業または他のエンティティのみがデータセットにアクセスすることを許されるように構成されてもよいし、トランザクション、データの発行者もしく所有者、ユーザなどに基づいて特定のデータセットへのアクセスを許可するように構成されてもよい。さらには、セキュリティ情報は、データセットへのアクセス、その変更および/またはその削除などの特定の動作のみを制限/許可してもよい。一例において、データセットアノテーションは、データセット所有者またはユーザのみがデータセットを削除することを許され、様々な同定されたユーザが読み取りのためにデータセットにアクセスすることを許され得、他のユーザはすべてデータセットへのアクセスから除外されることを示す。しかし、様々なエンティティが様々な許可レベルで適宜データセットにアクセスすることを許す他のアクセス制限パラメータが使用されてもよい。ヘッダまたはトレーラを含むデータは、ヘッダまたはトレーラにしたがってデータを追加、削除、変更または増強するように構成されたスタンドアロン対話型デバイスによって受け取られ得る。
当業者はまた、セキュリティ上の理由から、任意のデータベース、システム、デバイス、サーバまたはシステムの他のコンポーネントが1つの場所または複数の場所でそれらの任意の組み合わせからなり得、各データベースまたはシステムが、ファイアウォール、アクセスコード、暗号化、復号化、圧縮、解凍などの様々な適当なセキュリティ機構のいずれかを含むことを理解するであろう。
ウェブクライアントのコンピューティングユニットはさらに、標準的なダイヤルアップ、ケーブル、DSLまたは当技術分野において公知の任意の他のインタネットプロトコルを使用してインタネットまたはイントラネットに接続されたインタネットブラウザを具備してもよい。ウェブクライアントで発生するトランザクションは、他のネットワークのユーザからの不正アクセスを防ぐために、ファイアウォールを通過してもよい。さらに、セキュリティをさらに強化するために、CMSの様々なコンポーネントの間でさらなるファイアウォールが展開されてもよい。
ファイアウォールは、CMSコンポーネントおよび/またはエンタプライズコンピューティングリソースを他のネットワークのユーザから保護するように適当に構成された任意のハードウェアおよび/またはソフトウェアを含み得る。さらに、ファイアウォールは、ウェブサーバを介して接続するウェブクライアントの場合に、ファイアウォールの背後にある様々なシステムおよびコンポーネントへのアクセスを限定または制限するように構成されてもよい。ファイアウォールは、とりわけステートフルインスペクション、プロキシベースのファイアウォールおよびパケットフィルタリングを含む様々な構成で存在し得る。ファイアウォールは、ウェブサーバまたは任意の他のCMSコンポーネントに統合されてもよいし、さらに別個のエンティティとして存在してもよい。
本明細書中で詳述されるコンピュータは、ユーザによってアクセス可能である適当なウェブサイトまたは他のインタネットベースのグラフィカルユーザインタフェースを提供し得る。1つの態様において、Microsoft Internet Information Server(IIS)、Microsoft Transaction Server(MTS)およびMicrosoft SQL Serverが、Microsoftオペレーティングシステム、Microsoft NTウェブサーバソフトウェア、Microsoft SQL ServerデータベースシステムおよびMicrosoft Commerce Serverとともに使用される。加えて、AccessまたはMicrosoft SQL Server、Oracle、Sybase、Informix MySQL、Interbaseなどのコンポーネントが、Active Data Object(ADO)準拠データベース管理システムを提供するために使用されてもよい。
本明細書中で詳述される通信、入力、記憶、データベースまたはディスプレイのいずれも、ウェブページを有するウェブサイトを通して容易にされ得る。本明細書中で使用される用語「ウェブページ」は、ユーザと対話するために使用され得るドキュメントおよびアプリケーションのタイプを制限することを意味するわけではない。例えば、典型的なウェブサイトは、標準的なHTMLドキュメントに加えて、様々なフォーム、Javaアプレット、JavaScript、アクティブサーバページ(ASP)、コモンゲートウェイインタフェース(CGI)スクリプト、拡張可能マークアップ言語(XML)、ダイナミックHTML、カスケーディングスタイルシート(CSS)、ヘルパアプリケーションおよびプラグインなどを含み得る。サーバは、URL(http://yahoo.com/stockquotes/ge)およびIPアドレス(123.56.789.234)を含む、ウェブサーバからのリクエストを受け取るウェブサービスを含み得る。ウェブサーバは適切なウェブページを検索し、ウェブページのためのデータまたはアプリケーションをIPアドレスに送る。ウェブサービスは、インタネットなどの通信手段を介して他のアプリケーションと対話することができるアプリケーションである。ウェブサービスは通常、XML、XSLT、SOAP、WSDLおよびUDDIなどの規格またはプロトコルに基づく。ウェブサービスメソッドは当技術分野において周知であり、多くの標準的教書において取り上げられている。例えば、参照により本明細書に組み入れられるAlex Nghiem, IT Web Services: A Roadmap for the Enterprise (2003)を参照されたい。
本方法のシステムおよび方法のためのウェブベースの臨床データベースは、好ましくは、臨床データファイルをネイティブフォーマットでアップロードし、記憶する能力を有し、任意の臨床パラメータでサーチ可能である。データベースはまた、拡張可能であり、他の研究との容易な統合のために、EAVデータモデル(メタデータ)を使用して、任意の研究から臨床アノテーションを入力し得る。加えて、ウェブベースの臨床データベースはフレキシブルあり、ユーザがカスタマイズした質問を動的に加えることができるように有効となったXMLおよびXSLTであり得る。さらに、データベースは、CDISC ODMへのエクスポート機能を含む。
実施者はまた、ブラウザベースのドキュメント内にデータを表示する方法が数多くあることを理解するであろう。データは、標準テキストとして表示されてもよいし、固定リスト、スクロール可能リスト、ドロップダウンリスト、編集可能なテキストフィールド、固定テキストフィールド、ポップアップウィンドウなどの中で表示されてもよい。同様に、ウェブページ内のデータを変更するために利用可能な数多くの方法、例えば、キーボードを使用するフリーテキスト入力、メニュー項目の選択、チェックボックス、オプションボックスなどがある。
システムおよび方法は、本明細書中、機能ブロックコンポーネント、スクリーンショット、任意の選択および様々な処理工程に関して説明され得る。そのような機能ブロックは、指定された機能を実行するように構成された任意の数のハードウェアおよび/またはソフトウェアコンポーネントによって実現され得ることが理解されるべきである。例えば、システムは、1つまたは複数のマイクロプロセッサまたは他の制御デバイスの制御下で多様な機能を実行し得る様々な集積回路コンポーネント、例えばメモリエレメント、処理エレメント、論理エレメント、ルックアップテーブルなどを用い得る。同様に、システムのソフトウェアエレメントは、任意のプログラミングまたはスクリプト言語、例えばC、C++、Macromedia Cold Fusion、Microsoft Active Server Pages、Java、COBOL、アセンブラ、PERL、Visual Basic、SQL Stored Procedures、拡張可能マークアップ言語(XML)で実現され得、様々なアルゴリズムは、データ構造、オブジェクト、プロセス、ルーチンまたは他のプログラミングエレメントの任意の組み合わせで実現される。さらに、システムは、データ送信、シグナリング、データ処理、ネットワーク制御などのためのいくつもの従来技術を用い得ることが留意されるべきである。なおさらに、このシステムは、JavaScript、VBScriptなどのクライアント側スクリプト言語でのセキュリティ問題を検出または防止するために使用されることもできる。暗号化およびネットワークセキュリティの基礎入門に関しては、いずれも参照により本明細書に組み入れられる、以下の参考文献のいずれかを参照されたい:(1)"Applied Cryptography: Protocols, Algorithms, And Source Code In C," by Bruce Schneier, published by John Wiley & Sons (second edition, 1995);(2)"Java Cryptography" by Jonathan Knudson, published by O'Reilly & Associates (1998);(3)"Cryptography & Network Security: Principles & Practice" by William Stallings, published by Prentice Hall。
本明細書中で使用される用語「エンドユーザ」、「消費者」、「顧客」、「クライアント」、「治療担当医」、「病院」または「ビジネス」は互いに互換可能に使用され得、それぞれ、任意の人物、エンティティ、機械、ハードウェア、ソフトウェアまたはビジネスを意味するものとする。各参加者は、システムと対話し、オンラインデータアクセスおよびデータ入力を容易にするために、コンピューティングデバイスを具備している。顧客はパーソナルコンピュータの形態のコンピューティングユニットを有するが、ラップトップ、ノートブック、ハンドヘルドコンピュータ、セットトップボックス、携帯電話、タッチトーン電話などを含む他のタイプのコンピューティングユニットが使用されてもよい。本方法のシステムおよび方法の所有者/運用者は、コンピュータ・サーバの形態で実現されたコンピューティングユニットを有するが、メインフレームコンピュータ、ミニコンピュータ、PCサーバ、同じまたは異なる地理的位置にあるコンピュータのネットワークなどとして示されるコンピューティングセンタを含むシステムによって他の実施形態が考慮される。そのうえ、システムは、本明細書に記載される類似の機能を有する任意のネットワーク上での任意の商品、サービスまたは情報の使用、販売または頒布を考慮している。
1つの例示的な態様において、各クライアント顧客は「アカウント」または「アカウント番号」を発行され得る。本明細書中で使用されるアカウントまたはアカウント番号として、消費者がシステムにアクセスし、システムと対話する、または通信することを許すように適当に構成された任意のデバイス、コード、番号、文字、記号、デジタル証明書、スマートチップ、デジタル信号、アナログ信号、生体認証または他の識別子/しるし(例えば、認証/アクセスコード、個人識別番号(PIN)、インタネットコード、他の識別コードなどの1つまたは複数)を挙げることができる。アカウント番号は、任意で、チャージカード、クレジットカード、デビットカード、プリペイドカード、エンボスカード、スマートカード、磁気ストライプカード、バーコードカード、トランスポンダ、無線周波数カードまたは関連のアカウント上に位置してもよいし、それと関連付けされてもよい。システムは、前述のカードもしくはデバイスのいずれか、またはフォブ(fob)とRF通信するトランスポンダおよびRFIDリーダを有するフォブを含み得る、またはそれとインタフェースし得る。システムはフォブ態様を含み得るが、方法はそのように限定されない。実際、システムは、RF通信を介してRFIDリーダと通信するように構成されているトランスポンダを有する任意のデバイスを含み得る。典型的なデバイスとして、例えば、キーリング、タグ、カード、携帯電話、腕時計または問合せのために提示されることができる任意のそのような形態があり得る。そのうえ、本明細書に詳述されるシステム、コンピューティングユニットまたはデバイスは「パーベイシブコンピューティングデバイス」を含み得、これは、コンピューティングユニットを埋め込まれている従来的な非コンピュータ化されたデバイスを含み得る。アカウント番号は、それ自体から第二のデバイスにデータを送信またはダウンロードすることができる任意の形態のプラスチック、電子、磁気、無線周波数、無線、オーディオおよび/または光学デバイスにおいて頒布および記憶され得る。
当業者によって理解されるように、システムは、既存のシステムをカスタマイズしたもの、アドオン製品、グレードアップされたソフトウェア、スタンドアロンシステム、分散システム、メソッド、データ処理システム、データ処理のためのデバイスおよび/またはコンピュータプログラム製品として具現化され得る。したがって、システムは、全ソフトウェア態様、全ハードウェア態様またはソフトウェアとハードウェアの両方の局面を組み合わせた態様の形態をとり得る。さらには、システムは、記憶媒体中に具現化されたコンピュータ可読プログラムコード手段を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品の形態をとる場合もある。ハードディスク、CD-ROM、光学記憶デバイス、磁気記憶デバイスなどを含む、任意の適当なコンピュータ可読記憶媒体が使用され得る。
システムおよび方法は、本明細書中、様々な態様にしたがって、方法、装置(例えばシステム)およびコンピュータプログラム製品のスクリーンショット、ブロック図およびフローチャート図を参照して説明される。ブロック図およびフローチャート図の各機能ブロックならびにブロック図およびフローチャート図中の機能ブロックの組み合わせは、それぞれ、コンピュータプログラム命令によって実現されることができることが理解されよう。
これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータまたは機械を製造するための他のプログラマブルデータ処理装置にロードされて、コンピュータまたは他のプログラマブルデータ処理装置上で実行される命令が、1つまたは複数のフローチャートブロックに指定された機能を実現するための手段を創製し得る。これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラマブルデータ処理装置が特定のやり方で機能するように命令できるコンピュータ可読メモリに記憶されて、コンピュータ可読メモリに記憶された命令が、1つまたは複数のフローチャートブロックに指定された機能を実現する命令手段を含む製品を製造する。コンピュータプログラム命令はまた、コンピュータまたは他のプログラマブルデータ処理装置にロードされて、コンピュータまたは他のプログラマブル装置上で実行される一連の動作工程に、コンピュータまたは他のプログラマブル装置上で実行される命令が1つまたは複数のフローチャートブロックに指定された機能を実行するための工程を提供するようなコンピュータ実現プロセスを製造させてもよい。
したがって、ブロック図およびフローチャート図の機能ブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するための工程の組み合わせおよび指定された機能を実行するためのプログラム命令手段をサポートする。また、ブロック図およびフローチャート図の各機能ブロックならびにブロック図およびフローチャート図の機能ブロックの組み合わせは、指定された機能または工程を実行する専用のハードウェアベースのコンピュータシステムによって実現されることもできるし、専用ハードウェアとコンピュータ命令との適当な組み合わせによって実現されることもできることが理解されよう。さらに、プロセスフローの例示およびその説明は、ユーザウィンドウ、ウェブページ、ウェブサイト、ウェブフォーム、プロンプトなどを参照する場合がある。実施者は、本明細書に記載された図示された工程が、ウィンドウ、ウェブページ、ウェブフォーム、ポップアップウィンドウ、プロンプトなどの使用を含むいくつもの構成を含み得ることを理解するであろう。さらに、例示され、説明される複数の工程は単一のウェブページおよび/またはウィンドウに組み合わされ得るが、わかりやすくするために拡大されていることが理解されるべきである。他の場合には、単一のプロセス工程として例示され、説明される工程が、複数のウェブページおよび/またはウィンドウに分けられてもよいが、わかりやすくするために結合されている。
分子プロファイリング
分子プロファイリング手法は、がんなどの病気または疾患を有する個人のための臨床経過を好転させることができる、個人ための候補治療を選択する方法を提供する。分子プロファイリング手法は、より長い無増悪生存期間(PFS)、より長い無病生存期間(DFS)、より長い全生存期間(OS)またはより長い寿命を提供する治療レジメンを同定するなど、個人のための臨床ベネフィットを提供する。本明細書に記載されるような方法およびシステムは、最適な治療レジメンを同定することができる個別ベースのがんの分子プロファイリングに関する。分子プロファイリングは、がんにベネフィットをもたらす可能性が高い候補治療を選択するための個別化手法を提供する。本明細書に記載される分子プロファイリング方法を使用して、第一選択/標準治療の設定をはじめとする任意の所望の設定において、または、予後不良の患者、例えば転移性疾患の患者、もしくは標準的な第一選択治療でがんが進行した患者、もしくは以前の化学療法もしくはホルモン療法でがんが進行した患者の場合に治療を導くことができる。
発明のシステムおよび方法を使用して、患者を、様々な治療でベネフィットを得る、または様々な治療に反応する可能性が高い、または低いとして分類してもよい。別段明記されない限り、本明細書中で使用される用語「反応」または「非反応」とは、治療が患者にベネフィットをもたらす(「レスポンダー」または「ベネフィッター」)、または患者にとってのベネフィットの欠如を有する(「非レスポンダー」または「非ベネフィッター」)任意の適切な指標をいう。そのような指標は、標準的なRECIST(Response Evaluation Criteria in Solid Tumors)基準などの容認された臨床反応基準または任意の他の有用な患者反応基準、例えば無増悪生存期間(PFS)、無増悪期間(TTP)、無病生存期間(DFS)、次治療開始までの期間(time-to-next treatment)(TNT、TTNT)、治療成功期間(time-to-treatment failure)(TTF、TTTF)、腫瘍縮小もしくは消失などを使用して決定され得る。RECISTは、がん患者の治療中に腫瘍が改善する(「反応する」)のか、変わらない(「安定する」)のか、悪化する(「進行する」)のかを定める、国際コンソーシアムによって公表された一連の規則である。本明細書中で使用される場合、別段明記されない限り、治療による患者「ベネフィット」とは、RECIST反応またはより長いPFS/TTP/DFS/TNT/TTNTをはじめとする、改善の任意の適切な尺度を指し得、治療からの「ベネフィットの欠如」とは、治療中の疾患悪化の任意の適切な尺度を指し得る。一般に、疾患安定化はベネフィットと見なされるが、特定の状況において、本明細書にそのように明記されるならば、安定化はベネフィットの欠如と見なされる場合もある。ベネフィットまたはベネフィットの欠如の許容可能なレベルの予測がないならば、予測または指示されたベネフィットは「不確定」と記される場合もある。場合によっては、例えば必要なデータの欠如のせいでベネフィットを計算することができないならば、ベネフィットは不確定と見なされる。
本明細書に記載されるような分子プロファイリングによって提供されるような薬理遺伝学的洞察に基づく個別化医療は、一部の実施者および一般誌によってますます当然のことと見なされているが、がん治療の改善への希望の基礎を形成する。しかし、本明細書に教示される分子プロファイリングは、大部分の場合、患者がグループ化され、光学顕微鏡検査および病期からの所見に基づく手法で治療される腫瘍治療への従来手法からの根本的な脱却を表す。従来、特定の治療方略に対する示差的反応は、治療が施された後でのみ、すなわち事後的に決定されてきた。疾患治療に対する「標準的」手法は、所与のがん診断に関して一般的に真であることに依存し、治療反応は、無作為化第III相臨床治験によって精査され、医療行為における「標準治療」を形成する。これらの治験の結果は、全米総合がん情報ネットワークおよびアメリカ臨床腫瘍学会などのガイドライン組織によってコンセンサス声明にまとめられている。NCCN Compendium(商標)は、がん患者における薬物および生物製剤の適切な使用に関する意思決定を支援するために設計された、権威ある、科学的に導き出された情報を含む。NCCN Compendium(商標)は、メディケア・メディケイド・サービスセンター(CMS)およびユナイテッドヘルスケア社により、腫瘍保険保障範囲の権威ある参照元として認識されている。オン・コンペンディウム治療は、そのようなガイドによって推奨されるものである。臨床治験の結果を検証するために使用される生物統計的方法は、患者間の差を最小限に抑えることに依存し、かつ、光学顕微鏡検査および病期のみによって(腫瘍における個体差によってではなく)決定された患者グループに関してある手法が別の手法よりも優れているという誤差の可能性を宣言することに基づく。本明細書に記載される分子プロファイリング法はそのような個体差を利用する。この方法は候補治療を提供することができ、そのような治療が、その後、患者を治療するために医師によって選択されることができる。
分子プロファイリングを使用して、試料の生物学的状態の包括的見解を提供することができる。ある態様において、分子プロファイリングは全腫瘍的プロファイリングに使用される。したがって、腫瘍の状態を評価するために、いくつかの分子的手法が使用される。全腫瘍的プロファイリングは、腫瘍のための候補治療を選択するために使用することができる。分子プロファイリングは、任意の病期の任意の試料に対する候補治療剤を選択するために使用することができる。ある態様において、本明細書に記載されるような方法は、新たに診断されたがんをプロファイリングするために使用される。分子プロファイリングによって示された候補治療は、新たに診断されたがんを治療するための治療法を選択するために使用することができる。他の態様において、本明細書に記載されるような方法は、例えば、1つまたは複数の標準治療法によってすでに治療されているがんをプロファイリングするために使用される。いくつかの態様において、がんは以前の治療に対して抗療性である。例えば、がんは、がんのための標準治療に対して抗療性であり得る。がんは転移がんまたは他の再発がんであることができる。治療は、オン・コンペンディウム治療またはオフ・コンペンディウム治療であることができる。
分子プロファイリングは、生体試料中の分子を検出するための任意の公知の手段によって実行されることができる。分子プロファイリングは、核酸シーケンシング、例えばDNAシーケンシングもしくはRNAシーケンシング;免疫組織化学(IHC);インサイチューハイブリダイゼーション(ISH);蛍光インサイチューハイブリダイゼーション(FISH);発色インサイチューハイブリダイゼーション(CISH);PCR増幅(例えばqPCRまたはRT-PCR);様々なタイプのマイクロアレイ(mRNA発現アレイ、低密度アレイ、タンパク質アレイなど);様々なタイプのシーケンシング(サンガー、パイロシーケンシングなど);比較ゲノムハイブリダイゼーション(CGH);ハイスループットまたは次世代シーケンシング(NGS);ノーザンブロット;サザンブロット;イムノアッセイ;および関心対象の生体分子の存在または量をアッセイするための任意の他の適切な技術をはじめとする方法を含む。様々な態様において、本明細書に開示される標的遺伝子を評価するために、これらの方法のいずれか1つまたは複数を互いに同時並行または順次に使用することができる。
個々の試料の分子プロファイリングを使用して、例えば、所与のがんに有効であり得る薬物のための標的を同定することにより、対象における障害のための1つまたは複数の候補治療を選択する。例えば、候補治療は、分子プロファイリング技術によって同定された遺伝子を差次的に発現する細胞に影響を及ぼすことが知られている治療、実験薬、政府もしくは規制当局が承認した薬またはそのような薬の任意の組み合わせであることができる(生体試料が採取され、分子プロファイリングされる対象の適応症と同じまたは異なる特定の適応症に関して研究され、承認されている場合もある)。
分子プロファイリングによって標的遺伝子を評価することによって複数のバイオマーカー標的が明らかになる場合、1つまたは複数の決定則を適用して、個別化ベースでの個人の治療のための特定の治療剤の選択を優先順位付けすることができる。本明細書に記載されるような規則は、優先順位付け治療、例えば、分子プロファイリングの直接的な結果、治療剤に期待される効能、同じまたは他の治療の前歴、予想される副作用、治療剤の入手可能性、治療剤の費用、薬物間相互作用および治療担当医によって考慮される他の要因を支援する。推奨され、優先順位付けされた治療剤標的に基づいて、医師は特定の個人のための治療過程を決定することができる。したがって、本明細書に記載されるような分子プロファイリング方法およびシステムは、疾患、特にがんを病む個人を治療するために慣例的に使用されている従来の万能手法に頼ることとは対照的に、治療を要する対象における疾患細胞、例えば腫瘍細胞の個々の特性および他の個別化要因に基づいて候補治療を選択することができる。場合によっては、推奨される治療は、対象を苦しめる疾患もしくは障害を治療するために通常は使用されないものである。場合によっては、推奨される治療は、標準治療法が十分な効能をもはや提供しなくなくなった後で使用される。
治療担当医は、分子プロファイリング法の結果を使用して、患者のための治療レジメンを最適化することができる。本明細書に記載されるような方法によって同定された候補治療は、患者を治療するために使用されることができるが、そのような治療は方法に必要とされない。実際、分子プロファイリング結果およびそのような結果に基づく候補治療の同定の分析は自動化されることができ、医師の関与を要しない。
生物学的エンティティ
核酸には、デオキシリボヌクレオチドもしくはリボヌクレオチドおよび一本鎖もしくは二本鎖形態のいずれかのそれらのポリマー、またはその相補体が含まれる。核酸は、合成、天然、および非天然である公知のヌクレオチド類似体または改変された骨格残基もしくは結合を含有することができ、それらは、基準核酸と類似の結合特性を有し、それらは、基準ヌクレオチドと類似のやり方で代謝される。そのような類似体の例には、ホスホロチオエート、ホスホルアミデート、メチルホスホネート、キラル-メチルホスホネート、2-O-メチルリボヌクレオチド、ペプチド-核酸(PNA)が含まれるが、それに限定されるわけではない。核酸配列は、その保存的に改変されたバリアント(例えば、縮重コドン置換)および相補配列に加えて、明示された配列を包含することができる。具体的には、縮重コドン置換は、1つまたは複数の選択された(またはすべての)コドンの3番目の位置が混合塩基および/またはデオキシイノシン残基で置換された配列を生成することによって達成され得る(Batzer et al., Nucleic Acid Res. 19:5081 (1991); Ohtsuka et al., J. Biol. Chem. 260:2605-2608 (1985); Rossolini et al., Mol. Cell Probes 8:91-98 (1994))。核酸という用語は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと互換的に使用することができる。
特定の核酸配列は、特定の配列ならびに「スプライスバリアント」および切断型をコードする核酸配列を暗に包含し得る。同様に、核酸によってコードされる特定のタンパク質は、その核酸のスプライスバリアントまたは切断型によってコードされる任意のタンパク質を包含することができる。「スプライスバリアント」は、その名称が示唆するように、遺伝子の選択的スプライシングの産物である。転写後、異なる(選択的)核酸スプライス産物が異なるポリペプチドをコードするように、最初の核酸転写物がスプライシングされる場合がある。スプライスバリアントの産生メカニズムは様々であるが、エキソンの選択的スプライシングを含む。同じ核酸からリードスルー転写によって得られる選択的ポリペプチドもまた、この定義によって包含される。組み換え形態のスプライス産物を含む、スプライシング反応の任意の産物が、この定義に含まれる。核酸は、5'末端または3'末端で切断することができる。ポリペプチドは、N末端またはC末端で切断することができる。核酸またはポリペプチド配列の切断バージョンは、天然であることができ、または組み換え技法を使用して生み出すことができる。
「遺伝子バリアント」および「ヌクレオチドバリアント」という用語は、コード領域および非コード領域中のヌクレオチド塩基の欠失、挿入、逆位、および置換を含むが、それに限定されるわけではない、特定の座位での基準ヒト遺伝子またはcDNA配列に対する変化または変更を指すために本明細書において互換的に使用される。欠失は、単一のヌクレオチド塩基、遺伝子のヌクレオチド配列の一部分もしくは領域、または遺伝子配列全体のものであり得る。挿入は、1つまたは複数のヌクレオチド塩基のものであり得る。遺伝子バリアントまたはヌクレオチドバリアントは、転写調節領域、mRNAの非翻訳領域、エキソン、イントロン、エキソン/イントロン接合部などで起こる場合がある。遺伝子バリアントまたはヌクレオチドバリアントの結果として、終止コドン、フレームシフト、アミノ酸の欠失、変更された遺伝子転写物スプライス形態または変更されたアミノ酸配列が潜在的に生じる可能性がある。
アレルまたは遺伝子アレルは、一般的に、基準配列を有する天然遺伝子、または特定のヌクレオチドバリアントを含有する遺伝子を含む。
ハプロタイプは、個体に見出されるmRNAまたは染色体上のゲノムDNAの領域中の遺伝子(ヌクレオチド)バリアントの組み合わせを指す。したがって、ハプロタイプは、典型的にはユニットとして一緒に遺伝する、いくつかの遺伝的に連鎖した多型バリアントを含む。
本明細書に使用する場合、「アミノ酸バリアント」という用語は、基準タンパク質をコードする基準ヒト遺伝子に対する遺伝子バリアントまたはヌクレオチドバリアントに起因する、基準ヒトタンパク質配列に対するアミノ酸変化を指すために使用される。「アミノ酸バリアント」という用語は、基準タンパク質におけるアミノ酸配列の単一のアミノ酸置換だけでなく、アミノ酸欠失、挿入、および他の重大な変化も包含することが意図される。
「遺伝子型」という用語は、本明細書に使用する場合、遺伝子(または特定の染色体領域)の一方のアレルまたは両方のアレルのいずれかにおける特定のヌクレオチドバリアントマーカー(または座位)でのヌクレオチドの性質を意味する。関心対象の遺伝子の特定のヌクレオチド位置に関して、一方または両方のアレル中のその座位またはその同等物でのヌクレオチドが、その座位での遺伝子の遺伝子型を形成する。遺伝子型は、ホモ接合性またはヘテロ接合性であることができる。したがって、「遺伝子型決定」は、遺伝子型、すなわち特定の遺伝子座位でのヌクレオチドを決定することを意味する。遺伝子型決定はまた、対応するヌクレオチドバリアントを推定するために使用することができる、タンパク質の特定の位置でのアミノ酸バリアントを決定することによって行うことができる。
「座位」という用語は、遺伝子配列またはタンパク質における特定の位置または部位を指す。したがって、特定の遺伝子座位に1つもしくは複数の連続ヌクレオチド、またはポリペプチド中の特定の座位に1つもしくは複数のアミノ酸があり得る。そのうえ、座位は、1つまたは複数のヌクレオチドが欠失、挿入、または逆位にされた、遺伝子中の特定位置を指す場合がある。
特に規定がない限り、または当業者に理解されていない限り、「ポリペプチド」、「タンパク質」、および「ペプチド」という用語は、アミノ酸残基が共有ペプチド結合によって連結されたアミノ酸鎖を指すために本明細書において互換的に使用される。アミノ酸鎖は、完全長タンパク質を含む、任意の長さの少なくとも2つのアミノ酸のものであることができる。特に規定がない限り、ポリペプチド、タンパク質、およびペプチドはまた、グリコシル化形態、リン酸化形態などを含むが、それに限定されるわけではない、その様々な改変形態を包含する。ポリペプチド、タンパク質またはペプチドはまた、遺伝子産物と称することができる。
分子プロファイリング技法によってアッセイすることができる遺伝子および遺伝子産物のリストが、本明細書に提示される。遺伝子のリストは、遺伝子産物(例えば、mRNAまたはタンパク質)を検出する分子プロファイリング技法に関連して提示される場合がある。当業者は、これが、リストに挙げられた遺伝子の遺伝子産物の検出を意味することを理解するであろう。同様に、遺伝子産物のリストは、遺伝子配列またはコピー数を検出する分子プロファイリング技法に関連して提示される場合がある。当業者は、これが遺伝子産物をコードするDNAを例として含む、遺伝子産物に対応する遺伝子の検出を意味することを理解するであろう。当業者によって認識されるように、「バイオマーカー」または「マーカー」は、文脈に応じて遺伝子および/または遺伝子産物を含む。
「標識」および「検出可能な標識」という用語は、分光学的、光化学的、生化学的、免疫化学的、電気的、光学的、化学的方法または類似の方法によって検出可能な任意の組成物を指すことができる。そのような標識には、標識ストレプトアビジンコンジュゲートで染色するためのビオチン、磁性ビーズ(例えば、DYNABEADS(商標))、蛍光色素(例えば、フルオレセイン、テキサスレッド、ローダミン、緑色蛍光タンパク質など)、放射性標識(例えば、3H、125I、35S、14C、または32P)、酵素(例えば、ホースラディッシュペルオキシダーゼ、アルカリホスファターゼおよびELISAに通常使用されるその他)、およびコロイド金または着色ガラスもしくはプラスチック(例えば、ポリスチレン、ポリプロピレン、ラテックス等の)ビーズなどの比色標識が含まれる。そのような標識の使用を教示している特許には、米国特許第3,817,837号;同第3,850,752号;同第3,939,350号;同第3,996,345号;同第4,277,437号;同第4,275,149号;および同第4,366,241号が含まれる。そのような標識を検出する手段は、当業者に周知である。したがって、例えば、放射性標識は、写真フィルムまたはシンチレーションカウンタを使用して検出される場合があり、蛍光マーカーは、放出光を検出するために光ディテクタを使用して検出される場合がある。酵素標識は、典型的には、酵素に基質を提供すること、および基質に対する酵素の作用によって産生される反応産物を検出することによって検出され、比色標識は、着色標識を単に可視化することによって検出される。標識は、例えば、標識された抗体に結合するリガンド、フルオロフォア、化学発光剤、酵素、および標識されたリガンドに特異的な結合ペアのメンバーとして役立つことができる抗体を含むことができる。標識の概論、標識手順および標識の検出は、Polak and Van Noorden Introduction to Immunocytochemistry, 2nd ed., Springer Verlag, NY (1997);およびMolecular Probes, Inc.刊行のハンドブックとカタログの合本のHaugland Handbook of Fluorescent Probes and Research Chemicals (1996)に見出される。
検出可能な標識には、ヌクレオチド(標識または非標識)、コンポマー(compomer)、糖、ペプチド、タンパク質、抗体、化学化合物、導電性ポリマー、結合部分、例えばビオチン、質量タグ、比色剤、発光剤、化学発光剤、光散乱剤、蛍光タグ、放射性タグ、チャージタグ(charge tag)(電荷または磁荷)、揮発性タグ(volatile tag)および疎水性タグ、生体分子(例えば、結合ペア抗体/抗原、抗体/抗体、抗体/抗体断片、抗体/抗体受容体、抗体/プロテインAまたはプロテインG、ハプテン/抗ハプテン、ビオチン/アビジン、ビオチン/ストレプトアビジン、葉酸/葉酸結合タンパク質、ビタミンB12/内因子、化学反応基/相補的化学反応基(例えば、スルフヒドリル/マレイミド、スルフヒドリル/ハロアセチル誘導体、アミン/イソトリオシアネート(isotriocyanate)、アミン/スクシンイミジルエステル、およびアミン/スルホニルハライドのメンバー)等が含まれるが、それに限定されるわけではない。
「プライマー」、「プローブ」、および「オリゴヌクレオチド」という用語は、比較的短い核酸断片または配列を指すために本明細書において互換的に使用される。それらは、DNA、RNA、もしくはそれらのハイブリッド、または化学的に改変されたそれらの類似体もしくは誘導体を含むことができる。典型的には、それらは一本鎖である。しかし、それらはまた、変性によって分離することができる2つの相補鎖を有する二本鎖であることができる。通常、プライマー、プローブおよびオリゴヌクレオチドは、約8ヌクレオチド~約200ヌクレオチド長、好ましくは約12ヌクレオチド~約100ヌクレオチド長、より好ましくは約18~約50ヌクレオチド長を有する。それらは、検出可能なマーカーで標識することができ、または様々な分子生物学的応用のための従来のやり方を用いて改変することができる。
「単離された」という用語は、核酸(例えば、ゲノムDNA、cDNA、mRNA、またはそれらの断片)に関連して使用される場合、核酸分子がその分子と通常関連する他の天然核酸から実質的に分離されている形態で存在することを意味することが意図される。天然に存在する染色体(またはそのウイルス同等物)は長い核酸配列を含むので、単離された核酸は、染色体中の核酸配列の一部分だけを有するが、同じ染色体に存在する1つまたは複数の他の部分を有しない、核酸分子であることができる。より具体的には、単離された核酸は、天然に存在する染色体(またはそのウイルス同等物)中の核酸に隣接する天然核酸配列を含むことができる。単離された核酸は、同じ生物の異なる染色体上にある他の天然核酸から実質的に分離されていることができる。単離された核酸はまた、特定の核酸分子が組成物中の総核酸の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、または少なくとも99%を構成するように顕著に濃縮されている組成物であることができる。
単離された核酸は、1つまたは複数の核酸分子と共有結合的に連結された特定の核酸分子を有するハイブリッド核酸であることができ、1つまたは複数の核酸分子は、天然で特定の核酸と隣接する核酸ではない。例えば、単離された核酸は、ベクター中にあることができる。加えて、特定の核酸は、天然の核酸、または1つもしくは複数の変異、例えばヌクレオチドの置換、欠失/挿入、逆位などを有するその改変形態もしくはムテインと同一であるヌクレオチド配列を有する場合がある。
単離された核酸は、組み換え宿主細胞(核酸が組み換え増幅および/もしくは発現されているもの)から調製することができ、または天然ヌクレオチド配列もしくはその人工改変形態を有する化学合成された核酸であることができる。
「高ストリンジェンシーハイブリダイゼーション条件」という用語は、核酸ハイブリダイゼーションに関連して使用される場合、50%ホルムアミド、5×SSC(750mM NaCl、75mM クエン酸ナトリウム)、50mM リン酸ナトリウム、pH7.6、5×デンハート液、10%硫酸デキストラン、および20マイクログラム/ml 変性断片化処理済みサケ精子DNAを含有する溶液中42℃で一晩行うハイブリダイゼーションであって、ハイブリダイゼーションフィルターを約65℃の0.1×SSC中で洗浄するハイブリダイゼーションを含む。「中程度のストリンジェントなハイブリダイゼーション条件」という用語は、核酸ハイブリダイゼーションに関連して使用される場合、50%ホルムアミド、5×SSC(750mM NaCl、75mM クエン酸ナトリウム)、50mM リン酸ナトリウム、pH7.6、5×デンハート液、10%硫酸デキストラン、および20マイクログラム/ml 変性断片化処理済みサケ精子DNAを含有する溶液中37℃で一晩行うハイブリダイゼーションであって、ハイブリダイゼーションフィルターを約50℃の1×SSC中で洗浄するハイブリダイゼーションを含む。当業者に明らかであろうが、多くの他のハイブリダイゼーション方法、溶液および温度を使用して同程度のストリンジェントなハイブリダイゼーション条件を達成できることに留意されたい。
2つの異なる核酸またはポリペプチド配列を比較する目的で、一方の配列(試験配列)は、別の配列(比較配列)と特定のパーセンテージで同一あると記載される場合がある。同一パーセンテージは、様々なBLASTプログラムに組み込まれているKarlin and Altschul, Proc. Natl. Acad. Sci. USA, 90:5873-5877 (1993)のアルゴリズムによって決定することができる。同一パーセンテージは、米国立バイオテクノロジー情報センター(NCBI)のウェブサイトで利用可能な「BLAST 2 Sequences」ツールによって決定することができる。Tatusova and Madden, FEMS Microbiol. Lett., 174(2):247-250 (1999)を参照されたい。DNA-DNAの対比較のために、BLASTNプログラムが初期設定のパラメータ(例えば、マッチ:1;ミスマッチ:-2;オープンギャップ:5ペナルティ;伸長ギャップ:2ペナルティ;ギャップx_ドロップオフ:50;期待値:10;およびワードサイズ:11、フィルタあり)で使用される。タンパク質-タンパク質配列の対比較のために、初期設定のパラメータ(例えば、行列:BLOSUM62;ギャップオープン:11;ギャップ伸長:1;x_ドロップオフ:15;期待値:10.0;およびワードサイズ:3、フィルタあり)を使用してBLASTPプログラムを採用することができる。2つの配列の同一パーセントは、BLASTを使用して試験配列を比較配列とアライメントし、比較配列の同じ位置にあるアミノ酸またはヌクレオチドと同一である、アライメントされた試験配列中のアミノ酸またはヌクレオチドの数を決定し、同一のアミノ酸またはヌクレオチドの数を比較配列中のアミノ酸またはヌクレオチドの数で割ることによって計算される。2つの配列を比較するためにBLASTが使用される場合、BLASTは、配列をアライメントし、所定のアライメントされた領域にわたる同一パーセントをもたらす。2つの配列がそれらの全長にわたってアライメントされる場合、BLASTによってもたらされた同一パーセントは、これら2つの配列の同一パーセントである。BLASTが2つの配列をその全長にわたりアライメントしない場合、試験配列および比較配列のアライメントされない領域中の同一のアミノ酸またはヌクレオチドの数は、ゼロと見なされ、同一パーセントは、アライメントされた領域中の同一のアミノ酸またはヌクレオチドの数を足し合わせ、その数を比較配列の長さで割ることによって計算される。配列を比較するために様々なバージョンのBLASTプログラム、例えば、BLAST 2.1.2またはBLAST+ 2.2.22を使用することができる。
対象または個体は、例えば、ヒトおよび非ヒト哺乳動物、例えば霊長類、げっ歯類、ウマ、イヌおよびネコを含む、本明細書に記載される方法から恩恵を受ける場合がある任意の動物であることができる。対象には、真核生物、最も好ましくは哺乳動物、例えば霊長類、例えば、チンパンジーもしくはヒト、ウシ;イヌ;ネコ;げっ歯類、例えば、モルモット、ラット、マウス;ウサギ;または鳥類;爬虫類;または魚類が含まれるが、それに限定されるわけではない。本明細書に記載される方法を使用する治療のために具体的に意図される対象には、ヒトが含まれる。対象はまた、本明細書において個体または患者と称される場合もある。本方法において対象は、結腸直腸がんを有する、例えば、結腸直腸がんと診断されている。結腸直腸がんを有する対象を特定するための方法、例えば生検を使用する方法は、当技術分野において公知である。例えば、Fleming et al., J Gastrointest Oncol. 2012 Sep; 3(3): 153-173; Chang et al., Dis Colon Rectum. 2012; 55(8):831-43を参照されたい。
本明細書に記載される方法による疾患または個体の治療は、臨床結果を含む有益なまたは所望の医学的結果を得るための手法であるが、必ずしも治癒を得るための手法ではない。本明細書に記載される方法のために、有益なまたは所望の臨床結果には、検出可能か検出不可能かにかかわらず、1つまたは複数の症状の軽減または回復、疾患の程度の減少、病状の安定(すなわち、悪化しない)、疾患の拡大の防止、疾患の進行の遅延または減速、病状の回復または緩和、および寛解(部分寛解または全寛解のいずれにせよ)が含まれるが、それに限定されるわけではない。治療にはまた、治療を受けなかった場合または異なる治療を受けた場合の予測生存期間と比較して生存期間を延長することも含む。治療は、例えばチェックポイント阻害剤療法などの免疫療法などの、様々な低分子薬または生物学的製剤(biologics)の投与を含むことができる。バイオマーカーは、一般的に、遺伝子またはその産物、核酸(例えば、DNA、RNA)、タンパク質/ペプチド/ポリペプチド、糖鎖構造、脂質、糖脂質を含むが、それに限定されるわけではない分子であって、組織または細胞において検出されると候補治療に対する感受性または抵抗性について予測、診断、予後判定および/またはセラノスティック(theranostic)する情報を提供することができる特徴を有する分子指す。
生体試料
本明細書に使用する場合の試料には、分子プロファイリングのために使用することができる任意の関連する生体試料、例えば、外科的手順または他の手順の間に取り出された生検または組織、体液、剖検試料、および組織学的目的で採取された凍結切片のような組織切片が含まれる。そのような試料には、血液および血液画分または産物(例えば、血清、バフィーコート、血漿、血小板、赤血球など)、痰、悪性滲出液、頬細胞組織、培養細胞(例えば、初代培養、外植片、および形質転換細胞)、大便、尿、他の生体液または体液(例えば、前立腺液、胃液、腸液、腎液(renal fluid)、肺液、脳脊髄液など)、その他が含まれる。試料は、新鮮凍結およびホルマリン固定パラフィン包埋(FFPE)ブロックである、ホルマリン固定パラフィン包埋されている、またはRNA保存剤+ホルマリン固定液内にある、生体材料を含むことができる。1つよりも多いタイプの1つよりも多い試料を各患者について使用することができる。好ましい態様では、試料は、固定された腫瘍試料を含む。
本発明のシステムおよび方法に使用される試料は、ホルマリン固定パラフィン包埋(FFPE)試料であることができる。FFPE試料は、固定組織、非染色スライド、骨髄コアまたはクロット、コア針生検、悪性流体および穿刺吸引液(FNA)のうちの1つまたは複数であることができる。ある態様では、固定組織は、手術または生検からの腫瘍含有ホルマリン固定パラフィン包埋(FFPE)ブロックを含む。別の態様では、非染色スライドは、パラフィンブロックからの未染色で荷電した未ベーキング処理のスライドを含む。別の態様では、骨髄コアまたはクロットは、脱灰されたコアを含む。ホルマリン固定コアおよび/またはクロットは、パラフィン包埋することができる。なお別の態様では、コア針生検は、1、2、3、4、5、6、7、8、9、10個またはそれ以上、例えば3~4個の、パラフィン包埋生検試料を含む。18ゲージ針生検を使用することができる。悪性流体は、5×5×2mm細胞ペレットを産生するために十分な体積の新鮮胸膜液/腹膜液を含むことができる。液は、パラフィンブロックの状態でホルマリン固定することができる。ある態様では、コア針生検は、1、2、3、4、5、6、7、8、9、10個またはそれ以上、例えば4~6個の、パラフィン包埋吸引液を含む。
試料は、当業者によって理解される技法に従って加工され得る。試料は、新鮮な、凍結された、または固定された細胞または組織であることができるが、それに限定されるわけではない。いくつかの態様では、試料は、ホルマリン固定パラフィン包埋(FFPE)組織、新鮮組織または新鮮凍結(FF)組織を含む。試料は、対象試料に由来する初代または不死化細胞株を含む培養細胞を含むことができる。試料はまた、対象由来の試料からの抽出物も指すことができる。例えば試料は、組織または体液から抽出されたDNA、RNAまたはタンパク質を含むことができる。そのような目的のために多くの技法および市販のキットが利用可能である。個体からの新鮮な試料は、さらなる加工、例えば細胞溶解および抽出の前に作用物質で処理してRNAを保存することができる。試料は、他の目的で収集された凍結試料を含むことができる。試料は、年齢、性別、および対象に存在する臨床症状;試料の起源;ならびに試料の収集および保管方法などの関連する情報と関連することができる。試料は、典型的には対象から得られる。
生検は、診断または予後評価のために組織試料を取り出すプロセス、および組織検体自体を含む。当技術分野において公知の任意の生検技法を、本開示の分子プロファイリング法に適用することができる。適用される生検技法は、いくつかある要因の中で、評価されるべき組織のタイプ(例えば、結腸、前立腺、腎臓、膀胱、リンパ節、肝臓、骨髄、血液細胞、肺、乳房など)、腫瘍のサイズおよびタイプ(例えば、固形または浮遊、血液または腹水)に依存することができる。代表的な生検技法には、切除生検、切開生検、針生検、外科的生検、および骨髄生検が含まれるが、それに限定されるわけではない。「切除生検」は、腫瘍塊全体を、それを取り囲む正常組織の小さな辺縁と共に取り出すことを指す。「切開生検」は、腫瘍の断面直径を含む楔状組織の取り出しを指す。分子プロファイリングは、腫瘍塊の「コア針生検」、または一般的に腫瘍塊内から細胞の懸濁物を得る「細針吸引生検」を使用することができる。生検技法は、例えば、Harrison's Principles of Internal Medicine, Kasper, et al., eds., 16th ed., 2005の70章及び第V部全体で論考されている。
特に言及しないかぎり、患者の分子プロファイリングのために本明細書において言及される「試料」は、1つよりも多い物理的検体を含む場合がある。非限定的な一例として、「試料」は、腫瘍からの複数の切片、例えば、FFPEブロックの複数の切片または複数のコア針生検切片を含む場合がある。別の非限定的な例として、「試料」は、複数の生検検体、例えば、1つもしくは複数の外科的生検検体、1つもしくは複数のコア針生検検体、1つもしくは複数の細針吸引生検検体、またはそれらの任意の有用な組み合わせを含む場合がある。なお別の非限定的な例として、分子プロファイルは、固形腫瘍検体および体液検体を含む「試料」を使用して対象について生成される場合がある。いくつかの態様では、試料は、単位試料、すなわち単一の物理的検体である。
当技術分野において公知であり、具体的に記載されない標準的な分子生物学的技法は、一般的に、Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, New York (1989)およびAusubel et al., Current Protocols in Molecular Biology, John Wiley and Sons, Baltimore, Md. (1989)およびPerbal, A Practical Guide to Molecular Cloning, John Wiley & Sons, New York (1988)およびWatson et al., Recombinant DNA, Scientific American Books, New YorkおよびBirren et al (eds) Genome Analysis: A Laboratory Manual Series, Vols. 1-4 Cold Spring Harbor Laboratory Press, New York (1998)、ならびに米国特許第4,666,828号;同第4,683,202号;同第4,801,531号;同第5,192,659号および同第5,272,057号に示される方法論に従い、それらは、参照により本明細書に組み入れられる。ポリメラーゼ連鎖反応(PCR)は、一般的に、PCR Protocols: A Guide to Methods and Applications, Academic Press, San Diego, Calif. (1990)にあるように実施することができる。
小胞
試料は、小胞を含むことができる。本明細書に記載されるような方法は、小胞集団を調べることを含む、1つまたは複数の小胞を調べることを含むことができる。小胞は、本明細書に使用される場合、細胞から排出された(shed)膜小胞である。小胞または膜小胞には、循環微小小胞(cMV)、微小小胞、エキソソーム、ナノ小胞、デキソソーム(dexosome)、ブレブ、ブレビー(blebby)、プロスタソーム(prostasome)、マイクロパーティクル、腔内小胞、膜断片、腔内エンドソーム小胞、エンドソーム様小胞、エキソサイトーシスビヒクル、エンドソーム(endosome)小胞、エンドソーム(endosomal)小胞、アポトーシス小体、多胞体、分泌小胞、リン脂質小胞、リポソーム小胞、アルゴソーム(argosome)、テキサソーム(texasome)、セクレソーム(secresome)、トレロソーム(tolerosome)、メラノソーム、オンコソーム(oncosome)、またはエキソサイトーシスされたビヒクルが含まれるが、それに限定されるわけではない。さらに小胞は、異なる細胞過程によって産生される場合があるものの、本明細書に記載されるような方法は、そのような小胞が生体試料中に存在し、本明細書に開示される方法によって特徴付けることができるかぎり、任意の1つのメカニズムに限定されることも依存もしない。特に規定がないかぎり、小胞の一種を利用する方法を、他のタイプの小胞に適用することができる。小胞は、時にペイロードと称される可溶性成分を含有することができる内部区画を取り囲む、細胞膜に類似する脂質二重層を有する球状構造を含む。いくつかの態様では、本明細書に記載されるような方法は、直径約40~100nmの小さな分泌小胞であるエキソソームを利用する。タイプおよび特徴付けを含む膜小胞の総説については、Thery et al., Nat Rev Immunol. 2009 Aug;9(8):581-93を参照されたい。異なるタイプの小胞のいくつかの特性は、表1に記載されるものを含む。
(表1)小胞の特性
Figure 2022522948000002
略語:ホスファチジルセリン(PPS);電子顕微鏡法(EM)
小胞は、形質膜または内膜のいずれかから得られる、排出された膜結合パーティクルまたは「マイクロパーティクル」を含む。小胞は、細胞から細胞外環境内に放出されることができる。小胞を放出している細胞には、外胚葉、内胚葉、または中胚葉に由来する、またはそれから得られる細胞が含まれるが、それに限定されるわけではない。細胞は、遺伝的、環境的、および/または任意の他のバリエーションもしくは変更を受けている場合がある。例えば、細胞は、腫瘍細胞であることができる。小胞は、ソース細胞における任意の変化を反映し、それにより、由来する細胞、例えば、様々な遺伝子変異を有する細胞における変化を反映することができる。一メカニズムでは、細胞膜のセグメントが自然に陥入し、最終的にエキソサイトーシスされる場合、小胞が細胞内で生成する(例えば、Keller et al., Immunol. Lett. 107 (2): 102-8 (2006)を参照されたい)。小胞はまた、脱出した外反(ブレビング)の分離および形質膜部分の封着の両方から、または腫瘍起源の様々な膜関連タンパク質を含有する任意の細胞内膜結合型小胞構造の搬出から生じる脂質二重膜によって結合される細胞由来構造を含み、それらは、腫瘍由来マイクロRNAまたは細胞内タンパク質を含むが、それに限定されるわけではない、小胞腔に含有される分子と一緒に腫瘍由来タンパク質に選択的に結合する、宿主循環から得られる表面結合分子を含む。ブレブおよびブレビングはさらに、Charras et al., Nature Reviews Molecular and Cell Biology, Vol. 9, No. 11, p. 730-736 (2008)に記載されている。腫瘍細胞から循環または体液中に排出された小胞は、「循環性腫瘍由来小胞」と称される場合がある。そのような小胞がエキソソームである場合、小胞は、循環性腫瘍由来エキソソーム(CTE)と称される場合がある。場合により、小胞は、特定の細胞起源に由来することができる。CTEは、細胞起源特異的小胞と同様に、典型的には、CTEまたは細胞起源特異的小胞の、例えば体液からの、時に特異的なやり方での単離を可能にする1つまたは複数の固有のバイオマーカーを有する。例えば、細胞または組織特異的マーカーが、細胞起源を特定するために使用される。そのような細胞または組織特異的マーカーの例は、本明細書において開示され、bioinfo.wilmer.jhu.edu/tiger/から入手可能なTissue-specific Gene Expression and Regulation(TiGER)データベース;Liu et al. (2008) TiGER: a database for tissue-specific gene expression and regulation. BMC Bioinformatics. 9:271; genome.dkfz-heidelberg.de/menu/tissue_db/index.htmlから入手可能なTissueDistributionDBsにさらにアクセスすることができる。
小胞は、約10nm、20nm、または30nmよりも大きな直径を有することができる。小胞は、40nm、50nm、100nm、200nm、500nm、1000nmよりも大きな、または10,000nmよりも大きな直径を有することができる。小胞は、約30~1000nm、約30~800nm、約30~200nm、または約30~100nmの直径を有することができる。いくつかの態様では、小胞は、10,000nm、1000nm、800nm、500nm、200nm、100nm、50nm、40nm、30nm、20nm未満または10nm未満の直径を有する。本明細書に使用する場合、数値に関連する「約」という用語は、数値の上下10%の変動が特定の値に帰される範囲内であることを意味する。様々なタイプの小胞についての典型的なサイズを表1に示す。小胞を調べて、単一の小胞または任意の数の小胞の直径を測定することができる。例えば、小胞集団の直径の範囲または小胞集団の平均直径を決定することができる。小胞の直径は、当技術分野において公知の方法、例えば、電子顕微鏡法などのイメージング技法を使用して調べることができる。ある態様では、1つまたは複数の小胞の直径は、光学的パーティクル検出を使用して決定される。例えば、「Optical Detection and Analysis of Particles」という名称で、2010年7月6日に発行された米国特許第7,751,053号;および「Optical Detection and Analysis of Particles」という名称で2010年7月15日に発行された米国特許第7,399,600号を参照されたい。
いくつかの態様では、小胞は、生体試料からの事前の単離、精製、または濃縮なしに生体試料から直接アッセイされる。例えば、試料中の小胞の量は、それ自体で、診断、予後判定またはセラノスティック決定を提供するバイオシグネチャ(biosignature)を提供することができる。あるいは、試料中の小胞は、分析前に試料から単離、捕捉、精製、または濃縮される場合がある。上述のように、単離、捕捉または精製は、本明細書に使用する場合、試料中の他の成分から離した部分単離、部分捕捉または部分精製を含む。小胞の単離は、本明細書に記載されるような、または当技術分野において公知の、様々な技法を使用して行うことができ、それらの技法には、サイズ排除クロマトグラフィー、密度勾配遠心分離、分画遠心分離、ナノメンブラン限外濾過、免疫吸着捕捉、親和性精製、親和性捕捉、イムノアッセイ、免疫沈降、マイクロ流体分離、フローサイトメトリーまたはそれらの組み合わせが含まれるが、それに限定されるわけではない。
小胞を調べて、小胞の特徴を基準と比較することによって、表現型の特徴付けを提供することができる。いくつかの態様では、小胞上の表面抗原が調べられる。特定のマーカーを保有する小胞または小胞集団は、陽性(バイオマーカー+)小胞または小胞集団と称することができる。例えば、DLL4+集団は、DLL4と結合している小胞集団を指す。逆に、DLL4-集団は、DLL4と結合していない。表面抗原は、小胞の解剖学的ならびに/または細胞起源ならびに他の表現型情報、例えば腫瘍の状態の指標を提供することができる。例えば、患者の試料中に見出される小胞を、結腸直腸起源およびがんの存在を示す表面抗原について調べ、それにより、結腸直腸がん細胞に関連する小胞を特定することができる。表面抗原は、小胞膜表面に検出することができる情報を与える任意の生物学的エンティティを含む場合があり、それには、表面タンパク質、脂質、糖質、および他の膜成分が含まれるが、それに限定されるわけではない。例えば、腫瘍抗原を発現している結腸から得られる小胞の陽性検出は、患者が結腸直腸がんを有することを示すことができる。このように、本明細書に記載されるような方法を使用して、例えば、対象から得られた1つまたは複数の小胞の疾患特異的および細胞特異的バイオマーカーを調べることによって、解剖学的または細胞起源に関連する任意の疾患または状態を特徴付けることができる。
諸態様では、表現型の特徴付けを提供するために、1つまたは複数の小胞ペイロードが調べられる。小胞を有するペイロードは、タンパク質および核酸、例えば、ゲノムもしくはcDNA、mRNA、またはそれらの機能的断片に加えて、マイクロRNA(miR)も含むが、それに限定されるわけではない、小胞内に封入されているとして検出することができる、情報を与える任意の生物学的エンティティを含む。加えて、本明細書に記載されるような方法は、小胞表面抗原を(小胞ペイロードに加えてまたは排他的に)検出して表現型の特徴付けを提供することに向けられる。例えば、小胞は、小胞表面抗原に特異的な結合剤(例えば、抗体またはアプタマー)を使用することによって特徴付けることができ、結合した小胞をさらに調べて、本明細書に開示される1つまたは複数のペイロード成分を特定することができる。本明細書に記載されるように、関心対象の表面抗原または関心対象のペイロードを有する小胞のレベルを基準と比較して、表現型を特徴付けることができる。例えば、基準と比較したがん関連表面抗原または小胞ペイロード、例えば、腫瘍関連mRNAまたはマイクロRNAの試料中の過剰発現は、試料中のがんの存在を示すことができる。調べられるバイオマーカーは、所望の標的試料の選択および標的試料と所望の基準試料との比較に基づき、存在するまたは存在しない、増加しているまたは低減している可能性がある。標的試料の非限定的な例には、疾患;治療/未治療;例えば縦断的研究での異なる時点が含まれ;基準試料の非限定的な例には、非疾患;正常;異なる時点;および候補治療に感受性または抵抗性のものが含まれる。
ある態様では、本明細書に記載されるような分子プロファイリングは、循環微小小胞などの微小小胞の分析を含む。
マイクロRNA
生体試料またはそのような生体試料から得られた小胞中の様々なバイオマーカー分子を調べることができる。マイクロRNAは、本明細書に記載されるような方法を介して調べられる1つのクラスのバイオマーカーを含む。本明細書においてmiRNAまたはmiRとも称されるマイクロRNAは、およそ21~23ヌクレオチド長の短いRNA鎖である。miRNAは、DNAから転写されるが、タンパク質に翻訳されない遺伝子によってコードされ、したがって、非コードRNAを含む。miRは、pri-miRNAとして知られる一次転写物からpre-miRNAと呼ばれる短いステム-ループ構造に、そして最終的に結果として生じる一本鎖miRNAにプロセシングされる。pre-miRNAは、典型的には、自己相補領域中でそれ自体の上に折り返される構造を形成する。次いで、これらの構造は、動物ではヌクレアーゼDicerまたは植物ではDCL1によってプロセシングされる。成熟miRNA分子は、1つまたは複数のメッセンジャーRNA(mRNA)分子と部分的に相補性であり、タンパク質の翻訳を調節するように機能することができる。miRNAの特定された配列は、www.microRNA.org、www.mirbase.org、またはwww.mirz.unibas.ch/cgi/miRNA.cgiなどの公的に利用可能なデータベースにアクセスすることができる。
miRNAは、一般的に、命名規則「mir-[番号]」に従って番号が割り当てられる。miRNAの番号は、以前に特定されたmiRNA種と比べたその発見順序に従って割り当てられる。例えば、最後に公表されたmiRNAがmir-121であった場合、次に発見されたmiRNAは、mir-122と名付けられるなどである。miRNAが異なる生物由来の公知のmiRNAと相同であることが発見された場合、その名称に[生物識別子]- mir-[番号]の形式の随意の生物識別子を与えることができる。識別子には、ホモ・サピエンス(Homo sapiens)についてのhsaおよびマウス(Mus Musculus)についてのmmuが含まれる。例えば、mir-121とのヒト相同体は、hsa-mir-121と称される場合があるが、一方で、マウス相同体は、mmu-mir-121と称することができる。
成熟マイクロRNAは、通常、接頭辞「miR」を付けて命名され、一方で、遺伝子または前駆体miRNAは、接頭辞「mir」を付けて命名される。例えば、mir-121は、miR-121についての前駆体である。異なるmiRNA遺伝子または前駆体が同一の成熟miRNAにプロセシングされる場合、遺伝子/前駆体を番号付き接尾辞により記述することができる。例えば、mir-121-1およびmir-121-2は、miR-121にプロセシングされる別個の遺伝子または前駆体を指すことができる。文字入りの接尾辞は、密接に関係する成熟配列を示すために使用される。例えば、mir-121aおよびmir-121bは、密接に関係するmiRNA、miR-121aおよびmiR-121bにそれぞれプロセシングされることができる。本開示に関連して、接頭辞mir-*またはmiR-*を付けて本明細書において命名された任意のマイクロRNA(miRNAまたはmiR)は、特に明記しないかぎり、前駆体および/または成熟種の両方を包含すると理解される。
時に、2つの成熟miRNA配列が同じ前駆体に由来することが観察される。配列の一方が他方よりも豊富な場合、「*」接尾辞を使用して、あまり見られない方のバリアントを命名することができる。例えば、miR-121は、主たる産物であり、一方で、miR-121*は、前駆体の反対アームに見出される、あまり見られないバリアントである。主たるバリアントが特定されない場合、前駆体の5'アームからのバリアントについての接尾辞「5p」および3'アームからのバリアントについての接尾辞「3p」によってmiRを識別することができる。例えば、miR-121-5pは、前駆体の5'アームに由来し、一方で、miR-121-3pは3'アームに由来する。あまり一般的ではないが、5pおよび3pバリアントは、それぞれセンス(「s」)およびアンチセンス(「as」)形態と称される。例えば、miR-121-5pはmiR-121-sと称される場合があり、一方で、miR-121-3pはmiR-121-asと称される場合がある。
上記命名規則は時間をかけて発展したものであり、絶対的規定というよりも一般的なガイドラインである。例えば、miRNAのletおよびlinファミリーは、それらのあだ名で呼ばれ続けている。前駆体/成熟形態のためのmir/miR規則もまたガイドラインであり、どの形態が言及されるかを決定するには、状況を考慮に入れるべきである。miR命名のさらなる詳細は、www.mirbase.orgまたはAmbros et al., A uniform system for microRNA annotation, RNA 9:277-279 (2003)に見い出すことができる。
植物miRNAは、Meyers et al., Plant Cell. 2008 20(12):3186-3190に記載されるような異なる命名規則に従う。
いくつかのmiRNAが遺伝子調節に関与しており、miRNAは、遺伝子制御の主要な階層と目下認識されている拡大中の非コードRNAクラスの一部である。いくつかの場合に、miRNAは、標的mRNAの3'-UTRに埋め込まれた調節部位に結合することによって翻訳を妨害して、翻訳の抑制をもたらすことができる。標的認識は、標的部位とmiRNAのシード領域(miRNAの5'末端の2~8位)との相補的塩基対形成を伴う。とはいえ、シード相補性の厳密な程度は正確には判定されず、3'対形成によって改変することができる。他の場合に、miRNAは、低分子干渉RNA(siRNA)のように機能し、完全に相補的なmRNA配列に結合して標的転写物を破壊する。
いくつかのmiRNAの特徴付けによって、これらが、初期発生、細胞増殖および細胞死、アポトーシスおよび脂肪代謝を含む多様なプロセスに影響することが示されている。例えば、いくつかのmiRNA、例えばlin-4、let-7、mir-14、mir-23およびbantamは、細胞分化および組織発生において重要な役割を演じることが示されている。他のものもまた、それらの差次的な空間的および時間的発現パターンにより、同様に重要な役割を有すると考えられる。
miRBase(www.mirbase.org)で入手可能なmiRNAデータベースは、公表されたmiRNA配列および注釈の検索可能なデータベースを含む。miRBaseに関するさらなる情報を、各々その全体で参照により本明細書に組み入れられる以下の文献:Griffiths-Jones et al., miRBase: tools for microRNA genomics. NAR 2008 36(Database Issue):D154-D158; Griffiths-Jones et al., miRBase: microRNA sequences, targets and gene nomenclature. NAR 2006 34(Database Issue):D140-D144;およびGriffiths-Jones, S. The microRNA Registry. NAR 2004 32(Database Issue):D109-D111に見い出すことができる。miRBaseのリリース16に含まれる代表的miRNAは、2010年9月に利用可能になった。
本明細書に記載されるように、マイクロRNAは、がんおよび他の疾患に関与することが知られており、試料における表現型を特徴付けるために調べることができる。例えば、Ferracin et al., Micromarkers: miRNAs in cancer diagnosis and prognosis, Exp Rev Mol Diag, Apr 2010, Vol. 10, No. 3, Pages 297-308; Fabbri, miRNAs as molecular biomarkers of cancer, Exp Rev Mol Diag, May 2010, Vol. 10, No. 4, Pages 435-444を参照されたい。
ある態様では、本明細書に記載されるような分子プロファイリングは、マイクロRNAの分析を含む。
小胞およびmiRを単離し、特徴付けるための技法は、当業者に公知である。本明細書において提示される方法論に加えて、追加的な方法は、「METHODS FOR ASSESSING RNA PATTERNS」という名称で、2011年2月15日に発行された米国特許第7,888,035号;および「METHODS AND SYSTEMS OF USING EXOSOMES FOR DETERMINING PHENOTYPES」という名称で、2011年3月1日に発行された米国特許第7,897,356号;ならびに「METHODS AND SYSTEMS FOR ISOLATING, STORING, AND ANALYZING VESICLES」という名称で、2010年11月30日に発行された国際特許公報WO/2011/066589;「DETECTION OF GASTROINTESTINAL DISORDERS」という名称で、2011年1月13日に発行されたWO/2011/088226;「BIOMARKERS FOR THERANOSTICS」という名称で2011年3月1日に発行されたWO/2011/109440;および「CIRCULATING BIOMARKERS FOR DISEASE」という名称で、2011年4月6日に発行されたWO/2011/127219に見出すことができ、これらの出願の各々は、その全体で参照により本明細書に組み入れられる。
循環バイオマーカー
循環バイオマーカーには、体液、例えば血液、血漿、血清中の検出可能であるバイオマーカーが含まれる。循環がんバイオマーカーの例には、心臓トロポニンT(cTnT)、前立腺がんに対する前立腺特異抗原(PSA)および卵巣がんに対するCA125が含まれる。本開示に従う循環バイオマーカーには、タンパク質、核酸、例えばDNA、mRNAおよびマイクロRNA、脂質、糖質および代謝物を非限定的に含む、体液中の検出することができる任意の適切なバイオマーカーが含まれる。循環バイオマーカーは、細胞と関連しないバイオマーカー、例えば膜結合性であるバイオマーカー、膜断片に埋め込まれたバイオマーカー、生物学的複合体の一部であるバイオマーカーまたは溶液中に遊離状態にあるバイオマーカーを含むことができる。一態様では、循環バイオマーカーは、対象の生物流体中に存在する1つまたは複数の小胞と関連するバイオマーカーである。
がんの検出などの、様々な表現型の特徴付けに使用するための循環バイオマーカーが特定されている。例えば、Ahmed N, et al., Proteomic-based identification of haptoglobin-1 precursor as a novel circulating biomarker of ovarian cancer. Br. J. Cancer 2004; Mathelin _et al., Circulating proteinic biomarkers and breast cancer, Gynecol Obstet Fertil. 2006 Jul-Aug;34(7-8):638-46. Epub 2006 Jul 28; Ye et al., Recent technical strategies to identify diagnostic biomarkers for ovarian cancer. Expert Rev Proteomics. 2007 Feb;4(1):121-31; Carney, Circulating oncoproteins HER2/neu, EGFR and CAIX (MN) as novel cancer biomarkers. Expert Rev Mol Diagn. 2007 May;7(3):309-19; Gagnon, Discovery and application of protein biomarkers for ovarian cancer, Curr Opin Obstet Gynecol. 2008 Feb;20(1):9-13; Pasterkamp et al., Immune regulatory cells: circulating biomarker factories in cardiovascular disease. Clin Sci (Lond). 2008 Aug;115(4):129-31; Fabbri, miRNAs as molecular biomarkers of cancer, Exp Rev Mol Diag, May 2010, Vol. 10, No. 4, Pages 435-444;PCT特許公報WO/2007/088537;米国特許第7,745,150号および同第7,655,479号;米国特許出願公開第20110008808号、同第20100330683号、同第20100248290号、同第20100222230号、同第20100203566号、同第20100173788号、同第20090291932号、同第20090239246号、同第20090226937号、同第20090111121号、同第20090004687号、同第20080261258号、同第20080213907号、同第20060003465号、同第20050124071号、および同第20040096915号を参照されたく、これらの刊行物の各々は、その全体で参照により本明細書に組み入れられる。ある態様では、本明細書に記載されるような分子プロファイリングは、循環バイオマーカーの分析を含む。
遺伝子発現プロファイリング
本明細書に記載されるような方法およびシステムは、本明細書に開示される1つまたは複数の標的遺伝子の差次的発現を調べることを含む発現プロファイリングを含む。差次的発現は、対照(または基準)と比較した生物学的産物、例えば、遺伝子、mRNAまたはタンパク質の過剰発現および/または過小発現を含むことができる。対照は、試料と類似であるが、疾患を有しない細胞を含むことができる(例えば、健康な個体からの試料から得られた発現プロファイル)。対照は、特定の疾患および特定の薬物標的と関連する薬物標的の有効性を示す、以前に決定されたレベルであることができる。対照は、同じ患者、例えば、罹患細胞と同じ器官の正常な隣接部分に由来することができるか、対照は、他の患者からの健康な組織から得ることができるか、または疾患が特定の薬物標的に応答するもしくは応答しないことを示す、以前に決定された閾値であることができる。対照はまた、同じ試料中に見出される対照、例えばハウスキーピング遺伝子またはその産物(例えば、mRNAもしくはタンパク質)であることができる。例えば、対照核酸は、細胞のがん性状態または非がん性状態に応じた差異がないことが知られているものであることができる。対照核酸の発現レベルを使用して、試験集団および基準集団におけるシグナルレベルを規準化することができる。例証的な対照遺伝子には、例えば、β-アクチン、グリセルアルデヒド3リン酸デヒドロゲナーゼおよびリボソームタンパク質P1が含まれるが、それに限定されるわけではない。複数の対照または対照のタイプを使用することができる。差次的発現の原因は変動することができる。例えば、遺伝子コピー数は、細胞において増加し、それにより、結果として遺伝子の増加した発現が生じる場合がある。あるいは、遺伝子の転写は、例えば、クロマチンリモデリング、差次的メチル化、転写因子の差次的発現または活性などによって改変される場合がある。翻訳はまた、例えば、mRNAを分解する、mRNAを翻訳する、または翻訳をサイレンシングする因子、例えば、マイクロRNAまたはsiRNAの差次的発現によって改変される場合がある。いくつかの態様では、差次的発現は、差次的活性を含む。例えば、タンパク質は、病状の一因となる、タンパク質の活性を増加させる変異、例えば構成的活性化を保有する場合がある。活性の変化を明らかにする分子プロファイリングを使用して、治療の選択をガイドすることができる。
遺伝子発現プロファイリングの方法には、ポリヌクレオチドのハイブリダイゼーション分析に基づく方法、およびポリヌクレオチドのシーケンシングに基づく方法が含まれる。試料中のmRNA発現の定量のための当技術分野において公知の通常使用される方法には、ノーザンブロッティングおよびインサイチューハイブリダイゼーション(Parker & Barnes (1999) Methods in Molecular Biology 106:247-283);RNアーゼ保護アッセイ(Hod (1992) Biotechniques 13:852-854);および逆転写ポリメラーゼ連鎖反応(RT-PCR)(Weis et al. (1992) Trends in Genetics 8:263-264)が含まれる。あるいは、DNA二重鎖、RNA二重鎖、およびDNA-RNAハイブリッド二重鎖またはDNA-タンパク質二重鎖を含む特異的二重鎖を認識することができる抗体が採用される場合がある。シーケンシングに基づく遺伝子発現分析のための代表的な方法には、遺伝子発現連続分析(Serial Analysis of Gene Expression)(SAGE)、大規模並列シグネチャシーケンシング(massively parallel signature sequencing)(MPSS)による遺伝子発現分析、および/または次世代シーケンシングが含まれる。
RT-PCR
逆転写ポリメラーゼ連鎖反応(RT-PCR)は、ポリメラーゼ連鎖反応(PCR)の変法である。この技法により、RNA鎖は、逆転写酵素という酵素を使用してそのDNA相補体(すなわち、相補的DNA、またはcDNA)に逆転写され、結果として生じたcDNAがPCRを使用して増幅される。リアルタイムポリメラーゼ連鎖反応は、定量PCR、Q-PCR、qRT-PCR、または時にRT-PCRとも称される別のPCR変法である。逆転写PCR法またはリアルタイムPCR法のいずれかを本開示に従う分子プロファイリングのために使用することができ、RT-PCRは、特に規定がない限り、または当業者によって理解されるように表すことができる。
RT-PCRは、本明細書に記載されるようなバイオマーカーのRNAレベル、例えば、mRNAまたはmiRNAレベルを決定するために使用することができる。異なる試料集団中で、正常組織および腫瘍組織において、薬物治療ありまたは薬物治療なしで、本明細書に記載されるようなバイオマーカーのそのようなRNAレベルを比較するため、遺伝子発現のパターンを特徴付けるため、近縁RNAを識別するため、およびRNA構造を分析するためにRT-PCRを使用することができる。
第1の工程は、試料からのRNA、例えば、mRNAの単離である。出発物質は、ヒト腫瘍または腫瘍細胞株、および対応する正常組織または細胞株からそれぞれ単離された総RNAであることができる。したがって、RNAを、試料、例えば、腫瘍細胞または腫瘍細胞株から単離し、健康なドナーからプールされたDNAと比較することができる。mRNAの起源が原発腫瘍である場合、mRNAは、例えば、凍結組織試料またはパラフィン包埋および固定(例えばホルマリン固定)された保存組織試料から抽出することができる。
mRNA抽出のための一般的な方法は、当技術分野において周知であり、Ausubel et al. (1997) Current Protocols of Molecular Biology, John Wiley and Sonsを含む分子生物学の標準的な教科書に開示されている。パラフィン包埋組織からRNAを抽出するための方法は、例えば、Rupp & Locker (1987) Lab Invest. 56:A67、およびDe Andres et al., BioTechniques 18:42044 (1995)に開示されている。特に、RNAの単離は、Qiagenなどの商業的製造業者からの精製キット、緩衝液セットおよびプロテアーゼを製造業者の説明書(QIAGEN Inc., Valencia, CA)に従って使用して行うことができる。例えば、Qiagen RNeasyミニカラムを使用して培養細胞からの総RNAを単離することができる。多数のRNA単離キットが市販されており、本明細書に記載されるような方法に使用することができる。
代替では、第1の工程は、標的試料からのmiRNAの単離である。出発物質は、典型的にはヒト腫瘍または腫瘍細胞株、および対応する正常組織または細胞株からそれぞれ単離された総RNAである。したがって、RNAは、健康なドナーからプールされたDNAと共に、多様な原発腫瘍または腫瘍細胞株から単離することができる。miRNAの起源が原発腫瘍である場合、miRNAは、例えば、凍結組織試料またはパラフィン包埋および固定(例えばホルマリン固定)された保存組織試料から抽出することができる。
miRNA抽出のための一般的な方法は、当技術分野において周知であり、Ausubel et al. (1997) Current Protocols of Molecular Biology, John Wiley and Sonsを含む分子生物学の標準的な教科書に開示されている。パラフィン包埋組織からRNAを抽出するための方法は、例えば、Rupp & Locker (1987) Lab Invest. 56:A67、およびDe Andres et al., BioTechniques 18:42044 (1995)に開示されている。特に、RNAの単離は、Qiagenなどの商業的製造業者からの精製キット、緩衝液セットおよびプロテアーゼを製造業者の説明書に従って使用して行うことができる。例えば、Qiagen RNeasyミニカラムを使用して培養細胞からの総RNAを単離することができる。多数のmiRNA単離キットが市販されており、本明細書に記載されるような方法に使用することができる。
RNAがmRNA、miRNAまたは他のタイプのRNAを含むかにかかわらず、RT-PCRによる遺伝子発現プロファイリングは、RNA鋳型のcDNAへの逆転写に続く、PCR反応での増幅を含むことができる。通常使用される逆転写酵素には、トリ骨髄芽球症ウイルス逆転写酵素(AMV-RT)およびモロニーマウス白血病ウイルス逆転写酵素(MMLV-RT)が含まれるが、それに限定されるわけではない。逆転写工程は、典型的には、発現プロファイリングの状況および目標に応じて、特異的プライマー、ランダムヘキサマー、またはオリゴ-dTプライマーを使用してプライミングされる。例えば、抽出されたRNAは、GeneAmp RNA PCRキット(Perkin Elmer, Calif., USA)を製造業者の説明書に従って使用して逆転写することができる。次いで、得られたcDNAを後続するPCR反応で鋳型として使用することができる。
PCR工程は、多様な熱安定性DNA依存性DNAポリメラーゼを使用することができるものの、典型的には、5'-3'ヌクレアーゼ活性を有するが、3'-5'プルーフリーディングエンドヌクレアーゼ活性を欠如するTaq DNAポリメラーゼを採用する。TaqMan PCRは、典型的には、標的アンプリコンに結合したハイブリダイゼーションプローブを加水分解するTaqまたはTthポリメラーゼの5'-ヌクレアーゼ活性を使用するが、同等の5'ヌクレアーゼ活性を有する任意の酵素を使用することができる。2つのオリゴヌクレオチドプライマーが、PCR反応に典型的なアンプリコンを生成するために使用される。第3のオリゴヌクレオチド、またはプローブが、2つのPCRプライマーの間に位置するヌクレオチド配列を検出するために設計される。プローブは、Taq DNAポリメラーゼ酵素によって伸長することができず、レポーター蛍光色素および消光剤蛍光色素で標識されている。2つの色素がプローブ上で互いにすぐ近くに位置する場合、レポーター色素からのいかなるレーザ誘起発光も消光色素によって消光される。増幅反応の途中、Taq DNAポリメラーゼ酵素は鋳型依存的にプローブを切断する。結果として生じるプローブ断片は溶液中で解離され、放出されたレポーター色素からのシグナルは、第2のフルオロフォアの消光作用から解放される。合成された新しい分子ごとに1分子のレポーター色素が遊離するため、消光されないレポーター色素を検出することで、データを定量的に解釈するための基礎が提供される。
TaqMan(商標)RT-PCRは、市販の機器、例えば、ABI PRISM 7700(商標)Sequence Detection System(商標)(Perkin-Elmer-Applied Biosystems, Foster City, Calif., USA)、またはLightCycler(Roche Molecular Biochemicals, Mannheim, Germany)などを使用して行うことができる。特定の一態様では、5'ヌクレアーゼ手順は、ABI PRISM 7700 Sequence Detection Systemなどのリアルタイム定量PCRデバイスで実行される。本システムは、サーモサイクラ、レーザ、電荷結合素子(CCD)、カメラおよびコンピュータからなる。本システムは、サーモサイクラにより96ウェル形式で試料を増幅させる。増幅の間に、光ファイバーケーブルを通してレーザ誘起蛍光シグナルが96個のウェルすべてについてリアルタイムで収集され、CCDで検出される。本システムは、機器を運転するためおよびデータを分析するためのソフトウェアを含む。
TaqManデータは、最初にCtまたは閾値サイクルとして表現される。上述のように、各サイクルの間に蛍光値が記録され、増幅反応においてその時点までに増幅された産物の量を表す。蛍光シグナルが統計的に有意と最初に記録された点が閾値サイクル(Ct)である。
誤差および試料間変動の影響を最小限にするために、RT-PCRは通常、内部標準を使用して行われる。理想的な内部標準は、異なる組織の間で一定レベルで発現され、実験処理によって影響されない。遺伝子発現のパターンを規準化するために最も頻繁に使用されるRNAは、ハウスキーピング遺伝子、グリセルアルデヒド-3リン酸-デヒドロゲナーゼ(GAPDH)およびβ-アクチンについてのmRNAである。
リアルタイム定量PCR(定量リアルタイムポリメラーゼ連鎖反応、QRT-PCRまたはQ-PCRとも)は、RT-PCR技法のより最近の変法である。Q-PCRは、二重標識蛍光発生プローブ(すなわち、TaqManプローブ)を通じてPCR産物の蓄積を測定することができる。リアルタイムPCRは、各標的配列についての内部競合物質が規準化のために使用される定量競合PCR、および試料内に含有される規準化遺伝子、またはRT-PCRのためのハウスキーピング遺伝子を使用する定量比較PCRの両方と適合性である。例えば、Held et al. (1996) Genome Research 6:986-994を参照されたい。
特にヌクレオチドバリアントが、タンパク質の一次、二次または三次構造に影響するアミノ酸置換または欠失または挿入またはフレームシフトを引き起こす場合、タンパク質ベースの検出技法もまた、分子プロファイリングに有用である。アミノ酸のバリエーションを検出するために、タンパク質シーケンシング技法が使用される場合がある。例えば、遺伝子に対応するタンパク質またはその断片は、被験個体から単離されたDNA断片を使用する組み換え発現によって合成することができる。好ましくは、決定されるべき多型座位を包含する100~150塩基対以下のcDNA断片が使用される。次いで、ペプチドのアミノ酸配列は、従来のタンパク質シーケンシング方法によって決定することができる。あるいは、HPLC-顕微鏡法タンデム質量分析技法を、アミノ酸配列バリエーションを決定するために使用することができる。この技法では、タンパク質に対してタンパク質分解消化が行われ、結果として生じるペプチド混合物が逆相クロマトグラフィー分離によって分離される。次いで、タンデム質量分析が行われ、収集されたデータが分析される。Gatlin et al., Anal. Chem., 72:757-763 (2000)を参照されたい。
マイクロアレイ
本明細書に記載されるようなバイオマーカーはまた、マイクロアレイ技法を使用して特定、確認、および/または測定することができる。したがって、発現プロファイルバイオマーカーは、マイクロアレイ技法を使用してがん試料において測定することができる。この方法では、関心対象のポリヌクレオチド配列がマイクロチップ基板上にプレート化またはアレイ化される。次いで、アレイ化された配列は、関心対象の細胞または組織からの特異的DNAプローブとハイブリダイズされる。mRNA源は、試料、例えば、ヒト腫瘍または腫瘍細胞株および対応する正常組織または細胞株から単離された総RNAであることができる。したがって、RNAは、多様な原発腫瘍または腫瘍細胞株から単離することができる。mRNA源が原発腫瘍である場合、mRNAは、例えば、凍結組織試料またはパラフィン包埋および固定(例えばホルマリン固定)保存組織試料から抽出することができ、それらは、毎日の臨床業務で日常的に調製および保存される。
バイオマーカーの発現プロファイルは、マイクロアレイ技法を使用して、新鮮もしくはパラフィン包埋腫瘍組織、または体液のいずれかにおいて測定することができる。この方法では、関心対象のポリヌクレオチド配列がマイクロチップ基板上にプレート化またはアレイ化される。次いで、アレイ化された配列は、関心対象の細胞または組織からの特異的DNAプローブとハイブリダイズされる。RT-PCR法と同様に、miRNA源は、典型的には、体液、例えば血清、尿、涙液およびエキソソームを含むヒト腫瘍または腫瘍細胞株および対応する正常組織または細胞株から単離された総RNAである。したがって、RNAは、多様な供給源から単離することができる。miRNA源が原発腫瘍である場合、miRNAは、例えば、凍結組織試料から抽出することができ、それらは、毎日の臨床業務で日常的に調製および保存される。
バイオチップ、DNAチップ、または遺伝子アレイとしても公知である、cDNAマイクロアレイ技法は、生体試料中の遺伝子発現レベルの特定を可能にする。各々所与の遺伝子を表すcDNAまたはオリゴヌクレオチドは、基板、例えば、小さなチップ、ビーズまたはナイロンメンブラン上に固定化され、タグ付けされ、それらが関心対象の生体試料中に発現されるかどうかを示すプローブとして役立つ。数千種の遺伝子の同時発現を同時にモニタリングすることができる。
マイクロアレイ技法の特定の態様では、cDNAクローンのPCR増幅された挿入物が、高密度アレイの状態で基板に適用される。一局面では、少なくとも100、200、300、400、500、600、700、800、900、1,000、1,500、2,000、3000、4000、5000、6000、7000、8000、9000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000または少なくとも50,000個のヌクレオチド配列が基板に適用される。各配列は、異なる遺伝子に対応することができ、または1つの遺伝子あたり複数の配列をアレイ化することができる。マイクロチップ上に固定化されたマイクロアレイ化遺伝子は、ストリンジェントな条件下のハイブリダイゼーションに適する。関心対象の組織から抽出されたRNAの逆転写による蛍光ヌクレオチドの組み込みを通じて蛍光標識cDNAプローブが生成される場合がある。チップに適用された標識cDNAプローブは、アレイ上のDNAの各スポットに特異的にハイブリダイズする。非特異的に結合したプローブを除去するためのストリンジェントな洗浄後、共焦点レーザ顕微鏡法によって、またはCCDカメラなどの別の検出方法によって、チップがスキャンされる。アレイ化された各要素のハイブリダイゼーションの定量は、対応するmRNA存在度を調べることを可能にする。2つのRNA源から生成され、二色蛍光で別々に標識されたcDNAプローブが、対にしてアレイにハイブリダイズされる。したがって、各特定遺伝子に対応する2つの供給源からの転写物の相対存在度が、同時に決定される。小型化スケールのハイブリダイゼーションは、多数の遺伝子についての発現パターンの好都合で迅速な評価を与える。そのような方法は、細胞1つあたり数コピーで発現される稀少な転写物を検出するために、および発現レベルの少なくともおよそ2倍の差異を再現性よく検出するために必要な感度を有することが示されている(Schena et al. (1996) Proc. Natl. Acad. Sci. USA 93(2):106-149)。マイクロアレイ分析は、Affymetrix GeneChip技法(Affymetrix, Santa Clara, CA)、Agilent(Agilent Technologies, Inc., Santa Clara, CA)、またはIllumina(Illumina, Inc., San Diego, CA)マイクロアレイ技法を含むが、それに限定されるわけではない製造業者のプロトコールに従って、市販の機器により行うことができる。
遺伝子発現の大規模分析のためのマイクロアレイ方法の開発は、多様な腫瘍タイプにおけるがんの分類およびアウトカム予測の分子マーカーを系統的に検索することを可能にする。
いくつかの態様では、Agilent Whole Human Genome Microarray Kit(Agilent Technologies, Inc., Santa Clara, CA)。本システムは、すべてがパブリックドメインアノテーションで表示される41,000個よりも多い固有のヒト遺伝子および転写物を分析することができる。本システムは、製造業者の説明書に従って使用される。
いくつかの態様では、Illumina Whole Genome DASLアッセイ(Illumina Inc., San Diego, CA)が使用される。本システムは、新鮮凍結(FF)およびホルマリン固定パラフィン包埋(FFPE)組織源の両方からの最小のRNAインプットから24,000個を超える転写物を高スループット様式で同時プロファイリングするための方法を与える。
マイクロアレイ発現分析は、遺伝子または遺伝子産物が基準と比べてアップレギュレーションされるかまたはダウンレギュレーションされるかを特定することを含む。特定は、観察された任意の差次的発現の統計的有意性を決定するための統計検定を使用して行うことができる。いくつかの態様では、統計的有意性は、パラメトリック統計検定を使用して決定される。パラメトリック統計検定は、例えば、一部実施要因計画、分散分析(ANOVA)、t検定、最小二乗法、ピアソン相関、線形単回帰、非線形回帰、多重線形回帰、または多重非線形回帰を含むことができる。あるいは、パラメトリック統計検定は、一元配置分散分析、二元配置分散分析、または反復測定分散分析を含むことができる。他の態様では、統計的有意性は、ノンパラメトリック統計検定を使用して決定される。例には、ウィルコクソン符号順位検定、マン-ホイットニー検定、クラスカル-ワリス検定、フリードマン検定、スピアマンの順位相関係数、ケンドールのタウ解析、およびノンパラメトリック回帰検定が含まれるが、それに限定されるわけではない。いくつかの態様では、統計的有意性は、約0.05、0.01、0.005、0.001、0.0005、または0.0001未満のp値で決定される。本明細書に記載されるような方法に使用されるマイクロアレイシステムが数千の転写物をアッセイする場合があるものの、データ分析は関心対象の転写物にだけ行う必要があり、それにより、複数の統計検定を行う際に特有の多重比較の問題が低減される。p値はまた、例えば、ボンフェローニ補正、その変法、または当業者に公知の他の技法、例えば、ホッホベルク補正、ホルム-ボンフェローニ補正、シダック補正、またはダネット補正を用いて、多重比較について補正することができる。差次的発現の程度もまた、考慮することができる。例えば、対照レベルと比較した発現の変化倍率が、対照に対して試料で少なくとも1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.2、2.5、2.7、3.0、4、5、6、7、8、9または10倍異なる場合、遺伝子が差次的に発現されていると見なすことができる。差次的発現は、過剰発現および過小発現の両方を考慮する。差次的発現が統計的閾値、変化倍率閾値、または両方を満たす場合、遺伝子または遺伝子産物はアップレギュレーションまたはダウンレギュレーションされていると見なすことができる。例えば、差次的発現を特定するための基準は、0.001のp値および少なくとも1.5倍(上または下)の変化倍率の両方を含むことができる。当業者は、そのような統計的尺度および閾値尺度を適応して、本明細書に開示される任意の分子プロファイリング技法によって差次的発現を決定することができることを理解するであろう。
本明細書に記載されるような様々な方法が、試料中の生物学的エンティティの存在および潜在的にその量を検出する多くのタイプのマイクロアレイを利用する。アレイは、典型的には、試料中のエンティティの存在を、例えば結合事象により検出することができる、アドレスで参照できる部分を含有する。マイクロアレイには、DNAマイクロアレイ、例えばcDNAマイクロアレイ、オリゴヌクレオチドマイクロアレイおよびSNPマイクロアレイ、マイクロRNAアレイ、タンパク質マイクロアレイ、抗体マイクロアレイ、組織マイクロアレイ、細胞マイクロアレイ(トランスフェクションマイクロアレイとも呼ばれる)、化学化合物マイクロアレイ、および糖質アレイ(グリコアレイ)が含まれるが、それに限定されるわけではない。DNAアレイは、典型的には、試料中に存在する配列に結合することができる、アドレスで参照できるヌクレオチド配列を含む。マイクロRNAアレイ、例えば、ルイビル大学からのMMChipsアレイまたはAgilentからの市販のシステムを使用してマイクロRNAを検出することができる。タンパク質マイクロアレイを使用して、タンパク質キナーゼの基質、転写因子タンパク質活性化を特定することを含むが、それに限定されるわけではないタンパク質-タンパク質相互作用を特定すること、または生物学的に活性な小分子の標的を特定することができる。タンパク質アレイは、異なるタンパク質分子、一般に抗体、または関心対象のタンパク質に結合するヌクレオチド配列のアレイを含む場合がある。抗体マイクロアレイは、試料、例えば、細胞または組織溶解液からタンパク質または他の生体物質を検出するための捕捉分子として使用されるタンパク質チップ上にスポットされた抗体を含む。例えば、抗体アレイを使用して、診断用途のために体液、例えば、血清または尿からバイオマーカーを検出することができる。組織マイクロアレイは、マルチプレックス組織分析を可能にするためにアレイ様式で集合された別々の組織コアを含む。トランスフェクションマイクロアレイとも呼ばれる細胞マイクロアレイは、細胞と相互作用してアドレスで参照できる位置で捕捉することを容易にする、抗体、タンパク質、または脂質などの様々な捕捉剤を含む。化学化合物マイクロアレイは、化学化合物のアレイを含み、それを使用して、化合物と結合するタンパク質または他の生体物質を検出することができる。糖質アレイ(グリコアレイ)は、糖質のアレイを含み、例えば、糖部分と結合するタンパク質を検出することができる。当業者は、類似の技法または改善を本明細書に記載されるような方法に従って使用できることを認識しているであろう。
本方法のある特定の態様は、多重の増幅反応およびいくつかの態様では検出が典型的には並行して行われるマルチウェルプレートまたはマルチチャンバーマイクロ流体装置を含むが、それに限定されるわけではないマルチウェル反応容器を含む。ある特定の態様では、アンプリコンを生成するための1つまたは複数のマルチプレックス反応は、96ウェル、384ウェル、1536ウェルプレートなどのマルチウェルプレート;またはマイクロ流体装置、例えば非限定的にTaqMan(商標)低密度アレイ(Applied Biosystems, Foster City, CA)を含むが、それに限定されるわけではない同じ反応容器中で行われる。いくつかの態様では、超並列増幅工程は、複数の反応ウェルを含むプレート、例えば非限定的に24ウェルプレート、96ウェルプレート、384ウェルプレート、もしくは1536ウェルプレートを含むマルチウェル反応容器;またはマルチチャンバーマイクロ流体装置、例えば非限定的に低密度アレイを含み、その際、各チャンバーまたはウェルは、適宜、適切なプライマー、プライマーセット、および/またはレポータープローブを含む。典型的にはそのような増幅工程は、一連の並行シングルプレックス、2-プレックス、3-プレックス、4-プレックス、5-プレックス、または6-プレックス反応で起こるが、より高いレベルの並行マルチプレックス化もまた、本教示の意図される範囲内である。これらの方法は、関心対象の核酸分子を増幅および/または検出するためのウェルまたはチャンバーの各々におけるPCR方法論、例えばRT-PCRを含むことができる。
低密度アレイは、数千種の分子とは対照的に数十または数百種の分子を検出するアレイを含むことができる。これらのアレイは、高密度アレイよりも高感度であることができる。ある態様では、WO2018175501の表5~12のいずれかにおける1つまたは複数の遺伝子または遺伝子産物を検出するために、TaqMan(商標)低密度アレイなどの低密度アレイが使用される。例えば、低密度アレイを使用して、WO2018175501の表5~12のいずれかより選択される少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90または100個の遺伝子または遺伝子産物を検出することができる。
いくつかの態様では、開示された方法は、マイクロ流体デバイス、「ラボオンチップ(lab on a chip)」、またはマイクロトータル分析システム(pTAS)を含む。いくつかの態様では、試料の調製は、マイクロ流体デバイスを使用して行われる。いくつかの態様では、増幅反応は、マイクロ流体デバイスを使用して行われる。いくつかの態様では、シーケンシングまたはPCR反応は、マイクロ流体デバイスを使用して行われる。いくつかの態様では、増幅産物の少なくとも一部のヌクレオチド配列は、マイクロ流体デバイスを使用して得られる。いくつかの態様では、検出する工程は、TaqMan(商標)低密度アレイなどの低密度アレイを含むが、それに限定されるわけではないマイクロ流体デバイスを含む。例示的なマイクロ流体デバイスの説明は、とりわけ、公開PCT出願番号WO/0185341およびWO04/011666; Kartalov and Quake, Nucl. Acids Res. 32:2873-79, 2004;およびFiorini and Chiu, Bio Techniques 38:429-46, 2005に見出すことができる。
任意の適切なマイクロ流体デバイスを本明細書に記載されるような方法に使用することができる。分子プロファイリングに使用されるまたはそれとの使用のために適合される場合があるマイクロ流体デバイスの例には、米国特許第7,591,936号、同第7,581,429号、同第7,579,136号、同第7,575,722号、同第7,568,399号、同第7,552,741号、同第7,544,506号、同第7,541,578号、同第7,518,726号、同第7,488,596号、同第7,485,214号、同第7,467,928号、同第7,452,713号、同第7,452,509号、同第7,449,096号、同第7,431,887号、同第7,422,725号、同第7,422,669号、同第7,419,822号、同第7,419,639号、同第7,413,709号、同第7,411,184号、同第7,402,229号、同第7,390,463号、同第7,381,471号、同第7,357,864号、同第7,351,592号、同第7,351,380号、同第7,338,637号、同第7,329,391号、同第7,323,140号、同第7,261,824号、同第7,258,837号、同第7,253,003号、同第7,238,324号、同第7,238,255号、同第7,233,865号、同第7,229,538号、同第7,201,881号、同第7,195,986号、同第7,189,581号、同第7,189,580号、同第7,189,368号、同第7,141,978号、同第7,138,062号、同第7,135,147号、同第7,125,711号、同第7,118,910号、同第7,118,661号、同第7,640,947号、同第7,666,361号、同第7,704,735号;米国特許出願公開第20060035243号;および国際特許公開WO2010/072410に記載されるものが含まれるが、それに限定されるわけではなく、これらの特許または出願の各々は、その全体で参照により本明細書に組み入れられる。本明細書に開示される方法との使用のための別の例は、Chen et al., "Microfluidic isolation and transcriptome analysis of serum vesicles," Lab on a Chip, Dec. 8, 2009 DOI: 10.1039/b916199fに記載されている。
大規模並列シグネチャシーケンシング(MPSS)による遺伝子発現分析
Brenner et al. (2000) Nature Biotechnology 18:630-634によって記載されたこの方法は、非ゲルベースのシグネチャシーケンシングを、別々のマイクロビーズ上での数百万の鋳型のインビトロクローニングと組み合わせたシーケンシング手法である。最初に、DNA鋳型のマイクロビーズライブラリがインビトロクローニングによって構築される。これに続いて、フローセル中で鋳型含有マイクロビーズの平面アレイを高密度で組み立てる。各マイクロビーズ上のクローニングされた鋳型の遊離端が、DNA断片の分離を必要としない蛍光ベースのシグネチャシーケンシング法を用いて同時分析される。この方法は、1回の作業でcDNAライブラリから数十万の遺伝子シグネチャ配列を同時にかつ正確に提供することが示されている。
MPSSデータは、多くの用途を有する。ほぼすべての転写物の発現レベルを定量決定することができ;シグネチャの存在度は、分析された組織中の遺伝子の発現レベルを表す。タグの頻度の分析のため、およびライブラリ間の差異の検出のための定量法は公表されており、SAGE(商標)データについての公的データベースに組み込まれており、MPSSデータに適用可能である。完全ゲノム配列が利用可能性であることによって、シグネチャとゲノム配列との直接比較が可能となり、MPSSデータの有用性がさらに広がる。MPSS分析のための標的は(マイクロアレイのように)予め選択されないため、MPSSデータは、トランスクリプトームの完全複雑性を特徴付けることができる。これは、数百万のESTを一度にシーケンシングすることに類似し、MPSSシグネチャ源が計算手段によって容易に特定できるようにゲノム配列データを使用することができる。
遺伝子発現連続分析(SAGE)
遺伝子発現連続分析(SAGE)は、各転写物について個別のハイブリダイゼーションプローブを提供する必要なしに、多数の遺伝子転写物の同時定量分析を可能にする方法である。最初に、タグが各転写物内の固有の位置から得られるという条件で、転写物を一意的に特定するために十分な情報を含有する短い配列タグ(例えば、約10~14bp)が生成される。次いで、多数の転写物が一緒に連結されて、長い連続分子が形成され、これらの分子をシーケンシングすることができ、複数のタグの同一性を同時に明らかにする。転写物の任意の集団の発現パターンは、個別のタグの存在度を決定し、各タグに対応する遺伝子を特定することによって定量的に評価することができる。例えば Velculescu et al. (1995) Science 270:484-487;およびVelculescu et al. (1997) Cell 88:243-51を参照されたい。
DNAコピー数プロファイリング
本明細書に記載されるようなバイオマーカーにおけるコピー数多型を特定するために解像度が十分であるかぎり、特定の試料のDNAコピー数プロファイルを決定することができる任意の方法を、本明細書に記載される方法に従う分子プロファイリングのために使用することができる。当業者は、本明細書に記載される方法の1つまたは複数のバイオマーカーのコピー数を特定するために十分な解像度で全ゲノムコピー数変化を調べるためにいくつかの異なるプラットフォームを使用することを認識しており、それを使用することができる。プラットフォームおよび技法のいくつかは、下記の態様に記載されている。本明細書に記載されるようないくつかの態様では、本明細書に記載されるような、または当技術分野において公知の次世代シーケンシングまたはISH技法が、コピー数/遺伝子増幅を決定するために使用される。
いくつかの態様では、コピー数プロファイル分析は、全ゲノム増幅法による全ゲノムDNAの増幅を伴う。全ゲノム増幅法は、鎖置換ポリメラーゼおよびランダムプライマーを使用することができる。
これらの態様のいくつかの局面では、コピー数プロファイル分析は、高密度アレイを用いた全ゲノム増幅DNAのハイブリダイゼーションを伴う。より特定の局面では、高密度アレイは、5,000個またはそれ以上の異なるプローブを有する。別の特定の局面では、高密度アレイは、5,000、10,000、20,000、50,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、もしくは1,000,000個またはそれ以上の異なるプローブを有する。別の特定の局面では、アレイ上の異なるプローブの各々は、約15~200塩基長を有するオリゴヌクレオチドである。別の特定の局面では、アレイ上の異なるプローブの各々は、約15~200、15~150、15~100、15~75、15~60、または20~55塩基長を有するオリゴヌクレオチドである。
いくつかの態様では、マイクロアレイは、試料、例えば、腫瘍からの細胞についてコピー数プロファイルを決定することを助けるために採用される。マイクロアレイは、典型的には、基板(例えば、ガラス支持体)上にアレイパターンで合成または沈着された複数のオリゴマー(例えば、DNAもしくはRNAポリヌクレオチドもしくはオリゴヌクレオチド、または他のポリマー)を含む。支持体に結合したオリゴマーは、ハイブリダイゼーション実験において試料物質(例えば、腫瘍試料から調製されたまたは得られた核酸)とハイブリダイズまたは結合するように機能する「プローブ」である。試料が、マイクロアレイ基板に結合させることができ、オリゴマープローブが、ハイブリダイゼーションのための溶液中にある、逆の状況もまた適用することができる。使用では、アレイ表面は、プローブの1つまたは複数への標的の特異的高親和性結合を促進する条件下で1つまたは複数の標的と接触される。いくつかの構成では、試料核酸が蛍光タグなどの検出可能な標識で標識されることにより、ハイブリダイズされた試料およびプローブが、スキャン機器を用いて検出可能である。DNAアレイ技法は、多数(例えば、数十万)の異なるオリゴヌクレオチドを使用してDNAコピー数プロファイルを分析する潜在性を提供する。いくつかの態様では、アレイのために使用される基板は、表面誘導体化ガラスもしくはシリカ、またはポリマーメンブラン表面である(例えば、Z. Guo, et al., Nucleic Acids Res, 22, 5456-65 (1994); U. Maskos, E. M. Southern, Nucleic Acids Res, 20, 1679-84 (1992)、およびE. M. Southern, et al., Nucleic Acids Res, 22, 1368-73 (1994)を参照されたく、これらの各々は、参照により本明細書に組み入れられる)。アレイ基板表面の修飾は、多くの技法により達成することができる。例えば、ケイ酸含有表面または金属酸化物表面を二官能性シラン、すなわち、表面との共有結合を可能にする第1の官能基(例えば、それぞれ--SiCl3または--Si(OCH3)3に見られるようなSi-ハロゲンまたはSi-アルコキシ基)と、表面に所望の化学的および/または物理的修飾を与えることができる第2の官能基とを有するシランで誘導体化して、生物学的プローブアレイ用のリガンドおよび/またはポリマーもしくはモノマーを共有結合的または非共有結合的に結びつけることができる。シリル化誘導体化および他の表面誘導体化(例えば、Sundbergに対する米国特許第5,624,711号、Willisに対する米国特許第5,266,222号、およびFarnsworthに対する米国特許第5,137,765号を参照されたく、これらの各々は、参照により本明細書に組み入れられる)が当技術分野において公知である。アレイを調製するための他のプロセスは、インサイチュー合成法により生み出されたDNAアレイを開示しているAgilent Corp.に譲渡されたBassらに対する米国特許第6,649,348号に記載されている。
ポリマーアレイ合成もまた、以下を含む文献中に広く記載されている:国際公開公報第00/58516号、米国特許第5,143,854号、同第5,242,974号、同第5,252,743号、同第5,324,633号、同第5,384,261号、同第5,405,783号、同第5,424,186号、同第5,451,683号、同第5,482,867号、同第5,491,074号、同第5,527,681号、同第5,550,215号、同第5,571,639号、同第5,578,832号、同第5,593,839号、同第5,599,695号、同第5,624,711号、同第5,631,734号、同第5,795,716号、同第5,831,070号、同第5,837,832号、同第5,856,101号、同第5,858,659号、同第5,936,324号、同第5,968,740号、同第5,974,164号、同第5,981,185号、同第5,981,956号、同第6,025,601号、同第6,033,860号、同第6,040,193号、同第6,090,555号、同第6,136,269号、同第6,269,846号および同第6,428,752号、同第5,412,087号、同第6,147,205号、同第6,262,216号、同第6,310,189号、同第5,889,165号、および同第5,959,098号、PCT出願番号PCT/US99/00730(国際公報番号WO99/36760)およびPCT/US01/04285(国際公報番号WO01/58593)、これらはすべて、すべての目的のためその全体で参照により本明細書に組み入れられる。
本開示に有用な核酸アレイには、Affymetrix(Santa Clara, Calif.)からGeneChip(商標)の商品名で市販されているものが含まれるが、それに限定されるわけではない。アレイの例は、affymetrix.comのウェブサイトに示されている。別のマイクロアレイ供給業者は、San Diego, Calif.のIllumina, Inc.であり、アレイの例は、illumina.comのウェブサイトに示されている。
いくつかの態様では、本発明の方法は、試料の調製を提供する。マイクロアレイおよび行われるべき実験に応じて、試料核酸は、当業者に公知の方法によっていくつかのやり方で調製することができる。本明細書に記載されるようないくつかの局面では、遺伝子型決定(コピー数プロファイルの分析)の前またはそれと同時に、試料は、いくつものメカニズムで増幅される場合がある。使用される最も一般的な増幅手順はPCRを伴う。例えば、PCR Technology: Principles and Applications for DNA Amplification (Ed. H. A. Erlich, Freeman Press, NY, N.Y., 1992); PCR Protocols: A Guide to Methods and Applications (Eds. Innis, et al., Academic Press, San Diego, Calif., 1990); Mattila et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods and Applications 1, 17 (1991); PCR (Eds. McPherson et al., IRL Press, Oxford);ならびに米国特許第4,683,202号、同第4,683,195号、同第4,800,159号、同第4,965,188号、および同第5,333,675号を参照されたく、これらの各々は、すべての目的のためその全体で参照により本明細書に組み入れられる。いくつかの態様では、試料は、アレイ上で増幅される場合がある(例えば、参照により本明細書に組み入れられる米国特許第6,300,070号)。
他の適切な増幅法には、リガーゼ連鎖反応(LCR)(例えば、Wu and Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988)およびBarringer et al. Gene 89:117 (1990))、転写増幅(Kwoh et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989)およびWO88/10315)、自家持続配列複製法(Guatelli et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990)およびWO90/06995)、標的ポリヌクレオチド配列の選択増幅(米国特許第6,410,276号)、コンセンサス配列プライムドポリメラーゼ連鎖反応(CP-PCR)(米国特許第4,437,975号)、任意プライムドポリメラーゼ連鎖反応(AP-PCR)(米国特許第5,413,909号、同第5,861,245号)および核酸ベースの配列増幅法(NABSA)(米国特許第5,409,818号、同第5,554,517号、および同第6,063,603号を参照されたく、これらの各々は、参照により本明細書に組み入れられる)が含まれる。使用され得る他の増幅法は、米国特許第5,242,794号、同第5,494,810号、同第4,988,617号および米国特許出願第09/854,317号に記載されており、これらの各々は、参照により本明細書に組み入れられる。
試料調製の追加的な方法および核酸試料の複雑さを低減するための技法は、Dong et al., Genome Research 11, 1418 (2001)、米国特許第6,361,947号、同第6,391,592号ならびに米国特許出願第09/916,135号、同第09/920,491号(米国特許出願公開第20030096235号)、同第09/910,292号(米国特許出願公開第20030082543号)、および同第10/013,598号に記載されている。
ポリヌクレオチドハイブリダイゼーションアッセイを行うための方法は、当技術分野において十分に開発されている。本明細書に記載されるような方法に使用されるハイブリダイゼーションアッセイの手順および条件は、用途に応じて変動し、Maniatis et al. Molecular Cloning: A Laboratory Manual (2.sup.nd Ed. Cold Spring Harbor, N.Y., 1989); Berger and Kimmel Methods in Enzymology, Vol. 152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young and Davism, P.N.A.S, 80: 1194 (1983)に言及された方法を含む公知の一般的結合法に従って選択される。繰り返しおよび制御されたハイブリダイゼーション反応を実施するための方法および装置は、米国特許第5,871,928号、同第5,874,219号、同第6,045,996号、および同第6,386,749号、同第6,391,623号に記載されており、これらの各々は、参照により本明細書に組み入れられる。
本明細書に記載されるような方法はまた、ハイブリダイゼーション後(および/または途中)のリガンド間のハイブリダイゼーションのシグナル検出を伴う場合がある。米国特許第5,143,854号、同第5,578,832号;同第5,631,734号;同第5,834,758号;同第5,936,324号;同第5,981,956号;同第6,025,601号;同第6,141,096号;同第6,185,030号;同第6,201,639号;同第6,218,803号;および同第6,225,625号、米国特許出願第10/389,194号、およびPCT出願PCT/US99/06097(WO99/47964として公開)を参照されたく、これらの各々もまた、すべての目的のためその全体で参照により本明細書に組み入れられる。
シグナル検出および強度データの処理のための方法および装置は、例えば、米国特許第5,143,854号、同第5,547,839号、同第5,578,832号、同第5,631,734号、同第5,800,992号、同第5,834,758号;同第5,856,092号、同第5,902,723号、同第5,936,324号、同第5,981,956号、同第6,025,601号、同第6,090,555号、同第6,141,096号、同第6,185,030号、同第6,201,639号;同第6,218,803号;および同第6,225,625号、米国特許出願第10/389,194号、同第60/493,495号およびPCT出願PCT/US99/06097(WO99/47964として公開)に開示されており、これらの各々もまた、すべての目的のためその全体で参照により本明細書に組み入れられる。
免疫ベースのアッセイ
タンパク質ベースの検出の分子プロファイリング技法は、本方法に従う変異遺伝子によりコードされるタンパク質と選択的に免疫反応性の抗体に基づく免疫親和性アッセイを含む。これらの技法には、免疫沈降、ウエスタンブロット分析、分子結合アッセイ、酵素結合免疫吸着アッセイ(ELISA)、酵素結合免疫濾過アッセイ(ELIFA)、蛍光活性化細胞分取(FACS)などが含まれるが、それに限定されるわけではない。例えば、試料中のバイオマーカーの発現を検出する任意の方法は、試料を、バイオマーカーに対する抗体、またはその抗体の免疫反応性断片、またはバイオマーカーに対する抗体の抗原結合領域を含有する組み換えタンパク質と接触させる工程;および次いで、試料中のバイオマーカーの結合を検出する工程を含む。そのような抗体を産生するための方法は、当技術分野において公知である。抗体を使用して、溶液試料から特定のタンパク質を免疫沈降させる、または例えば、ポリアクリルアミドゲルによって分離されたタンパク質を免疫ブロットすることができる。組織または細胞中の特定のタンパク質多型の検出に、免疫細胞化学法も使用することができる。例えば、モノクローナルまたはポリクローナル抗体を使用するサンドイッチアッセイを含む、ELISA、ラジオイムノアッセイ(RIA)、免疫放射定量アッセイ(IRMA)および免疫酵素アッセイ(IEMA)を含む、他の周知の抗体ベースの技法もまた使用することができる。例えば、米国特許第4,376,110号および同第4,486,530号を参照されたく、これらの両方は、参照により本明細書に組み入れられる。
代替的な方法では、試料は、バイオマーカーに特異的な抗体と、抗体-バイオマーカー複合体が形成するために十分な条件下で接触され、次いで複合体が検出される場合がある。バイオマーカーの存在は、いくつかの方法で、例えば、血漿または血清を含む、多種多様な組織および試料をアッセイするためのウエスタンブロッティングおよびELISA手順により検出される場合がある。そのようなアッセイ形式を使用する幅広いイムノアッセイ技法が利用可能である。例えば、米国特許第4,016,043号、同第4,424,279号および同第4,018,653号を参照されたい。これらには、従来の競合結合アッセイのみならず、非競合タイプの単一部位および2部位または「サンドイッチ」アッセイの両方が含まれる。これらのアッセイにはまた、標的バイオマーカーへの標識抗体の直接結合が含まれる。
サンドイッチアッセイ技法のいくつかの変法が存在し、すべてが本方法によって包含されると意図される。簡潔には、典型的なフォワードアッセイでは、非標識抗体が固体基板上に固定化され、被験試料が、結合した分子と接触される。抗体-抗原複合体を形成させるために十分な期間の、適切なインキュベーション期間の後、次いで、検出可能なシグナルを産生することができるレポーター分子で標識された、抗原に特異的な第2の抗体が添加され、インキュベートされ、抗体-抗原-標識抗体の別の複合体の形成に十分な時間をあてる。あらゆる未反応物質を洗浄除去し、レポーター分子によって産生されるシグナルの観察によって抗原の存在を決定する。結果は、可視シグナルの単純な観察により定性的な場合、または公知の量のバイオマーカーを含有する対照試料と比較することによって定量される場合のいずれかがある。
フォワードアッセイの変法は、結合した抗体に試料および標識抗体の両方が同時に添加される同時アッセイを含む。これらの技法は、容易に明らかであろう任意の小さな変法を含めて、当業者に周知である。典型的なフォワードサンドイッチアッセイでは、バイオマーカーに対して特異性を有する第1の抗体が、固体表面に共有結合的または受動的のいずれかで結合される。固体表面は、典型的にはガラスまたはポリマーであり、最も通常使用されるポリマーは、セルロース、ポリアクリルアミド、ナイロン、ポリスチレン、ポリ塩化ビニルまたはポリプロピレンである。固体支持体は、チューブ、ビーズ、マイクロプレートのディスク、またはイムノアッセイを行うために適した任意の他の表面の形態であり得る。結合プロセスは、当技術分野において周知であり、一般的に、架橋させる工程、共有結合させる工程または物理的に吸着させる工程からなり、試験試料の調製においてポリマー-抗体複合体が洗浄される。次いで、被験試料のアリコートが固相複合体に添加され、抗体中に存在する任意のサブユニットを結合させるために十分な期間(例えば、2~40分またはより好都合ならば一晩)、適切な条件下で(例えば室温~40℃、例えば25℃から32℃の間(両端の値を含む))インキュベートされる。インキュベーション期間に続き、抗体サブユニット固相が洗浄され、乾燥され、バイオマーカーの一部分に特異的な第2の抗体と共にインキュベートされる。第2の抗体は、第2の抗体の分子マーカーとの結合を示すために使用されるレポーター分子に連結される。
代替法は、試料中の標的バイオマーカーを固定化し、次いで、固定化された標的を、レポーター分子で標識された場合または標識されていない場合がある特異的抗体に曝露する工程を伴う。標的の量およびレポーター分子のシグナル強度に応じて、結合した標的は、抗体を用いた直接標識によって検出可能であり得る。あるいは、第1の抗体に特異的な第2の標識抗体が、標的-第1の抗体複合体に曝露されて、標的-第1の抗体-第2の抗体の三元複合体を形成する。この複合体は、レポーター分子によって発されるシグナルによって検出される。本明細書に使用される場合の「レポーター分子」によって、抗原と結合した抗体を検出可能にする分析的に特定可能なシグナルをその化学的性質により提供する分子が意味される。このタイプのアッセイで最も通常使用されるレポーター分子は、酵素、フルオロフォアまたは放射性核種含有分子(すなわち放射性同位元素)のいずれかおよび化学発光分子である。
酵素イムノアッセイの場合、酵素は、一般的にグルタルアルデヒドまたは過ヨウ素酸塩により、第2の抗体にコンジュゲートされる。しかし、容易に認識されるように、当業者に容易に利用可能な多種多様の異なるコンジュゲーション技法が存在する。通常使用される酵素には、とりわけ、ホースラディッシュペルオキシダーゼ、グルコースオキシダーゼ、β-ガラクトシダーゼおよびアルカリホスファターゼが含まれる。特異的酵素とともに使用されるべき基質は、一般的に、対応する酵素による加水分解時の、検出可能な色変化の産生について選ばれる。適切な酵素の例には、アルカリホスファターゼおよびペルオキシダーゼが含まれる。上述の発色基質ではなく、蛍光産物を産出する蛍光発生基質を採用することも可能である。いかなる場合でも、酵素標識抗体が第1の抗体-分子マーカー複合体に添加され、結合され、次いで過剰の試薬が洗浄除去される。次いで、適切な基質を含有する溶液が抗体-抗原-抗体複合体に添加される。基質は、第2の抗体に連結した酵素と反応し、定性的可視シグナルを与え、そのシグナルはさらに、通例、分光光度的に定量されて、試料中に存在したバイオマーカーの量の指標を与える場合がある。あるいは、フルオレセインおよびローダミンなどの蛍光化合物が、抗体の結合能を変更せずに抗体に化学的にカップリングされる場合がある。特定波長の光の照明によって活性化された場合、蛍光色素標識抗体は光エネルギーを吸収し、分子に励起状態を誘導し、続いて光学顕微鏡で可視的に検出可能な、特徴的な色の光を放出する。EIAと同様に、蛍光標識抗体は、第1の抗体-分子マーカー複合体に結合させられる。次いで、未結合の試薬を洗浄除去後、残りの三元複合体を適切な波長の光に曝露し、観察された蛍光は関心対象の分子マーカーの存在を示す。免疫蛍光およびEIA技法は、共に、当技術分野において非常に十分に確立されている。しかし、放射性同位元素、化学発光または生物発光分子などの他のレポーター分子もまた、採用される場合がある。
免疫組織化学(IHC)
IHCは、組織中の抗原に特異的に結合する抗体を用いて、組織の細胞中の抗原(例えばタンパク質)の位置を特定するプロセスである。抗原結合性抗体は、その検出を例えば可視化により可能にするタグにコンジュゲートまたは融合することができる。いくつかの態様では、タグは、発色反応を触媒することができるアルカリホスファターゼまたはホースラディッシュペルオキシダーゼなどの酵素である。酵素は、抗体に融合する、または例えばビオチン-アビジンシステムを使用して非共有結合することができる。あるいは、抗体は、フルオレセイン、ローダミン、DyLight FluorまたはAlexa Fluorなどのフルオロフォアでタグ付けすることができる。抗原結合性抗体は、直接タグ付けすることができ、またはタグを保有する検出抗体が抗原結合性抗体自体を認識できる。IHCを使用して、1つまたは複数のタンパク質が検出される場合がある。遺伝子産物の発現は、対照レベルと比較したその染色強度に関係することができる。いくつかの態様では、その染色が対照と比べて試料で、少なくとも1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.2、2.5、2.7、3.0、4、5、6、7、8、9または10倍変動する場合、遺伝子産物は差次的に発現されると見なされる。
IHCは、組織化学技法への抗原-抗体相互作用の適用を含む。説明となる例では、組織切片がスライド上にマウントされ、抗原に特異的な抗体(ポリクローナルまたはモノクローナル)と共にインキュベートされる(一次反応)。次いで、抗原-抗体シグナルは、ペルオキシダーゼ抗ペルオキシダーゼ(PAP)、アビジン-ビオチン-ペルオキシダーゼ(ABC)またはアビジン-ビオチンアルカリホスファターゼの複合体にコンジュゲートした第2の抗体を使用して増幅される。基質および色素原の存在下で、酵素は抗体-抗原結合部位で有色の沈着物を形成する。免疫蛍光は、抗原を可視化する代替的な手法である。この技法では、一次抗原-抗体シグナルは、蛍光色素にコンジュゲートした第2の抗体を使用して増幅される。UV光が吸収されると、蛍光色素はそれ自体、より長い波長の光(蛍光)を放出し、したがって抗体-抗原複合体の位置を特定できるようになる。
エピジェネティックな状態
本開示による分子プロファイリング法はまた、エピジェネティックな変化、すなわち、エピジェネティックなメカニズムによって起こった遺伝子修飾、例えばメチル化状態またはヒストンアセチル化の変化を測定する工程を含む。頻繁に、エピジェネティックな変化は、エピジェネティックな変化の指標として(適宜RNAまたはタンパク質レベルで)検出され得る遺伝子の発現レベルにおける変更を結果として生じる。しばしば、エピジェネティックな変化は、「エピジェネティックなサイレンシング」と称される遺伝子のサイレンシングまたはダウンレギュレーションを結果として生じる。本明細書に記載されるような方法で最も頻繁に調査されるエピジェネティックな変化は、増加したメチル化レベルが典型的には関連がんに関連する、遺伝子のDNAメチル化状態を決定することを伴う(それが遺伝子発現のダウンレギュレーションを引き起こす場合があることから)。1つまたは複数の遺伝子の、過剰メチル化と称される場合がある異常メチル化を検出することができる。典型的には、メチル化状態は、遺伝子のプロモーター領域にしばしば見出される適切なCpGアイランド中で決定される。「メチル化」、「メチル化状況」または「メチル化状態」という用語は、DNA配列内の1つまたは複数のCpGジヌクレオチドでの5-メチルシトシンの存在または非存在を指す場合がある。CpGジヌクレオチドは、典型的にはヒト遺伝子のプロモーター領域およびエキソンに濃縮されている。
減少した遺伝子発現は、遺伝子のメチル化状態によって決定される場合、DNAメチル化状態により、または発現レベルにより調べることができる。エピジェネティックなサイレンシングを検出するための一方法は、正常細胞において発現される遺伝子が腫瘍細胞でより少なく発現されるまたは発現されないことを決定することである。したがって、本開示は、エピジェネティックなサイレンシングを検出する工程を含む分子プロファイリング法を提供する。
メチル化を直接検出するための様々なアッセイ手順は、当技術分野において公知であり、本方法と共に使用することができる。これらのアッセイは、2つの別個の手法:重亜硫酸塩変換ベースの手法および重亜硫酸塩をベースとしない手法に依存する。重亜硫酸塩をベースとしないDNAメチル化分析方法は、メチル化感受性酵素がそれらの制限部位でメチル化シトシンを切断できないことに依存する。重亜硫酸塩変換は、非メチル化シトシンをウラシルに変換する一方でメチル化シトシンを維持する、重亜硫酸ナトリウムを用いたDNA試料の処理に依存する(Furuichi Y, Wataya Y, Hayatsu H, Ukita T. Biochem Biophys Res Commun. 1970 Dec 9;41(5):1185-91)。この変換は、結果として、本来のDNAの配列中に変化を生じる。そのような変化を検出するための方法には、MS AP-PCR(メチル化感受性任意プライムドポリメラーゼ連鎖反応)、CG-リッチプライマーを使用して、CpGジヌクレオチドを含有する可能性が最も大きい領域に集中するためのゲノムのグローバルスキャンを可能にする技法であって、Gonzalgo et al., Cancer Research 57:594-599, 1997によって記載される技法;Eads et al., Cancer Res. 59:2302-2306, 1999によって記載された当技術分野において承認されている蛍光ベースのリアルタイムPCR技法を指すMethyLight(商標);本明細書において実行されるその態様において、増幅プライマー間のCpG位置間を網羅するか増幅プライマーによって網羅されるメチル化特異的ブロッキングプローブ(本明細書においてブロッカーとも称される)が、核酸試料のメチル化特異的な選択的増幅を可能にするアッセイであるHeavyMethyl(商標)アッセイ;MethyLight(商標)アッセイが増幅プライマー間のCpG位置を網羅するメチル化特異的ブロッキングプローブと組み合わされた、MethyLight(商標)アッセイの変法であるHeavyMethyl(商標)MethyLight(商標);Gonzalgo & Jones, Nucleic Acids Res. 25:2529-2531, 1997によって記載されたアッセイであるMs-SNuPE(メチル化感受性一塩基プライマー伸長);Herman et al. Proc. Natl. Acad. Sci. USA 93:9821-9826, 1996および米国特許第5,786,146号によって記載されたメチル化アッセイであるMSP(メチル化特異的PCR);Xiong & Laird, Nucleic Acids Res. 25:2532-2534, 1997によって記載されたメチル化アッセイであるCOBRA(複合重亜硫酸制限分析);Toyota et al., Cancer Res. 59:2307-12, 1999およびWO00/26401A1に記載されたメチル化アッセイであるMCA(メチル化CpGアイランド増幅)が含まれる。
DNAメチル化分析のための他の技法には、シーケンシング、メチル化特異的PCR(MS-PCR)、融解曲線メチル化特異的PCR(McMS-PCR)、重亜硫酸塩処理を行うまたは行わないMLPA、QAMA、MSRE-PCR、MethyLight、ConLight-MSP、重亜硫酸塩変換特異的なメチル化特異的PCR(BS-MSP)、COBRA(制限酵素を使用して、重亜硫酸ナトリウム処理されたDNAのPCR産物におけるメチル化依存性配列差異を明らかにすることに依存する)、メチル化感受性一塩基プライマー伸長高次構造(MS-SNuPE)、メチル化感受性一本鎖高次構造分析(MS-SSCA)、融解曲線複合重亜硫酸塩制限分析(McCOBRA)、PyroMethA、HeavyMethyl、MALDI-TOF、MassARRAY、メチル化アレル定量分析(QAMA)、酵素領域メチル化アッセイ(ERMA)、QBSUPT、MethylQuant、定量PCRシーケンシングおよびオリゴヌクレオチドベースのマイクロアレイシステム、パイロシーケンシング、Meth-DOP-PCRが含まれる。いくつかの有用な技法の総説は、Nucleic Acids research, 1998, Vol. 26, No. 10, 2255-2264; Nature Reviews, 2003, Vol.3, 253-266; Oral Oncology, 2006, Vol. 42, 5-13に提供され、これらの参考文献は、その全体で本明細書に組み入れられる。これらの技法のいずれかは、適宜、本方法に従って使用され得る。他の技法は、米国特許出願公開第20100144836号;および同第20100184027号に記載されており、これらの出願は、その全体で参照により本明細書に組み入れられる。
様々なアセチラーゼおよびデアセチラーゼ(deacetylylase)の活性を通じて、ヒストンタンパク質のDNA結合機能は緊密に調節される。さらに、ヒストンアセチル化およびヒストン脱アセチル化は、悪性進行と関連している。Nature, 429: 457-63, 2004を参照されたい。ヒストンアセチル化を分析するための方法は、米国特許出願公開第20100144543号および同第20100151468号に記載されており、これらの出願は、その全体で参照により本明細書に組み入れられる。
配列分析
本開示による分子プロファイリングは、個体が1つまたは複数の遺伝子または遺伝子産物に1つまたは複数のヌクレオチドバリアント(またはアミノ酸バリアント)を有するかどうかを決定することによって、1つまたは複数のバイオマーカーを遺伝子型決定するための方法を含む。本明細書に記載されるような方法に従って1つまたは複数の遺伝子を遺伝子型決定することは、いくつかの態様では、治療を選択するためのより多くの証拠を提供することができる。
本明細書に記載されるようなバイオマーカーは、それらがコードする核酸またはタンパク質中の変更を決定するために有用な任意の方法によって分析することができる。一態様により、当業者は、欠失変異体、挿入変異体、フレームシフト変異体、ナンセンス変異体、ミスセンス変異体、およびスプライス変異体を含む変異について1つまたは複数の遺伝子を分析することができる。
1つまたは複数の遺伝子の分析のために使用される核酸は、試料中の細胞から標準的な方法論に従って単離することができる(Sambrook et al., 1989)。例えば核酸は、ゲノムDNAまたは分画もしくは全細胞RNA、またはエキソソームもしくは細胞表面から獲得されたmiRNAであり得る。RNAが使用される場合、RNAを相補的DNAに変換することが望ましい場合がある。一態様では、RNAは全細胞RNAであり;別の態様では、それはポリ-A RNAであり;別の態様では、エキソソームRNAである。通常、核酸は増幅される。1つまたは複数の遺伝子を分析するためのアッセイ形式に応じて、関心対象の特定の核酸は、試料から増幅を使用して直接、または増幅後に第2の公知の核酸を用いて、特定される。次に、特定された産物が検出される。ある特定の適用では、検出は、視覚的手段(例えば、ゲルの臭化エチジウム染色)によって行われる場合がある。あるいは、検出は、化学発光、放射性標識もしくは蛍光標識の放射性シンチグラフィーを介する、またはさらには電気もしくは熱インパルスシグナルを使用するシステムを介する産物の間接的特定を伴う場合がある(Affymax Technology; Bellus, 1994)。
本明細書に記載されるようなバイオマーカーに様々なタイプの欠損が起こることが知られている。変更には、欠失、挿入、点変異、および重複が含まれるが、それに限定されるわけではない。点変異は、サイレントであることができ、または終止コドン、フレームシフト変異もしくはアミノ酸置換を結果として生じる可能性がある。1つまたは複数の遺伝子のコード領域中および領域外に変異が起こる場合があり、本明細書に記載されるような方法に従って分析することができる。関心対象の核酸の標的部位は、配列が変動する領域を含むことができる。例には、一ヌクレオチド変異、ヌクレオチドリピート、多塩基欠失(コンセンサス配列から1つよりも多いヌクレオチドが欠失される)、多塩基挿入(コンセンサス配列から1つよりも多いヌクレオチドが挿入される)、マイクロサテライトリピート(典型的な5~1000個のリピートユニットを有する少数のヌクレオチドリピート)、ジ-ヌクレオチドリピート、トリ-ヌクレオチドリピート、配列再編成(転座および重複を含む)、キメラ配列(異なる遺伝子起源からの2つの配列が一緒に融合されている)などの異なる形態で存在する多型が含まれるが、それに限定されるわけではない。配列多型のうち、ヒトゲノム中の最も頻繁な多型は、一塩基多型(SNP)とも呼ばれる一塩基変異である。SNPは、ゲノムにわたり豊富であり、安定であり、広く分布している。
分子プロファイリングは、1つまたは複数の遺伝子をハプロタイピングするための方法を含む。ハプロタイプは、単一の染色体上に位置する遺伝的決定因子のセットであり、典型的には、染色体の領域中にアレル(遺伝子のすべての選択的配列)の特定の組み合わせを含有する。言い換えると、ハプロタイプは個別の染色体上のフェージング済み配列情報である。非常に多くの場合、染色体上のフェージング済みSNPがハプロタイプを規定する。染色体上のハプロタイプの組み合わせは、細胞の遺伝子プロファイルを決定することができる。特定の遺伝子マーカーと疾患変異との間の関連を決定するのがハプロタイプである。ハプロタイピングは、当技術分野において公知の任意の方法によって行うことができる。SNPをスコア付けする通常の方法には、Landgren et al., Genome Research, 8:769-776, 1998に総説されたハイブリダイゼーションマイクロアレイまたは直接ゲルシーケンシングが含まれる。例えば、1つまたは複数の遺伝子のコピーを1つだけ個体から単離することができ、バリアント位置の各々でのヌクレオチドが決定される。あるいは、アレル特異的PCRまたは類似の方法を使用して、個体における1つまたは複数の遺伝子のコピーの1つだけを増幅することができ、本開示のバリアント位置でのSNPが決定される。当技術分野において公知のクラーク法もまたハプロタイピングのために採用することができる。高スループット分子ハプロタイピング法はまた、参照により本明細書に組み入れられるTost et al., Nucleic Acids Res., 30(19):e96 (2002)に開示されている。
したがって、遺伝学およびハプロタイピングの分野の当業者に明らかなように、本開示のバリアントおよび/またはハプロタイプと連鎖不平衡にある追加的なバリアントは、当技術分野において公知のハプロタイピング法によって特定することができる。本開示のバリアントまたはハプロタイプと連鎖不平衡にある追加的なバリアントもまた、下記のような様々な用途に有用であることができる。
遺伝子型決定およびハプロタイピングのために、ゲノムDNAおよびmRNA/cDNAの両方を使用することができ、本明細書において両方が総称的に「遺伝子」と称される。
ヌクレオチドバリアントを検出するための多数の技法が当技術分野において公知であり、すべてを本開示の方法のために使用することができる。これらの技法は、タンパク質ベースまたは核酸ベースであることができる。どちらの場合も、使用される技法は、小さなヌクレオチドまたはアミノ酸バリエーションを正確に検出するために十分に感受性でなければならない。検出可能なマーカーで標識されたプローブが頻繁に使用される。特に規定がない限り、下記の特定の技法で、放射性同位元素、蛍光化合物、ストレプトアビジンを使用して検出可能なビオチン、酵素(例えば、アルカリホスファターゼ)、酵素の基質、リガンドおよび抗体などを含むが、それに限定されるわけではない、当技術分野において公知の任意の適切なマーカーを使用することができる。Jablonski et al., Nucleic Acids Res., 14:6115-6128 (1986); Nguyen et al., Biotechniques, 13:116-123 (1992); Rigby et al., J. Mol. Biol., 113:237-251 (1977)を参照されたい。
核酸ベースの検出法では、標的DNA試料、すなわち、1つまたは複数の遺伝子に対応するゲノムDNA、cDNA、mRNAおよび/またはmiRNAを含有する試料を、被験個体から得なければならない。1つまたは複数の遺伝子に対応するゲノムDNA、miRNA、mRNA、および/またはcDNA(またはその一部分)を含有する任意の組織または細胞試料を使用することができる。このために、細胞核を含有する、したがってゲノムDNAを含有する組織試料を個体から得ることができる。白血球および他のリンパ球だけが細胞核を有するのに対し、赤血球は核を有さず、mRNAまたはmiRNAだけを含有することを除き、血液試料も有用であることができる。それにもかかわらず、その配列中のヌクレオチドバリアントの存在について分析できるか、またはcDNA合成のための鋳型として役立つので、miRNAおよびmRNAも有用である。組織または細胞試料は、ほとんど処理せずに直接分析することができる。あるいは、標的配列を含む核酸を後述の様々な検出手順に供する前に、それらを抽出、精製、および/または増幅することができる。組織または細胞試料以外に、個体から得られた被験組織または細胞試料を使用して構築されたcDNAまたはゲノムDNAライブラリからのcDNAまたはゲノムDNAもまた有用である。
特定のヌクレオチドバリアントの存在または非存在を決定するために、標的ゲノムDNAまたはcDNA、特に検出されるべきヌクレオチドバリアント座位を包含する領域のシーケンシング。サンガー法およびギルバート化学法を含む様々なシーケンシング技法が一般的に公知であり、当技術分野において広く使用されている。パイロシーケンシング法は、発光測定(luminometric)検出システムを使用してリアルタイムでDNA合成をモニタリングする。パイロシーケンシングは、一塩基多型などの遺伝子多型を分析するのに有効であることが示されており、本方法にも使用することができる。Nordstrom et al., Biotechnol. Appl. Biochem., 31(2):107-112 (2000); Ahmadian et al., Anal. Biochem., 280:103-110 (2000)を参照されたい。
核酸バリアントは、適切な検出プロセスによって検出することができる。検出、定量、シーケンシングなどの方法の非限定的な例は、質量改変アンプリコンの質量検出(例えば、マトリックス支援レーザ脱離イオン化(MALDI)質量分析およびエレクトロスプレー(ES)質量分析)、プライマー伸長法(例えば、iPLEX(商標);Sequenom, Inc.)、マイクロシーケンシング法(例えば、プライマー伸長方法論の改変)、リガーゼ配列決定法(例えば、米国特許第5,679,524号および同第5,952,174号、ならびに国際公開公報第01/27326号)、ミスマッチ配列決定法(例えば、米国特許第5,851,770号;同第5,958,692号;同第6,110,684号;および同第6,183,958号)、直接DNAシーケンシング、断片分析(FA)、制限断片長多型(RFLP分析)、アレル特異的オリゴヌクレオチド(ASO)分析、メチル化特異的PCR(MSPCR)、パイロシーケンシング分析、アシクロプライム(acycloprime)分析、逆ドットブロット、GeneChipマイクロアレイ、ダイナミックアレル特異的ハイブリダイゼーション(DASH)、ペプチド核酸(PNA)およびロックド核酸(LNA)プローブ、TaqMan、分子ビーコン、挿入色素(Intercalating dye)、FRETプライマー、AlphaScreen、SNPstream、遺伝子ビット分析(genetic bit analysis)(GBA)、マルチプレックスミニシーケンシング、SNaPshot、GOODアッセイ、マイクロアレイminiseq、アレイ化プライマー伸長(APEX)、マイクロアレイプライマー伸長(例えば、マイクロアレイ配列決定法)、Tagアレイ、コードミクロスフェア、鋳型依存性組み込み(TDI)、蛍光偏光、比色測定オリゴヌクレオチドライゲーションアッセイ(OLA)、配列コードOLA、マイクロアレイライゲーション、リガーゼ連鎖反応、パッドロック(Padlock)プローブ、インベーダーアッセイ、ハイブリダイゼーション法(例えば、少なくとも1つのプローブを使用するハイブリダイゼーション、少なくとも1つの蛍光標識プローブを使用するハイブリダイゼーションなど)、従来型ドットブロット分析、一本鎖高次構造多型分析(SSCP、例えば、米国特許第5,891,625号および同第6,013,499号;Orita et al., Proc. Natl. Acad. Sci. U.S.A. 86: 27776-2770 (1989))、変性濃度勾配ゲル電気泳動(DGGE)、ヘテロ二重鎖分析、ミスマッチ切断検出、およびSheffield et al., Proc. Natl. Acad. Sci. USA 49: 699-706 (1991)、White et al., Genomics 12: 301-306 (1992)、Grompe et al., Proc. Natl. Acad. Sci. USA 86: 5855-5892 (1989)、およびGrompe, Nature Genetics 5: 111-117 (1993)に記載されている技法、クローニングおよびシーケンシング、電気泳動、ハイブリダイゼーションプローブおよび定量リアルタイムポリメラーゼ連鎖反応(QRT-PCR)の使用、デジタルPCR、ナノポアシーケンシング、チップならびにそれらの組み合わせである。アレルまたはパラログの検出および定量は、2007年12月4日に出願された米国特許出願第11/950,395号に記載されている「封管(closed-tube)」法を使用して実行することができる。いくつかの態様では、核酸種の量は、質量分析、プライマー伸長、シーケンシング(例えば、任意の適切な方法、例えばナノポアまたはピロシーケンシング)、定量PCR(Q-PCRまたはQRT-PCR)、デジタルPCR、それらの組み合わせなどによって決定される。
「配列分析」という用語は、本明細書に使用する場合、ヌクレオチド配列、例えば、増幅産物のヌクレオチド配列を決定することを指す。ポリヌクレオチド、例えば、DNAまたはmRNAの全配列または部分配列を決定することができ、決定されたヌクレオチド配列を「リード」または「配列リード」と称することができる。例えば、いくつかの態様では、線形的増幅産物は、さらなる増幅なしに(例えば、単一分子シーケンシング方法論を使用することによって)直接分析される場合がある。ある特定の態様では、線形的増幅産物が、さらなる増幅に供され、次いで分析される場合がある(例えば、ライゲーションによるシーケンシングまたはピロシーケンシング方法論を使用する)。リードは、異なるタイプの配列分析に供される場合がある。任意の適切なシーケンシング方法を使用して、ヌクレオチド配列種、増幅された核酸種、または前述のものから生成された検出可能な産物を検出し、その量を決定することができる。ある特定のシーケンシング法の例は、後述される。
配列分析装置または配列分析構成要素は、本明細書に記載されるプロセスの結果生じるヌクレオチド配列(例えば、線形的および/または指数的増幅産物)を決定するために当業者によって使用されることができる装置、およびそのような装置と共に使用される1つまたは複数の構成要素を含む。シーケンシングプラットフォームの例には、454プラットフォーム(Roche)(Margulies, M. et al. 2005 Nature 437, 376-380)、Illumina Genomic Analyzer(もしくはSolexaプラットフォーム)またはSOLID System(Applied Biosystems;「Reagents, Methods, and Libraries For Bead-Based Sequencing」という名称のPCT特許出願公報WO06/084132および「Reagents, Methods, and Libraries for Gel-Free Bead-Based Sequencing」という名称のWO07/121,489を参照されたい)、Helicos True単一分子DNAシーケンシング技法(Harris TD et al. 2008 Science, 320, 106-109)、Pacific Biosciencesの単一分子リアルタイム(SMRT(商標))技法、およびナノポアシーケンシング(Soni G V and Meller A. 2007 Clin Chem 53: 1996-2001)、Ion半導体シーケンシング(Ion Torrent Systems, Inc, San Francisco, CA)、またはDNAナノボールシーケンシング(Complete Genomics, Mountain View, CA)、VisiGen Biotechnologies手法(Invitrogen)およびポロニー(polony)シーケンシングが含まれるが、それに限定されるわけではない。そのようなプラットフォームは、検体から単離された多数の核酸分子のシーケンシングを並列的な高次多重化で可能にする(Dear Brief Funct Genomic Proteomic 2003; 1: 397-416; Haimovich, Methods, challenges, and promise of next-generation sequencing in cancer biology. Yale J Biol Med. 2011 Dec;84(4):439-46)。これらの非サンガー法ベースのシーケンシング技法は、時に、NextGenシーケンシング、NGS、次世代(next-generation)シーケンシング、次世代(next generation)シーケンシング、およびそれらの変法と称される。典型的には、それらは、従来のサンガー手法よりもずっと高いスループットを可能にする。Schuster, Next-generation sequencing transforms today's biology, Nature Methods 5:16-18 (2008); Metzker, Sequencing technologies - the next generation. Nat Rev Genet. 2010 Jan;11(1):31-46; Levy and Myers, Advancements in Next-Generation Sequencing. Annu Rev Genomics Hum Genet. 2016 Aug 31;17:95-115を参照されたい。これらのプラットフォームは、核酸断片のクローン的に増殖したまたは増幅されていない単一分子のシーケンシングを可能にすることができる。ある特定のプラットフォームは、例えば、色素修飾プローブのライゲーション(サイクリックライゲーションおよび切断を含む)によるシーケンシング、ピロシーケンシング、および単一分子シーケンシングを伴う。ヌクレオチド配列種、増幅核酸種およびこれらから生成された検出可能な産物は、そのような配列分析プラットフォームによって分析することができる。次世代シーケンシングを本明細書に記載されるような方法に使用して、例えば、変異、コピー数、または発現レベルを適宜決定することができる。これらの方法を使用して、全ゲノムシーケンシング、または関心対象の遺伝子もしくはその断片などの関心対象の特定の配列のシーケンシングを行うことができる。
ライゲーションによるシーケンシングは、塩基対ミスマッチに対するDNAリガーゼの感受性に依存する核酸シーケンシング法である。DNAリガーゼは、正しく塩基対形成したDNA末端同士を一緒につなぐ。正しく塩基対形成したDNA末端だけを一緒につなげるDNAリガーゼの能力を、蛍光標識オリゴヌクレオチドまたはプライマーの混合プールと組み合わせることで、蛍光検出による配列決定が可能になる。より長い配列リードは、標識特定後に切断することができる切断可能な連結を含有するプライマーを含めることによって得られる場合がある。リンカーでの切断によって標識が除去され、ライゲートされたプライマーの末端の5'リン酸が再生され、別のラウンドのライゲーションのためのプライマーが調製される。いくつかの態様では、プライマーは、1個よりも多い蛍光標識、例えば、少なくとも1、2、3、4、または5個の蛍光標識で標識される場合がある。
ライゲーションによるシーケンシングは、一般的に以下の工程を伴う。クローンビーズ集団は、標的核酸鋳型配列、増幅反応成分、ビーズおよびプライマーを含有するエマルジョンマイクロリアクター中で調製することができる。増幅後、鋳型が変性され、ビーズの濃縮が行われて、伸長した鋳型を有するビーズが、望まれないビーズ(例えば、伸長していない鋳型を有するビーズ)から分離される。選択されたビーズ上の鋳型は、3'修飾を受けて、スライドと共有結合を形成させられ、修飾されたビーズをガラススライド上に沈着させることができる。沈着チャンバーは、ビーズ負荷プロセスの間にスライドを1、4または8つのチャンバーに分割する能力を提供する。配列分析のために、プライマーはアダプター配列とハイブダイズする。4つの色素標識プローブのセットは、シーケンシングプライマーとのライゲーションに競合する。プローブのライゲーションの特異性は、一連のライゲーションの間に4番目および5番目ごとの塩基を調べることによって達成される。5~7ラウンドのライゲーション、検出および切断は、5番目ごとの位置での色を、使用したライブラリのタイプによって決まるラウンド数と共に記録する。ライゲーションの各ラウンドに続き、5'方向の1つの塩基だけずらした新しい相補的プライマーが別のシリーズのライゲーションのために築かれる。プライマーのリセットおよびライゲーションのラウンド(1ラウンドあたり5~7回のライゲーション)が連続5回繰り返されて、1つのタグについて25~35塩基対の配列を生成する。メイトペアシーケンシングを用いて、第2のタグについてこのプロセスが繰り返される。
パイロシーケンシングは、ヌクレオチド組み込みで放出されたピロリン酸塩の検出に依存する、合成によるシーケンシングに基づく核酸シーケンシング法である。一般的に、合成によるシーケンシングは、配列が探索されている鎖に相補的なDNA鎖を一度に1つのヌクレオチドで合成することを伴う。標的核酸は、固体支持体に固定化され、シーケンシングプライマーとハイブリダイズされ、DNAポリメラーゼ、ATPスルフリラーゼ、ルシフェラーゼ、アピラーゼ、アデノシン5'ホスホスルフェートおよびルシフェリンと共にインキュベートされる場合がある。ヌクレオチド溶液が連続的に添加され、除去される。ヌクレオチドの正確な組み込みによってピロリン酸塩が放出され、ピロリン酸塩はATPスルフリラーゼと相互作用し、アデノシン5'ホスホスルフェートの存在下でATPを産生し、ルシフェリン反応にエネルギーを供給し、この反応は化学発光シグナルを産生し、配列決定を可能にする。発生する光の量は、添加された塩基の数と比例する。したがって、シーケンシングプライマーの下流の配列を決定することができる。パイロシーケンシングの例証的なシステムは、以下の工程を伴う:アダプター核酸を検討中の核酸とライゲートし、結果として生じた核酸をビーズとハイブリダイズする工程;エマルション中でヌクレオチド配列を増幅させる工程;ピコリットルマルチウェル固体支持体を使用してビーズをソートする工程;および増幅されたヌクレオチド配列をパイロシーケンシング方法論によってシーケンシングする工程(例えば、Nakano et al., "Single-molecule PCR using water-in-oil emulsion;" Journal of Biotechnology 102: 117-124 (2003))。
ある特定の単一分子シーケンシングの態様は、合成によるシーケンシングの原理に基づき、ヌクレオチド組み込みの成功の結果として光子が放出されるメカニズムとしてシングルペア蛍光共鳴エネルギー移動(シングルペアFRET)を使用する。放出された光子は、しばしば強化または高感度冷却電荷結合素子を内部全反射顕微鏡法(TIRM)と共に使用して検出される。導入された反応溶液が、シーケンシングプロセスの結果として合成された成長中の核酸鎖内への組み込みのための正しいヌクレオチドを含有する場合にのみ、光子が放出される。FRETベースの単一分子シーケンシングでは、エネルギーが2つの蛍光色素の間、時にポリメチンシアニン色素Cy3およびCy5の間で、長距離双極子相互作用を通じて移動する。ドナーは、その特異励起波長で励起し、励起状態エネルギーがアクセプター色素に無放射的に移動し、アクセプター色素が今度は励起するようになる。アクセプター色素は、最終的に光子の放射放出により基底状態に戻る。エネルギー移動プロセスに使用される2つの色素は、シングルペアFRETでの「シングルペア」に相当する。Cy3は、しばしばドナーフルオロフォアとして使用され、しばしば第1標識ヌクレオチドとして組み込まれる。Cy5は、しばしばアクセプターフルオロフォアとして使用され、第1のCy3標識ヌクレオチドの組み込み後の逐次ヌクレオチド付加のためのヌクレオチド標識として使用される。フルオロフォアは、一般的に、エネルギー移動がうまく起こるように、各々10ナノメートル以内である。
単一分子シーケンシングに基づき使用することができるシステムの例は、一般的に、プライマーを標的核酸配列とハイブリダイズして複合体を生成させること;複合体を固相と会合させること;蛍光分子でタグ付けされたヌクレオチドによってプライマーを反復的に伸長すること;および各反復後に蛍光共鳴エネルギー移動シグナルの画像を捕捉することを伴う(例えば、米国特許第7,169,314号;Braslavsky et al., PNAS 100(7): 3960-3964 (2003))。そのようなシステムを使用して、本明細書に記載されるプロセスによって生成された増幅産物を直接シーケンシングすることができる(線形または指数的増幅産物)。いくつかの態様では、増幅産物は、固体支持体、例えばビーズまたはガラススライド上に存在する固定化捕捉配列に相補的な配列を含有するプライマーとハイブリダイズすることができる。プライマー-増幅産物複合体と固定化捕捉配列とのハイブリダイゼーションは、合成によるシングルペアFRETベースのシーケンシングのために増幅産物を固体支持体に固定化する。プライマーは、しばしば蛍光性であり、その結果、固定化された核酸を有するスライド表面の最初の基準画像を生成することができる。最初の基準画像は、真のヌクレオチド組み込みが起こりつつある位置を決定するために有用である。「プライマーのみ」の基準画像で最初に特定されない、アレイ位置で検出される蛍光シグナルは、非特異的蛍光として廃棄される。プライマー-増幅産物複合体の固定化に続き、結合した核酸は、しばしば、a)1つの蛍光標識ヌクレオチドの存在下でのポリメラーゼ伸長、b)適切な顕微鏡法、例えばTIRMを使用する蛍光の検出、c)蛍光ヌクレオチドの除去、およびd)異なる蛍光標識ヌクレオチドで工程aに戻るという反復工程によって並列的にシーケンシングされる。
いくつかの態様では、ヌクレオチドシーケンシングは、固相一塩基シーケンシング法およびプロセスによる場合がある。固相一塩基シーケンシング法は、単一分子の試料核酸が固体支持体の単一分子とハイブリダイズする条件下で標的核酸および固体支持体を接触させる工程を伴う。そのような条件は、「マイクロリアクター」中に固体支持体分子および単一分子の標的核酸を提供することを含むことができる。そのような条件はまた、標的核酸分子が固体支持体上で固相核酸とハイブリダイズすることができる混合物を提供することを含むことができる。本明細書に記載される態様に有用な一塩基シーケンシング法は、2008年1月17日に出願された米国仮特許出願第61/021,871号に記載されている。
ある特定の態様では、ナノポアシーケンシング検出法は、(a)シーケンシングのための標的核酸(「ベース核酸」、例えば、連結したプローブ分子)を配列特異的ディテクタと、ディテクタがベース核酸の実質的に相補的な部分配列と特異的にハイブリダイズする条件下で接触させる工程;(b)ディテクタからのシグナルを検出する工程、および(c)検出されるシグナルに従ってベース核酸の配列を決定する工程を含む。ある特定の態様では、ベース核酸がポアを通過する時にディテクタがナノポア構造を妨害する場合、ベース核酸とハイブリダイズされたディテクタは、ベース核酸から解離され(例えば、順次解離され)、ベース配列から解離されたディテクタが検出される。いくつかの態様では、ベース核酸から解離したディテクタは、検出可能なシグナルを放出し、ベース核酸とハイブリダイズされたディテクタは、異なる検出可能なシグナルを放出するか、または検出可能なシグナルを放出しない。ある特定の態様では、核酸(例えば、連結したプローブ分子)中のヌクレオチドは、特定のヌクレオチド(「ヌクレオチド代表」)に対応する特定のヌクレオチド配列で置換され、それにより、伸長した核酸を生じ(例えば、米国特許第6,723,513号)、ディテクタは、ベース核酸として役立つ伸長した核酸中のヌクレオチド代表とハイブリダイズする。そのような態様では、ヌクレオチド代表は、二元またはより高次の配置で配置される場合がある(例えば、Soni and Meller, Clinical Chemistry 53(11): 1996-2001 (2007))。いくつかの態様では、核酸は伸長されず、伸長した核酸を生じず、直接にベース核酸の役に立ち(例えば、連結したプローブ分子は非伸長のベース核酸として役立つ)、ディテクタは、ベース核酸と直接接触される。例えば、第1のディテクタが第1の部分配列とハイブリダイズする場合があり、第2のディテクタが第2の部分配列とハイブリダイズする場合があり、その際、第1のディテクタおよび第2のディテクタは、各々、相互に識別できる検出可能な標識を有し、その際、ディテクタがベース核酸から解離した場合、第1のディテクタおよび第2のディテクタからのシグナルは相互に識別することができる。ある特定の態様では、ディテクタは、約3~約100ヌクレオチド長(例えば、約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、50、55、60、65、70、75、80、85、90、または95ヌクレオチド長)であることができる、ベース核酸とハイブリダイズする領域(例えば、2つの領域)を含む。ディテクタはまた、ベース核酸とハイブリダイズしない、ヌクレオチドの1つまたは複数の領域を含む場合がある。いくつかの態様では、ディテクタは分子ビーコンである。ディテクタは、しばしば、本明細書に記載されるものより独立して選択される1つまたは複数の検出可能な標識を含む。各検出可能な標識は、各標識(例えば、磁気、電気、化学、光など)によって生成されるシグナルを検出することができる任意の好都合な検出プロセスによって検出することができる。例えば、CDカメラを使用して、ディテクタと連結した1つまたは複数の識別可能な量子ドットからのシグナルを検出することができる。
ある特定の配列分析の態様では、より大きなヌクレオチド配列を構築するためにリードが使用される場合があり、これは、異なるリード中のオーバーラップ配列を特定することによって、およびリード中の特定配列を使用することによって容易にすることができる。そのような配列分析法およびリードからより大きな配列を構築するためのソフトウェアは、当業者に公知である(例えば、Venter et al., Science 291: 1304-1351 (2001))。特定のリード、部分ヌクレオチド配列構築物、および完全ヌクレオチド配列構築物は、試料核酸内のヌクレオチド配列間で比較される場合があり(すなわち、内部比較)またはある特定の配列分析態様で基準配列と比較される場合がある(すなわち、基準比較)。内部比較は、試料核酸が複数の試料から、または配列バリエーションを含有する単一の試料源から調製される状況で行うことができる。基準ヌクレオチド配列が分かっており、かつ試料核酸が基準ヌクレオチド配列と実質的に類似もしくは同じヌクレオチド配列を含有するか、または異なるヌクレオチド配列を含有するかを決定することが目的である場合、時に基準比較が行われる。配列分析は、上記の配列分析装置および構成要素の使用によって容易にすることができる。
本明細書において「マイクロシーケンシング」法とも称されるプライマー伸長多型検出法は、典型的には、多型部位を保有する核酸と相補的オリゴヌクレオチドをハイブリダイズすることによって実施される。これらの方法では、オリゴヌクレオチドは、典型的には多型部位に隣接してハイブリダイズする。「マイクロシーケンシング」法に関連して使用される場合の「隣接する」という用語は、伸長オリゴヌクレオチドが核酸とハイブリダイズされる場合に伸長オリゴヌクレオチドの3'末端が時に、核酸の多型部位の5'末端から1ヌクレオチド、しばしば多型部位の5'末端から2または3、時々4、5、6、7、8、9、または10ヌクレオチドであることを指す。次いで、伸長オリゴヌクレオチドが1つまたは複数のヌクレオチドだけ、しばしば1、2、または3つのヌクレオチドだけ伸長されるが、伸長オリゴヌクレオチドに付加されるヌクレオチドの数および/またはタイプは、どの1つまたは複数の多型バリアントが存在するかを決定する。オリゴヌクレオチド伸長法は、例えば、米国特許第4,656,127号;同第4,851,331号;同第5,679,524号;同第5,834,189号;同第5,876,934号;同第5,908,755号;同第5,912,118号;同第5,976,802号;同第5,981,186号;同第6,004,744号;同第6,013,431号;同第6,017,702号;同第6,046,005号;同第6,087,095号;同第6,210,891号;およびWO01/20039に開示されている。伸長産物は、任意のやり方で、例えば蛍光法によって(例えば、Chen & Kwok, Nucleic Acids Research 25: 347-353 (1997)およびChen et al., Proc. Natl. Acad. Sci. USA 94/20: 10756-10761 (1997)を参照されたい)または質量分析法(例えば、MALDI-TOF質量分析)および本明細書に記載される他の方法によって検出することができる。質量分析を使用するオリゴヌクレオチド伸長法は、例えば、米国特許第5,547,835号;同第5,605,798号;同第5,691,141号;同第5,849,542号;同第5,869,242号;同第5,928,906号;同第6,043,031号;同第6,194,144号;および同第6,258,538号に記載されている。
マイクロシーケンシング検出法は、しばしば、伸長工程を続行する増幅プロセスを組み入れている。増幅プロセスは、典型的には、多型部位を含む、核酸試料からの領域を増幅する。増幅は、上記方法を使用して、または例えば一方のオリゴヌクレオチドプライマーが典型的には多型の3'領域に相補的であり、他方が典型的には多型の5'領域に相補的である、オリゴヌクレオチドプライマーペアをポリメラーゼ連鎖反応(PCR)で使用して実施することができる。PCRプライマーペアは、例えば、米国特許第4,683,195号;同第4,683,202号、同第4,965,188号;同第5,656,493号;同第5,998,143号;同第6,140,054号;WO01/27327;およびWO01/27329に開示される方法で使用される場合がある。PCRプライマーペアはまた、Applied Biosystemsから入手可能なGeneAmp(商標)システムのいずれかなどの、PCRを行う任意の市販の機械で使用される場合がある。
他の適切なシーケンシング法には、固定化マイクロビーズを採用するマルチプレックスポロニーシーケンシング(参照により本明細書に組み入れられる、www.sciencexpress.org/4 Aug. 2005/Page1/10.1126/science.1117389から入手可能なShendure et al., Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome, Sciencexpress, Aug. 4, 2005, pg 1に記載されるような)、および微細加工ピコリットルリアクター(参照により本明細書に組み入れられる、www.nature.com/natureから入手可能なMargulies et al., Genome Sequencing in Microfabricated High-Density Picolitre Reactors, Nature, August 2005に記載されるような(2005年7月31日にオンライン刊行、doi:10.1038/nature03959))中でのシーケンシングが含まれる。
全ゲノムシーケンシングはまた、いくつかの態様では、RNA転写物のアレルを識別するために使用される場合がある。全ゲノムシーケンシング法の例には、上記のようなナノポアベースのシーケンシング法、合成によるシーケンシングおよびライゲーションによるシーケンシングが含まれるが、それに限定されるわけではない。
核酸バリアントはまた、標準的な電気泳動技法を使用して検出することができる。検出工程に、時に、増幅工程が先行することができるものの、増幅は本明細書に記載の態様に必要ない。電気泳動技法を使用する核酸の検出および定量のための方法の例は、当技術分野に見出すことができる。非限定的な例は、アガロースまたはポリアクリルアミドゲル中で試料(例えば、母方血清から単離された混合核酸試料、または例えば増幅核酸種)を泳動させることを含む。ゲルは、臭化エチジウムで標識(例えば、染色)される場合がある(Sambrook and Russell, Molecular Cloning: A Laboratory Manual 3d ed., 2001を参照)。標準対照と同じサイズのバンドの存在は、標的核酸配列の存在の指標であり、次いでその量が、バンドの強度に基づき対照と比較され、したがって、関心対象の標的配列を検出および定量する場合がある。いくつかの態様では、母方アレルと父方アレルとの間を識別することができる制限酵素が、標的核酸種を検出および定量するために使用される場合がある。ある特定の態様では、関心対象の配列に特異的なオリゴヌクレオチドプローブが、関心対象の標的配列の存在を検出するために使用される。オリゴヌクレオチドはまた、プローブによって付与されるシグナルの強度に基づき標準対照と比較して標的核酸分子の量を示すために使用することができる。
配列特異的プローブハイブリダイゼーションを使用して、他の種の核酸を含む混合物または混合集団中の特定の核酸を検出することができる。十分にストリンジェントなハイブリダイゼーション条件下で、プローブは、実質的に相補的な配列だけと特異的にハイブリダイズする。ハイブリダイゼーション条件のストリンジェンシーを緩和して、様々な量の配列ミスマッチを許容させることができる。いくつかのハイブリダイゼーション形式が当技術分野において公知であり、それらには、液相、固相、または混合相ハイブリダイゼーションアッセイが含まれるが、それに限定されるわけではない。以下の論文は、様々なハイブリダイゼーションアッセイ形式の概要を提供するものである:Singer et al., Biotechniques 4:230, 1986; Haase et al., Methods in Virology, pp. 189-226, 1984; Wilkinson, In situ Hybridization, Wilkinson ed., IRL Press, Oxford University Press, Oxford;およびHames and Higgins eds., Nucleic Acid Hybridization: A Practical Approach, IRL Press, 1987。
ハイブリダイゼーション複合体は、当技術分野において公知の技法によって検出することができる。標的核酸(例えば、mRNAまたはDNA)と特異的にハイブリダイズすることができる核酸プローブは、任意の適切な方法によって標識することができ、標識されたプローブを使用して、ハイブリダイズされた核酸の存在を検出することができる。通常使用される一検出方法は、3H、125I、35S、14C、32P、33Pなどで標識されたプローブを使用するオートラジオグラフィーである。放射性同位元素の選択は、選択された同位元素の合成の容易さ、安定性、および半減期による研究の好みに依存する。他の標識には、フルオロフォア、化学発光剤、および酵素で標識された抗リガンドまたは抗体に結合する化合物(例えば、ビオチンおよびジゴキシゲニン)が含まれる。いくつかの態様では、プローブは、フルオロフォア、化学発光剤または酵素などの標識と直接コンジュゲートすることができる。標識の選択は、必要な感度、プローブとのコンジュゲーションの容易さ、安定性の必要要件、および利用可能な計装に依存する。
諸態様では、断片分析(本明細書において「FA」と称される)法が、分子プロファイリングのために使用される。断片分析(FA)は、制限断片長多型(RFLP)および/または(増幅断片長多型)などの技法を含む。1つまたは複数の遺伝子に対応する標的DNA中のヌクレオチドバリアントが、結果として制限酵素認識部位の除去または創出を生じる場合、特定の制限酵素を用いた標的DNAの消化は、変更された制限断片長パターンを生成する。したがって、検出されたRFLPまたはAFLPは、特定のヌクレオチドバリアントの存在を示す。
末端制限断片長多型(TRFLP)は、蛍光タグで標識されたプライマー対を使用するDNAのPCR増幅によって機能する。PCR産物はRFLP酵素を使用して消化され、結果として生じるパターンはDNAシークエンサを使用して可視化される。結果は、TRFLPプロファイル中のバンドまたはピークを計数し、比較することによって、またはデータベース中の1つまたは複数のTRFLP実行からのバンドを比較することによって、分析される。
RFLPと直接関連がある配列変化はまた、PCRによってより迅速に分析することができる。変更された制限部位にわたって増幅を指向させることができ、産物を制限酵素で消化することができる。この方法は、切断増幅多型配列(Cleaved Amplified Polymorphic Sequence)(CAPS)と呼ばれている。あるいは、増幅されたセグメントは、アレル特異的オリゴヌクレオチド(ASO)プローブ、時にドットブロットを使用して調べられるプロセスによって分析することができる。
AFLPのバリエーションは、遺伝子発現レベルの差異を定量するために使用することができるcDNA-AFLPである。
別の有用な手法は、一本鎖高次構造多型アッセイ(SSCA)であり、SSCAは、関心対象のヌクレオチドバリアントにまたがる一本鎖標的DNAの移動度が変わることに基づく。標的配列中の一塩基変化の結果として、異なる分子内塩基対形成パターン、したがって一本鎖DNAの異なる二次構造を生じることができ、それを非変性ゲルで検出することができる。Orita et al., Proc. Natl. Acad. Sci. USA, 86:2776-2770 (1989)を参照されたい。クランプ変性ゲル電気泳動(CDGE)および変性勾配ゲル電気泳動(DGGE)などの変性ゲルベースの技法は、変性ゲル中の野生型配列と比較した変異型配列の泳動速度の差異を検出する。Miller et al., Biotechniques, 5:1016-24 (1999); Sheffield et al., Am. J. Hum, Genet., 49:699-706 (1991); Wartell et al., Nucleic Acids Res., 18:2699-2705 (1990);およびSheffield et al., Proc. Natl. Acad. Sci. USA, 86:232-236 (1989)を参照されたい。加えて、二本鎖高次構造分析(DSCA)もまた、本方法で有用であることができる。Arguello et al., Nat. Genet., 18:192-194 (1998)を参照されたい。
個体の1つまたは複数の遺伝子中の特定の座位でのヌクレオチドバリアントの存在または非存在はまた、増幅抵抗性変異システム(amplification refractory mutation system)(ARMS)技法を使用して検出することができる。例えば、欧州特許第0,332,435号; Newton et al., Nucleic Acids Res., 17:2503-2515 (1989); Fox et al., Br. J. Cancer, 77:1267-1274 (1998); Robertson et al., Eur. Respir. J., 12:477-482 (1998)を参照されたい。ARMS法では、試験されている座位のヌクレオチドに対応する3'末端ヌクレオチドが予め決定されているヌクレオチドであることを除いて、座位のすぐ5'上流のヌクレオチド配列にマッチするプライマーが合成される。例えば、3'末端ヌクレオチドは、変異した座位のヌクレオチドと同じであることができる。プライマーは、その3'末端ヌクレオチドが試験されている座位のヌクレオチドとマッチする場合にのみ、ストリンジェントな条件下で標的DNAにハイブリダイズするかぎり、任意の適切な長さであることができる。好ましくは、プライマーは、少なくとも12個のヌクレオチド、より好ましくは約18~50個のヌクレオチドを有する。試験された個体が座位に変異を有し、その中のヌクレオチドがプライマーの3'末端ヌクレオチドとマッチする場合、プライマーは、標的DNA鋳型とハイブリダイズするとさらに伸長することができ、プライマーは、別の適切なPCRプライマーと共にPCR増幅反応を開始することができる。対照的に、座位のヌクレオチドが野生型のものである場合、プライマー伸長を達成することができない。過去数年間に開発された様々な形態のARMS技法を使用することができる。例えば、Gibson et al., Clin. Chem. 43:1336-1341 (1997)を参照されたい。
ARMS技法に類似しているものは、一塩基の組み込みに基づくミニシーケンシングまたは一塩基プライマー伸長法である。試験されている座位のすぐ5'側のヌクレオチド配列にマッチするオリゴヌクレオチドプライマーが、標識ジデオキシリボヌクレオチドの存在下で標的DNA、mRNAまたはmiRNAとハイブリダイズされる。ジデオキシリボヌクレオチドが、検出されているバリアント座位のヌクレオチドとマッチする場合にのみ、標識ヌクレオチドはプライマーに組み込まれるまたは連結される。したがって、バリアント座位でのヌクレオチドの同一性は、組み込まれたジデオキシリボヌクレオチドと結びついた検出標識に基づいて明らかにすることができる。Syvanen et al., Genomics, 8:684-692 (1990); Shumaker et al., Hum. Mutat., 7:346-354 (1996); Chen et al., Genome Res., 10:549-547 (2000)を参照されたい。
本方法に有用な技法の別のセットは、いわゆる「オリゴヌクレオチドライゲーションアッセイ」(OLA)であり、OLAでは、野生型座位と変異との間の区別は、2つのオリゴヌクレオチドが標的DNA分子上で相互に隣接してアニーリングして、2つのオリゴヌクレオチドがDNAリガーゼによって一緒につながれるようにする能力に基づく。Landergren et al., Science, 241:1077-1080 (1988); Chen et al, Genome Res., 8:549-556 (1998); Iannone et al., Cytometry, 39:131-140 (2000)を参照されたい。したがって、例えば、1つまたは複数の遺伝子中の特定の座位での一塩基変異を検出するために、一方は座位のちょうど5'上流の配列を有し、かつその3'末端ヌクレオチドは特定の遺伝子のバリアント座位中のヌクレオチドと同一であり、他方は、遺伝子中の座位のすぐ3'下流の配列とマッチするヌクレオチド配列を有する、2つのオリゴヌクレオチドを合成することができる。オリゴヌクレオチドは、検出の目的で標識することができる。ストリンジェントな条件下で標的遺伝子とハイブリダイズすると、2つのオリゴヌクレオチドは、適切なリガーゼの存在下でライゲーションに供される。2つのオリゴヌクレオチドのライゲーションは、標的DNAが、検出されている座位にヌクレオチドバリアントを有することを示すであろう。
小さな遺伝的変異の検出はまた、ハイブリダイゼーションベースの多様な手法によって達成することができる。アレル特異的オリゴヌクレオチドが最も有用である。Conner et al., Proc. Natl. Acad. Sci. USA, 80:278-282 (1983); Saiki et al, Proc. Natl. Acad. Sci. USA, 86:6230-6234 (1989)を参照されたい。特定の座位に特定の遺伝子バリアントを有する遺伝子アレルに特異的にハイブリダイズするが、他のアレルとはハイブリダイズしないオリゴヌクレオチドプローブ(アレル特異的)は、当技術分野において公知の方法によって設計することができる。プローブは、例えば、10~約50ヌクレオチド塩基長を有することができる。標的DNAおよびオリゴヌクレオチドプローブは、ハイブリダイゼーションの存在または非存在に基づきヌクレオチドバリアントを野生型遺伝子と識別することができるように、十分にストリンジェントな条件下で相互に接触させることができる。プローブを標識して、検出シグナルを提供することができる。あるいは、アレル特異的オリゴヌクレオチドプローブを「アレル特異的PCR」におけるPCR増幅プライマーとして使用することができ、予想される長さのPCR産物の存在または非存在が、特定のヌクレオチドバリアントの存在または非存在を示すであろう。
他の有用なハイブリダイゼーションベースの技法は、ヌクレオチドの置換、挿入または欠失によるミスマッチの存在下であっても2つの一本鎖核酸を一緒にアニーリングさせる。次いで、ミスマッチは、様々な技法を使用して検出することができる。例えば、アニーリングされた二重鎖を電気泳動に供することができる。ミスマッチのある二重鎖を、完全にマッチした二重鎖と異なるそれらの電気泳動移動度に基づき検出することができる。Cariello, Human Genetics, 42:726 (1988)を参照されたい。あるいは、RNアーゼ保護アッセイにおいて、検出されるべきヌクレオチドバリアント部位にまたがり、かつ検出マーカーを有するRNAプローブを調製することができる。Giunta et al., Diagn. Mol. Path., 5:265-270 (1996); Finkelstein et al., Genomics, 7:167-172 (1990); Kinszler et al., Science 251:1366-1370 (1991)を参照されたい。RNAプローブを標的DNAまたはmRNAとハイブリダイズさせ、ヘテロ二重鎖を形成することができ、次いでこのヘテロ二重鎖は、リボヌクレアーゼRNアーゼA消化に供される。RNアーゼAは、ミスマッチ部位でのみヘテロ二重鎖中のRNAプローブを消化する。消化は、サイズ変化に基づき変性電気泳動ゲル上で決定することができる。加えて、ミスマッチはまた、当技術分野において公知の化学切断法によって検出することができる。例えば、Roberts et al., Nucleic Acids Res., 25:3377-3378 (1997)を参照されたい。
mutSアッセイでは、変異の存在または非存在が検出されるべき座位の周囲の遺伝子配列とマッチするプローブを調製することができるが、バリアント座位で予め決定されたヌクレオチドが使用されることを除く。プローブを標的DNAとアニーリングして二重鎖を形成させたら、大腸菌(E. coli)mutSタンパク質が二重鎖と接触される。mutSタンパク質は、ヌクレオチドミスマッチを含有するヘテロ二重鎖配列だけと結合するので、mutSタンパク質の結合は、変異の存在を示す。Modrich et al., Ann. Rev. Genet., 25:229-253 (1991)を参照されたい。
本方法において変異またはヌクレオチドバリアントを検出することに有用であることができる上記基本的技法に基づき、多種多様な改良法および変法が当技術分野において開発されている。例えば、「サンライズプローブ」または「分子ビーコン」は、蛍光共鳴エネルギー移動(FRET)特性を利用し、高感度を生じる。Wolf et al., Proc. Nat. Acad. Sci. USA, 85:8790-8794 (1988)を参照されたい。典型的には、検出されるべきヌクレオチド座位にまたがるプローブは、ヘアピン形状構造に設計され、一端が消光フルオロフォアで、他端がレポーターフルオロフォアで標識される。その自然状態では、一方のフルオロフォアが他方と近接しているため、レポーターフルオロフォアからの蛍光は、消光フルオロフォアによって消光される。プローブが標的DNAとハイブリダイズすると、5'末端が3'末端から分離され、したがって、蛍光シグナルが再生される。Nazarenko et al., Nucleic Acids Res., 25:2516-2521 (1997); Rychlik et al., Nucleic Acids Res., 17:8543-8551 (1989); Sharkey et al., Bio/Technology 12:506-509 (1994); Tyagi et al., Nat. Biotechnol., 14:303-308 (1996); Tyagi et al., Nat. Biotechnol., 16:49-53 (1998)を参照されたい。ホモ-タグ支援非ダイマーシステム(HANDS)を分子ビーコン法と共に使用して、プライマー-ダイマーの蓄積を抑制することができる。Brownie et al., Nucleic Acids Res., 25:3235-3241 (1997)を参照されたい。
色素標識オリゴヌクレオチドライゲーションアッセイは、OLAアッセイとPCRとを組み合せるFRETベースの方法である。Chen et al., Genome Res. 8:549-556 (1998)を参照されたい。TaqManは、ヌクレオチドバリアントを検出するための別のFRETベースの方法である。TaqManプローブは、関心対象のバリアント座位にまたがる遺伝子のヌクレオチド配列を有するように、および異なるアレルと差次的にハイブリダイズするように設計されたオリゴヌクレオチドであることができる。プローブの2つの末端は、それぞれ消光フルオロフォアおよびレポーターフルオロフォアで標識される。TaqManプローブは、Taqポリメラーゼを使用した関心対象の座位を含有する標的遺伝子領域の増幅のためのPCR反応に組み入れられる。Taqポリメラーゼは、5'-3エクソヌクレアーゼ活性を示すが、3'-5'エクソヌクレアーゼ活性を有さないので、TaqManプローブが標的DNA鋳型にアニーリングされた場合、TaqManプローブの5'末端は、PCR反応の間にTaqポリメラーゼによって分解され、したがって、レポートフルオロフォアが消光フルオロフォアから分離され、蛍光シグナルが放出される。Holland et al., Proc. Natl. Acad. Sci. USA, 88:7276-7280 (1991); Kalinina et al., Nucleic Acids Res., 25:1999-2004 (1997); Whitcombe et al., Clin. Chem., 44:918-923 (1998)を参照されたい。
加えて、本方法における検出は、また、化学発光ベースの技法を採用することができる。例えば、野生型またはバリアント遺伝子座位の両方ではなく一方とハイブリダイズするようにオリゴヌクレオチドプローブを設計することができる。プローブは、高化学発光性アクリジニウムエステルで標識される。アクリジニウムエステルの加水分解は化学発光を破壊する。プローブの標的DNAとのハイブリダイゼーションは、アクリジニウムエステルの加水分解を防止する。したがって、標的DNAにおける特定の変異の存在または非存在が、化学発光の変化を測定することによって決定される。Nelson et al., Nucleic Acids Res., 24:4998-5003 (1996)を参照されたい。
本方法に従う遺伝子における遺伝的変異の検出はまた、「塩基切除配列スキャニング」(BESS)技法に基づくことができる。BESS法は、PCRベースの変異スキャニング法である。ジデオキシシーケンシングのTおよびGラダーに類似するBESS T-ScanおよびBESS G-Trackerが生成される。変異は、正常DNAの配列を変異DNAの配列と比較することによって検出される。例えば、Hawkins et al., Electrophoresis, 20:1171-1176 (1999)を参照されたい。
質量分析は、本方法に従う分子プロファイリングのために使用することができる。Graber et al., Curr. Opin. Biotechnol., 9:14-18 (1998)を参照されたい。例えば、プライマーオリゴ塩基伸長(PROBE(商標))法では、標的核酸が固相支持体に固定化される。プライマーは、分析されるべき座位のすぐ5'上流で標的とアニーリングされる。プライマー伸長は、デオキシリボヌクレオチドとジデオキシリボヌクレオチドとの選択された混合物の存在下で実施される。次いで、結果として生じた新たに伸長したプライマーの混合物は、MALDI-TOFによって分析される。例えば、Monforte et al., Nat. Med., 3:360-362 (1997)を参照されたい。
加えて、マイクロチップまたはマイクロアレイ技法もまた、本方法の検出法に適用可能である。本質的に、マイクロチップでは、多数の異なるオリゴヌクレオチドプローブが基板または担体、例えばシリコンチップまたはガラススライド上にアレイの状態で固定化される。分析されるべき標的核酸配列は、マイクロチップ上の固定化オリゴヌクレオチドプローブと接触させることができる。Lipshutz et al., Biotechniques, 19:442-447 (1995); Chee et al., Science, 274:610-614 (1996); Kozal et al., Nat. Med. 2:753-759 (1996); Hacia et al., Nat. Genet., 14:441-447 (1996); Saiki et al., Proc. Natl. Acad. Sci. USA, 86:6230-6234 (1989); Gingeras et al., Genome Res., 8:435-448 (1998)を参照されたい。あるいは、研究されるべき複数の標的核酸配列が基板上に固定され、プローブのアレイが固定化標的配列と接触される。Drmanac et al., Nat. Biotechnol., 16:54-58 (1998)を参照されたい。変異を検出するための1つまたは複数の上記技法を組み入れている多数のマイクロチップ技法が開発されている。コンピュータ分析ツールと組み合わせたマイクロチップ技法は、大規模迅速スクリーニングを可能にする。本方法へのマイクロチップ技法の適応は、本開示を知らされた当業者に明らかであろう。例えば、Fodorらに対する米国特許第5,925,525号; Wilgenbus et al., J. Mol. Med., 77:761-786 (1999); Graber et al., Curr. Opin. Biotechnol., 9:14-18 (1998); Hacia et al., Nat. Genet., 14:441-447 (1996); Shoemaker et al., Nat. Genet., 14:450-456 (1996); DeRisi et al., Nat. Genet., 14:457-460 (1996); Chee et al., Nat. Genet., 14:610-614 (1996); Lockhart et al., Nat. Genet., 14:675-680 (1996); Drobyshev et al., Gene, 188:45-52 (1997)を参照されたい。
適切な検出技法の上記調査から明らかなように、使用される検出技法に応じて、標的DNA分子の数を増加させるために、標的DNA、すなわち、遺伝子、cDNA、mRNA、miRNA、またはそれらの一部分を増幅させることが必要な場合または必要ない場合がある。例えば、大部分のPCRベースの技法は、標的の一部分の増幅と変異の検出とを組み合わせている。PCR増幅は、当技術分野において周知であり、両方とも参照により本明細書に組み入れられる米国特許第4,683,195号および同第4,800,159号に開示されている。非PCRベースの検出技法について、必要ならば、例えば、インビボプラスミド増殖によって、または大量の組織または細胞試料から標的DNAを精製することによって増幅を達成することができる。一般的に、Sambrook et al., Molecular Cloning: A Laboratory Manual, 2nd ed., Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y., 1989を参照されたい。しかし、乏しい試料を用いる場合であっても、試料中の標的DNAを増幅する必要なしに一塩基置換などの小さな遺伝的変異を検出することができる多数の高感度技法が開発されている。例えば、標的DNAとハイブリダイズすることができる分岐DNAまたはデンドリマーを採用することによって、例えば、標的DNAに対してシグナルを増幅させる技法が開発されている。分岐DNAまたはデンドリマーDNAは、ハイブリダイゼーションプローブがそれに結びつくことでによって検出シグナルを増幅させる複数のハイブリダイゼーション部位を提供する。Detmer et al., J. Clin. Microbiol., 34:901-907 (1996); Collins et al., Nucleic Acids Res., 25:2979-2984 (1997); Horn et al., Nucleic Acids Res., 25:4835-4841 (1997); Horn et al., Nucleic Acids Res., 25:4842-4849 (1997); Nilsen et al., J. Theor. Biol., 187:273-284 (1997)を参照されたい。
Invader(商標)アッセイは、本方法に従う分子プロファイリングのために使用することができる一塩基変異を検出するための別の技法である。Invader(商標)アッセイは、典型的なPCR DNAシーケンシングベースの分析に必要とされる長いターンアラウンド時間を改善する新規な線形シグナル増幅技法を使用する。Cooksey et al., Antimicrobial Agents and Chemotherapy 44:1296-1301 (2000)を参照されたい。このアッセイは、関心対象の標的配列とハイブリダイズして「フラップ」を形成する、2つの重複オリゴヌクレオチドの間に形成された固有の二次構造の切断に基づく。次いで、各「フラップ」は、1時間に数千個のシグナルを生成する。したがって、本技法の結果は、容易に読み取ることができ、本方法は、DNA標的の指数増幅を必要としない。Invader(商標)システムは、DNA標的とハイブリダイズされる2つの短いDNAプローブを使用する。ハイブリダイゼーション事象によって形成される構造は、プローブの1つを切って、短いDNA「フラップ」を放出する特殊な切断酵素によって認識される。次いで、放出された各「フラップ」は、蛍光標識プローブに結合して、別の切断構造を形成する。クリベース酵素が標識プローブを切ると、プローブは検出可能な蛍光シグナルを放出する。例えば、Lyamichev et al., Nat. Biotechnol., 17:292-296 (1999)を参照されたい。
ローリングサークル法は、指数増幅を避ける別の方法である。Lizardi et al., Nature Genetics, 19:225-232 (1998)(参照により本明細書に組み入れられる)。例えば、本方法の商業的な態様であるSniper(商標)は、特定のバリアントの正確な蛍光検出のために設計された高感度高スループットSNPスコアリングシステムである。各ヌクレオチドバリアントについて、2つの直鎖状アレル特異的プローブが設計される。2つのアレル特異的プローブは、3'塩基を除いて同一であり、3'塩基は、バリアント部位を補完するように変えられている。アッセイの第1段階で、標的DNAは変性され、次いで、一本鎖、アレル特異的、オープンサークルオリゴヌクレオチドプローブのペアとハイブリダイズされる。3'塩基が標的DNAを正確に補完する場合、プローブのライゲーションが優先的に起こる。環状化オリゴヌクレオチドプローブのその後の検出は、ローリングサークル増幅によるものであり、その際、増幅したプローブ産物が蛍光によって検出される。Clark and Pickering, Life Science News 6, 2000, Amersham Pharmacia Biotech (2000)を参照されたい。
増幅を一斉に避けるいくつかの他の技法には、例えば、表面増強共鳴ラマン散乱(SERRS)、蛍光相関分光法、および単一分子電気泳動が含まれる。SERRSでは、発色団-核酸コンジュゲートがコロイド銀上に吸収され、発色団の共鳴周波数のレーザ光が照射される。Graham et al., Anal. Chem., 69:4703-4707 (1997)を参照されたい。蛍光相関分光法は、電場における変動光シグナルと捕捉単一分子との間の時空間的相関に基づく。Eigen et al., Proc. Natl. Acad. Sci. USA, 91:5740-5747 (1994)を参照されたい。単一分子電気泳動では、蛍光タグ付き核酸の電気泳動速度は、分子が2つのレーザービーム間の予め決定された距離を進行するために必要な時間を測定することによって決定される。Castro et al., Anal. Chem., 67:3181-3186 (1995)を参照されたい。
加えて、アレル特異的オリゴヌクレオチド(ASO)もまた、試料として組織または細胞を使用するインサイチューハイブリダイゼーションに使用することができる。野生型遺伝子配列または変異を内部にもつ遺伝子配列と差次的にハイブリダイズすることができるオリゴヌクレオチドプローブは、放射性同位元素、蛍光、または他の検出可能なマーカーで標識される場合がある。インサイチューハイブリダイゼーション技法は、当技術分野において周知であり、特定の個体の1つまたは複数の遺伝子におけるヌクレオチドバリアントの存在または非存在を検出するための本方法へのそれらの適応は、本開示を知らされた当業者に明らかなはずである。
したがって、個体における1つまたは複数の遺伝子ヌクレオチドバリアントまたはアミノ酸バリアントの存在または非存在は、上記検出法のいずれかを使用して決定することができる。
典型的には、1つまたは複数の遺伝子のヌクレオチドバリアントまたはアミノ酸バリアントの存在または非存在が決定された後、医師または遺伝カウンセラーまたは患者または他の研究者に結果が知らされる場合がある。具体的には、結果は、他の研究者または医師または遺伝カウンセラーまたは患者に連絡または伝達することができる伝達可能な形態でキャストすることができる。そのような形態は変動することができ、有形または無形であることができる。被験個体における本方法のヌクレオチドバリアントの存在または非存在に関する結果は、説明的記述、図表、写真、チャート、画像または任意の他の視覚形態で具体化することができる。例えば、PCR産物のゲル電気泳動の画像は、結果の説明に使用することができる。個体の遺伝子中にバリアントが存在することを示す図表もまた、試験結果を示すのに有用である。記述および視覚形態は、有形媒体、例えば、紙、コンピュータ可読媒体、例えばフロッピーディスク、コンパクトディスクなど、または無形媒体、例えば、インタネットもしくはイントラネット上の電子メールもしくはウェブサイトの形態の電子媒体に記録することができる。加えて、被験個体におけるヌクレオチドバリアントまたはアミノ酸バリアントの存在または非存在に関する結果はまた、音形態で記録し、任意の適切な媒体、例えば、アナログまたはデジタルケーブル回線、光ファイバーケーブルなどを経由して、電話、ファクシミリ、無線携帯電話、インタネット電話などを介して、伝達することができる。
したがって、試験結果に関する情報およびデータは、世界中のどこでも産生され、異なる場所に伝達されることができる。例えば、遺伝子型決定アッセイが国外で行われた場合、試験結果に関する情報およびデータは、上記のような伝達可能な形態で生成およびキャストされる場合がある。したがって、伝達可能な形態の試験結果を米国内にインポートすることができる。したがって、本方法はまた、個体からの、がんの疑いのある2つまたはそれよりも多い試料の遺伝子型に関する伝達可能な形態の情報を産生するための方法を包含する。本方法は、(1)本方法の方法に従い、試料からDNAの遺伝子型を決定する工程;および(2)決定する工程の結果を伝達可能な形態で具体化する工程を含む。伝達可能な形態は、産生方法の産物である。
インサイチューハイブリダイゼーション
インサイチューハイブリダイゼーションアッセイは周知であり、Angerer et al., Methods Enzymol. 152:649-660 (1987)に一般的に記載されている。インサイチューハイブリダイゼーションアッセイでは、例えば生検からの細胞が、固体支持体、典型的にはガラススライド上に固定される。DNAが探索されることになる場合、細胞は熱またはアルカリで変性される。次いで、細胞が適温のハイブリダイゼーション溶液と接触されて、標識された特異的プローブのアニーリングが可能になる。プローブは、好ましくは例えば、放射性同位元素もしくは蛍光レポーター、または酵素的に標識される。FISH(蛍光インサイチューハイブリダイゼーション)は、高度の配列類似性を示す配列部分にだけ結合する蛍光プローブを使用する。CISH(色素原性インサイチューハイブリダイゼーション)は、標準的な明視野顕微鏡下で可視化される従来のペルオキシダーゼまたはアルカリホスファターゼ反応を使用する。
インサイチューハイブリダイゼーションを使用して、ヌクレオチドプローブの相補鎖を関心対象の配列とハイブリダイズすることによって組織切片または細胞調製物中の特異的遺伝子配列を検出することができる。蛍光インサイチューハイブリダイゼーション(FISH)は、蛍光プローブを使用してインサイチューハイブリダイゼーションの感度を増加させる。
FISHは、細胞中の特異的ポリヌクレオチド配列を検出および位置特定するために使用される細胞遺伝学的技法である。例えば、FISHを使用して、染色体上のDNA配列を検出することができる。FISHを使用して、組織試料内の特異的RNA、例えば、mRNAを検出および位置特定することもできる。FISHは、蛍光プローブを使用し、蛍光プローブは、それらが高度の配列類似性を示す特異的ヌクレオチド配列に結合する。蛍光顕微鏡法を使用して、蛍光プローブが結合するかどうか、およびどこに結合するかを見出すことができる。特異的ヌクレオチド配列、例えば、転座、融合、切断、重複および他の染色体異常を検出することに加えて、FISHは、細胞および組織内の特異的遺伝子コピー数および/または遺伝子発現の時空間的パターンの規定を助けることができる。
様々なタイプのFISHプローブを使用して、染色体転座を検出することができる。二色単一融合プローブは、特異的染色体転座を有する細胞を検出するのに有用であることができる。DNAプローブハイブリダイゼーション標的は、2つの遺伝子切断点の各々の片側に位置する。「エキストラシグナル」プローブは、正常核におけるプローブシグナルのランダム共局在による異常FISHパターンを示している正常細胞の頻度を低減することができる。一方の大きなプローブが1つの切断点にまたがるのに対し、他方のプローブは他方の遺伝子の切断点に隣接する。二色ブレークアパートプローブは、公知の遺伝子切断点に関連した複数の転座パートナーがあり得る場合に有用である。この標識スキームは、1つの遺伝子中の切断点に対して互いに反対側にある標的とハイブリダイズする色の異なる2つのプローブを特徴とする。二色二重融合プローブは、異常なシグナルパターンを示す正常核の数を低減することができる。プローブは、単純な平衡転座を保有する低レベルの核を検出することに利点を与える。大きなプローブは、異なる染色体上の2つの切断点にまたがる。そのようなプローブは、Abbott Laboratories, Abbott Park, ILからVysisプローブとして入手可能である。
CISH、または発色性インサイチューハイブリダイゼーションは、標識された相補的DNAまたはRNA鎖が組織検体中の特異的DNAまたはRNA配列を位置特定するために使用されるプロセスである。CISH方法論を使用して、遺伝子増幅、遺伝子欠失、染色体転座、および染色体数を評価することができる。CISHは、標準的な明視野顕微鏡下で可視化される、従来の酵素検出方法論、例えば、ホースラディッシュペルオキシダーゼまたはアルカリホスファターゼ反応を使用することができる。通常の態様では、関心対象の配列を認識するプローブが試料と接触される。例えばプローブによって保有される標識を介して、プローブを認識する抗体または他の結合剤を使用して、プローブの部位に酵素検出システムを標的指向することができる。いくつかのシステムでは、抗体は、FISHプローブの標識を認識し、それにより、FISHおよびCISH検出の両方を使用して試料を分析可能にすることができる。CISHを使用して、複数の設定、例えば、ホルマリン固定パラフィン包埋(FFPE)組織、血液もしくは骨髄スメア、分裂中期染色体スプレッド、および/または固定された細胞において核酸を評価することができる。ある態様では、CISHは、Life Technologies(Carlsbad, CA)から入手可能なSPoT-Light(登録商標)HER2 CISHキットまたはLife Technologiesから入手可能な類似のCISH製品の方法論に従って行われる。SPoT-Light(登録商標)HER2 CISHキット自体は、インビトロ診断のためにFDAから承認されており、HER2の分子プロファイリングのために使用することができる。CISHは、FISHと類似の用途に使用することができる。したがって、当業者は、本明細書におけるFISHを使用する分子プロファイリングへの参照が、特に規定がない限りCISHを使用して行うことができることを認識しているであろう。
銀強化インサイチューハイブリダイゼーション(SISH)は、CISHと類似しているが、SISHを用いると、CISHの色素原沈殿の代わりに銀沈殿によりシグナルが黒の着色として出現する。
インサイチューハイブリダイゼーション技法の改変を、本方法に従う分子プロファイリングのために使用することができる。そのような改変は、複数の標的の同時検出、例えば、二重ISH、二色CISH、明視野ダブルインサイチューハイブリダイゼーション(BDISH)を含む。例えば、Ventana Medical Systems, Inc.(Tucson, AZ)からのFDA承認されたINFORM HER2 Dual ISH DNAプローブカクテルキット;DuoCISH(商標)、Dako Denmark A/S (Denmark)によって開発された二色CISHキットを参照されたい。
比較ゲノムハイブリダイゼーション(CGH)は、染色体および染色体以下(subchromosomal)のレベルでコピー数変化について特徴的なパターンを示す遺伝子変化について腫瘍試料をスクリーニングする分子細胞遺伝学的方法を含む。パターンの変更は、DNAの獲得および喪失として分類することができる。CGHは、インサイチューハイブリダイゼーションの速度論を採用して、試料からの異なるDNAもしくはRNA配列のコピー数、または1つの試料中の異なるDNAもしくはRNA配列のコピー数を、別の試料中の実質的に同一の配列のコピー数と比較する。CGHの多くの有用な用途で、DNAまたはRNAは、対象細胞または細胞集団から単離される。比較は、定性的または定量的であることができる。絶対コピー数が公知であるか、または1つもしくは数個の配列について決定される場合、細胞または細胞集団のゲノム全体にわたるDNA配列の絶対コピー数の決定を可能にする手順が記載されている。異なる配列は、基準ゲノム、通常は分裂中期染色体、ある特定の場合には分裂間期核とハイブリダイズされたときに、それらの結合部位の位置が異なることによって相互に識別される。コピー数情報は、基準ゲノム上の異なる位置間のハイブリダイゼーションシグナルの強度の比較に由来する。CGHの方法、技法および適用は、例えば米国特許第6,335,167号、および米国特許出願第60/804,818号に記載されるように公知であり、その関連する部分は、参照により本明細書に組み入れられる。
ある態様では、CGHは、罹患組織と健康な組織との間で核酸を比較するために使用される。本方法は、罹患組織(例えば、腫瘍)および基準組織(例えば、健康な組織)からDNAを単離する工程、および異なる「色」または蛍光で各々を標識する工程を含む。2つの試料は混合され、正常な分裂中期染色体とハイブリダイズされる。アレイまたはマトリックスCGHの場合、ハイブリダイゼーションの混合は、数千個のDNAプローブを用いてスライド上で行われる。基本的に染色体に沿って色彩比を決定して、基準と比較して罹患試料で獲得または喪失され得るDNA領域を決定する、多様な検出システムを使用することができる。
分子プロファイリング法
図1Iは、患者の生体検体の分子プロファイリングを使用する、特定の病状について個別化された医学的介入を決定するためのシステム10の説明的な態様のブロック図を示す。システム10は、ユーザインターフェース12と、データ処理のためのプロセッサ16を含むホストサーバ14と、プロセッサに結合されたメモリ18と、メモリ18に記憶され、プロセッサ16によるデータ処理を指示するためのプロセッサ16によってアクセス可能なアプリケーションプログラム20と、複数の内部データベース22および外部データベース24と、有線または無線通信ネットワーク26(例えばインタネットなど)とのインターフェースとを含む。システム10はまた、ユーザインターフェース12から受信されるデータからデジタルデータを入力するための、プロセッサ16と結合された入力ディジタイザ28を含む場合がある。
ユーザインターフェース12は、システム10にデータを入力するため、およびプロセッサ16によって処理されたデータから得られる情報をディスプレイするための、入力デバイス30およびディスプレイ32を含む。ユーザインターフェース12はまた、標的についての試験結果および試験結果に基づき提案される薬物療法を含み得る患者レポートなどの、プロセッサ16によって処理されたデータから得られた情報を印刷するためのプリンタ34を含む場合がある。
内部データベース22は、患者の生体試料/検体の情報およびトラッキング、臨床データ、患者データ、患者トラッキング、ファイル管理、研究プロトコル、分子プロファイリングからの患者の試験結果、ならびに請求書作成情報およびトラッキングを含む場合があるが、それに限定されるわけではない。外部データベース24は、薬物ライブラリ、遺伝子ライブラリ、疾患ライブラリ、ならびにUniGene、OMIM、GO、TIGR、GenBank、KEGGおよびBiocartaなどの公的および私用データベースを含む場合があるが、それに限定されるわけではない。
様々な方法が、システム10に従って使用される場合がある。図2A~Cは、疾患非特異的である患者の生体検体の分子プロファイリングを使用する特定の病状についての個別化された医学的介入を決定するための方法の説明的な態様のフローチャートを示す。疾患系統の診断に依存しない(すなわち、単一の疾患に限定されない)分子プロファイリングを使用する特定の病状についての医学的介入を決定するために、罹患した患者の生体試料に少なくとも1つの分子検査が行われる。生体試料は、腫瘍の生検を採取すること、最近の腫瘍が入手不可能な場合は最小限の侵襲的手術を行うこと、患者の血液の試料、または細胞抽出物、核抽出物、細胞溶解物もしくは生物学的産物もしくは生物学的起源の物質、例えば排泄物、血液、血清、血漿、尿、痰、涙液、大便、唾液、膜抽出物などを含むが、それに限定されるわけではない任意の他の生物流体の試料を得ることによって罹患した患者から得られる。
標的は、分子検査から得られる場合がある任意の分子的知見であり得る。例えば、標的は、1つまたは複数の遺伝子またはタンパク質を含む場合がある。例えば、遺伝子のコピー数多型の存在を決定することができる。図2に示すように、そのような標的を見出すための検査は、NGS、IHC、蛍光インサイチューハイブリダイゼーション(FISH)、インサイチューハイブリダイゼーション(ISH)、および当業者に公知の他の分子検査を含むことができるが、それに限定されるわけではない。
さらに、本明細書に開示される方法は、1つよりも多い標的をプロファイリングする工程を含む。非制限的な例として、複数の遺伝子のコピー数、またはコピー数多型(CNV)の存在を特定することができる。さらに、試料における複数の標的の特定は、1つの方法または様々な手段によることができる。例えば、第1の遺伝子のCNVの存在は、1つの方法(例えばNGS)によって決定することができ、第2の遺伝子のCNVの存在は、異なる方法(例えば断片分析)によって決定することができる。あるいは、同じ方法を使用して(例えばNGSを用いて)、第1の遺伝子および第2の遺伝子の両方におけるCNVの存在を検出することができる。
がんの個別の特徴を決定するために検査結果がコンパイルされ得る。がんの特徴を決定した後、例えばベネフィットがある可能性が高い治療およびベネフィットがない可能性が高い治療を含む、治療レジメンが特定され得る。
最終的に、様々な標的についての患者の検査結果およびそれらの結果に基づく任意の提案される治療法を含む患者のプロファイルレポートが、提供される場合がある。
本明細書に記載されるようなシステムを使用して、分子プロファイルを特定してがんを調べる工程を自動化することができる。局面では、分子プロファイルを含むレポートを作成するために本方法を使用することができる。本方法は、対象からの試料に分子プロファイリングを行って、複数のがんバイオマーカーの特徴を調べる工程、および調べられた特徴を含むレポートをリストにコンパイルし、それにより、試料についての分子プロファイルを特定するレポートを作成する工程を含むことができる。レポートは、調べられた特徴に基づき複数の治療選択肢の可能性のあるベネフィットを説明し、それにより、対象のための候補治療選択肢を特定するリストをさらに含むことができる。このレポートでは、調べられた特徴に基づいて、可能性のある、ベネフィットがない可能性が高い治療または不確定なベネフィットの治療を提案することもできる。
治療の選択のための分子プロファイリング
本明細書に記載されるような方法は、それを必要とする対象のための候補治療の選択を提供する。分子プロファイリングを使用して、本明細書に開示される1つまたは複数のバイオマーカーが治療についての標的である状態を患う個体のための1つまたは複数の候補治療剤を特定することができる。例えば、本方法は、がんのための1つまたは複数の化学療法治療を特定することができる。ある局面では、本方法は、少なくとも1つのバイオマーカーに少なくとも1つの分子プロファイリング技法を行う工程を含む方法を提供する。本明細書に記載されるまたは当技術分野において公知の1つまたは複数の分子プロファイリング技法を使用して、任意の関連するバイオマーカーを調べることができる。マーカーは、有用であるべき治療といくらかの直接的または間接的関連だけを有する必要がある。任意の関連する分子プロファイリング技法、例えば本明細書に開示されるものを行うことができる。これらは、タンパク質および核酸分析技法を含むことができるが、それに限定されるわけではない。タンパク質分析技法には、非限定的な例として、イムノアッセイ、免疫組織化学、および質量分析が含まれる。核酸分析技法には、非限定的な例として、増幅、ポリメラーゼ連鎖増幅、ハイブリダイゼーション、マイクロアレイ、インサイチューハイブリダイゼーション、シーケンシング、色素ターミネーターシーケンシング、次世代シーケンシング、パイロシーケンシング、および制限断片分析が含まれる。
分子プロファイリングは、行われる各アッセイ技法について少なくとも1つの遺伝子(または遺伝子産物)のプロファイリングを含む場合がある。異なる数の遺伝子は、異なる技法でアッセイすることができる。標的療法と直接的または間接的に関連する、本明細書に開示される任意のマーカーを調べることができる。例えば、小分子などの治療剤または抗体などの結合剤を用いてモジュレートすることができる標的を含む任意の「新薬の開発につながるような(druggable)標的」は、本明細書に記載されるような分子プロファイリング法に含めるための候補である。標的はまた、関連した薬物によって影響される生物学的経路の成分のように、間接的に薬物に関連することができる。分子プロファイリングは、遺伝子、例えば、DNA配列、および/または遺伝子産物、例えば、mRNAもしくはタンパク質のいずれかに基づくことができる。そのような核酸および/またはポリペプチドは、存在もしくは非存在、レベルもしくは量、活性、変異、配列、ハプロタイプ、再編成、コピー数、または他の測定可能な特徴などに関して適宜プロファイリングすることができる。いくつかの態様では、単一の遺伝子および/または1つもしくは複数の対応する遺伝子産物は、1つよりも多い分子プロファイリング技法によってアッセイされる。遺伝子または遺伝子産物(本明細書において「マーカー」または「バイオマーカー」とも称される)、例えば、mRNAまたはタンパク質は、ISH、遺伝子発現、IHC、シーケンシングまたはイムノアッセイを含むが、それに限定されるわけではない適用可能な技法(例えば、DNA、RNA、タンパク質を調べるためのもの)を使用して調べられる。したがって、本明細書に開示される任意のマーカーは、単一分子プロファイリング技法によって、または本明細書に開示される複数の方法によってアッセイすることができる(例えば、単一のマーカーがIHC、ISH、シーケンシング、マイクロアレイなどのうち1つまたは複数によってプロファイリングされる)。いくつかの態様では、少なくとも約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95個または少なくとも約100個の遺伝子または遺伝子産物が、少なくとも1つの技法、複数の技法によって、またはISH、IHC、遺伝子発現、遺伝子コピー、およびシーケンシングの任意の所望の組み合わせを使用して、プロファイリングされる。いくつかの態様では、少なくとも約100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、21,000、22,000、23,000、24,000、25,000、26,000、27,000、28,000、29,000、30,000、31,000、32,000、33,000、34,000、35,000、36,000、37,000、38,000、39,000、40,000、41,000、42,000、43,000、44,000、45,000、46,000、47,000、48,000、49,000、または少なくとも50,000個の遺伝子または遺伝子産物が、様々な技法を使用してプロファイリングされる。アッセイされたマーカーの数は、使用される技法に依存することができる。例えば、マイクロアレイおよび超並列シーケンシングは、高スループット分析の役に立つ。分子プロファイリングは腫瘍自体の分子的特徴を問い合わせるので、この手法は、さもなければ腫瘍系統に基づき考慮されない場合がある治療に関する情報を提供する。
いくつかの態様では、それを必要とする対象からの試料は、以下:ABCC1、ABCG2、ACE2、ADA、ADH1C、ADH4、AGT、AR、AREG、ASNS、BCL2、BCRP、BDCA1、ベータIIIチューブリン、BIRC5、B-RAF、BRCA1、BRCA2、CA2、カベオリン、CD20、CD25、CD33、CD52、CDA、CDKN2A、CDKN1A、CDKN1B、CDK2、CDW52、CES2、CK14、CK17、CK5/6、c-KIT、c-Met、c-Myc、COX-2、サイクリンD1、DCK、DHFR、DNMT1、DNMT3A、DNMT3B、E-カドヘリン、ECGF1、EGFR、EML4-ALK融合体、EPHA2、エピレギュリン、ER、ERBR2、ERCC1、ERCC3、EREG、ESR1、FLT1、葉酸受容体、FOLR1、FOLR2、FSHB、FSHPRH1、FSHR、FYN、GART、GNA11、GNAQ、GNRH1、GNRHR1、GSTP1、HCK、HDAC1、hENT-1、Her2/Neu、HGF、HIF1A、HIG1、HSP90、HSP90AA1、HSPCA、IGF-1R、IGFRBP、IGFRBP3、IGFRBP4、IGFRBP5、IL13RA1、IL2RA、KDR、Ki67、KIT、K-RAS、LCK、LTB、リンホトキシンベータ受容体、LYN、MET、MGMT、MLH1、MMR、MRP1、MS4A1、MSH2、MSH5、Myc、NFKB1、NFKB2、NFKBIA、NRAS、ODC1、OGFR、p16、p21、p27、p53、p95、PARP-1、PDGFC、PDGFR、PDGFRA、PDGFRB、PGP、PGR、PI3K、POLA、POLA1、PPARG、PPARGC1、PR、PTEN、PTGS2、PTPN12、RAF1、RARA、ROS1、RRM1、RRM2、RRM2B、RXRB、RXRG、SIK2、SPARC、SRC、SSTR1、SSTR2、SSTR3、SSTR4、SSTR5、サバイビン、TK1、TLE3、TNF、TOP1、TOP2A、TOP2B、TS、TUBB3、TXN、TXNRD1、TYMS、VDR、VEGF、VEGFA、VEGFC、VHL、YES1、ZAP70、または表2~8の任意の1つに記載されるバイオマーカーのうち、1つまたは複数についての、IHC分析、遺伝子発現分析、ISH分析、および/またはシーケンシング分析(例えばPCR、RT-PCR、パイロシーケンシング、NGSによる)を含むが、それに限定されるわけではない方法を使用してプロファイリングされる。
当業者によって理解されるように、遺伝子およびタンパク質は、科学文献でいくつかの代替名を確立している。本明細書において使用される遺伝子の別名のリストおよび説明は、GeneCards(登録商標)(www.genecards.org)、HUGO Gene Nomenclature(www.genenames.org)、Entrez Gene(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene)、UniProtKB/Swiss-Prot(www.uniprot.org)、UniProtKB/TrEMBL(www.uniprot.org)、OMIM(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM)、GeneLoc(genecards.weizmann.ac.il/geneloc/)、およびEnsembl(www.ensembl.org)を含む多様なオンラインデータベースを使用して見出すことができる。例えば、本明細書において使用される遺伝子記号および遺伝子名は、HUGOによって承認されたものに対応することができ、タンパク質名は、UniProtKB/Swiss-Protによって推奨されるものであることができる。本明細書において、タンパク質名が前駆体を示す場合、成熟タンパク質も意味される。本出願にわたり、遺伝子記号およびタンパク質記号は互換的に使用される場合があり、意味は文脈から得ることができ、例えば、ISHまたはNGSは、核酸を分析するために使用することができ、一方でIHCはタンパク質を分析するために使用される。
本明細書に記載されるような分子プロファイルを提供するために調べられるべき遺伝子および遺伝子産物の選択は、新しい治療および新しい薬物標的が特定されたときに経時的に最新のものにすることができる。例えば、バイオマーカーの発現または変異が治療選択肢と相関された後、それを分子プロファイリングによって調べることができる。当業者は、そのような分子プロファイリングが本明細書に開示される技法に限定されるのでなく、核酸またはタンパク質のレベル、配列情報、またはその両方を調べるための従来の任意の方法論も含むことを認識している。本明細書に記載されるような方法はまた、現行の方法への任意の改良または将来的に開発される新しい分子プロファイリング技法を活用することができる。いくつかの態様では、遺伝子または遺伝子産物は、単一分子プロファイリング技法によって調べられる。他の態様では、遺伝子および/または遺伝子産物は、複数の分子プロファイリング技法によって調べられる。非限定的な例では、遺伝子配列は、NGS、ISHおよびパイロシーケンシング分析のうち1つまたは複数によってアッセイすることができ、mRNA遺伝子産物は、NGS、RT-PCRおよびマイクロアレイのうち1つまたは複数によってアッセイすることができ、タンパク質遺伝子産物は、IHCおよびイムノアッセイのうち1つまたは複数によってアッセイすることができる。当業者は、疾患治療から恩恵を受けるであろう、バイオマーカーと分子プロファイリング技法との任意の組み合わせが本方法によって考えられることを認識しているであろう。
がんに役割を演じることが公知であり、本明細書に記載されるような任意の分子プロファイリング技法によってアッセイすることができる遺伝子および遺伝子産物には、2007年11月29日に公開された国際特許公報WO/2007/137187(国際出願番号PCT/US2007/069286);2010年4月22日に公開されたWO/2010/045318(国際出願番号PCT/US2009/060630);2010年8月19日に公開されたWO/2010/093465(国際出願番号PCT/US2010/000407);2012年12月13日に公開されたWO/2012/170715(国際出願番号PCT/US2012/041393);2014年6月12日に公開されたWO/2014/089241(国際出願番号PCT/US2013/073184);2011年5月12日に公開されたWO/2011/056688(国際出願番号PCT/US2010/054366);2012年7月5日に公開されたWO/2012/092336(国際出願番号PCT/US2011/067527);2015年8月6日に公開されたWO/2015/116868(国際出願番号PCT/US2015/013618);2017年3月30日に公開されたWO/2017/053915(国際出願番号PCT/US2016/053614);2016年9月9日に公開されたWO/2016/141169(国際出願番号PCT/US2016/020657);および2018年9月27日に公開されたWO2018175501(国際出願番号PCT/US2018/023438)のいずれかに挙げられるものが含まれるが、それに限定されるわけではなく、これらの公報の各々は、その全体で参照により本明細書に組み入れられる。
変異プロファイリングは、サンガーシーケンシング、アレイシーケンシング、パイロシーケンシング、ハイスループットシーケンシング、または次世代(NGS、NextGen)シーケンシングなどを含むシーケンシングによって決定することができる。配列分析は、遺伝子が活性化変異を内部にもつことを明らかにする場合があり、その結果、活性を阻害する薬物が治療のために指示される。あるいは、配列分析は、遺伝子が活性を阻害または除去する変異を内部にもつことを明らかにする場合があり、それにより、代償療法のための治療が指示される。いくつかの態様では、配列分析は、c-KITのエキソン9および11の配列を含む。シーケンシングはまた、EGFR-キナーゼドメインのエキソン18、19、20、および21に行われる場合がある。EGFRまたはそのファミリーメンバーの変異、増幅または誤調節は、すべての上皮がんの約30%に関係している。シーケンシングはまた、PIK3CA遺伝子によってコードされるPI3Kに行うことができる。この遺伝子は、多くのがんで変異していることが見出されている。シーケンシング分析はまた、1つまたは複数のABCC1、ABCG2、ADA、AR、ASNS、BCL2、BIRC5、BRCA1、BRCA2、CD33、CD52、CDA、CES2、DCK、DHFR、DNMT1、DNMT3A、DNMT3B、ECGF1、EGFR、EPHA2、ERBB2、ERCC1、ERCC3、ESR1、FLT1、FOLR2、FYN、GART、GNRH1、GSTP1、HCK、HDAC1、HIF1A、HSP90AA1、IGFBP3、IGFBP4、IGFBP5、IL2RA、KDR、KIT、LCK、LYN、MET、MGMT、MLH1、MS4A1、MSH2、NFKB1、NFKB2、NFKBIA、NRAS、OGFR、PARP1、PDGFC、PDGFRA、PDGFRB、PGP、PGR、POLA1、PTEN、PTGS2、PTPN12、RAF1、RARA、RRM1、RRM2、RRM2B、RXRB、RXRG、SIK2、SPARC、SRC、SSTR1、SSTR2、SSTR3、SSTR4、SSTR5、TK1、TNF、TOP1、TOP2A、TOP2B、TXNRD1、TYMS、VDR、VEGFA、VHL、YES1、およびZAP70における変異を調べることを含むことができる。以下の遺伝子のうち1つまたは複数も、配列分析によって調べることができる:ALK、EML4、hENT-1、IGF-1R、HSP90AA1、MMR、p16、p21、p27、PARP-1、PI3KおよびTLE3。変異または配列分析のために使用される遺伝子および/または遺伝子産物は、WO2018175501の表4~12のうちいずれか、例えば、WO2018175501の表5~10のうちいずれか、またはWO2018175501の表7~10のうちいずれかに挙げられた遺伝子および/または遺伝子産物のうち少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500個またはすべてであることができる。
諸態様では、本明細書に記載されるような方法は、2007年11月29日に公開された国際特許公報WO/2007/137187(国際出願番号PCT/US2007/069286);2010年4月22日に公開されたWO/2010/045318(国際出願番号PCT/US2009/060630);2010年8月19日に公開されたWO/2010/093465(国際出願番号PCT/US2010/000407);2012年12月13日に公開されたWO/2012/170715(国際出願番号PCT/US2012/041393);2014年6月12日に公開されたWO/2014/089241(国際出願番号PCT/US2013/073184);2011年5月12日に公開されたWO/2011/056688(国際出願番号PCT/US2010/054366);2012年7月5日に公開されたWO/2012/092336(国際出願番号PCT/US2011/067527);2015年8月6日に公開されたWO/2015/116868(国際出願番号PCT/US2015/013618);2017年3月30日に公開されたWO/2017/053915(国際出願番号PCT/US2016/053614);2016年9月9日に公開されたWO/2016/141169(国際出願番号PCT/US2016/020657);および2018年9月27日に公開されたWO/2018/175501(国際出願番号PCT/US2018/023438)のいずれかに挙げられるものなどの遺伝子融合を検出するために使用され、これら公報の各々は、その全体で参照により本明細書に組み入れられる。融合遺伝子は、以前は別々であった2つの遺伝子の近位によって生み出されるハイブリッド遺伝子である。これは、染色体の転座もしくは逆位、欠失によって、またはトランススプライシングを介して起こることができる。結果として生じる融合遺伝子は、遺伝子の異常な時間および空間的発現を引き起こすことができ、細胞の腫瘍性形質転換および腫瘍の創出の一因となる細胞成長因子、血管形成因子、腫瘍プロモーターまたは他の因子の異常発現をもたらす。例えば、そのような融合遺伝子は:1)細胞成長因子のコード領域、腫瘍プロモーター、もしくは発がんを促進し、高い遺伝子発現をもたらす他の遺伝子の隣の1つの遺伝子の強いプロモーター領域の近位により、または2)キメラ遺伝子、したがって異常な活性を有するキメラタンパク質を生じる、2つの異なる遺伝子のコード領域の融合により発がん性であることができる。融合遺伝子は、多くのがんの特徴である。ひとたび治療的介入が融合と関連すれば、任意のタイプのがんにおける融合の存在により、がんを治療するための候補療法としての治療的介入が特定される。
融合遺伝子の存在を使用して、治療法の選択をガイドすることができる。例えば、BCR-ABL遺伝子融合体は、慢性骨髄性白血病(CML)の約90%および急性白血病のサブセットにおける特徴的な分子異常である(Kurzrock et al., Annals of Internal Medicine 2003; 138:819-830)。BCR-ABLは、通常フィラデルフィア染色体またはフィラデルフィア転座と称される9番染色体と22番染色体との間の転座に起因する。転座は、BCR遺伝子の5'領域およびABL1の3'領域を一緒にまとめ、構成的に活性なチロシンキナーゼ活性を有するタンパク質をコードするキメラBCR-ABL1遺伝子を生成する(Mittleman et al., Nature Reviews Cancer 2007; 7:233-245)。異常チロシンキナーゼ活性は、調節解除された細胞シグナル伝達、細胞成長および細胞生存、アポトーシス抵抗性および成長因子非依存性をもたらし、これらのすべてが、白血病の病態生理の一因となる(Kurzrock et al., Annals of Internal Medicine 2003; 138:819-830。フィラデルフィア染色体を有する患者は、イマチニブおよび他の標的化療法で治療される。イマチニブは、融合タンパク質の構成的チロシンキナーゼ活性の部位に結合し、その活性を阻止する。イマチニブ治療は、BCR-ABL+ CML患者において分子応答(BCR-ABL+血液細胞の消失)をもたらし、無増悪生存期間を改善した(Kantarjian et al., Clinical Cancer Research 2007; 13:1089-1097)。
別の融合遺伝子、IGH-MYCは、バーキットリンパ腫の約80%の決定的な特徴である(Ferry et al. Oncologist 2006; 11:375-83)。この原因の事象は、8番染色体と14番染色体との間の転座であって、この転座は、c-Mycがん遺伝子を免疫グロブリン重鎖遺伝子の強いプロモーターの隣に置き、c-mycの過剰発現を引き起こす(Mittleman et al., Nature Reviews Cancer 2007; 7:233-245)。c-myc再編成は、永久増殖状態を結果として生じるので、リンパ腫形成の枢軸となる事象である。それは、細胞周期、細胞分化、アポトーシス、および細胞接着を通じて進行に広範囲の影響を有する(Ferry et al. Oncologist 2006; 11:375-83)。
いくつかの反復性融合遺伝子は、Mittlemanデータベース(cgap.nci.nih.gov/Chromosomes/Mitelman)にカタログ作成されている。遺伝子融合を使用して、新生物およびがんを特徴付け、本明細書に記載される対象方法を使用する治療法をガイドすることができる。例えば、TMPRSS2-ERG、TMPRSS2-ETVおよびSLC45A3-ELK4融合体を検出して、前立腺がんを特徴づけることができ;ETV6-NTRK3およびODZ4-NRG1を使用して、乳がんを特徴付けることができる。EML4-ALK、RLF-MYCL1、TGF-ALK、またはCD74-ROS1融合体を使用して、肺がんを特徴付けることができる。ACSL3-ETV1、C15ORF21-ETV1、FLJ35294-ETV1、HERV-ETV1、TMPRSS2-ERG、TMPRSS2-ETV1/4/5、TMPRSS2-ETV4/5、SLC5A3-ERG、SLC5A3-ETV1、SLC5A3-ETV5またはKLK2-ETV4融合体を使用して、前立腺がんを特徴付けることができる。GOPC-ROS1融合体を使用して、脳がんを特徴付けることができる。CHCHD7-PLAG1、CTNNB1-PLAG1、FHIT-HMGA2、HMGA2-NFIB、LIFR-PLAG1、またはTCEA1-PLAG1融合体を使用して、頭頸部がんを特徴付けることができる。ALPHA-TFEB、NONO-TFE3、PRCC-TFE3、SFPQ-TFE3、CLTC-TFE3、またはMALAT1-TFEB融合体を使用して、腎細胞がん(RCC)を特徴付けることができる。AKAP9-BRAF、CCDC6-RET、ERC1-RETM、GOLGA5-RET、HOOK3-RET、HRH4-RET、KTN1-RET、NCOA4-RET、PCM1-RET、PRKARA1A-RET、RFG-RET、RFG9-RET、Ria-RET、TGF-NTRK1、TPM3-NTRK1、TPM3-TPR、TPR-MET、TPR-NTRK1、TRIM24-RET、TRIM27-RETまたはTRIM33-RET融合体を使用して甲状腺がんおよび/または甲状腺乳頭がんを特徴付けることができ;PAX8-PPARy融合体を分析して、濾胞性甲状腺がんを特徴付けることができる。血液悪性腫瘍に関連する融合体には、TTL-ETV6、CDK6-MLL、CDK6-TLX3、ETV6-FLT3、ETV6-RUNX1、ETV6-TTL、MLL-AFF1、MLL-AFF3、MLL-AFF4、MLL-GAS7、TCBA1-ETV6、TCF3-PBX1またはTCF3-TFPT(これらは、急性リンパ芽球性白血病(ALL)の特徴である);BCL11B-TLX3、IL2-TNFRFS17、NUP214-ABL1、NUP98-CCDC28A、TAL1-STIL、またはETV6-ABL2(これらは、T細胞性急性リンパ芽球性白血病(T-ALL)の特徴である);ATIC-ALK、KIAA1618-ALK、MSN-ALK、MYH9-ALK、NPM1-ALK、TGF-ALKまたはTPM3-ALK(これらは、未分化大細胞リンパ腫(ALCL)の特徴である);慢性骨髄性白血病(CML)の特徴であるBCR-ABL1、BCR-JAK2、ETV6-EVI1、ETV6-MN1またはETV6-TCBA1;CBFB-MYH11、CHIC2-ETV6、ETV6-ABL1、ETV6-ABL2、ETV6-ARNT、ETV6-CDX2、ETV6-HLXB9、ETV6-PER1、MEF2D-DAZAP1、AML-AFF1、MLL-ARHGAP26、MLL-ARHGEF12、MLL-CASC5、MLL-CBL、MLL-CREBBP、MLL-DAB21P、MLL-ELL、MLL-EP300、MLL-EPS15、MLL-FNBP1、MLL-FOXO3A、MLL-GMPS、MLL-GPHN、MLL-MLLT1、MLL-MLLT11、MLL-MLLT3、MLL-MLLT6、MLL-MYO1F、MLL-PICALM、MLL-SEPT2、MLL-SEPT6、MLL-SORBS2、MYST3-SORBS2、MYST-CREBBP、NPM1-MLF1、NUP98-HOXA13、PRDM16-EVI1、RABEP1-PDGFRB、RUNX1-EVI1、RUNX1-MDS1、RUNX1-RPL22、RUNX1-RUNX1T1、RUNX1-SH3D19、RUNX1-USP42、RUNX1-YTHDF2、RUNX1-ZNF687、またはTAF15-ZNF-384(これらは、急性骨髄性白血病(AML)の特徴である);CCND1-FSTL3(これは、慢性リンパ性白血病(CLL)の特徴である);BCL3-MYC、MYC-BTG1、BCL7A-MYC、BRWD3-ARHGAP20またはBTG1-MYC(これらは、B細胞性慢性リンパ性白血病(B-CLL)の特徴である);CITTA-BCL6、CLTC-ALK、IL21R-BCL6、PIM1-BCL6、TFCR-BCL6、IKZF1-BCL6またはSEC31A-ALK(これらは、びまん性大細胞型B細胞性リンパ腫(DLBCL)の特徴である);FLIP1-PDGFRA、FLT3-ETV6、KIAA1509-PDGFRA、PDE4DIP-PDGFRB、NIN-PDGFRB、TP53BP1-PDGFRB、またはTPM3-PDGFRB(これらは、過好酸球増加症/慢性好酸球増加症の特徴である);およびIGH-MYCまたはLCP1-BCL6(これらは、バーキットリンパ腫の特徴である)が含まれるが、それに限定されるわけではない。当業者は、今のところまだ特定されていないものを含む追加的な融合体の存在がひとたび治療的介入と関連するならば、それらを使用して治療をガイドできることを理解するであろう。
融合遺伝子および遺伝子産物は、本明細書に記載される1つまたは複数の技法を使用して検出することができる。いくつかの態様では、遺伝子または対応するmRNAの配列は、例えば、サンガーシーケンシング、NGS、パイロシーケンシング、DNAマイクロアレイなどを使用して決定される。染色体異常は、とりわけISH、NGSまたはPCR技法を使用して調べることができる。例えば、EML4-ALK、KIF5B-ALKおよび/またはTFG-ALKなどのALK融合体のISH検出のためにブレークアパートプローブを使用することができる。代替として、PCRを使用して融合産物を増幅させることができ、その際、増幅またはその欠如は、それぞれ融合体の存在または非存在を示す。例えばNGSを使用して、mRNAをシーケンシングして、そのような融合体を検出することができる。例えば、WO2018175501の表9または表12を参照されたい。いくつかの態様では、融合タンパク質の融合が検出される。タンパク質分析に適した方法には、質量分析、電気泳動(例えば、2Dゲル電気泳動もしくはSDS-PAGE)またはイムノアッセイ、タンパク質アレイもしくは免疫組織化学を含む抗体関連技法が含まれるが、それに限定されるわけではない。これらの技法を組み合わせることができる。非限定的な例として、NGSによるALK融合の指標は、IHCを使用するISHもしくはALKの発現によって確認することができ、または逆もまた同様である。
治療の選択のための分子プロファイリング標的
本明細書に記載されるシステムおよび方法は、分子プロファイリングに基づき提案された治療有効性を有する1つまたは複数の治療レジメンを特定可能にする。分子プロファイリングを使用して治療レジメンを特定するための例証的なスキームは、くまなく提供される。追加的なスキームは、2007年11月29日に公開された国際特許公報WO/2007/137187(国際出願番号PCT/US2007/069286);2010年4月22日に公開されたWO/2010/045318(国際出願番号PCT/US2009/060630);2010年8月19日に公開されたWO/2010/093465(国際出願番号PCT/US2010/000407);2012年12月13日に公開されたWO/2012/170715(国際出願番号PCT/US2012/041393);2014年6月12日に公開されたWO/2014/089241(国際出願番号PCT/US2013/073184);2011年5月12日に公開されたWO/2011/056688(国際出願番号PCT/US2010/054366);2012年7月5日に公開されたWO/2012/092336(国際出願番号PCT/US2011/067527);2015年8月6日に公開されたWO/2015/116868(国際出願番号PCT/US2015/013618);2017年3月30日に公開されたWO/2017/053915(国際出願番号PCT/US2016/053614);2016年9月9日に公開されたWO/2016/141169(国際出願番号PCT/US2016/020657);および2018年9月27日に公開されたWO2018175501(国際出願番号PCT/US2018/023438)に記載されており、これらの公報の各々は、その全体で参照により本明細書に組み入れられる。
本明細書に記載の方法は、治療ベネフィットとの関連性を示唆するための、分子プロファイリング結果の使用を含む。いくつかの態様では、分子プロファイリング検査結果に基づいて提案される化学療法治療を提供するために、規則が用いられる。規則は、「バイオマーカーが陽性であれば、治療選択肢1、そうでなければ治療選択肢2」のようなフォーマット、またはその変形フォーマットで構築することができる。治療選択肢は、単剤療法(例えば、5-FU)による治療または併用レジメン(例えば、大腸がんのためのFOLFOXまたはFOLFIRIレジメン)による治療を含む。いくつかの態様では、2つまたはそれ以上のバイオマーカーの相互作用を伴うより複雑な規則が構築される。最後に、予測される治療ベネフィットとバイオマーカーとの関連性および任意で選択された治療を裏付ける最も有力な証拠の要約文を記載するレポートを作成することができる。最終的には、治療にあたる医師が治療の最善方針について決定するであろう。レポートはまた、ベネフィットの欠如が予測される治療も列記してよい。
個体に対する候補治療の選択は、記載される方法のいずれか1つまたは複数からの分子プロファイリング結果に基づくことができる。
いくつかの態様では、対照、例えば、二倍体レベルと比較して、試料中に1つまたは複数の遺伝子のコピー数またはコピー数多型(CNV;またはコピー数変化、CNA)が存在するかどうかを決定するために、分子プロファイリングアッセイが実施される。1つまたは複数の遺伝子のCNVは、患者の治療にベネフィットを有するまたはベネフィットの欠如を有すると予測されるレジメンを選択するために使用することができる。本方法はまた、例えば、2007年11月29日に公開された国際特許公報WO/2007/137187(国際出願番号PCT/US2007/069286);2010年4月22日に公開されたWO/2010/045318(国際出願番号PCT/US2009/060630);2010年8月19日に公開されたWO/2010/093465(国際出願番号PCT/US2010/000407);2012年12月13日に公開されたWO/2012/170715(国際出願番号PCT/US2012/041393);2014年6月12日に公開されたWO/2014/089241(国際出願番号PCT/US2013/073184);2011年5月12日に公開されたWO/2011/056688(国際出願番号PCT/US2010/054366);2012年7月5日に公開されたWO/2012/092336(国際出願番号PCT/US2011/067527);2015年8月6日に公開されたWO/2015/116868(国際出願番号PCT/US2015/013618);2017年3月30日に公開されたWO/2017/053915(国際出願番号PCT/US2016/053614);2016年9月9日に公開されたWO/2016/141169(国際出願番号PCT/US2016/020657);および2018年9月27日に公開されたWO2018175501(国際出願番号PCT/US2018/023438)に記載されるように、他の遺伝子および/または遺伝子産物中の変異、インデル、融合などの検出も含むことができる;これらの公報の各々は、その全体で参照により本明細書に組み入れられる。
本明細書に記載の方法は、個別化治療を提供することによってがんを有する対象の生存期間を延長することを意図している。いくつかの態様では、対象は、がんを治療するための1つまたは複数の治療剤で過去に治療されたことがある。がんは、例えば薬物耐性変異を獲得することによって、これらの薬剤のうち1つに抗療性であり得る。いくつかの態様では、がんは、転移性である。いくつかの態様では、対象は、本方法によって特定された1つまたは複数の治療剤で過去に治療されたことがない。分子プロファイリングを使用して、がん細胞のステージ、解剖学的位置または解剖学的起源にかかわらず、候補治療を選択することができる。
本開示は、これまで上に記載してきたような分子プロファイリングを使用して罹患組織を分析するための方法およびシステムを提供する。本方法は、分析中の腫瘍の特性の分析に依拠するので、本方法を、任意の腫瘍または任意の疾患ステージ、例えば疾患の進行ステージまたは起源不明の転移性腫瘍に適用することができる。本明細書に記載のように、腫瘍またはがん試料は、候補療法治療を予測または特定するために1つまたは複数のバイオマーカーについて分析される。
本方法は、原発性または転移性のがんの治療を選択するために使用することができる。
バイオマーカーパターンおよび/またはバイオマーカーシグネチャセットは、複数のバイオマーカーを含むことができる。なお他の態様では、バイオマーカーパターンまたはシグネチャセットは、少なくとも6、7、8、9、または10個のバイオマーカーを含むことができる。いくつかの態様では、バイオマーカーシグネチャセットまたはバイオマーカーパターンは、少なくとも15、20、30、40、50、または60個のバイオマーカーを含むことができる。いくつかの態様では、バイオマーカーシグネチャセットまたはバイオマーカーパターンは、少なくとも70、80、90、100、または200個のバイオマーカーを含むことができる。いくつかの態様では、バイオマーカーシグネチャセットまたはバイオマーカーパターンは、少なくとも100、200、300、400、500、600、700、または少なくとも800個のバイオマーカーを含むことができる。いくつかの態様では、バイオマーカーシグネチャセットまたはバイオマーカーパターンは、少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、または少なくとも30,000個のバイオマーカーを含むことができる。例えば、バイオマーカーは、全エクソームシーケンシングおよび/または全トランスクリプトームシーケンシングを含み得るので、ひいては、すべての遺伝子および遺伝子産物を含み得る。1つまたは複数のバイオマーカーの分析は、例えば、本明細書に記載されるような1つまたは複数の方法によるものであることができる。
本明細書に記載のように、1つまたは複数の標的の分子プロファイリングを、個体への治療法を決定または特定するために使用することができる。例えば、1つまたは複数のバイオマーカーの存在、レベルまたは状態を、個体への治療法を決定または特定するために使用することができる。1つまたは複数のバイオマーカー、例えば本明細書に開示されるものを、個体への治療法を特定するために使用されるバイオマーカーパターンまたはバイオマーカーシグネチャセットを形成するために使用することができる。いくつかの態様では、特定された治療法は、個体が過去に治療されたことのないものである。例えば、基準バイオマーカーパターンが特定の治療法について確立されており、その結果、基準バイオマーカーパターンを有する個体は、その治療法に対して応答性であるだろう。基準と異なるバイオマーカーパターンを有する個体、例えば、その中の遺伝子発現が基準から変化しているか異なるバイオマーカーパターンを有する個体に、その治療法が施されることはないであろう。別の例では、基準と同じまたは実質的に同じバイオマーカーパターンを呈する個体は、その治療法で治療されるよう助言される。いくつかの態様では、個体は、その治療法で過去に治療されたことがなく、したがって、その個体のために新しい治療法が特定されている。バイオマーカーパターンは、単一のバイオマーカー(例えば、HER2の発現は、抗HER2療法による治療を提案する)または複数のバイオマーカーに基づき得る。
分子プロファイリング、例えば、IHC、ISH、シーケンシング(例えば、NGS)、および/またはPCR(例えば、qPCR)による、分子プロファイリングに使用される遺伝子は、WO2018175501に、例えば、その中の表5~10に記載されているいずれかに挙げられる遺伝子から選択することができる。本明細書に開示される1つまたは複数のバイオマーカーを評価することは、がん、例えば、大腸がんまたは本明細書に開示されるような他のタイプのがんを特徴付けるために使用することができる。
対象のがんは、対象から生体試料を得ること、およびその試料から1つまたは複数のバイオマーカーを分析することによって特徴付けることができる。例えば、対象または個体についてがんを特徴付けることは、特定の疾患、状態、疾患ステージおよび状態ステージに適切な治療または治療有効性を特定すること、疾患進行、特に疾患再発、転移拡散または疾患再燃の予測および尤度分析を含むことができる。本明細書に記載の製品およびプロセスは、個体ベースの対象の評価を可能にし、これにより、治療におけるより効率的かつ経済的な決定の恩恵を提供することができる。
ある局面では、がんを特徴付けることは、対象ががんの治療からベネフィットを得る可能性が高いかどうかを予測することを含む。バイオマーカーを、対象において分析し、治療からベネフィットを得るまたは得ないことが分かった先行対象のバイオマーカープロファイルと比較することができる。対象におけるバイオマーカープロファイルが、治療からベネフィットを得ることが分かった先行対象のプロファイルとより緊密に整合する場合、対象は、治療からベネフィットを得る対象として特徴付けるまたは予測することができる。同様に、対象におけるバイオマーカープロファイルが、治療からベネフィットを得られなかった先行対象のプロファイルとより緊密に整合する場合、対象は、治療からベネフィットを得られない対象として特徴付けるまたは予測することができる。がんを特徴付けるために使用される試料は、本明細書に開示される試料を非限定的に含む、任意の有用な試料であることができる。
本方法はさらに、選択された治療を対象に投与する工程を含むことができる。
治療は、任意の有益な治療、例えば、低分子薬または生物製剤であることができる。様々な免疫療法、例えば、イピリムマブ、ニボルマブ、ペムブロリズマブ、アテゾリズマブ、アベルマブおよびデュルバルマブなどのチェックポイント阻害剤療法がFDAによって承認されており、他のものが臨床試験または開発段階にある。
レポート
ある態様では、本明細書に記載されるような方法は、分子プロファイルレポートを作成することを含む。レポートは、がんがプロファイリングされた対象の治療にあたる医師または他の医療提供者に送ることができる。レポートは、以下を非限定的に含む、関連情報の複数のセクションを含むことができる:1)プロファイリングされた(すなわち、分子検査の対象となる)バイオマーカーの一覧;2)対象について決定された場合の遺伝子および/または遺伝子産物の特性を含む分子プロファイルの説明;3)プロファイリングされた遺伝子および/または遺伝子産物の特性に関連する治療;ならびに4)各治療が患者にベネフィットを与える可能性が高いか、患者にベネフィットを与えない可能性が高いかまたはベネフィット判定不能であるかの指標。分子プロファイル中の遺伝子の一覧は、本明細書に提示されるものであることができる。例えば、実施例1を参照されたい。評価されるバイオマーカーの説明は、各バイオマーカーを評価するために使用される検査技法(例えば、RT-PCR、FISH/CISH、PCR、FA/RFLP、NGSなど)ならびにその結果および各技法をスコアリングするために使用される基準などの情報を含み得る。例として、CNVをスコアリングするための基準は、存在(すなわち、がんを有しない対象に存在する、または一般集団、典型的には二倍体に存在すると統計的に特定された「正常」コピー数よりも多いもしくは少ないコピー数)、または非存在(すなわち、がんを有しない対象に存在する、または一般集団、典型的には二倍体に存在すると統計的に特定された「正常」コピー数と同じコピー数)であり得る。分子プロファイル中の遺伝子および/または遺伝子産物の1つまたは複数に関連する治療は、本明細書の表9、または2007年11月29日に公開された国際特許公報WO/2007/137187(国際出願番号PCT/US2007/069286);2010年4月22日に公開されたWO/2010/045318(国際出願番号PCT/US2009/060630);2010年8月19日に公開されたWO/2010/093465(国際出願番号PCT/US2010/000407);2012年12月13日に公開されたWO/2012/170715(国際出願番号PCT/US2012/041393);2014年6月12日に公開されたWO/2014/089241(国際出願番号PCT/US2013/073184);2011年5月12日に公開されたWO/2011/056688(国際出願番号PCT/US2010/054366);2012年7月5日に公開されたWO/2012/092336(国際出願番号PCT/US2011/067527);2015年8月6日に公開されたWO/2015/116868(国際出願番号PCT/US2015/013618);2017年3月30日に公開されたWO/2017/053915(国際出願番号PCT/US2016/053614);2016年9月9日に公開されたWO/2016/141169(国際出願番号PCT/US2016/020657);および2018年9月27日に公開されたWO2018175501(国際出願番号PCT/US2018/023438)のいずれかの中のバイオマーカー-治療関連性規則セットを使用して決定することができる;これらの公報の各々は、その全体で参照により本明細書に組み入れられる。そのようなバイオマーカー-治療関連性は、経時的に、例えば、関連性が否定されるとまたは新たな関連性が発見されると更新され得る。各治療が患者にベネフィットを与える可能性が高いか、患者にベネフィットを与えない可能性が高いかまたはベネフィット判定不能であるかの指標は、重み付けされてもよい。例えば、潜在的ベネフィットは、強い潜在的ベネフィットまたはより弱い潜在的ベネフィットであり得る。そのような重み付けは、任意の適切な基準、例えば、バイオマーカー-治療関連性の証拠の強さ、またはプロファイリングの結果、例えば、過剰発現もしくは過小発現の程度に基づくことができる。
様々な追加的な構成要素を、適宜、レポートに追加することができる。いくつかの態様では、レポートは、評価されるバイオマーカーの存在、レベルまたは状態が進行中の臨床試験に関連するかどうかの指標を有する一覧を含む。レポートは、任意のそのような試験のための、例えば、対象を試験に登録する可能性を治療にあたる医師が調査するのを手助けする、識別子を含み得る。いくつかの態様では、レポートは、評価されるバイオマーカーと報告された治療との関連性を裏付ける証拠の一覧を提供する。一覧は、証拠となる文献の引用および/または特定のバイオマーカー-治療関連性の証拠の強さの指標を含有することができる。いくつかの態様では、レポートは、プロファイリングされた遺伝子および遺伝子産物の説明を含む。分子プロファイル中の遺伝子の説明は、非限定的に、生物学的機能および/または様々な治療関連性を含むことができる。
分子プロファイリングレポートは、対象の医療提供者、例えば、腫瘍学者または他の治療にあたる医師に送ることができる。医療提供者は、レポートの結果を使用して、対象のための治療レジメンを導くことができる。例えば、医療提供者は、患者を治療するために、レポートにおいてベネフィットを得る可能性が高いとして示された1つまたは複数の治療を使用してもよい。同様に、医療提供者は、レポートにおいてベネフィットを欠く可能性が高いとして示された1つまたは複数の治療で患者を治療することを回避してもよい。
潜在的ベネフィットのある少なくとも1つの療法を特定する方法のいくつかの態様では、対象は、潜在的ベネフィットのある少なくとも1つの療法で過去に治療されたことがない。がんは、転移性がん、再発性がん、またはそれらの任意の組み合わせを含み得る。いくつかの場合、がんは、がんの一次(front-line)または標準治療を非限定的に含む先行療法に抗療性である。いくつかの態様では、がんは、すべての公知の標準治療に抗療性である。他の態様では、対象は、がんについて過去に治療されたことがない。本方法はさらに、潜在的ベネフィットがある少なくとも1つの療法を個体に投与する工程を含み得る。投与によって、無増悪生存期間(PFS)、無病生存期間(DFS)、または寿命を延長することができる。
レポートは、コンピュータで作成することができ、印刷されたレポート、コンピュータファイルまたはその両方であることができる。レポートは、安全なウェブポータルを介してアクセス可能にすることができる。
ある局面では、本開示は、上記のように本明細書に記載されるような方法を実施する際の試薬の使用を提供する。関係する局面では、本開示は、本明細書に記載のように本明細書に記載されるような方法を実施するための試薬またはキットの製造における試薬を提供する。なお別の関係する局面では、本開示は、本明細書に記載のように本明細書に記載されるような方法を実施するための試薬を含むキットを提供する。試薬は、任意の有用な所望の試薬であることができる。好ましい態様では、試薬は、試料から核酸を抽出するための試薬、および次世代シーケンシングを行うための試薬のうち少なくとも1つを含む。
ある局面では、本開示は、個体のがんと関連する少なくとも1つの療法を特定するためのシステムを提供し、システムは、(a)少なくとも1つのホストサーバー;(b)少なくとも1つのホストサーバーにアクセスして、データにアクセスしそれを入力するための、少なくとも1つのユーザインタフェース;(c)入力されたデータを処理するための、少なくとも1つのプロセッサ;(d)プロセッサに結合された少なくとも1つのメモリであって、処理されたデータと、i)分子プロファイルに、例えば、実施例1に従ってアクセスするための;およびii)分子プロファイル内の様々なバイオマーカーのステータスに基づいてがんの治療に潜在的ベネフィットを有する少なくとも1つの療法を特定するための命令とを記憶するための、メモリ;ならびに(e)がんの治療に潜在的ベネフィットを有する特定された療法を表示するための、少なくとも1つのディスプレイを含む、システムを提供する。いくつかの態様では、システムはさらに、プロセッサに結合された少なくとも1つのメモリであって、処理されたデータと、上記方法に従って生成された分子プロファイルに基づいてがんの治療に潜在的ベネフィットを有する少なくとも1つの療法を特定するための命令とを記憶するための、メモリ;ならびにその表示のための少なくとも1つのディスプレイを含む。システムはさらに、様々なバイオマーカー状態、薬物/バイオマーカー関連性に関するデータまたはその両方についての参照を含む、少なくとも1つのデータベースを含み得る。少なくとも1つのディスプレイは、本開示によって提供されるレポートであることができる。
ゲノムプロファイリング類似性(GPS)
悪性腫瘍の診断は、典型的には、臨床所見ならびに細胞形態学、免疫組織化学、細胞遺伝学および分子マーカーを含む腫瘍組織特徴によって通知される。しかしながら、がんの約5~10%では、不明確さがあまりにも高いために原発組織を判定できず、その検体は原発不明がん(Cancer of Occult/Unknown Primary)(CUP)として分類される。www.mdanderson.org/cancer-types/cancer-of-unknown-primary.html; www.cancer.gov/types/unknown-primary/hp/unknown-primary-treatment-pdq#_1を参照されたい。信頼性のある腫瘍分類の欠如は、腫瘍学者に深刻な治療ジレンマをもたらし、不適切および/または遅延した治療を導く。CUP患者に対して腫瘍タイプの特定を試みるために遺伝子発現プロファイリングが使用されているが、多数の特有の制約を抱えている。具体的には、腫瘍率、発現の変動およびRNAの動的性質すべてが、最適とは言えないパフォーマンスの一因になる。例えば、ある市販のRNAベースアッセイは、187の腫瘍の検査セットにおいて83%の感度を有し、別個の300の試料検証セットの78%でしか結果を確認できなかった。Erlander MG, et al. Performance and clinical evaluation of the 92-gene real-time PCR assay for tumor classification. J Mol Diagn. 2011 Sep;13(5):493-503を参照されたい;その参考文献は、その全体で参照により本明細書に組み入れられる。さらに、任意のがんについて、一部の症例では間違った診断が下されることもある。
本明細書において、(a)対象のがんから細胞を含む生体試料を得る工程;(b)試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、試料に関するバイオシグネチャを得る工程;(c)そのバイオシグネチャを、原発腫瘍起源の指標となる少なくとも1つの予め決定されたバイオシグネチャと比較する工程;および(d)比較に基づいてがんの原発起源を分類する工程を含む、方法が提供される。同様に、本明細書において、(a)対象から細胞を含む生体試料を得る工程;(b)試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、試料に関するバイオシグネチャを得る工程;(c)得られた試料および1つまたは複数のバイオマーカーに基づいて入力データを作成する工程;(d)入力データのペアワイズ解析を実施することによって試料の起源を予測するように訓練済みである機械学習モデルに入力データを提供する工程であって、ペアワイズ解析の実施が、入力データと複数の起源の1つまたは複数に関する生物学的シグネチャとの間の類似性のレベルを決定する機械学習モデルを含む、工程;(e)機械学習モデルによる入力データの処理に基づいて、機械学習モデルによって生成された出力データを得る工程;ならびに(f)出力データに基づいて試料の原発起源を分類する工程を含む、方法が提供される。本方法は、ゲノムDNAの分析に依拠し、腫瘍率、転移およびシーケンシング深度に対してロバストである。実施例2~4を参照されたい。
様々な起源に関するバイオシグネチャは、本明細書の実施例、例えば、表10~142などに詳細に提供される。多くの場合、バイオシグネチャにおける特徴は、遺伝子コピー数変化(CNAまたはCNV)を含む。細胞は、典型的には、各遺伝子の2つのコピーを有する二倍体である。しかしながら、がんは、コピー数を変化させることができる様々なゲノム変化をもたらし得る。いくつかの場合に、遺伝子のコピーが増幅(増加)し、一方、他の場合では、遺伝子のコピーが減少する。ゲノム変化は、染色体の異なる領域に影響を及ぼすことができる。例えば、増加または減少は、遺伝子内で、遺伝子レベルで、または隣接遺伝子群内で起こり得る。増加または減少はまた、細胞遺伝学的バンドのレベルで、またはさらには染色体腕のいっそう大きな部分のレベルでも観察され得る。したがって、遺伝子に近接したそのような領域の分析は、遺伝子自体に類似のまたはさらには同一の情報を提供し得る。したがって、本明細書に提供される方法は、特定遺伝子のコピー数を決定することに限定されず、該遺伝子に近接した領域の分析も明白に想定しており、その際、そのような近接した領域は、類似または同じレベルの情報を提供する。例えば、表125~142は、各遺伝子の座位を細胞遺伝学的バンドのレベルで列記している。バンド内の遺伝子、SNPまたは他の特徴のコピー分析を、本明細書に記載のシステムおよび方法の範囲内で使用してもよい。
本明細書の実施例に記載するように、がんの原発起源を分類するための方法は、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャに対応する確率を算出してもよい。いくつかの態様では、本方法は、2つの候補原発腫瘍起源間のペアワイズ比較を含み、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャのいずれか1つに対応する確率が算出される。いくつかの態様では、2つの候補原発腫瘍起源間のペアワイズ比較は、機械学習分類アルゴリズムを使用して判定され、その際、任意で、機械学習分類アルゴリズムは、投票モジュールを含む。いくつかの態様では、投票モジュールは、本明細書に提供されるとおりであり、例えば、上述したとおりである。いくつかの態様では、複数の予め決定されたバイオシグネチャについて複数の確率が算出される。いくつかの態様では、確率はランク付けされる。いくつかの態様では、確率は、閾値と比較され、その際、任意で、閾値との比較は、がんの原発起源の分類が、期待できるか、期待できないかまたは判定不能かを決定するために使用される。分類を実施するためのシステムおよび方法は、本明細書に提供される。例えば、図1A~Iおよび関係する文書を参照されたい。
原発腫瘍起源または複数の原発腫瘍起源は、多様なレベルの特異性で決定されてもよい。例えば、起源は、原発腫瘍位置および組織学として決定されてもよい。例えば、起源は、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頚部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;外陰扁平上皮がん;およびそれらの任意の組み合わせの少なくとも1つから決定されてもよい。
代わりに、原発腫瘍起源または複数の原発腫瘍起源についての特異性のレベルは、器官群のレベルで決定されてもよい。例えば、原発腫瘍起源または複数の原発腫瘍起源は、膀胱;皮膚;肺;頭部、顔面または頚部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つから決定されてもよい。適宜、本明細書に提供されるシステムおよび方法は、原発腫瘍位置および組織学のレベルで決定されたバイオシグネチャを採用してもよく(例えば、表10~124を参照されたい)、次いで、器官群が、最も可能性の高い原発腫瘍位置+組織学に基づいて決定される。非限定例として、本明細書における表10~124は、原発腫瘍位置+組織学に関するバイオシグネチャを提供し、表の見出しは、原発腫瘍位置+組織学と対応する器官群の両方を報告する。
本開示は、本明細書に、例えば、原発腫瘍位置+組織学については表10~124および器官群については表125~142に提供されるバイオシグネチャから、選択が行われてもよいことを想定している。表中の特徴の使用は、最適な起源予測を提供し得るが、所望のパフォーマンス基準(例えば、限定されないが、少なくとも50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%または少なくとも99%の正確度)を満たす能力を保持する限り、選択が行われてもよい。いくつかの態様では、バイオシグネチャは、対応する表(すなわち、表10~142)において最も高い重要度を有する主要バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む。いくつかの態様では、バイオシグネチャは、対応する表(すなわち、表10~142)において最も高い重要度を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49または50個の主要バイオマーカーを含む。いくつかの態様では、バイオシグネチャは、対応する表(すなわち、表10~142)において最も高い重要度を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の主要バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む。いくつかの態様では、バイオシグネチャは、対応する表において最も高い重要度を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の主要バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む。非限定例として、バイオシグネチャは、上位10、20または50個の特徴の少なくとも1、2、3、4、または5個を含み得る。本明細書において、起源を予測するための所望のパフォーマンスを得るために使用できるバイオマーカーの任意の選択が提供される。
本方法を実施するためのシステムもまた、本明細書に提供される。例えば、図1F~1Gおよび関係する開示を参照されたい。
本明細書および添付の特許請求の範囲に記載される範囲を限定しない以下の実施例において、本発明をさらに説明する。
実施例1:次世代プロファイリング
包括的分子プロファイリングは、患者試料の分子状態に関する豊富なデータを提供する。本発明者らは、様々なプロファイリング技術を使用して、実質的にすべてのがん系統からの100,000人をはるかに超える腫瘍患者に対してそのようなプロファイリングを実施した。今日まで、これらの患者の20,000人超の治療からのベネフィットまたはベネフィットの欠如を追跡調査した。したがって、本発明者らの分子プロファイリングデータを、治療に対する患者ベネフィットと比較して、さらなるがん患者における様々な治療に対するベネフィットを予測するさらなるバイオマーカーシグネチャを同定することができる。本発明者らは、この「次世代プロファイリング」(NGP)手法を適用して、様々ながん治療に対する患者ベネフィット(プラス、マイナスまたは不確定のベネフィットを含む)と相関するバイオマーカーシグネチャを同定した。
NGPへの一般的な手法は以下のとおりである。数年にわたり、本発明者らは、様々な分子プロファイリング技術を使用して、数万人の患者の包括的分子プロファイリングを実施した。図2Cにさらに概説するように、これらの技術としては、様々な属性を評価するためのDNAの次世代シーケンシング(NGS)2301、RNAの遺伝子発現および遺伝子融合分析2302、タンパク質発現のIHC分析2303ならびに遺伝子コピー数および染色体異常、例えば転座を評価するためのISH2304が含まれるが、これらに限定されない。本発明者らは、現在、様々ながん系統の20,000人を超える患者の患者臨床転帰データをマッチさせた(2305)。本発明者らは、コグニティブコンピューティング手法2306を使用して、所望により、包括的分子プロファイリングの結果を、様々な治療の場合の実際の患者転帰データと相関させる。臨床転帰は、代替エンドポイント治療継続期間(TOT)または次治療開始までの期間(TTNTまたはTNT)を使用して決定され得る。例えば、Roever L (2016) Endpoints in Clinical Trials: Advantages and Limitations. Evidence Based Medicine and Practice 1: e111. doi: 10.4172/ebmp. l000e111を参照されたい。結果は、バイオマーカーのパネルを含むバイオシグネチャ2307を提供し、このバイオシグネチャは、調査中の治療からのベネフィットまたはベネフィットの欠如を示す。バイオシグネチャは、新規患者のための分子プロファイリング結果に適用されて、適用可能な治療からのベネフィットを予測し、ひいては治療決定を導くことができる。このような個別化ガイダンスが、有効な治療の選択を改善し、かつ、臨床的ベネフィットが(あるとしても)比較的少ない治療を避けることができる。
表2は、本発明者らが過去数年間にプロファイリングした数多くのバイオマーカーを記載する。関連する分子プロファイリングおよび患者転帰が利用可能であるため、これらのバイオマーカーのいずれかまたはすべてが、関心対象のバイオシグネチャを開発するためのコグニティブコンピューティング環境に入力するための特徴として働くことができる。表は、分子プロファイリング技術およびそのような技術を使用して評価された様々なバイオマーカーを示す。リストはすべてを網羅するものではなく、記載されたバイオマーカーすべてに関するデータがあらゆる患者に利用可能になるわけではない。さらに、複数の方法を使用して様々なバイオマーカーがプロファイリングされていることが理解されよう。非限定的な例として、上皮成長因子受容体(EGFR)タンパク質を発現するEGFR遺伝子を考えてみる。表2に示すように、EGFRタンパク質の発現が、IHCを使用して検出され;EGFR遺伝子増幅、遺伝子再構成、変異および変化が、ISH、サンガーシーケンシング、NGS、断片分析およびPCR、例えばqPCRで検出され;EGFR RNA発現が、PCR技術、例えばqPCRおよびDNAマイクロアレイを使用して検出されている。さらなる非限定的な例として、EGFRバリアントIII(EGFRvIII)転写産物の存在に関する分子プロファイリング結果が、断片分析(例えばRFLP)およびシーケンシング(例えばNGS)を使用して収集されている。
表3は、様々な腫瘍系統の例示的な分子プロファイルを示す。これらの分子プロファイルからのデータが、関心対象の1つまたは複数のバイオシグネチャを同定するために、NGPのための入力として使用され得る。表中、がん血統が「腫瘍タイプ」の列に示されている。残りの列は、表記の方法(すなわち、免疫組織化学(IHC)、インサイチューハイブリダイゼーション(ISH)または他の技術)を使用して評価することができる様々なバイオマーカーを示す。先に説明したように、バイオマーカーは、当業者に公知の記号を使用して同定される。IHC列の下、「MMR」は、ミスマッチ修復タンパク質MLH1、MSH2、MSH6およびPMS2を指し、それらが、それぞれ、IHCを使用して個別に評価されている。NGS列の「DNA」の下、「CNA」はコピー数変化を指し、これは、本明細書中でコピー数多型(CNV)とも呼ばれる。全トランスクリプトームシーケンシング(WTS)は、検体中の全てのRNA転写物を評価するために使用される。当業者は、分子プロファイリング技術が、所望により取り換えられる、および/または互換可能であり得ることを理解するであろう。例えば、IHCの代わりに他の適当なタンパク質分析法を使用することができ(例えば、代わりのイムノアッセイフォーマット)、ISHの代わりに他の適当な核酸分析法を使用することができ(例えば、コピー数および/または再構成、転座などを評価する)、断片分析の代わりに他の適当な核酸分析法を使用することができる。同様に、FISHとCISHとは一般に互換可能であり、プローブ入手可能性などに基づいて選択され得る。表4~6は、ゲノムDNAなどのDNAの次世代シーケンシング(NGS)分析を使用して評価されたゲノム分析および遺伝子のパネルを提示する。当業者は、NGS分析の代わりに、他の核酸分析法、例えば他のシーケンシング(例えばサンガー)、ハイブリダイゼーション(例えばマイクロアレイ、ナノストリング)および/または増幅(例えばPCRベースの)法を使用することができることを理解するであろう。表7~8に記載のバイオマーカーは、WTSなどのRNAシーケンシングによって評価され得る。WTSを用いることで、任意の融合、スプライスバリアントなどを検出することができる。表7~8には、がんにおいて一般的に検出される変化を有するバイオマーカーが記載されている。
核酸分析を実施して遺伝子の様々な局面を評価し得る。例えば、核酸分析としては、変異分析、融合分析、バリアント分析、スプライスバリアント、SNP分析および遺伝子コピー数/増幅を含むことができるが、これらに限定されない。そのような分析は、本明細書に記載される、または当技術分野において公知であるいくつもの技術、例えば非限定的に、シーケンシング(例えばサンガー、次世代、パイロシーケンシング)、PCR、PCRの変形、例えばRT-PCR、断片分析などを使用して実施することができる。NGS技術を使用すると、単一のアッセイにおいて複数の遺伝子の変異、融合、バリアントおよびコピー数を検出し得る。別段述べられない、または文脈から明白でない限り、本明細書中で使用される場合の「変異」は、野生型と比較したときの遺伝子またはゲノムの任意の変化、例えば非限定的に、変異、多型、欠失、挿入、インデル(すなわち挿入または欠失)、置換、転座、融合、切断、重複、減少、増幅、反復またはコピー数多型を含み得る。異なるゲノム変化および/または遺伝子のセットに対して異なる分析が利用可能であり得る。例えば、表4は、NGSで測定することができるゲノム安定性の属性を記載し、表5は、点変異およびインデルに関して評価され得る様々な遺伝子を記載し、表6は、点変異、インデルおよびコピー数多型に関して評価され得る様々な遺伝子を記載し、表7は、RNA分析によって(例えばWTSによって)遺伝子融合に関して評価され得る様々な遺伝子を記載し、同様に、表8は、RNAによって転写バリアントに関して評価することができる遺伝子を記載する。さらなる遺伝子に関する分子プロファイリングの結果を、NGPバイオシグネチャを同定するために使用することもできる(そのようなデータが利用可能であるとき)。
(表2)分子プロファイリングバイオマーカー
Figure 2022522948000003
Figure 2022522948000004
(表3)分子プロファイル
Figure 2022522948000005
Figure 2022522948000006
(表4)ゲノム安定性検査(DNA)
Figure 2022522948000007
(表5)点変異およびインデル(DNA)
Figure 2022522948000008
(表6)点変異、インデルおよびコピー数多型(DNA)
Figure 2022522948000009
Figure 2022522948000010
Figure 2022522948000011
Figure 2022522948000012
(表7)遺伝子融合(RNA)
Figure 2022522948000013
(表8)バリアント転写産物
Figure 2022522948000014
本実施例および明細書全体を通して使用される略語、例えば、IHC:免疫組織化学;ISH:インサイチューハイブリダイゼーション;CISH:比色インサイチューハイブリダイゼーション;FISH:蛍光インサイチューハイブリダイゼーション;NGS:次世代シーケンシング;PCR:ポリメラーゼ連鎖反応;CNA:コピー数変化;CNV:コピー数多型;MSI:マイクロサテライト不安定性;TMB:腫瘍遺伝子変異量。
本発明者らの分子プロファイルは、新規および更新された技術、バイオマーカー検査およびコンパニオン診断の開発、ならびにバイオマーカー-治療関連性に関する新規または更新された証拠などの理由を非限定的に含め、時間をかけて調整されてきた。したがって、過去に集められたいくつかの患者分子プロファイルについて、表3~8中のもの以外の方法で検査された様々なバイオマーカーに関するデータが入手可能であり、これをNGPに使用することができる。
表9は、評価されるバイオマーカーと様々な治療剤との間の関連性の概要を提示する。そのような関連性は、バイオマーカー評価結果を、NCCN、文献レポートおよび臨床試験などの情報源からの薬物関連性と相関させることによって決定することができる。「薬剤」という見出しの列は、候補薬剤(例えば、薬物または生物製剤)またはバイオマーカーステータスを提供する。いくつかの場合、薬剤は、バイオマーカーステータスに適合させることができる臨床試験を含む。いくつかの場合、複数のバイオマーカーが、薬剤または薬剤群と関連する。プラットフォームの略称は、本出願全体を通して使用されているとおりである。例えば、IHC:免疫組織化学;CISH:比色インサイチューハイブリダイゼーション;NGS:次世代シーケンシング;PCR:ポリメラーゼ連鎖反応;CNA:コピー数変化。腫瘍タイプの略称は、TNBC:トリプルネガティブ乳がん;NSCLC:非小細胞肺がん;CRC:大腸がん;GEC:食道胃接合部を含む。バイオマーカーPD-L1に対する薬剤は、括弧内の検出アッセイにおいて使用される特異的抗体を特定する。
(表9)バイオマーカー-治療関連性
Figure 2022522948000015
Figure 2022522948000016
Figure 2022522948000017
実施例2:原発腫瘍系統の予測のための分子プロファイリング分析
この実施例では、本発明者らは、次世代プロファイリング(例えば、実施例1;図2B~Cを参照のこと)を使用して、原発腫瘍位置を予測するためのバイオシグネチャを特定した。非限定例として、そのような情報を使用して、原発不明転移性がん(CUPS)の原発腫瘍部位を特定することができる。
一般的なアプローチは、以下のとおりである。まず、本発明者らは、対象のがんから細胞を含む試料、例えば、腫瘍試料または体液試料を得る。試料は、転移性であり得る。本発明者らは、試料に対して分子プロファイリングアッセイを実施して、1つまたは複数のバイオマーカーを評価し、それによって、試料に関するバイオシグネチャを得る。バイオシグネチャは、複数の原発腫瘍起源の指標となるバイオシグネチャと比較される。次いで、本発明者らは、比較に基づいてがんの原発起源を分類する。例えば、分類することは、この原発起源が予め決定された原発腫瘍起源の各々の原発起源である確率を決定することを含み得る。本発明者らは、最も高い信頼性、例えば、最も高い確率を有する原発起源を選択してもよい。
異なる腫瘍系統に関する予め決定されたバイオシグネチャを構築するために、本発明者らは、50,000を超える患者について次世代シーケンシング結果を分析した。このアプローチを使用して、前立腺、膀胱、子宮頚内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、皮膚の各々に関するバイオシグネチャを特定した。原発部位を分類するためのバイオシグネチャごとの正確度を図3Aに示す。系統は、ホイールのスポークごとに表示されるとおりである。網掛け域の外線は、各予測子の正確度を表示する。より暗い網掛け域は、オリジナルデータセット内のCUPS試料の分類を表示する。ほとんどのCUPSの症例が肝内胆管として分類され、このことは、本発明者らのデータセット中の肝内胆管としてのほとんどの症例が不明として記録された原発起源を有することから、確証的であることに留意されたい。
系統予測子の各々に関するバイオシグネチャは、少なくとも100個の個々の主要バイオマーカーを含み得る。一例として、前立腺について選択される分類子は、遺伝子FOXA1、PTEN、KLK2、GATA2、LCP1、ETV6、ERCC3、FANCA、MLLT3、MLH1、NCOA4、NCOA2、CCDC6、PTCH1、FOXO1およびIRF4に関するコピー数変化(CNA)を含む。この遺伝子セットに関するCNAを含むバイオシグネチャは、88%の正確度で前立腺を分類することができた。
図3Bおよび3Cは、検査症例として公知の起源の個々の腫瘍試料の分類例である。図3Bは、前立腺起源のものとして正確に分類された、前立腺がん試料の予測を示す。図3Cは、原発部位を不明として系統を膵臓として有する腫瘍の予測を示す。予測子は、腫瘍を膵臓腫瘍として正確に特定したが、膵臓内の部位は判定不能であった。
実施例3:原発位置および疾患タイプの予測のためのゲノムプロファイリング類似性(GPS)
この実施例は、実施例2を基礎とする。本発明者らは、次世代プロファイリング(例えば、実施例1;図2B~Cを参照のこと)を使用して、腫瘍の原発位置および疾患タイプを予測するためのバイオシグネチャを特定した。「疾患タイプ」という用語は、この実施例において、位置+組織学のことを指すために使用される。非限定例として、そのような情報を使用して、原発不明転移性がん(CUPS)の原発腫瘍部位またはそうでなければ腫瘍起源が不明確である場所を特定することができる。腫瘍の最大20%が起源に関して問題を抱えている可能性がある。加えて、腫瘍スライドの最大5%が病理学者間で一致しない分類を有する可能性がある。まとめると、かなりの割合の腫瘍試料が、原発位置、組織学および疾患タイプの1つまたは複数を提供および/または確認するために分子分類子から恩恵を受けるだろう。
腫瘍位置分類子への現行のアプローチは、RNA発現、例えば、低密度RT-PCRアレイなどのRNAマイクロアレイを使用したRNA発現に依拠している。しかしながら、そのようなアプローチは、必ずしも理想的とはいえない。マスプロテオミクスにIHCとマイクロアレイとを比較使用して腫瘍試料の分析を考えてみる。染色したIHCスライドは、正常組織対腫瘍組織の領域を示し、核染色または膜染色などの他の特徴も示す。したがって、病理学者は、分析のために関心対象の領域に注目することができる。しかしながら、RNAは、試料内の異なる細胞および細胞タイプに由来するRNAの混合物を含み、その際、様々なRNA転写物のバックグラウンド量は細胞間で大きく変動し得る。したがって、RNA発現をベースとしたCUPアッセイは、RNAが抽出される特定の細胞によって混乱させられ得る。例えば、Hayashi et al., Randomized Phase II Trial Comparing Site-Specific Treatment Based on Gene Expression Profiling with Carboplatin and Paclitaxel for Patients with Cancer of Unknown Primary Site, J Clin Oncol 37:57-579(遺伝子発現プロファイリングによって決定された場合の部位特異的治療に基づく1年生存率において有意な改善は見られない)を参照されたい。他方で、DNAは、すべての細胞において類似のバックグラウンド、例えば、ほとんどの細胞において1つの核を有する。ゲノムの領域のコピーの差は、コピー数増幅または染色体消失を非限定的に含め、がんの指標となるゲノム変化が原因である可能性がはるかに高い。このより安定したバックグラウンドを背景にして、DNAアッセイは、少なくとも一部の腫瘍タイプに対しては、RNA代替物よりもロバストな結果を提供するはずである。一部の状況下で、ゲノムDNA分析とRNA発現との組み合わせは、最適な結果を提供し得る。
ゲノム異常は、がん組織の顕著な特徴である。例えば、1p19qは、乏突起神経膠腫などのある特定のがんの指標となる。17番染色体の単一消失は、卵巣がんにおいて初期に最も頻繁に出現し、明細胞腎臓における3p欠失ならびに乳頭状腎細胞がんにおけるトリソミー7および17は、確立された予測子である。6番染色体の消失、8番染色体の増加は、眼がんの指標である。Her2増幅は、乳がんにおいて観察される。本発明者らは、遺伝子コピー数および変異シグネチャなどのゲノム異常の現象が、すべてではなくとも多くのタイプのがんを予測し得ると仮説を立てた。
本発明者らは、原発(Primary)、系統(Lineage)、NCCN疾患指標(NCCN Disease Indication)およびICD-O-3組織学コード(Histology Codes)でラベルされた60,000を超える症例からの腫瘍試料を利用することができる。2018年8月23日以前に収集された592遺伝子のDNA次世代シーケンシング(NGS)結果(例えば、表5~6を参照のこと)の45,000の症例を、モデル訓練に使用した。使用した592遺伝子のNGSデータポイントは、ある遺伝子上で検出されたバリアント(例えば、SNP;点変異;インデル)がその遺伝子のコピー数と連動していたか否かであり、これにより、増幅または消失(本明細書においてCNVまたはCNAと称される)を検出することができる。合計で、本発明者らは、10,000を超える特徴を分析した。
症例は、原発位置(例えば、前立腺)および組織学(例えば、腺がん)によって階層化され、「疾患タイプ」(例えば、前立腺腺がん)として統合された。この実施例では、症例を、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頚部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;外陰扁平上皮がんを含む115の疾患タイプに分類した。NOSまたは「特定されないもの」は、ICD-9、ICD-10またはDSM-IVなどの疾患/障害分類の体系における下位カテゴリーであり、より具体的な診断が下されなかった場所に一般的ではあるが非限定的に使用されることに留意されたい。
症例を2つのコホートに分けた:一方のコホートには訓練用に29,912症例(「訓練セット」)、他方のコホートには検査に使用した7,476症例(「検査セット」)。
ゲノムプロファイリング類似性(GPS)を訓練するために、訓練セットを使用して115の疾患タイプすべてを互いに対して訓練して、6555のモデルシグネチャを生成し、ここで、各シグネチャは、疾患タイプのペアを区別するように構築される。グラジエントブーストフォレスト(Gradient Boosted Forests)を使用してシグネチャを生成し、本明細書に記載されるような投票モジュールアプローチに適用した。
検査症例を使用してモデルを検証した。各検査症例を、6555のシグネチャすべてにわたって個別に処理し、それによって、症例ごとに疾患タイプごとのペアワイズ解析を提供した。結果は、115×115マトリックスで分析され、ここで、各列および各行は、単一の疾患タイプであり、交点のセルは、ある症例がいずれかの疾患タイプである確率である。疾患タイプごとの確率を列ごとにまとめると、結果として、その確率合計を有する115の疾患タイプが得られる。これらの疾患タイプをその確率合計によってランク付けする。
表10~124は、疾患タイプ予測に寄与する特徴を列記しており、ここで、各行は、一特徴を表す。表において、列「特徴(FEATURE)」は、その特徴についての識別子であり、これは遺伝子IDであり得る;列「TECH」は、バイオマーカーを評価するために使用される技術であり、ここで、「CNA」は、コピー数変化のことを指し、「NGS」は、次世代シーケンシングを使用した変異分析であり、そして、「META」は、検体収集時の年齢(「年齢(Age)」)または性別(「性別(Gender)」)などの患者特性である;「IMP」は、その特徴についての正規化された重要度スコアである。遺伝子の列がMSIであり、TECHの列がNGSであり、LOCの列中にデータがない表中の行は、次世代シーケンシングによって評価した場合の主要マイクロサテライト不安定性(MSI)のことを指す。表の見出しは、「疾患タイプ-器官群」という形で疾患タイプおよび器官群(以下参照)を示し、表中の行は、重要度の順に分けられる。重要度スコアが高いほど、より重要であるかまたはその特徴が疾患タイプ予測を行う際に関係する。多くの場合で、本発明者らは、遺伝子コピー数が予測を推進していることを観察した。
(表10)副腎皮質がん-副腎
Figure 2022522948000018
(表11)肛門扁平上皮がん-結腸
Figure 2022522948000019
(表12)虫垂腺がん NOS-結腸
Figure 2022522948000020
(表13)虫垂粘液性腺がん-結腸
Figure 2022522948000021
(表14)胆管 NOS、胆管がん-肝臓、胆嚢、管
Figure 2022522948000022
(表15)脳星状細胞腫 NOS-脳
Figure 2022522948000023
(表16)脳退形成性星状細胞腫-脳
Figure 2022522948000024
(表17)乳腺がん NOS-乳房
Figure 2022522948000025
(表18)乳がん NOS-乳房
Figure 2022522948000026
(表19)浸潤性乳管腺がん-乳房
Figure 2022522948000027
(表20)乳房浸潤性小葉がん NOS-乳房
Figure 2022522948000028
(表21)乳房化生がん NOS-乳房
Figure 2022522948000029
(表22)子宮頸腺がん NOS-FGTP
Figure 2022522948000030
(表23)子宮頸がん NOS-FGTP
Figure 2022522948000031
(表24)子宮頸扁平上皮がん-FGTP
Figure 2022522948000032
(表25)結腸腺がん NOS-結腸
Figure 2022522948000033
(表26)結腸がん NOS-結腸
Figure 2022522948000034
(表27)結腸粘液性腺がん-結腸
Figure 2022522948000035
(表28)結膜悪性黒色腫 NOS-皮膚
Figure 2022522948000036
(表29)十二指腸膨大部腺がん NOS-結腸
Figure 2022522948000037
(表30)子宮内膜類内膜腺がん-FGTP
Figure 2022522948000038
(表31)子宮内膜腺がん NOS-FGTP
Figure 2022522948000039
(表32)子宮内膜がん肉腫-FGTP
Figure 2022522948000040
(表33)子宮内膜漿液性がん-FGTP
Figure 2022522948000041
(表34)子宮内膜がん NOS-FGTP
Figure 2022522948000042
(表35)未分化子宮内膜がん-FGTP
Figure 2022522948000043
(表36)子宮内膜明細胞がん-FGTP
Figure 2022522948000044
(表37)食道腺がん NOS-食道
Figure 2022522948000045
(表38)食道がん NOS-食道
Figure 2022522948000046
(表39)食道扁平上皮がん-食道
Figure 2022522948000047
(表40)肝外胆管、総胆管、胆嚢腺がん NOS-肝臓、胆嚢、管
Figure 2022522948000048
(表41)卵管腺がん NOS-FGTP
Figure 2022522948000049
(表42)卵管がん NOS-FGTP
Figure 2022522948000050
(表43)卵管がん肉腫 NOS-FGTP
Figure 2022522948000051
(表44)卵管漿液性がん-FGTP
Figure 2022522948000052
(表45)胃腺がん-胃
Figure 2022522948000053
(表46)食道胃接合部腺がん NOS-食道
Figure 2022522948000054
(表47)神経膠芽腫-脳
Figure 2022522948000055
(表48)神経膠腫 NOS-脳
Figure 2022522948000056
(表49)神経膠肉腫-脳
Figure 2022522948000057
(表50)頭部、顔面または頚部 NOS扁平上皮がん-頭部、顔面または頚部、NOS
Figure 2022522948000058
(表51)肝内胆管の胆管がん-肝臓、胆嚢、管
Figure 2022522948000059
(表52)腎がん NOS-腎臓
Figure 2022522948000060
(表53)腎明細胞がん-腎臓
Figure 2022522948000061
(表54)腎臓の乳頭状腎細胞がん-腎臓
Figure 2022522948000062
(表55)腎臓の腎細胞がん NOS-腎臓
Figure 2022522948000063
(表56)喉頭 NOS扁平上皮がん-頭部、顔面または頚部、NOS
Figure 2022522948000064
(表57)左結腸腺がん NOS-結腸
Figure 2022522948000065
(表58)左結腸粘液性腺がん-結腸
Figure 2022522948000066
(表59)肝臓の肝細胞がん NOS-肝臓、胆嚢、管
Figure 2022522948000067
(表60)肺腺がん NOS-肺
Figure 2022522948000068
(表61)肺腺扁平上皮がん-肺
Figure 2022522948000069
(表62)肺がん NOS-肺
Figure 2022522948000070
(表63)肺粘液性腺がん-肺
Figure 2022522948000071
(表64)肺神経内分泌がん NOS-肺
Figure 2022522948000072
(表65)肺非小細胞がん-肺
Figure 2022522948000073
(表66)肺肉腫様がん-肺
Figure 2022522948000074
(表67)肺小細胞がん NOS-肺
Figure 2022522948000075
(表68)肺扁平上皮がん-肺
Figure 2022522948000076
(表69)髄膜の髄膜腫 NOS-脳
Figure 2022522948000077
(表70)鼻咽頭 NOS扁平上皮がん-頭部、顔面または頚部、NOS
Figure 2022522948000078
(表71)乏突起神経膠腫 NOS-脳
Figure 2022522948000079
(表72)退形成性乏突起神経膠腫-脳
Figure 2022522948000080
(表73)卵巣腺がん NOS-FGTP
Figure 2022522948000081
(表74)卵巣がん NOS-FGTP
Figure 2022522948000082
(表75)卵巣がん肉腫-FGTP
Figure 2022522948000083
(表76)卵巣明細胞がん-FGTP
Figure 2022522948000084
(表77)卵巣類内膜腺がん-FGTP
Figure 2022522948000085
(表78)卵巣顆粒膜細胞腫-FGTP
Figure 2022522948000086
(表79)卵巣高悪性度漿液性がん-FGTP
Figure 2022522948000087
(表80)卵巣低悪性度漿液性がん-FGTP
Figure 2022522948000088
(表81)卵巣粘液性腺がん-FGTP
Figure 2022522948000089
(表82)卵巣漿液性がん-FGTP
Figure 2022522948000090
(表83)膵腺がん NOS-膵臓
Figure 2022522948000091
(表84)膵がん NOS-膵臓
Figure 2022522948000092
(表85)膵粘液性腺がん-膵臓
Figure 2022522948000093
(表86)膵神経内分泌がん NOS-膵臓
Figure 2022522948000094
(表87)耳下腺がん NOS-頭部、顔面または頚部、NOS
Figure 2022522948000095
(表88)腹膜腺がん NOS-FGTP
Figure 2022522948000096
(表89)腹膜がん NOS-FGTP
Figure 2022522948000097
(表90)腹膜漿液性がん-FGTP
Figure 2022522948000098
(表91)胸膜中皮腫 NOS-肺
Figure 2022522948000099
(表92)前立腺腺がん NOS-前立腺
Figure 2022522948000100
(表93)直腸S状部腺がん NOS-結腸
Figure 2022522948000101
(表94)直腸腺がん NOS-結腸
Figure 2022522948000102
(表95)直腸粘液性腺がん-結腸
Figure 2022522948000103
(表96)後腹膜脱分化型脂肪肉腫-FGTP
Figure 2022522948000104
(表97)後腹膜平滑筋肉腫 NOS-FGTP
Figure 2022522948000105
(表98)右結腸腺がん NOS-結腸
Figure 2022522948000106
(表99)右結腸粘液性腺がん-結腸
Figure 2022522948000107
(表100)唾液腺腺様嚢胞がん-頭部、顔面または頚部、NOS
Figure 2022522948000108
(表101)皮膚メルケル細胞がん-皮膚
Figure 2022522948000109
(表102)皮膚結節性黒色腫-皮膚
Figure 2022522948000110
(表103)皮膚扁平上皮がん-皮膚
Figure 2022522948000111
(表104)皮膚黒色腫-皮膚
Figure 2022522948000112
(表105)小腸消化管間質腫瘍 NOS-小腸
Figure 2022522948000113
(表106)小腸腺がん-小腸
Figure 2022522948000114
(表107)胃消化管間質腫瘍 NOS-胃
Figure 2022522948000115
(表108)胃印環細胞腺がん-胃
Figure 2022522948000116
(表109)甲状腺がん NOS-甲状腺
Figure 2022522948000117
(表110)退形成性甲状腺がん NOS-甲状腺
Figure 2022522948000118
(表111)甲状腺の甲状腺乳頭がん-甲状腺
Figure 2022522948000119
(表112)扁桃腺、中咽頭、舌扁平上皮がん-頭部、顔面または頚部、NOS
Figure 2022522948000120
(表113)横行結腸腺がん NOS-結腸
Figure 2022522948000121
(表114)尿路上皮膀胱腺がん NOS-膀胱
Figure 2022522948000122
(表115)尿路上皮膀胱がん NOS-膀胱
Figure 2022522948000123
(表116)尿路上皮膀胱扁平上皮がん-膀胱
Figure 2022522948000124
(表117)尿路上皮がん NOS-膀胱
Figure 2022522948000125
(表118)子宮の子宮内膜間質肉腫 NOS-FGTP
Figure 2022522948000126
(表119)子宮平滑筋肉腫 NOS-FGTP
Figure 2022522948000127
(表120)子宮肉腫 NOS-FGTP
Figure 2022522948000128
(表121)ブドウ膜黒色腫-眼
Figure 2022522948000129
(表122)膣扁平上皮がん-FGTP
Figure 2022522948000130
(表123)外陰扁平上皮がん-FGTP
Figure 2022522948000131
(表124)皮膚体幹部黒色腫-皮膚
Figure 2022522948000132
この検証を使用して、GPSを使用して行われた疾患タイプ予測の正確度を推定した。
また、疾患タイプを、異なる器官または器官系で発生した疾患タイプをそれぞれ含有する、15の器官群にグループ分けした:膀胱;皮膚;肺;頭部、顔面または頚部(NOS);食道;女性生殖器および腹膜(FGTP);脳;結腸;前立腺;肝臓、胆嚢、管;乳房;眼;胃;腎臓;ならびに膵臓。症例は、上記のとおり予測されたその疾患タイプに従って、器官群の1つにグループ分けすることができる。検査症例の97%について、その症例の真の器官は100を超える列合計を有し、その際、GPSは合理的な推定を行うことができた。図4Aは、完全検査セットを使用してすべてのモデルについて生成されたスコアのプロットを示す(97%の確率で、真の器官はスコア>100を有することを示す)。図4Bは、前立腺起源の検査症例の予測例を示す(すなわち、原発部位:前立腺;組織学:腺がん)。この症例について生成された115×115マトリックスを図4Cに表す。図において、XおよびY凡例は、上に列記した115の疾患タイプである。上述のとおり、X軸に沿った各行は「陰性」コール(確率<0.5)であり、各列は陽性コールの確率である。マトリックス中の網掛け四角は、確率スコア≧0.98を表す。矢印は、疾患タイプ「前立腺腺がん」を示す。前立腺についてのこの症例の確率合計は114.3であった。全試料セットを使用した分析に基づいて、前立腺をコールするためのPPVおよびGPSの感度は共に95%である。
検査セットを使用した検証の経験的結果に基づいて、最高ヒットと連動した個々の症例の最も高い列合計(不明確さの指標)を使用して、95%の確実性に達するために示される必要があるランク付けされた器官群の数を決定することができる。一例を図4Dに示す。図は、7,476の検査症例の15の器官群のいずれかへのGPS予測に関するデータを含む表を示す。表において、ラベル(Label)の列は、任意の疾患タイプからのすべての症例が含まれることを示している「グローバル(Global)」を示す。7476の検査症例(「症例(Cases)」の列)のうち5333(「症例@スコア(Cases@Score)」の列)または71%(「症例%(% Cases)」の列)が114のスコアを有していた。そのような症例では、最上位器官群(「ランク付けされた観測(Ranked_Observation)」の列中「1」)についてGPSによって4859の症例が正確に特定され(「正確(Correct)」の列)、それによって91.1%の感度が提供された(「感度(Sensitivity)」の列)。正確度は、1回の予測で検査症例の71%で>95%であった。しかしながら、上位2つのランク付けされた器官群を考慮する場合(「ランク付けされた観測」の列中2)、GPSは、5004の症例を正確に特定し(「正確」の列)、それによって93.8%の感度が提供された(「感度」の列)。図4D中の表に示すように、そのような計算は、スコアが減少する場合に関して実施することができる。同様の計算が、検査セット内の器官タイプの症例を使用して、器官タイプベースで実施される。結腸がんの一例を図4Eに示しており、図4D中の表のように解釈される表を提供する。15の器官群についてのパフォーマンス測定基準を図4F~4Hに示す。
疾患タイプまたは器官群における確実性が所望の閾値に達しない場合にタイブレーカーを使用することができる。例えば、ある症例が上位にランク付けされた前立腺のコールを有し、第2の最良予測が膵臓であるならば、115×115マトリックス全体から前立腺対膵臓の直接比較を使用して順位を付けることができる。GPSはまた、試料ではない器官群も予測する。例えば、GPSは、分析中の症例との一致がないことが99%確実である器官群を提供することができる。
表125~142は、器官群予測に寄与する特徴を列記しており、ここで、各行は、一特徴を表す。表において、列「遺伝子(GENE)」は、バイオマーカー特徴についての遺伝子識別子である;列「TECH」は、バイオマーカーを評価するために使用される技術であり、ここで、「CNA」は、コピー数変化のことを指し、「NGS」は、次世代シーケンシングによって検出される変異分析である;列「LOC」は、遺伝子の染色体位置である;「IMP」は、その特徴についての重要度スコアである。遺伝子の列がMSIであり、TECHの列がNGSであり、LOCの列中にデータがない表中の行は、次世代シーケンシングによって評価した場合の主要マイクロサテライト不安定性(MSI)のことを指す。表の見出しは、器官群を示し、表中の行は、重要度の順に分けられる。重要度スコアが高いほど、より重要であるかまたはその特徴が器官群予測を行う際に関係する。多くの場合で、本発明者らは、遺伝子コピー数が予測を推進していることを観察した。
(表125)副腎
Figure 2022522948000133
Figure 2022522948000134
Figure 2022522948000135
Figure 2022522948000136
(表126)膀胱
Figure 2022522948000137
Figure 2022522948000138
Figure 2022522948000139
Figure 2022522948000140
Figure 2022522948000141
Figure 2022522948000142
Figure 2022522948000143
Figure 2022522948000144
Figure 2022522948000145
(表127)脳
Figure 2022522948000146
Figure 2022522948000147
Figure 2022522948000148
Figure 2022522948000149
Figure 2022522948000150
Figure 2022522948000151
Figure 2022522948000152
Figure 2022522948000153
Figure 2022522948000154
Figure 2022522948000155
(表128)乳房
Figure 2022522948000156
Figure 2022522948000157
Figure 2022522948000158
Figure 2022522948000159
Figure 2022522948000160
Figure 2022522948000161
Figure 2022522948000162
Figure 2022522948000163
Figure 2022522948000164
(表129)結腸
Figure 2022522948000165
Figure 2022522948000166
Figure 2022522948000167
Figure 2022522948000168
Figure 2022522948000169
Figure 2022522948000170
Figure 2022522948000171
Figure 2022522948000172
Figure 2022522948000173
Figure 2022522948000174
Figure 2022522948000175
(表130)食道
Figure 2022522948000176
Figure 2022522948000177
Figure 2022522948000178
Figure 2022522948000179
Figure 2022522948000180
Figure 2022522948000181
Figure 2022522948000182
Figure 2022522948000183
Figure 2022522948000184
(表131)眼
Figure 2022522948000185
Figure 2022522948000186
Figure 2022522948000187
Figure 2022522948000188
(表132)女性生殖器・腹膜(FGTP)
Figure 2022522948000189
Figure 2022522948000190
Figure 2022522948000191
Figure 2022522948000192
Figure 2022522948000193
Figure 2022522948000194
Figure 2022522948000195
Figure 2022522948000196
Figure 2022522948000197
Figure 2022522948000198
Figure 2022522948000199
Figure 2022522948000200
Figure 2022522948000201
(表133)頭部、顔面または頚部、NOS
Figure 2022522948000202
Figure 2022522948000203
Figure 2022522948000204
Figure 2022522948000205
Figure 2022522948000206
Figure 2022522948000207
Figure 2022522948000208
Figure 2022522948000209
Figure 2022522948000210
(表134)腎臓
Figure 2022522948000211
Figure 2022522948000212
Figure 2022522948000213
Figure 2022522948000214
Figure 2022522948000215
Figure 2022522948000216
Figure 2022522948000217
Figure 2022522948000218
(表135)肝臓、胆嚢、管
Figure 2022522948000219
Figure 2022522948000220
Figure 2022522948000221
Figure 2022522948000222
Figure 2022522948000223
Figure 2022522948000224
Figure 2022522948000225
Figure 2022522948000226
Figure 2022522948000227
(表136)肺
Figure 2022522948000228
Figure 2022522948000229
Figure 2022522948000230
Figure 2022522948000231
Figure 2022522948000232
Figure 2022522948000233
Figure 2022522948000234
Figure 2022522948000235
Figure 2022522948000236
Figure 2022522948000237
(表137)膵臓
Figure 2022522948000238
Figure 2022522948000239
Figure 2022522948000240
Figure 2022522948000241
Figure 2022522948000242
Figure 2022522948000243
Figure 2022522948000244
Figure 2022522948000245
(表138)前立腺
Figure 2022522948000246
Figure 2022522948000247
Figure 2022522948000248
Figure 2022522948000249
Figure 2022522948000250
(表139)皮膚
Figure 2022522948000251
Figure 2022522948000252
Figure 2022522948000253
Figure 2022522948000254
Figure 2022522948000255
Figure 2022522948000256
Figure 2022522948000257
Figure 2022522948000258
Figure 2022522948000259
(表140)小腸
Figure 2022522948000260
Figure 2022522948000261
Figure 2022522948000262
Figure 2022522948000263
Figure 2022522948000264
Figure 2022522948000265
Figure 2022522948000266
(表141)胃
Figure 2022522948000267
Figure 2022522948000268
Figure 2022522948000269
Figure 2022522948000270
Figure 2022522948000271
Figure 2022522948000272
Figure 2022522948000273
Figure 2022522948000274
(表142)甲状腺
Figure 2022522948000275
Figure 2022522948000276
Figure 2022522948000277
Figure 2022522948000278
Figure 2022522948000279
Figure 2022522948000280
Figure 2022522948000281
Figure 2022522948000282
次に、本発明者らは、ゲノム分析を使用して器官群を正確に予測する能力を推進し得る特徴を評価するために、様々な腫瘍にわたって染色体異常を分析した。図4I~4Tは、遺伝子コピー数を使用した様々な器官群のクラスタ分析を例示する。プロット中のY軸は染色体腕であり、X軸は試料である。図4I~4R中のY軸行は、上から下に、1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18q、19p、19q、20q、21q、22qである。各プロットの説明は、表143に見いだされる。X軸に沿って、すべての症例で試料のクラスタが明らかであったことに留意されたい。理論に束縛されるものではないが、いくつかのクラスタは、異なる薬物応答を有する群を示し得る。例えば、図4Sにおいて、最も上の行は、FOLFOX治療レジメンに対する結腸がん患者の応答を示す。患者のクラスタを観察することができる。しかしながら、そのような患者クラスタは、「側(Side)」とラベルされた行に示されるように、側性によって左右されるように思われた。図4Tは、55,000の患者試料のすべての器官群にわたる大域解析を示す。一般に、試料は、起源によってクラスタ化しなかったが、結腸がんおよび脳がんのクラスタ化が認められる。
(表143)器官群にわたるクラスタ分析
Figure 2022522948000283
図4Uは、がんタイプまたは汎がん(pan-cancer)にわたって観察された染色体変化を示す。その中のY軸行は、上から下に、1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18q、19p、19q、20q、21q、22qである。ある特定の汎がん変化は、図中に矢印(上の矢印から下の矢印まで含む)によって指摘される:4p+、5p-、6p+、7p+、9p、10p-、11p+、13q-、16p、17p、19p、19q、20q、および22q+。
実施例4:腫瘍タイプを予測するための592遺伝子のNGSパネルからの55,780症例を使用したゲノムプロファイリング類似性(GPS)
上記実施例は、生体試料の腫瘍タイプを予測するためのゲノムプロファイリング類似性システム(本明細書においてGPSとも称される;Molecular Disease Classifier;MDC)の開発を説明している。この実施例はさらに、GPSを、拡張された検体コホートについての腫瘍タイプの予測に適用し、原発不明がん(CUP;aka Cancer of Unknown Primary)のより厳密な分析を行った。
まとめ
現行の標準的な組織学的診断検査は、10%もの患者で転移性がんの起源を決定することができず1、原発不明がん(CUP)と診断されることになる。確定診断の欠如は、最適とは言えない治療レジメンの投与および転帰不良をもたらし得る。原発組織を特定するために遺伝子発現プロファイリングが使用されているが、多数の特有の制約を抱えている。これらの制約は、特定が最も頻繁に必要とされる場所である転移性部位において新生物の割合が低い腫瘍を特定する際に性能を低下させる2。本明細書に提供されるMDC/GPSは、592の遺伝子のDNAシーケンシング(実施例1における説明を参照のこと)を機械学習プラットフォームと併用して、がんの診断を支援する。作製されたアルゴリズムを34,352の症例に対して訓練して、15,473の明確に診断された症例に対して試験した。次いで、アルゴリズムのパフォーマンスを1,662のCUP症例に対して評価した。GPSは、ラベルされたデータセットにおいて腫瘍タイプを正確に予測し、感度、特異性、PPVおよびNPVは、それぞれ90.5%、99.2%、90.5%および99.2%であった。パフォーマンスは、腫瘍核の割合または検体が転移の部位から得られていたか否かにかかわらず一貫していた。選択された一致しない症例の病理学的再評価は、臨床的有用性の裏付けをもたらした。さらに、療法選択に必須のすべてのゲノムマーカーがこのアッセイで評価されるので、単一検査内での患者への臨床的有用性が最大限に高められる。
序論
原発不明がん(CUP)は、大規模な臨床および病理学的評価にもかかわらず原発腫瘍が分かり難いままである、臨床上厄介な異種の転移性悪性腫瘍群を表す。世界中のがん診断のおよそ2~4%がCUPを含む3。加えて、正確な腫瘍タイプ分類に関してある程度の診断不確実性が、腫瘍学下位専門領域にわたって頻繁に生じる。確定診断を確保する取り組みは、診断プロセスを長引かせ、治療開始を遅らせ得る。その上、CUPは、転帰不良にも関連しており、これは、最適とは言えない治療介入の使用によって説明されるだろう。免疫組織化学(IHC)検査は、とりわけ低分化または未分化腫瘍の場合の腫瘍起源部位を診断するためのゴールドスタンダード法である。困難な症例での正確度の評価およびこれらの研究のメタアナリシスの実施は、転移性腫瘍の特性評価においてIHC分析が66%の正確度を有していたことを報告した4-9。治療レジメンは診断に大きく依存するので、これは、満たされていない重要な臨床的ニーズである。これらの課題に取り組むために、差次的遺伝子発現の評価に基づいた原発組織(TOO)特定を目的としたアッセイが開発され、臨床的に試験されている。しかしながら、そのようなアッセイの臨床実務への統合は、比較的低いパフォーマンス特性(83%~89%11-14)および限定された試料の入手可能性によって阻まれている。例えば、最近の市販のRNAベースアッセイは、187の腫瘍の検査セットにおいて83%の感度を有し、別個の300の試料検証セットの78%でしか結果を確認できなかった14。これは、少なくとも部分的には、典型的なRNAベースアッセイが有する正常細胞の混入、RNA安定性およびRNA発現の動力学に関する限界の結果であり得る。それにもかかわらず、初期の臨床研究は、治療を、このアッセイによって予測された腫瘍タイプに適合させることの潜在的利点を実証している15。包括的分子プロファイリングアッセイ、特に、次世代DNAシーケンシングの可用性の増加に伴い、ゲノムの特徴がCUP治療戦略に取り入れられている16。このアプローチは、TOOの明確な特定をほとんど支持しない一方で、患者の一部において標的可能な分子変化を明らかにする16
この実施例では、本発明者らは、本明細書に提供されるような新規の機会学習アプローチを使用することによる異なるTOO特定戦略を追い求め、数百の遺伝子配列およびその様々な属性(実施例1を参照のこと)を評価するならびにがん患者の臨床治療において広く使用されている巨大なNGSゲノムDNAパネルのデータに基づいて、TOO分類子を構築した。このコンピュータによる分類システムは、過去に公表されている技術をはるかに超える正確度でTOOを特定した。さらに、592遺伝子のNGSアッセイは、治療選択を導くGPSおよび根底にある遺伝子異常の存在を同時に決定し(実施例1を参照のこと)、したがって、単一検査での臨床的有用性を実質的に増加させた。
方法論
研究設計
GPSは、以下を非限定的に含む様々な状況下で過去にがんと診断された患者と共に使用される:原発不明がん(CUP)と診断された症例;不明確な診断が下された症例;および本明細書に記載の592遺伝子のNGSパネルで検査された各症例に対する品質管理(QC)手段として。本発明者らの市販のデータベースから、過去に完了した592遺伝子のDNAシーケンシング検査結果および利用可能な病理レポートを有する55,780の症例が特定された。この研究は、IRBアプローチで実施された。このデータセットを3つのコホートに分割した:明確な診断が下された34,352の症例;独立検証セットとして確保された明確な診断が下された15,473の症例;および1,662のCUP症例。分析の前にすべての症例が匿名化された。
一般的な研究設計(600)を図5Aに示す。明確な診断が下された34,352の症例から始めて、機械学習アルゴリズムを、訓練コホートで27,439の試料を使用して訓練し(601)、6,913の試料を検証に使用した。モデルを訓練および最適化したら、アルゴリズムをロックした(602)。明確な診断が下された15,473の症例を独立検証セット(603)として使用した。1,662のCUP症例(604)を使用して分類を評価し、10,000を超える臨床例で前向き検証(605)を実施した。
592のNGSパネル
ホルマリン固定パラフィン包埋(FFPE)腫瘍試料からNextSeqプラットフォーム(Illumina, Inc., San Diego, CA)を使用して単離したゲノムDNAに対して、次世代シーケンシング(NGS)を実施した。対応する正常組織はシーケンシングしなかった。特注設計のSureSelect XTアッセイを使用して592の全遺伝子標的を濃縮した(Agilent Technologies, Santa Clara, CA)。すべてのバリアントが、アレル頻度およびアンプリコンカバレッジに基づき>99%の信頼性で検出され、カバレッジの平均シーケンシング深度>500、分析感度5%であった。分子検査の前に、手動の顕微解剖技術を使用して標的組織を採取することによって腫瘍濃縮を達成した。特定された遺伝子バリアントは、認定分子遺伝学者によって解釈され、米国臨床遺伝・ゲノム学会(ACMG)基準に従って「病原性」、「推定病原性」、「意義不明のバリアント」、「推定良性」または「良性」として分類された。個々の遺伝子の変異頻度を評価する場合、「病原性」および「推定病原性」を変異としてカウントする一方で、「良性」、「推定良性」バリアントおよび「意義不明のバリアント」は除外された。
1腫瘍当たり見いだされるすべての非同義ミスセンス変異(生殖細胞系変化としてこれまで記載されなかった)を計数することによって、腫瘍変異荷重(TML)を測定した(1腫瘍当たり配列決定された592の遺伝子および1.4メガベース[MB])。TML高を規定するための閾値は、17の変異/MBより大きいかそれに等しく、CRCの症例におけるフラグメント解析によってTMLをMSIと比較することにより、CRC中のMSIと高い一致を有するTMLの報告に基づき確立された。
マイクロサテライト不安定性(MSI)を7,000超の標的マイクロサテライト遺伝子座を使用して調べ、カリフォルニア大学サンタクルーズ校(UCSC)ゲノムブラウザデータベースからの参照ゲノムhg19と比較した。体細胞挿入または欠失によって変化したマイクロサテライト遺伝子座の数を試料ごとに計数した。反復の数が増加または減少した挿入または欠失だけを考慮した。マイクロサテライト遺伝子座中のゲノムバリアントは、変異検出に使用した同じ深度および頻度基準を使用して検出した。MSI-NGS結果を、従来のPCRベースの方法で分析した2,000を超える一致した臨床例の結果と比較した。NGSによってMSIを決定するための閾値は、感度>95%および特異性>99%をもたらす挿入または欠失を有する46個以上の遺伝子座であると決定された。
コピー数変化(CNA)は、NGSパネルを使用して検査し、ゲノム遺伝子座のシーケンシングの深度を二倍体対照ならびにこれらのゲノム遺伝子座の公知のパフォーマンスと比較することによって決定した。算出された6コピー以上の獲得を、増幅されたと見なした。
592のNGSパネルならびにMSIおよびTMLコーリングのさらなる説明については、実施例1;2018年9月27日に公開された国際特許公報WO 2018/175501 A1を参照されたく、かつ、2018年3月20日に出願された国際特許出願PCT/US2018/023438に基づく(これらは、その全体で参照により本明細書に組み入れられる)。
機械学習
GPSシステムは、本明細書に提供されるフレームワークを活用する人工知能プラットフォームを使用して構築され、最終結果を決定するために互いに反対票を投じる複数のモデルを使用する。例えば、図1F~1Gおよび添付文書を参照されたい。115の別個の腫瘍部位のセットおよび組織学クラスを使用して、原発位置(例えば、前立腺)および組織学(例えば、腺がん)によって階層化され、「疾患タイプ」(例えば、前立腺腺がん)として統合された患者の亜集団を生成した。115の亜集団は、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頚部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;外陰扁平上皮がんを含んだ。NOS、または「特定されないもの」は、ICD-9、ICD-10またはDSM-IVなどの疾患/障害分類の体系における下位カテゴリーであり、より具体的な診断が下されなかった場所に一般的ではあるが非限定的に使用されることに留意されたい。
合計6555の機械学習モデルを実施例3に記載のように作成し、これを使用して、以下を含む15の別個の群の上位集合に属する最終確率を症例ごとに決定した:結腸;肝臓、胆嚢、管;脳;乳房;女性生殖器および腹膜(FGTP);食道;胃;頭部、顔面または頚部、特定されないもの(NOS);腎臓;肺;膵臓;前立腺;皮膚/黒色腫;ならびに膀胱。図5Bは、GPSシステムが最も予測可能な器官を示す。症例ごとに、これらの器官の各々に、原発起源予測を行うために使用される確率を割り当てることができる。15の上位集合の各々に従ってグループ分けされた機械学習モデルの各々のうち最も高い重要度のバイオマーカーを上の実施例3の表125~142に示す。
結果
回顧的検証
機械学習アプローチを使用して、15の別個の器官群の1つに由来した症例ごとに、確率を割り当てた。確率は、GPSスコアとも称され得る。独立検証セット(図5A 603)として使用された明確な診断が下された15,473の症例のうち、6229がGPSスコア>0.95を有していた。これらのうち、98.4%が症例を割り当てた結果と合致した。98.4%の合致は、本発明者らのGPSスコアを検証するための受け入れ基準>0.95を超えていた。この基準は、スコア>0.95を提示したとき95%を超える正確度であった。GPSスコアは、器官群にスコア0を割り当てたとき(すなわち、腫瘍試料がその器官群由来である確率がGPSによってゼロと決定される)極めて高いパフォーマンスを有していた。症例と一致しない腫瘍タイプがゼロGPSスコアであった時点の割合(12270/12279)は99.92%であった。
図5Cは、試料ごとに一致した確率に対してプロットしたGPSスコア>0.95を有する6229の症例のスコアを示す。得られた相関係数0.990は、GPSスコアが正確度に高度に相関することを示している。
GPSスコアの分析感度は、2つの別個のパラメーターに対してパフォーマンスを評価することによって決定した:(1)腫瘍率、および(2)1試料当たりの平均読み取り深度。腫瘍率を評価するために、症例を割り当てた器官タイプに対するGPSの正確度を決定した。図5Dは、20~49%、50~80%および>80%の腫瘍含量範囲にグループ分けされたデータの相関図を示す。図は、GPSスコアが腫瘍率に非感受性であることを示す。図5Eは、読み取り深度を評価するために使用されるデータの相関図を示す。症例を割り当てた器官タイプに対するGPSスコアの正確度は、300~500Xおよび>500Xの読み取り深度の分類を用いて決定された。腫瘍率と同様に、図は、GPSスコアが読み取り深度に非感受性であることを示す。両症例とも、ピアソンのr(Pearson's r)に従う相関係数は、データグループ分けごとに98%超のままであった。
本発明者らはまた、GPSスコアが転移に対してロバストであることも見いだした。表144は、原発部位(N=8,437)、転移性部位(6,690)ならびに低腫瘍率試料(9,492)および高腫瘍率試料(5,945)からの検査データのサブセットに対するパフォーマンス測定基準を示す。
(表144)記述された特性とアッセイのパフォーマンス測定基準
Figure 2022522948000284
パフォーマンスは、複数の腫瘍タイプにわたって持続した。表145は、独立検査データセットのサブセットのパフォーマンス測定基準およびコホートサイズを示し、ここで、原発腫瘍部位は公知である。FGTPは、女性生殖器および腹膜を表す。
(表145)腫瘍タイプにわたるアッセイのパフォーマンス測定基準
Figure 2022522948000285
GPSスコアは、器官群にスコア0を割り当てたとき(すなわち、腫瘍試料がその器官群由来である確率がGPSによって0.001と決定される)極めて高いパフォーマンスを有していた。評価された15,473の検証例のうち、12,279が1つまたは複数の器官タイプについてGPSスコア0を有していた。症例と一致しなかった腫瘍タイプがゼロGPSスコアであった時点の割合(12270/12279)は99.92%であり、これは、本発明者らのGPSゼロ%のスコアを評価するための受け入れ基準を超えていた。その基準は、スコア0を提示したとき99.9%を超える正確度であった。したがって、ゼロスコアは非常に正確であった。症例を割り当てた器官結果例についてGPSスコア0を有していた症例はわずか9つであった。
表146は、15,473の症例の独立検査セットに対するGPSアルゴリズムのパフォーマンス測定基準を現在利用可能な他の方法と比較して示す。表および以下で、「感度」は、その腫瘍タイプを有する腫瘍の陽性試験結果を得る確率であり、それゆえ、GPSがその腫瘍タイプを認識する潜在性に関する;「特異性」は、その腫瘍タイプを有さない対象における陰性結果の確率であり、それゆえ、その腫瘍タイプを有さない対象を認識する、すなわちその腫瘍タイプを除外するGPSの能力に関する;陽性適中率(「PPV」)は、その腫瘍タイプについて陽性結果を有する対象における関心対象の腫瘍タイプを有する確率であり、それゆえ、PPVは、陽性結果を有する対象全体における陽性試験結果を有する患者の割合を表す;NPVは、陰性試験結果を有する対象におけるその腫瘍タイプを有さない確率であり、それゆえ、陰性試験結果を有する対象全体における陰性試験結果を有する腫瘍タイプを有さない対象の割合を提供する;正確度は、本文集団(text population)における真の陽性および真の陰性の割合を表す;そして、コール率は、GPSが予測を提供できる試料の割合である。
(表146)検証セットに対するGPSのパフォーマンス
Figure 2022522948000286
前向き検証
目標10,000個の見込みのある試料を、592のNGS遺伝子パネルを使用した分子プロファイリングに受け入れる臨床試料に基づきGPSスコアプラットフォームによって評価した。器官群についてのGPSスコアは、2857の症例で>0.95であった。これらのうち、54の症例は、受け入れ症例(すなわち、発注医によって列記されたとおり)上に列記された器官群と異なるGPSスコアを有しており、さらなる病理再調査のためにフラグ化された。病理学者は、これらの54の症例と、GPSスコアが≦0.95を有し病理学者によって様々な理由(0.95に近いスコア、疑わしいIHC所見など)で要求された追加の12の症例とを再調査した。病理再調査から、GPSシステムを介して得られた結果によって「適正」と見なされた43.9%(29/66)の応答があった。以下の表147を参照されたい。病理再調査は、11の症例について発注医から当初報告されていたものから腫瘍タイプに変化をもたらした。この評価の結果は、新たな診断を裏付ける証拠を提供するGPSスコアの能力を検証するための本発明者らの受け入れ基準を超えていた。この受け入れ基準は、病理学者が、その情報が症例の25%超において適正であると見なし、かつ、その情報が患者治療に影響し得る任意の診断の変化をもたらすかどうかであった。これらの症例では、腫瘍起源の変化は、そのような治療に影響し得る。したがって、GPSによる一致しない腫瘍タイプの自動フラグ化は、相当な数の患者の治療過程に正に影響を及ぼし得る。
表147は、さらなる病理再調査を受けた症例についての詳細を示す。上述のとおり、症例は、GPSスコアが>0.95であったがGPS上位予測が発注医(すなわち、分子プロファイリングのために腫瘍試料を送った医師)によって提供される試料説明と一致しなかった場合に、再調査のために自動的にフラグ化された。GPSアルゴリズムは、すべての症例についてスコアを与えるので、病理学者は、特定の再調査のために自動的にフラグ化されなかった症例についてデータを引き出すことができた。列記されたGPSスコアは、最も高い確率のGPS予測のスコアである。表において、「元の器官腫瘍タイプ」の列は、発注医によって提供される腫瘍説明を列記しており、「GPS上位予測」の列は、最も高い確率のGPS予測を列記しており、「GPSスコア」は、対応する確率を列記しており、「再調査のための理由」の列は、病理再調査が実施された理由を列記しており、ここで、「再調査のためのフラグ化」は、自動フラグ化基準が満たされたことを意味し、「病理学者による要求」は、病理学者が様々な理由(GPSスコア=0.95、元の器官タイプが間違っている疑いがあるなど)で再調査を要求したことを意味し、そして、「GPS結果ステータス」の列は、病理再調査によってGPSコールが適正であることが示された(例えば、正しい可能性が高い)か不適正であることが示された(例えば、間違っている可能性が高い)かを示している。「不適正」が付された症例に関する病理学者の所見は、元の腫瘍タイプと一致した組織学、または非定型形態学であるが元の示された腫瘍タイプと一致したIHCマーカーを含んだ。時に、不一致は、追加のIHC検査を行うか、発注医と協議することになる。
(表147)病理学者によって再調査された症例
Figure 2022522948000287
Figure 2022522948000288
Figure 2022522948000289
Figure 2022522948000290
CUPの分析
CUPアッセイの個々の患者レベルでの検証は、「真相」が不明である可能性があるので根本的に困難である。しかしながら、集団ベースの方法を使用することで、GPS分類子のパフォーマンスに関するより深い洞察を得ることができ、一般にそのパフォーマンスを検証することができる。これを達成するために、本発明者らは、公知の患者集団にわたる変異の頻度を予測群における頻度と比較した。例えば、公知の患者コホートにおける結腸がんのBRAF変異の頻度は10.3%であり、すべての非結腸がん患者では4.8%である。分類子が結腸をコールしたCUP症例におけるBRAFの頻度は10.3%であり、分類子が非結腸としてコールしたCUP症例では4.9%である。このようにして、本発明者らは、特定のがんタイプとして分類されるCUP症例の集団が、各特定の腫瘍タイプの集団と一致することを示すことができる。この方法で本発明者らが使用したマーカーのサブセットは、表148に示しており、GPSによって予測されたCUP集団と実際の集団との類似性を実証している。予測されたCUP症例についての頻度と訓練セットとの間の相関関係のデータは、予測された集団が、脳がんを除き、実際の集団と非常によく似ていることを示している。この脳がんの例外は、理論に束縛されるものではないが、小さな試料サイズが原因である可能性があり、脳であると予測されたCUP症例はわずか17であった。これらのデータを総合すると、GPSが、CUPを集団レベルで、腫瘍の他の分子特性と一致するクラスに分類することができることを示す。
(表148)腫瘍タイプ当たりの注目すべきバイオマーカー間で検出または観測されたバリアント頻度の中央値
Figure 2022522948000291
*は、組み合わされた訓練および試験データセットの既知の腫瘍タイプ間で観測された値を表す。
**は、各列中の腫瘍タイプとなる予測されたCUPケース間で観測された値を表す。
考察
原発不明がんは、臨床医と患者の両方にとって依然として重大な問題である。腫瘍タイプ予測子は、CUP症例に分子予測を提供することができ、治療に関する情報を与えかつ潜在的に転帰を改善することができる。原発不明がんを特定するための従来のアプローチは、発現に基づくものであり、分析中の他の細胞のバックグラウンド発現から干渉を受けやすい。腫瘍が転移の部位に由来するものである状況または腫瘍率が低い場合、パフォーマンスは妨げられる。ほぼ間違いなく、転移部位で低い割合の腫瘍は、まさに、CUP診断補助が最も必要とされる場所であるが、従来の発現ベースのアプローチが不振になる場所である。また、腫瘍試料の原発起源の誤診も患者の治療選択肢を混乱させ得る。例えば、上の表3を参照されたい。
DNAベースのGPSは、これらの交絡因子に対してロバストであるが、これは、DNAに対する変化が検体部位ではなく腫瘍に寄与し得るためであり、これによって、腫瘍の割合が不明であったとしてもバックグラウンドノイズの問題に対処できる。GPS正規化技法は、転移性腫瘍および低い割合の腫瘍の両方を含めた15,000を超える症例にわたって一貫したロバストな性能を提示した。そして、GPS分析は、腫瘍プロファイルの結果を使用するので、単一検査から患者の治療戦略を最適化する診断情報と治療情報の両方を選出することができる。これは、治療を遅らせ得るより多くの組織および増加した所要時間を要する多重検査の現行基準を超える大幅な改善である。
原発不明がんは、臨床医と患者の両方にとって依然として重大な問題であり、本明細書に提供されるGPSアルゴリズムで診断を支援することができる。腫瘍タイプ予測子は、CUP症例に組織学的診断を提供することができ、治療に関する情報を与えかつ潜在的に転帰を改善することができる。本発明者らの腫瘍のNGS分析(実施例1を参照のこと)およびGPSは、単一検査から患者の治療戦略を最適化する診断情報と治療情報の両方を選出する。この方法は、より多くの組織を要する多重検査の現行基準を超える大幅な改善を提供する。
参考文献(実施例の本文中で上付き数字によって示される)
Figure 2022522948000292
Figure 2022522948000293
実施例5:分子プロファイリングレポート
図6A~Qは、本明細書に提供されるシステムおよび方法による匿名化されているが実在の患者の分子プロファイリングからの分子プロファイリングレポートを提示する。
図6Aは、レポートの1ページ目を例証しており、発注医からの検査依頼に報告されている検体が肝臓から採取されたこと、および原発腫瘍部位が上行結腸として提示されたことを示している。診断は、転移性腺がんであった。「治療関連性を伴う結果」という欄において、図6Aはさらに、治療関連性に関する関連バイオマーカーに基づく潜在的ベネフィットに関連する治療および潜在的ベネフィットの欠如に関連する治療のまとめを表示している。ここで、レポートは、KRAS、NRASおよびBRAFにおいて変異が検出されず、それによって、セツキシマブまたはパニツムマブの潜在的ベネフィットが示されたことを述べている。反対に、HER2タンパク質の発現の欠如は、抗HER2療法(ラパチニブ、ペルツズマブ、トラスツズマブ)からの潜在的ベネフィットの欠如を示している。欄「がんタイプ関連バイオマーカー」は、特に関連するバイオマーカーに関するある特定の分子プロファイリング結果を強調している。「ゲノムシグネチャ」欄は、マイクロサテライト不安定性(MSI)および腫瘍遺伝子変異量(TMB)の結果を示している。両方の特性がこの欄でちょうど上に強調されていることにも留意されたい。この患者は、MSIが安定でTMBが低いと分かった。
図6Bは、レポートの2ページ目であり、表示のアッセイからのバイオマーカー結果のまとめを列記している。注目すべきことに、APCおよびTP53は、腫瘍のゲノムDNAのシーケンシングを介して公知の病原性変異を有していることが分かった。欄「他の所見」は、低いカバレッジが原因の判定不能のシーケンシング結果を有する多数の遺伝子を述べている。
図6Cは、レポートの3ページ目であり、ゲノムDNAシーケンシング(NGSによる)が点変異、インデルまたはコピー数増幅を発見できなかった場所の遺伝子の「他の所見」の一覧が続く。
図6Dは、レポートの4ページ目であり、RNAシーケンシング(NGSによる)が変化を発見できなかった(例えば、融合遺伝子が検出されなかった)場所の遺伝子の「他の所見」の一覧がさらに続く。
図6Eは、レポートの5ページ目であり、検体に対して実施された本明細書に提供されるようなゲノムプロファイリング類似性(GPS)分析の結果を示す。検体のリコールは、肝臓から採取された転移性病変を含み、発注医によって上行結腸の腺がんであると報告された(図6Aを参照のこと)。図に示すように、レポートは、検体が列記された器官群(すなわち、膀胱;脳;乳房;結腸;女性生殖器・腹膜;胃食道;頭部、顔面または頚部、NOS;腎臓;肝臓、胆嚢、管;肺;黒色腫/皮膚;膵臓;前立腺;他)の各々に由来する確率を提供する。示されている各器官タイプについての類似性は、バーティカルバーの中にある。この症例では、GPSは、器官タイプ「結腸」にスコア97を割り当て、星形は、正しい一致の確率>98%を示している。「凡例」ボックスを参照されたい。器官群の胃食道は、類似性1を有しており、円形は、確率が確定的でないことを示している。他の器官はすべて、1未満または0の類似性を有しており、このことは、これらの器官群が>99%の確率で除外されたことを示している。
図6Fは、レポートの6ページ目であり、「留意事項」の一覧を提供し、ここに、プロファイリング結果に基づく利用可能な臨床試験、および追加の検体情報を示す。
図6Gは、レポートの7ページ目であり、分子プロファイリング結果に基づいて患者への潜在的な臨床試験を特定する「臨床試験コネクター(Clinical Trials Connector)」を提供する。APC遺伝子変異に関連付けられた治験(図6Bを参照のこと)を述べている。
図6Hは、免責条項を提示する。例えば、患者のケアおよび治療に関する決定は、患者の状態に関するすべての入手可能な情報を考慮に入れ、治療にあたる医師の独立した医学的判断に基づく必要がある。このページでレポートの本文は終わり、付録が続く。
図6I~6Mは、次世代シーケンシング(NGS)を使用して得られた結果に関するさらなる詳細を提供する。図6Iは、付録の1ページ目であり、腫瘍遺伝子変異量(TMB)およびマイクロサテライト不安定性(MSI)の分析および結果に関する情報を提供する。レポートは、高い変異荷重が免疫療法応答の潜在的指示因子であることを述べている(Le et al., PD-1 Blockade in Tumors with Mismatch-Repair Deficiency, N Engl J Med 2015; 372:2509-2520;Rizvi et al., Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer. Science. 2015 Apr 3; 348(6230): 124-128;Rosenberg et al., Atezolizumab in patients with locally advanced and metastatic urothelial carcinoma who have progressed following treatment with platinum-based chemotherapy: a single arm, phase 2 trial. Lancet. 2016 May 7; 387(10031): 1909-1920;Snyder et al., Genetic Basis for Clinical Response to CTLA-4 Blockade in Melanoma. N Engl J Med. 2014 Dec 4; 371(23): 2189-2199;これらの参考文献はすべて、その全体で参照により本明細書に組み入れられる)。図6Jは、付録の2ページ目であり、変化を保有すると分かった遺伝子、すなわちAPCおよびTP53に関する詳細を列記している。また、図6Bも参照されたい。図6Kは、付録の3ページ目であり、一部または全部のエキソンについて低いカバレッジが原因で判定不能結果であったか変異が検出されなかったかのいずれかの、NGSによって検査された遺伝子を述べている。図6Lは、付録の4ページ目であり、NGSによって検査された変異が検出されない遺伝子の一覧が続き、次世代シーケンシングを実施する方法に関するより多くの情報を追記している。図6Mは、付録の5ページ目であり、NGS分析および対応する方法論によって検出されたコピー数変化(CNA;コピー数多型;CNV)、例えば、遺伝子増幅に関する情報を提供する。図6Nは、付録の6ページ目であり、RNAシーケンシング分析および対応する方法論による遺伝子融合および転写バリアント検出に関する情報を提供する。この検体では、融合およびバリアント転写物は検出されなかった。図6Oは、付録の7ページ目であり、患者検体に対して実施されたIHC分析に関するより多くの情報、例えば、各マーカーに関する染色閾値および結果を提供する。図6Pおよび図6Qは、それぞれ付録の8ページ目および9ページ目であり、治療レコメンデーションを構築するために使用されるバイオマーカー-薬剤関連性規則の証拠を提供するために使用される参考文献の一覧を提供する。
実施例6:がん患者のための治療の選択
肝臓に転移性腫瘍を有するがん患者を治療する腫瘍学者は、患者への治療レジメンの選択を支援するために、腫瘍試料に対して分子プロファイリングを実施することを望む。転移性病変からの腫瘍細胞を含む生体試料が収集される。腫瘍学者の病理レポートによると、検体は、原発腫瘍部位を上行結腸とした転移性腺がんである。腫瘍学者は、腫瘍試料に対して実施されるべき分子プロファイリングパネルを要求する。試料は、本明細書の実施例1に従う分子検査のために本発明者らの実験室に送られる。
本発明者らは、腫瘍検体に対してゲノムDNAのNGS、RNAシーケンシングおよびIHC分析を実施する。実施例1に従って、試料について分子プロファイルが生成される。実施例2~4に記載の機械学習モデルを使用して、腫瘍の原発部位が予測される。分類は、大腸がんの方向に強く傾く。APCおよびTP53における変異が特定される。KRAS、BRAFおよびNRASにおいて変異は認められない。HER2は、過剰発現されない。分子プロファイリング結果が実施例5に記載のレポートに含まれ、このレポートはまた、抗HER2療法ではなくセツキシマブまたはパニツムマブによる治療を示唆する。レポートは、腫瘍学者に提供される。腫瘍学者は、患者への治療レジメンの決定を支援するために、レポートに提供される情報を使用する。
他の態様
本発明は、その詳細な説明と併せて記載してきたが、前述の説明は、例証を目的としており、添付の特許請求の範囲によって規定される本明細書に記載の範囲を限定することを意図していないことが理解されるべきである。他の局面、利点および変更は特許請求の範囲の範囲内である。
[本発明1001]
生体試料の一次起源を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、
該データ処理装置が、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、
該動作が、
該データ処理装置により、1つまたは複数のバイオマーカーデータ構造および1つまたは複数の試料データ構造を得る工程;
該データ処理装置により、試料と関連付けされた1つまたは複数のバイオマーカーを表す第一のデータを、該1つまたは複数のバイオマーカーデータ構造から抽出し、試料データを表す第二のデータを、該1つまたは複数の試料データ構造から抽出し、予測される起源を表す第三のデータを抽出する工程;
該データ処理装置により、該1つまたは複数のバイオマーカーを表す第一のデータと該起源および試料を表す第二のデータとに基づいて、機械学習モデルへ入力するためのデータ構造を生成する工程;
該データ処理装置により、該生成されたデータ構造を該機械学習モデルへの入力として提供する工程;
該データ処理装置により、該生成されたデータ構造の該機械学習モデルの処理に基づいて、該機械学習モデルによって生成された出力を得る工程;
該データ処理装置により、該試料について予測される起源を表す第三のデータと、該機械学習モデルによって生成された出力との間の差を決定する工程;ならびに
該データ処理装置により、該試料について予測される起源を表す第三のデータと該機械学習モデルによって生成された出力との間の差に基づいて、該機械学習モデルの1つまたは複数のパラメータを調節する工程
を含む、前記データ処理装置。
[本発明1002]
1つまたは複数のバイオマーカーのセットが、表2~8のいずれか1つの1つまたは複数のバイオマーカーを含む、本発明1001のデータ処理装置。
[本発明1003]
1つまたは複数のバイオマーカーのセットが、本発明1002のバイオマーカーのそれぞれを含む、本発明1001のデータ処理装置。
[本発明1004]
1つまたは複数のバイオマーカーのセットが、本発明1002のバイオマーカーの少なくとも1つを含み、任意で、1つまたは複数のバイオマーカーのセットが、表5、表6、表7、表8中のマーカーまたはそれらの任意の組み合わせを含む、本発明1001のデータ処理装置。
[本発明1005]
生体試料の一次起源を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、
該データ処理装置が、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、
該動作が、
該データ処理装置により、第一の分散データソースから、生体試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造を得る工程であって、第一のデータ構造が、該試料を同定するキーバリューを含む、工程;
該データ処理装置により、第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程;
該データ処理装置により、第二の分散データソースから、該1つまたは複数のバイオマーカーを有する試料に関する起源データを表すデータを構造化する第二のデータ構造を得る工程であって、該起源データが、試料、起源、および予測される起源の指標を同定するデータを含み、第二のデータ構造も、該試料を同定するキーバリューを含む、工程;
該データ処理装置により、第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程;
該データ処理装置により、該メモリデバイスに記憶された第一のデータ構造および第二のデータ構造を使用して、(i)1つまたは複数のバイオマーカーのセットおよび該試料を表すデータ、および(ii)予測される起源の指標を提供するラベルを含む、ラベル付き訓練データ構造を生成する工程であって、該データ処理装置により、第一のデータ構造および第二のデータ構造を使用して生成する工程が、該データ処理装置により、該対象を同定するキーバリューに基づいて、試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造と、該1つまたは複数のバイオマーカーを有する試料に関する予測される起源データを表す第二のデータ構造とを相関させることを含む、工程;ならびに
該データ処理装置により、該生成されたラベル付き訓練データ構造を使用して、機械学習モデルを訓練する工程であって、該生成されたラベル付き訓練データ構造を使用して該機械学習モデルを訓練する工程が、該データ処理装置により、該生成されたラベル付き訓練データ構造を該機械学習モデルへの入力として該機械学習モデルに提供することを含む、工程
を含む、前記データ処理装置。
[本発明1006]
動作が、
データ処理装置により、機械学習モデルから、生成されたラベル付き訓練データ構造の機械学習モデルの処理に基づいて、該機械学習モデルによって生成された出力を得る工程;ならびに
該データ処理装置により、該機械学習モデルによって生成された出力と、予測される起源の指標を提供するラベルとの間の差を決定する工程
をさらに含む、本発明1005のデータ処理装置。
[本発明1007]
動作が、
データ処理装置により、機械学習モデルによって生成された出力と、予測される起源の指標を提供するラベルとの間の決定された差に基づいて、該機械学習モデルの1つまたは複数のパラメータを調節する工程
をさらに含む、本発明1006のデータ処理装置。
[本発明1008]
1つまたは複数のバイオマーカーのセットが、表2~8のいずれか1つに記載の1つまたは複数のバイオマーカーを含み、任意で、1つまたは複数のバイオマーカーのセットが、表5、表6、表7、表8中のマーカーまたはそれらの任意の組み合わせを含む、本発明1005のデータ処理装置。
[本発明1009]
1つまたは複数のバイオマーカーのセットが、本発明1008のバイオマーカーのそれぞれを含む、本発明1005のデータ処理装置。
[本発明1010]
1つまたは複数のバイオマーカーのセットが、本発明1008のバイオマーカーの1つを含む、本発明1005のデータ処理装置。
[本発明1011]
本発明1001~1010のいずれかの動作のそれぞれに対応する工程を含む、方法。
[本発明1012]
1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに、本発明1001~1010のいずれかの動作のそれぞれを実行させる命令を記憶する1つまたは複数のデータ記憶媒体とを含む、システム。
[本発明1013]
1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、本発明1001~1010のいずれかの動作を実行させる命令
を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
[本発明1014]
試料の起源を決定するための方法であって、
試料を表す受け取った入力データと、特定の生物学的シグネチャとの間のペアワイズ類似度演算を実行するようにそれぞれ訓練された複数の機械学習モデルの各特定の機械学習モデルに関し、
該特定の機械学習モデルに、対象の試料を表す入力データを提供する工程であって、該試料が該対象の組織または器官から得られたものである、工程;
該特定の機械学習モデルによる該提供された入力データの処理に基づいて、該特定の機械学習モデルによって生成された出力データを得る工程であって、該出力データが、該提供された入力データによって表される試料が該特定の生物学的シグネチャに対応する対象の体の一部分に由来した可能性を表す、工程;
該複数の機械学習モデルのそれぞれに関して得られた出力データを投票ユニットに提供する工程であって、該提供された出力データが、該複数の機械学習モデルのそれぞれによって決定された初期試料起源を表すデータを含む、工程;ならびに
該投票ユニットにより、該提供された出力データに基づいて、予測される試料起源を決定する工程
を含む、前記方法。
[本発明1015]
予測される試料起源が、提供された出力データに多数決原理を適用することによって決定される、本発明エラー(リファレンスソースノットファウンド)の方法。
[本発明1016]
投票ユニットにより、提供された出力データに基づいて、予測される試料起源を決定する工程が、
該投票ユニットにより、複数の候補起源クラスの各初期起源クラスの出現回数を決定すること;および
該投票ユニットにより、該複数の候補起源クラスのうち、最大の出現回数を有する初期起源クラスを選択すること
を含む、本発明エラー(リファレンスソースノットファウンド)または14の方法。
[本発明1017]
複数の機械学習モデルの各機械学習モデルが、ランダムフォレスト分類アルゴリズム、サポートベクターマシン、ロジスティック回帰、k近傍法モデル、人工ニューラルネットワーク、単純ベイズモデル、二次判別分析、ガウス過程モデル、またはそれらの任意の組み合わせを含む、本発明エラー(リファレンスソースノットファウンド)~16のいずれかの方法。
[本発明1018]
複数の機械学習モデルの各機械学習モデルが、ランダムフォレスト分類アルゴリズムを含む、本発明エラー(リファレンスソースノットファウンド)~16のいずれかの方法。
[本発明1019]
複数の機械学習モデルが、同じタイプの分類アルゴリズムの複数の表現を含む、本発明エラー(リファレンスソースノットファウンド)~18のいずれかの方法。
[本発明1020]
入力データが、(i)試料属性、および(ii)起源の種類を表す、本発明エラー(リファレンスソースノットファウンド)~18のいずれかの方法。
[本発明1021]
複数の候補起源クラスが、前立腺、膀胱、子宮頸内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、および皮膚に関する少なくとも1つのクラスを含む、本発明1020の方法。
[本発明1022]
試料属性が、試料に関する1つまたは複数のバイオマーカーを含む、本発明1020または1021の方法。
[本発明1023]
1つまたは複数のバイオマーカーが、試料のすべての公知の遺伝子よりも少ない遺伝子のパネルを含む、本発明1022の方法。
[本発明1024]
1つまたは複数のバイオマーカーが、試料のためのすべての公知の遺伝子を含む遺伝子のパネルを含む、本発明1022の方法。
[本発明1025]
入力データが、試料および/または対象の種類を表すデータをさらに含む、本発明1020~1024のいずれかの方法。
[本発明1026]
1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに、本発明エラー(リファレンスソースノットファウンド)~25のいずれかの動作のそれぞれを実行させる命令を記憶する1つまたは複数の記憶媒体とを含む、システム。
[本発明1027]
1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、本発明エラー(リファレンスソースノットファウンド)~25のいずれかの動作を実行させる命令
を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
[本発明1028]
(a)対象のがんに由来する細胞を含む生体試料を得る工程;
(b)該試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、該試料に関するバイオシグネチャを得る工程;
(c)該バイオシグネチャを、一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャと比較する工程;および
(d)該比較に基づいて、該がんの一次起源を分類する工程
を含む、方法。
[本発明1029]
生体試料が、ホルマリン固定パラフィン包埋(FFPE)組織、固定組織、コア針生検、穿刺吸引液、非染色スライド、新鮮凍結(FF)組織、ホルマリン試料、核酸もしくはタンパク質分子を保存する溶液に含まれる組織、新鮮な試料、悪性流体、体液、腫瘍試料、組織試料、またはそれらの任意の組み合わせを含む、本発明1028の方法。
[本発明1030]
生体試料が、固形腫瘍、体液、またはそれらの組み合わせに由来する細胞を含む、本発明1028または1029の方法。
[本発明1031]
体液が、悪性流体、胸膜液、腹腔液、またはそれらの任意の組み合わせを含む、本発明1029または1030の方法。
[本発明1032]
体液が、末梢血、血清、血漿、腹水、尿、脳脊髄液(CSF)、痰、唾液、骨髄、滑液、眼房水、羊水、耳垢、母乳、気管支肺胞洗浄液、精液、前立腺液、カウパー腺液、尿道球腺液、女性射精液、汗、糞便、涙液、嚢胞液、胸膜液、腹腔液、心膜液、リンパ液、糜粥、乳糜、胆汁、間質液、月経分泌物、膿、皮脂、嘔吐物、膣分泌液、粘膜分泌液、水便、膵液、鼻腔からの洗浄液、気管支肺吸引液、胞胚腔液、または臍帯血を含む、本発明1029~1031のいずれかの方法。
[本発明1033]
工程(b)における評価が、バイオマーカーごとにタンパク質または核酸の存在、レベルまたは状態を決定することを含み、任意で、該核酸が、デオキシリボ核酸(DNA)、リボ核酸(RNA)またはそれらの組み合わせを含む、本発明1028~1032のいずれかの方法。
[本発明1034]
i. タンパク質の存在、レベルまたは状態が、免疫組織化学(IHC)、フローサイトメトリー、イムノアッセイ、抗体もしくはその機能的断片、アプタマー、またはそれらの任意の組み合わせを使用して決定される;および/または
ii. 核酸の存在、レベルまたは状態が、ポリメラーゼ連鎖反応(PCR)、インサイチューハイブリダイゼーション、増幅、ハイブリダイゼーション、マイクロアレイ、核酸シーケンシング、ダイターミネータシーケンシング、パイロシーケンシング、次世代シーケンシング(NGS;ハイスループットシーケンシング)、全エキソームシーケンシング、全トランスクリプトームシーケンシング、またはそれらの任意の組み合わせを使用して決定される、
本発明1033の方法。
[本発明1035]
核酸の状態が、配列、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅、反復、コピー数、コピー数多型(CNV;コピー数変化;CNA)、またはそれらの任意の組み合わせを含む、本発明1034の方法。
[本発明1036]
核酸の状態がコピー数を含む、本発明1035の方法。
[本発明1037]
アッセイが、次世代シーケンシングを含み、任意で、該次世代シーケンシングが、表3~8中の遺伝子、ゲノム情報、および融合転写物を評価するために使用される、本発明1028~1036のいずれかの方法。
[本発明1038]
分類する工程が、一次起源が複数の一次腫瘍起源の各メンバーである確率を決定すること、および最高の確率を有する一次起源を選択することを含む、本発明1028~1037のいずれかの方法。
[本発明1039]
一次腫瘍起源または複数の一次腫瘍起源が、前立腺、膀胱、子宮頸内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、および皮膚の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、または38個すべてを含む、本発明1028~1038のいずれかの方法。
[本発明1040]
前立腺に関する少なくとも1つの予め決定されたバイオシグネチャが、FOXA1、PTEN、KLK2、GATA2、LCP1、ETV6、ERCC3、FANCA、MLLT3、MLH1、NCOA4、NCOA2、CCDC6、PTCH1、FOXO1、およびIRF4の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、または16個すべてを含む、本発明1039の方法。
[本発明1041]
前立腺バイオシグネチャに関するアッセイを実施する工程が、バイオシグネチャのメンバーの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、または16個すべてに関する遺伝子コピー数を決定することを含む、本発明1040の方法。
[本発明1042]
一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャが、表125~142に記載のバイオマーカーの選択を含み;
任意で、
i. 副腎起源を示す予め決定されたバイオシグネチャが、表125より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
ii. 膀胱起源を示す予め決定されたバイオシグネチャが、表126より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
iii. 脳起源を示す予め決定されたバイオシグネチャが、表127より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
iv. 乳房起源を示す予め決定されたバイオシグネチャが、表128より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
v. 結腸直腸起源を示す予め決定されたバイオシグネチャが、表129より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
vi. 食道起源を示す予め決定されたバイオシグネチャが、表130より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
vii. 眼起源を示す予め決定されたバイオシグネチャが、表131より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
viii. 女性生殖器および/もしくは腹膜起源を示す予め決定されたバイオシグネチャが、表132より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
ix. 頭部、顔面、もしくは頸部起源(特定不能)を示す予め決定されたバイオシグネチャが、表133より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
x. 腎臓起源を示す予め決定されたバイオシグネチャが、表134より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xi. 肝臓、胆嚢、および/もしくは導管起源を示す予め決定されたバイオシグネチャが、表135より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xii. 肺起源を示す予め決定されたバイオシグネチャが、表136より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xiii. 膵臓起源を示す予め決定されたバイオシグネチャが、表137より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xiv. 前立腺起源を示す予め決定されたバイオシグネチャが、表138より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xv. 皮膚起源を示す予め決定されたバイオシグネチャが、表139より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xvi. 小腸起源を示す予め決定されたバイオシグネチャが、表140より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
xvii. 胃起源を示す予め決定されたバイオシグネチャが、表141より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;ならびに/または
xviii. 甲状腺起源を示す予め決定されたバイオシグネチャが、表142より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む、
本発明1038または1039の方法。
[本発明1043]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する特徴バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、本発明1042の方法。
[本発明1044]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーを含む、本発明1042の方法。
[本発明1045]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、本発明1042の方法。
[本発明1046]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む、本発明1045の方法。
[本発明1047]
一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャが、表10~124に記載のバイオマーカーの選択を含み;
任意で、
i. 副腎皮質がん起源を示す予め決定されたバイオシグネチャが、表10より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
ii. 肛門扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表11より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
iii. 虫垂腺がん起源を示す予め決定されたバイオシグネチャが、表12より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
iv. 虫垂粘液性腺がんNOS起源を示す予め決定されたバイオシグネチャが、表13より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
v. 胆管NOS胆管がん起源を示す予め決定されたバイオシグネチャが、表14より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
vi. 脳星状細胞腫NOS起源を示す予め決定されたバイオシグネチャが、表15より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
vii. 脳退形成性星状細胞腫起源を示す予め決定されたバイオシグネチャが、表16より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
viii. 乳腺がんNOS起源を示す予め決定されたバイオシグネチャが、表17より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
ix. 乳がんNOSを示す予め決定されたバイオシグネチャが、表18より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
x. 浸潤性乳管腺がん起源を示す予め決定されたバイオシグネチャが、表19より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xi. 乳房浸潤性小葉腺がんNOS起源を示す予め決定されたバイオシグネチャが、表20より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xii.乳房化生がんNOS起源を示す予め決定されたバイオシグネチャが、表21より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xiii. 子宮頸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表22より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xiv. 子宮頸がんNOS起源を示す予め決定されたバイオシグネチャが、表23より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xv. 子宮頸扁平上皮がんNOS起源を示す予め決定されたバイオシグネチャが、表24より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xvi. 結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表25より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xvii. 結腸がんNOS起源を示す予め決定されたバイオシグネチャが、表26より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xviii. 結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表27より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xix. 結膜悪性黒色腫NOS起源を示す予め決定されたバイオシグネチャが、表28より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xx. 十二指腸膨大部腺がんNOS起源を示す予め決定されたバイオシグネチャが、表29より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxi. 子宮内膜類内膜腺がん起源を示す予め決定されたバイオシグネチャが、表30より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxii. 子宮内膜腺がんNOS起源を示す予め決定されたバイオシグネチャが、表31より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxiii. 子宮内膜がん肉腫起源を示す予め決定されたバイオシグネチャが、表32より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxiv. 子宮内膜漿液性がん起源を示す予め決定されたバイオシグネチャが、表33より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxv. 子宮内膜がんNOS起源を示す予め決定されたバイオシグネチャが、表34より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxvi. 未分化子宮内膜がん起源を示す予め決定されたバイオシグネチャが、表35より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxvii. 子宮内膜明細胞がん起源を示す予め決定されたバイオシグネチャが、表36より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxviii. 食道腺がんNOS起源を示す予め決定されたバイオシグネチャが、表37より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxix. 食道がんNOS起源を示す予め決定されたバイオシグネチャが、表38より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxx. 食道扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表39より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxi. 肝外胆管総胆管胆嚢腺がんNOS起源を示す予め決定されたバイオシグネチャが、表40より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxii. 卵管腺がんNOS起源を示す予め決定されたバイオシグネチャが、表41より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxiii. 卵管がんNOS起源を示す予め決定されたバイオシグネチャが、表42より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxiv. 卵管がん肉腫NOS起源を示す予め決定されたバイオシグネチャが、表43より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxv. 卵管漿液性がん起源を示す予め決定されたバイオシグネチャが、表44より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxvi. 胃腺がん起源を示す予め決定されたバイオシグネチャが、表45より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxvii. 食道胃接合部腺がんNOS起源を示す予め決定されたバイオシグネチャが、表46より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxviii. 神経膠芽腫起源を示す予め決定されたバイオシグネチャが、表47より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xxxix. 神経膠腫NOS起源を示す予め決定されたバイオシグネチャが、表48より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xl. 神経膠肉腫起源を示す予め決定されたバイオシグネチャが、表49より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xli. 頭部、顔面または頸部NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表50より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xlii. 肝内胆管の胆管がん起源を示す予め決定されたバイオシグネチャが、表51より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xliii. 腎がんNOS起源を示す予め決定されたバイオシグネチャが、表52より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xliv. 腎明細胞がん起源を示す予め決定されたバイオシグネチャが、表53より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xlv. 腎臓の乳頭状腎細胞がん起源を示す予め決定されたバイオシグネチャが、表54より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xlvi. 腎臓の腎細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表55より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xlvii. 喉頭NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表56より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xlviii. 左結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表57より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xlix. 左結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表58より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
l. 肝臓の肝細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表59より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
li. 肺腺がんNOS起源を示す予め決定されたバイオシグネチャが、表60より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lii. 肺腺扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表61より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
liii. 肺がんNOS起源を示す予め決定されたバイオシグネチャが、表62より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
liv. 肺粘液性がん起源を示す予め決定されたバイオシグネチャが、表63より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lv. 肺神経内分泌がんNOS起源を示す予め決定されたバイオシグネチャが、表64より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lvi. 肺非小細胞がん起源を示す予め決定されたバイオシグネチャが、表65より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lvii. 肺肉腫様がん起源を示す予め決定されたバイオシグネチャが、表66より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lviii. 肺小細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表67より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lix. 肺扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表68より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lx. 髄膜の髄膜腫NOS起源を示す予め決定されたバイオシグネチャが、表69より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxi. 鼻咽頭NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表70より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxii. 乏突起神経膠腫NOS起源を示す予め決定されたバイオシグネチャが、表71より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxiii. 退形成性乏突起神経膠腫起源を示す予め決定されたバイオシグネチャが、表72より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxiv. 卵巣腺がんNOS起源を示す予め決定されたバイオシグネチャが、表73より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxv. 卵巣がんNOS起源を示す予め決定されたバイオシグネチャが、表74より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxvi. 卵巣がん肉腫起源を示す予め決定されたバイオシグネチャが、表75より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxvii. 卵巣明細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表76より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxviii. 卵巣類内膜腺がん起源を示す予め決定されたバイオシグネチャが、表77より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxix. 卵巣顆粒膜細胞腫NOS起源を示す予め決定されたバイオシグネチャが、表78より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxx. 卵巣高悪性度漿液性がん起源を示す予め決定されたバイオシグネチャが、表79より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxi. 卵巣低悪性度漿液性がん起源を示す予め決定されたバイオシグネチャが、表80より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxii. 卵巣粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表81より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxiii. 卵巣漿液性がん起源を示す予め決定されたバイオシグネチャが、表82より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxiv. 膵腺がんNOS起源を示す予め決定されたバイオシグネチャが、表83より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxv. 膵がんNOS起源を示す予め決定されたバイオシグネチャが、表84より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxvi. 膵粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表85より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxvii. 膵神経内分泌がんNOS起源を示す予め決定されたバイオシグネチャが、表86より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxviii. 耳下腺がんNOS起源を示す予め決定されたバイオシグネチャが、表87より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxix. 腹膜腺がんNOS起源を示す予め決定されたバイオシグネチャが、表88より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxx. 腹膜がんNOS起源を示す予め決定されたバイオシグネチャが、表89より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxi. 腹膜漿液性がん起源を示す予め決定されたバイオシグネチャが、表90より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxii. 胸膜中皮腫NOS起源を示す予め決定されたバイオシグネチャが、表91より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxiii. 前立腺腺がんNOS起源を示す予め決定されたバイオシグネチャが、表92より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxiv. 直腸S状部腺がんNOS起源を示す予め決定されたバイオシグネチャが、表93より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxv. 直腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表94より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxvi. 直腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表95より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxvii. 後腹膜脱分化型脂肪肉腫起源を示す予め決定されたバイオシグネチャが、表96より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxviii. 後腹膜平滑筋肉腫NOS起源を示す予め決定されたバイオシグネチャが、表97より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
lxxxix. 右結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表98より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xc. 右結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表99より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xci. 唾液腺腺様嚢胞がん起源を示す予め決定されたバイオシグネチャが、表100より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xcii. 皮膚メルケル細胞がん起源を示す予め決定されたバイオシグネチャが、表101より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xciii. 皮膚結節性黒色腫起源を示す予め決定されたバイオシグネチャが、表102より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xciv. 皮膚扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表103より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xcv. 皮膚黒色腫起源を示す予め決定されたバイオシグネチャが、表104より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xcvi. 小腸消化管間質腫瘍(GIST)NOS起源を示す予め決定されたバイオシグネチャが、表105より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xcvii. 小腸腺がん起源を示す予め決定されたバイオシグネチャが、表106より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xcviii. 胃消化管間質腫瘍(GIST)NOS起源を示す予め決定されたバイオシグネチャが、表107より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
xcix. 胃印環細胞腺がん起源を示す予め決定されたバイオシグネチャが、表108より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
c. 甲状腺がんNOS起源を示す予め決定されたバイオシグネチャが、表109より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
ci. 退形成性甲状腺がんNOS起源を示す予め決定されたバイオシグネチャが、表110より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cii. 甲状腺乳頭がん起源を示す予め決定されたバイオシグネチャが、表111より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
ciii. 扁桃腺中咽頭舌扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表112より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
civ. 横行結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表113より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cv. 尿路上皮膀胱腺がんNOS起源を示す予め決定されたバイオシグネチャが、表114より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cvi. 尿路上皮膀胱がんNOS起源を示す予め決定されたバイオシグネチャが、表115より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cvii. 尿路上皮膀胱扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表116より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cviii. 尿路上皮がんNOS起源を示す予め決定されたバイオシグネチャが、表117より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cix. 子宮の子宮内膜間質肉腫NOS起源を示す予め決定されたバイオシグネチャが、表118より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cx. 子宮平滑筋肉腫NOS起源を示す予め決定されたバイオシグネチャが、表119より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cxi. 子宮肉腫NOS起源を示す予め決定されたバイオシグネチャが、表120より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cxii. ブドウ膜黒色腫起源を示す予め決定されたバイオシグネチャが、表121より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cxiii. 膣扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表122より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
cxiv. 外陰部扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表123より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;および/または
cxv. 皮膚体幹部黒色腫起源を示す予め決定されたバイオシグネチャが、表124より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む、
本発明1038または1039の方法。
[本発明1048]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する特徴バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、本発明1047の方法。
[本発明1049]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49または50個の特徴バイオマーカーを含む、本発明1047の方法。
[本発明1050]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の特徴バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、本発明1047の方法。
[本発明1051]
少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む、本発明1050の方法。
[本発明1052]
(e)工程(b)が、バイオシグネチャの少なくとも1つのメンバーに関する遺伝子コピー数を決定することを含み、かつ工程(c)が、該遺伝子コピー数と参照コピー数(例えば二倍体)との比較により、遺伝子コピー数変化(CNA)を有するバイオシグネチャのメンバーを同定することを含む;
(f)工程(b)が、バイオシグネチャの少なくとも1つのメンバーに関する配列を決定することを含み、かつ工程(c)が、該配列と参照配列(例えば野生型)との比較により、変異(例えば、点変異、挿入、欠失)を有するバイオシグネチャのメンバーを同定することを含む;かつ/または
(g)工程(b)が、バイオシグネチャの複数のメンバーに関する配列を決定することを含み、かつ工程(c)が、該配列を参照配列(例えば野生型)と比較して、マイクロサテライトリピートを同定すること、およびマイクロサテライト不安定性(MSI)を有するバイオシグネチャのメンバーを同定することを含む、
本発明1028~1051のいずれかの方法。
[本発明1053]
バイオシグネチャ中のバイオマーカーが、対応する表に記載されるように評価される、本発明1042~1052のいずれかの方法。
[本発明1054]
バイオシグネチャ中のバイオマーカーの存在、レベル、または状態を同定する、例えば、各バイオマーカーがCNAおよび/または変異および/またはMSIを有するかを同定する、分子プロファイル
を生成する工程をさらに含む、本発明1042~1053のいずれかの方法。
[本発明1055]
がんの分類された一次起源に少なくとも一部基づいて、患者のための治療、例えば、免疫療法、化学療法、またはそれらの組み合わせの投与を含む治療を選択する工程をさらに含む、本発明1028~1054のいずれかの方法。
[本発明1056]
本発明1054の生成された分子プロファイルを含むレポートを作成することを含む、分子プロファイリングレポートを生成する方法であって、該レポートが、がんの分類された一次起源を同定し、任意で、該レポートが、本発明1055のように選択された治療も同定する、前記方法。
[本発明1057]
レポートが、コンピュータ生成される、プリントされたレポートおよび/もしくはコンピュータファイルである、かつ/またはウェブポータルを介してアクセス可能である、本発明1056の方法。
[本発明1058]
試料が、原発不明がん(CUP)を含む、本発明1028~1057のいずれかの方法。
[本発明1059]
工程(c)が、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャに対応する確率を計算する、本発明1028~1058のいずれかの方法。
[本発明1060]
工程(c)が、2つの候補一次腫瘍起源の間のペアワイズ比較を含み、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャのいずれか1つに対応する確率が、計算される、本発明1059の方法。
[本発明1061]
一次腫瘍起源の2つの候補の間のペアワイズ比較が、機械学習分類アルゴリズムを使用して決定され、任意で、該機械学習分類アルゴリズムが、投票モジュールを含む、本発明1060の方法。
[本発明1062]
投票モジュールが、本発明エラー(リファレンスソースノットファウンド)~25のいずれかの投票モジュールである、本発明1061の方法。
[本発明1063]
複数の確率が、複数の予め決定されたバイオシグネチャに関して計算され、任意で、該確率が順位付けされる、本発明1059~1062のいずれかの方法。
[本発明1064]
確率が閾値と比較され、任意で、該閾値との比較が、がんの一次起源の分類の可能性が高いか、可能性が低いか、または不確定であるかを決定するために使用される、本発明1063の方法。
[本発明1065]
一次腫瘍起源または複数の一次腫瘍起源が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;外陰部扁平上皮がん;およびそれらの任意の組み合わせの少なくとも1つを含む、本発明1028~1064のいずれかの方法。
[本発明1066]
一次腫瘍起源または複数の一次腫瘍起源が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む、本発明1028~1064のいずれかの方法。
[本発明1067]
1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに、本発明1028~1066のいずれかの動作を実行させる命令を記憶する1つまたは複数の記憶媒体とを含む、システム。
[本発明1068]
1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、本発明1028~1066のいずれかの動作を実行させる命令
を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
[本発明1069]
がんの系列を同定するためのシステムであって、
(a)少なくとも1つのホストサーバ;
(b)該少なくとも1つのホストサーバにアクセスして、データにアクセスし該データを入力するための、少なくとも1つのユーザインタフェース;
(c)入力されたデータを処理するための、少なくとも1つのプロセッサ;
(d)処理されたデータと、本発明1028~1055のいずれかの比較工程および分類工程を実施するための命令とを記憶するための、該プロセッサに結合された少なくとも1つのメモリ;および
(e)該がんの分類された一次起源を表示するための、少なくとも1つのディスプレイ
を含む、前記システム。
[本発明1070]
処理されたデータと、本発明1055~1057のいずれかの選択および/または生成のための命令とを記憶するための、プロセッサに結合された少なくとも1つのメモリをさらに含む、本発明1069のシステム。
[本発明1071]
少なくとも1つのディスプレイが、がんの分類された一次起源を含むレポートを含む、本発明1069または1070のシステム。
[本発明1072]
体から得られた試料の疾患タイプを同定するための、システムであって、
該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
該動作が、
該システムにより、体から得られた疾患試料を表す試料生物学的シグネチャを得る工程;
該システムにより、該試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびに
該システムにより、該ペアワイズ分析に基づいて、該体から得られた試料における可能性が高い疾患タイプを示すデータを表す、該モデルによって生成された出力を受け取る工程
を含む、前記システム。
[本発明1073]
体から得られた試料の疾患タイプを同定するための、システムであって、
該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
該動作が、
該システムにより、体から得られた試料を表す試料生物学的シグネチャを得る工程;
該システムにより、該試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびに
該システムにより、該複数の異なる生物学的シグネチャの各特定の生物学的シグネチャに関して、該特定の生物学的シグネチャによって同定された疾患タイプが該試料における可能性が高い疾患タイプを同定する確率を示すデータを表す、該モデルによって生成された出力を受け取る工程
を含む、前記システム。
[本発明1074]
体から得られた試料の疾患タイプを同定するための、システムであって、
該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
該動作が、
該システムにより、体の第一の部分におけるがん試料から得られた生体試料を表す試料生物学的シグネチャを得る工程であって、該試料生物学的シグネチャが、該生体試料の複数の特徴を記述するデータを含み、該複数の特徴が、該体の第一の部分を記述するデータを含む、工程;
該システムにより、該試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびに
該システムにより、該体から得られた試料における可能性が高い疾患タイプを示すデータを表す、該モデルによって生成された出力を受け取る工程
を含む、前記システム。
[本発明1075]
疾患タイプが、がんのタイプを含み、任意で、疾患タイプが、一次腫瘍起源および組織学を含む、本発明1072~1074のいずれかのシステム。
[本発明1076]
試料生物学的シグネチャが、がん試料中の1つまたは複数のバイオマーカーを評価するための、アッセイの性能に基づいて得られた特徴を表すデータを含み、任意で、該アッセイが、次世代シーケンシングを含み、任意で、該次世代シーケンシングが、表3~8中の遺伝子、ゲノム情報、および融合転写物の少なくとも1つを評価するために使用される、本発明1072~1075のいずれかのシステム。
[本発明1077]
動作が、モデルによって生成された出力に基づいて、同定された疾患タイプに関する提案された治療を決定する工程をさらに含む、本発明1072~1076のいずれかのシステム。
[本発明1078]
疾患タイプが、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんの少なくとも1つを含む、本発明1072~1077のいずれかのシステム。
[本発明1079]
動作が、モデルによって生成された出力に基づいて、試料の器官タイプを割り当てる工程をさらに含み、任意で、該器官タイプが、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む、本発明1072~1078のいずれかのシステム。
[本発明1080]
異なる疾患タイプに対応する複数の異なる生物学的シグネチャが、表10~142のいずれか1つにおける少なくとも1つのシグネチャを含む、本発明1072~1079のいずれかのシステム。
[本発明1081]
がんの起源位置を同定するための、システムであって、
該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
該動作が、
該システムにより、第一の体の第一の部分におけるがん性新生物から得られた生体試料を表す試料生物学的シグネチャを得る工程であって、該試料生物学的シグネチャが、該生体試料の複数の特徴を記述するデータを含み、該複数の特徴が、第一の体の第一の部分を記述するデータを含む、工程;
該システムにより、該生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、該がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャを少なくとも含む、工程;
該システムにより、第一の体の第一の部分におけるがん性新生物が、第一の体の第二の部分におけるがんによって引き起こされた可能性を表す、該モデルによって生成された出力を受け取る工程;
該システムにより、該受け取った出力に基づいて、該モデルによって生成された受け取った出力が、1つまたは複数の予め決定された閾値を満たすかを決定する工程;ならびに
該システムにより、該受け取った出力が該1つまたは複数の予め決定された閾値を満たすことを決定する工程に基づいて、該システムにより、第一の体の第一の部分におけるがん性新生物が、第一の体の第二の部分におけるがんによって引き起こされたことを決定する工程
を含む、前記システム。
[本発明1082]
第一の体の第一の部分および/または第一の体の第二の部分が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される、本発明1081のシステム。
[本発明1083]
第一の体の第一の部分および/または第一の体の第二の部分が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される、本発明1081または1082のシステム。
[本発明1084]
生体試料の複数の特徴が、
(i)1つもしくは複数のバリアントを同定するデータ、または
(ii)遺伝子コピー数を同定するデータ
を含む、本発明1081~1083のいずれかのシステム。
[本発明1085]
モデルによって生成された受け取った出力が、行列データ構造を含み、
該行列データ構造が、ペアワイズモデルによって評価された複数の特徴の各特徴に関するセルを含み、該セルのそれぞれは、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第二の部分におけるがんによって引き起こされたことを示す確率を記述するデータを含む、
本発明1081~1084のいずれかのシステム。
[本発明1086]
がん性生物学的シグネチャが、1つまたは複数の他の体の第三の部分に由来するがん性生体試料の分子プロファイルを表す第三のがん性生物学的シグネチャをさらに含み、
行列データ構造が、ペアワイズモデルによって評価された複数の特徴の各特徴に関するセルを含み、該行列の第一列は、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第二の部分におけるがんによって引き起こされたことを示す確率を記述するデータをそれぞれ含む、セルのサブセットを含み、該行列の第二列は、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第三の部分におけるがんによって引き起こされたことを示す確率を記述するデータをそれぞれ含む、セルのサブセットを含む、
本発明1081~1085のいずれかのシステム。
[本発明1087]
動作が、
システムにより、第二の体の第一の部分における異なるがん性新生物から得られた異なる生体試料を表す異なる試料生物学的シグネチャを得る工程であって、該異なる試料生物学的シグネチャが、該異なる生体試料の複数の特徴を記述するデータを含み、該複数の特徴が、第二の体の第一の部分を記述するデータを含む、工程;
システムにより、該異なる生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルへの入力として、該異なる試料生物学的シグネチャを提供する工程であって、該モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、該がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャ少なくともを含む、工程;
システムにより、第二の体の第一の部分におけるがん性新生物が、第二の体の第二の部分におけるがんによって引き起こされた可能性を表す、該モデルによって生成された異なる出力を受け取る工程;
システムにより、該受け取った異なる出力に基づいて、該モデルによって生成された受け取った異なる出力が、1つまたは複数の予め決定された閾値を満たすかを決定する工程;ならびに
システムにより、該受け取った異なる出力が、該1つまたは複数の予め決定された閾値を満たさないことを決定する工程に基づいて、コンピュータにより、第二の体の第一の部分におけるがん性新生物が、第二の体の第二の部分におけるがんによって引き起こされたものではないことを決定する工程
をさらに含む、本発明1081~1086のいずれかのシステム。
[本発明1088]
第二の体の第一の部分および/または第二の体の第二の部分が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される、本発明1087のシステム。
[本発明1089]
第二の体の第一の部分および/または第二の体の第二の部分が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される、本発明1087のシステム。
[本発明1090]
がんの起源位置を同定するためのシステムであって、
該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
該動作が、
生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルを記憶するシステムにより、体の第一の部分におけるがん性新生物から得られた生体試料を表す試料生物学的シグネチャを受け取る工程であって、該モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、該がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャを少なくとも含む、工程;
該システムにより、モデルを使用して、第一のがん性生物学的シグネチャおよび第二のがん性生物学的シグネチャを使用して該試料生物学的シグネチャのペアワイズ分析を実行する工程;
該システムにより、該実行されたペアワイズ分析に基づき、体の第一の部分におけるがん性新生物が体の第二の部分におけるがんによって引き起こされた可能性を生成する工程;
該システムにより、その他のデバイス上の表示のために別のデバイスに該生成された可能性を提供する工程
を含む、前記システム。
[本発明1091]
体の第一の部分および/または体の第二の部分が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される、本発明1090のシステム。
[本発明1092]
体の第一の部分および/または体の第二の部分が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される、本発明1090のシステム。
[本発明1093]
体から得られたがん試料のがんタイプを同定するためのペアワイズ分析モデルを訓練するための、システムであって、
該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
該動作が、
該システムにより、ペアワイズ分析モデルを生成する工程であって、該ペアワイズ分析モデルを生成する工程が、複数のモデルシグネチャを生成することを含み、各モデルシグネチャが、疾患タイプのペア間を識別するように構成されている、工程;
該システムにより、訓練データ項目のセットを得る工程であって、各訓練データ項目が、DNAシーケンシングの結果を表し、
(i)該DNAシーケンシングの結果においてバリアントが検出されたか否か、および
(ii)該DNAシーケンシングの結果における遺伝子のコピー数
を示すデータを含む、工程;ならびに
該システムにより、該訓練データ項目の得られたセットを使用して該ペアワイズ分析モデルを訓練する工程
を含む、前記システム。
[本発明1094]
複数のモデルシグネチャが、ランダムフォレストモデルを使用して生成され、任意で、該ランダムフォレストモデルが、勾配ブースティングフォレストを含む、本発明1093のシステム。
[本発明1095]
疾患タイプが、少なくとも1つのがんタイプを含む、本発明1093または1094のシステム。
[本発明1096]
DNAシーケンシングの結果が、表5~6中の遺伝子の点変異、挿入、欠失、およびコピー数の少なくとも1つを含む、本発明1093~1095のいずれかのシステム。
[本発明1097]
疾患タイプが、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんの少なくとも1つを含む、本発明1093~1096のいずれかのシステム。
[本発明1098]
動作が、モデルによって生成された出力に基づいて、試料の器官タイプを割り当てる工程をさらに含み、任意で、該器官タイプが、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む、本発明1093~1097のいずれかのシステム。
本発明の他の特徴および利点が以下の詳細な説明および図面ならびに特許請求の範囲から明らかになる。

Claims (98)

  1. 生体試料の一次起源を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、
    該データ処理装置が、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、
    該動作が、
    該データ処理装置により、1つまたは複数のバイオマーカーデータ構造および1つまたは複数の試料データ構造を得る工程;
    該データ処理装置により、試料と関連付けされた1つまたは複数のバイオマーカーを表す第一のデータを、該1つまたは複数のバイオマーカーデータ構造から抽出し、試料データを表す第二のデータを、該1つまたは複数の試料データ構造から抽出し、予測される起源を表す第三のデータを抽出する工程;
    該データ処理装置により、該1つまたは複数のバイオマーカーを表す第一のデータと該起源および試料を表す第二のデータとに基づいて、機械学習モデルへ入力するためのデータ構造を生成する工程;
    該データ処理装置により、該生成されたデータ構造を該機械学習モデルへの入力として提供する工程;
    該データ処理装置により、該生成されたデータ構造の該機械学習モデルの処理に基づいて、該機械学習モデルによって生成された出力を得る工程;
    該データ処理装置により、該試料について予測される起源を表す第三のデータと、該機械学習モデルによって生成された出力との間の差を決定する工程;ならびに
    該データ処理装置により、該試料について予測される起源を表す第三のデータと該機械学習モデルによって生成された出力との間の差に基づいて、該機械学習モデルの1つまたは複数のパラメータを調節する工程
    を含む、前記データ処理装置。
  2. 1つまたは複数のバイオマーカーのセットが、表2~8のいずれか1つに記載の1つまたは複数のバイオマーカーを含む、請求項1に記載のデータ処理装置。
  3. 1つまたは複数のバイオマーカーのセットが、請求項2に記載のバイオマーカーのそれぞれを含む、請求項1に記載のデータ処理装置。
  4. 1つまたは複数のバイオマーカーのセットが、請求項2に記載のバイオマーカーの少なくとも1つを含み、任意で、1つまたは複数のバイオマーカーのセットが、表5、表6、表7、表8中のマーカーまたはそれらの任意の組み合わせを含む、請求項1に記載のデータ処理装置。
  5. 生体試料の一次起源を予測するための機械学習モデルの訓練において使用するための入力データ構造を生成するための、データ処理装置であって、
    該データ処理装置が、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数の記憶デバイスとを含み、
    該動作が、
    該データ処理装置により、第一の分散データソースから、生体試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造を得る工程であって、第一のデータ構造が、該試料を同定するキーバリューを含む、工程;
    該データ処理装置により、第一のデータ構造を1つまたは複数のメモリデバイスに記憶する工程;
    該データ処理装置により、第二の分散データソースから、該1つまたは複数のバイオマーカーを有する試料に関する起源データを表すデータを構造化する第二のデータ構造を得る工程であって、該起源データが、試料、起源、および予測される起源の指標を同定するデータを含み、第二のデータ構造も、該試料を同定するキーバリューを含む、工程;
    該データ処理装置により、第二のデータ構造を1つまたは複数のメモリデバイスに記憶する工程;
    該データ処理装置により、該メモリデバイスに記憶された第一のデータ構造および第二のデータ構造を使用して、(i)1つまたは複数のバイオマーカーのセットおよび該試料を表すデータ、および(ii)予測される起源の指標を提供するラベルを含む、ラベル付き訓練データ構造を生成する工程であって、該データ処理装置により、第一のデータ構造および第二のデータ構造を使用して生成する工程が、該データ処理装置により、該対象を同定するキーバリューに基づいて、試料と関連付けされた1つまたは複数のバイオマーカーのセットを表すデータを構造化する第一のデータ構造と、該1つまたは複数のバイオマーカーを有する試料に関する予測される起源データを表す第二のデータ構造とを相関させることを含む、工程;ならびに
    該データ処理装置により、該生成されたラベル付き訓練データ構造を使用して、機械学習モデルを訓練する工程であって、該生成されたラベル付き訓練データ構造を使用して該機械学習モデルを訓練する工程が、該データ処理装置により、該生成されたラベル付き訓練データ構造を該機械学習モデルへの入力として該機械学習モデルに提供することを含む、工程
    を含む、前記データ処理装置。
  6. 動作が、
    データ処理装置により、機械学習モデルから、生成されたラベル付き訓練データ構造の機械学習モデルの処理に基づいて、該機械学習モデルによって生成された出力を得る工程;ならびに
    該データ処理装置により、該機械学習モデルによって生成された出力と、予測される起源の指標を提供するラベルとの間の差を決定する工程
    をさらに含む、請求項5に記載のデータ処理装置。
  7. 動作が、
    データ処理装置により、機械学習モデルによって生成された出力と、予測される起源の指標を提供するラベルとの間の決定された差に基づいて、該機械学習モデルの1つまたは複数のパラメータを調節する工程
    をさらに含む、請求項6に記載のデータ処理装置。
  8. 1つまたは複数のバイオマーカーのセットが、表2~8のいずれか1つに記載の1つまたは複数のバイオマーカーを含み、任意で、1つまたは複数のバイオマーカーのセットが、表5、表6、表7、表8中のマーカーまたはそれらの任意の組み合わせを含む、請求項5に記載のデータ処理装置。
  9. 1つまたは複数のバイオマーカーのセットが、請求項8に記載のバイオマーカーのそれぞれを含む、請求項5に記載のデータ処理装置。
  10. 1つまたは複数のバイオマーカーのセットが、請求項8に記載のバイオマーカーの1つを含む、請求項5に記載のデータ処理装置。
  11. 請求項1~10のいずれか一項に記載の動作のそれぞれに対応する工程を含む、方法。
  12. 1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに、請求項1~10のいずれか一項に記載の動作のそれぞれを実行させる命令を記憶する1つまたは複数のデータ記憶媒体とを含む、システム。
  13. 1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、請求項1~10のいずれか一項に記載の動作を実行させる命令
    を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
  14. 試料の起源を決定するための方法であって、
    試料を表す受け取った入力データと、特定の生物学的シグネチャとの間のペアワイズ類似度演算を実行するようにそれぞれ訓練された複数の機械学習モデルの各特定の機械学習モデルに関し、
    該特定の機械学習モデルに、対象の試料を表す入力データを提供する工程であって、該試料が該対象の組織または器官から得られたものである、工程;
    該特定の機械学習モデルによる該提供された入力データの処理に基づいて、該特定の機械学習モデルによって生成された出力データを得る工程であって、該出力データが、該提供された入力データによって表される試料が該特定の生物学的シグネチャに対応する対象の体の一部分に由来した可能性を表す、工程;
    該複数の機械学習モデルのそれぞれに関して得られた出力データを投票ユニットに提供する工程であって、該提供された出力データが、該複数の機械学習モデルのそれぞれによって決定された初期試料起源を表すデータを含む、工程;ならびに
    該投票ユニットにより、該提供された出力データに基づいて、予測される試料起源を決定する工程
    を含む、前記方法。
  15. 予測される試料起源が、提供された出力データに多数決原理を適用することによって決定される、請求項エラー(リファレンスソースノットファウンド)に記載の方法。
  16. 投票ユニットにより、提供された出力データに基づいて、予測される試料起源を決定する工程が、
    該投票ユニットにより、複数の候補起源クラスの各初期起源クラスの出現回数を決定すること;および
    該投票ユニットにより、該複数の候補起源クラスのうち、最大の出現回数を有する初期起源クラスを選択すること
    を含む、請求項エラー(リファレンスソースノットファウンド)または14に記載の方法。
  17. 複数の機械学習モデルの各機械学習モデルが、ランダムフォレスト分類アルゴリズム、サポートベクターマシン、ロジスティック回帰、k近傍法モデル、人工ニューラルネットワーク、単純ベイズモデル、二次判別分析、ガウス過程モデル、またはそれらの任意の組み合わせを含む、請求項エラー(リファレンスソースノットファウンド)~16のいずれか一項に記載の方法。
  18. 複数の機械学習モデルの各機械学習モデルが、ランダムフォレスト分類アルゴリズムを含む、請求項エラー(リファレンスソースノットファウンド)~16のいずれか一項に記載の方法。
  19. 複数の機械学習モデルが、同じタイプの分類アルゴリズムの複数の表現を含む、請求項エラー(リファレンスソースノットファウンド)~18のいずれか一項に記載の方法。
  20. 入力データが、(i)試料属性、および(ii)起源の種類を表す、請求項エラー(リファレンスソースノットファウンド)~18のいずれか一項に記載の方法。
  21. 複数の候補起源クラスが、前立腺、膀胱、子宮頸内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、および皮膚に関する少なくとも1つのクラスを含む、請求項20に記載の方法。
  22. 試料属性が、試料に関する1つまたは複数のバイオマーカーを含む、請求項20または21に記載の方法。
  23. 1つまたは複数のバイオマーカーが、試料のすべての公知の遺伝子よりも少ない遺伝子のパネルを含む、請求項22に記載の方法。
  24. 1つまたは複数のバイオマーカーが、試料のためのすべての公知の遺伝子を含む遺伝子のパネルを含む、請求項22に記載の方法。
  25. 入力データが、試料および/または対象の種類を表すデータをさらに含む、請求項20~24のいずれか一項に記載の方法。
  26. 1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに、請求項エラー(リファレンスソースノットファウンド)~25のいずれか一項に記載の動作のそれぞれを実行させる命令を記憶する1つまたは複数の記憶媒体とを含む、システム。
  27. 1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、請求項エラー(リファレンスソースノットファウンド)~25のいずれか一項に記載の動作を実行させる命令
    を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
  28. (a)対象のがんに由来する細胞を含む生体試料を得る工程;
    (b)該試料中の1つまたは複数のバイオマーカーを評価するためのアッセイを実施して、該試料に関するバイオシグネチャを得る工程;
    (c)該バイオシグネチャを、一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャと比較する工程;および
    (d)該比較に基づいて、該がんの一次起源を分類する工程
    を含む、方法。
  29. 生体試料が、ホルマリン固定パラフィン包埋(FFPE)組織、固定組織、コア針生検、穿刺吸引液、非染色スライド、新鮮凍結(FF)組織、ホルマリン試料、核酸もしくはタンパク質分子を保存する溶液に含まれる組織、新鮮な試料、悪性流体、体液、腫瘍試料、組織試料、またはそれらの任意の組み合わせを含む、請求項28に記載の方法。
  30. 生体試料が、固形腫瘍、体液、またはそれらの組み合わせに由来する細胞を含む、請求項28または29に記載の方法。
  31. 体液が、悪性流体、胸膜液、腹腔液、またはそれらの任意の組み合わせを含む、請求項29または30に記載の方法。
  32. 体液が、末梢血、血清、血漿、腹水、尿、脳脊髄液(CSF)、痰、唾液、骨髄、滑液、眼房水、羊水、耳垢、母乳、気管支肺胞洗浄液、精液、前立腺液、カウパー腺液、尿道球腺液、女性射精液、汗、糞便、涙液、嚢胞液、胸膜液、腹腔液、心膜液、リンパ液、糜粥、乳糜、胆汁、間質液、月経分泌物、膿、皮脂、嘔吐物、膣分泌液、粘膜分泌液、水便、膵液、鼻腔からの洗浄液、気管支肺吸引液、胞胚腔液、または臍帯血を含む、請求項29~31のいずれか一項に記載の方法。
  33. 工程(b)における評価が、バイオマーカーごとにタンパク質または核酸の存在、レベルまたは状態を決定することを含み、任意で、該核酸が、デオキシリボ核酸(DNA)、リボ核酸(RNA)またはそれらの組み合わせを含む、請求項28~32のいずれか一項に記載の方法。
  34. i. タンパク質の存在、レベルまたは状態が、免疫組織化学(IHC)、フローサイトメトリー、イムノアッセイ、抗体もしくはその機能的断片、アプタマー、またはそれらの任意の組み合わせを使用して決定される;および/または
    ii. 核酸の存在、レベルまたは状態が、ポリメラーゼ連鎖反応(PCR)、インサイチューハイブリダイゼーション、増幅、ハイブリダイゼーション、マイクロアレイ、核酸シーケンシング、ダイターミネータシーケンシング、パイロシーケンシング、次世代シーケンシング(NGS;ハイスループットシーケンシング)、全エキソームシーケンシング、全トランスクリプトームシーケンシング、またはそれらの任意の組み合わせを使用して決定される、
    請求項33に記載の方法。
  35. 核酸の状態が、配列、変異、多型、欠失、挿入、置換、転座、融合、切断、重複、増幅、反復、コピー数、コピー数多型(CNV;コピー数変化;CNA)、またはそれらの任意の組み合わせを含む、請求項34に記載の方法。
  36. 核酸の状態がコピー数を含む、請求項35に記載の方法。
  37. アッセイが、次世代シーケンシングを含み、任意で、該次世代シーケンシングが、表3~8中の遺伝子、ゲノム情報、および融合転写物を評価するために使用される、請求項28~36のいずれか一項に記載の方法。
  38. 分類する工程が、一次起源が複数の一次腫瘍起源の各メンバーである確率を決定すること、および最高の確率を有する一次起源を選択することを含む、請求項28~37のいずれか一項に記載の方法。
  39. 一次腫瘍起源または複数の一次腫瘍起源が、前立腺、膀胱、子宮頸内膜、腹膜、胃、食道、卵巣、頭頂葉、子宮頸、子宮内膜、肝臓、S状結腸、乳房上外側4分の1、子宮、膵臓、膵頭、直腸、結腸、乳房、肝内胆管、盲腸、食道胃接合部、前頭葉、腎臓、膵尾、上行結腸、下行結腸、胆嚢、虫垂、直腸S状結腸、卵管、脳、肺、側頭葉、食道下3分の1、乳房上内側4分の1、横行結腸、および皮膚の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、または38個すべてを含む、請求項28~38のいずれか一項に記載の方法。
  40. 前立腺に関する少なくとも1つの予め決定されたバイオシグネチャが、FOXA1、PTEN、KLK2、GATA2、LCP1、ETV6、ERCC3、FANCA、MLLT3、MLH1、NCOA4、NCOA2、CCDC6、PTCH1、FOXO1、およびIRF4の1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、または16個すべてを含む、請求項39に記載の方法。
  41. 前立腺バイオシグネチャに関するアッセイを実施する工程が、バイオシグネチャのメンバーの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、または16個すべてに関する遺伝子コピー数を決定することを含む、請求項40に記載の方法。
  42. 一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャが、表125~142に記載のバイオマーカーの選択を含み;
    任意で、
    i. 副腎起源を示す予め決定されたバイオシグネチャが、表125より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    ii. 膀胱起源を示す予め決定されたバイオシグネチャが、表126より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    iii. 脳起源を示す予め決定されたバイオシグネチャが、表127より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    iv. 乳房起源を示す予め決定されたバイオシグネチャが、表128より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    v. 結腸直腸起源を示す予め決定されたバイオシグネチャが、表129より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    vi. 食道起源を示す予め決定されたバイオシグネチャが、表130より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    vii. 眼起源を示す予め決定されたバイオシグネチャが、表131より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    viii. 女性生殖器および/もしくは腹膜起源を示す予め決定されたバイオシグネチャが、表132より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    ix. 頭部、顔面、もしくは頸部起源(特定不能)を示す予め決定されたバイオシグネチャが、表133より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    x. 腎臓起源を示す予め決定されたバイオシグネチャが、表134より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xi. 肝臓、胆嚢、および/もしくは導管起源を示す予め決定されたバイオシグネチャが、表135より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xii. 肺起源を示す予め決定されたバイオシグネチャが、表136より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xiii. 膵臓起源を示す予め決定されたバイオシグネチャが、表137より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xiv. 前立腺起源を示す予め決定されたバイオシグネチャが、表138より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xv. 皮膚起源を示す予め決定されたバイオシグネチャが、表139より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xvi. 小腸起源を示す予め決定されたバイオシグネチャが、表140より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;
    xvii. 胃起源を示す予め決定されたバイオシグネチャが、表141より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む;ならびに/または
    xviii. 甲状腺起源を示す予め決定されたバイオシグネチャが、表142より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、もしくは少なくとも100個の特徴を含む、
    請求項38または39に記載の方法。
  43. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する特徴バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、請求項42に記載の方法。
  44. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーを含む、請求項42に記載の方法。
  45. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、請求項42に記載の方法。
  46. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む、請求項45に記載の方法。
  47. 一次腫瘍起源を示す少なくとも1つの予め決定されたバイオシグネチャが、表10~124に記載のバイオマーカーの選択を含み;
    任意で、
    i. 副腎皮質がん起源を示す予め決定されたバイオシグネチャが、表10より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    ii. 肛門扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表11より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    iii. 虫垂腺がん起源を示す予め決定されたバイオシグネチャが、表12より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    iv. 虫垂粘液性腺がんNOS起源を示す予め決定されたバイオシグネチャが、表13より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    v. 胆管NOS胆管がん起源を示す予め決定されたバイオシグネチャが、表14より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    vi. 脳星状細胞腫NOS起源を示す予め決定されたバイオシグネチャが、表15より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    vii. 脳退形成性星状細胞腫起源を示す予め決定されたバイオシグネチャが、表16より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    viii. 乳腺がんNOS起源を示す予め決定されたバイオシグネチャが、表17より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    ix. 乳がんNOSを示す予め決定されたバイオシグネチャが、表18より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    x. 浸潤性乳管腺がん起源を示す予め決定されたバイオシグネチャが、表19より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xi. 乳房浸潤性小葉腺がんNOS起源を示す予め決定されたバイオシグネチャが、表20より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xii.乳房化生がんNOS起源を示す予め決定されたバイオシグネチャが、表21より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xiii. 子宮頸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表22より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xiv. 子宮頸がんNOS起源を示す予め決定されたバイオシグネチャが、表23より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xv. 子宮頸扁平上皮がんNOS起源を示す予め決定されたバイオシグネチャが、表24より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xvi. 結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表25より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xvii. 結腸がんNOS起源を示す予め決定されたバイオシグネチャが、表26より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xviii. 結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表27より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xix. 結膜悪性黒色腫NOS起源を示す予め決定されたバイオシグネチャが、表28より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xx. 十二指腸膨大部腺がんNOS起源を示す予め決定されたバイオシグネチャが、表29より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxi. 子宮内膜類内膜腺がん起源を示す予め決定されたバイオシグネチャが、表30より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxii. 子宮内膜腺がんNOS起源を示す予め決定されたバイオシグネチャが、表31より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxiii. 子宮内膜がん肉腫起源を示す予め決定されたバイオシグネチャが、表32より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxiv. 子宮内膜漿液性がん起源を示す予め決定されたバイオシグネチャが、表33より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxv. 子宮内膜がんNOS起源を示す予め決定されたバイオシグネチャが、表34より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxvi. 未分化子宮内膜がん起源を示す予め決定されたバイオシグネチャが、表35より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxvii. 子宮内膜明細胞がん起源を示す予め決定されたバイオシグネチャが、表36より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxviii. 食道腺がんNOS起源を示す予め決定されたバイオシグネチャが、表37より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxix. 食道がんNOS起源を示す予め決定されたバイオシグネチャが、表38より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxx. 食道扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表39より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxi. 肝外胆管総胆管胆嚢腺がんNOS起源を示す予め決定されたバイオシグネチャが、表40より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxii. 卵管腺がんNOS起源を示す予め決定されたバイオシグネチャが、表41より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxiii. 卵管がんNOS起源を示す予め決定されたバイオシグネチャが、表42より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxiv. 卵管がん肉腫NOS起源を示す予め決定されたバイオシグネチャが、表43より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxv. 卵管漿液性がん起源を示す予め決定されたバイオシグネチャが、表44より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxvi. 胃腺がん起源を示す予め決定されたバイオシグネチャが、表45より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxvii. 食道胃接合部腺がんNOS起源を示す予め決定されたバイオシグネチャが、表46より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxviii. 神経膠芽腫起源を示す予め決定されたバイオシグネチャが、表47より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xxxix. 神経膠腫NOS起源を示す予め決定されたバイオシグネチャが、表48より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xl. 神経膠肉腫起源を示す予め決定されたバイオシグネチャが、表49より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xli. 頭部、顔面または頸部NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表50より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xlii. 肝内胆管の胆管がん起源を示す予め決定されたバイオシグネチャが、表51より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xliii. 腎がんNOS起源を示す予め決定されたバイオシグネチャが、表52より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xliv. 腎明細胞がん起源を示す予め決定されたバイオシグネチャが、表53より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xlv. 腎臓の乳頭状腎細胞がん起源を示す予め決定されたバイオシグネチャが、表54より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xlvi. 腎臓の腎細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表55より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xlvii. 喉頭NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表56より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xlviii. 左結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表57より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xlix. 左結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表58より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    l. 肝臓の肝細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表59より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    li. 肺腺がんNOS起源を示す予め決定されたバイオシグネチャが、表60より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lii. 肺腺扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表61より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    liii. 肺がんNOS起源を示す予め決定されたバイオシグネチャが、表62より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    liv. 肺粘液性がん起源を示す予め決定されたバイオシグネチャが、表63より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lv. 肺神経内分泌がんNOS起源を示す予め決定されたバイオシグネチャが、表64より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lvi. 肺非小細胞がん起源を示す予め決定されたバイオシグネチャが、表65より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lvii. 肺肉腫様がん起源を示す予め決定されたバイオシグネチャが、表66より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lviii. 肺小細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表67より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lix. 肺扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表68より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lx. 髄膜の髄膜腫NOS起源を示す予め決定されたバイオシグネチャが、表69より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxi. 鼻咽頭NOS扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表70より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxii. 乏突起神経膠腫NOS起源を示す予め決定されたバイオシグネチャが、表71より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxiii. 退形成性乏突起神経膠腫起源を示す予め決定されたバイオシグネチャが、表72より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxiv. 卵巣腺がんNOS起源を示す予め決定されたバイオシグネチャが、表73より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxv. 卵巣がんNOS起源を示す予め決定されたバイオシグネチャが、表74より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxvi. 卵巣がん肉腫起源を示す予め決定されたバイオシグネチャが、表75より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxvii. 卵巣明細胞がんNOS起源を示す予め決定されたバイオシグネチャが、表76より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxviii. 卵巣類内膜腺がん起源を示す予め決定されたバイオシグネチャが、表77より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxix. 卵巣顆粒膜細胞腫NOS起源を示す予め決定されたバイオシグネチャが、表78より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxx. 卵巣高悪性度漿液性がん起源を示す予め決定されたバイオシグネチャが、表79より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxi. 卵巣低悪性度漿液性がん起源を示す予め決定されたバイオシグネチャが、表80より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxii. 卵巣粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表81より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxiii. 卵巣漿液性がん起源を示す予め決定されたバイオシグネチャが、表82より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxiv. 膵腺がんNOS起源を示す予め決定されたバイオシグネチャが、表83より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxv. 膵がんNOS起源を示す予め決定されたバイオシグネチャが、表84より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxvi. 膵粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表85より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxvii. 膵神経内分泌がんNOS起源を示す予め決定されたバイオシグネチャが、表86より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxviii. 耳下腺がんNOS起源を示す予め決定されたバイオシグネチャが、表87より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxix. 腹膜腺がんNOS起源を示す予め決定されたバイオシグネチャが、表88より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxx. 腹膜がんNOS起源を示す予め決定されたバイオシグネチャが、表89より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxi. 腹膜漿液性がん起源を示す予め決定されたバイオシグネチャが、表90より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxii. 胸膜中皮腫NOS起源を示す予め決定されたバイオシグネチャが、表91より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxiii. 前立腺腺がんNOS起源を示す予め決定されたバイオシグネチャが、表92より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxiv. 直腸S状部腺がんNOS起源を示す予め決定されたバイオシグネチャが、表93より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxv. 直腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表94より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxvi. 直腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表95より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxvii. 後腹膜脱分化型脂肪肉腫起源を示す予め決定されたバイオシグネチャが、表96より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxviii. 後腹膜平滑筋肉腫NOS起源を示す予め決定されたバイオシグネチャが、表97より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    lxxxix. 右結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表98より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xc. 右結腸粘液性腺がん起源を示す予め決定されたバイオシグネチャが、表99より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xci. 唾液腺腺様嚢胞がん起源を示す予め決定されたバイオシグネチャが、表100より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xcii. 皮膚メルケル細胞がん起源を示す予め決定されたバイオシグネチャが、表101より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xciii. 皮膚結節性黒色腫起源を示す予め決定されたバイオシグネチャが、表102より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xciv. 皮膚扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表103より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xcv. 皮膚黒色腫起源を示す予め決定されたバイオシグネチャが、表104より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xcvi. 小腸消化管間質腫瘍(GIST)NOS起源を示す予め決定されたバイオシグネチャが、表105より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xcvii. 小腸腺がん起源を示す予め決定されたバイオシグネチャが、表106より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xcviii. 胃消化管間質腫瘍(GIST)NOS起源を示す予め決定されたバイオシグネチャが、表107より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    xcix. 胃印環細胞腺がん起源を示す予め決定されたバイオシグネチャが、表108より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    c. 甲状腺がんNOS起源を示す予め決定されたバイオシグネチャが、表109より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    ci. 退形成性甲状腺がんNOS起源を示す予め決定されたバイオシグネチャが、表110より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cii. 甲状腺乳頭がん起源を示す予め決定されたバイオシグネチャが、表111より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    ciii. 扁桃腺中咽頭舌扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表112より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    civ. 横行結腸腺がんNOS起源を示す予め決定されたバイオシグネチャが、表113より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cv. 尿路上皮膀胱腺がんNOS起源を示す予め決定されたバイオシグネチャが、表114より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cvi. 尿路上皮膀胱がんNOS起源を示す予め決定されたバイオシグネチャが、表115より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cvii. 尿路上皮膀胱扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表116より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cviii. 尿路上皮がんNOS起源を示す予め決定されたバイオシグネチャが、表117より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cix. 子宮の子宮内膜間質肉腫NOS起源を示す予め決定されたバイオシグネチャが、表118より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cx. 子宮平滑筋肉腫NOS起源を示す予め決定されたバイオシグネチャが、表119より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cxi. 子宮肉腫NOS起源を示す予め決定されたバイオシグネチャが、表120より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cxii. ブドウ膜黒色腫起源を示す予め決定されたバイオシグネチャが、表121より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cxiii. 膣扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表122より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;
    cxiv. 外陰部扁平上皮がん起源を示す予め決定されたバイオシグネチャが、表123より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む;および/または
    cxv. 皮膚体幹部黒色腫起源を示す予め決定されたバイオシグネチャが、表124より選択される少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、もしくは少なくとも50個の特徴を含む、
    請求項38または39に記載の方法。
  48. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する特徴バイオマーカーの上位1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、請求項47に記載の方法。
  49. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49または50個の特徴バイオマーカーを含む、請求項47に記載の方法。
  50. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50個の特徴バイオマーカーの少なくとも1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を含む、請求項47に記載の方法。
  51. 少なくとも1つの予め決定されたバイオシグネチャが、対応する表中で最高の重要度値を有する上位5、10、15、20、25、30、35、40、45、50、60、65、70、75、80、85、90、95、または100個の特徴バイオマーカーの少なくとも50%、60%、70%、75%、80%、85%、90%、95%、または100%を含む、請求項50に記載の方法。
  52. (e)工程(b)が、バイオシグネチャの少なくとも1つのメンバーに関する遺伝子コピー数を決定することを含み、かつ工程(c)が、該遺伝子コピー数と参照コピー数(例えば二倍体)との比較により、遺伝子コピー数変化(CNA)を有するバイオシグネチャのメンバーを同定することを含む;
    (f)工程(b)が、バイオシグネチャの少なくとも1つのメンバーに関する配列を決定することを含み、かつ工程(c)が、該配列と参照配列(例えば野生型)との比較により、変異(例えば、点変異、挿入、欠失)を有するバイオシグネチャのメンバーを同定することを含む;かつ/または
    (g)工程(b)が、バイオシグネチャの複数のメンバーに関する配列を決定することを含み、かつ工程(c)が、該配列を参照配列(例えば野生型)と比較して、マイクロサテライトリピートを同定すること、およびマイクロサテライト不安定性(MSI)を有するバイオシグネチャのメンバーを同定することを含む、
    請求項28~51のいずれか一項に記載の方法。
  53. バイオシグネチャ中のバイオマーカーが、対応する表に記載されるように評価される、請求項42~52のいずれか一項に記載の方法。
  54. バイオシグネチャ中のバイオマーカーの存在、レベル、または状態を同定する、例えば、各バイオマーカーがCNAおよび/または変異および/またはMSIを有するかを同定する、分子プロファイル
    を生成する工程をさらに含む、請求項42~53のいずれか一項に記載の方法。
  55. がんの分類された一次起源に少なくとも一部基づいて、患者のための治療、例えば、免疫療法、化学療法、またはそれらの組み合わせの投与を含む治療を選択する工程をさらに含む、請求項28~54のいずれか一項に記載の方法。
  56. 請求項54に記載の生成された分子プロファイルを含むレポートを作成することを含む、分子プロファイリングレポートを生成する方法であって、該レポートが、がんの分類された一次起源を同定し、任意で、該レポートが、請求項55に記載のように選択された治療も同定する、前記方法。
  57. レポートが、コンピュータ生成される、プリントされたレポートおよび/もしくはコンピュータファイルである、かつ/またはウェブポータルを介してアクセス可能である、請求項56に記載の方法。
  58. 試料が、原発不明がん(CUP)を含む、請求項28~57のいずれか一項に記載の方法。
  59. 工程(c)が、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャに対応する確率を計算する、請求項28~58のいずれか一項に記載の方法。
  60. 工程(c)が、2つの候補一次腫瘍起源の間のペアワイズ比較を含み、バイオシグネチャが少なくとも1つの予め決定されたバイオシグネチャのいずれか1つに対応する確率が、計算される、請求項59に記載の方法。
  61. 一次腫瘍起源の2つの候補の間のペアワイズ比較が、機械学習分類アルゴリズムを使用して決定され、任意で、該機械学習分類アルゴリズムが、投票モジュールを含む、請求項60に記載の方法。
  62. 投票モジュールが、請求項エラー(リファレンスソースノットファウンド)~25のいずれか一項に記載の投票モジュールである、請求項61に記載の方法。
  63. 複数の確率が、複数の予め決定されたバイオシグネチャに関して計算され、任意で、該確率が順位付けされる、請求項59~62のいずれか一項に記載の方法。
  64. 確率が閾値と比較され、任意で、該閾値との比較が、がんの一次起源の分類の可能性が高いか、可能性が低いか、または不確定であるかを決定するために使用される、請求項63に記載の方法。
  65. 一次腫瘍起源または複数の一次腫瘍起源が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;外陰部扁平上皮がん;およびそれらの任意の組み合わせの少なくとも1つを含む、請求項28~64のいずれか一項に記載の方法。
  66. 一次腫瘍起源または複数の一次腫瘍起源が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む、請求項28~64のいずれか一項に記載の方法。
  67. 1つまたは複数のコンピュータと、該1つまたは複数のコンピュータによって実行される場合に該1つまたは複数のコンピュータに、請求項28~66のいずれか一項に記載の動作を実行させる命令を記憶する1つまたは複数の記憶媒体とを含む、システム。
  68. 1つまたは複数のコンピュータによって実行可能であり、そのように実行される場合に該1つまたは複数のコンピュータに、請求項28~66のいずれか一項に記載の動作を実行させる命令
    を含むソフトウェアを記憶する、非一時的コンピュータ可読媒体。
  69. がんの系列を同定するためのシステムであって、
    (a)少なくとも1つのホストサーバ;
    (b)該少なくとも1つのホストサーバにアクセスして、データにアクセスし該データを入力するための、少なくとも1つのユーザインタフェース;
    (c)入力されたデータを処理するための、少なくとも1つのプロセッサ;
    (d)処理されたデータと、請求項28~55のいずれか一項に記載の比較工程および分類工程を実施するための命令とを記憶するための、該プロセッサに結合された少なくとも1つのメモリ;および
    (e)該がんの分類された一次起源を表示するための、少なくとも1つのディスプレイ
    を含む、前記システム。
  70. 処理されたデータと、請求項55~57のいずれか一項に記載の選択および/または生成のための命令とを記憶するための、プロセッサに結合された少なくとも1つのメモリをさらに含む、請求項69に記載のシステム。
  71. 少なくとも1つのディスプレイが、がんの分類された一次起源を含むレポートを含む、請求項69または70に記載のシステム。
  72. 体から得られた試料の疾患タイプを同定するための、システムであって、
    該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
    該動作が、
    該システムにより、体から得られた疾患試料を表す試料生物学的シグネチャを得る工程;
    該システムにより、該試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびに
    該システムにより、該ペアワイズ分析に基づいて、該体から得られた試料における可能性が高い疾患タイプを示すデータを表す、該モデルによって生成された出力を受け取る工程
    を含む、前記システム。
  73. 体から得られた試料の疾患タイプを同定するための、システムであって、
    該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
    該動作が、
    該システムにより、体から得られた試料を表す試料生物学的シグネチャを得る工程;
    該システムにより、該試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびに
    該システムにより、該複数の異なる生物学的シグネチャの各特定の生物学的シグネチャに関して、該特定の生物学的シグネチャによって同定された疾患タイプが該試料における可能性が高い疾患タイプを同定する確率を示すデータを表す、該モデルによって生成された出力を受け取る工程
    を含む、前記システム。
  74. 体から得られた試料の疾患タイプを同定するための、システムであって、
    該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
    該動作が、
    該システムにより、体の第一の部分におけるがん試料から得られた生体試料を表す試料生物学的シグネチャを得る工程であって、該試料生物学的シグネチャが、該生体試料の複数の特徴を記述するデータを含み、該複数の特徴が、該体の第一の部分を記述するデータを含む、工程;
    該システムにより、該試料生物学的シグネチャと、複数の異なる生物学的シグネチャのそれぞれとの間のペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該複数の異なる生物学的シグネチャのそれぞれが異なる疾患タイプに対応する、工程;ならびに
    該システムにより、該体から得られた試料における可能性が高い疾患タイプを示すデータを表す、該モデルによって生成された出力を受け取る工程
    を含む、前記システム。
  75. 疾患タイプが、がんのタイプを含み、任意で、疾患タイプが、一次腫瘍起源および組織学を含む、請求項72~74のいずれか一項に記載のシステム。
  76. 試料生物学的シグネチャが、がん試料中の1つまたは複数のバイオマーカーを評価するための、アッセイの性能に基づいて得られた特徴を表すデータを含み、任意で、該アッセイが、次世代シーケンシングを含み、任意で、該次世代シーケンシングが、表3~8中の遺伝子、ゲノム情報、および融合転写物の少なくとも1つを評価するために使用される、請求項72~75のいずれか一項に記載のシステム。
  77. 動作が、モデルによって生成された出力に基づいて、同定された疾患タイプに関する提案された治療を決定する工程をさらに含む、請求項72~76のいずれか一項に記載のシステム。
  78. 疾患タイプが、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんの少なくとも1つを含む、請求項72~77のいずれか一項に記載のシステム。
  79. 動作が、モデルによって生成された出力に基づいて、試料の器官タイプを割り当てる工程をさらに含み、任意で、該器官タイプが、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む、請求項72~78のいずれか一項に記載のシステム。
  80. 異なる疾患タイプに対応する複数の異なる生物学的シグネチャが、表10~142のいずれか1つにおける少なくとも1つのシグネチャを含む、請求項72~79のいずれか一項に記載のシステム。
  81. がんの起源位置を同定するための、システムであって、
    該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
    該動作が、
    該システムにより、第一の体の第一の部分におけるがん性新生物から得られた生体試料を表す試料生物学的シグネチャを得る工程であって、該試料生物学的シグネチャが、該生体試料の複数の特徴を記述するデータを含み、該複数の特徴が、第一の体の第一の部分を記述するデータを含む、工程;
    該システムにより、該生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルへの入力として、該試料生物学的シグネチャを提供する工程であって、該モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、該がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャを少なくとも含む、工程;
    該システムにより、第一の体の第一の部分におけるがん性新生物が、第一の体の第二の部分におけるがんによって引き起こされた可能性を表す、該モデルによって生成された出力を受け取る工程;
    該システムにより、該受け取った出力に基づいて、該モデルによって生成された受け取った出力が、1つまたは複数の予め決定された閾値を満たすかを決定する工程;ならびに
    該システムにより、該受け取った出力が該1つまたは複数の予め決定された閾値を満たすことを決定する工程に基づいて、該システムにより、第一の体の第一の部分におけるがん性新生物が、第一の体の第二の部分におけるがんによって引き起こされたことを決定する工程
    を含む、前記システム。
  82. 第一の体の第一の部分および/または第一の体の第二の部分が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される、請求項81に記載のシステム。
  83. 第一の体の第一の部分および/または第一の体の第二の部分が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される、請求項81または82に記載のシステム。
  84. 生体試料の複数の特徴が、
    (i)1つもしくは複数のバリアントを同定するデータ、または
    (ii)遺伝子コピー数を同定するデータ
    を含む、請求項81~83のいずれか一項に記載のシステム。
  85. モデルによって生成された受け取った出力が、行列データ構造を含み、
    該行列データ構造が、ペアワイズモデルによって評価された複数の特徴の各特徴に関するセルを含み、該セルのそれぞれは、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第二の部分におけるがんによって引き起こされたことを示す確率を記述するデータを含む、
    請求項81~84のいずれか一項に記載のシステム。
  86. がん性生物学的シグネチャが、1つまたは複数の他の体の第三の部分に由来するがん性生体試料の分子プロファイルを表す第三のがん性生物学的シグネチャをさらに含み、
    行列データ構造が、ペアワイズモデルによって評価された複数の特徴の各特徴に関するセルを含み、該行列の第一列は、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第二の部分におけるがんによって引き起こされたことを示す確率を記述するデータをそれぞれ含む、セルのサブセットを含み、該行列の第二列は、対応する特徴が、体の第一の部分におけるがん性新生物が第一の体の第三の部分におけるがんによって引き起こされたことを示す確率を記述するデータをそれぞれ含む、セルのサブセットを含む、
    請求項81~85のいずれか一項に記載のシステム。
  87. 動作が、
    システムにより、第二の体の第一の部分における異なるがん性新生物から得られた異なる生体試料を表す異なる試料生物学的シグネチャを得る工程であって、該異なる試料生物学的シグネチャが、該異なる生体試料の複数の特徴を記述するデータを含み、該複数の特徴が、第二の体の第一の部分を記述するデータを含む、工程;
    システムにより、該異なる生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルへの入力として、該異なる試料生物学的シグネチャを提供する工程であって、該モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、該がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャ少なくともを含む、工程;
    システムにより、第二の体の第一の部分におけるがん性新生物が、第二の体の第二の部分におけるがんによって引き起こされた可能性を表す、該モデルによって生成された異なる出力を受け取る工程;
    システムにより、該受け取った異なる出力に基づいて、該モデルによって生成された受け取った異なる出力が、1つまたは複数の予め決定された閾値を満たすかを決定する工程;ならびに
    システムにより、該受け取った異なる出力が、該1つまたは複数の予め決定された閾値を満たさないことを決定する工程に基づいて、コンピュータにより、第二の体の第一の部分におけるがん性新生物が、第二の体の第二の部分におけるがんによって引き起こされたものではないことを決定する工程
    をさらに含む、請求項81~86のいずれか一項に記載のシステム。
  88. 第二の体の第一の部分および/または第二の体の第二の部分が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される、請求項87に記載のシステム。
  89. 第二の体の第一の部分および/または第二の体の第二の部分が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される、請求項87に記載のシステム。
  90. がんの起源位置を同定するためのシステムであって、
    該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に該1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
    該動作が、
    生物学的シグネチャのペアワイズ分析を実行するように構成されるモデルを記憶するシステムにより、体の第一の部分におけるがん性新生物から得られた生体試料を表す試料生物学的シグネチャを受け取る工程であって、該モデルが、複数の異なるタイプのそれぞれのがん性生体試料に関するがん性生物学的シグネチャを含み、該がん性生物学的シグネチャが、1つまたは複数の他の体の第一の部分に由来するがん性生体試料の分子プロファイルを表す第一のがん性生物学的シグネチャ、および1つまたは複数の他の体の第二の部分に由来するがん性生体試料の分子プロファイルを表す第二のがん性生物学的シグネチャを少なくとも含む、工程;
    該システムにより、モデルを使用して、第一のがん性生物学的シグネチャおよび第二のがん性生物学的シグネチャを使用して該試料生物学的シグネチャのペアワイズ分析を実行する工程;
    該システムにより、該実行されたペアワイズ分析に基づき、体の第一の部分におけるがん性新生物が体の第二の部分におけるがんによって引き起こされた可能性を生成する工程;
    該システムにより、その他のデバイス上の表示のために別のデバイスに該生成された可能性を提供する工程
    を含む、前記システム。
  91. 体の第一の部分および/または体の第二の部分が、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんより選択される、請求項90に記載のシステム。
  92. 体の第一の部分および/または体の第二の部分が、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓より選択される、請求項90に記載のシステム。
  93. 体から得られたがん試料のがんタイプを同定するためのペアワイズ分析モデルを訓練するための、システムであって、
    該システムが、1つまたは複数のプロセッサと、該1つまたは複数のプロセッサによって実行される場合に1つまたは複数のプロセッサに動作を実行させる命令を記憶する1つまたは複数のメモリユニットとを含み、
    該動作が、
    該システムにより、ペアワイズ分析モデルを生成する工程であって、該ペアワイズ分析モデルを生成する工程が、複数のモデルシグネチャを生成することを含み、各モデルシグネチャが、疾患タイプのペア間を識別するように構成されている、工程;
    該システムにより、訓練データ項目のセットを得る工程であって、各訓練データ項目が、DNAシーケンシングの結果を表し、
    (i)該DNAシーケンシングの結果においてバリアントが検出されたか否か、および
    (ii)該DNAシーケンシングの結果における遺伝子のコピー数
    を示すデータを含む、工程;ならびに
    該システムにより、該訓練データ項目の得られたセットを使用して該ペアワイズ分析モデルを訓練する工程
    を含む、前記システム。
  94. 複数のモデルシグネチャが、ランダムフォレストモデルを使用して生成され、任意で、該ランダムフォレストモデルが、勾配ブースティングフォレストを含む、請求項93に記載のシステム。
  95. 疾患タイプが、少なくとも1つのがんタイプを含む、請求項93または94に記載のシステム。
  96. DNAシーケンシングの結果が、表5~6中の遺伝子の点変異、挿入、欠失、およびコピー数の少なくとも1つを含む、請求項93~95のいずれか一項に記載のシステム。
  97. 疾患タイプが、副腎皮質がん;肛門扁平上皮がん;虫垂腺がん、NOS;虫垂粘液性腺がん;胆管、NOS、胆管がん;脳退形成性星状細胞腫;脳星状細胞腫、NOS;乳腺がん、NOS;乳がん、NOS;浸潤性乳管腺がん;乳房浸潤性小葉がん、NOS;乳房化生がん、NOS;子宮頸腺がん、NOS;子宮頸がん、NOS;子宮頸扁平上皮がん;結腸腺がん、NOS;結腸がん、NOS;結腸粘液性腺がん;結膜悪性黒色腫、NOS;十二指腸膨大部腺がん、NOS;子宮内膜腺がん、NOS;子宮内膜がん肉腫;子宮内膜類内膜腺がん;子宮内膜漿液性がん;子宮内膜がん、NOS;未分化子宮内膜がん;子宮内膜明細胞がん;食道腺がん、NOS;食道がん、NOS;食道扁平上皮がん;肝外胆管、総胆管、胆嚢腺がん、NOS;卵管腺がん、NOS;卵管がん、NOS;卵管がん肉腫、NOS;卵管漿液性がん;胃腺がん;食道胃接合部腺がん、NOS;神経膠芽腫;神経膠腫、NOS;神経膠肉腫;頭部、顔面または頸部、NOS扁平上皮がん;肝内胆管の胆管がん;腎がん、NOS;腎明細胞がん;腎臓の乳頭状腎細胞がん;腎臓の腎細胞がん、NOS;喉頭、NOS扁平上皮がん;左結腸腺がん、NOS;左結腸粘液性腺がん;肝臓の肝細胞がん、NOS;肺腺がん、NOS;肺腺扁平上皮がん;肺がん、NOS;肺粘液性腺がん;肺神経内分泌がん、NOS;肺非小細胞がん;肺肉腫様がん;肺小細胞がん、NOS;肺扁平上皮がん;髄膜の髄膜腫、NOS;鼻咽頭、NOS扁平上皮がん;退形成性乏突起神経膠腫;乏突起神経膠腫、NOS;卵巣腺がん、NOS;卵巣がん、NOS;卵巣がん肉腫;卵巣明細胞がん;卵巣類内膜腺がん;卵巣顆粒膜細胞腫、NOS;卵巣高悪性度漿液性がん;卵巣低悪性度漿液性がん;卵巣粘液性腺がん;卵巣漿液性がん;膵腺がん、NOS;膵がん、NOS;膵粘液性腺がん;膵神経内分泌がん、NOS;耳下腺がん、NOS;腹膜腺がん、NOS;腹膜がん、NOS;腹膜漿液性がん;胸膜中皮腫、NOS;前立腺腺がん、NOS;直腸S状部腺がん、NOS;直腸腺がん、NOS;直腸粘液性腺がん;後腹膜脱分化型脂肪肉腫;後腹膜平滑筋肉腫、NOS;右結腸腺がん、NOS;右結腸粘液性腺がん;唾液腺腺様嚢胞がん;皮膚黒色腫;皮膚黒色腫;皮膚メルケル細胞がん;皮膚結節性黒色腫;皮膚扁平上皮がん;皮膚体幹部黒色腫;小腸腺がん;小腸消化管間質腫瘍、NOS;胃消化管間質腫瘍、NOS;胃印環細胞腺がん;退形成性甲状腺がん、NOS;甲状腺がん、NOS;甲状腺の甲状腺乳頭がん;扁桃腺、中咽頭、舌扁平上皮がん;横行結腸腺がん、NOS;尿路上皮膀胱腺がん、NOS;尿路上皮膀胱がん、NOS;尿路上皮膀胱扁平上皮がん;尿路上皮がん、NOS;子宮の子宮内膜間質肉腫、NOS;子宮平滑筋肉腫、NOS;子宮肉腫、NOS;ブドウ膜黒色腫;膣扁平上皮がん;および外陰部扁平上皮がんの少なくとも1つを含む、請求項93~96のいずれか一項に記載のシステム。
  98. 動作が、モデルによって生成された出力に基づいて、試料の器官タイプを割り当てる工程をさらに含み、任意で、該器官タイプが、膀胱;皮膚;肺;頭部、顔面または頸部(NOS);食道;女性生殖器(FGT);脳;結腸;前立腺;肝臓、胆嚢、導管;乳房;眼;胃;腎臓;および膵臓の少なくとも1つを含む、請求項93~97のいずれか一項に記載のシステム。
JP2021539598A 2019-01-08 2020-01-08 ゲノムプロファイリングの類似性 Pending JP2022522948A (ja)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US201962789929P 2019-01-08 2019-01-08
US62/789,929 2019-01-08
US201962835999P 2019-04-18 2019-04-18
US62/835,999 2019-04-18
US201962836540P 2019-04-19 2019-04-19
US62/836,540 2019-04-19
US201962843204P 2019-05-03 2019-05-03
US62/843,204 2019-05-03
US201962855623P 2019-05-31 2019-05-31
US62/855,623 2019-05-31
US201962871530P 2019-07-08 2019-07-08
US62/871,530 2019-07-08
PCT/US2020/012815 WO2020146554A2 (en) 2019-01-08 2020-01-08 Genomic profiling similarity

Publications (2)

Publication Number Publication Date
JP2022522948A true JP2022522948A (ja) 2022-04-21
JPWO2020146554A5 JPWO2020146554A5 (ja) 2023-01-20

Family

ID=71521912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021539598A Pending JP2022522948A (ja) 2019-01-08 2020-01-08 ゲノムプロファイリングの類似性

Country Status (9)

Country Link
US (1) US20220093217A1 (ja)
EP (1) EP3909062A4 (ja)
JP (1) JP2022522948A (ja)
KR (1) KR20210124985A (ja)
AU (1) AU2020207053A1 (ja)
CA (1) CA3126072A1 (ja)
IL (1) IL284620A (ja)
MX (1) MX2021008227A (ja)
WO (1) WO2020146554A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4004237A1 (en) * 2019-07-22 2022-06-01 F. Hoffmann-La Roche AG Systems and methods for cell of origin determination from variant calling data
US11593673B2 (en) * 2019-10-07 2023-02-28 Servicenow Canada Inc. Systems and methods for identifying influential training data points
AU2021342271A1 (en) * 2020-09-10 2023-05-11 Caris Mpi, Inc. Metastasis predictor
JP2023553401A (ja) * 2020-12-07 2023-12-21 エフ. ホフマン-ラ ロシュ アーゲー 人工知能を使用する腫瘍学的治療ラインに関する予測結果を生成するための技術
US11841925B1 (en) * 2020-12-10 2023-12-12 Amazon Technologies, Inc. Enabling automatic classification for multi-label classification problems with label completion guarantees
DE102020215815A1 (de) 2020-12-14 2022-06-15 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Trainieren eines Klassifikators für molekularbiologische Untersuchungen

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463438B1 (en) * 1994-06-03 2002-10-08 Urocor, Inc. Neural network for cell image analysis for identification of abnormal cells
US8802599B2 (en) * 2007-03-27 2014-08-12 Rosetta Genomics, Ltd. Gene expression signature for classification of tissue of origin of tumor samples
WO2010030794A1 (en) * 2008-09-10 2010-03-18 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data
CA3120217A1 (en) * 2011-04-29 2012-11-01 Cancer Prevention And Cure, Ltd. Methods of identification and diagnosis of lung diseases using classification systems and kits thereof
BR102014003033B8 (pt) * 2014-02-07 2020-12-22 Fleury S/A processo e sistema de classificação de amostras tumorais de origem desconhecida e/ou incerta; processo de controle de qualidade de amostras biológicas tumorais de origem conhecida e processo de controle de qualidade de amostras biológicas de origem desconhecida e/ou incerta

Also Published As

Publication number Publication date
AU2020207053A1 (en) 2021-07-29
EP3909062A2 (en) 2021-11-17
US20220093217A1 (en) 2022-03-24
IL284620A (en) 2021-08-31
KR20210124985A (ko) 2021-10-15
EP3909062A4 (en) 2022-10-05
MX2021008227A (es) 2021-09-10
CA3126072A1 (en) 2020-07-16
WO2020146554A3 (en) 2020-08-27
WO2020146554A2 (en) 2020-07-16

Similar Documents

Publication Publication Date Title
JP7462632B2 (ja) 次世代分子プロファイリング
JP2023504270A (ja) 汎がんのプラチナ反応予測子
CA2860312C (en) Methods and materials for assessing loss of heterozygosity
JP2022522948A (ja) ゲノムプロファイリングの類似性
US20200370133A1 (en) Compositions and methods for characterizing bladder cancer
WO2021222867A1 (en) Immunotherapy response signature
JP2023515394A (ja) パノミックゲノム出現率スコア
CA3167694A1 (en) Panomic genomic prevalence score
US20230368915A1 (en) Metastasis predictor
CA3198134A1 (en) Immunotherapy response signature

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230106

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240509

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240620