JP2018514187A

JP2018514187A - 発現レベルおよび配列変種情報を用いて疾患の発症または再発のリスクを評価するための方法

Info

Publication number: JP2018514187A
Application number: JP2017546066A
Authority: JP
Inventors: ジュリアシー．ケネディー; モライマパガン; チュー−ファンリン; チンファン; ピー．ショーンウォルシュ; 新松崎; ケビントラバース; スヨンキム
Original assignee: ベラサイトインコーポレイテッド
Priority date: 2015-03-04
Filing date: 2016-03-03
Publication date: 2018-06-07
Also published as: CN114634985A; EP3265588A4; JP2022050571A; US20180016642A1; CN107636171A; EP3265588A1; CA2978442A1; WO2016141127A1; AU2016226253A1

Abstract

対象管理の個別化を改善するために2つまたはそれ以上の特徴空間を組み合わせることによる対象から取得されたサンプルの疾患発症のリスクの層別化のための方法、システム、およびキットが、本明細書において提供される。

Description

相互参照
本願は、各々全体が参照により本明細書に組み入れられる2015年3月4日に出願された米国特許仮出願第62/128,463号、2015年3月4日に出願された米国特許仮出願第62/128,469号および2015年10月8日に出願された米国特許仮出願第62/238,893号からの優先権を主張する。

背景
疾患治療、例えば甲状腺がん治療に対するリスク適応型アプローチは、疾患特異的に生存性を改善するのに加えて、疾患発症のリスクを最小限に抑制し得る。現在、初期の対象管理に対するこのリスク適応型アプローチは、大部分が、2009 米国甲状腺学会（American Thyroid Association）（ATA）病期体系を用いた高、中、または低疾患再発リスクのいずれかへの対象の手術後分類に基づいている。この解剖学的病期体系は、臨床的に有用であることが証明されているが、それは侵襲的な甲状腺摘出術の前に正確に評価されることができず、かつそれは疾患結果のいかなる分子的予測因子も含まない。

概要
疾患の発症および／または再発のリスクを評価または層別化するための様々な方法が、本明細書において提供されている。診断前評価または診断評価、例えば微細針吸引（FNA)の間に取得された転写データは、疾患、例えば甲状腺がんの発症のリスクの手術前予測を改善し得、かつ対象の治療および処置のさらなる個別化を提供し得る。本開示の方法は、比較的非侵襲的な様式でかつ少ないサンプル量を用いて疾患の発症および／または再発のリスクに関する評価を提供し得る。

本開示の1つの局面は、対象における疾患の発症のリスクを判定するために対象の組織サンプルを評価するための方法を提供する。該方法は、（a）対象から取得した針吸引サンプルにおける核酸サンプル中の第1の遺伝子セットの1つまたは複数の遺伝子の各々に対応する発現レベルを取得する工程であって、第1の遺伝子セットが対象における疾患の発症のリスクに関連する、工程；（b）該核酸サンプル中の第2の遺伝子セットの1つまたは複数の遺伝子の各々に対応する核酸配列の存在を判定する工程であって、第2の遺伝子セットが対象における疾患の発症のリスクに関連する、工程；（c）対照と、（i）（a）において取得した発現レベルおよび（ii）（b）において取得した核酸配列を別々に比較して、対照に対する発現レベルおよび核酸配列の比較を提供する工程であって、対照中の参照配列に対する核酸配列の比較により、第2の遺伝子セットの所定の遺伝子に関する1つまたは複数の配列変種の存在が示される、工程；ならびに（d）訓練されたアルゴリズムを用いてプログラムされたコンピュータプロセッサを使用して、（i）該比較を分析し、かつ（ii）該比較に基づき疾患の発症のリスクを判定する工程を含む。

いくつかの態様において、針吸引サンプルは、微細針吸引サンプルである。いくつかの態様において、疾患はがんである。いくつかの態様において、この方法は、（a）の前に、対象から針吸引サンプルを取得する工程をさらに含む。いくつかの態様において、この方法は、（a）の前に、針吸引サンプルにおける核酸サンプル由来の発現レベルを決定する工程をさらに含む。いくつかの態様において、この方法は、（b）の前に、針吸引サンプルにおける核酸サンプル由来の核酸配列を決定する工程をさらに含む。いくつかの態様において、この方法は、前記核酸配列を参照配列と比較して、1つまたは複数の配列変種を同定する工程をさらに含む。いくつかの態様において、参照配列は、対象由来のハウスキーピング遺伝子である。いくつかの態様において、第1の遺伝子セットまたは第2の遺伝子セットの1つまたは複数の遺伝子は、複数の遺伝子を含む。

いくつかの態様において、針吸引サンプルは、細胞学的に不明瞭であるとまたは疑わしいと判明している。いくつかの態様において、針吸引サンプルは、約1マイクロリットルまたはそれ未満の容積を有する。いくつかの態様において、針吸引サンプルは、約9.0またはそれ未満のRNA Integrity Number（RIN）値を有する。いくつかの態様において、針吸引サンプルから精製されたRNAは、約9.0またはそれ未満のRNA RIN値を有する。いくつかの態様において、針吸引サンプルは、約6.0またはそれ未満のRIN値を有する。いくつかの態様において、RNAサンプルは、約6.0またはそれ未満のRIN値を有する。

いくつかの態様において、疾患の発症のリスクは、対象における疾患の再発のリスクを含む。いくつかの態様において、がんの発症のリスクは、対象における転移のリスクを含む。いくつかの態様において、がんの発症のリスクは、疾患の進行の加速のリスクを含む。いくつかの態様において、がんの発症のリスクは、治療の失敗のリスクを含む。

いくつかの態様において、訓練されたアルゴリズムは、前記疾患を有すると診断された少なくとも25体または少なくとも100体の対象由来の組織サンプルを用いて訓練される。いくつかの態様において、訓練されたアルゴリズムは、該疾患を有すると診断された少なくとも200体の対象由来の組織サンプルを用いて訓練される。

いくつかの態様において、（d）は手術前に行われる。いくつかの態様において、（d）は、対象が陽性の疾患診断を受ける前に行われる。いくつかの態様において、（d）は、発症のリスクを低発症リスクまたは中〜高発症リスクに層別化する工程をさらに含み、低発症リスクは、約50％〜約80％の発症率を有し、かつ中〜高発症リスクは、約80％〜100％の発症率を有する。

いくつかの態様において、この方法は、1つもしくは複数のフィルター、1つもしくは複数のラッパー、1つもしくは複数の組み込みプロトコル、またはそれらの任意の組み合わせを上記比較に適用する工程をさらに含む。いくつかの態様において、1つもしくは複数のフィルターが上記比較に適用される。いくつかの態様において、1つまたは複数のフィルターは、t検定、分散分析（ANOVA）分析、ベイズフレームワーク、ガンマ分布、ウィルコクソン順位和検定、二乗検定の級間・級内和、ランクプロダクト法（rank product method）、ランダム置換法、誤分類の閾値（TNoM）、二変数法、相関に基づく特徴選択（CFS）法、最小冗長性最大関連性（MRMR）法、マルコフブランケットフィルター法、非相関収縮重心法、またはそれらの任意の組み合わせを含む。いくつかの態様において、1つまたは複数の配列変種は、点変異、融合遺伝子、置換、欠失、挿入、逆位、変換、転座の1つもしくは複数、またはそれらの任意の組み合わせを含む。いくつかの態様において、1つまたは複数の点変異は、約5個〜約4000個の点変異である。いくつかの態様において、1つまたは複数の融合遺伝子は、少なくとも2つの融合遺伝子である。

いくつかの態様において、層別化する工程は、約80％の精度を有する。いくつかの態様において、層別化する工程は、約80％の特異度を有する。いくつかの態様において、第1のセットまたは第2のセットの1つまたは複数の遺伝子は、約15個未満または約10個未満の遺伝子である。いくつかの態様において、第1のセットまたは第2のセットの1つまたは複数の遺伝子は、約75個未満の遺伝子である。いくつかの態様において、第1のセットまたは第2のセットの1つまたは複数の遺伝子は、約50個〜約400個の遺伝子である。

いくつかの態様において、（b）における取得する工程は、核酸配列を取得するために針吸引サンプルにおける核酸サンプルを配列決定する工程を含む。いくつかの態様において、配列決定する工程は、第2の遺伝子セットの1つもしくは複数の遺伝子またはその変種を濃縮する工程を含む。いくつかの態様において、（a）は、第1の遺伝子セットの1つまたは複数の遺伝子に選択的なプローブを用いるマイクロアレイを使用する工程を含む。いくつかの態様において、（a）は、標的化配列決定プラットホーム（例えば、Ion Torrent AmpliseqまたはIllumina TruSeq Custom Amplicon）の使用を含む。

いくつかの態様において、組織サンプルは、甲状腺組織サンプルである。いくつかの態様において、第1および第２の遺伝子セットは、COL1A1、THBS2、またはそれらの任意の組み合わせを含む。いくつかの態様において、第2の遺伝子セットは、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1、またはそれらの任意の組み合わせを含む。いくつかの態様において、第1の遺伝子セットは、COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1、またはそれらの任意の組み合わせを含む。いくつかの態様において、第2の遺伝子セットは、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24、またはそれらの任意の組み合わせを含む。いくつかの態様において、第2の遺伝子セットは、AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP、またはそれらの任意の組み合わせを含む。

いくつかの態様において、第1の遺伝子セットおよび第2の遺伝子セットは異なる。いくつかの態様において、この方法は、疾患の新規遺伝子バイオマーカーを同定する工程をさらに含む。

いくつかの態様において、（a）における取得する工程は、1つまたは複数の遺伝子の各々に対応する発現レベルについてアッセイする工程を含む。いくつかの態様において、アッセイする工程は、1つまたは複数の遺伝子の各々について選択されたマーカーを用いるアレイハイブリダイゼーション、核酸配列決定、または核酸増幅を含む。いくつかの態様において、マーカーは、1つまたは複数の遺伝子の各々について選択されたプライマーである。

いくつかの態様において、アッセイする工程は、逆転写ポリメラーゼ連鎖反応（PCR）を含む。いくつかの態様において、判定する工程は、核酸サンプル中の第2の遺伝子セットの1つまたは複数の遺伝子の各々についてアッセイする工程を含む。いくつかの態様において、アッセイする工程は、1つまたは複数の遺伝子の各々について選択されたマーカーを用いるアレイハイブリダイゼーション、核酸配列決定、または核酸増幅を含む。いくつかの態様において、マーカーは、1つまたは複数の遺伝子の各々について選択されたプライマーである。いくつかの態様において、アッセイする工程は、逆転写ポリメラーゼ連鎖反応（PCR）を含む。

本開示の別の局面は、1つまたは複数のコンピュータプロセッサによって実行されると本明細書の上記または他箇所の方法のいずれかを実施する機械実行可能なコードを備えるコンピュータ読み取り可能媒体（例えば、メモリ）を提供する。

本開示の別の局面は、1つまたは複数のコンピュータプロセッサおよびそれに接続されたコンピュータ読み取り可能媒体を備えるコンピュータシステムを提供する。コンピュータ読み取り可能媒体は、1つまたは複数のコンピュータプロセッサによって実行されると本明細書の上記または他箇所の方法のいずれかを実施する機械実行可能なコードを備え得る。

本開示のさらなる局面および利点は、本開示の例示にすぎない態様が示され説明されている以下の詳細な説明から当業者に直ちに明らかとなるであろう。明らかなように、本開示は、他のおよび異なる態様が可能であり、そのそれぞれの細部は様々な明白な局面において改変することが可能であり、それらはすべて本開示から逸脱することなく行われる。したがって、図面および説明は、本質的に例示的なものであり、限定的なものではないとみなされるべきである。

参照による組み入れ
本明細書で言及されているすべての刊行物、特許、および特許出願は、各々個々の刊行物、特許、または特許出願が具体的かつ個別に参照により組み入れられることが示されているものとして、参照により本明細書に組み入れられる。参照により組み入れられる刊行物および特許または特許出願が本明細書に含まれる開示と相反する範囲では、本明細書があらゆるそのような相反するものに取って代わるかまたはそれよりも優先される。

本発明の新規の特徴は、特に添付の特許請求の範囲に示されている。本発明の特徴および利点のさらなる理解は、本発明の原理が用いられている例示的な態様を示す以下の詳細な説明および添付図面（本明細書で「図（figure）」および「図（FIG）」とも称される）を参照することによって得られるであろう。
低がん発症リスクおよび中〜高がん発症リスクに層別化された細胞学データおよび専門家による組織病理学データのサンプルコホートを示している。組織病理学的なリスク特徴および各特徴に関するサンプルの数および比率を示している。偽陽性率に対してプロットされた真陽性率の交差検証を示している。中〜高リスクの有病率に対して的中率をプロットした分類パフォーマンスデータを示している。低リスクおよび中〜高リスクグループにおける分類パフォーマンスデータを示している。遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。リボ核酸（RNA）配列決定から取得された遺伝子発現レベルデータに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。配列変種データに基づく甲状腺がんの発症のリスクに関連する遺伝子の具体例リストを示している。本明細書において提供される方法を実行するようプログラムされているかまたはそうでなければ該方法を実行するよう構成されている、コンピュータ制御システムを示している。正確な訓練ラベルを決定する流れ図を示している。偽陽性率に対してプロットされた真陽性率の交差検証を示している。中／高リスクおよび低リスクグループにおける分類パフォーマンスデータを示している。各分割で分類器によって選択された変種の遺伝子の具体例リストを示している。 10分割で分類器によって8〜10回選択されたカウントの遺伝子の具体例リストを示している。 5つの点変異パネルおよび融合対の表を示している。 5つの変異および融合対のパネルにおける試験パフォーマンスの特異度および感度のグラフを示している。細胞学による図14および15のパネル3の変異パフォーマンスの表を示している。 5つの変異および融合対のパネルにおける試験パフォーマンスの特異度および感度のグラフを示している。図18Aは、臨床検査室改善修正法（Clinical Laboratory Improvement Amendment）（CLIA）微細針吸引（FNA）サンプルの変異頻度のグラフによる表示を示しており、図18Bは、その変異頻度の表による表示を示している。図19Aは、FNAサンプルの変異頻度のグラフによる表示を示しており、図19Bは、その変異頻度の表による表示を示している。図20Aは、組織サンプルの変異頻度のグラフによる表示を示しており、図20Bは、その変異頻度の表による表示を示している。

詳細な説明
本明細書において本発明の様々な態様が示され説明されているが、そのような態様は例として提供されるにすぎないことが当業者に明らかであろう。当業者は、本発明から逸脱することなく、多数のバリエーション、変更および置換を思い浮かべるであろう。本明細書に記載される本発明の態様に対する様々な代替物が用いられ得ることが理解されるべきである。

「対象」という用語は、本明細書で使用される場合、概ね、任意の動物または生きた有機体を表す。動物は、哺乳動物、例えばヒト、非ヒト霊長類、げっ歯類、例えばマウスおよびラット、イヌ、ネコ、ブタ、ヒツジ、ウサギ等であり得る。動物は、魚類、爬虫類等であり得る。動物は、生まれたばかりの、幼い、若い、または成体の動物であり得る。ヒトは、約1、2、5、10、20、30、40、50、60、65、70、75、または約80歳超であり得る。対象は、疾患、例えばがんを有し得るまたはそれを有する疑いがあり得る。対象は、患者、例えば疾患の処置を受けている患者、例えばがん患者であり得る。対象は、疾患、例えばがんを発症するリスクにさらされている者であり得る。対象は、疾患からの回復期にあり得る、例えばがん患者であり得る。対象は、健常であり得る。

「疾患」という用語は、本明細書で使用される場合、概ね、対象に影響を与える任意の異常または病理学的な状態を表す。疾患の例は、がん、例えば甲状腺がん、副甲状腺がん、肺がん、皮膚がん等を含む。疾患は、処置可能または処置不可能であり得る。疾患は、末期的または非末期的であり得る。疾患は、受け継いだ遺伝子、環境的曝露、またはそれらの任意の組み合わせの結果であり得る。疾患は、がん、遺伝病、増殖性障害、または本明細書に記載される他の疾患であり得る。

「疾患の発症のリスク」という用語は、本明細書で定義される場合、概ね、対象における疾患の発症に関連するリスクまたは確率を表す。発症のリスクは、対象における疾患の最初の発症を含み得、または後続の発症、例えば第2、第3、第4またはそれ以降の発症を含み得る。疾患の発症のリスクは、（a）疾患を最初に発症するリスク、（b）疾患を再発するもしくは疾患を再び発症するリスク、（c）疾患を将来発症するリスク、（d）対象の生涯の中で疾患を発症する可能性があるというリスク、または（e）幼いとき、若いとき、もしくは大人になってから疾患を発症する可能性があるというリスクを含み得る。疾患、例えばがんの発症のリスクは、がんが転移性になるリスクを含み得る。疾患、例えばがんの発症のリスクは、I期がん、II期がん、III期がん、またはIV期がんの発症のリスクを含み得る。がんの発症のリスクは、血液がん、組織がん（例えば、腫瘍）または他の部位から1つもしくは複数の臓器部位に転移するようになるがんのリスクを含み得る。

「配列変種」、「配列バリエーション」、「配列変更」、または「対立遺伝子変種」という用語は、本明細書で使用される場合、概ね、参照配列、例えば、ゲノムデオキシリボ核酸（DNA）参照配列、コーディングDNA参照配列もしくはタンパク質参照配列等との関連での特定の変化またはバリエーションを表す。参照DNA配列は、参照データベースから取得され得る。配列変種は、機能に影響する場合がある。配列変種は、機能に影響しない場合がある。配列変種は、1つもしくは複数のヌクレオチドにおいてDNAレベルで、1つもしくは複数のヌクレオチドにおいてリボ核酸（RNA）レベルで、1つまたは複数のアミノ酸においてタンパク質レベルで、またはそれらの任意の組み合わせで生じ得る。参照配列は、データベース、例えばNCBI レファレンス配列データベース（Reference Sequence Database）（RefSeq）データベースから取得され得る。配列バリエーションを構成し得る個々の変化は、1つもしくは複数のヌクレオチドまたは1つもしくは複数のアミノ酸における置換、欠失、挿入、逆位または変換を含み得る。配列変種は、点変異であり得る。配列変種は、融合遺伝子であり得る。融合対または融合遺伝子は、配列変種、例えば転座、中間部欠失、染色体逆位、またはそれらの任意の組み合わせから生じ得る。配列バリエーションは、反復配列の数の多様性、例えば三重配列、四重配列等を構成し得る。例えば、配列バリエーションは、所定の配列に関するコピー数の増加または減少であり得る（すなわち、コピー数バリエーションまたはCNV）。配列バリエーションは、異なる対立遺伝子における2つもしくはそれ以上の配列変化または1つの対立遺伝子における2つもしくはそれ以上の配列変化を含み得る。配列バリエーションは、1つの対立遺伝子内の1つの位置における2つの異なるヌクレオチド、例えばモザイクを含み得る。配列バリエーションは、1つの対立遺伝子内の1つの位置における2つの異なるヌクレオチド、例えばキメラを含み得る。配列変種は、悪性組織に存在し得る。配列変種は、良性組織に存在し得る。変種の非存在は、組織またはサンプルが良性であることを示し得る。あるいは、変種の非存在は、組織またはサンプルが良性であることを示さない場合がある。

「変異パネル」という用語は、本明細書で使用される場合、概ね、リスク分類器を用いて検出する（または調査される）規定数のゲノム部位および融合対を指定するパネルを表す。例えば、変異パネルは、調査する9つのゲノム部位および3つの融合対を含み得る。検出する点変異および融合対の数を増やすことによりリスク分類器の感度を高めることは、リスク分類器の感度を低下させることになり得る。

変異パネルは、1つまたは複数のゲノム部位および1つまたは複数の融合対を含み得る。変異パネルは、約1、2、3、4、または5個超のゲノム部位を含み得る。変異パネルは、約15個超のゲノム部位を含み得る。変異パネルは、約100個超のゲノム部位を含み得る。変異パネルは、約200個超のゲノム部位を含み得る。変異パネルは、約500個超のゲノム部位を含み得る。変異パネルは、約1000個超のゲノム部位を含み得る。変異パネルは、約2000個超のゲノム部位を含み得る。変異パネルは、約3000個超のゲノム部位を含み得る。変異パネルは、約1または2個超の融合対を含み得る。変異パネルは、約5個超の融合対を含み得る。変異パネルは、約10個超の融合対を含み得る。変異パネルは、約15個超の融合対を含み得る。変異パネルは、約20個超の融合対を含み得る。変異パネルは、約25個超の融合対を含み得る。

「疾患診断」という用語は、本明細書で使用される場合、概ね、疾患を診断もしくはスクリーニングすること、疾患の発症のリスクを層別化すること、疾患の進行もしくは寛解をモニタリングすること、疾患に対する処置計画を編成すること、またはそれらの任意の組み合わせを表す。疾患診断は、（a）対象由来の1つもしくは複数の組織サンプルから情報を取得すること、（b）取得した情報もしくは組織サンプルに基づき対象が特定の疾患を有するかどうかについての判定を行うこと、（c）対象における疾患の発症のリスクを層別化すること、（d）対象が疾患を有するかどうか、疾患を発症するかどうか、もしくは疾患寛解状態にあるかどうかを確認すること、またはそれらの任意の組み合わせを含み得る。疾患診断は、その疾患に対する特定の処置または治療的介入を通知し得る。疾患診断はまた、例えば、疾患、例えばがんの重篤度もしくはグレードを示すスコアまたは、例えばp値、補正されたp値もしくは統計的信頼性指標を通じた、正確な診断の尤度を提供し得る。疾患診断はまた、特定のタイプの疾患を示し得る。例えば、甲状腺がんに対する疾患診断は、サブタイプ、例えば濾胞性腺腫（FA）、結節性過形成（NHP）、リンパ球性甲状腺炎（LCT）、ハースル細胞腺がん（HA）、濾胞がん（FC)、甲状腺乳頭がん（PTC）、濾胞型甲状腺乳頭がん（FVPTC）、甲状腺髄様がん（MTC）、ハースル細胞がん（HC）、未分化甲状腺がん（ATC）、腎臓がん（RCC）、乳がん（BCA）、黒色腫（MMN）、B細胞リンパ腫（BCL）、副甲状腺（PTA）、または過形成乳頭がん（HPC）を示し得る。

疾患の発症または再発のリスクを評価するための方法
本開示は、対象における疾患の発症または再発のリスクを判定するために、いくつかの例では、疾患の新規遺伝子バイオマーカーを決定するために対象の組織サンプルを評価するための方法を提供する。そのような方法は、対象から取得された核酸サンプル中の第1の遺伝子セットの1つまたは複数の遺伝子の各々に対応する発現レベルを取得する工程を含み得る。いくつかの例において、発現レベルは、第1の遺伝子セットの1つまたは複数の遺伝子に選択的なプローブを用いるマイクロアレイを用いて取得される。核酸サンプルは、対象によってまたは別の個人によって、例えば医療専門家によって取得され得る。第1の遺伝子セットは、対象における疾患の発症のリスクに関連し得る。いくつかの例において、核酸サンプルは、FNA、手術（例えば、外科生検）または対象からサンプルを取得する他のアプローチによって取得される。核酸サンプルは、対象から取得された組織サンプル（例えば、甲状腺組織サンプル）、血液サンプル中または体液サンプル中に含まれ得る。1つの例において、核酸サンプルは、対象から取得されたFNAサンプルに含まれ得る。

次に、核酸サンプル中の第2の遺伝子セットの1つまたは複数の遺伝子の各々に対応する核酸配列の存在が判定される。第2の遺伝子セットは、対象における疾患の発症のリスクに関連し得る。いくつかの例において、その配列の存在は、FNAサンプル中の核酸を配列決定し、その核酸配列を取得することによって判定される。配列決定はまた、第2の遺伝子セットの1つもしくは複数の遺伝子またはそれらの変種を濃縮し得る。

次に、取得された発現レベルおよび取得された核酸配列が対照と比較され、対照に対する発現レベルおよび核酸配列の比較が提供される。対照内の参照配列に対する核酸配列の比較により、第2の遺伝子セットの所定の遺伝子に関する1つまたは複数の配列変種の存在が示され得る。参照配列は、例えば、対象から取得されたハウスキーピング遺伝子であり得る。

次に、比較が分析され、その比較に基づき疾患の発症または再発のリスクが判定される。いくつかの例において、その比較を分析し疾患の発症または再発のリスクを判定するために、1つまたは複数のプログラムされたコンピュータプロセッサによって実行されるアルゴリズムが使用される。アルゴリズムは、訓練されたアルゴリズム（例えば、少なくとも10、200、100、または500個の参照サンプルに対して訓練されたアルゴリズム）であり得る。参照サンプルは、該疾患を有すると診断された対象からまたは健常対象から取得され得る。

いくつかの例において、第1の遺伝子セットの1つまたは複数の遺伝子の各々の発現レベルは、その発現レベルについてアッセイすることによって取得され得る。いくつかの例において、第2の遺伝子セットの1つまたは複数の遺伝子の各々に対応する核酸配列の存在は、1つまたは複数の遺伝子の各々についてアッセイすることによって判定され得る。そのような例において、アッセイすることは、アレイハイブリダイゼーション、核酸配列決定、核酸増幅等を含み得る。アッセイすることは、配列決定、例えばDNAまたはRNA配列決定を含み得る。そのような配列決定は、次世代（NextGen）配列決定により得る。アッセイすることは、逆転写ポリメラーゼ連鎖反応（PCR）を含み得る。アッセイすることは、第1遺伝子セットまたは第2の遺伝子セットの1つまたは複数の遺伝子の各々について選択されたマーカー、例えばプライマーを用い得る。

第1の遺伝子セットの1つまたは複数の遺伝子に対応する発現レベルを取得する前に、サンプルが対象から取得され得る。核酸サンプルの複数の遺伝子の発現レベルがまた、第1の遺伝子セットの1つまたは複数の遺伝子に対応する発現レベルを取得する前に決定され得る。いくつかの例において、第2の遺伝子セットの核酸配列の存在を判定する前に、サンプル中の複数の遺伝子の核酸配列が決定され得る。

いくつかの例において、疾患は、がん、例えば甲状腺がん、乳がん等である。発症または再発のリスクの判定は、非がん性疾患、例えば遺伝病、過剰増殖性障害等においても判定され得る。

対象から取得されたサンプルは、細胞学的に不明瞭であってもよいかまたは疑わしくてもよい（または不確定であってもよい）。いくつかの例において、サンプルは、疾患の存在を示唆していてもよい。対象から取得されるサンプルの容積は、少量、例えば約100マイクロリットル、50マイクロリットル、10マイクロリットル、5マイクロリットル、1マイクロリットルまたはそれ未満であり得る。サンプルは、少量または低品質のポリヌクレオチド、例えば、分解または部分分解したRNAを含む組織サンプルを含み得る。例えば、FNAサンプルは、少量または低品質のポリヌクレオチドを提供し得る。そのような例において、サンプルのRNA Integrity Number（RIN）値は、約9.0またはそれ未満であり得る。いくつかの例において、RIN値は、約6.0またはそれ未満であり得る。

疾患の発症のリスクは、後続の発症、例えば第2、第3、第4、またはそれより後続の発症のリスクを含み得る。疾患の発症のリスクは、（a）疾患を最初に発症するリスク、（b）疾患を再発するもしくは疾患を再び発症するリスク、（c）疾患を将来発症するリスク、（d）対象の生涯の中で疾患を発症する可能性があるというリスク、または（e）幼いとき、若いときもしくは大人になってから疾患を発症する可能性があるというリスク、の1つまたは複数を含み得る。疾患ががんの場合、発症のリスクは、がんが転移性になるリスクを含み得る。

リスクの判定は、手術前に、例えば患者の手術前に完了され得る。臨床医は、患者が例えば低リスクの甲状腺乳頭がんを有すると判定された場合に、手術を推奨するよりも患者が継続して観察されることを推奨し得る。いくつかの例において、臨床医は、患者が高リスクの甲状腺乳頭がんを有すると判定された場合、患者が手術を受けることを推奨する可能性が高い。判定は、患者が陽性の疾患診断を受ける前、例えば対象が疾患を有することが疑われている段階で、または通常の臨床手順の間に行われ得る。

リスクの判定はさらに、リスクを低発症リスクまたは中〜高発症リスクに層別化する工程を含み得る。いくつかの例において、低リスクは、約50％〜約80％の発症率であり得、かつ中〜高リスクは、約80％〜100％の発症率であり得る。

リスクを低および中〜高リスク群に正確に層別化することは、分析されるサンプルの約80％で行われ得る。リスクを層別化することは、細胞学的に不明瞭であるとまたは疑わしいと同定されたサンプルを含む、分析されるサンプルの約50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、または約99％において正確に決定され得る。リスクを低および中〜高リスク群に層別化することは、少なくとも約80％の特異度を有し得る。いくつかの例において、リスクの層別化の特異度は、細胞学的に不明瞭であるとまたは疑わしいと同定されたサンプルを含む、約50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、またはそれ以上であり得る。

第1の遺伝子セット中または第2の遺伝子セット中の1つまたは複数の遺伝子は、複数の遺伝子、例えば約2、10、20、40個の遺伝子、またはそれ以上を含み得る。第1の遺伝子セットまたは第2の遺伝子セットの1つまたは複数の遺伝子は、約10個の遺伝子、20個の遺伝子、50個の遺伝子、60個の遺伝子、または約75個の遺伝子未満であり得る。第1のセットまたは第2のセットの1つまたは複数の遺伝子は、約50個〜約400個の遺伝子であり得る。第1の遺伝子セットは、図6または図7の遺伝子を含み得る。第2の遺伝子セットは、図8の遺伝子を含み得る。

第1の遺伝子セットおよび第2の遺伝子セットは、同じセットであり得る。例えば、第1および第2の遺伝子セットは、COL1A1、THBS2、またはそれらの任意の組み合わせを含み得る。

第1の遺伝子セットおよび第2の遺伝子セットは、異なるセットであり得る。第2の遺伝子セットは、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1、またはそれらの任意の組み合わせを含み得る。第1の遺伝子セットは、COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1、またはそれらの任意の組み合わせを含み得る。第2の遺伝子セットは、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24、またはそれらの任意の組み合わせを含み得る。第2の遺伝子セットは、AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP、またはそれらの任意の組み合わせを含み得る。

サンプル
対象から取得されるサンプルは、組織、細胞、細胞フラグメント、細胞オルガネラ、核酸、遺伝子、遺伝子フラグメント、発現産物、遺伝子発現産物、遺伝子発現産物フラグメント、またはそれらの任意の組み合わせを含み得る。サンプルは、不均質または均質であり得る。サンプルは、血液、尿、脳脊髄液、精液、唾液、痰、排泄物、リンパ液、組織、またはそれらの任意の組み合わせを含み得る。サンプルは、組織特異的サンプル、例えば甲状腺組織、皮膚、心臓、肺、腎臓、乳房、膵臓、肝臓、筋肉、平滑筋、膀胱、胆嚢、結腸、腸、脳、食道または前立腺から取得されるサンプルであり得る。

本開示のサンプルは、様々な方法、例えば微細針吸引（FNA）、コア針生検、真空補助下生検、切開生検、切除生検、パンチ生検、薄片生検、皮膚生検、またはそれらの任意の組み合わせによって取得され得る。

FNAは、微細針吸引生検（FNAB）または針吸引生検（NAB）とも称される、対象から少量の組織を取得する方法である。FNAは、取得のために対象の手術および入院を必要とし得る組織生検よりも低侵襲性であり得る。FNA法の針は、さらなる分析のためのサンプル量を取得するために対象の組織塊に挿入され得る。いくつかの例において、2つの針が、組織塊に挿入され得る。組織塊から取得されるFNAサンプルは、組織塊を貫く針の1回または複数回の通過によって獲得され得る。いくつかの例において、FNAサンプルは、約6×10⁶、5×10⁶、4×10⁶、3×10⁶、2×10⁶、1×10⁶個未満の細胞またはそれ未満を含み得る。針は、超音波または他の画像化装置によって組織塊へと案内され得る。針は、吸引もしくは真空または他の吸い込み技術による針を通じたFNAサンプルの回収が可能なように中空であり得る。

本明細書において開示される方法を用いて取得されるサンプル、例えばFNAサンプルは、少ないサンプル容積を含み得る。サンプル容積は、約500マイクロリットル（uL）、400 uL、300 uL、200 uL、100 uL、75 uL、50 uL、25 uL、20 uL、15 uL、10 uL、5 uL、1 uL、0.5 uL、0.1 uL、0.01 uL未満またはそれ未満であり得る。サンプル容積は、約1 uL未満であり得る。サンプル容積は、約5 uL未満であり得る。サンプル容積は、約10 uL未満であり得る。サンプル容積は、約20 uL未満であり得る。サンプル容積は、約1 uL〜約10 uLであり得る。サンプル容積は、約10 uL〜約25 uLであり得る。

本明細書において開示される方法を用いて取得されるサンプル、例えばFNAサンプルは、少ないサンプル重量を含み得る。サンプル重量、例えば組織重量は、約100ミリグラム（mg）、75 mg、50 mg、25 mg、20 mg、15 mg、10 mg、9 mg、8 mg、7 mg、6 mg、5 mg、4 mg、3 mg、2 mg、1 mg、0.5 mg、0.1 mg未満またはそれ未満であり得る。サンプル重量は、約20 mg未満であり得る。サンプル重量は、約10 mg未満であり得る。サンプル重量は、約5 mg未満であり得る。サンプル重量は、約5 mg〜約20 mgであり得る。サンプル重量は、約1 mg〜約5 ngであり得る。

本明細書において開示される方法を用いて取得されるサンプル、例えばFNAは、少数の細胞を含み得る。単一サンプルの細胞数は、約10×10⁶、5.5×10⁶、5×10⁶、4.5×10⁶、4×10⁶、3.5×10⁶、3×10⁶、2.5×10⁶、2×10⁶、1.5×10⁶、1×10⁶、0.5×10⁶、0.2×10⁶、0.1×10⁶細胞未満またはそれ未満であり得る。単一サンプルの細胞数は、約5×10⁶細胞未満であり得る。単一サンプルの細胞数は、約4×10⁶細胞未満であり得る。単一サンプルの細胞数は、約3×10⁶細胞未満であり得る。単一サンプルの細胞数は、約2×10⁶細胞未満であり得る。単一サンプルの細胞数は、約1×10⁶〜約5×10⁶細胞であり得る。単一サンプルの細胞数は、約1×10⁶〜約10×10⁶細胞であり得る。

本明細書において開示される方法を用いて取得されるサンプル、例えばFNAは、少量のデオキシリボ核酸（DNA）またはリボ核酸（RNA）を含み得る。個々のサンプル中のDNAまたはRNAの量は、約500ナノグラム（ng）、400 ng、300 ng、200 ng、100 ng、75 ng、50 ng、45 ng、40 ng、35 ng、30 ng、25 ng、20 ng、15 ng、10 ng、5 ng、1 ng、0.5 ng、0.1ng未満、またはそれ未満であり得る。DNAまたはRNAの量は、約40 ng未満であり得る。DNAまたはRNAの量は、約25 ng未満であり得る。DNAまたはRNAの量は、約15 ng未満であり得る。DNAまたはRNAの量は、約1 ng〜約25 ngであり得る。DNAまたはRNAの量は、約5 ng〜約50 ngであり得る。

サンプルのRNA収量またはRNA量は、ナノグラムからマイクログラムの量で測定され得る。実験室で核酸収量を測定するのに使用され得る装置の例は、NANODROP（登録商標）分光光度計、QUBIT（登録商標）蛍光光度計またはQUANTUS（商標）蛍光光度計である。NANODROP（登録商標）測定の精度は、非常に低いRNA濃度で大きく低下し得る。本明細書に記載される方法により取得されるデータの質は、RNA量に依存的であり得る。有意義な遺伝子発現または配列変種のデータ等は、NANODROP（登録商標）によって測定される場合に低いまたは測定不能なRNA濃度を有するサンプルから生成され得る。いくつかの例において、遺伝子発現または配列変種のデータ等は、測定不能なRNA濃度を有するサンプルから生成され得る。

本明細書に記載される方法は、少量または低品質のポリヌクレオチド、例えばDNAまたはRNAを含むサンプルを用いて実施され得る。少量または低品質のRNAを含むサンプルは、例えば、分解または部分分解した組織サンプルであり得る。少量または低品質のRNAを含むサンプルは、微細針吸引（FNA）サンプルであり得る。サンプルのRNAの質は、算出されたRNA Integrity Number（RIN）値によって測定され得る。RIN値は、RNA測定に完全性の値を割り当てるアルゴリズムである。このアルゴリズムは、1〜10のRIN値を割り当てることができ、10のRIN値は完全にインタクトなRNAであり得る。RNAを含む本明細書に記載されるサンプルは、約9.0、8.0、7.0、6.0、5.0、4.0、3.0、2.0、1.0、またはそれ未満のRIN値を有し得る。いくつかの例において、RNAを含むサンプルは、約8.0またはそれ未満のRIN値を有し得る。いくつかの例において、RNAを含むサンプルは、約6.0またはそれ未満のRIN値を有し得る。いくつかの例において、RNAを含むサンプルは、約4.0またはそれ未満のRIN値を有し得る。いくつかの例において、サンプルは、約2.0またはそれ未満のRIN値を有し得る。

サンプル、例えばFNAサンプルは、別の個人または主体、例えば保健（もしくは医療）専門家またはロボットによって対象から取得され得る。医療専門家は、医師、看護師、医療技術者等を含み得る。いくつかの例において、医師は、がん専門医、外科医または内分泌科医等の専門家であり得る。医療技術者は、細胞学者、瀉血専門医、放射線科医、呼吸器科医等の専門家であり得る。医療専門家は、試験のために対象からサンプルを取得し得るまたはサンプルの提出のために対象を試験センターまたは研究所に照会し得る。医療専門家は、試験センターまたは研究所に、サンプルに対して適切な試験またはアッセイ法、例えば、遺伝子配列データ、遺伝子発現レベル、配列変種データ、またはそれらの任意の組み合わせの決定を含む本開示の方法を実施することを指示し得る。

いくつかの例において、医療専門家は、疾患の初期診断または初期サンプル取得に関与している必要はない。その代わり、個体、例えば対象が、市販のキットの使用を通じてサンプルを取得し得る。キットは、本明細書に記載されるようにサンプルを取得するための回収ユニットまたはデバイス、サンプル分析の前にサンプルを保管するための保管ユニットおよびそのキットの使用説明書を含み得る。

サンプルは、（a）手術前に、（b）手術後に、（c）がんの診断後に、（d）疾患の寛解もしくは治癒後の通常のスクリーニング後に、（e）対象が疾患を有することが疑われる場合に、（f）通常の通院または臨床スクリーニング中に、（g）臨床専門家の要望により、またはそれらの任意の組み合わせで取得され得る。別の時点の複数のサンプルが、例えば疾患処置開始前および処置終了後に、例えば経時的な対象のモニタリングのために、同じ対象から取得され得る。複数のサンプルは、対象における疾患の進行、退行または寛解の非存在または存在をモニタリングするために、別の時点で対象から取得され得る。

細胞学的分析
疾患の発症のリスクの評価を含む、本明細書に記載される方法は、サンプルの細胞学的分析を含み得る。細胞学的分析の例は、エオシン・アズール（EA）染色、ヘマトキシリン染色、CYTO-STAIN（商標）、パパニコロウ染色、エオシン、ニッスル染色、トルイジンブルー、銀染色、アゾカルミン染色、ニュートラルレッドまたはヤヌスグリーンを含むがこれらに限定されない任意の多くの方法および適切な試薬によって実施される細胞染色技術および／または顕微鏡試験を含む。2つ以上の染色が、他の染色と組み合わせて使用され得る。いくつかの例において、細胞は、全く染色されない。細胞は、染色手順の前にまたはその中で、例えばメタノール、エタノール、グルタルアルデヒドまたはホルムアルデヒドを用いて固定および／または透過処理され得る。いくつかの例において、細胞は、固定されない場合がある。染色手順はまた、例えば臭化エチジウム、ヘマトキシリン、ニッスル染色または任意の他の核酸染色を用いて、サンプルの核酸量を測定するために使用され得る。

サンプル中の細胞の顕微鏡試験は、細胞学的試験の標準的方法によって細胞をスライド上に塗りつけることを含み得る。液体細胞学（LBC）法が用いられ得る。いくつかの例において、LBC法は、細胞学的スライドの調製、より均質なサンプル、向上した感度および特異度、もしくは改善されたサンプル操作性、またはそれらの任意の組み合わせの改善されたアプローチを提供する。LBC法において、サンプルは、対象から、LBC調製溶液、例えばCYTYC THINPREP（登録商標）、SUREPATH（商標）もしくはMONOPREP（登録商標）または任意の他のLBC調製溶液を含む容器またはバイアルに移され得る。加えて、サンプルは、サンプルの実質量移動を確実にするために、LBC調製溶液を用いて回収デバイスから容器またはバイアルに洗い流され得る。LBC調製溶液中にサンプルを含む溶液は、その後、保管され得、かつ／またはガラススライド上に細胞の層を形成するよう機械もしくは当業者によって処理され得る。サンプルはさらに、従来の細胞学的調製物と同じ様式で染色され、顕微鏡下で試験され得る。

サンプルは、免疫組織化学染色によって分析され得る。免疫組織化学染色は、サンプル（例えば細胞または組織）中での抗体の使用により特定の分子または抗原の存在、位置、および分布の分析を提供し得る。抗原は、抗体によって特異的に認識されることができる低分子、タンパク質、ペプチド、核酸または任意の他の分子であり得る。サンプルは、事前の固定および／または透過処理工程を用いるまたは用いない免疫組織化学法によって分析され得る。いくつかの例において、関心対象の抗原は、サンプルを抗原に特異的な抗体と接触させることによって検出され得、次いで非特異的な結合が、1回または複数回の洗浄によって除去され得る。特異的に結合した抗体は、次いで、抗体検出試薬、例えば標識された二次抗体または標識されたアビジン／ストレプトアビジンによって検出され得る。抗原特異的な抗体は、直接的に標識され得る。免疫組織化学に適した標識は、フルオロフォア、例えばフルオレセインおよびローダミン、酵素、例えばアルカリホスファターゼおよび西洋ワサビペルオキシダーゼ、または放射性核種、例えば³²Pおよび¹²⁵Iを含むがこれらに限定されない。免疫組織化学染色によって検出され得る遺伝子産物マーカーは、Her2/Neu、Ras、Rho、EGFR、VEGFR、UbcH10、RET/PTC1、サイトケラチン20、カルシトニン、GAL-3、甲状腺ペルオキシダーゼ、またはサイログロブリンを含むがこれらに限定されない。

本明細書において開示される疾患発症のリスクに関連するメトリクス、例えば、第1の遺伝子セットの遺伝子発現レベル、または第2の遺伝子セットの配列変種データは、疾患発症のリスクを有することが判明しているサンプルのあらゆる細胞の特徴である必要はない。したがって、本明細書において開示される方法は、遺伝子発現レベルもしくは配列変種データに関するまたは疾患の発症のリスクを示す他のデータに関する完全なパターンをサンプル中のすべてとは言えない細胞が示す組織における疾患、例えばがんの発症のリスクを評価するのに有用であり得る。遺伝子発現レベル、配列変種データ等は、サンプルの影響を受ける細胞および影響を受けない細胞内に完全に存在するか、部分的に存在するか、または存在しないかのいずれかであり得る。遺伝子発現レベル、配列変種データ等は、影響を受ける細胞内に様々な量で存在し得る。遺伝子発現レベル、配列変種データ等は、影響を受けない細胞内に様々な量で存在し得る。いくつかの例において、疾患発症のリスクに相関する第1の遺伝子セットの遺伝子発現レベルまたは第2の遺伝子セットにおける1つもしくは複数の配列変種の存在は、陽性検出され得る。いくつかの例において、陽性検出は、サンプルから抽出される細胞の少なくとも70％、75％、80％、85％、90％、95％、または100％において見られ得る。いくつかの例において、第1の遺伝子セットの遺伝子発現レベル、または第2の遺伝子セットにおける1つもしくは複数の配列変種の存在は、非存在であり得る。いくつかの例において、検出の非存在は、対応する正常、非疾患サンプルの細胞の少なくとも70％、75％、80％、85％、90％、95％、または100％において見られ得る。

日常的な細胞学的アッセイ法または他のアッセイ法は、サンプルが、陰性（疾患なし）、診断（疾患、例えばがんについて陽性の診断）、不明瞭であるかもしくは疑わしい（疾患、例えばがんの存在が示唆される）または非診断（疾患の存在または非存在に関する情報を十分に提供しない）であることを示し得る。本明細書において記載される方法は、日常的な細胞学的評価からの結果を確認し得るかまたは日常的な細胞学的評価の非存在下でそれと同等の独自の評価を提供し得る。本明細書に記載される方法は、不明瞭であるとまたは疑わしいと判明しているサンプルを含むサンプルを、悪性または良性に分類し得る。この方法はさらに、不明瞭であるとまたは疑わしいと判明しているサンプルを含むサンプル、例えば悪性であることが分かっているサンプルを、低疾患発症リスク群および中〜高疾患発症リスク群に層別化し得る。

疾患
疾患は、本明細書で開示される場合、甲状腺がんを含み得る。甲状腺がんは、甲状腺の任意の悪性腫瘍、例えば、甲状腺乳頭がん（PTC）、濾胞性甲状腺がん（FTC）、濾胞型甲状腺乳頭がん（FVPTC）、甲状腺髄様がん（MTC）、濾胞がん（FC）、ハースル細胞がん（HC）、および／または未分化甲状腺がん（ATC）を含むがこれらに限定されない甲状腺がんの任意のサブタイプを含み得る。いくつかの例において、甲状腺がんは、分化型であり得る。いくつかの例において、甲状腺がんは、未分化型であり得る。

甲状腺組織サンプルは、本開示の方法を用いて、濾胞性腺腫（FA）、結節性過形成（NHP）、リンパ球性甲状腺炎（LCT）およびハースル細胞腺腫（HA）、濾胞がん（FC)、甲状腺乳頭がん（PTC）、濾胞型乳頭がん（FVPTC）、甲状腺髄様がん（MTC）、ハースル細胞がん（HC）および未分化甲状腺がん（ATC）、腎がん（RCC）、乳がん（BCA）、黒色腫（MMN）、B細胞リンパ腫（BCL）または副甲状腺（PTA）を含むがこれらに限定されない1つまたは複数の良性または悪性組織タイプ（例えば、がんのサブタイプ）を含むものと分類され得る。

本開示のがんの他のタイプは、副腎皮質がん、肛門がん、再生不良性貧血、胆管がん、膀胱がん、骨がん、骨転移、中枢神経系（CNS）がん、末梢神経系（PNS）がん、乳がん、キャッスルマン病、子宮頸がん、小児非ホジキンリンパ腫、リンパ腫、結腸直腸がん、子宮内膜がん、食道がん、ユーイング肉腫ファミリー腫瘍（Ewing's family of tumor）（例えば、ユーイング肉腫）、眼がん、胆嚢がん、胃腸カルチノイド腫瘍、胃腸間質腫瘍、妊娠性トロホブラスト疾患、ヘアリーセル白血病、ホジキン病、カポジ肉腫、腎臓がん、喉頭および下咽頭がん、急性リンパ性白血病、急性骨髄性白血病、小児白血病、慢性リンパ性白血病、慢性骨髄性白血病、肝臓がん、肺がん、肺カルチノイド腫瘍、非ホジキンリンパ腫、男性乳がん、悪性中皮腫、多発性骨髄腫、骨髄異形成症候群、骨髄増殖性疾患、鼻腔および副鼻腔がん、鼻咽腔がん、神経芽腫、口腔および中咽頭がん、骨肉腫、卵巣がん、膵臓がん、陰茎がん、下垂体腫瘍、前立腺がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、肉腫（成人軟部組織がん）、黒色腫皮膚がん、非黒色腫皮膚がん、胃がん、精巣がん、胸腺がん、子宮がん（例えば、子宮肉腫）、膣がん、外陰がん、またはワルデンシュトレームマクログロブリン血症を含み得るがこれらに限定されない。

疾患は、本明細書で開示される場合、過剰増殖性障害を含み得る。悪性過剰増殖性障害は、リスク群、例えば、低リスク群および中〜高リスク群に層別化され得る。過剰増殖性障害は、がん、過形成または新生物を含み得るが、これらに限定されない。いくつかの例において、過剰増殖性がんは、乳がん、例えば、乳腺の管組織における腺管がん、髄様がん、膠様がん、管状がんおよび炎症性乳がん；卵巣上皮腫瘍、例えば、卵巣における腺がんおよび卵巣から腹腔へ移動した腺がんを含む卵巣がん；子宮がん；子宮頸がん、例えば扁平上皮がんおよび腺がんを含む腹部頸部における腺がん；前立腺がん、例えば、腺がんまたは骨へ移動した腺がんから選択される前立腺がん；膵臓がん、例えば、膵管組織における類上皮細胞がんおよび膵管における腺がん；膀胱がん、例えば、膀胱における移行上皮がん、尿路上皮がん（移行上皮がん）、膀胱を裏打ちする尿路上皮細胞における腫瘍、扁平上皮がん、腺がん、および小細胞がんのような膀胱がん；白血病、例えば、急性骨髄性白血病（AML）、急性リンパ性白血病、慢性リンパ性白血病、慢性骨髄性白血病、ヘアリーセル白血病、脊髄形成異常症、骨髄増殖性障害、急性骨髄性白血病（AML）、慢性骨髄性白血病（CML）、肥満細胞症、慢性リンパ性白血病（CLL）、多発性骨髄腫（MM）および骨髄異形成症候群（MDS）；骨がん；肺がん、例えば、扁平上皮がん、腺がんおよび大細胞未分化がんに細分される非小細胞肺がん（NSCLC）ならびに小細胞肺がん；皮膚がん、例えば、基底細胞がん、黒色腫、扁平上皮がん、および扁平上皮がんへと進展する場合がある皮膚状態である日光角化症；眼網膜芽細胞腫；皮膚または眼球内（眼）黒色腫；原発性肝臓がん（肝臓において発生するがん）；腎臓がん；自己免疫不全症候群（AIDS)関連リンパ腫、例えば、びまん性大細胞型B細胞リンパ腫、B細胞免疫芽球性リンパ腫および小型非切れ込み核細胞性リンパ腫；カポジ肉腫；B型肝炎ウイルス（HBV）、C型肝炎ウイルス（HCV）および肝細胞がんを含むウイルスにより誘導されるがん；ヒトリンパ球向性ウイルス1型（HTLV-1）および成人T細胞白血病／リンパ腫；ならびにヒトパピローマウイルス（HPV）および子宮頸がん；中枢神経系（CNS）がん、例えば、神経膠腫（星状細胞腫、未分化星状細胞腫または多形神経膠芽腫）、乏突起細胞腫、上衣細胞腫、髄膜腫、リンパ腫、シュワン腫および髄芽腫を含む原発性脳腫瘍；末梢神経系（PNS）がん、例えば、聴神経腫瘍、ならびに神経繊維腫およびシュワン腫を含む悪性末梢神経鞘腫瘍（MPNST）、悪性線維性細胞腫、悪性線維性組織球腫、悪性髄膜腫、悪性中皮腫、ならびに悪性ミュラー管混合腫瘍；口腔および中咽頭がん、例えば、下咽頭がん、喉頭がん、上咽頭がん、および中咽頭がん；胃がん、例えば、リンパ腫、胃間質腫瘍およびカルチノイド腫瘍；精巣がん、例えば、精上皮腫および非精巣上皮腫を含む胚細胞性腫瘍（GCT）ならびにライディッヒ細胞腫瘍およびセルトリ細胞腫瘍を含む性腺間質腫瘍；胸腺がん、例えば、胸腺腫、胸腺がん、ホジキン病、非ホジキンリンパ腫カルチノイドまたはカルチノイド腫瘍；直腸がん；ならびに結腸がんであり得る。いくつかの例において、本開示の方法によって層別化、分類、特徴決定、または診断される疾患は、濾胞性腺腫、ハースル細胞腺腫、リンパ性甲状腺炎および甲状腺過形成を含むがこれらに限定されない、甲状腺障害、例えば良性甲状腺障害を含むがこれらに限定されない。いくつかの例において、本開示の方法によって層別化、分類、特徴決定、または診断される疾患は、悪性甲状腺障害、例えば濾胞がん、濾胞型甲状腺乳頭がん、髄様がん、および乳頭がんを含むがこれらに限定されない。

本開示の疾患は、遺伝性障害を含み得る。遺伝性障害は、遺伝子または染色体の異常によって引き起こされる疾病である。遺伝性障害は、単一遺伝子障害および多因子性多遺伝子性（複合）障害という2つのカテゴリーに分類され得る。単一遺伝子障害は、単一の変異型遺伝子の結果であり得る。単一遺伝子障害の遺伝は、常染色体優性、常染色体劣性、X連鎖優性、X連鎖劣性、Y連鎖遺伝およびミトコンドリア遺伝を含み得るがこれらに限定されない。人が常染色体優性障害による影響を受けるには、その遺伝子の一つの変異型コピーのみで十分であり得る。常染色体優性型の障害の例には、ハンチントン病、神経繊維腫症1型、マルファン症候群、遺伝性非ポリポーシス結腸直腸がんまたは遺伝性多発性外骨腫を含み得るがこれらに限定されない。常染色体劣性障害においては、人が常染色体劣性障害による影響を受けるには、遺伝子の2つのコピーが変異していなければならない。このタイプの障害の例は、嚢胞性繊維症、鎌型赤血球症（部分鎌型赤血球症とも言う）、テイ・サックス病、ニーマン・ピック病または脊髄筋萎縮症を含み得るがこれらに限定されない。X連鎖優性障害、例えばX連鎖低リン血症性くる病は、X染色体上の遺伝子の変異により引き起こされる。いくつかのX連鎖優性状態、例えばレット症候群、色素失調症2型およびアイカルディ症候群は致死的であり得る。X連鎖劣性障害も、X染色体上の遺伝子の変異により引き起こされる。このタイプの障害の例は、血友病A、デュシェンヌ型筋ジストロフィー、赤緑色盲、筋ジストロフィーおよび男性型脱毛症を含み得るがこれらに限定されない。Y連鎖障害は、Y染色体上の変異により引き起こされる。例は、男性不妊および耳介多毛症（hypertrichosis pinnae）を含み得るがこれらに限定されない。母系遺伝としても公知のミトコンドリア遺伝の遺伝性障害、例えばレーバー遺伝性視神経萎縮症におけるそれは、ミトコンドリアDNA内の遺伝子において起こり得る。

遺伝性障害は、複合型、多因子性、または多遺伝子性でもあり得る。多遺伝子性遺伝性障害は、生活様式および環境因子と共に複数の遺伝子の影響に関連し得る。複合型遺伝性障害は家族内に集中するが、明確な遺伝パターンを有していない。多因子性または多遺伝子性の障害は、心疾患、糖尿病、喘息、自閉症、自己免疫疾患、例えば多発性硬化症、がん、繊毛病、口蓋裂、高血圧、炎症性腸疾患、精神遅滞または肥満を含み得る。

他の遺伝性障害は、1p36欠失症候群、21水酸化酵素欠損症、22q11.2欠失症候群、無セルロプラスミン血症、軟骨無発生症II型、軟骨無形成症、急性間欠性ポルフィリン症、アデニロコハク酸リアーゼ欠損症、副腎白質ジストロフィー、アレキサンダー病、アルカプトン尿症、α-1アンチトリプシン欠損症、アルストレーム症候群、アルツハイマー病（1型、2型、3型、および4型）、エナメル質形成不全、筋萎縮性側索硬化症、筋萎縮性側索硬化症2型、筋萎縮性側索硬化症4型、筋萎縮性側索硬化症4型、アンドロゲン不応症、貧血、アンジェルマン症候群、アペール症候群、毛細血管拡張性運動失調、ベアレ・スティーブンソン脳回状頭皮（Beare-Stevenson cutis gyrata）症候群、ベンジャミン症候群、βサラセミア、ビオチミダーゼ（biotimidase）欠損症、バート・ホッグ・デューベ症候群、膀胱がん、ブルーム症候群、骨疾患、乳がん、屈曲肢異形成症、カナバン病、がん、セリアック病、慢性肉芽腫性障害（CGD)、シャルコー・マリー・トゥース病、シャルコー・マリー・トゥース病1型、シャルコー・マリー・トゥース病4型、シャルコー・マリー・トゥース病2型、シャルコー・マリー・トゥース病4型、コケーン症候群、コフィン・ローリー症候群、コラゲノパシー（collagenopathy）II型およびXI型、結腸直腸がん、先天性精管欠損症、先天性両側精管欠損症、先天性糖尿病、先天性赤血球生成性ポルフィリン症、先天性心疾患、先天性甲状腺機能低下症、結合組織病、カウデン症候群、猫泣き、クローン病、線維性狭窄（fibrostenosing）、クルーゾン症候群、クルーゾン皮膚骨格（Crouzonodermoskeletal）症候群、嚢胞性繊維症、ド・グルーシー（De Grouchy）症候群、神経変性疾患、デント病、発達障害、ディジョージ症候群、遠位型脊髄性筋萎縮症V型、ダウン症候群、低身長症、エーラース・ダンロス症候群、エーラース・ダンロス症候群関節弛緩型、エーラース・ダンロス症候群古典型、エーラース・ダンロス症候群皮膚弛緩型、エーラース・ダンロス症候群後側彎型、血管型、骨髄性プロトポルフィリン症、ファブリー病、顔面損傷および顔面障害、第V因子ライデン栓友病、家族性大腸ポリポーシス、家族性自律神経異常症、ファンコニー貧血、FG症候群、脆弱X症候群、フリードライヒ運動失調症（Friedreich ataxia）、フリードライヒ運動失調症（Friedreich's ataxia）、G6PD欠損症、ガラクトース血症、ゴーシェ病（1型、2型、および3型）、遺伝性脳障害、グリシン脳症、ヘモクロマトーシス2型、ヘモクロマトーシス4型、道化師様魚鱗癬、頭部および脳の奇形、聴覚障害および聴覚消失、小児聴覚障害、ヘモクロマトーシス（新生児、2型、および3型）、血友病、骨髄肝性ポルフィリン症、遺伝性コプロポルフィリン症、遺伝性多発性外骨腫症、遺伝性圧脆弱性ニューロパチー、遺伝性非ポリポーシス結腸直腸がん、ホモシスチン尿症、ハンチントン病、ハッチンソン・ギルフォード・プロジェリア症候群、原発性高シュウ酸尿症、高フェニルアラニン血症、軟骨低発生症、軟骨低形成症、idic15、色素失調症、乳児ゴーシェ病、乳児発症上行性遺伝性痙性麻痺、不妊症、ジャクソン・ワイス症候群、ジュベール症候群、若年型原発性側索硬化症、ケネディ病、クラインフェルター症候群、クニースト骨異形成症、クラッベ病、学習障害、レッシュ・ナイハン症候群、白質ジストロフィー、リー・フラウメニ症候群、家族性リポタンパク質リパーゼ欠損症、男性生殖器障害、マルファン症候群、マクキューン・オールブライト症候群、マクロード症候群、家族性地中海熱、メンケス病、メンケス症候群、代謝障害、βグロビン型メトヘモグロビン血症、メトヘモグロビン血症、先天性メトヘモグロビン血症、メチルマロン酸血症、ミクロ（Micro）症候群、小頭症、運動障害、モワット・ウィルソン症候群、ムコ多糖症（MPS I）、ムンケ（Muenke）症候群、筋ジストロフィー、デュシェンヌ型筋ジストロフィーおよびベッカー型筋ジストロフィー、デュシェンヌ型筋ジストロフィーおよびベッカー型筋ジストロフィー、筋緊張性ジストロフィー、筋緊張性ジストロフィー1型および2型、新生児ヘモクロマトーシス、神経線維腫症、神経線維腫症1型、神経線維腫症2型、神経線維腫症I型、神経線維腫症II型、神経疾患、神経筋障害、ニーマン・ピック病、非ケトーシス型高グリシン血症、非症候性難聴、常染色体劣性非症候性難聴、ヌーナン症候群、骨形成不全症（I型およびIII型）、耳脊椎巨大骨端異形成症、パントテン酸キナーゼ関連神経変性症、パトー症候群（13トリソミー）、ペンドレッド症候群、ポイツ・ジェガース症候群、プファイファー症候群、フェニルケトン尿症、ポルフィリン症、晩発性皮膚ポルフィリン症、プラダー・ウィリ症候群、原発性肺高血圧症、プリオン病、早老症、プロピオン酸血症、プロテインC欠損症、プロテインS欠損症、偽性ゴーシェ（pseudo-Gaucher）病、弾力線維性仮性黄色腫、網膜障害、網膜芽腫、網膜芽腫、FA−フリートライヒ運動失調症、レット症候群、ルビンシュタイン・テイビ症候群、サンドホフ病、感覚性自律神経性ニューロパチーIII型、鎌状赤血球貧血、骨格筋再生、皮膚色素異常症、スミス・レムリ・オピッツ症候群、発話障害およびコミュニケーション障害、脊髄性筋萎縮症、球脊髄性筋萎縮症、脊髄小脳変性症、ストラドウィック型脊椎骨端骨幹端異形成、先天性脊椎骨端骨幹端異形成、スティックラー症候群、スティックラー症候群COL2A1、テイ・サックス病、テトラヒドロビオプテリン欠損症、致死性骨異形成、糖尿病および感音難聴を伴うチアミン反応性巨赤芽球性貧血、甲状腺疾患、トゥレット症候群、トリーチャー・コリンズ症候群、トリプルX症候群、結節性硬化症、ターナー症候群、アッシャー症候群、異型ポルフィリン症、フォンヒッペル・リンダウ病、ワールデンブルグ症候群、ワイセンバッハー・ツウェイミュラー（Weissenbacher-Zweymuller）症候群、ウイルソン病、ウォルフ・ヒルシュホーン症候群、色素性乾皮症、X連鎖重症複合免疫不全、X連鎖鉄芽球性貧血、ならびにX連鎖球脊髄性筋萎縮症を含み得るがこれらに限定されない。

発症または再発のリスクの層別化
疾患の発症のリスクは、サンプルを、下位リスク群に層別化し得る。下位群は、低疾患発症性リスクを有するサンプルおよび中〜高疾患発症性リスクを有するサンプルを含み得る。下位群は、低リスク、中リスクおよび高リスク群を含み得る。低リスクは、約1％、5％、10％、15％、20％、25％、30％、35％、40％、または約45％の疾患発症性リスクを有するサンプルを含み得る。低リスクは、約1％〜約25％の疾患発症性リスクを有するサンプルを含み得る。低リスクは、約1％〜約30％の疾患発症性リスクを有するサンプルを含み得る。低リスクは、約1％〜約40％の疾患発症性リスクを有するサンプルを含み得る。中〜高リスクは、約55％、60％、65％、70％、75％、80％、85％、90％、95％、または100％の疾患発症性リスクを有するサンプルを含み得る。中〜高リスクは、約50％〜約100％の疾患発症性リスクを有するサンプルを含み得る。中〜高リスクは、約55％〜約100％の疾患発症性リスクを有するサンプルを含み得る。中〜高リスクは、約60％〜約100％の疾患発症性リスクを有するサンプルを含み得る。

サンプルは、細胞学的に不明瞭であるとまたは疑わしいとまたは不確定であると同定されたサンプルを含めて、少なくとも50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、またはそれ以上の精度で低リスクまたは中〜高リスク群に層別化され得る。サンプルは、少なくとも70％の精度で層別化され得る。サンプルは、少なくとも80％の精度で層別化され得る。サンプルは、少なくとも90％の精度で層別化され得る。サンプルは、細胞学的に不明瞭であるとまたは疑わしいとまたは不確定であると同定されたサンプルを含めて、50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％超、またはそれ以上の精度で、良性、悪性または非診断と同定され得る。精度は、分類器を用いて算出され得る。

サンプルは、細胞学的に不明瞭であるとまたは疑わしいとまたは不確定であると同定されたサンプルを含めて、少なくとも50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、またはそれ以上の特異度で低リスクまたは中〜高リスク群に層別化され得る。サンプルは、少なくとも70％の精度で層別化され得る。サンプルは、少なくとも80％の精度で層別化され得る。サンプルは、少なくとも90％の精度で層別化され得る。サンプルは、細胞学的に不明瞭であるとまたは疑わしいとまたは不確定であると同定されたサンプルを含めて、50％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％超、またはそれ以上の特異度で、良性、悪性、または非診断と同定され得る。特異度は、分類器を用いて算出され得る。

本明細書に記載される疾患発症のリスクを層別化し、サンプルを良性、悪性、または非診断に分類するための方法は、少なくとも95％、95.5％、96％、96.5%、97％、97.5％、98％、98.5％、99％、99.5％、もしくはそれ以上の陽性的中率および／または少なくとも95％、95.5％、96％、96.5%、97％、97.5％、98％、98.5％、99％、99.5％、もしくはそれ以上の陰性的中率を有し得る。疾患の陽性的中率（PPV)または適合率または検査後確率は、正しく診断されるまたは正しくリスク群に層別化される陽性試験結果を有する対象の比率であり得る。それは、試験された根底にある疾患を陽性試験が反映している蓋然性を反映し得るものなので、重要な尺度であり得る。その値は、疾患の有病率に依存し得、これは様々であり得る。陰性的中率（NPV）は、正確に診断された陰性試験結果を有する対象の比率であり得る。PPVおよびNPVの測定は、適切な疾患サブタイプの有病率の見積もりを用いて行われ得る。サブタイプ特異的な見積もりにおいて、使用可能なサンプルが存在しない可能性があるという理由のため、疾患有病率は場合によっては算出不可能であり得る。

サンプルは、以下の1つまたは複数に分類され得る：良性（疾患なし）、悪性（疾患の陽性診断）、または非診断（疾患の存在または非存在に関して十分な情報を提供しない）。悪性であることが判明しているサンプルは、低疾患発症リスクまたは中〜高疾患発症リスク等の疾患発症リスクに層別化され得る。サンプルは、良性か疑わしい（疾患に関して陽性であることが疑われる）のカテゴリーに分類され得る。サンプルはさらに、例えば1つまたは複数のがんサブタイプの存在または非存在を同定することによって、疾患サブタイプに分類され得る。ある特定の分子経路が疾患に関与することが示され得、または特定の疾患のある特定のグレードもしくは病期（例えばI、II、III、もしくはIV期がん）もまた示され得る。いくつかの例において、層別化された発症リスクは、適切な治療的介入、例えば特定の薬物計画、または甲状腺摘出術もしくは準甲状腺摘出術等の外科的介入を通知し得る。

本開示の分類器または訓練されたアルゴリズムは、サンプルを低もしくは中〜高リスク群に層別化するためおよび／またはサンプルを良性、悪性、疑わしい、もしくは非診断に分類するため等に使用され得る。1つまたは複数の選択された特徴空間、例えば遺伝子発現レベルおよび配列変種のデータは、単独でまたは組み合わせて分類器もしくは訓練されたアルゴリズムに提供され得る。例示的なアルゴリズムは、変数の数を減らす方法、例えば主成分分析アルゴリズム、部分最小二乗法または独立成分分析アルゴリズムを含み得るがこれらに限定されない。例示的なアルゴリズムは、多数の変数を直接扱う方法、例えば統計学的方法または機械学習技術に基づく方法を含み得る。統計学的方法は、罰則付き（penalized）ロジスティック回帰、マイクロアレイ予測分析（prediction analysis of microarray）（PAM）、収縮重心に基づく方法、サポートベクターマシン分析、または正則化線形判別分析（regularized linear discriminant analysis）を含み得る。機械学習技術は、バギング（bagging）法、ブースティング（boosting）法、ランダムフォレストアルゴリズム、またはそれらの組み合わせを含み得る。

本開示の分類器または訓練されたアルゴリズムは、2つまたはそれ以上の特徴空間を含み得る。2つまたはそれ以上の特徴空間は、特有であり得るかまたは互いと異なり得る。個々の特徴空間は、サンプルについての情報タイプ、例えば遺伝子発現レベルデータまたは配列変種データを含み得る。分類器において2つまたはそれ以上の特徴空間を組み合わせることで、単一の特徴空間を用いてリスク層別化を行うよりも高レベルの精度でリスク層別化または分類を行うことができる。個々の特徴空間のダイナミックレンジは、異なり得る、例えば少なくとも1または2オーダー異なり得る。例えば、遺伝子発現レベルの特徴空間のダイナミックレンジは、0〜約300であり得、配列変種の特徴空間のダイナミックレンジは、0〜約20であり得る。

個々の特徴空間は、遺伝子セット、例えば第1の特徴空間の第1の遺伝子セットおよび第2の特徴空間の第2の遺伝子セットを含み得る。個々の特徴空間の遺伝子セットは、リスクの発症のリスクに関連し得る。第1の遺伝子セットおよび第2の遺伝子セットは、同一セットであり得る。第1の遺伝子セットおよび第2の遺伝子セットは、異なるセットであり得る。第1の遺伝子セットまたは第2の遺伝子セットは、約1000、500、400、300、200、100、75、70、65、60、55、50、45、40、35、30、25、20、15、10、5個未満、またはそれ未満の遺伝子を含み得る。第1の遺伝子セットまたは第2の遺伝子セットは、約10個未満の遺伝子を含み得る。第1の遺伝子セットまたは第2の遺伝子セットは、約50個未満の遺伝子を含み得る。第1の遺伝子セットまたは第2の遺伝子セットは、約75個未満の遺伝子を含み得る。第1の遺伝子セットまたは第2の遺伝子セットは、約50個〜約400個の遺伝子を含み得る。第1の遺伝子セットまたは第2の遺伝子セットは、約50個〜約200個の遺伝子を含み得る。第1の遺伝子セットまたは第2の遺伝子セットは、約10個〜約600個の遺伝子を含み得る。

第1の遺伝子セットは、図6に列挙されている遺伝子を含み得る。第1の遺伝子セットは、図7に列挙されている遺伝子を含み得み得る。第1の遺伝子セットは、COL1A1、THBS2、またはそれらの任意の組み合わせを含み得る。第1の遺伝子セットは、COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1、またはそれらの任意の組み合わせを含み得る。

第1の遺伝子セットは、図13に列挙されている遺伝子を含み得る。第1の遺伝子セットは、COL1A1、NUP210L、TMEM92、C6orf136、SPAG4、EHF、RAPGEF5、COL3A1、GALNT15、PRICKLE1、LUM、COL6A3、ROBO1、SSC5D、PSORS1C1、またはそれらの任意の組み合わせを含み得る。第1の遺伝子セットは、COL1A1、NUP210L、TMEM92、C6orf136、SPAG4、EHF、RAPGEF5、COL3A1、GALNT15、PRICKLE1、LUM、COL6A3、ROBO1、SSC5D、PSORS1C1、およびそれらの任意の組み合わせからなる群より選択され得る。第1の遺伝子セットは、COL1A1を含み得る。第1の遺伝子セットは、NUP210Lを含み得る。第1の遺伝子セットは、TMEM92を含み得る。第1の遺伝子セットは、C6orf136を含み得る。第1の遺伝子セットは、SPAG4を含み得る。第1の遺伝子セットは、EHFを含み得る。第1の遺伝子セットは、RAPGEF5を含み得る。第1の遺伝子セットは、COL3A1を含み得る。第1の遺伝子セットは、GALNT15を含み得る。第1の遺伝子セットは、PRICKLE1を含み得る。第1の遺伝子セットは、LUMを含み得る。第1の遺伝子セットは、COL6A3を含み得る。第1の遺伝子セットは、ROBO1を含み得る。第1の遺伝子セットは、SSC5Dを含み得る。第1の遺伝子セットは、PSORS1C1を含み得る。

第2の遺伝子セットは、図8に列挙されている遺伝子を含み得る。第2の遺伝子セットは、COL1A1、THBS2、またはそれらの任意の組み合わせを含み得る。第2の遺伝子セットは、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1、またはそれらの任意の組み合わせを含み得る。第2の遺伝子セットは、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24、またはそれらの任意の組み合わせを含み得る。第2の遺伝子セットは、AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP、またはそれらの任意の組み合わせを含み得る。

第2の遺伝子セットは、図12に列挙されている遺伝子を含み得る。第2の遺伝子セットは、COL1A1、FITM2、AASDH、COX6C、COX10、VSIG10L、MAPK15、PAXIP1、AVL9、GIGYF2、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-H、MGAT1、SLC41A3、PTPRE、SRL、SLC30A5、BMP4、ICE2、DCAKD、TMX1、HAVCR2、TNFSF12、PER2、MCM3AP、またはそれらの任意の組み合わせを含み得る。第2の遺伝子セットは、COL1A1、FITM2、AASDH、COX6C、COX10、VSIG10L、MAPK15、PAXIP1、AVL9、GIGYF2、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-H、MGAT1、SLC41A3、PTPRE、SRL、SLC30A5、BMP4、ICE2、DCAKD、TMX1、HAVCR2、TNFSF12、PER2、MCM3AP、およびそれらの任意の組み合わせからなる群より選択され得る。第2の遺伝子セットは、COL1A1を含み得る。第2の遺伝子セットは、FITM2を含み得る。第2の遺伝子セットは、AASDHを含み得る。第2の遺伝子セットは、COX6Cを含み得る。第2の遺伝子セットは、COX10を含み得る。第2の遺伝子セットは、VSIG10Lを含み得る。第2の遺伝子セットは、MAPK15を含み得る。第2の遺伝子セットは、PAXIP1を含み得る。第2の遺伝子セットは、AVL9を含み得る。第2の遺伝子セットは、GIGYF2を含み得る。第2の遺伝子セットは、HLA-DQA1を含み得る。第2の遺伝子セットは、HLA-DQB1を含み得る。第2の遺伝子セットは、HLA-DRAを含み得る。第2の遺伝子セットは、HLA-Hを含み得る。第2の遺伝子セットは、MGAT1を含み得る。第2の遺伝子セットは、SLC41A3を含み得る。第2の遺伝子セットは、PTPREを含み得る。第2の遺伝子セットは、SRLを含み得る。第2の遺伝子セットは、SLC30A5を含み得る。第2の遺伝子セットは、BMP4を含み得る。第2の遺伝子セットは、ICE2を含み得る。第2の遺伝子セットは、DCAKDを含み得る。第2の遺伝子セットは、TMX1を含み得る。第2の遺伝子セットは、HAVCR2を含み得る。第2の遺伝子セットは、TNFSF12を含み得る。第2の遺伝子セットは、PER2を含み得る。第2の遺伝子セットは、MCM3APを含み得る。

本開示の分類器または訓練されたアルゴリズムは、サンプルセット、例えばサンプルコホートを用いて訓練され得る。サンプルコホートは、約5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、2000、3000、4000、5000個、またはそれ以上の独立したサンプルを含み得る。サンプルコホートは、約100個の独立したサンプルを含み得る。サンプルコホートは、約200個の独立したサンプルを含み得る。サンプルコホートは、約100個〜約500個の独立したサンプルを含み得る。独立したサンプルは、疾患、例えばがんを有すると診断された対象由来、健常対象由来、またはそれらの任意の組み合わせであり得る。

サンプルコホートは、約5、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000体、またはそれ以上の異なる個体由来のサンプルを含み得る。サンプルコホートは、約100体の異なる個体由来のサンプルを含み得る。サンプルコホートは、約200体の異なる個体由来のサンプルを含み得る。異なる個体は、疾患、例えばがんを有すると診断された個体、健常個体、またはそれらの任意の組み合わせであり得る。

サンプルコホートは、少なくとも1、2、3、4、5、6、67、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、または80箇所の異なる地理的場所（例えば、国家、例えば米国全体、大陸全体または全世界に広がる場所）で生活している個体から取得されたサンプルを含み得る。地理的場所は、試験センター、診療施設、診療所、受信用住所、市、群、州、国または大陸を含むがこれらに限定されない。いくつかの例において、米国由来のサンプルコホートを用いて訓練され分類器は、他の地理的地域（例えば、インド、アジア、ヨーロッパ、アフリカ等）由来のサンプルコホートに対して使用される際には再訓練される必要があり得る。

分類器または訓練されたアルゴリズムは、実行されるごとに特有の出力を生成し得る。例えば、同じ分類器で異なるサンプルを用いることで、その分類器が実行されるごとに特有の出力が生成され得る。同じ分類器で同じサンプルを用いた場合も、その分類器が実行されるごとに特有の出力が生成され得る。同じサンプルを用いて分類器を複数回訓練した場合も、その分類器が実行されるごとに特有の出力がもたらされ得る。

サンプルの特徴は、参照セットの特徴と比較され得る。比較は、分類器によって実施され得る。疾患発症のリスクを算出するために、サンプルの2つ以上の特徴が組み合わされ得る。組み合わせは、分類器によって実施され得る。例えば、サンプルから取得された配列が、サンプル内の1つまたは複数の配列変種の存在を判定するために、参照セットと比較され得る。いくつかの例において、サンプル由来の1つまたは複数の遺伝子の遺伝子発現レベルが、1つまたは複数の遺伝子の異なる遺伝子発現の存在を判定するために、参照遺伝子セットの発現レベルと比較され得る。参照セットは、1つまたは複数のハウスキーピング遺伝子を含み得る。参照セットは、特定の疾患に関連することが知られているまたは非疾患状態に関連することが知られている遺伝子の既知の配列変種または発現レベルを含み得る。分類器または訓練されたアルゴリズムは、比較、組み合わせ、統計学的評価もしくは結果のさらなる分析またはそれらの任意の組み合わせを実施し得る。異なる特徴空間に対して別個の参照セットが提供され得る。例えば、配列変種データは、配列変種データの参照セットと比較され得る。遺伝子発現レベルデータは、遺伝子発現レベルの参照セットと比較され得る。いくつかの例において、複数の特徴空間が、同じ参照セットと比較され得る。

いくつかの例において、特定の遺伝子の配列変種は、同じ遺伝子の遺伝子発現レベルに影響する場合もあり影響しない場合もある。特定の遺伝子の配列変種は、その配列変種を有する特定の遺伝子に隣接しておよびその特定の遺伝子から離れて位置し得る1つまたは複数の異なる遺伝子の遺伝子発現レベルに影響し得る。1つまたは複数の配列変種の存在は、1つまたは複数の遺伝子に対して下流効果を有し得る。特定の遺伝子の配列変種は、1つまたは複数のシグナル伝達経路を混乱させ得、リボ核酸（RNA）転写調節を変化させ得、デオキシリボ核酸（DNA）を増幅させ得、複数の転写コピーを生成させ得、過剰なタンパク質を生成させ得、単一の塩基対、複数の塩基対、部分遺伝子または1つもしくは複数の遺伝子をその配列から除去させ得る。

記載される方法からのデータ、例えば遺伝子発現レベルまたは配列変種のデータは、特徴選択技術、例えばそのデータ固有の特性を見ることによって個々の特徴の関連性を評価することができるフィルター、特徴サブセット検索の中にモデル仮説を埋め込むラッパーまたは最適な特徴セットの検索を分類アルゴリズムに組み込む組み込みプロトコルを用いてさらに分析され得る。

本開示の方法において有用なフィルターは、（1）パラメトリック法、例えば2サンプルt検定、分散分析（ANOVA）分析、ベイズフレームワークもしくはガンマ分布モデルの使用、（2）モデルフリー法、例えばウィルコクソン順位和検定、二乗検定の級間・級内和、ランクプロダクト法、ランダム置換法、2つのデータセット間の発現の変化倍率差の閾点を設定し、誤分類数を最小化する各遺伝子内の閾点を検出する誤分類の閾値（TNoM）、または（3）多変数法、例えば二変数法、相関に基づく特徴選択法（CFS）、最小冗長性最大関連性（MRMR）法、マルコフブランケットフィルター法、および非相関収縮重心法を含み得る。本開示の方法において有用なラッパーは、配列検索法、遺伝的アルゴリズムまたは分散アルゴリズムの概算を含み得る。組み込みプロトコルは、ランダムフォレストアルゴリズム、サポートベクターマシーンアルゴリズムの重みベクトルまたはロジスティック回帰アルゴリズムの重みを含み得る。

本明細書に記載される方法から取得された結果の統計学的評価は、量的な値または以下の1つもしくは複数を示す値を提供し得る：リスク評価が正確である確率；診断が正確である確率；疾患、例えばがんの確率；特定の疾患、例えば組織特異的がん、例えば甲状腺がんの確率；および特定の治療的介入の成功の確率。したがって、遺伝学または分子生物学に関して教育を受けていない場合がある医療専門家は、遺伝子発現レベルまたは配列変種のデータ結果を理解する必要はない。むしろ、データは、対象の治療または処置の手引きとなるその最も有用な形式で医療専門家に直接提示され得る。統計学的評価、別のデータ結果の統合および有用な結果の報告は、分類器または訓練されたアルゴリズムによって実施され得る。結果の統計学的評価は、スチューデントT検定、両側T検定、ピアソンの順位和分析、隠れマルコフモデル分析、q-qプロットの分析、主成分分析、一元配置分散分析（ANOVA）、二元配置ANOVA等を含むがこれらに限定されない多くの方法によって実施され得る。統計学的評価は、分類器または訓練されたアルゴリズムによって実施され得る。

本明細書において開示される方法は、対象由来の1つまたは複数のサンプルからタンパク質または核酸（RNAもしくはDNA）を抽出および分析する工程を含み得る。核酸は、取得された総サンプルから抽出され得るまたは一部から抽出され得る。いくつかの例において、核酸抽出に供されないサンプルの一部は、細胞学的試験または免疫組織化学により分析され得る。生物学的サンプルからのRNAまたはDNAの抽出方法は、例えば、フェノール・クロロホルム抽出（例えば、チオシアン酸グアニジンフェノール・クロロホルム抽出）、エタノール沈降、スピンカラムベースの精製等を含み得る。

遺伝子発現レベルを決定する一般的方法は、以下の1つまたは複数を含み得るがこれらに限定されない：追加の細胞学的アッセイ法、特定のタンパク質または酵素活性のアッセイ法、タンパク質またはRNAもしくは特定のRNAスプライス変種を含む特定の発現産物のアッセイ法、インサイチューハイブリダイゼーション、全または部分ゲノム発現分析、マイクロアレイハイブリダイゼーションアッセイ法、連続遺伝子発現分析（SAGE）、酵素連結免疫吸着アッセイ法、質量分析、免疫組織化学、ブロッティング、配列決定、RNA配列決定、DNA配列決定（例えば、RNAから取得した相補的デオキシリボ核酸（cDNA）の配列決定）、次世代（Next-Gen）配列決定、ナノ細孔配列決定、ピロシーケンス、またはナノストリング配列決定。遺伝子発現産物レベルは、内部標準、例えば総メッセンジャーリボ核酸（mRNA）または特定遺伝子の発現レベルに対して標準化され得る。相互に比較されるサンプル間、例えば対象由来のサンプルと参照サンプルとの間の遺伝子発現には、一定の差または一定範囲の差が存在し得る。遺伝子発現レベルの差は、少なくとも5％、10％、15％、20％、25％、30％、35％、40％、45％、もしくは50％またはそれ以上であり得る。いくつかの例において、遺伝子発現レベルの差は、少なくとも2、3、4、5、6、7、8、9、10倍、またはそれ以上であり得る。

RNA配列決定は、2つまたはそれ以上の特徴空間、例えば特定のサンプルの遺伝子発現および配列変種の存在のカウントを生成し得る。例えば、RNA配列決定は、特定の組織または特定のサンプル、例えば甲状腺組織または甲状腺結節において発現された遺伝子内の変種を測定する。次世代配列決定は、特定のサンプルの遺伝子発現レベルデータを提供し得る。配列決定結果、例えばRNA配列決定および次世代配列決定結果は、単一の特徴空間を用いるよりも高い精度で疾患の発症のリスクを決定するために特有の特徴空間を組み合わせることができる分類器に入力され得る。分類器または訓練されたアルゴリズムは、既知の悪性、良性、および正常サンプルの参照セットを用いて構築されたアルゴリズムを含み得る。分類器または訓練されたアルゴリズムは、既知の低リスク、中リスク、および高リスクサンプルの参照セットを用いて構築されたアルゴリズムを含み得る。

アレイハイブリダイゼーション、配列決定、増幅のためのマーカー
アレイハイブリダイゼーション、核酸配列決定、核酸増幅、または他の増幅反応を実施するのに適した試薬は、DNAポリメラーゼ、マーカー、例えばフォワードおよびリバースプライマー、デオキシヌクレオチド三リン酸（dNTP）および1つまたは複数の緩衝液を含むがこれらに限定されない。そのような試薬は、関心対象の所定配列、例えば第1の遺伝子セットおよび／または第2の遺伝子セットの1つまたは複数の遺伝子について選択されたプライマーを含み得る。

そのような増幅反応において、プライマー対の一方のプライマーは、標的ポリヌクレオチド分子（例えば、第1のセットまたは第2のセットの1つまたは複数の遺伝子）の配列に相補的なフォワードプライマーであり得、プライマー対の一方のプライマーは、標的ポリヌクレオチド分子の第2の配列に相補的なリバースプライマーであり得、標的部位は、第1の配列と第2の配列の間に位置し得る。

フォワードプライマーおよびリバースプライマーの長さは、標的ポリヌクレオチド（例えば、第1のセットまたは第2のセットの1つまたは複数の遺伝子）の配列および標的部位に依存し得る。いくつかの例において、プライマーは、約5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、65、70、75、80、85、90、95、または約100ヌクレオチ以上の長さであり得る。あるいは、プライマーは、約100、95、90、85、80、75、70、65、60、59、58、57、56、55、54、53、52、51、50、49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6ヌクレオチド未満の長さであり得る。いくつかの例において、プライマーは、約15〜約20、約15〜約25、約15〜約30、約15〜約40、約15〜約45、約15〜約50、約15〜約55、約15〜約60、約20〜約25、約20〜約30、約20〜約35、約20〜約40、約20〜約45、約20〜約50、約20〜約55、約20〜約60、約20〜約80、または約20〜約100ヌクレオチドの長さであり得る。

プライマーは、二次構造および自己ハイブリダイゼーション、例えばプライマー二量体対を回避するための既知のパラメータにしたがい設計され得る。異なるプライマー対は、別のプライマー対とほぼ同じ温度で、例えば1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、または10℃以内で、アニールおよび融解し得る。

標的部位は、複数の鋳型ポリヌクレオチドの3’末端または5’末端から約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590、600、650、700、750、800、850、900、または1000ヌクレオチドであり得る。

記載される方法のためのマーカー（すなわち、プライマー）は、1つまたは複数の同一プライマーであり得る。いくつかの例において、マーカーは、1つまたは複数の異なるプライマー、例えば約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000個、またはそれ以上の異なるプライマーであり得る。そのような例において、1つまたは複数のプライマーの各プライマーは、異なる標的または鋳型特異的領域または配列、例えば第1のセットまたは第2のセットの1つまたは複数の遺伝子を含み得る。

1つまたは複数のプライマーは、プライマーの固定パネルを含み得る。1つまたは複数のプライマーは、少なくとも1つまたは複数のカスタムプライマーを含み得る。1つまたは複数のプライマーは、少なくとも1つまたは複数の対照プライマーを含み得る。1つまたは複数のプライマーは、少なくとも1つまたは複数のハウスキーピング遺伝子プライマーを含み得る。いくつかの例において、1つまたは複数のカスタムプライマーは、標的特異的領域またはその相補領域にアニールする。1つまたは複数のプライマーは、1つもしくは複数の標的もしくは鋳型ポリヌクレオチドを増幅するようまたはそのプライマー伸長、逆転写、直線的伸長、非指数関数的増幅、指数関数的増幅、PCR、もしくは任意の他の増幅法を行うよう設計され得る。

プライマーは、プライマーの検出または固定化を可能にするがそのプライマーの基本的特性（例えば、DNA合成の開始点としての作用）を変化させない追加の特徴を含み得る。例えば、プライマーは、標的核酸にハイブリダイズしないが、クローニングもしくはさらなる増幅または増幅産物の配列決定を容易にする核酸配列を5’末端に含み得る。例えば、配列は、プライマー結合部位、例えばPCRプライミング配列、サンプルバーコード配列またはユニバーサルプライマー結合部位等を含み得る。

ユニバーサルプライマー結合部位または配列は、ユニバーサルプライマーをポリヌクレオチドおよび／またはアンプリコンに付加させることができる。ユニバーサルプライマーは、-47F（M13F）、αMF、AOX3'、AOX5'、BGHr、CMV-30、CMV-50、CVMf、LACrmt、λgt10F、λgt10R、λgt11F、λgt11R、M13 rev、M13フォワード（-20）、M13リバース、male、p10SEQPpQE、pA-120、pet4、pGAPフォワード、pGLRVpr3、pGLpr2R、pKLAC14、pQEFS、pQERS、pucU1、pucU2、reversA、seqIREStam、seqIRESzpet、seqori、seqPCR、seqpIRES-、seqpIRES+、seqpSecTag、seqpSecTag+、seqretro+PSI、SP6、T3-prom、T7-promおよびT7-termInvを含み得る。本明細書で使用される場合、付加は、共有結合的相互作用および非共有結合的相互作用の両方またはいずれかを表し得る。ユニバーサルプライマー結合部位へのユニバーサルプライマーの付加は、ポリヌクレオチドおよび／またはアンプリコンの増幅、検出および／または配列決定のために使用され得る。

リスク判定の使用
分類器の結果、例えば疾患発症のリスク、または本明細書において開示される方法からのデータ、例えば遺伝子発現レベルもしくは配列変種データは、分子プロファイリング事業、個人、医療専門家または保険事業の代表者または代理人によってアクセス用データベースに入力され得る。データのコンピュータまたはアルゴリズムによる分析は、自動的に提供され得る。結果は、コンピュータスクリーン上でのレポートとしてまたは紙面による記録として提示され得る。結果は、いくつかの例において、データベースまたはリモートサーバに自動的にアップロードされ得る。レポートは、以下の1つまたは複数のような情報を含み得るがこれらに限定されない：原サンプルの適性、示差的に発現される遺伝子の名前および／もしくは数、配列変種を含む遺伝子の名前および／もしくは数、配列変種のタイプ、示差的に発現される遺伝子の発現レベル、数的な分類器のスコア、対象の診断、診断に対する統計学的信頼性、疾患の発症のリスク、指示された治療法またはそれらの任意の組み合わせ。

対象は、本明細書に記載される方法を用いて、単一の時点でまたは複数の時点にわたってモニタリングされ得る。例えば、対象は、本明細書に記載される方法を用いて、疾患、例えばがんまたは遺伝性障害を有すると診断され得る。いくつかの例において、この初期診断は、本明細書に記載される方法の使用を伴わない場合がある。陽性の疾患診断、例えば甲状腺がんを有する対象は、その後、治療的介入、例えば甲状腺摘出術を指示され得るまたは薬物計画、例えば化学療法を開始され得る。治療的介入の結果は、本明細書に記載される方法を使用してその治療的介入の効果を検出することによって継続的にモニタリングされ得る。別の例において、がんを有さない対象が、がんの発症のリスクを有すると診断され、本明細書に記載される方法を使用して彼ら／彼女らの健康状態の状況の変化を検出し、後の時点でがんが存在し得るかどうかを判定するまたはスクリーニング法を実施する頻度に影響を与えることによって継続的にモニタリングされ得る。

本明細書に記載される方法はまた、特定の治療的介入の潜在的効果を対象への実施前に確認するために使用され得る。例えば、対象は、がんを有すると診断された者であり得る。本明細書に記載される方法は、がんの悪性化に関与することが既知の遺伝子産物、例えばRASオンコジーンにおいて高レベルの遺伝子発現を示し得る。その高レベルを有する対象からサンプルが取得され、インビトロで培養され得る。その後、異常に活性化されたもしくは調節異常の経路の様々な阻害剤またはその経路の活動を阻害することが既知の薬物の適用が、サンプルの腫瘍細胞において成長阻害に関して試験され得る。分子プロファイリングがまた、例えば関与する経路の下流標的に対するこれらの阻害剤の効果をモニタリングするために使用され得る。分子プロファイリングはまた、これらの阻害剤の効果を予測するために使用され得る。

本明細書に記載される方法は、疾患、例えばがんの診断のため、サンプル、例えば腫瘍細胞、細胞株、組織もしくは生物に対する薬物もしくは候補薬物の効果をモニタリングするため、または疾患の進行もしくは抑制、例えばがんの発生および／もしくは腫瘍の抑制のための新規経路を明らかにするための新規マーカーを同定するための調査ツールとして使用され得る。

本明細書に記載される方法は、（1）少量および／または低品質の核酸を含むサンプルの遺伝子発現分析、（2）偽陽性および偽陰性の大きな減少、（3）結果として生じる病態を担う根底にある遺伝的経路、代謝的経路、またはシグナル伝達経路の決定、（4）疾患、例えば遺伝性障害の診断の正確さに対して統計学的確率を割り当てる能力、（5）不明瞭な結果を解消する能力、（6）疾患、例えばがんのサブタイプ間を区別する能力、ならびに（7）低疾患発症リスクと中〜高疾患発症リスクの間を区別する能力を提供し得る。

予測は、正確な訓練ラベルに依存し得る。例えば、図10に示されるように、Afirma Gene Expression Classifier（GEC）バージョン1において組織学的に悪性とラベル付けまたは分類されたサンプルは、米国甲状腺学会（ATA）病期体系を用いて低発症リスクまたは中／高発症リスクのいずれかとしてさらにラベル付けまたは分類される。低発症リスクとラベル付けされたサンプルにおいて、組織病理学レポートは、1つまたは複数のリスク特徴の非存在を記述し得る。中／高発症リスクとラベル付けされたサンプルにおいて、組織病理学レポートは、1つまたは複数のリスク特徴が正に存在することを記述し得る。リスク特徴は、リンパ節転移、血管侵襲、甲状腺外拡張、またはそれらの任意の組み合わせであり得る。

リスク分類器は、がんの特定のサブタイプを含む単一の組織サンプル、例えば、甲状腺乳頭がん（PTC）を含む組織サンプルを用いて訓練され得る。いくつかの例において、リスク分類器は、がんの2つ、3つ、4つ、またはそれ以上のサブタイプ、例えばPTC、LCT、HA、およびFCを含む単一の組織サンプルを用いて訓練される。いくつかの例において、リスク分類器は、2つ以上の組織サンプル、例えば、がんの2つ、3つ、4つ、またはそれ以上のサブタイプ、例えばPTC、LCT、HA、およびFCを含む2つの組織サンプルを用いて訓練され得る。

キット
疾患診断事業、分子プロファイリング事業、製薬事業、または患者の保健に関連する他の事業は、疾患の発症のリスクの判定を実施するためのキットを提供し得る。キットは、分類器、アルゴリズムを訓練するためのサンプルコホートおよび各特徴空間のための遺伝子リスト、例えば第1の遺伝子セットおよび第2の遺伝子セットを含み得る。いくつかの例において、キットは、分類器および各特徴空間のための遺伝子リストを含み得る。キットは、すべての疾患タイプのための汎用キットであり得る。キットは、特定の疾患、例えばがんのための特別キット、または疾患サブタイプ、例えば甲状腺がんに対する特別キットであり得る。キットは、キットには提供されないサンプルコホートを用いてすでに訓練されている分類器を提供し得る。キットは、分類器とともに使用するサンプルコホートまたは特徴空間のための遺伝子リストの定期的な更新を提供し得る。キットは、医療専門家によって報告され得もしくは表示され得もしくはダウンロードされ得る結果概要、および／またはデータベースに入力され得る結果概要を自動化するソフトウェアを提供し得る。結果概要は、患者に対する処置オプションの推奨および疾患の発症リスクを含む、本明細書の開示される結果のいずれかを含み得る。キットはまた、対象からサンプルを取得するためのユニットまたはデバイス（例えば、アスピレーターに接続された針を含むデバイス）を提供し得る。キットはまた、本明細書において開示される方法を実施するための説明書を提供し得、RNA配列決定および次世代（NextGen）配列決定のためのすべての必要な緩衝液および試薬を含み得る。キットはまた、結果を分析するための説明書を含み得る。そのような説明書は、使用者を結果分析のためのソフトウェア（例えば、訓練されたアルゴリズムを含むソフトウェア）およびデータベースに誘導することを含む。

コンピュータ制御システム
本開示は、本開示の方法を実行するようプログラムされたコンピュータ制御システムを提供する。図9は、本明細書において提供される方法を実行するようプログラムされたまたはそれ以外の方法でそのように構成されたコンピュータシステム9001を示している。コンピュータシステム9001は、本開示の疾患発症のリスクを層別化する、例えば分類器を稼働させ、アルゴリズムを訓練し、層別化された発症リスクを報告する様々な局面を制御し得る。コンピュータシステム9001は、使用者の電子デバイスまたはその電子デバイスから遠隔に設置されたコンピュータシステムであり得る。電子デバイスは、携帯型電子デバイスであり得る。

コンピュータシステム9001は、シングルコアもしくはマルチコアプロセッサまたは並列処理のための複数のプロセッサであり得る中央処理装置（CPU、本明細書で「プロセッサ」および「コンピュータプロセッサ」とも称される）9005を備える。コンピュータシステム9001はまた、メモリまたはメモリロケーション9010（例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ）、電子記憶装置9015（例えば、ハードディスク）、1つまたは複数の他のシステムと連絡するためのコミュニケーションインターフェース9020（例えば、ネットワークアダプタ）ならびに端末デバイス9025、例えばキャッシュ、他のメモリ、データ記憶、および／または電子表示アダプタを備える。メモリ9010、記憶装置9015、インターフェース9020および端末デバイス9025は、コミュニケーションバス（実線）、例えばマザーボードを通じてCPU 9005に接続される。記憶装置9015は、データを記憶するためのデータ記憶装置（またはデータレポジトリ）であり得る。コンピュータシステム9001は、コミュニケーションインターフェース9020の支援により、コンピュータネットワーク（「ネットワーク」）9030に機能的に接続され得る。ネットワーク9030は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットに接続されたイントラネットおよび／もしくはエクストラネットであり得る。ネットワーク9030は、いくつかの例において、テレコミュニケーションおよび／またはデータネットワークである。ネットワーク9030は、分散コンピューティング、例えばクラウドコンピューティングを実現し得る1つまたは複数のコンピュータサーバを含み得る。ネットワーク9030は、いくつかの例において、コンピュータシステム9001の支援により、コンピュータシステム9001に接続されたデバイスがクライアントまたはサーバとしてふるまうことを可能にし得るピア・ツー・ピアネットワークを実現し得る。

CPU 9005は、プログラムまたはソフトウェアに組み込まれ得る機械読み取り可能な指令のシーケンスを実行し得る。指令は、メモリロケーション、例えばメモリ9010に保存され得る。指令は、CPU9005に対するものであり得、それによってCPU 9005を、本開示の方法を実行するよう、プログラムし得るかまたはそれ以外の方法で構成し得る。CPU 9005によって実施される作業の例は、フェッチ、復号、実行、およびライトバックを含み得る。

CPU 9005は、回路、例えば集積回路の一部であり得る。システム9001の1つまたは複数の他のコンポーネントが、回路に含まれ得る。いくつかの例において、回路は、特定用途向け集積回路（ASIC）である。

記憶装置9015は、ファイル、例えばドライバ、ライブラリ、および保存されたプログラムを保存し得る。記憶装置9015は、ユーザデータ、例えばユーザプレファレンスおよびユーザプログラムを保存し得る。コンピュータシステム9001は、いくつかの例において、コンピュータ9001の外部に、例えばイントラネットまたはインターネットを通じてコンピュータシステム9001に接続されているリモートサーバ上に位置する1つまたは複数の追加のデータ記憶装置を備え得る。

コンピュータシステム9001は、ネットワーク9030を通じて1つまたは複数のリモートコンピュータシステムと連絡し得る。例えば、コンピュータシステム9001は、使用者のリモートコンピュータシステム（例えば、サービスプロバイダ）と連絡し得る。リモートコンピュータシステムの例は、パーソナルコンピュータ（例えば、携帯型PC）、スレートもしくはタブレットPC（例えば、Apple（登録商標）iPad、Sumsung（登録商標）Galaxy Tab）、電話、スマートフォン（例えばApple（登録商標）iPhone、アンドロイド実装デバイス、Blackberry（登録商標）、またはパーソナルデジタルアシスタントを含む。使用者は、ネットワーク9030を通じてコンピュータシステム9001にアクセスすることができる。

本明細書に記載される方法は、コンピュータシステム9001の電子記憶ロケーションに、例えば、メモリ9010または電子記憶装置9015に保存された機械（例えば、コンピュータプロセッサ）実行可能なコードによって実行され得る。機械実行可能または機械読み取り可能なコードは、ソフトウェアの形式で提供され得る。使用時、コードはプロセッサ9005によって実行され得る。いくつかの例において、コードは、プロセッサ9005による容易なアクセスのために、記憶装置9015から読み出され、メモリ9010上に保存される。いくつかの状況において、電子記憶装置9015は排除され得、機械読み取り可能な指令はメモリ9010上に保存される。

コードは、そのコードを実行するよう適合されたプロセッサを有する機械で使用するために事前コンパイルおよび構成され得、または実行中にコンパイルされ得る。コードは、そのコードを事前コンパイルまたは同時コンパイル様式で実行できるよう選択され得るプログラム言語で供給され得る。

本明細書において提供されるシステムおよび方法の局面、例えばコンピュータシステム9001は、プログラミングで実現され得る。この技術の様々な局面は、典型的に、機械読み取り可能な媒体の形式で持ち運ばれるまたはそのような媒体で具現化される機械（もしくはプロセッサ）実行可能コードおよび／または関連データの形態の「製品」または「製造品」と考えられ得る。機械実行可能なコードは、電子記録装置、例えばメモリ（例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスク上に保存され得る。「記憶」タイプの媒体は、ソフトウェアプログラミングのためにいつでも非一時的記憶を提供し得るコンピュータ、プロセッサ等の有形のメモリまたはその関連モジュール、例えば様々な半導体メモリ、テープドライブ、ディスクドライブ等のいずれかまたはすべてを含み得る。ソフトウェアのすべてまたは一部は、時に、インターネットまたは様々な他のテレコミュニケーションネットワークを通じて接続され得る。そのようなコミュニケーションは、例えば、1つのコンピュータまたはプロセッサから別のものへの、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットホームへのソフトウェアのローディングを実現し得る。したがって、ソフトウェア要素を保持し得る別のタイプの媒体は、有線および光通信ネットワークを通じたおよび様々な無線リンクによる、例えばローカルデバイス間の物理的インターフェースとして使用される、光波、電波、および電磁波を含む。そのような波、例えば有線または無線リンク、光リンク等を有する物理的要素もまた、ソフトウェアを保持する媒体とみなされ得る。本明細書で使用される場合、非一時的な有形の「記憶」媒体に制限されない限り、コンピュータまたは機械「読み取り可能媒体」等の用語は、実行用プロセッサへの指令の提供に関与する任意の媒体を表す。

したがって、機械読み取り可能媒体、例えばコンピュータ実行可能なコードは、有形の記憶媒体、搬送波媒体、または物理的伝送媒体を含むがこれらに限定されない多くの形式をとり得る。不揮発性記憶媒体は、例えば、光学または磁気ディスク、例えば任意のコンピュータの任意の記憶デバイス等、例えば図面に示されるデータベース等を実行するために使用され得るもの、を含む。揮発性記憶媒体は、動的メモリ、例えばそのようなコンピュータプラットホームのメインメモリを含む。有形伝送媒体は、コンピュータシステム内のバスを含む線を含む、同軸ケーブル、銅線および光ファイバーを含む。搬送波伝送媒体は、電気もしくは電磁信号、または音響もしくは光波、例えばラジオ周波数（RF）および赤外線（IR）データコミュニケーションの間に生成されるもの、の形式をとり得る。したがって、コンピュータ読み取り可能媒体の共通形式は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、任意の他の光媒体、パンチカードペーパーテープ、穴のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、搬送波移送データもしくは指令、ケーブルもしくはリンク移送、例えば搬送波、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取り得る任意の他の媒体を含む。これらの形式のコンピュータ読み取り可能媒体の多くは、1つまたは複数の指令の1つまたは複数のシーケンスを実行用プロセッサに運ぶのに関与し得る。

コンピュータシステム9001は、例えば分類器または訓練されたアルゴリズムの出力または読み出しを提供するためのユーザインターフェース（UI）9040を含む電子ディスプレイ9035を含み得るまたはそれに接続され得る。UIの例は、非限定的に、グラフィカルユーザインターフェース（GUI）およびウェブベースのユーザインターフェースを含む。

本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実施され得る。アルゴリズムは、中央処理装置9005によって実行されると、ソフトウェアによって実施され得る。アルゴリズムは、例えば、疾患の発症のリスクを層別化し得るか、またはサンプルを良性、悪性、疑わしい、もしくは非診断と分類し得る。

実施例1：リスク分類器を用いたサンプルのリスク層別化
甲状腺がんの初期管理に対する現在のリスク適応型アプローチは、2009 米国甲状腺学会病期体系（ATA）を用いた高〜中発症リスクまたは低発症リスクのいずれかへの対象の手術後分類に基づいている。この解剖学的病期体系は、臨床的に有用であり得るが、甲状腺摘出術前に正確に評価することができず、かつ対象の結果の分子予測因子を含み得ない。この研究は、悪性甲状腺結節の診断的微細針吸引（FNA）で取得された転写データを使用して、甲状腺手術前のリスク層別化を強化できるかどうかを判定する。

サンプル由来のFNA材料を手術前に回収し（n = 79）、手術後に専門家のパネルによって、古典的な組織学的サブタイプを含む甲状腺乳頭がん（PTC）について診断させる（図1および図2）。各患者を、発症リスクの層別化のために確立されたガイドラインを用いて、「低リスク」または「中〜高リスク」のいずれかに分類する。ゲノムワイドRNA配列（RNASeq）データ（サンプルあたり8000万の読み取り）を取得し、教師付き学習を使用して、サポートベクターマシン（SVM）、ランダムフォレスト（RF）、罰則付きロジスティック回帰（PLR）およびこの3つのアンサンブルを含む分類器を訓練する。分類器のパフォーマンスを、同じサンプルコホートにおいて10分割交差検証を用いて測定する。

分類器を、320個の遺伝子およびBRAF遺伝子状態に関して制御されたオープンソースソフトウェアDESeqモデルを用いて構築する。最大の「低リスク」対「中〜高リスク」分類パフォーマンスが、サポートベクターマシン（SVM）分類器において観察され、その最大受信者動作特性（ROC）曲線下面積（AUC)は0.86である（図3および図4）。すべての分類器が、類似のAUCを達成する：RF 0.82、PLR 0.82およびアンサンブル0.84。分類に有用であることが発見された遺伝子は、ECM受容体相互作用、接着斑、および細胞接着分子を含む様々な膜貫通シグナル伝達経路に属する（図5）。評価された分類器は、感度または特異度のいずれよりも全体精度について最適化された閾値を使用している。サンプルコホートに適用された場合、サポートベクターマシン（SVM）分類器は、米国甲状腺学会（ATA）の低リスク腫瘍の79.3％（23/29）およびATAの中〜高リスク腫瘍の82.0％（41/50）を正確に判定する（図5）。

実施例2：交差検証モデル
手術前リスク層別化が機械学習を使用することによって強化されるかどうかを判定するため、Gene Expression Classifier（GEC）を変異パネルに用いて不確定甲状腺結節を試験する。図10は、訓練ラベルの決定を示す流れ図である。組織学的に良性のサンプルと組織学的に悪性のサンプルの間を区別するためにAfirma GECバージョン1訓練ラベルを使用する。組織学的に悪性のサンプルをさらに、米国甲状腺学会（ATA）リスク訓練ラベルを用いて低発症リスクと中／高発症リスクの間を区別する。中／高リスクの特徴は、リンパ節転移、血管侵襲、甲状腺外拡張、またはそれらの任意の組み合わせを含む。リスク訓練用サンプルコホートが、図1に示されている。中／高発症リスクの組織学的特徴を有するサンプルの比率が、図2に示されている。10分割交差検証を行い、線形サポートベクターマシン（SVM）、ランダムフォレスト、GLMNetおよびアンサンブル分類器を含む異なる学習モデルで曲線下面積（AUC）を評価する。この実施例において、最良のモデルは、AUCが0.871（図11Aに示されている）、感度が86％（図11Bに示されている）、特異度が86％（図11Bに示されている）、陽性的中率（PPV）が91.3％、陰性的中率（NPV）が78.3％であるアンサンブル分類である。初期特徴空間は、50カウントおよび800個の変種を含む850個の初期特徴空間である。最良のパフォーマンスは、240個の組み合わされた特徴を使用している。各分割で分類器によって選択された変種の上位の特徴が、図12に示されている。10分割で分類器によって8〜10回選択されたカウントの上位の特徴が、図13に示されている。

実施例3：変異分析
微細針吸引（FNA）サンプル（n=81）は、回収され、手術後に専門家のパネルによって悪性（甲状腺乳頭がん（PTC）、多発性甲状腺乳頭がん（mPTC）、濾胞型甲状腺乳頭がん（FVPTC）、甲状腺乳頭がん高細胞型(PTC-TCV)、甲状腺髄様がん（MTC）、詳細不明高分化がん（well-differentiated carcinoma-not otherwise specified（WDC-NOS））、肝細胞がん（HCC）、濾胞がん（FC））または良性（良性家族性好中球減少症（BFN）、線維腺腫（FA）、肝細胞腺腫（HCA）、硝子化索状腺腫（HTA）、ライディッヒ細胞腫（LCT））と診断される。組織病理学的に真である手術組織サンプル（n=57）も分析する。組織病理を示さない臨床検査室改善修正法（CLIA）ラボからの連続する不確定FNAの系列（n=101）も分析する。サンプルを次世代配列決定（NGS）に供し、14個の遺伝子（図14）を、5つの異なる変異パネルにおいて漸増数の調査ゲノム部位および融合対により評価する。図14に示されるように、上の表は、5つの変異パネルの各々についてのゲノム部位の数および融合対の数を示している。変異パネル1は、9箇所のゲノム部位および3対の融合対から構成される。変異パネル2は、19箇所のゲノム部位および25対の融合対から構成される。変異パネル3は、208箇所のゲノム部位および25対の融合対から構成される。変異パネル4は、929箇所のゲノム部位および25対の融合対から構成される。変異パネル5は、3670箇所のゲノム部位および25対の融合対から構成される。図14の下の表は、変異パネルの1つまたは複数において標的とされた14個の遺伝子を示している。

いくつかのフィルターを適用してデータを採点する。融合体または点変異が存在しない場合、サンプルを負に採点する。それらのマーカーが良性のマーカーであるとみなされるグアニンヌクレオチド結合タンパク質、α刺激（GNAS）変異を除いて少なくとも1つの融合体または点変異が検出された場合、サンプルを正に採点する。

悪性腫瘍を検出する感度は、すべてのサンプルコホートにおいて位置数の増加とともに改善する。特異度は、その反対の傾向を示し、すべてのサンプルコホートにおいて位置数の増加とともに低下する。図15のFNAサンプルにおいて、最小の9部位パネルは、53％の感度および93％の特異度を示す。図15における最大のパネル（3670箇所の部位）は、100％の感度および10％の特異度を示す。

図17の外科的組織（n=38）において、同様の傾向が観察される。合計57個の組織を評価する。しかし、38個の組織のみが、試験パフォーマンス算出に使用される明確な組織学的良性または組織学的悪性の病態を有する。図17の最小の9部位パネルにおいて、89％の特異度は、45％の感度を伴う。図17の最高密度パネル（3670部位）において、100％の感度は0％の特異度を伴う。

全体として、図15および図17の2つの大きい方のパネルは、組織学的に良性のFNAの87〜90％を誤って悪性とみなし、図15および図17の２つの小さい方のパネルは、既知のがんの48〜58％を見逃す。5つのパネルを通して、CLIA FNAサンプルにおける変異および融合体の頻度は、それぞれ、13％、4％、21％、89％および92％である。点変異および融合の数を増やして検出することによって得られる感度は、特異度の犠牲の上に到達し、真に良性のサンプルにおいて悪性をオーバーコールするリスクを伴う。

208部位を有するパネル3における細胞学による変異パフォーマンスが、図16に示されている。細胞学的に良性（Cyto B）、意義不明の異型／意義不明の濾胞性病変（AUS/FLUS）、濾胞性新生物／濾胞性新生物の疑い（FN/SFN）、悪性腫瘍の疑い（SFM）、細胞学的に悪性（Cyto M）、および全サンプルを含むベセスダ細胞学カテゴリーによってグループ分けする。総サンプル数、総数あたりの組織学的良性変異の数、総数あたりの組織学的悪性変異の数、感度、特異度を含む様々なパラメータが、図16において各グループに関して示されている。

CLIA FNAサンプルで観察された変異頻度のグラフ表示が、図18Aに示されている。変異陽性サンプル（パネル3）は、ダークグレイ色で示されている。GNAS陽性結節は、ライトグレイ色で示されている。変異頻度の比率が、全グループ、AUS/FLUSグループおよびFN/SFNグループを含む異なるグループに細分されている。図18Bは、図18Aにも示されている様々なサブグループにおいてパネル3を用いて検出された遺伝子および変異の表を示している。

FNAサンプルで観察された変異頻度のグラフ表示が、図19Aに示されている。変異陽性サンプル（パネル3）は、ダークグレイ色で示されている。結節は、最小結節=1センチメートル（cm）に比例するサイズで示されている。変異頻度の比率が、全グループ、組織学的悪性グループおよび組織学的良性グループを含む異なるグループに細分されている。図19Bは、図19Aにも示されている様々なサブグループにおいてパネル3を用いて検出された遺伝子および変異の表を示している。

組織サンプルで観察された変異頻度のグラフ表示が、図20Aに示されている。変異陽性サンプル（パネル3）は、ダークグレイ色で示されている。GNAS陽性結節は、ライトグレイ色で示されている。変異頻度の比率が、全グループ、組織学的悪性グループ、組織学的良性グループおよび組織学的不十分または非診断グループを含む異なるグループに細分されている。図20Bは、図20Aにも示されている様々なサブグループにおいてパネル3を用いて検出された遺伝子および変異の表を示している。

本明細書において本発明の好ましい態様が示され説明されているが、そのような態様は実例として提供されるにすぎないことが当業者に明らかであろう。本発明が本明細書内に提供される特定の実施例によって限定されるこは意図されていない。本発明は、本明細書を参照して説明されているが、本明細書の態様の説明および実例は、限定の意味で捉えられることが意図されていない。今、本発明から逸脱することなく、多数の変更、変化および置換が当業者に想起されるであろう。さらに、本発明のすべての局面は、本明細書に示される特定の記述、構成または相対的な比率に限定されず、それらは様々な条件および変数に依存することが理解されるべきである。本発明を実施する際に、本明細書に記載される本発明の態様の様々な代替態様が用いられ得ることが理解されるべきである。したがって、本発明は、任意のそのような代替、改変、変更または等価物も網羅することが想定されている。添付の特許請求の範囲は、本発明の範囲を規定し、これらの特許請求の範囲内の方法および構造ならびにそれらの等価物がそれによって網羅されることが意図されている。

Claims

以下の工程を含む、対象における疾患の発症のリスクを判定するために該対象の組織サンプルを評価するための方法：
（a）該対象から取得した針吸引サンプルにおける核酸サンプル中の第1の遺伝子セットの1つまたは複数の遺伝子の各々に対応する発現レベルを取得する工程であって、該第1の遺伝子セットが該対象における該疾患の発症のリスクに関連する、工程；
（b）該核酸サンプル中の第2の遺伝子セットの1つまたは複数の遺伝子の各々に対応する核酸配列の存在を判定する工程であって、該第2の遺伝子セットが該対象における該疾患の発症のリスクに関連する、工程；
（c）対照と、（i）（a）において取得した発現レベルおよび（ii）（b）において取得した核酸配列を別々に比較して、該対照に対する該発現レベルおよび該核酸配列の比較を提供する工程であって、該対照中の参照配列に対する該核酸配列の比較により、該第2の遺伝子セットの所定の遺伝子に関する1つまたは複数の配列変種の存在が示される、工程；ならびに
（d）訓練されたアルゴリズムを用いてプログラムされたコンピュータプロセッサを使用して、（i）該比較を分析し、かつ（ii）該比較に基づき該疾患の発症のリスクを判定する工程。
前記疾患ががんである、請求項1に記載の方法。
（a）の前に、前記対象から前記針吸引サンプルを取得する工程をさらに含む、請求項1に記載の方法。
（a）の前に、前記針吸引サンプルにおける前記核酸サンプル由来の前記発現レベルを決定する工程をさらに含む、請求項1に記載の方法。
（b）の前に、前記針吸引サンプルにおける前記核酸サンプル由来の前記核酸配列を決定する工程をさらに含む、請求項1に記載の方法。
前記核酸配列を前記参照配列と比較して、前記1つまたは複数の配列変種を同定する工程をさらに含む、請求項5に記載の方法。
前記参照配列が、前記対象由来のハウスキーピング遺伝子である、請求項6に記載の方法。
前記第1の遺伝子セット中または前記第2の遺伝子セット中の前記1つまたは複数の遺伝子が、複数の遺伝子を含む、請求項1に記載の方法。
前記針吸引サンプルが、細胞学的に不明瞭であるとまたは疑わしいと判明している、請求項1に記載の方法。
前記針吸引サンプルが、約1マイクロリットルまたはそれ未満の容積を有する、請求項1に記載の方法。
前記針吸引サンプルが、約9.0またはそれ未満のRNA Integrity Number（RIN）値を有する、請求項1に記載の方法。
前記針吸引サンプルが、約6.0またはそれ未満のRIN値を有する、請求項10に記載の方法。
前記疾患の発症のリスクが、前記対象における該疾患の再発のリスクを含む、請求項1に記載の方法。
前記がんの発症のリスクが、前記対象における転移のリスクを含む、請求項2に記載の方法。
前記訓練されたアルゴリズムが、前記疾患を有すると診断された少なくとも25体の対象由来の組織サンプルを用いて訓練される、請求項1に記載の方法。
前記訓練されたアルゴリズムが、前記疾患を有すると診断された少なくとも200体の対象由来の組織サンプルを用いて訓練される、請求項15に記載の方法。
（d）が手術前に行われる、請求項1に記載の方法。
前記対象が陽性の疾患診断を受ける前に（d）が行われる、請求項1に記載の方法。
（d）が、前記発症のリスクを低発症リスクまたは中〜高発症リスクに層別化する工程をさらに含み、該低発症リスクが、約50％〜約80％の発症率を有し、かつ該中〜高発症リスクが、約80％〜100％の発症率を有する、請求項1に記載の方法。
前記層別化する工程が、少なくとも80％の精度を有する、請求項19に記載の方法。
前記層別化する工程が、少なくとも80％の特異度を有する、請求項19に記載の方法。
1つもしくは複数のフィルター、1つもしくは複数のラッパー、1つもしくは複数の組み込みプロトコル、またはそれらの任意の組み合わせを前記比較に適用する工程をさらに含む、請求項1に記載の方法。
1つまたは複数の前記フィルターを前記比較に適用する工程をさらに含む、請求項22に記載の方法。
1つまたは複数の前記フィルターが、t検定、分散分析（ANOVA）分析、ベイズフレームワーク、ガンマ分布、ウィルコクソン順位和検定、二乗検定の級間・級内和、ランクプロダクト法（rank product method）、ランダム置換法、誤分類の閾値（TNoM）、二変数法、相関に基づく特徴選択（CFS）法、最小冗長性最大関連性（MRMR）法、マルコフブランケットフィルター法、非相関収縮重心法、またはそれらの任意の組み合わせを含む、請求項23に記載の方法。
前記1つまたは複数の配列変種が、点変異、融合遺伝子、置換、欠失、挿入、逆位、変換、転座、またはそれらの任意の組み合わせの1つまたは複数を含む、請求項23に記載の方法。
1つまたは複数の前記点変異が、約5個〜約4000個の点変異である、請求項25に記載の方法。
1つまたは複数の前記融合遺伝子が、少なくとも2つの融合遺伝子である、請求項25に記載の方法。
前記第1のセットまたは前記第2のセットの前記1つまたは複数の遺伝子が、約15個未満の遺伝子である、請求項1に記載の方法。
前記第1のセットまたは前記第2のセットの前記1つまたは複数の遺伝子が、約75個未満の遺伝子である、請求項1に記載の方法。
前記第1のセットまたは前記第2のセットの前記1つまたは複数の遺伝子が、約50個〜約400個の遺伝子である、請求項1に記載の方法。
（b）における取得する工程が、前記核酸配列を取得するために前記FNAサンプルにおける核酸サンプルを配列決定する工程を含む、請求項1に記載の方法。
前記配列決定する工程が、前記第2の遺伝子セットの1つもしくは複数の前記遺伝子またはその変種を濃縮する工程を含む、請求項31に記載の方法。
（a）が、前記第1の遺伝子セットの前記1つまたは複数の遺伝子に選択的なプローブを用いるマイクロアレイを使用する工程を含む、請求項1に記載の方法。
前記組織サンプルが甲状腺組織サンプルである、請求項1に記載の方法。
前記第1の遺伝子セットおよび前記第２の遺伝子セットが、COL1A1、THBS2、またはそれらの任意の組み合わせを含む、請求項34に記載の方法。
前記第2の遺伝子セットが、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、NUP210L、NR2F1、THBS2、PSORS1C1、またはそれらの任意の組み合わせを含む、請求項34に記載の方法。
前記第1の遺伝子セットが、COL1A1、TMEM92、C1orf87、SPAG4、EHF、COL3A1、GALNT15、NUP210L、PDZRN3、C6orf136、NA、NRXN3、COL6A3、RAPGEF5、PRICKLE1、LUM、ROBO1、BGN、AC019117.2、PRSS3P1、またはそれらの任意の組み合わせを含む、請求項34に記載の方法。
前記第2の遺伝子セットが、EPHA3、COL1A1、EHF、RAPGEF5、PRICKLE1、TMEM92、ROBO1、C6orf136、SPAG4、GALNT15、LUM、NCAM2、SYNPO2、NUP210L、AMZ1、NR2F1、THBS2、PSORS1C1、FTH1P24、またはそれらの任意の組み合わせを含む、請求項34に記載の方法。
前記第2の遺伝子セットが、AKAP9、SPRY3、SPRY3、CAMKK2、COL1A1、FITM2、COX6C、VSIG10L、CYC1、KDM1B、MAPK15、ARSG、PAXIP1、DAAM1、AVL9、DMGDH、HLA-DQA1、HLA-DQB1、HLA-DRA、HLA-DRB5、HLA-H、IRF1、MGAT1、P2RX1、PLEK、CCDC93、PPP1R12C、SLC41A3、METTL3、CCAR2、PTPRE、SRL、SLC30A5、BMP4、ZNF133、ICE2、DCAKD、TMX1、TNFSF12、PER2、MCM3AP、またはそれらの任意の組み合わせを含む、請求項34に記載の方法。
前記第1の遺伝子セットおよび前記第2の遺伝子セットが異なる、請求項1に記載の方法。
前記疾患の新規遺伝子バイオマーカーを同定する工程をさらに含む、請求項1に記載の方法。
（a）における取得する工程が、前記1つまたは複数の遺伝子の各々に対応する前記発現レベルについてアッセイする工程を含む、請求項1に記載の方法。
前記アッセイする工程が、前記1つまたは複数の遺伝子の各々について選択されたマーカーを用いるアレイハイブリダイゼーション、核酸配列決定、または核酸増幅を含む、請求項42に記載の方法。
前記マーカーが、前記1つまたは複数の遺伝子の各々について選択されたプライマーである、請求項43に記載の方法。
前記アッセイする工程が逆転写ポリメラーゼ連鎖反応（PCR）を含む、請求項43に記載の方法。
前記判定する工程が、前記核酸サンプル中の前記第2の遺伝子セットの前記1つまたは複数の遺伝子の各々についてアッセイする工程を含む、請求項1に記載の方法。
前記アッセイする工程が、前記1つまたは複数の遺伝子の各々について選択されたマーカーを用いるアレイハイブリダイゼーション、核酸配列決定、または核酸増幅を含む、請求項46に記載の方法。
前記マーカーが、前記1つまたは複数の遺伝子の各々について選択されたプライマーである、請求項47に記載の方法。
前記アッセイする工程が逆転写ポリメラーゼ連鎖反応（PCR）を含む、請求項47に記載の方法。
前記針吸引サンプルが微細針吸引サンプルである、請求項1に記載の方法。
以下を備える、対象における疾患の発症のリスクを判定するために該対象の組織サンプルを評価するためのシステム：
（a）第1の遺伝子セットが該対象における該疾患の発症のリスクに関連する、該対象から取得した針吸引サンプルにおける核酸サンプル中の該第1の遺伝子セットの1つまたは複数の遺伝子の各々に対応する発現と、（b）第2の遺伝子セットが該対象における該疾患の発症のリスクに関連する、該核酸サンプル中の該第2の遺伝子セットの1つまたは複数の遺伝子の各々に対応する核酸配列の存在の表示とを保存する、1つまたは複数のコンピュータメモリ；ならびに
該1つまたは複数のコンピュータメモリに接続され、かつ、
（i）対照と、（1）該コンピュータメモリ中の発現レベルおよび（2）該核酸配列を別々に比較して、該対照に対する該発現レベルおよび該核酸配列の比較を提供し、該対照中の参照配列に対する該核酸配列の比較により、該第2の遺伝子セットの所定の遺伝子に関する1つまたは複数の配列変種の存在が示されるよう、かつ
（ii）訓練されたアルゴリズムを使用して、（1）該比較を分析し、かつ（2）該比較に基づき該疾患の発症のリスクを判定するよう
プログラムされた、コンピュータプロセッサ。
1つまたは複数のコンピュータプロセッサによって実行されると対象における疾患の発症のリスクを判定するために該対象の組織サンプルを評価するための方法を実施する機械実行可能なコードを備える非一時的コンピュータ読み取り可能媒体であって、該方法が以下の工程を含む、非一時的コンピュータ読み取り可能媒体：
（a）該対象から取得した針吸引サンプルにおける核酸サンプル中の第1の遺伝子セットの1つまたは複数の遺伝子の各々に対応する発現レベルを取得する工程であって、該第1の遺伝子セットが該対象における該疾患の発症のリスクに関連する、工程；
（b）該核酸サンプル中の第2の遺伝子セットの1つまたは複数の遺伝子の各々に対応する核酸配列の存在を判定する工程であって、該第2の遺伝子セットが該対象における該疾患の発症のリスクに関連する、工程；
（c）対照と、（i）（a）において取得した発現レベルおよび（ii）（b）において取得した核酸配列を別々に比較して、該対照に対する該発現レベルおよび該核酸配列の比較を提供する工程であって、該対照中の参照配列に対する該核酸配列の比較により、該第2の遺伝子セットの所定の遺伝子に関する1つまたは複数の配列変種の存在が示される、工程；ならびに
（d）訓練されたアルゴリズムを用いてプログラムされたコンピュータプロセッサを使用して、（i）該比較を分析し、かつ（ii）該比較に基づき該疾患の発症のリスクを判定する工程。