JP2023500141A

JP2023500141A - 単一試料からの腫瘍純度の推定

Info

Publication number: JP2023500141A
Application number: JP2022526098A
Authority: JP
Inventors: フィリップスニコラス; ハリスジェイソン
Original assignee: パーソナリス，インコーポレイティド
Priority date: 2019-11-05
Filing date: 2020-11-04
Publication date: 2023-01-04
Anticipated expiration: 2040-11-04
Also published as: JP7470787B2; WO2021092066A1; EP4055610A1; CN114945987A; US20220259678A1; EP4055610A4

Abstract

本開示は、一致する正常な対照を使用せずに腫瘍試料から腫瘍純度を推定するための方法を提供する。ゲノム領域のセットを、参照ゲノムにアラインメントされた核酸配列データに基づいて特定する。前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する１又は複数のヌクレオチド配列バリアントを含む。前記生物学的試料のＢ対立遺伝子頻度分布を、前記ゲノム領域のセットの各ゲノム領域に対して測定したＢ対立遺伝子頻度に基づいて測定する。訓練済み機械学習モデルを使用して前記Ｂ対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定する。

Description

関連出願への相互参照
本出願は、２０１９年１１月５日に出願された米国仮特許出願第６２／９３１，０９６号の優先権を主張し、あらゆる目的のためにその全体が参照により本明細書に援用される。

本開示は、概して単一の試料から腫瘍純度を推定するためのシステム及び方法に関する。より具体的には、限定ではないが、本開示は、訓練済み機械学習モデルを使用してＢ対立遺伝子頻度分布を処理することによって生物学的試料の腫瘍純度を推定することに関する。

「腫瘍純度（ｔｕｍｏｒｐｕｒｉｔｙ）」とも称される腫瘍細胞含有割合（ｔｕｍｏｒｃｅｌｌｕｌａｒｉｔｙ）は、試料中の癌細胞の割合を割り出すものである。生物学的試料中の腫瘍純度の正確な推定は、体細胞変異の量及び／又はコピー数の変化を検出する際の精度の向上に寄与し得る。これは、腫瘍純度が、生物学的試料に存在する体細胞変異の対立遺伝子頻度を示すことによる。体細胞変異及びコピー数の多様性の検出は、次に、対象の癌の病期を決定する又は特定の癌治療が有効であるかどうかを評価するために使用することができる。したがって、腫瘍純度は、癌の病期の決定及び／又は治療効果の評価に役立つ可能性がある。

腫瘍純度は効果的なメトリック（測定基準）となる可能性があるが、いくつかのバイオインフォマティクス分析では交絡変数となる可能性もある。例えば、腫瘍純度を推定する従来の手法では、試料の画像を手動で検査して腫瘍純度を推定することにより、病理学者による組織病理学的評価が必要になる場合がある。但し、試料画像の手動検査を含む組織病理学的評価は、主観的で不正確である可能性がある。腫瘍純度を推定するための他の従来の技術は、所与の腫瘍試料の核酸配列データに由来する値（例えば、推定上の体細胞変異）を、一致する正常対照試料の核酸配列データに由来する他の値と比較することを必要とする。但し、このような通常の対照試料は利用できない場合がある。

例えば、従来の手法では、試料の腫瘍純度を、個人の腫瘍に固有の体細胞変異の対立遺伝子画分の関数として推定する。一致する正常な試料がない場合、これらの体細胞変異の識別は精度が低くなり、推定純度の精度が大幅に低下する。場合によっては、試料提供元が正常な対照を収集又は配列決定しなかった場合は（例えば）、一致する正常な対照は使用できない。

したがって、主観的分析（例えば、組織病理学的評価）又は正常な対照試料の存在に依存することなく、検出を容易にするために試料中の腫瘍純度を正確に推定する必要がある。

いくつかの実施形態では、腫瘍純度を推定する方法を提供する。前記方法は、対象の腫瘍試料の複数の核酸分子を表す核酸配列データを取得することを含み得る。前記方法は、前記核酸配列データを参照ゲノムにアラインメントすることも含み得る。前記方法は、アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定することも含み得る。場合によっては、前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する１又は複数のヌクレオチド配列バリアントを含む。

前記方法は、前記ゲノム領域のセットの各ゲノム領域のＢ対立遺伝子頻度を測定することも含みうる。前記方法は、前記ゲノム領域のセットの前記Ｂ対立遺伝子頻度に基づいて、前記生物学的試料のＢ対立遺伝子頻度分布を測定することも含み得る。前記方法は、訓練済み機械学習モデルを使用して前記Ｂ対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定することも含み得る。前記方法は、前記メトリックを出力することも含み得る。

いくつかの実施形態では、１又は複数のデータプロセッサと、前記１又は複数のデータプロセッサで実行されると、前記１又は複数のデータプロセッサに、本明細書に開示される１又は複数の方法の一部又は全部を実施させる命令を含む非一時的コンピューター可読記憶媒体と、を含むシステムを提供する。

いくつかの実施形態では、非一時的機械可読記憶媒体において実体的に具体化され、１又は複数のデータプロセッサに、本明細書に開示される１又は複数の方法の一部又は全部を実施させるように構成された命令を含むコンピュータープログラム製品を提供する。

本開示のいくつかの実施形態は、１又は複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、前記システムは、前記１又は複数のデータプロセッサで実行されると、前記１又は複数のデータプロセッサに、本明細書に開示される１又は複数の方法の一部又は全部及び／又は１又は複数のプロセスの一部又は全部を実施させる命令を含む非一時的コンピューター可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体において実体的に具体化され、１又は複数のデータプロセッサに、本明細書に開示される１又は複数の方法の一部又は全部及び／又は１又は複数のプロセスの一部又は全部を実施させるように構成された命令を含むコンピュータープログラム製品を含む。

使用されている用語及び表現は、説明の用語として使用され、限定するものではなく、そのような用語や表現を使用して、示され説明されている特徴又はその一部に相当するいかなるものを除外する意図はないが、特許請求される本発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び所望の特徴によって具体的に開示されているが、本明細書に開示される概念の変更及び変形は、当技術分野の当業者によって行われ得ることを理解されたい。そのような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内であると見なされる。

以下の図を参照して以下の詳細な説明を読み取ると、本開示の特徴、実施形態、及び利点がよりよく理解される。

図１は、いくつかの実施形態による腫瘍純度を推定するための完全に接続されたニューラルネットワークの模式図を示す。図２は、いくつかの実施形態による腫瘍純度を推定するための一次元畳み込みニューラルネットワークの模式図を示す。図３は、いくつかの実施形態による腫瘍純度を推定するための二次元畳み込みニューラルネットワークの模式図を示す。図４Ａは、いくつかの実施形態による、ＶＣＦレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの損失対エポックプロットを示す。図４Ｂは、いくつかの実施形態による、ＶＣＦレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの二乗平均平方根誤差（ＲＭＳＥ）データ及び平均絶対誤差（ＭＡＥ）データを示す。図４Ｃは、いくつかの実施形態による、ＦＡＳＴＱレベルデータセットのテストのための二乗平均平方根誤差（ＲＭＳＥ）データ及び平均絶対誤差（ＭＡＥ）データを示す。図５Ａは、いくつかの実施形態による、真の腫瘍純度を訓練済みの完全に接続されたニューラルネットワークによって予測された腫瘍純度と比較するプロット５００Ａを示す。図５Ｂは、いくつかの実施形態による、真の腫瘍純度を訓練済みの二次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット５００Ｂを示す。図５Ｃは、いくつかの実施形態による、真の腫瘍純度を一次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット５００Ｃを示す。図６は、いくつかの実施形態による、訓練済みの機械学習モデルを使用して腫瘍純度を推定するための模式図の例を示す。図７Ａ～７Ｅは、いくつかの実施形態によるプロットされたＢＡＦ分布の例を提供する。図７Ａ～７Ｅは、いくつかの実施形態によるプロットされたＢＡＦ分布の例を提供する。図７Ａ～７Ｅは、いくつかの実施形態によるプロットされたＢＡＦ分布の例を提供する。図７Ａ～７Ｅは、いくつかの実施形態によるプロットされたＢＡＦ分布の例を提供する。図７Ａ～７Ｅは、いくつかの実施形態によるプロットされたＢＡＦ分布の例を提供する。図８は、いくつかの実施形態による、Ｂ対立遺伝子頻度の特徴を使用して生物学的試料を分類するための最初の主な２つの構成要素のプロット８００を示す。図９は、特定の実施形態による生物学的試料の腫瘍純度を推定する方法の例を示すフローチャートを含む。図１０は、本明細書に開示される実施形態のいくつかを実施するためのコンピューターシステムの例を示す。

Ｉ．概要
少なくとも従来のシステムの上記欠陥に対処するために、本発明の手法は、訓練済み機械学習モデルを使用して、配列決定データのヘテロ接合部位のＢ対立遺伝子頻度分布を処理することにより、腫瘍純度を推定するために使用され得る。訓練済み機械学習モデルは、正常な対照試料の一致する配列決定データが存在しない場合でも、生物学的試料の腫瘍純度を特定する推定メトリックを生成し得る。したがって、本発明の技術は、一致した正常な対照なしに生物学的試料中の腫瘍純度を正確に推定することができ、これにより腫瘍のみの試料からの核酸配列決定データのより正確な分析を容易にする。

対象の腫瘍試料の複数の核酸分子を表す核酸配列データを取得することができる。いくつかの実施形態では、前記核酸配列データが、全エクソーム配列決定データである。前記核酸配列データは、全ゲノム配列決定データであってもよい。いくつかの実施形態では、前記配列決定データは腫瘍試料からのものである。前記腫瘍試料は、ヒト対象由来であり得る。前記核酸配列データは、ショットガン配列決定により生成され得る。いくつかの実施形態では、前記核酸配列データは、ゲノム又はエクソームの選択部分を配列決定することによって生成され得る。

前記核酸配列データは、参照ゲノムにアラインメントされ得る。アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定し得る。場合によっては、前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する１又は複数のヌクレオチド配列バリアントを含む。ヌクレオチド配列バリアントを同定するために、バリアント候補を特定し、バリアント候補の参照読み取り深度及び代替読み取り深度を計算し得る。

前記ゲノム領域のセットの各ゲノム領域のＢ対立遺伝子頻度を測定し得る。Ｂ対立遺伝子頻度（Ｂ－ＡｌｌｅｌｅＦｒｅｑｕｅｎｃｙ、ＢＡＦ）は、２つの対立遺伝子（Ａ及びＢ）の対立遺伝子強度比の正規化された尺度を指し、１又は０のＢＡＦは、２つの対立遺伝子（例えば、ＡＡ又はＢＢ）の１つが完全に存在しないことを示し、０．５のＢＡＦは、両方の対立遺伝子（例えば、ＡＢ）が等しく存在することを示している。前記ゲノム領域のセットの前記Ｂ対立遺伝子頻度に基づいて、前記生物学的試料のＢ対立遺伝子頻度分布を測定し得る。いくつかの実施形態では、前記Ｂ対立遺伝子頻度分布が正規化されている。

訓練済み機械学習モデルを使用して前記Ｂ対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定し得る。本明細書で使用される場合、腫瘍純度又は腫瘍細胞含有割合は、腫瘍試料中の癌細胞の割合を指す。腫瘍純度は、直接的な臨床的関連性に対応する腫瘍の特徴を推定するための様々な手法で使用されるメトリックとなり得る。例えば、推定された腫瘍純度は、承認済みコンパニオン診断（例えば、ＮＳＣＬＣでのＥＧＦＲエクソン１９の欠失）に関連するものを含む、コピー数の変化を特定するために必要なエビデンスの閾値を直接変更する場合がある。腫瘍純度の推定は、体細胞バリアントの予想される対立遺伝子画分に優先度を付与することにより、体細胞バリアントコールの質（感度、ＰＰＶ）を改善するためにも使用され得る。例えば、６０％の腫瘍純度値は、腫瘍試料に６０％の腫瘍細胞と４０％の正常細胞とが含まれていることを示し得る。追加的に又は代替的に、腫瘍純度は、腫瘍試料中の癌細胞の数を示していてもよい。「腫瘍純度」という用語が言及されている場合は常に、「腫瘍細胞含有割合」という用語は、本明細書全体を通して交換可能に使用され得ることに留意されたい。

訓練済み機械学習モデルは、インシリコで生成されたデータセット（例えば、コンピューターシミュレーションによって生成された核酸配列データ）で訓練されていてもよい。いくつかの実施形態では、前記訓練済み機械学習モデルは、正常細胞で希釈された腫瘍細胞に由来する配列決定データから生成された訓練データセットで訓練されている。前記訓練済み機械学習モデルの平均絶対誤差は、約０．２未満であり得る。いくつかの実施形態では、前記訓練済み機械学習モデルの二乗平均平方根誤差が、約０．２未満である。

いくつかの実施形態では、前記訓練済み機械学習モデルは、完全に接続されたニューラルネットワークを含む。前記完全に接続されたネットワークは、正規化線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）活性化関数を備えた完全に接続された層を含んでいてもよい。いくつかの実施形態では、前記完全に接続されたニューラルネットワークの出力活性化関数は、シグモイド関数である。前記完全に接続されたニューラルネットワークの損失関数は、平均二乗誤差（ＭＳＥ）を計算するように構成され得る。いくつかの実施形態では、前記完全に接続されたニューラルネットワークは、層の線形検索、サイズの線形検索、学習率の対数検索、又はそれらの組み合わせを用いたランダムサンプリングを使用したハイパーパラメーター検索によって調整される。

場合によっては、前記訓練済み機械学習モデルは、一次元畳み込みニューラルネットワークを含む。一次元畳み込みニューラルネットワークは、Ｂ対立遺伝子頻度分布を入力として使用でき、高さ２５、幅１、深さ１００の入力サイズにエンコードできるように構成され得る。いくつかの実施形態では、一次元畳み込みニューラルネットワークの各層は、１×１畳み込みを実行し、続いてＲｅＬＵ活性化関数を実行する。

いくつかの実施形態では、前記訓練済み機械学習モデルは、二次元畳み込みニューラルネットワークを含む。いくつかの実施形態では、二次元畳み込みニューラルネットワークのＢ対立遺伝子頻度分布は入力として使用され、高さ２５、幅１００、深さ１で定義される入力サイズにエンコードされる。いくつかの実施形態では、前記二次元畳み込みニューラルネットワークの各畳み込み層の後には、ＲｅＬＵ層が続く。二次元畳み込みニューラルネットワークの出力は、シグモイド活性化関数を用いて密に接続された層としてもよい。さらに、二次元畳み込みニューラルネットワークのハイパーパラメーターは、層の数、フィルターサイズ、フィルターの数、又はそれらの組み合わせを調節することで調整され得る。

腫瘍純度を特定する推定メトリックが出力され得る。例えば、推定メトリックを含むレポートが出力され得る。いくつかの実施形態では、前記レポートは、Ｂ対立遺伝子頻度分布を特定する情報を含む。前記レポートは、少なくとも１つの診断マーカー及び／又は少なくとも１つの予後マーカーを識別する情報も含んでいてもよい。いくつかの実施形態では、前記レポートは、予測される体細胞バリアントを特定する情報を含む。前記レポートは、治療推奨も含んでいてもよい。例えば、推定された腫瘍純度は、膠芽腫の予後バイオマーカーであるＯ－６－メチルグアニン－ＤＮＡメチルトランスフェラーゼのメチル化レベルの上昇を示している可能性がある。別の例では、推定された腫瘍純度を使用して、癌細胞の突然変異負荷の量を測定することができ、これを使用して、特定のタイプの免疫療法を決定することができる。推定腫瘍純度の量に応じて、膠芽腫の治療を開始するかどうかを推奨できる。いくつかの実施形態では、治療推奨には、ヒト対象に治療を施すための推奨が含まれる。前記治療推奨は、前記ヒト対象に治療を施さないという推奨を含む場合がある。

したがって、本開示の実施形態は、一致する正常な対照試料由来のデータに依存する必要のない腫瘍純度のより正確な推定を行うことによって、従来のシステムに対する技術的利点を提供する。推定された腫瘍純度は、腫瘍試料からの配列決定データの分析と注釈（アノテーション）の精度を向上させるために使用され得る。推定された腫瘍純度を説明する１又は複数のレポートを生成することができる（例えば、診断レポート及び／又は予後レポート）。例えば、腫瘍純度の推定値を使用して、体細胞変異及び／又はコピー数の変化を特定する診断技術の精度を向上させることができ、予測される体細胞変異及び／又はコピー数の変化の詳細を含むレポートを生成できる。

腫瘍純度の推定及び／又は腫瘍純度の推定によって容易になるレポートに基づいて、１又は複数の治療を患者に施すか、又は患者に対して保留することができる。例えば、予測される体細胞バリアントを、公知の癌変異の１又は複数のデータベースと比較して、癌を診断又は特徴づけることができる。特定のがん治療に対する反応性又は無反応性に関連するバリアントを特定することができ、治療推奨を提供することができる。前記癌を、推奨に基づいて治療できる。

以下の例は、特定の実施形態を紹介するために提供される。以下の記述では、説明の目的で、本開示における例の深い理解を提供するために具体的な詳細が示されている。但し、これらの具体的な詳細がなくても、様々な例を行えることは明らかである。例えば、デバイス、システム、構造、アセンブリ、方法、及びその他の構成要素は、例を不必要に詳細に曖昧にしないために、ブロック図形式の構成要素として示される場合がある。他の例では、例を曖昧にすることを避けるために、周知のデバイス、プロセス、システム、構造、及び手法が、必要な詳細なしに示され得る。図及び説明は、限定的なものではない。本開示において使用されている用語及び表現は、説明の用語として使用され、限定するものではなく、そのような用語や表現を使用して、示され説明されている特徴又はその一部に相当するいかなるものを除外する意図はない。「例」という言葉は、本明細書では「例、実例、又は図解として役立つ」ことを意味するために使用される。本明細書で「例」として説明される任意の実施形態又は設計は、必ずしも他の実施形態又は設計よりも好ましい又は有利であると解釈されるものではない。

ＩＩ．単一試料から腫瘍純度を推定するための機械学習モデル
Ａ．生物学的試料の腫瘍純度を推定するための機械学習モデルの例
本明細書で説明されるように、生物学的試料の腫瘍純度は、訓練済み機械学習モデルを使用して推定できる。訓練済み機械学習モデルは、生物学的試料の腫瘍純度を推定するために訓練された様々な機械学習モデルの１つに対応していてもよい。いくつかの実施形態では、訓練済み機械学習モデルは、複数のモデルを含む（例えば、１、２、３、４、５、６、７、８、９、又は１０の機械学習モデル）。例えば、完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、二次元畳み込みニューラルネットワークなど、３つの機械学習モデルの１つを訓練して、核酸配列決定データにおける腫瘍純度を推定できる。場合によっては、訓練済み機械学習モデルは、ディープニューラルネットワークを含む。ディープニューラルネットワークを使用して、拡大する高次元のデータセット（例えば、核酸配列データ）の内部構造をキャプチャできる。ディープニューラルネットワークは、高レベルの特徴を識別し、従来の統計モデルよりもパフォーマンスを向上させ、解釈可能性を高め、核酸配列データの構造に関するさらなる理解を提供する。

訓練済み機械学習モデルは、ハイパーパラメーターを含んでいてもよい。ハイパーパラメーターは、前記モデルの外部にあり、データ（例えば、トレーニングデータや入力データ）から値が推定されない構成とされ得る。場合によっては、ハイパーパラメーターを調整し、例えば、特定の予測モデリングの問題を解決するように調整する。場合によっては、モデルパラメーターの推定に役立つハイパーパラメーターが使用される。ハイパーパラメーターはユーザーが指定できる。場合によっては、ヒューリスティックアルゴリズムのセットを使用してハイパーパラメーターを決定できる。

図１は、いくつかの実施形態による腫瘍純度を推定するための完全に接続されたニューラルネットワークの模式図１００を示す。完全に接続されたニューラルネットワークの入力層１０５が左側に示され、その後に一組の隠れ層１１０が続く。出力層１１５が右側に示されている。完全に接続されたネットワークの場合、入力機能には、生物学的試料で同定されたヌクレオチド配列バリアントの全エクソーム、Ｂ対立遺伝子頻度（ＢＡＦ）分布を含めることができる。完全に接続されたニューラルネットワークには、ＲｅＬＵ活性化関数を備えた一連の完全に接続された層が含まれていてもよく、出力活性化関数はシグモイド関数であり得る。場合によっては、完全に接続されたニューラルネットワークの損失関数は、平均二乗誤差（ＭＳＥ）を生成するように構成される。完全に接続されたニューラルネットワークは、層及びサイズの線形検索や学習率の対数検索など、ランダムサンプリングを使用したハイパーパラメーター検索によって最適化され得る。完全に接続されたニューラルネットワークの各出力次元は、各入力次元に依存し得る。場合によっては、完全に接続されたニューラルネットワークがフィードフォワードニューラルネットワークとなり得る。

畳み込みニューラルネットワークは、生物学的試料の腫瘍純度を推定するように訓練できる。畳み込みニューラルネットワークは、ローカル接続とユニット間の結合された重みとに依存し、その後に特徴プーリング（サブサンプリング）を行って、翻訳不変記述子を取得することができる。基本的な畳み込みニューラルネットワークアーキテクチャは、１つの畳み込み層及びプーリング層を含み、オプションで、所望により監視された予測のために完全に接続された層が続く。場合によっては、畳み込みニューラルネットワークは、入力空間をよりよくモデル化するために、複数の（例えば、＞１０）畳み込み層及びプーリング層で構成される。畳み込みニューラルネットワークでは、充分に訓練されるために大規模なデータセットが必要になる場合がある。いくつかの実施形態では、畳み込みニューラルネットワークは、入力空間の小さな領域で畳み込みを計算し、領域間でパラメーターを共有することにより、完全に接続されたニューラルネットワークよりも少ないパラメーターを使用する。畳み込みニューラルネットワークは、一次元畳み込みニューラルネットワークであり得る。畳み込みニューラルネットワークは、二次元畳み込みニューラルネットワークであり得る。いくつかの実施形態では、畳み込みニューラルネットワークは、３次元又はそれ以上の次元を備える。

図２は、いくつかの実施形態による腫瘍純度を推定するための一次元畳み込みニューラルネットワークの模式図２００を示す。一次元畳み込みニューラルネットワークの場合、入力機能には染色体ＢＡＦ分布が含まれていてもよく、高さ２５、幅１、深さ１００を定義する入力サイズにエンコードされ得る。前記一次元畳み込みニューラルネットワークの各層は、１×１畳み込みを実行し、続いてＲｅＬＵ活性化関数を実行し得る。場合によっては、「ネットワーク内ネットワーク」のディープネットワーク構造が使用される。事実上、フラット化された入力で各層の深さのストライドを使用した一次元（１Ｄ）畳み込みが使用される。場合によっては、深さ及び層サイズに対応するハイパーパラメーターが完全に接続されたニューラルネットワークから取得され（図１を参照）、一次元畳み込みニューラルネットワークの学習率に対応するハイパーパラメーターを最適化のために調整してもよい。

図３は、いくつかの実施形態による腫瘍純度を推定するための二次元畳み込みニューラルネットワークの模式図３００を示す。二次元畳み込みニューラルネットワークの場合、入力機能には染色体ＢＡＦ分布が含まれていてもよく、高さ２５、幅１００、深さ１を定義する入力サイズにエンコードされ得る。各層は、二次元畳み込み層（二次元畳み込みニューラルネットワーク層）に対応し、その後にＲｅＬＵ活性化関数が続く。出力層は、シグモイド活性化関数を有する密に接続された層に対応していてもよい。いくつかの実施形態では、二次元畳み込みニューラルネットワークのハイパーパラメーターは、層の数、フィルターサイズ、及びフィルターの数を検索することによって最適化される。ドロップアウト正則化及び／又はＬ２正則化を実行することにより、訓練セットの初期過適合（オーバーフィッティング）を減らすことができる。

他の種類の機械学習モデルを訓練して、生物学的試料の腫瘍純度を推定することができる。いくつかの実施形態では、機械学習モデルは、勾配ブースティング決定木（例えば、ＸＧＢｏｏｓｔフレームワークやＬｉｇｈｔＧＢＭフレームワーク）、バギング手順、ブースティング手順、及び／又はランダムフォレストアルゴリズムの１又は複数に対応している。例えば、勾配ブースティングされた決定木を訓練して、生物学的試料の腫瘍純度を推定することができる。勾配ブースティングは、回帰問題及び分類問題、並びに、例えば決定木などの弱い予測モデルのアンサンブルを含んでいてもよい予測モデルの生成に使用され得る機械学習手法の一種に対応している。場合によっては、勾配ブーストされた決定木は、例えば、ＸＧＢｏｏｓｔフレームワーク又はＬｉｇｈｔＧＢＭフレームワークを含み得る。

Ｂ．生物学的試料の腫瘍純度を推定するための機械学習モデルを訓練するためのトレーニングデータセット
生物学的試料の腫瘍純度を推定するための機械学習モデルは、監視された訓練アルゴリズムを使用して訓練できる。教師あり訓練アルゴリズムを使用して、機械学習モデルを訓練し、腫瘍純度に対応する線形回帰値及び／又はロジスティック回帰値に対応する出力を生成してもよい。機械学習モデルは、訓練データセットに基づいて訓練できる。場合によっては、訓練データセットは、純粋な腫瘍試料、純粋な正常試料、及び正常細胞間の腫瘍細胞の希釈系列からの配列決定データセットを含む。配列決定データセットは、癌と診断された対象からの生物学的試料を含む、他の対象の生物学的試料に由来し得る。訓練データセットの生物学的試料は、悪性組織、良性組織、又はそれらの混合物に対応していてもよい。いくつかの実施形態では、癌組織を含む生物学的試料は、一致する正常な試料なしでえ取得される。追加的に又は代替的に、機械学習モデルの訓練及びテストのために、一致する正常試料が取得される（例）。

いくつかの実施形態では、訓練データセットは、訓練ヌクレオチド配列バリアントデータセットを含む。訓練バリアントデータセットは、ヌクレオチド配列バリアントが特定される核酸配列データに対応していてもよい。ヌクレオチドに続くバリアントは、一塩基多型（ＳＮＰ）、１又は複数の単一ヌクレオチド変化、挿入－欠失変異（インデル）、小挿入、小欠失、構造的バリアント接合、可変長タンデムリピート（縦列反復）、隣接配列、及びそれらの組み合わせを含んでいてもよい。場合によっては、バイアスのある「バリアントコールフォーマット（ＶａｒｉａｎｔＣａｌｌＦｏｒｍａｔ（ＶＣＦ））レベル」のデータセットが、腫瘍試料及び正常試料を含む訓練試料から生成されたＶＣＦファイルの人工的な組み合わせを使用して生成される。したがって、訓練データセットには、腫瘍配列のインシリコ「希釈」が含まれていてもよい。ＶＣＦレベルのデータセットは、表１に概説されている特性を用いて生成され得る。機械学習モデルを訓練するには、機械学習モデルを「訓練（ｔｒａｉｎ）」セットに適合させ、「訓練（ｔｒａｉｎ）」セットと「開発（ｄｅｖ）」セットのパフォーマンスに基づいてハイパーパラメーターを調整し、「テスト（ｔｅｓｔ）」セットで最終的なパフォーマンスを評価できる。

いくつかの実施形態では、訓練データセットは、訓練核酸配列データを含む。訓練核酸配列データは、訓練試料からの読み取りをダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）及び結合することによって生成されるバイアスのない「ＦＡＳＴＱレベル」データセットに対応していてもよい。訓練試料は、正常試料及び腫瘍試料を含んでいてもよい。ＦＡＳＴＱレベルのデータセットは、サイズ９９及び１１の固有の試料で生成でき、腫瘍細胞と一致した正常細胞のインビトロ希釈の配列決定から取得され得る。ＶＣＦレベルのデータセットと比較すると、ＦＡＳＴＱレベルのデータセットは、バリアントレベルではなく読み取りレベルである可能性があるため、生データに近くなる。場合によっては、ＦＡＳＴＱレベルのデータセットを使用して、より現実的なデータを使用してパフォーマンスを改善又は最適化する。大きなＦＡＳＴＱレベルのデータセットを生成することは計算上困難であるため、機械学習モデルは、転移学習を使用したＦＡＳＴＱレベルのデータセットを使用して訓練され得る。転移学習は、ＶＣＦレベルのデータセットで事前に訓練された機械学習モデルを使用して実行され、５分割交差検定が行われる。場合によっては、各機械学習モデルを訓練データセットの４／５で訓練し、各反復で訓練データセットの１／５でテストすることができる。

Ｃ．生物学的試料の腫瘍純度を推定するための機械学習モデルの訓練及びテスト
機械学習モデル（例えば、完全に接続されたニューラルネットワーク）は、訓練データセット（例えば、ＶＣＦレベルのデータセット）で訓練できる。場合によっては、機械学習モデルは最初にＶＣＦレベルのデータセットで訓練される。機械学習モデルを「訓練（ｔｒａｉｎ）」セットに適合させ「訓練（ｔｒａｉｎ）」セットと「開発（ｄｅｖ）」セットのパフォーマンスに基づいてハイパーパラメーターを調整し、「テスト（ｔｅｓｔ）」セットで最終的なパフォーマンスを評価できる。図４Ａは、いくつかの実施形態による、ＶＣＦレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの損失対エポックプロット４００Ａを示す。損失対エポックプロット４００Ａは、各訓練済み機械学習モデルのパフォーマンスレベルが各エポックで増加し、それによって約０．０１～０．０２５の範囲の誤差値（平均二乗誤差など）に達することを示している。

図４Ｂは、いくつかの実施形態による、ＶＣＦレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの二乗平均平方根誤差（ＲＭＳＥ）データ及び平均絶対誤差（ＭＡＥ）データ４００Ｂを示す。全てのモデルは、ＶＣＦレベルのデータセットで同等に機能する。このデータセットでは、訓練データセットに基づいて、二乗平均平方根誤差値が０．０８１（二次元畳み込みニューラルネットワーク）～０．０８８（完全に接続されたニューラルネットワーク）の範囲内となる。図４Ａ及び図４Ｂに示されるように、ＶＣＦレベルの訓練データセット及びテストデータセットで訓練された全ての機械学習モデルにおける一貫したパフォーマンスは、良好な適合を示し、試料の腫瘍純度を推定するための最適性に近づいている可能性がある。

いくつかの実施形態では、ＦＡＳＴＱレベルのデータセットは、訓練済み機械学習モデルのパフォーマンスを改善又は最適化するために使用される。大きなＦＡＳＴＱレベルのデータセットを生成することは計算上困難であるため、機械学習モデルは、転移学習を使用したＦＡＳＴＱレベルのデータセットを使用して訓練され得る。転移学習は、ＶＣＦレベルのデータセットで事前に訓練された機械学習モデルを使用して実行され得る。訓練済み機械学習モデルのパフォーマンスは、５分割交差検定戦略を使用して評価され得る。場合によっては、各機械学習モデルを訓練データセットの４／５で訓練し、各反復で訓練データセットの１／５でテストすることができる。図４Ｃは、いくつかの実施形態による、ＦＡＳＴＱレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークのＲＳＭＥ及びＭＡＥデータ４００Ｃを示す。ＲＭＳＥ及びＭＡＥデータ４００Ｃは、訓練済み一次元畳み込みニューラルネットワーク（例えば、０．０５７ＲＭＳＥ）と訓練済み二次元畳み込みニューラルネットワーク（例えば、０．０６７ＲＭＳＥ）との間の同等レベルのパフォーマンスを示す。さらに、ＲＭＳＥ及びＭＡＥデータ４００Ｃは、訓練済み機械学習モデルが、ＦＡＳＴＱレベルのデータセットでの転移学習後に低いＲＳＭＥ及びＭＡＥを達成したことを示している。

各訓練済み機械学習モデルのパフォーマンスレベルを評価した。図５Ａは、いくつかの実施形態による、真の腫瘍純度を訓練済みの完全に接続されたネットワークによって予測された腫瘍純度と比較するプロット５００Ａを示す。図５Ｂは、いくつかの実施形態による、真の腫瘍純度を訓練済みの二次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット５００Ｂを示す。図５Ｃは、いくつかの実施形態による、真の腫瘍純度を一次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット５００Ｃを示す。図５Ａ、図５Ｂ、及び図５Ｃそれぞれからの結果は、訓練済み機械学習モデルが、一致する正常対照試料を必要とする既存のツールに匹敵するパフォーマンスレベルを達成することを示している。

場合によっては、畳み込みニューラルネットワークモデルが訓練データセットに過適合する傾向がある。例えば、畳み込みニューラルネットワークに対応するより高いＲＳＭＥ値及びＭＡＥ値は、正則化及びドロップアウトによって大幅に改善されない場合がある。これらの畳み込みニューラルネットワークが過適合する傾向は、より大きな訓練データセットを使用して訓練された場合、腫瘍純度の複雑な信号を検出するこれらの機械学習モデルの能力を示している場合がある。そのため、より大きく、より多様な訓練データセットを使用して、機械学習モデルをさらに訓練してもよい。

いくつかの実施形態では、訓練済み機械学習モデルは、訓練データ及び／又はテストデータを使用して訓練され、腫瘍純度を推定するための１又は複数の所定のパフォーマンスレベルを達成する。１又は複数の所定のパフォーマンスレベルは、以下のものを含む。
最大で１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、又は２０％のＭＡＥ。
最大で１％、２％、３％、４％、５％、６％、７％、８％、９％、１０％、１１％、１２％、１３％、１４％、１５％、１６％、１７％、１８％、１９％、又は２０％のＲＭＳＥ。
少なくとも約０．２、０．２５、０．３、０．３５、０．４、０．４５、０．５、０．５５、０．６、０．６５、０．７、０．７５、０．８、０．８５、０．９、０．９５、又はそれ以上の精度。追加的に又は代替的に、前記訓練済み機械学習モデルは、約０．２～１．０、０．２～０．９、０．２～０．８、０．２～０．７、０．２～０．６、０．２～０．５、０．２～０．４、０．２～０．３、０．３～１．０、０．３～０．９、０．３～０．８、０．３～０．７、０．３～０．６、０．３～０．５、０．３～０．４、０．４～１．０、０．４～０．９、０．４～０．８、０．４～０．７、０．４～０．６、０．４～０．５、０．５～１．０、０．５～０．９、０．５～０．８、０．５～０．７、０．５～０．６、０．６～１．０、０．６～０．９、０．６～０．８、０．６～０．７、０．７～１．０、０．７～０．９、０．７～０．８、０．８～１．０、０．８～０．９、又は０．９～１．０の精度で腫瘍純度を推定するように訓練される。
少なくとも約０．２、０．２５、０．３、０．３５、０．４、０．４５、０．５、０．５５、０．６、０．６５、０．７、０．７５、０．８、０．８５、０．９、０．９５、又はそれ以上のリコール。追加的に又は代替的に、前記訓練済み機械学習モデルは、約０．２～１．０、０．２～０．９、０．２～０．８、０．２～０．７、０．２～０．６、０．２～０．５、０．２～０．４、０．２～０．３、０．３～１．０、０．３～０．９、０．３～０．８、０．３～０．７、０．３～０．６、０．３～０．５、０．３～０．４、０．４～１．０、０．４～０．９、０．４～０．８、０．４～０．７、０．４～０．６、０．４～０．５、０．５～１．０、０．５～０．９、０．５～０．８、０．５～０．７、０．５～０．６、０．６～１．０、０．６～０．９、０．６～０．８、０．６～０．７、０．７～１．０、０．７～０．９、０．７～０．８、０．８～１．０、０．８～０．９、又は０．９～１．０のリコールで腫瘍純度を推定するように訓練される。
少なくとも約０．２、０．２５、０．３、０．３５、０．４、０．４５、０．５、０．５５、０．６、０．６５、０．７、０．７５、０．８、０．８５、０．８６、０．８７、０．８８、０．８９、０．９、０．９１、０．９２、０．９３、０．９４、０．９５、０．９６、０．９７、０．９８、０．９９、０．９９５、又はそれ以上のＦ１スコア（例えば、マクロ平均Ｆ１分類スコア）。追加的に又は代替的に、前記訓練済み機械学習モデルは、約０．２～１．０、０．２～０．９９、０．２～０．９５、０．２～０．９、０．２～０．８、０．２～０．７、０．２～０．６、０．２～０．５、０．２～０．４、０．２～０．３、０．３～１．０、０．３～０．９９、０．２～０．９５、０．３～０．９、０．３～０．８、０．３～０．７、０．３～０．６、０．３～０．５、０．３～０．４、０．４～１．０、０．４～０．９９、０．４～０．９５、０．４～０．９、０．４～０．８、０．４～０．７、０．４～０．６、０．４～０．５、０．５～１．０、０．５～０．９９、０．５～０．９５、０．５～０．９、０．５～０．８、０．５～０．７、０．５～０．６、０．６～１．０、０．６～０．９９、０．６～０．９５、０．６～０．９、０．６～０．８、０．６～０．７、０．７～１．０、０．７～０．９９、０．７～０．９８、０．７～０．９７、０．７～０．９６、０．７～０．９５、０．７～０．９、０．７～０．８、０．８～１．０、０．８～０．９９、０．８～０．９８、０．８～０．９７、０．８～０．９６、０．８～０．９５、０．８～０．９、０．９～１．０、０．９～０．９９、０．９～０．９８、０．９～０．９７、０．９～０．９６、又は０．９～０．９５のＦ１スコアで腫瘍純度を推定するように訓練される。

ＩＩＩ．腫瘍純度の推定
図６は、いくつかの実施形態による、訓練済みの機械学習モデルを使用して腫瘍純度を推定するための模式図６００の例を示す。不一致の生物学的試料の配列決定からの腫瘍純度は、訓練済み機械学習モデル（例えば、回帰モデル）を使用して推定できる。場合によっては、ディープニューラルネットワークを使用して、対を成さない生物学的試料中のヌクレオチド配列バリアントの対立遺伝子分画分布（例えば、Ｂ対立遺伝子頻度分布）から腫瘍純度を推定する。回帰モデルを使用して、全エクソーム配列決定データのＢ対立遺伝子頻度（ＢＡＦ）から腫瘍純度を予測できる。

ブロック６０５では、不一致の腫瘍試料を癌患者から得ることができる（すなわち、一致する正常試料なし）。ブロック６１０では、腫瘍試料からＤＮＡが抽出され、処理され、全エクソーム配列決定が行われる。場合によっては、配列決定読み取りは、ＦＡＳＴＱファイルを提供するために品質管理処理（例えば、ＦａｓｔＱＣを介して）を受ける。ＦＡＳＴＱファイルは、ＢＡＭファイルを生成するために参照ゲノムにアラインメントされる。

ブロック６１５において、ＧＡＴＫＨａｐｌｏｔｙｐｅＣａｌｌｅｒを使用して、ＢＡＭファイルからバリアントを呼び出し、バリアント情報を含むＶＣＦファイルを生成することができる。試料エクソーム内のヘテロ接合部位を特定でき、ＶＣＦファイルをフィルタリングして、全てのヘテロ接合部位の参照及び代替読み取り深度を取得できる。この情報は、Ｂ対立遺伝子頻度（ＢＡＦ）を計算するために使用される。正規化されたＢＡＦ分布は、エクソーム全体のヘテロ接合部性位に対して計算される。

ブロック６２０では、訓練済み機械学習モデルを使用して、正規化されたＢＡＦ分布から腫瘍純度を推定できる。したがって、訓練済み機械学習モデルは、一致する正常試料がない場合であっても、腫瘍純度の正確な推定値を生成できる。

Ａ．対象及び試料
腫瘍純度を推定するために、複数の核酸分子を表す核酸配列データを対象の生物学的試料から取得することができる。前記対象はヒトであり得る。前記対象は、男性又は女性であり得る。前記対象は、胎児、乳児、小児、青年、ティーンエイジャー、又は成人であってもよい。前記対象は、あらゆる年齢の患者であり得る。例えば、前記対象は、約１０歳未満の患者であり得る。例えば、前記対象は、少なくとも約０、５、１０、２０、３０、４０、５０、６０、７０、８０、９０、又は１００歳の患者であり得る。前記対象は、治療レジメンを受けている、又は治療レジメン（例えば、癌治療）について評価されている患者又は他の個人であり得る。しかしながら、場合によっては、前記対象は治療レジメンを受けていない。

場合によっては、前記対象は、哺乳動物又は非哺乳動物であってもよい。場合によっては、前記対象は、ヒト、非ヒト霊長類（例えば、類人猿、サル、チンパンジー）、猫、犬、ウサギ、ヤギ、ウマ、ウシ、ブタ、齧歯動物、マウス、ＳＣＩＤマウス、ラット、モルモット、又はヒツジなどの哺乳動物である。いくつかの実施形態では、これらの遺伝子の種バリアント又は相同体は、非ヒト動物モデルで使用される。種のバリアントは、互いに機能的特性において最大の配列同一性及び類似性を有する異なる種の遺伝子であり得る。そのような種のバリアントのヒト遺伝子の多くは、Ｓｗｉｓｓ－Ｐｒｏｔデータベースに列挙されている場合がある。

特定の実施形態は、ヒト対象などの対象から試料を取得することを含み得る。場合によっては、患者からの臨床検体が得られる。例えば、血液は患者から採取され得る。特定の実施形態は、生物学的試料内にある分子（例えば、核酸、ＤＮＡ、ＲＮＡなど）を特異的に検出、プロファイリング、又は定量化することを含み得る。

前記試料は、組織試料又は体液であり得る。場合によっては、前記試料は組織試料又は生検などの臓器試料である。場合によっては、前記試料は、癌細胞を含む。場合によっては、前記試料は、癌性細胞及び正常細胞を含む。場合によっては、前記試料は腫瘍生検である。前記体液は、汗、唾液、涙、尿、血液、月経、精液、及び／又は髄液であり得る。場合によっては、前記試料は、血液試料である。前記試料は、１又は複数の末梢血リンパ球を含み得る。前記試料は、全血試料であり得る。前記血液試料は、末梢血試料であり得る。場合によっては、前記試料は、末梢血単核細胞（ＰＢＭＣ）を含み、場合によっては、前記試料は末梢血リンパ球（ＰＢＬ）を含む。前記試料は、血清試料であり得る。

前記試料は、本明細書に記載の分析方法に適した試料を提供可能な任意の方法を使用して得ることができる。前記試料は、喉スワブ、口腔スワブ、気管支洗浄、採尿、皮膚又は子宮頸部の掻き取り、頬スワブ、採唾、採便、経血採取、又は精液採取などの非侵襲的方法によって得てもよい。前記試料は、採血などの低侵襲的方法で採取してもよい。前記試料は、静脈穿刺によって採取してもよい。他の例では、前記試料は、生検、肺胞若しくは肺洗浄、又は針吸引を含むがこれらに限定されない侵襲的処置によって得られる。生検の方法は、外科的生検、切開生検、切除生検、パンチ生検、剃毛生検、又は皮膚生検を含み得る。前記試料はホルマリン固定切片であってもよい。針吸引の方法は、細針吸引、コア針生検、真空支援生検、又はラージコア生検をさらに含み得る。場合によっては、充分な量の生物学的材料を確保するために、本明細書の方法によって複数の試料を取得してもよい。場合によっては、前記試料は、生検によって取得されない。場合によっては、前記試料は腎生検ではない。

本開示の方法を使用して、少なくとも約１％、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、又はそれ以上の腫瘍細胞を含む試料中の腫瘍純度を推定することができる。いくつかの実施形態では、本開示の方法を使用して、最大で約１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、又はそれ以上の腫瘍細胞を含む試料中の腫瘍純度を推定することができる。

Ｂ．核酸配列決定データの生成
いくつかの実施形態では、前記試料は、核酸配列データを取得するために処理される。「核酸」又は「核酸分子」は、プリン及びピリミジン塩基、又は他の天然、化学的若しくは生化学的に修飾された、非天然、又は誘導体化されたヌクレオチド塩基を含む、リボヌクレオチド、デオキシリボヌクレオチド、又はペプチド核酸（ＰＮＡ）のいずれかの任意の長さのヌクレオチドのポリマー形態に対応し得る。ポリヌクレオチドの骨格は、ＲＮＡ又はＤＮＡに典型的に見られるような糖及びリン酸基、あるいは修飾又は置換された糖又はリン酸基を含み得る。ポリヌクレオチドは、メチル化ヌクレオチド及びヌクレオチド類似体などの修飾ヌクレオチドを含み得る。ヌクレオチドの配列は、非ヌクレオチド成分によって中断される可能性がある。したがって、ヌクレオシド、ヌクレオチド、デオキシヌクレオシド、及びデオキシヌクレオチドという用語は、概して、本明細書に記載されるものなどの類似体を含む。これらの類似体は、天然に存在するヌクレオシド又はヌクレオチドと共通するいくつかの構造的特徴を有する分子であるため、核酸配列又はオリゴヌクレオシド配列に組み込まれると、溶液中に天然に存在する核酸配列とのハイブリダイゼーションを可能にする。典型的には、これらの類似体は、塩基、リボース、又はホスホジエステル部分を置換及び／又は修飾することにより、天然に存在するヌクレオシド及びヌクレオチドに由来する。この変化は、ハイブリッド形成を安定化又は不安定化するか、必要に応じて相補的核酸配列とのハイブリダイゼーションの特異性を高めるように調整され得る。核酸分子は、ＤＮＡ分子であってもよい。核酸分子は、ＲＮＡ分子であってもよい。

試料処理は、核酸試料処理とそれに続く核酸試料配列とを含む。生物学的試料の一部又は全部を配列決定して、核酸配列データを提供することができ、これは、電子的、磁気的、又は光学的保存場所に保存又は維持され得る。配列情報は、コンピュータープロセッサにより分析してもよく、分析された配列情報は、電子記憶場所に保存してもよい。電子保管場所は、核酸試料から生成された配列情報及び分析された配列情報のプール又はコレクションを含み得る。いくつかの実施形態では、生物学的試料は、癌を有する又は癌を有する疑いのある対象から取得される。

いくつかの実施形態では、核酸配列決定データは、純粋な腫瘍試料と純粋な正常試料とから生成される。一致した対を成す細胞株は、別の提供元（例えば、アメリカンタイプカルチャーコレクション（ＡｍｅｒｉｃａｎＴｙｐｅＣｕｌｔｕｒｅＣｏｌｌｅｃｔｉｏｎ、ＡＴＣＣ））から入手可能である。一致した各対には、同じ対象の腫瘍細胞株と正常細胞株とが含まれていてもよい。前記細胞株は、ＤＮＡ抽出に適した数の細胞を得るために、インビトロで培養及び増殖させてもよい。ＤＮＡを抽出し、処理し、全エクソーム又は全ゲノム配列決定に供する。配列読み取りは、ＦＡＳＴＱファイルを提供するために品質管理処理（例えば、ＦａｓｔＱＣを介して）を受け得る。

場合によっては、前記核酸配列データは全ゲノム配列決定を使用して生成される。場合によっては、全ゲノム配列決定を使用して一個人におけるバリアントを特定する。場合によっては、配列決定は、ゲノムの一部にわたるディープシーケンシングを含み得る。例えば、ゲノムの画分は、少なくとも約５０、７５、１００、１２５、１５０、１７５、２００、２２５、２５０、２７５、３００、３５０、４００、４５０、５００、５５０、６００、６５０、７００、７５０、８００、８５０、９００、９５０、１，０００、１１００、１２００、１３００、１４００、１５００、１６００、１７００、１８００、１９００、２，０００、３，０００、４，０００、５，０００、６，０００、７，０００、８，０００、９，０００、１０，０００、１５，０００、２０，０００、３０，０００、４０，０００、５０，０００、６０，０００、７０，０００、８０，０００、９０，０００、１００，０００、又はそれ以上の塩基又は塩基対であり得る。場合によっては、ゲノムは、１００万、２００万、３００万、４００万、５００万、６００万、７００万、８００万、９００万、１０００万、又は１０００万を超える塩基又は塩基対にわたって配列決定されてもよい。場合によっては、ゲノムは、エクソーム全体にわたって配列決定され得る（例えば、エクソーム全体の配列決定）。場合によっては、ディープシーケンシングには、ゲノムの一部で複数の読み取りを取得することが含まれ得る。例えば、複数の読み取りを取得するには、ゲノムの一部で少なくとも２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、１０，０００個又はそれ以上の読み取りが含まれ得る。

場合によっては、核酸配列データの生成には、ディープシーケンシングによる低対立遺伝子画分の検出が含まれる。場合によっては、ディープシーケンシングは次世代シーケンシングによって行われます。場合によっては、エラーが発生しやすい領域を回避することにより、ディープシーケンシングが実行される。場合によっては、エラーが発生しやすい領域には、配列重複に近い領域、％ＧＣが異常に高い又は低い領域、ホモポリマーに近い領域、ジヌクレオチド及びトリヌクレオチド、並びに他の短い繰り返しに近い領域が含まれていてもよい。場合によっては、エラーが発生しやすい領域には、ＤＮＡ配列決定エラー（例えば、ホモポリマー配列におけるポリメラーゼスリッページ）に至る領域が含まれる場合がある。

場合によっては、核酸配列データを生成することは、試料中の１又は複数の核酸分子に対して１又は複数の配列決定反応を実施することを含む。特定の実施形態は、試料中の１又は複数の核酸分子に対して１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、１５以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、２００以上、３００以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、又は１０００以上、又はそれ以上の配列決定反応を実施することを含み得る。配列決定反応は、同時に、連続して、又はそれらの組み合わせで実施してもよい。配列決定反応は、全ゲノム配列決定又はエクソーム配列決定を含み得る。配列決定反応は、マクサム・ギルバート（Ｍａｘｉｍ－Ｇｉｌｂｅｒｔ）システム、チェーンターミネーションシステム、又はハイスループットシステムを含み得る。代替的に又は追加的に、配列決定反応は、ＨｅｌｉＳｃｏｐｅ（商標）単一分子配列決定、ナノ細孔ＤＮＡ配列決定、リンクス・セラピューティックス（ＬｙｎｘＴｈｅｒａｐｅｕｔｉｃｓ）社の超並列署名配列決定（ＭａｓｓｉｖｅｌｙＰａｒａｌｌｅｌＳｉｇｎａｔｕｒｅＳｅｑｕｅｎｃｉｎｇ、ＭＰＳＳ）、４５４パイロシーケンシング、単一分子リアルタイム（ＲＮＡＰ）配列決定、イルミナ（Ｉｌｌｕｍｉｎａ）（Ｓｏｌｅｘａ）配列決定、ＳＯＬｉＤ配列決定、ＩｏｎＴｏｒｒｅｎｔ（商標）イオン半導体配列決定、単一分子ＳＭＲＴ（商標）配列決定、ポロニー配列決定、ＤＮＡナノボール配列決定、ＶｉｓｉＧｅｎＢｉｏｔｅｃｈｎｏｌｏｇｉｅｓ社によるアプローチ、又はそれらの組み合わせを含んでいてもよい。代替的に又は追加的に、配列決定反応は、イルミナ（Ｉｌｌｕｍｉｎａ）社が提供するゲノムアナライザーＩＩｘ、ＨｉＳｅｑ、及びＭｉＳｅｑ、パシフィック・バイオサイエンシズ（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）社（カリフォルニア州）が提供するＰａｃＢｉｏＲＳシステムなどの単一分子リアルタイム（ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＲｅａｌＴｉｍｅ、ＳＭＲＴ（商標））技術、及びＳｏｌｅｘａシークエンサー（イルミナ社）、並びにヘリコス（Ｈｅｌｉｃｏｓ）社が提供するＨｅｌｉＳｃｏｐｅ（商標）シークエンサーなどの単一分子配列決定（ＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ、ｔＳＭＳ（商標））技術（マサチューセッツ州ケンブリッジ）などの１又は複数の配列決定プラットフォームを含み得るが、これらに限定されない。配列決定反応は、電子顕微鏡又は化学感受性電界効果トランジスタ（ｃｈｅｍＦＥＴ）アレイも含み得る。本開示のいくつかの態様において、配列決定反応は、毛細血管配列決定、次世代配列決定、サンガー（Ｓａｎｇｅｒ）配列決定、合成による配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、単一分子配列決定、又はそれらの組み合わせを含む。合成による配列決定は、可逆的ターミネーター配列決定、プロセッシブ単一分子配列決定、配列フロー配列決定、又はそれらの組み合わせを含み得る。配列フロー配列決定は、パイロシーケンシング、ｐＨを介した配列決定、半導体配列決定、又はそれらの組み合わせを含み得る。

場合によっては、核酸配列データを生成することは、少なくとも１つの長い読み取り配列決定反応及び少なくとも１つの短い読み取り配列決定反応を実施することを含む。長い読み取り配列決定反応及び／又は短い読み取り配列決定反応は、核酸分子のサブセットの少なくとも一部に対して実施され得る。長い読み取り配列決定反応及び／又は短い読み取り配列決定反応は、核酸分子の２つ以上のサブセットの少なくとも一部に対して実施され得る。長い読み取り配列決定反応及び短い読み取り配列決定反応の両方が、核酸分子の１又は複数のサブセットの少なくとも一部に対して実施され得る。

１又は複数の核酸分子又はそのサブセットの配列決定は、少なくとも約５、１０、１５、２０、２５、３０、３５、４０、４５、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１，０００、１５００、２，０００、２５００、３，０００、３５００、４，０００、４５００、５，０００、５５００、６，０００、６５００、７，０００、７５００、８，０００、８５００、９，０００、１０，０００、２５，０００、５０，０００、７５，０００、１００，０００、２５０，０００、５００，０００、７５０，０００、１０，０００，０００、２５，０００，０００、５０，０００，０００、１００，０００，０００、２５０，０００，０００、５００，０００，０００、７５０，０００，０００、１，０００，０００，０００個又はそれ以上の配列決定読み取りを含み得る。

配列決定反応は、１又は複数の核酸分子の少なくとも約５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、２１０、２２０、２３０、２４０、２５０、２６０、２７０、２８０、２９０、３００、３２５、３５０、３７５、４００、４２５、４５０、４７５、５００、６００、７００、８００、９００、１，０００、１５００、２，０００、２５００、３，０００、３５００、４，０００、４５００、５，０００、５５００、６，０００、６５００、７，０００、７５００、８，０００、８５００、９，０００、１０，０００、２０，０００、３０，０００、４０，０００、５０，０００、６０，０００、７０，０００、８０，０００、９０，０００、１００，０００個又はそれ以上の塩基又は塩基対を配列決定することを含み得る。配列決定反応は、１又は複数の核酸分子の少なくとも約５０、６０、７０、８０、９０、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、２１０、２２０、２３０、２４０、２５０、２６０、２７０、２８０、２９０、３００、３２５、３５０、３７５、４００、４２５、４５０、４７５、５００、６００、７００、８００、９００、１，０００、１５００、２，０００、２５００、３，０００、３５００、４，０００、４５００、５，０００、５５００、６，０００、６５００、７，０００、７５００、８，０００、８５００、９，０００、１０，０００、２０，０００、３０，０００、４０，０００、５０，０００、６０，０００、７０，０００、８０，０００、９０，０００、１００，０００個又はそれ以上の連続した塩基又は塩基対を配列決定することを含み得る。

場合によっては、配列決定手法により、少なくとも１００リード／ラン（読み取り／実行）、少なくとも２００リード／ラン、少なくとも３００リード／ラン、少なくとも４００リード／ラン、少なくとも５００リード／ラン、少なくとも６００リード／ラン、少なくとも７００リード／ラン、少なくとも８００リード／ラン、少なくとも９００リード／ラン、少なくとも１０００リード／ラン、少なくとも５，０００リード／ラン、少なくとも１０，０００リード／ラン、少なくとも５０，０００リード／ラン、少なくとも１００，０００リード／ラン、少なくとも５００，０００リード／ラン、又は少なくとも１，０００，０００リード／ランが生成される。あるいは、配列決定手法により、少なくとも１，５００，０００リード／ラン、少なくとも２，０００，０００リード／ラン、少なくとも２，５００，０００リード／ラン、少なくとも３，０００，０００リード／ラン、少なくとも３，５００，０００リード／ラン、少なくとも４，０００，０００リード／ラン、少なくとも４，５００，０００リード／ラン、又は少なくとも５，０００，０００リード／ランが生成される。

場合によっては、配列決定手法により、少なくとも約３０塩基対、少なくとも約４０塩基対、少なくとも約５０塩基対、少なくとも約６０塩基対、少なくとも約７０塩基対、少なくとも約８０塩基対、少なくとも約９０塩基対、少なくとも約１００塩基対、少なくとも約１１０、少なくとも約１２０塩基対／読み取り、少なくとも約１５０塩基対、少なくとも約２００塩基対、少なくとも約２５０塩基対、少なくとも約３００塩基対、少なくとも約３５０塩基対、少なくとも約４００塩基対、少なくとも約４５０塩基対、少なくとも約５００塩基対、少なくとも約５５０塩基対、少なくとも約６００塩基対、少なくとも約７００塩基対、少なくとも約８００塩基対、少なくとも約９００塩基対、又は少なくとも約１，０００塩基対／読み取りが生成される。追加的に又は代替的に、配列決定技術により、長い配列決定読み取りを生成し得る。場合によっては、配列決定技術により、少なくとも約１，２００塩基対／読み取り、少なくとも約１，５００塩基対／読み取り、少なくとも約１，８００塩基対／読み取り、少なくとも約２，０００塩基対／読み取り、少なくとも約２，５００塩基対／読み取り、少なくとも約３，０００塩基対／読み取り、少なくとも約３，５００塩基対／読み取り、少なくとも約４，０００塩基対／読み取り、少なくとも約４，５００塩基対／読み取り、少なくとも約５，０００塩基対／読み取り、少なくとも約６，０００塩基対／読み取り、少なくとも約７，０００塩基対／読み取り、少なくとも約８，０００塩基対／読み取り、少なくとも約９，０００塩基対／読み取り、少なくとも約１０，０００塩基対／読み取り、２０，０００塩基対／読み取り、３０，０００塩基対／読み取り、４０，０００塩基対／読み取り、５０，０００塩基対／読み取り、６０，０００塩基対／読み取り、７０，０００塩基対／読み取り、８０，０００塩基対／読み取り、９０，０００塩基対／読み取り、又は１００，０００塩基対／読み取りを生成し得る。

ハイスループット配列決定システムは、成長する鎖に組み込まれた直後又はその際に、配列決定されたヌクレオチドの検出、すなわち、リアルタイム又は実質的にリアルタイムでの配列の検出を可能にし得る。場合によっては、ハイスループット配列決定により、少なくとも１，０００、少なくとも５，０００、少なくとも１０，０００、少なくとも２０，０００、少なくとも３０，０００、少なくとも４０，０００、少なくとも５０，０００、少なくとも１００，０００、又は少なくとも５００，０００配列読み取り／時間が生成され、各読み取りは、少なくとも５０、少なくとも６０、少なくとも７０、少なくとも８０、少なくとも９０、少なくとも１００、少なくとも１２０、少なくとも１５０、少なくとも２００、少なくとも２５０、少なくとも３００、少なくとも３５０、少なくとも４００、少なくとも４５０、又は少なくとも５００塩基／読み取りである。配列決定は、ゲノムＤＮＡ、ＲＮＡ転写産物に由来するｃＤＮＡ、又は鋳型としてのＲＮＡなどの本明細書に記載の核酸を使用して実施され得る。

Ｃ．ヌクレオチド配列バリアントの特定
生物学的試料の腫瘍純度を推定するために、生物学的試料のＢ対立遺伝子頻度（ＢＡＦ）を決定することができる。ＢＡＦを決定するために、ゲノム領域のセットを特定することができ、ゲノム領域のセットの各々は、参照ゲノムの対応するゲノム領域に関連するヌクレオチド配列バリアントを含み得る。ゲノム領域のセットを決定するために、核酸配列データを参照ゲノムにアラインメントすることができる。例えば、核酸配列データに対応するＦＡＳＴＱファイルを参照ゲノムにアラインメントして、１又は複数のＢＡＭファイルを生成することができる。１又は複数のＢＡＭファイルを別のモジュール（例えば、ＧＡＴＫＨａｐｌｏｔｙｐｅＣａｌｌｅｒ）で処理して、ゲノム領域のセットを特定することができる。場合によっては、ゲノム領域のセットを含むＶＣＦファイルが生成される。追加的に又は代替的に、ＶＣＦファイルは一致した対を成す細胞株に対して取得され得る。ＶＣＦファイルは、核酸配列データと参照ゲノムとの比較に基づいて、ヌクレオチド配列バリアントを有するゲノム領域のセットを特定し得る。

特定の実施形態は、１又は複数のゲノム領域を含む核酸分子を含み得る。特定の実施形態は、１又は複数のセットのゲノム領域を含む核酸分子を含み得る。前記１又は複数のゲノム領域は、１又は複数のゲノム領域の特徴を含み得る。前記ゲノム領域の特徴は、ゲノム全体又はその一部を含み得る。前記ゲノム領域の特徴は、エクソーム全体又はその一部を含み得る。前記ゲノム領域の特徴は、１又は複数の遺伝子セットを含み得る。前記ゲノム領域の特徴は、１又は複数の遺伝子を含み得る。前記ゲノム領域の特徴は、１又は複数の調節要素のセットを含み得る。前記ゲノム領域の特徴は、１又は複数の調節要素を含み得る。

ゲノム領域の特徴は、多型のセットを含み得る。ゲノム領域の特徴は、１又は複数の多型を含み得る。ゲノム領域の特徴は、１又は複数の核酸分子のＧＣ含量、複雑性、及び／又はマッピング可能性に関連していてもよい。ゲノム領域の特徴には、１又は複数の単純なタンデムリピート（ＳＴＲ）、不安定な拡張リピート、セグメント重複、単一及び対を成す読み取り変性マッピングスコア、ＧＲＣｈ３７パッチ、又はそれらの組み合わせが含まれ得る。ゲノム領域の特徴には、全ゲノム配列決定（ＷＧＳ）からの１又は複数の低平均カバレッジ領域、ＷＧＳからのゼロ平均カバレッジ領域、検証済み圧縮、又はそれらの組み合わせが含まれ得る。ゲノム領域の特徴には、１又は複数の代替又は非参照配列が含まれ得る。ゲノム領域の特徴は、１又は複数の遺伝子フェージング及び再構築遺伝子が含まれ得る。本開示のいくつかの態様では、１又は複数のゲノム領域の特徴は、相互に排他的ではない。例えば、ゲノム全体又はその一部を含むゲノム領域の特徴は、エクソーム全体又はその一部、１又は複数の遺伝子、１又は複数の調節要素などのような追加のゲノム領域の特徴と重複し得る。あるいは、１又は複数のゲノム領域の特徴は、相互に排他的である。例えば、全ゲノムの非コード部分を含むゲノム領域は、エクソーム又はその一部、あるいは遺伝子のコード部分などのゲノム領域の特徴と重複しないこともある。代替的に又は追加的に、１又は複数のゲノム領域の特徴は、部分的に排他的又は部分的に包括的である。例えば、エクソン全体又はその一部を含むゲノム領域は、遺伝子のエクソン部分を含むゲノム領域と部分的に重複し得る。しかしながら、エクソーム全体又はその一部を含むゲノム領域は、遺伝子のイントロン部分を含むゲノム領域と重複しないこともある。したがって、遺伝子又はその一部を含むゲノム領域の特徴は、エクソーム全体又はその一部を含むゲノム領域の特徴を部分的に含まなくてもよい及び／又は部分的に含んでいてもよい。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、ゲノム全体又はその一部を含むゲノム領域の特徴を含む。ゲノム全体又はその一部は、ゲノムの１又は複数のコーディング部分、ゲノムの１又は複数の非コーディング部分、又はそれらの組み合わせを含み得る。ゲノムのコーディング部分は、１又は複数のタンパク質をコードする遺伝子の１又は複数のコーディング部分を含み得る。ゲノムの１又は複数のコーディング部分は、エクソーム全体又はその一部を含み得る。代替的に又は追加的に、ゲノムの１又は複数のコーディング部分は、１又は複数のエクソンを含み得る。

ゲノムの１又は複数の非コード部分は、１又は複数の非コード分子又はその一部を含み得る。非コード分子は、１又は複数の非コードＲＮＡ、１又は複数の調節要素、１又は複数のイントロン、１又は複数の偽遺伝子、１又は複数のリピート配列、１又は複数のトランスポゾン、１又は複数のウイルス要素、１又は複数のテロメア、それらの一部、又はそれらの組み合わせを含み得る。非コードＲＮＡは、タンパク質に翻訳されない機能性ＲＮＡ分子であってもよい。非コードＲＮＡの例には、リボソームＲＮＡ、トランスファーＲＮＡ、ＰＩＷＩ相互作用ＲＮＡ、マイクロＲＮＡ、ｓｉＲＮＡ、ｓｈＲＮＡ、ｓｎｏＲＮＡ、ｓｎｃＲＮＡ、及びｌｎｃＲＮＡが含まれるが、これらに限定されない。偽遺伝子は公知の遺伝子に関連している場合があり、典型的にはもはや発現されない。リピート配列は、１又は複数のタンデムリピート、１又は複数の散在リピート、又はそれらの組み合わせを含み得る。タンデムリピートは、１又は複数のサテライトＤＮＡ、１又は複数のミニサテライト、１又は複数のマイクロサテライト、又はそれらの組み合わせを含み得る。

散在リピートには、１又は複数のトランスポゾンが含まれていてもよい。トランスポゾンは可動遺伝因子であってもよい。可動遺伝因子は、ゲノム内での位置が可変である場合が多い。トランスポゾンは、クラスＩトランスポゾン（クラスＩＴＥ）又はクラスＩＩトランスポゾン（クラスＩＩＴＥ）に分類できる。クラスＩＴＥ（例えば、レトロトランスポゾン）は、多くの場合、最初は転写によってＤＮＡからＲＮＡに、次に逆転写によってＲＮＡからＤＮＡに戻るという２つの段階で自分自身をコピーすることがある。続いて、ＤＮＡコピーがゲノムの新しい位置に挿入され得る。クラスＩＴＥには、１又は複数の長いターミナルリピート（ＬＴＲ）、１又は複数の長い散在核要素（ＬＩＮＥ）、１又は複数の短い散在核要素（ＳＩＮＥ）、又はそれらの組み合わせが含まれ得る。ＬＴＲの例には、ヒト内因性レトロウイルス（ＨＥＲＶ）、中程度の反復リピート４（ｍｅｄｉｕｍｒｅｉｔｅｒａｔｅｄｒｅｐｅａｔｓ４、ＭＥＲ４）、及びレトロトランスポゾンが含まれるが、これらに限定されない。ＬＩＮＥの例には、ＬＩＮＥ１及びＬＩＮＥ２が含まれるが、これらに限定されない。ＳＩＮＥには、１又は複数のＡｌｕ配列、１又は複数の哺乳動物全体における散在リピート（ｍａｍｍａｌｉａｎ－ｗｉｄｅｉｎｔｅｒｓｐｅｒｓｅｄｒｅｐｅａｔ、ＭＩＲ）、又はそれらの組み合わせが含まれ得る。クラスＩＩＴＥ（例えば、ＤＮＡトランスポゾン）は、ＲＮＡ中間体を含まないことが多い。ＤＮＡトランスポゾンは、多くの場合、ある部位から切り取られ、ゲノム内の別の部位に挿入される。あるいは、ＤＮＡトランスポゾンが複製され、ゲノムの新しい位置に挿入される。ＤＮＡトランスポゾンの例には、ＭＥＲ１、ＭＥＲ２、及びマリナーが含まれるが、これらに限定されない。ウイルス要素には、１又は複数の内在性レトロウイルス配列が含まれ得る。テロメアは、染色体の末端にある反復ＤＮＡの領域であることが多い。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は核酸分子のサブセットを含み得、１又は複数のゲノム領域のうちの少なくとも１つは、エクソーム全体又はその一部を含むゲノム領域の特徴を含む。エクソームは、多くの場合、エクソンによって形成されるゲノムの一部である。エクソームは、非翻訳領域（ＵＴＲ）、スプライス部位、及び／又はイントロン領域によって形成される場合がある。エクソーム全体又はその一部は、タンパク質をコードする遺伝子の１又は複数のエクソンを含み得る。エクソーム全体又はその一部には、１又は複数の非翻訳領域（ＵＴＲ）、スプライス部位、及びイントロンが含まれる場合がある。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、遺伝子又はその一部を含むゲノム領域の特徴を含む。典型的には、遺伝子には、ポリペプチド又は機能性ＲＮＡをコードする核酸のストレッチが含まれる。遺伝子は、１又は複数のエクソン、１又は複数のイントロン、１又は複数の非翻訳領域（ＵＴＲ）、又はそれらの組み合わせを含み得る。エクソンは多くの場合、遺伝子のセクションをコードし、前駆体ｍＲＮＡ配列に転写され、遺伝子の最終的な成熟ＲＮＡ産物内にある。イントロンは多くの場合、遺伝子の非コードセクションであり、前駆体ｍＲＮＡ配列に転写され、ＲＮＡスプライシングによって除去される。ＵＴＲは、ｍＲＮＡ鎖のコード配列の両側のセクションを指す場合がある。コード配列の５’側にあるＵＴＲは、５’ＵＴＲ（又はリーダー配列）と呼ばれることがある。コード配列の３’側に位置するＵＴＲは、３’ＵＴＲ（又はトレーラー配列）と呼ばれることがある。ＵＴＲには、遺伝子発現を制御するための１又は複数の要素が含まれていてもよい。調節要素などの要素は、５’ＵＴＲに配置され得る。ポリアデニル化シグナル、タンパク質の結合部位、ｍｉＲＮＡの結合部位などの調節配列は、３’ＵＴＲに位置し得る。３’ＵＴＲに位置するタンパク質の結合部位として、セレノシステイン挿入配列（ＳＥＣＩＳ）要素及びＡＵリッチ要素（ＡＲＥ）が挙げられるが、これらに限定されない。ＳＥＣＩＳ要素は、リボソームに、コドンＵＧＡを終止コドンではなくセレノシステインとして翻訳するように指示する場合がある。ＡＲＥは多くの場合、主にアデニンヌクレオチド及びウラシルヌクレオチドからなるストレッチであり、ｍＲＮＡの安定性に影響を与える可能性がある。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は核酸分子のサブセットを含み得、１又は複数のゲノム領域のうちの少なくとも１つは、遺伝子のセットを含むゲノム領域の特徴を含む。遺伝子のセットには、メンデルＤＢ遺伝子、ヒト遺伝子変異データベース（ＨＧＭＤ）遺伝子、癌遺伝子センサス遺伝子、ＯＭＩＭ（ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ）遺伝子、ＨＧＭＤメンデル遺伝子、及びヒト白血球抗原（ＨＬＡ）遺伝子が含まれるが、これらに限定されない。遺伝子のセットは、１又は複数の公知のメンデル形質、１又は複数の公知の疾患形質、１又は複数の公知の薬物形質、１又は複数の公知の生物医学的に解釈可能なバリアント、又はそれらの組み合わせを有し得る。メンデル形質は、単一の遺伝子座によって制御され、メンデル遺伝パターンを示し得る。公知のメンデル形質を有する遺伝子のセットには、フェニルチオカルバミド（優性）に対する味覚、シアン化水素（苦いアーモンド様）に対する嗅覚（劣性）、白皮症（劣性）、短指症（手指及び足指の短さ）、及び湿った（優性）又は乾いた（劣性）耳垢を含むがこれらに限定されないメンデル形質をコードする１又は複数の遺伝子が含まれ得る。疾患形質は、疾患の原因となるかリスクを高め、メンデルパターン又は複雑なパターンで受け継がれる場合がある。公知の疾患特性を有する遺伝子のセットは、嚢胞性線維症、血友病、及びリンチ症候群を含むがこれらに限定されない疾患形質をコードする１又は複数の遺伝子を含み得る。

薬物形質は、１又は複数の薬物又は薬物ファミリーの代謝、最適用量、有害反応、及び副作用を変化させ得る。公知の薬物形質を有する遺伝子のセットは、ＣＹＰ２Ｄ６、ＵＧＴ１Ａ１、及びＡＤＲＢ１を含むがこれらに限定されない薬物形質をコードする１又は複数の遺伝子を含み得る。生物医学的に解釈可能なバリアントは、疾患又は適応症に関連する遺伝子の多型であり得る。公知の生物医学的に解釈可能なバリアントを有する遺伝子のセットは、嚢胞性線維症（ＣＦ）変異、筋ジストロフィー変異、ｐ５３変異、Ｒｂ変異、細胞周期調節因子、受容体、及びキナーゼを含むがこれらに限定されない生物医学的に解釈可能なバリアントをコードする１又は複数の遺伝子を含み得る。代替的に又は追加的に、公知の生物医学的に解釈可能なバリアントを有する遺伝子のセットは、ハンチントン病、癌、嚢胞性線維症、筋ジストロフィー（例えば、デュシェンヌ型筋ジストロフィー）に関連する１又は複数の遺伝子を含み得る。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、調節要素又はその一部を含むゲノム領域の特徴を含む。調節要素は、シス調節要素又はトランス調節要素であり得る。シス調節要素は、近くの遺伝子の転写を制御する配列であってもよい。シス調節エレメントは、５’又は３’非翻訳領域（ＵＴＲ）又はイントロン内に位置する場合がある。トランス調節要素は、離れた遺伝子の転写を制御し得る。調節要素は、１又は複数のプロモーター、１又は複数のエンハンサー、又はそれらの組み合わせを含み得るプロモーターは特定の遺伝子の転写を促進し得るものであり、コード領域の上流に見られる場合がある。エンハンサーは、遺伝子の転写レベルに遠隔効果を与え得る。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は核酸分子のサブセットを含み得、１又は複数のゲノム領域のうちの少なくとも１つは、多型又はその一部を含むゲノム領域の特徴を含む。概して、多型とは遺伝子型の突然変異を指す。多型は、生殖細胞バリアント又は体細胞バリアントであり得る。多型は、１又は複数の塩基の変化、挿入、反復（リピート）、又は１又は複数の塩基の欠失を含み得る。コピー数多型（ＣＮＶ）、塩基転換（トランスバージョン）、及びその他の再配列も、遺伝的変化の形態である。多型マーカーには、制限フラグメント長多型、可変数のタンデムリピート（ＶＮＴＲ）、超可変領域、ミニサテライト、ジヌクレオチドリピート、トリヌクレオチドリピート、テトラヌクレオチドリピート、単純配列リピート、及びＡｌｕなどの挿入要素が含まれる。選択された集団で最も頻繁に発生する対立遺伝子型は、野生型形態と称される場合もある。二倍体生物は、対立遺伝子型についてホモ接合性又はヘテロ接合性であり得る。二対立遺伝子（ｄｉａｌｌｅｌｉｃ）多型には２つの形態がある。三対立遺伝子（ｔｒｉａｌｌｅｌｉｃ）多型には３つの形態がある。一塩基多型（ＳＮＰ）は、多型の一形態である。本開示のいくつかの局面において、１つ以上の多型は、１又は複数の単一ヌクレオチド変化、インデル（Ｉｎｄｅｌ）、小挿入、小欠失、構造的バリアント接合、可変長タンデムリピート（縦列反復）、隣接配列、又はそれらの組み合わせを含む。１又は複数の多型は、コード領域及び／又は非コード領域内に位置し得る。１又は複数の多型は、遺伝子、エクソン、イントロン、スプライス部位、非翻訳領域、又はそれらの組み合わせ内、それらの周囲、又はそれらの近くに位置し得る。１又は複数の多型は、遺伝子、エクソン、イントロン、非翻訳領域の少なくとも一部にまたがっていてもよい。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、１又は複数の単純タンデムリピート（ＳＴＲ）、不安定な拡張リピート、セグメント重複、単一及び対を成す読み取り変性マッピングスコア、ＧＲＣｈ３７パッチ、又はそれらの組み合わせを含むゲノム領域の特徴を含む。前記１又は複数のＳＴＲは、１又は複数のホモポリマー、１又は複数のジヌクレオチドリピート、１又は複数のトリヌクレオチドリピート、又はそれらの組み合わせを含み得る。前記１又は複数のホモポリマーは、約７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０又はそれ以上の塩基又は塩基対であり得る。前記ジヌクレオチドリピート及び／又はトリヌクレオチドリピートは、約１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３５、４０、４５、５０又はそれ以上の塩基又は塩基対であり得る。単一及び対を成す読み取り変性マッピングスコアは、ＥＮＣＯＤＥ／ＣＲＧ（Ｇｕｉｇｏ）のＧＥＭによる１００ｍｅｒのアラインメント可能性、ＥＮＣＯＤＥ／ＣＲＧ（Ｇｕｉｇｏ）のＧＥＭによる７５ｍｅｒのアラインメント可能性、信号マッピング可能性の１００塩基対ボックスカー平均、対を成す読み取りスコアの軌跡及び可能な対の最大値、又はそれらの組み合わせに基づくか、それらから導出され得る。

ゲノム領域の特徴には、全ゲノム配列決定（ＷＧＳ）からの１又は複数の低平均カバレッジ領域、ＷＧＳからのゼロ平均カバレッジ領域、検証済み圧縮、又はそれらの組み合わせが含まれ得る。ＷＧＳの低平均カバレッジ領域には、Ｉｌｌｕｍｉｎａ（登録商標）Ｖ３の化学により生成された領域、平均カバレッジに基づくポアソン分布の第１のパーセンタイル未満の領域、又はそれらの組み合わせが含まれ得る。ＷＧＳのゼロ平均カバレッジ領域には、Ｉｌｌｕｍｉｎａ（登録商標）Ｖ３の化学により生成された領域が含まれ得る。検証済み圧縮には、マッピングされた深さが高い領域、２以上のハプロタイプが観察された領域、参照でリピートが欠落していると予想される領域、又はそれらの組み合わせが含まれ得る。ゲノム領域の特徴には、１又は複数の代替又は非参照配列が含まれ得る。１又は複数の代替又は非参照配列は、公知の構造バリアント接合部、公知の挿入、公知の欠失、代替ハプロタイプ、又はそれらの組み合わせを含み得る。ゲノム領域の特徴は、１又は複数の遺伝子フェージング及び再構築遺伝子が含まれ得る。フェージング及び再構築遺伝子の例には、１又は複数の主要組織適合遺伝子複合体、血液型、及びアミラーゼ遺伝子ファミリーが含まれるが、これらに限定されない。１又は複数の主要組織適合遺伝子複合体は、１又は複数のＨＬＡクラスＩ、ＨＬＡクラスＩＩ、又はそれらの組み合わせを含み得る。１又は複数のＨＬＡクラスＩは、ＨＬＡ－Ａ、ＨＬＡ－Ｂ、ＨＬＡ－Ｃ、又はそれらの組み合わせを含み得る。１又は複数のＨＬＡクラスＩＩは、ＨＬＡ－ＤＰ、ＨＬＡ－ＤＭ、ＨＬＡ－ＤＯＡ、ＨＬＡ－ＤＯＢ、ＨＬＡ－ＤＱ、ＨＬＡ－ＤＲ、又はそれらの組み合わせを含み得る。血液型遺伝子には、ＡＢＯ、ＲＨＤ、ＲＨＣＥ、又はそれらの組み合わせが含まれ得る。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、１又は複数の核酸分子のＧＣ含量に関連するゲノム領域の特徴を含む。ＧＣ含量は、核酸分子のＧＣ含量を指し得る。あるいは、ＧＣ含量は、１又は複数の核酸分子のＧＣ含量を指す場合があり、平均ＧＣ含量と称される場合がある。本明細書で使用される場合、「ＧＣ含量」及び「平均ＧＣ含量」という用語は、交換可能に使用され得る。ゲノム領域のＧＣ含量は、高ＧＣ含量であってもよい。典型的には、高ＧＣ含量とは、約６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、又はそれ以上のＧＣ含量を指す。本開示のいくつかの態様では、高ＧＣ含量は、約７０％以上のＧＣ含量を指し得る。ゲノム領域のＧＣ含量は、低ＧＣ含量であってもよい。典型的には、低ＧＣ含量とは、約６５％、６０％、５５％、５０％、４５％、４０％、３５％、３０％、２５％、２０％、１５％、１０％、５％、２％、又はそれ以下のＧＣ含量を指す。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、１又は複数の核酸分子の複雑性に関連するゲノム領域の特徴を含む。核酸分子の複雑性は、ヌクレオチド配列のランダム性を指し得る。低複雑性は、配列内の１又は複数のヌクレオチド種のパターン、リピート、及び／又は欠乏を指し得る。

特定の実施形態は、１又は複数のゲノム領域を含む核酸試料又は分子を含み得、１又は複数のゲノム領域のうちの少なくとも１つは、１又は複数の核酸分子のマッピング可能性に関連するゲノム領域の特徴を含む。核酸分子のマッピング可能性は、参照配列へのそのアラインメントの特有性を指し得る。マッピング可能性の低い核酸分子は、参照配列とのアラインメントが不充分となる場合がある。

Ｄ．ＢＡＦ分布の計算
ゲノム領域のセットの各ゲノム領域について、Ｂ対立遺伝子頻度（ＢＡＦ）を決定することができる。ＢＡＦは、２つの対立遺伝子（Ａ及びＢ）の対立遺伝子強度比の正規化された測定値を指す。１００又は０のＢＡＦは、２つの対立遺伝子の１つ（例えば、ＡＡ又はＢＢ）が完全に存在しないことを示す。例えば、試料の両方の染色体に参照ゲノムに関連するヌクレオチド配列バリアントが含まれている場合、特定のゲノム領域のＢＡＦは１００であり得る。したがって、バリアント対立遺伝子は、その試料の読み取りのほぼ１００％に存在する必要がある。場合によっては、ＢＡＦ分布を正規化して、曲線下面積の合計が１になるような密度プロットを生成する。具体的には、全てのバリアントのＢＡＦのヒストグラムが作成され、このヒストグラムの面積が計算され、ヒストグラムの各ビンが計算された面積で除算される。

試料内のヘテロ接合性対立遺伝子では、バリアントは配列読み取りのサブセットに存在する。したがって、５０のＢＡＦは、両方の対立遺伝子（例えば、ＡＢ）が同等に存在することを示す。コピー数多型がない正常試料では、０、５０、又は１００のＢＡＦが期待される。ただし、腫瘍試料では、変異によってＢＡＦ値が変化する可能性がある。例えば、Ｂ対立遺伝子を複製するコピー数イベントは、－６７％のＢ対立遺伝子頻度に至る場合がある。別の例では、１つの染色体のみにバリアントが含まれている場合、バリアント対立遺伝子は、その試料の読み取りのほぼ５０％に存在する必要がある。データ生成プロセスに固有のランダムな変化によりノイズが発生し、観察されたＢＡＦ測定値が、両方の腫瘍試料及び正常試料の特定のコピー数の理想的な値から逸脱する。

場合によっては、生物学的試料（例えば、エクソーム試料）のヘテロ接合部位に対応するゲノム領域のサブセットが特定され、ゲノム領域のサブセット各々の対立遺伝子頻度が定量化される。したがって、ＶＣＦファイルをフィルタリングして、ヌクレオチド配列バリアントを有する全てのヘテロ接合部位の参照及び代替読み取り深度を取得できる。このような情報を使用して、ヘテロ接合性を有するゲノム領域のサブセットの各ゲノム領域のＢＡＦを計算できる。

ゲノム領域のセットごとに決定されたＢＡＦに基づいて、正規化されたＢＡＦ分布を計算できる。ＢＡＦ分布は、ゲノム領域のセットの各ゲノム領域のＢＡＦに対応する絶対量、パーセンテージ、及び／又は正規化された量を示し得る。場合によっては、正規化されたＢＡＦ分布は、ゲノム領域のサブセット（例えば、エクソーム全体のヘテロ接合部位）に対応するＢＡＦから決定される。ＢＡＦ値は典型的には０～１００であるため、正規化されたＢＡＦ分布には最大１０１個のＢＡＦ値が含まれる場合があり、各値は対応する正規化された頻度を示す。追加的に又は代替的に、正規化されたＢＡＦ分布は、対応するＢＡＦ値が所定の数のビンに投入され得るように修正され得る。例えば、各ビンは、重複しない範囲内のＢＡＦ値（例えば、１～９、１０～１９）に対応していてもよく、ＢＡＦ値を対応するビンに割り当てることができる。次に、ＢＡＦ分布を、各所定のビンに対応する値に基づいて決定することができる。

図７Ａ～７Ｅは、いくつかの実施形態によるプロットされたＢＡＦ分布の例を提供する。図７Ａ及び図７Ｂの両方の図において、ｘ軸は、０％（Ａ対立遺伝子についてホモ接合性）～１００％（Ｂ対立遺伝子についてホモ接合性）までの範囲内のＢＡＦ値を表す。上述したように、５０のＢＡＦはヘテロ接合性を示し、これは両方の対立遺伝子（例えば、ＡＢ）が同等に存在することに対応する。正常試料では、０、５０、又は１００のＢＡＦが期待され得る。ただし、腫瘍試料では、変異によってＢＡＦ値が変化する可能性がある。例えば、Ｂ対立遺伝子を複製するコピー数イベントは、－６７％のＢ対立遺伝子頻度に至る場合がある。ｙ軸は、ｘ軸の各ＢＡＦ値に対応する正規化された頻度値を表す。正規化された頻度値は、特定のＢＡＦ値に対応するいくつかのゲノム領域を特定し得る。例えば、５０％のＢＡＦの正規化された頻度は、４を超える値にすることができる。

図７Ａは、純粋な正常試料の染色体におけるヘテロ接合部位からのＢ対立遺伝子頻度のヒストグラムである。ヒストグラムは正規分布を示し、ほとんどの観察されたＢ対立遺伝子頻度は５０％近くに低下している。図７Ｂは、純粋な腫瘍史試料中のヘテロ接合部位からのＢ対立遺伝子頻度のヒストグラムである。ヒストグラムは変化した分布を示し、５０％からさらに低下するＢ対立遺伝子頻度がより多く観察された。図７Ｂに示すように、体細胞変異数の増加が、ＢＡＦ頻度を５０％から変更させた可能性があることが分かる。

図７Ｃはヒートマップであり、各行は純粋な正常試料の染色体からのＢＡＦ分布を表す。ヒートマップは正規分布を示し、ほとんどの観察されたＢ対立遺伝子頻度は５０％近くに低下している。図７Ｅはヒートマップであり、各行は純粋な腫瘍試料の染色体からのＢＡＦ分布を表す。ヒートマップは変化した分布を示し、５０％からさらに低下するＢ対立遺伝子頻度がより多く観察された。図７Ｄは、５０％が正常で５０％が腫瘍である試料からのヒートマップである。ヒートマップは、図７Ｃ及び図７Ｅに示される分布の間にある中間分布を示す。

Ｅ．ＢＡＦを使用した純粋な腫瘍試料及び純粋な正常試料の分類
場合によっては、生物学的試料のＢＡＦ特性を使用して、生物学的試料を正常又は腫瘍があるものとして分類する。例えば、正規化されたＢＡＦ分布は、複数の純粋な腫瘍試料及び純粋な正常試料のエクソーム全体のヘテロ接合部位で計算できる。純粋な腫瘍試料及び純粋な正常試料は、全エクソームＢＡＦ特性を使用したロジスティック回帰を使用して分類できる。

図８は、いくつかの実施形態による、Ｂ対立遺伝子頻度の特徴を使用して生物学的試料を分類するための最初の主な２つの構成要素（ＰＣ１及びＰＣ２）のプロット８００を示す。図８において、最初の主な２つの構成要素は、腫瘍試料と正常試料との近線形分離可能性を示し、ＢＡＦ特性が試料の腫瘍含有量を推定するのに適し得ることを示している。さらに、純粋な腫瘍試料及び純粋な正常試料は、全エクソームＢＡＦ特性を使用したロジスティック回帰を使用して分類できることが実証される。

Ｆ．ＢＡＦ分布に基づく腫瘍純度の推定
訓練済み機械学習モデルを使用して前記生物学的試料のＢＡＦ分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定し得る。いくつかの実施形態では、前記訓練済み機械学習モデルは、完全に接続されたニューラルネットワークを含む。前記完全に接続されたニューラルネットワークは、正規化線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）活性化関数を備えた完全に接続された層を含んでいてもよい。いくつかの実施形態では、前記完全に接続されたニューラルネットワークの出力活性化関数は、シグモイド関数である。前記完全に接続されたニューラルネットワークの損失関数は、平均二乗誤差（ＭＳＥ）を生成するように構成され得る。いくつかの実施形態では、前記完全に接続されたニューラルネットワークは、層の線形検索、サイズの線形検索、学習率の対数検索、又はそれらの組み合わせを用いたランダムサンプリングを使用したハイパーパラメーター検索によって調整される。

場合によっては、前記訓練済み機械学習モデルは、一次元畳み込みニューラルネットワークを含む。一次元畳み込みニューラルネットワークは、Ｂ対立遺伝子頻度分布を入力として使用でき、高さ２５、幅１、深さ１００の入力サイズにエンコードされるように構成され得る。いくつかの実施形態では、一次元畳み込みニューラルネットワークの各層は、１×１畳み込みを実行し、続いてＲｅＬＵ活性化関数を実行する。

腫瘍純度を特定する推定メトリックが出力され得る。例えば、推定メトリックを含むレポートが出力され得る。いくつかの実施形態では、前記レポートは、Ｂ対立遺伝子頻度分布を特定する情報を含む。前記レポートは、少なくとも１つの診断マーカー及び／又は少なくとも１つの予後マーカーを識別する情報も含んでいてもよい。いくつかの実施形態では、前記レポートは、予測される体細胞バリアントを特定する情報を含む。前記レポートは、治療推奨も含んでいてもよい。いくつかの実施形態では、治療推奨には、ヒト対象に治療を施すための推奨が含まれる。前記治療推奨は、前記ヒト対象に治療を施さないという推奨を含む場合がある。

ＩＶ．単一試料から腫瘍純度を推定するためのプロセス例
図９は、特定の実施形態による生物学的試料の腫瘍純度を推定する方法の例を示すフローチャート９００を含む。フローチャート９００に記載されている操作は、例えば、訓練済み一次元又は二次元の畳み込みニューラルネットワークなどの訓練済み機械学習モデルを実装するコンピューターシステムによって実行され得る。フローチャート９００は、操作を順次プロセスとして説明することができるが、様々な実施形態において、操作の多くは、並行して又は同時に実行され得る。また、操作の順序を変更してもよい。操作には、図示されていない追加の工程が含まれてもよい。さらに、この方法の実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードに実装されている場合、関連するタスクを実行するためのプログラムコード又はコードセグメントは、記憶媒体などのコンピューター可読媒体に格納され得る。

操作９１０で、コンピューターシステムは、対象の生物学的試料の複数の核酸分子を表す核酸配列データを取得する。前記核酸配列データは、腫瘍試料の複数の核酸分子を配列決定することによって生成され得る。場合によっては、配列決定の前に複数の核酸分子が単離される。前記核酸配列データは、全エクソーム配列データに対応し得る。代替的に又は追加的に、前記核酸配列データは全ゲノム配列決定データである。

操作９２０で、コンピューターシステムは、前記核酸配列データを参照ゲノムにアラインメントする。例えば、核酸配列データに対応するＦＡＳＴＱファイルを参照ゲノムにアラインメントして、１又は複数のＢＡＭファイルを生成することができる。

操作９３０で、前記コンピューターシステムは、アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定する。前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する１又は複数のヌクレオチド配列バリアントを含んでいてもよい。場合によっては、前記コンピューターシステムは、前記核酸配列データにおける１又は複数のヌクレオチド配列バリアント候補を特定し、前記１又は複数のヌクレオチド配列バリアント候補の各々の参照読み取り深度及び代替読み取り深度を計算する。

操作９４０で、前記コンピューターシステムは、ゲノム領域のセットの各ゲノム領域のＢＡＦを測定する。ＢＡＦは、２つの対立遺伝子（Ａ及びＢ）の対立遺伝子強度比の正規化された測定値を指す。場合によっては、１００又は０のＢＡＦは、２つの対立遺伝子（例えば、ＡＡ又はＢＢ）の１つが完全に存在しないことを示し、５０のＢＡＦは、両方の対立遺伝子（例えば、ＡＢ）が等しく存在することを示している。正常試料では、０、５０、又は１００のＢＡＦが期待され得る。ただし、腫瘍試料では、変異によってＢＡＦ値が変化する可能性がある。

操作９５０で、前記コンピューターシステムは、一連のゲノム領域のＢＡＦに基づいて、生物学的試料のＢＡＦ分布を測定する。場合によっては、Ｂ対立遺伝子頻度が正規化される。

操作９６０で、前記コンピューターシステムは、訓練済み機械学習モデルを使用して前記Ｂ対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定する。場合によっては、前記訓練済み機械学習モデルは、正常細胞で希釈された１又は複数の腫瘍細胞に由来する核酸配列データから生成された訓練データセットで訓練されている。前記訓練済み機械学習モデルの平均絶対誤差は、約０．２未満であってもよい。

操作９７０で、前記コンピューターシステムはメトリックを出力する。場合によっては、前記コンピューターシステムは、腫瘍純度を特定する推定メトリックを含むレポートを出力する。推定メトリックに加えて、レポートには測定されたＢ対立遺伝子頻度分布が含まれていてもよい。前記レポートには、少なくとも１つのバイオマーカー、少なくとも１つの予後マーカー、予測される体細胞バリアント、及び治療推奨（例えば、治療が対象に投与されるべきかどうかの推奨）を含むがこれらに限定されない他のタイプの情報も含まれていてもよい。

Ｖ．追加の考慮事項
Ａ．プロービング手法
特定の実施形態は、１又は複数の標識を含み得る。１又は複数の標識は、１又は複数の捕捉プローブ、核酸分子、ビーズ、プライマー、又はそれらの組み合わせに付着させることができる。標識の例には、放射性同位元素、蛍光色素分子（フルオロフォア）、化学発光物質（ｃｈｅｍｉｌｕｍｉｎｏｐｈｏｒｅ）、発色団、ルミフォア（ｌｕｍｉｐｈｏｒｅ）、酵素、コロイド粒子、蛍光微粒子などの検出可能な標識、量子ドット、並びに抗原、抗体、ハプテン、アビジン／ストレプトアビジン、ビオチン、ハプテン、酵素補因子／基質、クエンチング系の１又は複数のメンバー、色原体、ハプテン、磁性粒子、非線形光学を示す材料、半導体ナノ結晶、金属ナノ粒子、酵素、アプタマー、及び結合対の１又は複数のメンバーが含まれるが、これらに限定されない。

特定の実施形態は、１又は複数の捕捉プローブ、複数の捕捉プローブ、又は１又は複数の捕捉プローブセットを含み得る。典型的には、捕捉プローブは、核酸結合部位を含む。捕捉プローブは、１又は複数のリンカーをさらに含み得る。捕捉プローブは、１又は複数の標識をさらに含み得る。前記１又は複数のリンカーは、１又は複数の標識を核酸結合部位に付着させることができる。

捕捉プローブは、試料中の１又は複数の核酸分子にハイブリダイズし得る。捕捉プローブは、１又は複数のゲノム領域にハイブリダイズし得る。捕捉プローブは、１又は複数の遺伝子、エクソン、イントロン、ＵＴＲ、又はそれらの組み合わせ内、周囲、近傍、又はそれらにまたがる１又は複数のゲノム領域にハイブリダイズし得る。捕捉プローブは、１又は複数の遺伝子、エクソン、イントロン、ＵＴＲ、又はそれらの組み合わせにまたがる１又は複数のゲノム領域にハイブリダイズし得る。捕捉プローブは、１又は複数の公知のインデルにハイブリダイズし得る。捕捉プローブは、１又は複数の公知の構造バリアントにハイブリダイズし得る。

特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、１０００以上の１又は複数の捕捉プローブ又は捕捉プローブセットを含み得る。前記１又は複数の捕捉プローブ又は捕捉プローブセットは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。

前記１又は複数の捕捉プローブは、核酸分子の試料又はサブセット中の１又は複数の核酸分子又はそのバリアント若しくは誘導体の少なくとも一部にハイブリダイズする核酸結合部位を含み得る。前記捕捉プローブは、１又は複数のゲノム領域にハイブリダイズする核酸結合部位を含み得る。前記捕捉プローブは、異なるか、類似するか、及び／又は同一のゲノム領域にハイブリダイズし得る。前記１又は複数の捕捉プローブは、少なくとも約５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、９９％又はそれ以上に、前記１又は複数の核酸分子又はそのバリアント若しくは誘導体に相補的であり得る。

前記捕捉プローブは、１又は複数のヌクレオチドを含み得る。前記捕捉プローブは、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、又は１０００以上のヌクレオチドを含み得る。前記捕捉プローブは、約１００ヌクレオチドを含み得る。前記捕捉プローブは、約１０～約５００ヌクレオチド、約２０～約４５０ヌクレオチド、約３０～約４００ヌクレオチド、約４０～約３５０ヌクレオチド、約５０～約３００ヌクレオチド、約６０～約２５０ヌクレオチド、約７０～約２００ヌクレオチド、又は約８０～約１５０ヌクレオチドを含み得る。本開示のいくつかの態様において、前記捕捉プローブは、約８０ヌクレオチド～約１００ヌクレオチドを含む。

前記複数の捕捉プローブ又は捕捉プローブセットは、同一の、類似した、及び／又は異なる核酸結合部位配列、リンカー、及び／又は標識を有する２以上の捕捉プローブを含み得る。例えば、２以上の捕捉プローブは、同一の核酸結合部位を含む。別の例では、２以上の捕捉プローブが類似した核酸結合部位を含む。別の例では、２以上の捕捉プローブが異なる核酸結合部位を含む。前記２以上の捕捉プローブは、１又は複数のリンカーをさらに含み得る。前記２以上の捕捉プローブは、異なるリンカーをさらに含み得る。前記２以上の捕捉プローブは、類似したリンカーをさらに含み得る。前記２以上の捕捉プローブは、同一のリンカーをさらに含み得る。前記２以上の捕捉プローブは、１又は複数の標識をさらに含み得る。前記２以上の捕捉プローブは、異なる標識をさらに含み得る。前記２以上の捕捉プローブは、類似した標識をさらに含み得る。前記２以上の捕捉プローブは、同一の標識をさらに含み得る。

Ｂ．アッセイ及び増幅技術
特定の実施形態は、１又は複数の核酸分子を含む試料に対して１又は複数のアッセイを実施することを含み得る。核酸分子の２以上のサブセットを生成することは、１又は複数のアッセイを実施することを含み得る。前記アッセイは、前記試料からの核酸分子のサブセットに対して実施してもよい。前記アッセイは、前記試料からの１又は複数の核酸分子に対して実施してもよい。前記アッセイは、核酸分子のサブセットの少なくとも一部に対して実施され得る。前記アッセイは、１又は複数の核酸分子の検出、定量化、及び／又は分析のための１又は複数の技術、試薬、捕捉プローブ、プライマー、標識、及び／又は構成要素を含み得る。

アッセイには、１又は複数の核酸分子の配列決定、増幅、ハイブリダイゼーション、濃縮、単離、溶出、断片化、検出、定量化が含まれ得るが、これらに限定されない。アッセイは、１又は複数の核酸分子を調製するための方法を含み得る。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数の増幅反応を実施することを含み得る。「増幅」という用語は、核酸分子の少なくとも１つのコピーを生成する任意のプロセスを指す。「アンプリコン」及び「増幅された核酸分子」という用語は、核酸分子のコピーを指し、交換可能に使用され得る。前記増幅反応は、ＰＣＲベースの方法、非ＰＣＲベースの方法、又はそれらの組み合わせを含み得る。非ＰＣＲベースの方法の例には、複数置換増幅（ＭＤＡ）、転写媒介増幅（ＴＭＡ）、核酸配列ベースの増幅（ＮＡＳＢＡ）、鎖置換増幅（ＳＤＡ）、リアルタイムＳＤＡ、ローリングサークル増幅、又はサークルツーサークル増幅が含まれるが、これらに限定されない。ＰＣＲベースの方法には、ＰＣＲ、ＨＤ－ＰＣＲ、次世代ＰＣＲ、デジタルＲＴＡ、又はそれらの任意の組み合わせが含まれるが、これらに限定されない。追加的ＰＣＲ法には、線形増幅、対立遺伝子特異的ＰＣＲ、ＡｌｕＰＣＲ、アセンブリＰＣＲ、非対称ＰＣＲ、液滴ＰＣＲ、エマルジョンＰＣＲ、ヘリカーゼ依存性増幅ＨＤＡ、ホットスタートＰＣＲ、インバースＰＣＲ、線形後指数関数的（ＬＡＴＥ）ＰＣＲ、ロングＰＣＲ、マルチプレックスＰＣＲ、ネステッドＰＣＲ、ヘミネステッドＰＣＲ、定量ＰＣＲ、ＲＴ－ＰＣＲ、リアルタイムＰＣＲ、シングルセルＰＣＲ、及びタッチダウンＰＣＲが含まれるが、これらに限定されない。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数のハイブリダイゼーションを実施することを含み得る。ハイブリダイゼーション反応は、核酸分子の試料又はサブセット中の１又は複数の核酸分子への１又は複数の捕捉プローブのハイブリダイゼーションを含み得る。ハイブリダイゼーション反応は、１又は複数の捕捉プローブセットを、核酸分子の試料又はサブセット中の１又は複数の核酸分子にハイブリダイズさせることを含み得る。ハイブリダイゼーション反応は、１又は複数のハイブリダイゼーションアレイ、多重ハイブリダイゼーション反応、ハイブリダイゼーション連鎖反応、等温ハイブリダイゼーション反応、核酸ハイブリダイゼーション反応、又はそれらの組み合わせを含み得る。１又は複数のハイブリダイゼーションアレイは、ハイブリダイゼーションアレイジェノタイピング、ハイブリダイゼーションアレイ比例センシング、ＤＮＡハイブリダイゼーションアレイ、マクロアレイ、マイクロアレイ、高密度オリゴヌクレオチドアレイ、ゲノムハイブリダイゼーションアレイ、比較ハイブリダイゼーションアレイ、又はそれらの組み合わせを含み得る。ハイブリダイゼーション反応は、１又は複数の捕捉プローブ、１又は複数のビーズ、１又は複数の標識、１又は複数の核酸分子のサブセット、１又は複数の核酸試料、１又は複数の試薬、１又は複数の洗浄緩衝液、１又は複数の溶出緩衝液、１又は複数のハイブリダイゼーション緩衝液、１又は複数のハイブリダイゼーションチャンバー、１又は複数のインキュベーター、１又は複数のセパレーター、又はそれらの組み合わせを含み得る。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数の濃縮反応を実施することを含み得る。濃縮反応は、試料を１又は複数のビーズ又はビーズセットと接触させることを含み得る。濃縮反応は、１又は複数のゲノム領域の特徴に基づく核酸分子の２以上のサブセットの示差的増幅を含み得る。例えば、濃縮反応は、ＧＣ含量に基づく核酸分子の２以上のサブセットの示差的増幅を含む。代替的に又は追加的に、濃縮反応は、メチル化状態に基づく核酸分子の２以上のサブセットの示差的増幅を含む。濃縮反応は、１又は複数のハイブリダイゼーション反応を含み得る。濃縮反応は、１又は複数のハイブリダイズされた核酸分子、１又は複数のビーズ結合核酸分子、１又は複数の遊離核酸分子（例えば、捕捉プローブなしの核酸分子、ビーズ非結合核酸分子）、１又は複数の標識核酸分子、１又は複数の非標識核酸分子、１又は複数のアンプリコン、１又は複数の非増幅核酸分子、又はそれらの組み合わせの単離及び／又は精製を含む。追加的に又は代替的に、濃縮反応は、試料中の１又は複数の細胞型の濃縮を含み得る。１又は複数の細胞型は、フローサイトメトリーによって濃縮してもよい。

１又は複数の濃縮反応は、１又は複数の濃縮核酸分子を生成し得る。濃縮された核酸分子は、核酸分子又はそのバリアント若しくは誘導体を含み得る。例えば、濃縮された核酸分子は、１又は複数のハイブリダイズされた核酸分子、１又は複数のビーズ結合核酸分子、１又は複数の遊離核酸分子（例えば、捕捉プローブなしの核酸分子、ビーズ非結合核酸分子）、１又は複数の標識核酸分子、１又は複数の非標識核酸分子、１又は複数のアンプリコン、１又は複数の非増幅核酸分子、又はそれらの組み合わせを含む。濃縮された核酸分子は、ＧＣ含有量、分子サイズ、ゲノム領域、ゲノム領域の特徴、又はそれらの組み合わせによって、濃縮されていない核酸分子と区別され得る。濃縮された核酸分子は、１又は複数のアッセイ、上清、溶出液、又はそれらの組み合わせに由来し得る。濃縮された核酸分子は、平均サイズ、平均ＧＣ含有量、ゲノム領域、又はそれらの組み合わせによって、濃縮されていない核酸分子とは異なる場合がある。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数の単離又は精製反応を実施することを含み得る。単離又は精製反応は、試料を１又は複数のビーズ又はビーズセットと接触させることを含み得る。単離又は精製反応は、１又は複数のハイブリダイゼーション反応、濃縮反応、増幅反応、配列決定反応、又はそれらの組み合わせを含み得る。単離又は精製反応は、１又は複数のセパレーターの使用を含み得る。前記１又は複数のセパレーターは、磁気セパレーターを含み得る。単離又は精製反応は、ビーズに結合した核酸分子をビーズに結合していない核酸分子から分離することを含み得る。単離又は精製反応は、捕捉プローブがハイブリダイズした核酸分子を捕捉プローブがハイブリダイズしていない核酸分子から分離することを含み得る。単離又は精製反応は、核酸分子の第１のサブセットを核酸分子の第２のサブセットから分離することを含み得、前記核酸分子の第１のサブセットは、平均サイズ、平均ＧＣ含量、ゲノム領域、又はそれらの組み合わせにおいて前記核酸分子の第２のサブセットと異なる。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数の溶出反応を実施することを含み得る。溶出反応は、試料を１又は複数のビーズ又はビーズセットと接触させることを含み得る。溶出反応は、ビーズに結合した核酸分子をビーズに結合していない核酸分子から分離することを含み得る。溶出反応は、捕捉プローブがハイブリダイズした核酸分子を捕捉プローブがハイブリダイズしていない核酸分子から分離することを含み得る。溶出反応は、核酸分子の第１のサブセットを核酸分子の第２のサブセットから分離することを含み得、前記核酸分子の第１のサブセットは、平均サイズ、平均ＧＣ含量、ゲノム領域、又はそれらの組み合わせにおいて前記核酸分子の第２のサブセットと異なる。

特定の実施形態は、１又は複数の断片化反応を含み得る。前記断片化反応は、核酸分子の試料又はサブセット中の１又は複数の核酸分子を断片化して、１又は複数の断片化された核酸分子を生成することを含み得る。前記１又は複数の核酸分子は、超音波処理、針剪断、噴霧、剪断（例えば、音響剪断、機械的剪断、ポイントシンク剪断）、フレンチプレッシャーセルの通過、又は酵素消化によって断片化され得る。酵素消化は、ヌクレアーゼ消化（例えば、ミクロコッカスヌクレアーゼ消化、エンドヌクレアーゼ、エキソヌクレアーゼ、ＲＮＡｓｅＨ又はＤＮａｓｅＩ）によって起こり得る。前記１又は複数の核酸分子の断片化は、約１００塩基対～約２０００塩基対、約２００塩基対～約１５００塩基対、約２００塩基対～約１０００塩基対、約２００塩基対～約５００塩基対、約５００塩基対～約１５００塩基対、及び約５００塩基対～約１０００塩基対の断片サイズをもたらし得る。前記１又は複数の断片化反応は、約５０塩基対～約１０００塩基対のサイズの断片をもたらし得る。前記１又は複数の断片化反応は、約１００塩基対、１５０塩基対、２００塩基対、２５０塩基対、３００塩基対、３５０塩基対、４００塩基対、４５０塩基対、５００塩基対、５５０塩基対、６００塩基対、６５０塩基対、７００塩基対、７５０塩基対、８００塩基対、８５０塩基対、９００塩基対、９５０塩基対、１０００塩基対又はそれ以上の断片サイズをもたらし得る。

前記１又は複数の核酸分子を断片化することは、試料中の１又は複数の核酸分子を一定期間機械的に剪断することを含み得る。前記断片化は、少なくとも約１０秒間、１５秒間、２０秒間、２５秒間、３０秒間、３５秒間、４０秒間、４５秒間、５０秒間、５５秒間、６０秒間、６５秒間、７０秒間、７５秒間、８０秒間、８５秒間、９０秒間、９５秒間、１００秒間、１２５秒間、１５０秒間、１７５秒間、２００秒間、２２５秒間、２５０秒間、２７５秒間、３００秒間、３２５秒間、３５０秒間、３７５秒間、４００秒間、４２５秒間、４５０秒間、４７５秒間、５００秒間以上に渡ってもよい。

前記１又は複数の核酸分子を断片化することは、核酸試料を１又は複数のビーズと接触させることを含み得る。前記１又は複数の核酸分子を断片化することは、前記核酸試料を複数のビーズと接触させることを含み得、核酸試料の体積に対する複数のビーズの体積の比率は、約０．１０、０．２０、０．３０、０．４０、０．５０、０．６０、０．７０、０．８０、０．９０、１．００、１．１０、１．２０、１．３０、１．４０、１．５０、１．６０、１．７０、１．８０、１．９０、２．００又はそれ以上である。前記１又は複数の核酸分子を断片化することは、前記核酸試料を複数のビーズと接触させることを含み得、核酸試料の体積に対する複数のビーズの体積の比率は、約２．００、１．９０、１．８０、１．７０、１．６０、１．５０、１．４０、１．３０、１．２０、１．１０、１．００、０．９０、０．８０、０．７０、０．６０、０．５０、０．４０、０．３０、０．２０、０．１０、０．０５、０．０４、０．０３、０．０２、０．０１又はそれ以下である。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数の検出反応を実施することを含み得る。検出反応は、１又は複数の配列決定反応を含み得る。あるいは、検出反応を実施することは、光学的感知、電気的感知、又はそれらの組み合わせを含む。光学的感知は、フォトルミネッセンス光子放出、蛍光光子放出、ピロリン酸塩光子放出、化学発光光子放出、又はそれらの組み合わせの光学的感知を含み得る。電気的感知は、イオン濃度、イオン電流変調、ヌクレオチド電場、ヌクレオチドトンネリング電流、又はそれらの組み合わせの電気的感知を含み得る。

特定の実施形態は、試料中の１又は複数の核酸分子に対して１又は複数の定量化反応を実施することを含み得る。定量化反応は、配列決定、ＰＣＲ、ｑＰＣＲ、デジタルＰＣＲ、又はそれらの組み合わせを含み得る。

特定の実施形態は、１又は複数の試料を含み得る。特定の実施形態は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００以上の試料を含み得る。前記試料は、対象に由来し得る。２以上の試料は、単一の対象に由来し得る。前記２以上の試料は、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００以上の異なる対象に由来し得る。前記対象は、哺乳動物、爬虫類、両生類、鳥類、及び魚類であり得る。哺乳動物は、ヒト、類人猿、オランウータン、サル、チンパンジー、ウシ、ブタ、ウマ、齧歯類、鳥類、爬虫類、イヌ、ネコ、又は他の動物であり得る。爬虫類は、トカゲ、ヘビ、ワニガメ、カメ、ワニ、カメなどであり得る。両生類は、ヒキガエル、カエル、イモリ、及びサンショウウオであり得る。鳥類の例には、アヒル、ガチョウ、ペンギン、ダチョウ、及びフクロウが含まれるが、これらに限定されない。魚類の例には、ナマズ、ウナギ、サメ、及びメカジキが含まれるが、これらに限定されない。好ましくは、前記対象はヒトである。前記対象は、疾患又は状態（例えば、癌）に罹患している可能性がある。

前記２以上の試料は、１時間、２時間、３時間、４時間、５時間、６時間、７時間、８時間、９時間、１０時間、１１時間、１２時間、１５時間、２０時間、３０時間、４０時間、５０時間、６０時間、７０時間、８０時間、９０時間、１００時間、２００時間、３００時間、４００時間、５００時間、６００時間、７００時間、８００時間、９００時間、１０００時間又はそれ以上の時点で採取され得る。前記時点は、１時間、２時間、３時間、４時間、５時間、６時間、７時間、８時間、９時間、１０時間、１１時間、１２時間、１３時間、１４時間、１５時間、１６時間、１７時間、１８時間、１９時間、２０時間、２１時間、２２時間、２３時間、２４時間、２５時間、３０時間、３５時間、４０時間、４５時間、５０時間、５５時間、６０時間又はそれ以上に渡ってもよい。前記時点は、１日間、２日間、３日間、４日間、５日間、６日間、７日間、８日間、９日間、１０日間、１１日間、１２日間、１３日間、１４日間、１５日間、１６日間、１７日間、１８日間、１９日間、２０日間、２１日間、２２日間、２３日間、２４日間、２５日間、３０日間、３５日間、４０日間、４５日間、５０日間、５５日間、６０日間又はそれ以上に渡ってもよい。前記時点は、１週間、２週間、３週間、４週間、５週間、６週間、７週間、８週間、９週間、１０週間、１１週間、１２週間、１３週間、１４週間、１５週間、１６週間、１７週間、１８週間、１９週間、２０週間、２１週間、２２週間、２３週間、２４週間、２５週間、３０週間、３５週間、４０週間、４５週間、５０週間、５５週間、６０週間又はそれ以上に渡ってもよい。前記時点は、１ヶ月間、２ヶ月間、３ヶ月間、４ヶ月間、５ヶ月間、６ヶ月間、７ヶ月間、８ヶ月間、９ヶ月間、１０ヶ月間、１１ヶ月間、１２ヶ月間、１３ヶ月間、１４ヶ月間、１５ヶ月間、１６ヶ月間、１７ヶ月間、１８ヶ月間、１９ヶ月間、２０ヶ月間、２１ヶ月間、２２ヶ月間、２３ヶ月間、２４ヶ月間、２５ヶ月間、３０ヶ月間、３５ヶ月間、４０ヶ月間、４５ヶ月間、５０ヶ月間、５５ヶ月間、６０ヶ月間又はそれ以上に渡ってもよい。前記時点は、１年間、２年間、３年間、４年間、５年間、６年間、７年間、８年間、９年間、１０年間、１１年間、１２年間、１３年間、１４年間、１５年間、１６年間、１７年間、１８年間、１９年間、２０年間、２１年間、２２年間、２３年間、２４年間、２５年間、３０年間、３５年間、４０年間、４５年間、５０年間、５５年間、６０年間又はそれ以上に渡ってもよい。

前記試料は、体液、細胞、皮膚、組織、器官、又はそれらの組み合わせからのものであり得る。前記試料は、血液、血漿、血液画分、唾液、喀痰、尿、精液、経膣液、脳脊髄液、糞便、細胞、又は組織生検であり得る。前記試料は、副腎、付属器、膀胱、脳、耳、食道、眼、胆嚢、心臓、腎臓、大腸、肝臓、肺、口腔、筋肉、鼻腔、膵臓、副甲状腺、松果体腺、下垂体腺、皮膚、小腸、脾臓、胃、胸腺、甲状腺、気管、子宮、虫垂、角膜、皮膚、心臓弁、動脈、又は静脈からのものであり得る。

前記試料は、１又は複数の核酸分子を含み得る。前記核酸分子は、ＤＮＡ分子、ＲＮＡ分子（例えば、ｍＲＮＡ、ｃＲＮＡ、又はｍｉＲＮＡ）、及びＤＮＡ／ＲＮＡハイブリッドであり得る。ＤＮＡ分子の例には、二本鎖ＤＮＡ、一本鎖ＤＮＡ、一本鎖ＤＮＡヘアピン、ｃＤＮＡ、ゲノムＤＮＡが含まれるが、これらに限定されない。前記核酸は、二本鎖ＲＮＡ、一本鎖ＲＮＡ、ｎｃＲＮＡ、ＲＮＡヘアピン、及びｍＲＮＡなどのＲＮＡ分子であり得る。ｎｃＲＮＡの例には、ｓｉＲＮＡ、ｍｉＲＮＡ、ｓｎｏＲＮＡ、ｐｉＲＮＡ、ｔｉＲＮＡ、ＰＡＳＲ、ＴＡＳＲ、ａＴＡＳＲ、ＴＳＳａ－ＲＮＡ、ｓｎＲＮＡ、ＲＥ－ＲＮＡ、ｕａＲＮＡ、ｘ－ｎｃＲＮＡ、ｈＹＲＮＡ、ｕｓＲＮＡ、ｓｎａＲ、及びｖｔＲＮＡが含まれるが、これらに限定されない。

特定の実施形態は、１又は複数の容器を含み得る。特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、又は１０００以上の容器を含み得る。前記１又は複数の容器は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。容器の例には、プレート、マイクロプレート、ＰＣＲプレート、ウェル、マイクロウェル、チューブ、エッペンドルフチューブ、バイアル、アレイ、マイクロアレイ、及びチップが含まれるが、これらに限定されない。

特定の実施形態は、１又は複数の試薬を含み得る。特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、又は１０００以上の試薬を含み得る。前記１又は複数の試薬は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。前記試薬は、１又は複数のアッセイの効率を改善し得る。前記試薬は、核酸分子又はそのバリアント若しくは誘導体の安定性を改善し得る。試薬には、酵素、プロテアーゼ、ヌクレアーゼ、分子、ポリメラーゼ、逆転写酵素、リガーゼ、及び化学的化合物が含まれ得るが、これらに限定されない。特定の実施形態は、１又は複数の抗酸化剤を含むアッセイを実施することを含み得る。概して、抗酸化剤は別の分子の酸化を阻害する分子である。抗酸化剤の例には、アスコルビン酸（例えば、ビタミンＣ）、グルタチオン、リポ酸、尿酸、カロテン、α－トコフェロール（例えば、ビタミンＥ）、ユビキノール（例えば、補酵素Ｑ）、及びビタミンＡが含まれるが、これらに限定されない。

特定の実施形態は、１又は複数の緩衝液又は溶液を含み得る。前記１又は複数の緩衝液又は溶液は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。前記緩衝液又は溶液は、１又は複数のアッセイの効率を改善し得る。緩衝液又は溶液は、核酸分子又はそのバリアント若しくは誘導体の安定性を改善し得る。緩衝液又は溶液には、洗浄緩衝液、溶出緩衝液、及びハイブリダイゼーション緩衝液が含まれ得るが、これらに限定されない。

特定の実施形態は、１又は複数のビーズ、複数のビーズ、又は１又は複数のビーズセットを含み得る。特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、１０００以上の１又は複数のビーズ又はビーズセットを含み得る。前記１又は複数のビーズ又はビーズセットは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。ビーズは、磁性、抗体被覆、プロテインＡ架橋、プロテインＧ架橋、ストレプトアビジン被覆、オリゴヌクレオチド結合、シリカ被覆、又はそれらの組み合わせであり得る。ビーズの例には、ＡＭＰｕｒｅ（登録商標）ビーズ、ＡＭＰｕｒｅ（登録商標）ＸＰビーズ、ストレプトアビジンビーズ、アガロースビーズ、磁性ビーズ、Ｄｙｎａｂｅａｄｓ（登録商標）、ＭＡＣＳ（登録商標）マイクロビーズ、抗体結合ビーズ（例えば、抗免疫グロブリンマイクロビーズ）、プロテインＡ結合ビーズ、プロテインＧ結合ビーズ、プロテインＡ／Ｇ結合ビーズ、プロテインＬ結合ビーズ、オリゴｄＴ結合ビーズ、シリカビーズ、シリカ様ビーズ、抗ビオチンマイクロビーズ、抗蛍光クロムマイクロビーズ、及びＢｃＭａｇ（商標）カルボキシ末端磁性ビーズが含まれるが、これらに限定されない。本開示のいくつかの態様では、前記１又は複数のビーズは、１又は複数のＡＭＰｕｒｅ（登録商標）ビーズを含む。代替的に又は追加的に、前記１又は複数のビーズは、ＡＭＰｕｒｅ（登録商標）ＸＰビーズを含む。

特定の実施形態は、１又は複数のプライマー、複数のプライマー、又は１又は複数のプライマーセットを含み得る。プライマーは、１又は複数のリンカーをさらに含み得る。プライマーは、１又は複数の標識をさらに含み得る。プライマーは、１又は複数のアッセイで使用され得る。例えば、プライマーは、１又は複数の配列決定反応、増幅反応、又はそれらの組み合わせで使用される。特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、１０００以上の１又は複数のプライマー又はプライマーセットを含み得る。前記プライマーは、約１００ヌクレオチドを含み得る。前記プライマーは、約１０～約５００ヌクレオチド、約２０～約４５０ヌクレオチド、約３０～約４００ヌクレオチド、約４０～約３５０ヌクレオチド、約５０～約３００ヌクレオチド、約６０～約２５０ヌクレオチド、約７０～約２００ヌクレオチド、又は約８０～約１５０ヌクレオチドを含み得る。本開示のいくつかの態様において、前記プライマーは、約８０ヌクレオチド～約１００ヌクレオチドを含む。前記１又は複数のプライマー又はプライマーセットは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。

前記プライマーは、核酸分子の試料又はサブセット中の１又は複数の核酸分子又はそのバリアント若しくは誘導体の少なくとも一部にハイブリダイズする。前記プライマーは、１又は複数のゲノム領域にハイブリダイズし得る。前記プライマーは、異なるか、類似するか、及び／又は同一のゲノム領域にハイブリダイズし得る。前記１又は複数のプライマーは、少なくとも約５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９７％、９９％又はそれ以上に、前記１又は複数の核酸分子又はそのバリアント若しくは誘導体に相補的であり得る。

前記プライマーは、１又は複数のヌクレオチドを含み得る。前記プライマーは、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、又は１０００以上のヌクレオチドを含み得る。前記プライマーは、約１００ヌクレオチドを含み得る。前記プライマーは、約１０～約５００ヌクレオチド、約２０～約４５０ヌクレオチド、約３０～約４００ヌクレオチド、約４０～約３５０ヌクレオチド、約５０～約３００ヌクレオチド、約６０～約２５０ヌクレオチド、約７０～約２００ヌクレオチド、又は約８０～約１５０ヌクレオチドを含み得る。本開示のいくつかの態様において、前記プライマーは、約８０ヌクレオチド～約１００ヌクレオチドを含む。

前記複数のプライマー又はプライマーセットは、同一の、類似した、及び／又は異なる配列、リンカー、及び／又は標識を有する２以上のプライマーを含み得る。例えば、２以上のプライマーは同一の配列を含む。別の例では、２以上のプライマーは類似した配列を含む。さらに別の例では、２以上のプライマーが異なる配列を含む。前記２以上のプライマーは、１又は複数のリンカーをさらに含み得る。前記２以上のプライマーは、異なるリンカーをさらに含み得る。前記２以上のプライマーは、類似したリンカーをさらに含み得る。前記２以上のプライマーは、同一のリンカーをさらに含み得る。前記２以上のプライマーは、１又は複数の標識をさらに含み得る。前記２以上のプライマーは、異なる標識をさらに含み得る。前記２以上のプライマーは、類似した標識をさらに含み得る。前記２以上のプライマーは、同一の標識をさらに含み得る。

前記捕捉プローブ、プライマー、標識、及び／又はビーズ１又は複数のヌクレオチドを含み得る。前記１又は複数のヌクレオチドは、ＲＮＡ、ＤＮＡ、ＤＮＡ及びＲＮＡ残基の混合物、又は２’－０Ｍｅ、２’－フルオロ（２’－Ｆ）、ロック核酸（ＬＮＡ）、又は脱塩基部位などの修飾類似体を含み得る。

特定の実施形態は、１又は複数の標識を含み得る。特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、１０００以上の１又は複数の標識を含み得る。前記１又は複数の標識は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。

標識の例には、当技術分野で周知の化学的、生化学的、生物学的、比色、酵素的、蛍光性、及び発光性の標識が含まれるが、これらに限定されない。前記標識は、染料、光架橋剤、細胞毒性化合物、薬物、親和性標識、光親和性標識、反応性化合物、抗体又は抗体フラグメント、生体材料、ナノ粒子、スピンラベル、フルオロフォア、金属含有部分、放射性部分、新規官能基、他分子と共有的又は非共有的に相互作用する基、光ケージ化（ｐｈｏｔｏｃａｇｅｄ）部分、化学線励起可能部分、リガンド、光異性化部分、ビオチン、ビオチン類似体、重原子を組み込んだ部分、化学的に切断可能な基、光切断性基、酸化還元活性剤、同位体標識部分、生物物理学的プローブ、リン光性基、化学発光基、高電子密度基、磁性基、挿入基、発色団、エネルギー伝達剤、生物学的に活性な薬剤、検出可能な標識、又はそれらの組み合わせを含む。

前記標識は、化学標識であってもよい。化学標識の例には、ビオチン及び放射性同位体（例えば、ヨウ素、炭素、リン酸塩、水素）が含まれ得るが、これらに限定されない。

本明細書に開示される方法、キット、及び組成物は、生物学的標識を含み得る。生物学的標識は、生体直交性アジド修飾アミノ酸、糖、及び他の化合物を含むがこれらに限定されない代謝標識を含み得る。

本明細書に開示される方法、キット、及び組成物は、酵素標識を含み得る。酵素標識には、ホースラディッシュペルオキシダーゼ（ＨＲＰ）、アルカリホスファターゼ（ＡＰ）、グルコースオキシダーゼ、及び０－ガラクトシダーゼが含まれるが、これらに限定されない。前記酵素標識はルシフェラーゼであり得る。

本明細書に開示される方法、キット、及び組成物は、生物学的標識を含み得る。蛍光標識は、有機染料（例えば、ＦＩＴＣ）、生物学的フルオロフォア（例えば、緑色蛍光タンパク質）、又は量子ドットであり得る。蛍光標識の非限定的なリストには、イソチオシアン酸フルオレセイン（ＦＩＴＣ）、ＤｙＬｉｇｈｔ（登録商標）Ｆｌｕｏｒ、フルオレセイン、ローダミン（テトラメチルローダミンイソチオシアナート、ＴＲＩＴＣ）、クマリン、ルシファーイエロー、及びＢＯＤＩＰＹが含まれる。前記標識はフルオロフォアであってもよい。フルオロフォアの例には、インドカルボシアニン（Ｃ３）、インドジカルボシアニン（Ｃ５）、Ｃｙ３、Ｃｙ３．５、Ｃｙ５、Ｃｙ５．５、Ｃｙ７、テキサスレッド、パシフィックブルー、オレゴングリーン４８８、ＡｌｅｘａＦｌｕｏｒ（登録商標）３５５、ＡｌｅｘａＦｌｕｏｒ（登録商標）４８８、ＡｌｅｘａＦｌｕｏｒ（登録商標）５３２、ＡｌｅｘａＦｌｕｏｒ（登録商標）５４６、ＡｌｅｘａＦｌｕｏｒ（登録商標）５５５、ＡｌｅｘａＦｌｕｏｒ（登録商標）５６８、ＡｌｅｘａＦｌｕｏｒ（登録商標）５９４、ＡｌｅｘａＦｌｕｏｒ（登録商標）６４７、ＡｌｅｘａＦｌｕｏｒ（登録商標）６６０、ＡｌｅｘａＦｌｕｏｒ（登録商標）６８０、ＪＯＥ、リサミン、ローダミングリーン、ＢＯＤＩＰＹ、イソチオシアン酸フルオレセイン（ＦＩＴＣ）、カルボキシフルオレセイン（ＦＡＭ）、フィコエリスリン、ローダミン、ジクロロローダミン（ｄＲｈｏｄａｍｉｎｅ）、カルボキシテトラメチルローダミン（ＴＡＭＲＡ）、カルボキシ－Ｘ－ローダミン（ＲＯＸ（商標））、ＬＩＺ（商標）、ＶＩＣ（商標）、ＮＥＤ（商標）、ＰＥＴ（商標）、ＳＹＢＲ、ＰｉｃｏＧｒｅｅｎ（登録商標）、ＲｉｂｏＧｒｅｅｎ（登録商標）などが含まれるが、これらに限定されない。前記蛍光標識は、緑色蛍光タンパク質（ＧＦＰ）、赤色蛍光タンパク質（ＲＦＰ）、黄色蛍光タンパク質、フィコビリタンパク質（例えば、アロフィコシアニン、フィコシアニン、フィコエリトリン、及びフィコエリスロシアニン）であり得る。

特定の実施形態は、１又は複数のリンカーを含み得る。特定の実施形態は、１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、２０以上、３０以上、４０以上、５０以上、６０以上、７０以上、８０以上、９０以上、１００以上、１２５以上、１５０以上、１７５以上、２００以上、２５０以上、３００以上、３５０以上、４００以上、５００以上、６００以上、７００以上、８００以上、９００以上、１０００以上の１又は複数のリンカーを含み得る。前記１又は複数のリンカーは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。

適切なリンカーは、本明細書に開示される標識、プライマー、及び／又は捕捉プローブに付着可能な任意の化学的又は生物学的化合物を含む。前記リンカーが、標識とプライマー又は捕捉プローブとの両方に付着する場合、適切なリンカーは、標識とプライマー又は捕捉プローブとを充分に分離可能である。適切なリンカーは、前記プライマー及び／又は捕捉プローブが核酸分子、その一部、又はそのバリアント若しくは誘導体にハイブリダイズする能力を著しく妨害しない。適切なリンカーは、検出される標識の能力を著しく妨害することはない。前記リンカーは、剛性であり得る。前記リンカーは、可動性であり得る。前記リンカーは、半剛性であってもよい。前記リンカーは、タンパク質分解的に安定していてもよい（例えば、タンパク質分解切断に耐性を有する）。前記リンカーは、タンパク質分解的に不安定であってもよい（例えば、タンパク質分解切断に感受性を有する）。前記リンカーは、らせん状であり得る。前記リンカーは、非らせん状であってもよい。前記リンカーは、コイル状であってもよい。前記リンカーは、三本鎖であり得る。前記リンカーは、ターンコンフォメーションを含み得る。前記リンカーは、一本鎖であってもよい。前記リンカーは、長鎖であってもよい。前記リンカーは、短鎖であってもよい。前記リンカーは、少なくとも約５残基、少なくとも約１０残基、少なくとも約１５残基、少なくとも約２０残基、少なくとも約２５残基、少なくとも約３０残基、又は少なくとも約４０残基以上を含み得る。

リンカーの例には、ヒドラゾン、ジスルフィド、チオエーテル、及びペプチドリンカーが含まれるが、これらに限定されない。前記リンカーはペプチドリンカーであり得る。前記ペプチドリンカーは、プロリン残基を含み得る。前記ペプチドリンカーは、アルギニン、フェニルアレニン、スレオニン、グルタミン、グルタミン酸、又はそれらの任意の組み合わせを含み得る。前記リンカーは、ヘテロ二官能性架橋剤であり得る。

特定の実施形態は、１又は複数の核酸分子を含む試料に対して１以上、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、１０以上、１１以上、１２以上、１３以上、１４以上、１５以上、２０以上、２５以上、３０以上、３５以上、４０以上、４５以上、又は５０以上のアッセイを実施することを含む。前記２以上のアッセイは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。例えば、特定の実施形態は、２以上の配列決定反応を実施することを含む。別の例では、特定の実施形態は、２以上のアッセイを実施することを含み、２以上のアッセイのうちの少なくとも１つは、配列決定反応を含む。さらに別の例では、特定の実施形態は、２以上のアッセイを実施することを含み、２以上のアッセイのうちの少なくとも２つは、配列決定反応及びハイブリダイゼーション反応を含む。前記２以上のアッセイは、連続して、同時に、又はそれらの組み合わせで実施してもよい。例えば、前記２以上の配列決定反応を同時に実施してもよい。別の例では、特定の実施形態は、ハイブリダイゼーション反応を実施し、続いて配列決定反応を実施することを含む。さらに別の例では、特定の実施形態は、２以上のハイブリダイゼーション反応を同時に実施し、続いて２以上の配列決定反応を同時に実施することを含む。前記２以上のアッセイは、１又は複数のデバイスによって実施され得る。例えば、２以上の増幅反応は、ＰＣＲ機器によって実施され得る。別の例では、２以上の配列決定反応は、２以上のシーケンサーによって実施され得る。

Ｃ．デバイス
特定の実施形態は、１又は複数のデバイスを含み得る。特定の実施形態は、１又は複数のデバイスを含む１又は複数のアッセイを含み得る。特定の実施形態は、１又は複数の工程又はアッセイを実施するための１又は複数のデバイスの使用を含み得る。特定の実施形態は、１又は複数の工程又はアッセイにおける１又は複数のデバイスの使用を含み得る。例えば、配列決定反応を実施することは、１又は複数のシーケンサーを含み得る。別の例では、核酸分子のサブセットを生成することは、１又は複数の磁気セパレーターの使用を含み得る。さらに別の例では、１又は複数の核酸試料の分析において、１又は複数のプロセッサを使用してもよい。デバイスの例には、シーケンサー、サーモサイクラー、リアルタイムＰＣＲ機器、磁気セパレーター、伝送装置、ハイブリダイゼーションチャンバー、電気泳動装置、遠心分離機、顕微鏡、イメージャー、蛍光光度計、ルミノメーター、プレートリーダー、コンピューター、プロセッサ、及びバイオアナライザーが含まれるが、これらに限定されない。

特定の実施形態は、１又は複数のシーケンサーを含み得る。前記１又は複数のシーケンサーは、１又は複数のＨｉＳｅｑ、ＭｉＳｅｑ、ＨｉＳｃａｎ、ＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩｘ、ＳＯＬｉＤＳｅｑｕｅｎｃｅｒ、ＩｏｎＴｏｒｒｅｎｔＰＧＭ、４５４ＧＳＪｕｎｉｏｒ、ＰａｃＢｉｏＲＳ、又はそれらの組み合わせを含み得る。前記１又は複数のシーケンサーは、１又は複数の配列決定プラットフォームを含み得る。前記１又は複数の配列決定プラットフォームは、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ／Ｒｏｃｈｅ社によるＧＳＦＬＸ４５４、Ｓｏｌｅｘａ／Ｉｌｌｕｍｉｎａ社によるＧｅｎｏｍｅＡｎａｌｙｚｅｒ、ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ社によるＳＯＬｉＤ、ＣｏｍｐｌｅｔｅＧｅｎｏｍｉｃｓ社によるＣＧＡＰｌａｔｆｏｒｍ、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ社によるＰａｃＢｉｏＲＳ、又はそれらの組み合わせを含み得る。

特定の実施形態は、１又は複数のサーモサイクラーを含み得る。前記１又は複数のサーモサイクラーは、１又は複数の核酸分子の増幅に使用され得る。特定の実施形態は、１又は複数のリアルタイムＰＣＲ機器を含み得る。前記１又は複数のリアルタイムＰＣＲ機器は、サーマルサイクラー及び蛍光光度計を含み得る。前記１又は複数のサーモサイクラーは、１又は複数の核酸分子の増幅及び検出に使用され得る。

特定の実施形態は、１又は複数の磁気セパレーターを含み得る。前記１又は複数の磁気セパレーターは、懸濁液からの常磁性粒子及び強磁性粒子の分離に使用され得る。前記１又は複数の磁気セパレーターは、１又は複数のＬｉｆｅＳｔｅｐ（商標）生体磁気セパレーター、ＳＰＨＥＲＯ（商標）ＦｌｅｘｉＭａｇセパレーター、ＳＰＨＥＲＯ（商標）ＭｉｃｒｏＭａｇセパレーター、ＳＰＨＥＲＯ（商標）ＨａｎｄｉＭａｇセパレーター、ＳＰＨＥＲＯ（商標）ＭｉｎｉＴｕｂｅＭａｇセパレーター、ＳＰＨＥＲＯ（商標）ＵｌｔｒａＭａｇセパレーター、ＤｙｎａＭａｇ（商標）マグネット、ＤｙｎａＭａｇ（商標）－２マグネット、又はそれらの組み合わせを含み得る。

特定の実施形態は、１又は複数のバイオアナライザーを含み得る。概して、バイオアナライザーは、ＲＮＡ、ＤＮＡ、及びタンパク質を分析可能なチップベースのキャピラリー電気泳動装置である。前記１又は複数のバイオアナライザーは、Ａｇｉｌｅｎｔ２１００バイオアナライザーを含み得る。

特定の実施形態は、１又は複数のプロセッサを含み得る。前記１又は複数のプロセッサは、１又は複数のアッセイからの１又は複数のデータ及び／又は結果、１又は複数のアッセイに基づく又は由来する１又は複数のデータ及び／又は結果、１又は複数のアッセイからの１又は複数の出力、１又は複数のアッセイに基づく又は由来する１又は複数の出力、１又は複数のデータ及び／又は結果からの１又は複数の出力、１又は複数のデータ及び／又は結果に基づく又は由来する１又は複数の出力、又はそれらの組み合わせを分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記１又は複数のプロセッサは、１又は複数のアッセイからの１又は複数のデータ、結果、又は出力、１又は複数のアッセイに基づく又は由来する１又は複数のデータ、結果、又は出力、１又は複数のデータ又は結果からの１又は複数の出力、１又は複数のデータ又は結果に基づく又は由来する１又は複数の出力、又はそれらの組み合わせを伝送し得る。前記１又は複数のプロセッサは、ユーザーからのリクエストを受信及び／又は保存し得る。前記１又は複数のプロセッサは、１又は複数のデータ、結果、出力を作成又は生成し得る。前記１又は複数のプロセッサは、１又は複数の生物医学的レポートを作成又は生成し得る。前記１又は複数のプロセッサは、１又は複数の生物医学的レポートを伝送し得る。前記１又は複数のプロセッサは、１又は複数のデータベース、１又は複数のデータ又は結果、１又は複数の出力、又はそれらの組み合わせからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記１又は複数のプロセッサは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記１又は複数のプロセッサは、１又は複数のリクエスト、データ、結果、出力及び／又は情報を、１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせに伝送し得る。前記１又は複数のプロセッサは、１又は複数のリクエスト、データ、結果、出力及び／又は情報を、１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせから受信し得る。前記１又は複数のプロセッサは、１又は複数のリクエスト、データ、結果、出力及び／又は情報を、１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせから回収し得る。

特定の実施形態は、１又は複数の記憶場所を含み得る。前記１又は複数の記憶場所は、情報、データ、結果、出力、リクエスト、又はそれらの組み合わせを保存し得る。前記１又は複数の記憶場所は、情報、データ、結果、出力、リクエスト、又はそれらの組み合わせを１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、デバイス、又はそれらの組み合わせから受信し得る。

本明細書に記載の方法は、１又は複数のコンピューター及び／又はコンピューターシステムを用いることにより実施され得る。コンピューター又はコンピューターシステムは、本明細書で提供される方法を実施するための機械実行可能コードを備えた電子記憶場所（例えば、データベース、メモリ）、及び機械実行可能コードを実行するための１又は複数のプロセッサを含み得る。

コードは、プリコンパイルして、コードを実行するように適合されたプロセッサを備えた機器で使用するように構成しても、実行時にコンパイルしてもよい。コードは、コードをプリコンパイル済み又はコンパイル済みの形式で実行できるように選択可能なプログラミング言語で提供され得る。

前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のアッセイからの１又は複数のデータ及び／又は結果、１又は複数のアッセイに基づく又は由来する１又は複数のデータ及び／又は結果、１又は複数のアッセイからの１又は複数の出力、１又は複数のアッセイに基づく又は由来する１又は複数の出力、１又は複数のデータ及び／又は結果からの１又は複数の出力、１又は複数のデータ及び／又は結果に基づく又は由来する１又は複数の出力、又はそれらの組み合わせを分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のアッセイからの１又は複数のデータ、結果、又は出力、１又は複数のアッセイに基づく又は由来する１又は複数のデータ、結果、又は出力、１又は複数のデータ又は結果からの１又は複数の出力、１又は複数のデータ又は結果に基づく又は由来する１又は複数の出力、又はそれらの組み合わせを伝送し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、ユーザーからのリクエストを受信及び／又は保存し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のデータ、結果、出力を作成又は生成し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数の生物医学的レポートを作成又は生成し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数の生物医学的レポートを伝送し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のデータベース、１又は複数のデータ又は結果、１又は複数の出力、又はそれらの組み合わせからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のリクエスト、データ、結果、出力及び／又は情報を、１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、又はそれらの組み合わせに伝送し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のリクエスト、データ、結果、出力及び／又は情報を、１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、又はそれらの組み合わせから受信し得る。前記１又は複数のコンピューター及び／又はコンピューターシステムは、１又は複数のリクエスト、データ、結果、出力及び／又は情報を、１又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせから回収し得る。

Ｄ．データベース
特定の実施形態は、１又は複数のデータベースを含み得る。特定の実施形態は、少なくとも約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースを含み得る。前記データベースは、ゲノムデータベース、プロテオミクスデータベース、薬理ゲノミクスデータベース、生物医学データベース、及び科学データベースを含み得る。前記データベースは、公開されているデータベースであってもよい。代替的に又は追加的に、前記データベースは、専用のデータベースを含む場合がある。前記データベースは、商用のデータベースであってもよい。前記データベースには、Ｃｏｓｍｉｃ、ＧｎｏｍＡＤ、Ｄｂｓｎｐ、ＭｉｌｌｓＩｎｄｅｌｓ、ＭｅｎｄｅｌＤＢ、ＰｈａｒｍＧＫＢ、Ｖａｒｉｍｅｄ、Ｒｅｇｕｌｏｍｅ、ＢｒｅａｋＳｅｑ（キュレートされたジャンクション）、ＯＭＩＭ（ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ）、ＨＧＭＤ（ＨｕｍａｎＧｅｎｏｍｅＭｕｔａｔｉｏｎＤａｔａｂａｓｅ）、ＮＣＢＩｄｂＳＮＰ、ＮＣＢＩＲｅｆＳｅｑ、ＧＥＮＣＯＤＥ、ＧＯ（ＧｅｎｅＯｎｔｏｌｏｇｙ）、及びＫＥＧＧ（ＫｙｏｔｏＥｎｃｙｃｌｏｐｅｄｉａｏｆＧｅｎｅｓａｎｄＧｅｎｏｍｅｓ）が挙げられるが、これらに限定されない。

特定の実施形態は、１又は複数のデータベースを分析することを含み得る。特定の実施形態は、少なくとも約１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースを分析すること含み得る。１又は複数のデータベースを分析することは、１又は複数のアルゴリズム、コンピューター、プロセッサ、記憶場所、デバイス、又はそれらの組み合わせを含み得る。

特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の核酸領域を特定することを含み得る。特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の核酸領域のセットを特定することを含み得る。特定の実施形態は、少なくとも約２以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の核酸領域及び／又は核酸領域のセットを特定することを含み得る。特定の実施形態は、少なくとも約３以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の核酸領域及び／又は核酸領域のセットを特定することを含み得る。特定の実施形態は、少なくとも約４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の核酸領域及び／又は核酸領域のセットを特定することを含み得る。

特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果を分析することを含み得る。特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果のセットを分析することを含み得る。特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結合された結果を分析することを含み得る。特定の実施形態は、少なくとも約２以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果、結果のセット、結合された結果を分析することを含み得る。特定の実施形態は、少なくとも約３以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果、結果のセット、結合された結果を分析することを含み得る。特定の実施形態は、少なくとも約４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果、結果のセット、結合された結果を分析することを含み得る。

特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果を比較することを含み得る。特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果のセットを比較することを含み得る。特定の実施形態は、１又は複数のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結合された結果を比較することを含み得る。特定の実施形態は、少なくとも約２以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果、結果のセット、結合された結果を比較することを含み得る。特定の実施形態は、少なくとも約３以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果、結果のセット、結合された結果を比較することを含み得る。特定の実施形態は、少なくとも約４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、３０以上のデータベースからのデータ及び／又は情報に基づいて、１又は複数の結果、結果のセット、結合された結果を比較することを含み得る。

特定の実施形態は、１又は複数のデータベース、１又は複数のアッセイ、１又は複数のデータ又は結果、１又は複数のアッセイに基づく又は由来する１又は複数の出力、１又は複数のデータ又は結果に基づく又は由来する１又は複数の出力、又はそれらの組み合わせからのデータ及び／又は情報に基づいた生物医学データベース、ゲノムデータベース、生物医学的レポート、疾患レポート、ケースコントロール分析、及び稀なバリアント検出分析を含み得る。

Ｅ．データセット及び分析
特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせを含み得る。前記データ及び／又は結果は、１又は複数のアッセイ、１又は複数のデータベース、又はそれらの組み合わせに基づく又は由来するものであり得る。特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせの分析を含み得る。特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせの処理を含み得る。

特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせの少なくとも１つの分析及び少なくとも１つの処理を含み得る。特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせの１又は複数の分析及び１又は複数の処理を含み得る。特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせの少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００以上の異なる分析を含み得る。特定の実施形態は、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせの少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、３０、４０、５０、６０、７０、８０、９０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００以上の異なる処理を含み得る。前記１又は複数の分析及び／又は１又は複数の処理は、同時に、連続して、又はそれらの組み合わせで行ってもよい。

前記１又は複数の分析及び／又は１又は複数の処理は、１時間、２時間、３時間、４時間、５時間、６時間、７時間、８時間、９時間、１０時間、１１時間、１２時間、１５時間、２０時間、３０時間、４０時間、５０時間、６０時間、７０時間、８０時間、９０時間、１００時間、２００時間、３００時間、４００時間、５００時間、６００時間、７００時間、８００時間、９００時間、１０００時間又はそれ以上の時点で行われ得る。前記時点は、１時間、２時間、３時間、４時間、５時間、６時間、７時間、８時間、９時間、１０時間、１１時間、１２時間、１３時間、１４時間、１５時間、１６時間、１７時間、１８時間、１９時間、２０時間、２１時間、２２時間、２３時間、２４時間、２５時間、３０時間、３５時間、４０時間、４５時間、５０時間、５５時間、６０時間又はそれ以上に渡ってもよい。前記時点は、１日間、２日間、３日間、４日間、５日間、６日間、７日間、８日間、９日間、１０日間、１１日間、１２日間、１３日間、１４日間、１５日間、１６日間、１７日間、１８日間、１９日間、２０日間、２１日間、２２日間、２３日間、２４日間、２５日間、３０日間、３５日間、４０日間、４５日間、５０日間、５５日間、６０日間又はそれ以上に渡ってもよい。前記時点は、１週間、２週間、３週間、４週間、５週間、６週間、７週間、８週間、９週間、１０週間、１１週間、１２週間、１３週間、１４週間、１５週間、１６週間、１７週間、１８週間、１９週間、２０週間、２１週間、２２週間、２３週間、２４週間、２５週間、３０週間、３５週間、４０週間、４５週間、５０週間、５５週間、６０週間又はそれ以上に渡ってもよい。前記時点は、１ヶ月間、２ヶ月間、３ヶ月間、４ヶ月間、５ヶ月間、６ヶ月間、７ヶ月間、８ヶ月間、９ヶ月間、１０ヶ月間、１１ヶ月間、１２ヶ月間、１３ヶ月間、１４ヶ月間、１５ヶ月間、１６ヶ月間、１７ヶ月間、１８ヶ月間、１９ヶ月間、２０ヶ月間、２１ヶ月間、２２ヶ月間、２３ヶ月間、２４ヶ月間、２５ヶ月間、３０ヶ月間、３５ヶ月間、４０ヶ月間、４５ヶ月間、５０ヶ月間、５５ヶ月間、６０ヶ月間又はそれ以上に渡ってもよい。前記時点は、１年間、２年間、３年間、４年間、５年間、６年間、７年間、８年間、９年間、１０年間、１１年間、１２年間、１３年間、１４年間、１５年間、１６年間、１７年間、１８年間、１９年間、２０年間、２１年間、２２年間、２３年間、２４年間、２５年間、３０年間、３５年間、４０年間、４５年間、５０年間、５５年間、６０年間又はそれ以上に渡ってもよい。

特定の実施形態は、１又は複数のデータを含み得る。前記１又は複数のデータは、１又は複数のアッセイに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数のデータは、１又は複数のデータベースに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数のデータは、１又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記１又は複数のデータは、１又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記１又は複数のデータは、１又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記１又は複数のデータは、１又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。前記データは、配列決定読み取りデータ又は発現データを含み得る。前記データは、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の結合されたデータを含み得る。前記１又は複数の結合されたデータは、２以上のデータを含み得る。前記１又は複数の結合されたデータは、２以上のデータセットを含み得る。前記１又は複数の結合されたデータは、１又は複数のアッセイに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数の結合されたデータは、１又は複数のデータベースに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数の結合されたデータは、１又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記１又は複数の結合されたデータは、１又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記１又は複数の結合されたデータは、１又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記１又は複数の結合されたデータは、１又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。１又は複数の結合されたデータは、配列決定読み取りデータ又は発現データを含み得る。１又は複数の結合されたデータは、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数のデータセットを含み得る。前記１又は複数のデータセットは、１又は複数のデータを含み得る。前記１又は複数のデータセットは、１又は複数の結合されたデータを含み得る。前記１又は複数のデータセットは、１又は複数のアッセイに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数のデータセットは、１又は複数のデータベースに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数のデータセットは、１又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記１又は複数のデータセットは、１又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記１又は複数のデータセットは、１又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記１又は複数のデータセットは、１又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。前記データセットは、配列決定読み取りデータ又は発現データを含み得る。前記データセットは、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の結合されたデータセットを含み得る。前記１又は複数の結合されたデータセットは、２以上のデータを含み得る。前記１又は複数の結合されたデータセットは、２以上の結合されたデータを含み得る。前記１又は複数の結合されたデータセットは、２以上のデータセットを含み得る。前記１又は複数の結合されたデータセットは、１又は複数のアッセイに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数の結合されたデータセットは、１又は複数のデータベースに基づく又は由来する１又は複数の生データを含み得る。前記１又は複数の結合されたデータセットは、１又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記１又は複数の結合されたデータセットは、１又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記１又は複数の結合されたデータセットは、１又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記１又は複数の結合されたデータセットは、１又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。特定の実施形態は、前記結合されたデータセットのさらなる処理及び／又は分析をさらに含み得る。１又は複数の結合されたデータセットは、配列決定読み取りデータ又は発現データを含み得る。１又は複数の結合されたデータセットは、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の結果を含み得る。前記１又は複数の結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットを含み得る。前記１又は複数の結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来するものであり得る。前記１又は複数の結果は、１又は複数のアッセイから作成され得る。前記１又は複数の結果は、１又は複数のアッセイに基づく又は由来するものであり得る。前記１又は複数の結果は、１又は複数のデータベースに基づく又は由来するものであり得る。前記１又は複数の結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結果を含み得る。前記１又は複数の結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結果を含み得る。前記１又は複数の結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に分析された結果を含み得る。前記１又は複数の結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に処理された結果を含み得る。前記結果は、配列決定読み取りデータ又は発現データを含み得る。前記結果は、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の結果のセットを含み得る。前記１又は複数の結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットを含み得る。前記１又は複数の結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来するものであり得る。前記１又は複数の結果のセットは、１又は複数のアッセイから作成され得る。前記１又は複数の結果のセットは、１又は複数のアッセイに基づく又は由来するものであり得る。前記１又は複数の結果のセットは、１又は複数のデータベースに基づく又は由来するものであり得る。前記１又は複数の結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結果のセットを含み得る。前記１又は複数の結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結果のセットを含み得る。前記１又は複数の結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に分析された結果のセットを含み得る。前記１又は複数の結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に処理された結果のセットを含み得る。前記結果のセットは、配列決定読み取りデータ又は発現データを含み得る。前記結果のセットは、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の結合された結果を含み得る。前記結合された結果は、１又は複数の結果、結果のセット、及び／又は結合された結果のセットを含み得る。前記結合された結果は、１又は複数の結果、結果のセット、及び／又は結合された結果のセットに基づく又は由来するものであり得る。前記１又は複数の結合された結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットを含み得る。前記１又は複数の結合された結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来するものであり得る。前記１又は複数の結合された結果は、１又は複数のアッセイから作成され得る。前記１又は複数の結合された結果は、１又は複数のアッセイに基づく又は由来するものであり得る。前記１又は複数の結合された結果は、１又は複数のデータベースに基づく又は由来するものであり得る。前記１又は複数の結合された結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結合された結果を含み得る。前記１又は複数の結合された結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結合された結果を含み得る。前記１又は複数の結合された結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に分析された結合された結果を含み得る。前記１又は複数の結合された結果は、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に処理された結合された結果を含み得る。前記結合された結果は、配列決定読み取りデータ又は発現データを含み得る。前記結合された結果は、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の結合された結果のセットを含み得る。前記結合された結果のセットは、１又は複数の結果、結果のセット、及び／又は結合された結果を含み得る。前記結合された結果のセットは、１又は複数の結果、結果のセット、及び／又は結合された結果に基づく又は由来するものであり得る。前記１又は複数の結合された結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットを含み得る。前記１又は複数の結合された結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来するものであり得る。前記１又は複数の結合された結果のセットは、１又は複数のアッセイから作成され得る。前記１又は複数の結合された結果のセットは、１又は複数のアッセイに基づく又は由来するものであり得る。前記１又は複数の結合された結果のセットは、１又は複数のデータベースに基づく又は由来するものであり得る。前記１又は複数の結合された結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結合された結果のセットを含み得る。前記１又は複数の結合された結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結合された結果のセットを含み得る。前記１又は複数の結合された結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に分析された結合された結果のセットを含み得る。前記１又は複数の結合された結果のセットは、１又は複数のデータ、データセット、結合されたデータ、及び／又は結合されたデータセットに基づく又は由来する充分に処理された結合された結果のセットを含み得る。前記結合された結果のセットは、配列決定読み取りデータ又は発現データを含み得る。前記結合された結果のセットは、生物医学的、科学的、薬理学的、及び／又は遺伝的情報を含み得る。

特定の実施形態は、１又は複数の出力、出力のセット、結合された出力、及び／又は結合された出力のセットを含み得る。本明細書に記載の方法、ライブラリー、キット、及びシステムは、１又は複数の出力、出力のセット、結合された出力、及び／又は結合された出力のセットを作成することを含み得る。前記出力のセットは、１又は複数の出力、１又は複数の結合された出力、又はそれらの組み合わせを含み得る。前記結合された出力は、１又は複数の出力、１又は複数の出力のセット、１又は複数の結合された出力のセット、又はそれらの組み合わせを含み得る。前記結合された出力のセットは、１又は複数の出力、１又は複数の出力のセット、１又は複数の結合された出力、又はそれらの組み合わせを含み得る。前記１又は複数の出力、出力のセット、結合された出力、及び／又は結合された出力のセットは、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、又はそれらの組み合わせに基づく又は由来するものであり得る。前記１又は複数の出力、出力のセット、結合された出力、及び／又は結合された出力のセットは、１又は複数のデータベースに基づく又は由来するものであり得る。前記１又は複数の出力、出力のセット、結合された出力、及び／又は結合された出力のセットは、１又は複数の生物医学的レポート、生物医学的出力、稀なバリアント出力、薬理遺伝学的出力、集団調査出力、ケースコントロール出力、生物医学データベース、ゲノムデータベース、疾患データベース、ネットコンテンツを含み得る。

特定の実施形態は、１又は複数の生物医学的出力、１又は複数の生物医学的出力のセット、１又は複数の結合された生物医学的出力、１又は複数の結合された生物医学的出力のセットを含み得る。本明細書に記載の方法、ライブラリー、キット、及びシステムは、１又は複数の生物医学的出力、１又は複数の生物医学的出力のセット、１又は複数の結合された生物医学的出力、１又は複数の結合された生物医学的出力のセットを作成することを含み得る。前記生物医学的出力のセットは、１又は複数の生物医学的出力、１又は複数の結合された生物医学的出力、又はそれらの組み合わせを含み得る。前記結合された生物医学的出力は、１又は複数の生物医学的出力、１又は複数の生物医学的出力のセット、１又は複数の結合された生物医学的出力のセット、又はそれらの組み合わせを含み得る。前記結合された生物医学的出力のセットは、１又は複数の生物医学的出力、１又は複数の生物医学的出力のセット、１又は複数の結合された生物医学的出力、又はそれらの組み合わせを含み得る。前記１又は複数の生物医学的出力、１又は複数の生物医学的出力のセット、１又は複数の結合された生物医学的出力、１又は複数の結合された生物医学的出力のセットは、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、１又は複数の出力、１又は複数の出力のセット、１又は複数の結合された出力、１又は複数の結合された出力のセット、又はそれらの組み合わせに基づく又は由来するものであり得る。前記１又は複数の生物医学的出力は、対象の生物医学情報を含み得る。前記対象の生物医学情報により、１又は複数の生物医学的特徴を予測、診断、及び／又は予後診断し得る。前記１又は複数の生物医学的特徴は、疾患又は状態の程度、疾患又は状態の遺伝的リスク、生殖リスク、胎児への遺伝的リスク、薬物有害反応のリスク、薬物療法の有効性、最適な薬物投与量の予測、移植耐性、又はそれらの組み合わせを含み得る。

特定の実施形態は、１又は複数の生物医学的レポートを含み得る。本明細書に記載の方法、ライブラリー、キット、及びシステムは、１又は複数の生物医学的レポートを作成することを含み得る。前記１又は複数の生物医学的レポートは、１又は複数のデータ、１又は複数のデータセット、１又は複数の結合されたデータ、１又は複数の結合されたデータセット、１又は複数の結果、１又は複数の結果のセット、１又は複数の結合された結果、１又は複数の出力、１又は複数の出力のセット、１又は複数の結合された出力、１又は複数の結合された出力のセット、１又は複数の生物医学的出力、１又は複数の生物医学的出力のセット、結合された生物医学的出力、１又は複数の生物医学的出力のセット、又はそれらの組み合わせに基づく又は由来するものであり得る。前記生物医学レポートにより、１又は複数の生物医学的特徴を予測、診断、及び／又は予後診断し得る。前記１又は複数の生物医学的特徴は、疾患又は状態の程度、疾患又は状態の遺伝的リスク、生殖リスク、胎児への遺伝的リスク、薬物有害反応のリスク、薬物療法の有効性、最適な薬物投与量の予測、移植耐性、又はそれらの組み合わせを含み得る。

特定の実施形態は、１又は複数のデータ、情報、結果、出力、レポート、又はそれらの組み合わせの伝送も含み得る。例えば、１又は複数のアッセイに基づく又は由来するデータ／情報は、別のデバイス及び／又は機器に伝送される。別の例では、前記データ、結果、出力、生物医学的出力、生物医学的レポート、又はそれらの組み合わせは、別のデバイス及び／又は機器に伝送される。アルゴリズムから得られた情報もまた、別のデバイス及び／又は機器に伝送され得る。１又は複数のデータベースの分析に基づく情報は、別のデバイス及び／又は機器に伝送され得る。前記データ／情報の伝送は、第１のソースから第２のソースへのデータ／情報転送を含み得る。前記第１のソース及び前記第２のソースは、同一近似位置（例えば、同じ部屋、建物、ブロック、キャンパス内）に存在し得る。あるいは、前記第１のソース及び前記第２のソースは、複数の場所（例えば、複数の都市、州、国、大陸など）に存在し得る。前記データ、結果、出力、生物医学的出力、生物医学的レポートは、患者及び／又は医療従事者に伝達され得る。

伝送は、１又は複数のデータ、結果、情報、データベース、出力、レポート、又はそれらの組み合わせの分析に基づき得る。例えば、２番目のレポートの伝送は、最初のレポートの分析に基づいている。あるいは、レポートの伝送は、１又は複数のデータ又は結果の分析に基づいている。伝送は、１又は複数のリクエストの受信に基づいていてもよい。例えば、レポートの伝送は、ユーザー（例えば、患者、医療従事者、個人）からのリクエストの受信に基づいていてもよい。

データ／情報の伝送には、デジタル伝送又はアナログ伝送が含まれ得る。デジタル伝送は、ポイントツーポイント又はポイントツーマルチポイント通信チャンネルを介したデータ（デジタルビットストリーム）の物理的伝送を含み得る。このようなチャンネルの例としては、銅線、光ファイバー、ワイヤレス通信チャンネル、及び記憶媒体が挙げられる。データは、電圧、電波、マイクロ波、又は赤外線信号などの電磁信号として表され得る。

アナログ伝送は、連続的に変化するアナログ信号の伝送を含み得る。メッセージは、ラインコードによる一連のパルス（ベースバンド伝送）、又はデジタル変調方式を使用した連続的に変化する波形の限定されたセット（通過帯域伝送）のいずれかで表され得る。通過帯域変調及び対応する復調（検出としても知られる）は、モデム機器によって実行され得る。デジタル信号の最も一般的な定義によると、ビットストリームを表すベースバンド信号及びパスバンド信号の両方がデジタル伝送と見なされるが、別の定義では、ベースバンド信号のみがデジタルと見なされ、デジタルデータのパスバンド伝送はデジタルからアナログへの変換の形式と見なされる。

特定の実施形態は、１又は複数の試料識別子を含み得る。前記試料識別子は、核酸分子の１又は複数の試料及び／又はサブセットに関連付けられ得る標識、バーコード、及びその他の指標を含み得る。特定の実施形態は、データ、結果、出力、生物医学的出力、及び／又は生物医学的レポートを試料に関連付けるための１又は複数のプロセッサ、１又は複数の記憶場所、１又は複数のコンピューター、１又は複数のモニター、１又は複数のコンピューターソフトウェア、１又は複数のアルゴリズムを含み得る。

特定の実施形態は、１又は複数の核酸分子の発現量と疾患転帰の予後とを相互に関連付けるためのプロセッサを含み得る。特定の実施形態は、ルックアップテーブル、アルゴリズム、多変量モデル、及び式モデル又はアルゴリズムの線形又は非線形の組み合わせを含む、様々な相関手法の１又は複数を含み得る。前記発現量は、前記試料を提供する患者が特定の疾患転帰を示す可能性を反映している１又は複数の尤度スコアに変換され得る。モデル及び／又はアルゴリズムは、機械可読形式で提供されてもよく、所望により患者又は患者クラスの治療法をさらに指定してもよい。

場合によっては、本明細書に記載の方法及びシステムを使用して、ＤＮＡ多型を含む領域（例えば、生殖細胞バリアント又は体細胞バリアント）などのゲノムＤＮＡ領域の検出及び／又は定量化を含む出力を生成する。場合によっては、１又は複数のゲノム領域の検出は、本明細書の他の場所で説明されているデータ入力又はデータベースのソースに応じて、１又は複数のアルゴリズムに基づく。１又は複数のアルゴリズムの各々を使用して、ゲノム領域（すなわち、多型）の検出を含むデータを受信、結合、及び生成し得る。いくつかの実施形態では、本発明の方法及びシステムは、１又は複数、２以上、３以上、４以上、５以上、６以上、７以上、８以上、９以上、又は１０以上のアルゴリズムに基づくゲノム領域の検出を含み得る。前記アルゴリズムは、機械学習アルゴリズム、コンピューター実装アルゴリズム、機械実行アルゴリズム、自動アルゴリズムなどであり得る。

各核酸試料の得られたデータは、特徴選択手法を使用して分析でき、データの固有の特性を調べることによって特徴の関連性を評価するフィルター手法、特徴サブセット検索内にモデル仮説を埋め込むラッパー法、及び最適な特徴セットの検索がアルゴリズム又はモデルに組み込まれている組み込み手法が挙げられる。

場合によっては、１又は複数のゲノム領域の検出は１又は複数の統計モデルに基づいている。本発明の方法において有用な統計モデル又はフィルタリング技術は以下を含む：（１）２標本ｔ検定、ＡＮＯＶＡ分析、ベイジアンフレームワーク、及びガンマ分布モデルの使用などのパラメトリック手法、（２）ウィルコクソンの順位和検定、クラス間及びクラス内平方和検定、順位積法、ランダム純烈法、又は２つのデータセット間の発現の倍数変化の差の閾値ポイントを設定し、次に、誤分類の数を最小限に抑える各遺伝子の閾値ポイントを検出することを含むＴＮｏＭの使用などのモデルフリー法、並びに（３）二変量法、相関ベース特徴選択法（ＣＦＳ）、最小冗長性最大関連性法（ＭＲＭＲ）、マルコフブランケットフィルター法、マルコフモデル、隠れマルコフモデル（ＨＭＭ）、及び相関のない縮小重心（ｕｎｃｏｒｒｅｌａｔｅｄｓｈｒｕｎｋｅｎｃｅｎｔｒｏｉｄ、ＵＳＣ）法などの多変量法。場合によっては、隠れマルコフモデル（ＨＭＭ）に内部状態が与えられ、内部状態は、第１の核酸試料又は第２の核酸試料の染色体の全体的なコピー数に従って設定される。一例では、二倍体染色体の場合、ＨＭＭの内部状態は、ホモ接合性欠失（局所的にゼロコピー）、ヘテロ接合性欠失（局所的に１コピー）、正常（局所的に２コピー）、重複（２以上のコピー）、及び参照ギャップ（ギャップをホモ接合性欠失と区別するための状態として存在）であり得る。別の例では、半数体染色体（例えば、男性のＸ又はＹ）の場合、ＨＭＩＭの内部状態は、ホモ接合性欠失（局所的にゼロコピー）、正常（局所的に２コピー）、重複（２以上のコピー）、及び参照ギャップ（ギャップをホモ接合性欠失と区別するための状態として存在）であり得る。例えば、半数体染色体の場合、利用可能なヘテロ接合性の欠失状態が認められない場合がある。別の例では、トリソミー及び／又はテトラソミーの場合、追加の中間体であるＨＭＭ状態は、追加の中間状態を有し得、中間状態は、様々なＣＮＶの可能性を説明し得る。別の実施形態では、隠れマルコフモデルを使用して、検出された特徴のブレークポイントの近くで測定された読み取りの挿入サイズを調べることによって出力をフィルタリングする。

本発明の方法において有用な他のモデル又はアルゴリズムには、順次検索方法、遺伝子アルゴリズム、分布アルゴリズムの推定、ランダムフォレストアルゴリズム、サポートベクターマシンアルゴリズムの重みベクトル、ロジスティック回帰アルゴリズムの重みなどが挙げられる。Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００７Ｏｃｔ１；２３（１９）：２５０７－１７は、データ分析のために上記で提供されたアルゴリズム又はモデルの相対的な利点の概要を提示している。実例となるアルゴリズムには、主成分分析アルゴリズムなどの変数の数を減らす方法、部分最小二乗法、独立成分分析アルゴリズム、統計的手法など、多数の変数を直接処理する方法、及び機械学習手法に基づく方法が含まれるが、これらに限定されない。統計的手法には、ペナルティ付きロジスティック回帰、マイクロアレイ（ＰＡＭ）の予測分析、縮小セントロイドに基づく手法、サポートベクターマシン分析、及び正則化線形判別分析が含まれる。

いくつかの実施形態では、ＨＭＭベースの検出アルゴリズムは、大きな又は実質的に大きなＣＮＶを「セグメント的に」検出され得る。場合によっては、カバレッジ信号の変動により、真のＣＮＶの長さに沿って小さな検出ギャップが存在することがある。一例では、１メガベースペア（Ｍｂｐ）の欠失は、それらの間に小さなギャップがある、少数の別個の名目上の検出として検出され得る。これを軽減するために、２つのブラケット検出のいずれよりも小さいギャップによって分離された隣接する検出のペアを特定するマージ操作を用いてもよい。次に、マージ操作により、ギャップ内のカバレッジレベルの中央値が測定される。カバレッジの中央値が事前定義された閾値を超えると、２つの検出がマージされて、２つの元の検出（囲まれた検出ギャップを含む）にまたがる単一の大きな検出になる。一例では、真の特徴は両方の検出にまたがり、ギャップは統計的アーティファクトである。大きなＣＮＶを有することが公知である試料の実際の配列決定データを使用すると、このマージ操作により、ＣＮＶの実際の特性に関して大幅に忠実度を高めることができる。

本明細書で提供される方法及びシステムは、本明細書で提供されるような特徴選択アルゴリズムの使用をさらに含み得る。本発明のいくつかの実施形態では、特徴選択は、ＬＩＭＭＡソフトウェアパッケージ（Ｓｍｙｔｈ，Ｇ．Ｋ．（２００５）．Ｌｉｍｍａ：ｌｉｎｅａｒｍｏｄｅｌｓｆｏｒｍｉｃｒｏａｒｒａｙｄａｔａ．Ｉｎ：ＢｉｏｉｎｆｏｒｍａｔｉｃｓａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙＳｏｌｕｔｉｏｎｓｕｓｉｎｇＲａｎｄＢｉｏｃｏｎｄｕｃｔｏｒ，Ｒ．Ｇｅｎｔｌｅｍａｎ，Ｖ．Ｃａｒｅｙ，Ｓ．Ｄｕｄｏｉｔ，Ｒ．Ｉｒｉｚａｒｒｙ，Ｗ．Ｈｕｂｅｒ（ｅｄｓ．），Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋ，ｐａｇｅｓ３９７－４２０）を使用して提供される。

本発明のいくつかの実施形態では、１又は複数のゲノム領域を検出するために、対角線形判別分析、Ｋ最近傍アルゴリズム、サポートベクターマシン（ＳＶＭ）アルゴリズム、線形サポートベクターマシン、ランダムフォレストアルゴリズム、確率モデルベースの方法、又はそれらの組み合わせが提供される。いくつかの実施形態では、試料を区別する（例えば、疾患対正常）又はゲノム領域を区別する（例えば、コピー数多型対正常）特定されたマーカーは、目的のクラス間の発現量の差の統計的有意性に基づいて選択される。場合によっては、統計的有意性は、ベンジャミーニーホッホベルク（ＢｅｎｊａｍｉｎｉＨｏｃｈｂｅｒｇ）又は偽発見率（ＦＤＲ）の別の補正を適用することによって調整される。

場合によっては、前記アルゴリズムは、ＦｉｓｈｅｌａｎｄＫａｕｆｍａｎｅｔａｌ．２００７Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２３（１３）：１５９９－６０６に記載されるようなメタ分析アプローチで補完されてもよい。場合によっては、前記アルゴリズムは、再現性分析などのメタ分析アプローチで補完されてもよい。場合によっては、再現性分析により、少なくとも１つの予測発現産物マーカーセットに現れるマーカーが選択される。

ゲノム領域の検出の統計的評価によって、以下の１又は複数を示す１又は複数の定量値が提供される：診断精度の尤度；傷害、疾患、状態などの尤度；特定の傷害、疾患、又は状態の尤度；及び特定の治療的介入の成功の可能性。したがって、遺伝学や分子生物学の訓練を受けていない可能性が高い医師は、生データを理解する必要はない。むしろ、データは、患者のケアを導くための定量値の形で医師に直接提示される。前記結果は、当技術分野で公知のいくつかの方法を使用して統計的に評価することができ、スチューデントのｔ検定、両側ｔ検定、ピアソン順位和分析、隠しマルコフモデル分析、Ｑ－Ｑプロットの分析、主成分分析、一元配置分散分析、二元配置分散分析、ＬＩＭＭＡなどが含まれるが、これらに限定されない。

Ｆ．疾患及び状態
特定の実施形態は、１又は複数の生物医学的出力に基づいて、対象における疾患又は状態の程度又は転帰を予測、診断、及び／又は予後診断することを含み得る。対象における疾患の程度又は転帰を予測、診断、及び／又は予後診断することは、疾患又は状態を診断すること、疾患又は状態を特定すること、疾患又は状態のステージを決定すること、疾患又は状態のリスクを評価すること、疾患再発のリスクを評価すること、薬物の有効性を評価すること、薬物有害反応のリスクを評価すること、最適な薬剤投与量を予測すること、薬剤耐性を予測すること、又はそれらの組み合わせを含み得る。

本明細書に開示される試料は、癌に罹患している対象からのものであり得る。前記試料は、悪性組織、良性組織、又はそれらの混合物を含み得る。前記癌は、再発性及び／又は難治性の癌であり得る。癌の例には、肉腫、癌腫、リンパ腫、又は白血病が含まれるが、これらに限定されない場合によっては、癌組織を含む試料が得られるが、一致する正常試料は得られない。場合によっては、入手可能な一致する正常試料はない。場合によっては、一致する正常試料が取得される（例えば、本明細書に開示されているモデルの訓練及びテストの目的で）。

肉腫は、骨、軟骨、脂肪、筋肉、血管、又はその他の結合組織若しくは支持組織の癌である。肉腫には、骨癌、線維肉腫、軟骨肉腫、ユーイング肉腫、悪性血管内皮腫、悪性神経鞘腫、両側前庭神経鞘腫、骨肉腫、軟部肉腫（例えば、胞巣状軟部肉腫、血管肉腫、葉状嚢胞肉腫、皮膚線維肉腫、デスモイド腫瘍、類上皮肉腫、骨格外骨肉腫、線維肉腫、血管周囲細胞腫、血管肉腫、カポジ肉腫、平滑筋肉腫、脂肪肉腫、リンパ管肉腫、リンパ肉腫、悪性線維性組織球腫、神経線維肉腫、横紋筋肉腫、及び滑膜肉腫）が挙げられるが、これらに限定されない。

癌腫は、体表面を覆い、ホルモンを産生し、腺を構成する細胞である上皮細胞から発生する癌である。非限定的な例として、癌腫には、乳癌、膵臓癌、肺癌、結腸癌、結腸直腸癌、直腸癌、腎臓癌、膀胱癌、胃癌、前立腺癌、肝臓癌、卵巣癌、脳腫瘍、膣癌、外陰癌、子宮癌、口腔癌、陰茎癌、精巣癌、食道癌、皮膚癌、卵管癌、頭頸部癌、消化管間質癌、腺癌、皮膚又は眼内黒色腫、肛門領域癌、小腸癌、内分泌系癌、甲状腺癌、副甲状腺癌、副腎癌、尿道癌、腎盂癌、尿管癌、子宮内膜癌、子宮頸癌、下垂体癌、中枢神経系（ＣＮＳ）の新生物、原発性ＣＮＳリンパ腫、脳幹神経膠腫、及び脊髄軸腫瘍が挙げられる。前記癌は、基底細胞癌、扁平上皮癌、黒色腫、非黒色腫、又は光線性（太陽）角化症などの皮膚癌であり得る。

前記癌は、肺癌であってもよい。肺癌は、気管から分岐して肺（気管支）又は肺の小さな気嚢（肺胞）に供給する気道で発生し得る。肺癌には、非小細胞肺癌（ＮＳＣＬＣ）、小細胞肺癌、及び中皮腫が含まれる。ＮＳＣＬＣの例には、扁平上皮癌、腺癌、及び大細胞癌が含まれる。中皮腫は、肺及び胸腔（胸膜）又は腹部の内層（腹膜）の内層の癌性腫瘍であり得る。中皮腫はアスベスト曝露が原因である場合がある。前記癌は、膠芽腫などの脳腫瘍であり得る。

前記癌は、中枢神経系（ＣＮＳ）腫瘍であり得る。ＣＮＳ腫瘍は神経膠腫又は非神経膠腫として分類され得る。神経膠腫は、悪性神経膠腫、高悪性度神経膠腫、びまん性内因性橋神経膠腫であり得る。神経膠腫の例には、星状細胞腫、乏突起膠腫（又は乏突起膠腫及び星状細胞腫の要素の混合物）、及び上衣腫が含まれる。星状細胞腫には、低悪性度星状細胞腫、退形成性星状細胞腫、多形性膠芽腫、毛様細胞性星状細胞腫、多形黄色星細胞腫、及び上衣下巨大細胞星状細胞腫が挙げられるが、これらに限定されない。乏突起膠腫には、低悪性度の乏突起膠腫（又は乏突起膠腫）及び退形成性乏突起膠腫が挙げられる。非神経膠腫には、髄膜腫、下垂体腺腫、原発性ＣＮＳリンパ腫、及び髄芽腫が挙げられる。前記癌は髄膜腫であり得る。

白血病は、急性リンパ性白血病、急性骨髄性白血病、慢性リンパ性白血病、又は慢性骨髄性白血病であり得る。追加の種類の白血病には、有毛細胞白血病、慢性骨髄単球性白血病、及び若年性骨髄単球性白血病が挙げられる。

リンパ腫はリンパ球の癌であり、Ｂリンパ球又はＴリンパ球のいずれかから発生し得る。リンパ腫の２つの主な種類は、以前はホジキン病として知られていたホジキンリンパ腫及び非ホジキンリンパ腫である。ホジキンリンパ腫は、リードシュテルンベルグ細胞の存在によって特徴付けられる。非ホジキンリンパ腫は全てホジキンリンパ腫ではないリンパ腫である。非ホジキンリンパ腫は、無痛性リンパ腫及び侵攻性リンパ腫であり得る。非ホジキンリンパ腫には、びまん性大細胞型Ｂ細胞リンパ腫、濾胞性リンパ腫、粘膜関連リンパ組織リンパ腫（ＭＡＬＴ）、小細胞リンパ球性リンパ腫、マントル細胞リンパ腫、バーキットリンパ腫、縦隔大細胞型Ｂ細胞リンパ腫、ワルデンストレーム・マクログロブリン血症、節性辺縁帯Ｂ細胞リンパ腫（ＮＭＺＬ）、脾辺縁帯リンパ腫（ＳＭＺＬ）、節外性辺縁帯Ｂ細胞リンパ腫、血管内大細胞型Ｂ細胞リンパ腫、原発性滲出液リンパ腫、及びリンパ腫様肉芽腫症が挙げられるが、これらに限定されない。

特定の実施形態は、１又は複数の生物医学的出力に基づいて、対象における疾患又は状態を治療及び／又は予防することを含み得る。前記１又は複数の生物医学的出力は、１又は複数の治療法を推奨し得る。前記１又は複数の生物医学的出力は、疾患又は状態の治療及び／又は予防コースを提案、選択、指定、推奨、又はその他の方法で決定し得る。前記１又は複数の生物医学的出力は、１又は複数の治療法を変更又は継続することを推奨し得る。１又は複数の治療法の変更は、１又は複数の治療法を実施する、開始する、減らす、増やす、及び／又は終了することを含み得る。前記１又は複数の治療法は、抗癌療法、抗ウイルス療法、抗菌療法、抗真菌療法、免疫抑制療法、又はそれらの組み合わせを含み得る。前記１又は複数の治療法は、１又は複数の疾患又は適応症を治療、緩和、又は予防し得る。

抗癌療法の例には、手術、化学療法、放射線療法、免疫療法／生物学的療法、光力学的療法が含まれるが、これらに限定されない。抗癌療法は、化学療法剤、モノクローナル抗体（例えば、リツキシマブ、トラスツズマブ）、癌ワクチン（例えば、治療ワクチン、予防ワクチン）、遺伝子療法、又はそれらの組み合わせを含み得る。

Ｇ．システム、キット、及びライブラリー
本開示の方法は、システム、キット、ライブラリー、又はそれらの組み合わせによって実施され得る。本発明の方法は、１又は複数のシステムを含んでいてもよい。本開示のシステムは、キット、ライブラリー、又はその両方を介して実施され得る。システムは、特定の実施形態の方法又は工程のいずれかを実施するための１又は複数の構成要素を含んでいてもよい。例えば、システムは、１又は複数のキット、デバイス、ライブラリー、又はそれらの組み合わせを含んでいてもよい。システムは、１又は複数のシーケンサー、プロセッサ、記憶場所、コンピューター、コンピューターシステム、又はそれらの組み合わせを含んでいてもよい。システムは、伝送装置を含んでいてもよい。

キットは、試料処理及び／又は分析操作を含む、本明細書に開示される様々な操作を実施するための様々な試薬を含んでいてもよい。キットは、本明細書に開示される操作の少なくともいくつかを実施するための指示を含んでいてもよい。キットは、１又は複数の捕捉プローブ、１又は複数のビーズ、１又は複数の標識、１又は複数のリンカー、１又は複数のデバイス、１又は複数の試薬、１又は複数の緩衝液、１又は複数の試料、１又は複数のデータベース、又はそれらの組み合わせを含んでいてもよい。

ライブラリーは、１又は複数の捕捉プローブを含んでいてもよい。ライブラリーは、１又は複数の核酸分子のサブセットを含んでいてもよい。ライブラリーは、１又は複数のデータベースを含んでいてもよい。ライブラリーは、本明細書に開示されている方法、キット、又はシステムのいずれかから作成又は生成されてもよい。データベースライブラリーは、１又は複数のデータベースから作成されてもよい。１又は複数のライブラリーを作成する方法は、（ａ）１又は複数のデータベースからの情報を集約して、集約されたデータセットを作成すること、（ｂ）前記集約されたデータセットを分析すること、及び（ｃ）前記集約されたデータセットから１又は複数のデータベースライブラリーを作成すること、を含んでいてもよい。

ＶＩ．コンピューティング環境
図１０は、本明細書に開示される実施形態のいくつかを実施するためのコンピューターシステム１０００の例を示す。コンピューターシステム１０００は、いくつかの構成要素（例えば、メモリ及びプロセッサ）がエンドユーザーデバイスの一部であり、いくつかの他の同様の構成要素（例えば、メモリ及びプロセッサ）がコンピュータサーバーの一部である分散アーキテクチャを有していてもよい。コンピューターシステム１０００は、少なくともプロセッサ１００２、メモリ１００４、記憶装置１００６、入力／出力（Ｉ／Ｏ）周辺機器１００８、通信周辺機器１０１０、及びインターフェースバス１０１２を含む。インターフェースバス１０１２は、コンピューターシステム１０００の様々な構成要素間でデータ、制御、及びコマンドを通信、送信、及び転送するように構成される。プロセッサ１００２は、ＣＰＵ、ＧＰＵ、ＴＰＵ、シストリックアレイ、又はＳＩＭＤプロセッサなどの１又は複数の処理ユニットを含んでいてもよい。メモリ１００４及び記憶装置１００６は、ＲＡＭ、ＲＯＭ、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、ハードドライブ、ＣＤ－ＲＯＭ、光記憶装置、磁気記憶装置、電子不揮発性コンピューター・ストレージ（例えば、Ｆｌａｓｈ（登録商標））、及びその他の有形記憶媒体などのコンピューター可読記憶媒体を含む。そのようなコンピューター可読記憶媒体のいずれも、本開示の態様を具体化する命令又はプログラムコードを記憶するように構成され得る。メモリ１００４及び記憶装置１００６はまた、コンピューター可読信号媒体を含む。コンピューター可読信号媒体には、コンピューター可読プログラムコードが組み込まれた伝搬データ信号が含まれる。このような伝播された信号は、電磁的、光学的、又はそれらの任意の組み合わせを含むがこれらに限定されない様々な形態のいずれかをとる。コンピューター可読信号媒体には、コンピューター可読記憶媒体ではなく、コンピューターシステム１０００に関連して使用するためのプログラムを通信、伝播、又は伝送し得る任意のコンピューター可読媒体が含まれる。

さらに、メモリ１００４は、オペレーティングシステム、プログラム、及びアプリケーションを含む。プロセッサ１００２は、格納された命令を実行するように構成され、例えば、論理処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、及び他のプロセッサを含む。メモリ１００４及び／又はプロセッサ１００２は、仮想化することができ、例えば、クラウドネットワーク又はデータセンターの別のコンピューティングシステム内でホストされ得る。Ｉ／Ｏ周辺機器１００８には、キーボード、画面（例えば、タッチスクリーン）、マイク、スピーカー、その他の入力／出力デバイスなどのユーザーインターフェイス、並びにグラフィカル処理ユニット、シリアルポート、パラレルポート、ユニバーサルシリアルバス、及びその他の入力／出力周辺機器などのコンピューティングコンポーネントが含まれる。Ｉ／Ｏ周辺機器１００８は、インターフェースバス１０１２に結合された任意のポートを介してプロセッサ１００２に接続されている。通信周辺機器１０１０は、通信ネットワークを介したコンピューターシステム１０００と他のコンピューティング装置との間の通信を容易にするように構成され、例えば、ネットワークインターフェースコントローラー、モデム、無線及び有線インターフェースカード、アンテナ、及び他の通信周辺機器を含む。

本発明の主題は、その特定の実施形態に関して詳細に説明されてきたが、当業者は、前述の理解を得ると、そのような実施形態の変更、変形、及び均等物を容易に生じ得ることが理解されよう。したがって、本開示は、限定ではなく例の目的で提示されており、当業者に容易に明らかであるような本発明の主題へのそのような修正、変形、及び／又は追加を含めることを排除するものではないことを理解されたい。実際、本明細書に記載の方法及びシステムは、他の様々な形態で具体化することができ、さらに、本開示の精神から逸脱することなく、本明細書に記載の方法及びシステムの形態の様々な省略、置換、及び変更を行うことができる。付随する請求項及びそれらの均等物は、本開示の範囲及び精神に含まれるような形態又は修正を対象にすることを意図している。

特に明記しない限り、「処理（すること）」、「コンピューティング（すること）」、「計算（すること）」、「決定（すること）」、及び「特定（すること）」などの用語を利用することは、メモリ、レジスタ、又はその他の情報記憶装置、伝送装置、又はコンピューティングプラットフォームの表示装置内で、物理的な電子量又は磁気量として表されるデータを操作又は変換する１又は複数のコンピューター又は同様の電子コンピューティング装置などのコンピューティング装置のアクション又はプロセスを指すことが本明細書における説明全体を通して理解される。

本明細書で説明する１又は複数のシステムは、特定のハードウェアアーキテクチャ又は構成に限定されない。コンピューティング装置は、１又は複数の入力で条件付けられた結果を提供する構成要素の任意の適切な配置を含み得る。適切なコンピューティング装置には、汎用コンピューティング装置から本発明の主題の１又は複数の実施形態を実施する特殊なコンピューティング装置まで、コンピューティングシステムをプログラム又は構成する格納されたソフトウェアにアクセスする多目的マイクロプロセッサベースのコンピューティングシステムが挙げられる。任意の適切なプログラミング、スクリプティング、又は他のタイプの言語若しくは言語の組み合わせを使用して、コンピューティング装置のプログラミング又は構成に使用されるソフトウェアに本明細書に含まれる教示を実装してもよい。

本明細書に開示される方法の実施形態は、そのようなコンピューティング装置の操作において実行され得る。上記の例に示されているブロックの順序は変更してもよく、例えば、ブロックの順序を変更したり、組み合わせたり、及び／又はサブブロックに分割してもよい。特定のブロック又はプロセスは、並行して実行され得る。

本明細書で使用される条件付き言語、例えば、「し得る（ｃａｎ）」、「し得るだろう（ｃｏｕｌｄ）」、「する場合がある（ｍｉｇｈｔ）」、「してもよい（ｍａｙ）」、「例えば」などは、特に明記しない限り、又は使用される文脈内でその他の点で理解されない限り、概して、特定の例には、特定の特徴、要素、及び／又は工程が含まれるが、他の例では含まれないことを伝えることを意図している。したがって、そのような条件付き言語は、概して、特徴、要素、及び／又は工程が１又は複数の例に必要であること、又は１又は複数の例に、作成者の入力又は指示の有無にかかわらず、決定するためのロジックが必然的に含まれることを意味することを意図しておらず、これらの特徴、要素、及び／又は工程は、特定の例に含まれているか、実行されるものである。

「含む／備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」などの用語は同義であり、制限のない方法で包括的に使用され、追加の要素、特徴、アクション、操作などを除外するものではない。また、「又は」という用語は、その包括的な意味で（排他的な意味ではなく）使用されるため、例えば、要素のリストを関連付けるために使用される場合、「又は」という用語は、リスト内の要素の１つ、いくつか、又は全てを意味する。本明細書における「適応（された）」又は「構成（された）」の使用は、追加のタスク又は工程を実行するように適応又は構成されたデバイスを排除しない、オープンかつ包括的な言語を意味する。さらに、「基づく」の使用は、１又は複数の記載された条件又は値に「基づく」プロセス、工程、計算、又はその他のアクションが実際には追加の条件又は記載されている値を超える値に基づいていてもよいという点で、オープンかつ包括的であることを意味する。同様に、「少なくとも部分的に基づく」の使用は、１又は複数の列挙された条件又は値に「少なくとも部分的に基づく」プロセス、工程、計算、又は他のアクションが、実際には、記載されているもの以外の追加の条件又は記載されている値を超える値に基づいていてもよいという点で、オープンかつ包括的であることを意味する。本明細書に含まれる見出し、リスト、及び番号付けは、説明を容易にするためのものであり、限定するものではない。

上記の様々な特徴及びプロセスは、互いに独立して使用しても、様々な方法で組み合わせてもよい。全ての可能な組み合わせ及び副次的組み合わせは、本開示の範囲内に入ることが意図されている。さらに、一部の実装では、特定の方法ブロック又はプロセスブロックが省略されてもよい。本明細書に記載の方法及びプロセスもまた、特定のシーケンスに限定されず、それに関連するブロック又はステータスは、適切な他のシーケンスで実行され得る。例えば、記載されたブロック又はステータスは、具体的に開示された順序以外の順序で実行され得るか、又は複数のブロック又はステータスが単一のブロック又はステータスに組み合わされ得る。ブロック又はステータスの例は、連続して、並行して、又はその他の方法で実行されてもよい。ブロック又はステータスは、開示された例に追加又は例からは削除されてもよい。同様に、本明細書に記載されている例示的なシステム及び構成要素は、記載されているものとは異なって構成され得る。例えば、要素は、開示された例と比較して、追加、削除、又は再配置されてもよい。

Claims

腫瘍純度を決定する方法であって、
対象の生物学的資料の複数の核酸分子を表す核酸配列データを取得すること、
前記核酸配列データを参照ゲノムにアラインメントすること、
前記アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定することであって、前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する１又は複数のヌクレオチド配列バリアントを含むこと、
前記ゲノム領域のセットの各ゲノム領域のＢ対立遺伝子頻度を測定すること、
前記ゲノム領域のセットの前記Ｂ対立遺伝子頻度に基づいて、前記生物学的試料のＢ対立遺伝子頻度分布を測定すること、
訓練済み機械学習モデルを使用して前記Ｂ対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定すること、及び
前記メトリックを出力すること、を含む方法。
前記核酸配列データが、全エクソーム配列決定データである、請求項１に記載の方法。
前記核酸配列データが、全ゲノム配列決定データである、請求項１に記載の方法。
前記対象から前記腫瘍試料を取得すること、及び
前記腫瘍試料の前記複数の核酸分子を配列決定して、前記核酸配列データを生成すること、
をさらに含む、請求項１に記載の方法。
配列決定の前に前記複数の核酸分子を単離することをさらに含む、請求項４に記載の方法。
前記ゲノム領域のセットを特定することが、
前記核酸配列データにおける１又は複数のヌクレオチド配列バリアント候補を特定すること、及び
前記１又は複数のヌクレオチド配列バリアント候補の各々の参照読み取り深度及び代替読み取り深度を計算すること、を含む、請求項１に記載の方法。
前記訓練済み機械学習モデルは、正常細胞で希釈された１又は複数の腫瘍細胞に由来する核酸配列データから生成された訓練データセットで訓練されている、請求項１に記載の方法。
前記Ｂ対立遺伝子頻度分布が正規化されている、請求項１に記載の方法。
前記訓練済み機械学習モデルの平均絶対誤差が、約０．２未満である、請求項１に記載の方法。
前記Ｂ対立遺伝子頻度分布を特定する情報を含むレポートを出力することをさらに含む、請求項１に記載の方法。
推定した前記腫瘍純度を特定するメトリックを含むレポートを出力することをさらに含む、請求項１に記載の方法。
前記レポートが、少なくとも１つのバイオマーカーを特定する情報をさらに含む、請求項１１に記載の方法。
前記レポートが、少なくとも１つの予後マーカーを特定する情報をさらに含む、請求項１１に記載の方法。
前記レポートが、予測される体細胞バリアントを特定する情報を含む、請求項１１に記載の方法。
前記レポートが、治療推奨を含む、請求項１１に記載の方法。
前記腫瘍試料が、ヒト対象由来である、請求項１に記載の方法。
前記治療推奨が、前記対象に治療を施さないという推奨を含む、請求項１５に記載の方法。
前記対象に前記治療を施すことをさらに含む、請求項１７に記載の方法。