JP2023504529A

JP2023504529A - がん予測パイプラインにおけるｒｎａ発現コールを自動化するためのシステムおよび方法

Info

Publication number: JP2023504529A
Application number: JP2022533160A
Authority: JP
Inventors: ベル，ジョシュア，エスケー; イガルトゥア，キャサリン; ドレウス，ジョシュア
Original assignee: テンパスラブズ，インコーポレイテッド
Priority date: 2019-12-04
Filing date: 2020-12-04
Publication date: 2023-02-03
Also published as: AU2020398175A1; EP4070318A1; WO2021113749A1; US11043283B1; US20210272649A1; US20210174898A1

Abstract

品質管理分析を実施するためのシステムおよび方法が提供される。この方法は、試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームＲＮＡ配列決定によってそれぞれの試料から得られた対応する複数の配列リードと、それぞれの試料についての対応するメタデータと、を含む、バッチデータセットを電子形式で取得する。この方法は、バッチデータセットについて、コホート一致参照バッチを決定し、コホート一致参照バッチが、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、または配列決定された日付について均衡が取れている。この方法は、少なくともコホート一致参照バッチを使用してバッチデータセットに対して１つ以上のグローバルバッチ品質管理試験を実施する。この方法は、１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるバッチデータセットからそれぞれの試料を除去するか、または１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てる。【選択図】図１４

Description

関連出願の相互参照
本出願は、２０１９年１２月４日に出願された米国仮特許出願第６２／９４３，７１２号の優先権を主張し、その内容は、すべての目的のためにそれらの全体が参照により本明細書に組み込まれる。

本開示は、概して、ＲＮＡ配列情報を使用して、ＲＮＡ配列決定試料のバッチに対して品質管理を実施することに関する。

バイオインフォマティクスの品質管理プロセスにおいて現在実装されている単一試料ＲＮＡ品質測定法は、全体的な試料品質およびトランスクリプトームの完全性を検出するように設計された。しかしながら、試料の品質に影響を与え得るエラーの潜在的な原因が多数存在し、特に、配列決定試料のバッチ全体の結果に影響を与え得る効果が存在する。例えば、ライブラリー作成プロトコルの変更（例えば、試薬、キャプチャプローブロットまたは機器）またはバイオインフォマティクスパイプライン（例えば、プログラムのバージョン）の変更は、バッチ効果と呼ばれる、わずかなトランスクリプトームの変更をもたらす可能性があり、モデル性能および下流プロセスの臨床的解釈（例えば、遺伝子が、以前に配列決定された試料と比較して過剰発現もしくは過少発現されているかどうかを決定すること、または原因不明の腫瘍を診断するための機械学習モデル）に影響を与える可能性がある。これらのバッチ効果は、試料全体のデータパターンを活用することによってのみ検出可能であり、ＲＮＡマッピングと下流分析との間に新しいプロセスを実装する必要がある。

当該技術分野で必要とされるものは、ハイスループットでの異種ＲＮＡ配列決定試料のバッチ効果の品質管理検出および分析を自動的に実施するための改善された方法である。

上記の背景を考慮して、ＲＮＡ試料のバッチ品質管理（例えば、品質評価）を実施するための、改善されたシステムおよび方法が必要とされる。有利には、本開示は、当該技術分野におけるこれらおよび他の欠点に対する解決策を提供する。例えば、いくつかの実施形態において、本明細書に記載されるシステムおよび方法は、ＲＮＡ配列決定試料のバッチ全体の自動品質管理を提供する（例えば、それによって、現在利用可能なものよりも速い品質管理分析を実施する）。同様に、いくつかの実施形態において、本明細書に記載される方法およびシステムは、別様の通常の単一試料品質管理測定法では特定されないバッチ効果を特定することにより、例えば、精密な腫瘍学のために、ＲＮＡ発現データを使用する診断システムおよび方法を改善する。

本開示の一態様は、品質管理を実施する方法を提供する。この方法は、１つ以上のプロセッサと、１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて実施される。この方法は、（ａ）試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームＲＮＡ配列決定によってそれぞれの試料から得られた対応する複数の配列リードと、それぞれの試料についての対応するメタデータと、を含む、バッチデータセットを電子形式で取得することによって開始する。この方法は、（ｂ）バッチデータセットについて、コホート一致参照バッチを決定することであって、コホート一致参照バッチが、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および／または配列決定された日付について均衡が取れている、決定することによって継続する。この方法は、少なくともコホート一致参照バッチを使用してバッチデータセットに対して１つ以上のグローバルバッチ品質管理試験を実施する。この方法は、（ｄ）１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるバッチデータセットからそれぞれの試料を除去するか、または１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てる。

いくつかの実施形態において、バッチデータセットについてのコホート一致参照データセットを決定することは、試料のバッチ内の各試料について、ｉ）それぞれの複数の配列リードからのそれぞれの複数の配列特徴を抽出し、それによって、バッチの複数の配列特徴を取得することと、ｉｉ）それぞれの複数の試料メタデータ特徴を抽出し、それによって、バッチの複数のメタデータ特徴を取得することと、を含む。いくつかの実施形態において、コホート一致参照データセットを決定することは、バッチの複数の試料処理および配列特徴またはバッチの複数のメタデータ特徴に少なくとも部分的に基づいて、参照データセットから、複数の参照試料を含むコホート一致参照データセットを選択することをさらに含む。

いくつかの実施形態において、この方法は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードから、それぞれの試料に対して１つ以上の単一試料品質管理試験を実施することと、１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格となる試料のバッチからそれぞれの試料を除去すること、または１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てることと、をさらに含む。

いくつかの実施形態において、１つ以上のグローバルバッチ品質管理試験は、バイオインフォマティクスパイプライン分析および配列決定方法を含むセットからの１つ以上のバッチ効果についての試験を含む。

いくつかの実施形態において、この方法は、バッチの複数の配列特徴およびバッチの複数のメタデータ特徴を、次元縮小手法に供することによって、バッチの複数の配列特徴およびバッチの複数のメタデータ特徴の線形または非線形の組み合わせを決定することをさらに含む。

いくつかの実施形態において、この方法は、（ｃ）１つ以上のグローバルバッチ品質管理試験を実施する前に、コホート一致参照バッチを使用して、１つ以上の交絡共変量についてバッチデータセット内の各試料を調整することをさらに含む。

いくつかの実施形態において、この方法は、試料のバッチ内の各試料について、それぞれの試料レポートを提供することであって、各それぞれの試料レポートが、発現コールのセット、１つ以上の一致した療法、または１つ以上の一致した臨床試験のうちの少なくとも１つを含む、提供することをさらに含む。

いくつかの実施形態において、この方法は、クラウドサーバを備えるコンピュータシステムで実施される。いくつかの実施形態において、１つ以上のグローバルバッチ品質管理試験は、第１のモジュールを含み、１つ以上の単一試料品質管理試験は、第２のモジュールを含む。

他の実施形態は、本明細書に記載の方法に関連するシステム、携帯型消費者デバイス、およびコンピュータ可読媒体を対象としている。本明細書に開示される任意の実施形態は、適用可能な場合、本明細書に記載される方法のうちの任意の態様に適用され得る。

本開示の追加の態様および利点は、以下の詳細な説明から当業者に容易に明らかになり、本開示の例示的な実施形態のみが示され、記載される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正し得る。したがって、図面および明細書は、本質的に例示的なものと見なされるべきであり、限定的なものとして見なされるべきではない。

本開示のいくつかの実施形態による、例示的なコンピュータデバイスのブロック図を示す。本開示のいくつかの実施形態による、ＲＮＡ配列試料のバッチに対して品質管理を実施するためのプロセスおよび特徴のフローチャートをまとめて提供し、任意選択のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、ＲＮＡ配列試料のバッチに対して品質管理を実施するためのプロセスおよび特徴のフローチャートをまとめて提供し、任意選択のブロックは破線のボックスで示される。本開示のいくつかの実施形態による、ＰＡＸまたはＥＤＴＡチューブを用いて収集されたＲＮＡ試料に対する技術的バッチ効果の評価をまとめて示す。図３Ａは、プールされたコホートと、組織が一致した試料のＵＭＡＰ埋め込みを示す。図３Ｂおよび３Ｃは、マンホイットニーのＵ検定が、両方のＵＭＡＰ座標においてＰＡＸまたはＥＤＴＡチューブを用いて収集された一致した試料間の差異をプログラムで見出すことを示す。ＵＭＡＰ座標は順序付けられておらず、バッチ効果を検出する座標は任意である。本開示のいくつかの実施形態による、ＰＡＸまたはＥＤＴＡチューブを用いて収集されたＲＮＡ試料に対する技術的バッチ効果の評価をまとめて示す。図３Ａは、プールされたコホートと、組織が一致した試料のＵＭＡＰ埋め込みを示す。図３Ｂおよび３Ｃは、マンホイットニーのＵ検定が、両方のＵＭＡＰ座標においてＰＡＸまたはＥＤＴＡチューブを用いて収集された一致した試料間の差異をプログラムで見出すことを示す。ＵＭＡＰ座標は順序付けられておらず、バッチ効果を検出する座標は任意である。本開示のいくつかの実施形態による、ＰＡＸまたはＥＤＴＡチューブを用いて収集されたＲＮＡ試料に対する技術的バッチ効果の評価をまとめて示す。図３Ａは、プールされたコホートと、組織が一致した試料のＵＭＡＰ埋め込みを示す。図３Ｂおよび３Ｃは、マンホイットニーのＵ検定が、両方のＵＭＡＰ座標においてＰＡＸまたはＥＤＴＡチューブを用いて収集された一致した試料間の差異をプログラムで見出すことを示す。ＵＭＡＰ座標は順序付けられておらず、バッチ効果を検出する座標は任意である。本開示のいくつかの実施形態による、ＫａｌｌｉｓｔｏまたはＳＴＡＲバイオインフォマティクスソフトウェアパイプラインを用いてアラインメントされた試料に対する技術的バッチ効果の評価をまとめて示す。図４は、コホートおよび組織が一致した試料のＵＭＡＰ埋め込みを示す。図４Ｂおよび４Ｃは、ＵＭＡＰ座標の各々でのマンホイットニーのＵ検定の結果を示す。本開示のいくつかの実施形態による、ＫａｌｌｉｓｔｏまたはＳＴＡＲバイオインフォマティクスソフトウェアパイプラインを用いてアラインメントされた試料に対する技術的バッチ効果の評価をまとめて示す。図４は、コホートおよび組織が一致した試料のＵＭＡＰ埋め込みを示す。図４Ｂおよび４Ｃは、ＵＭＡＰ座標の各々でのマンホイットニーのＵ検定の結果を示す。本開示のいくつかの実施形態による、ＫａｌｌｉｓｔｏまたはＳＴＡＲバイオインフォマティクスソフトウェアパイプラインを用いてアラインメントされた試料に対する技術的バッチ効果の評価をまとめて示す。図４は、コホートおよび組織が一致した試料のＵＭＡＰ埋め込みを示す。図４Ｂおよび４Ｃは、ＵＭＡＰ座標の各々でのマンホイットニーのＵ検定の結果を示す。技術的バッチ効果．効果の共通の原因についての偽発見率（ＦＤＲ）の分布をまとめて示す。各技術クラス、すなわち、フローセル（図５Ａ）、パイプライン（図５Ｂ）、およびシーケンサー（図５Ｃ）について、技術的バッチ効果を、特徴当たり１５個のサブ試料について分析し、ＢｅｎｊａｍｉｎｉＨｏｃｈｂｅｒｇ補正ＦＤＲを、サブ試料全体で計算した。提示された分布は、サブ試料全体のＦＤＲの中央値を表す。技術的バッチ効果．効果の共通の原因についての偽発見率（ＦＤＲ）の分布をまとめて示す。各技術クラス、すなわち、フローセル（図５Ａ）、パイプライン（図５Ｂ）、およびシーケンサー（図５Ｃ）について、技術的バッチ効果を、特徴当たり１５個のサブ試料について分析し、ＢｅｎｊａｍｉｎｉＨｏｃｈｂｅｒｇ補正ＦＤＲを、サブ試料全体で計算した。提示された分布は、サブ試料全体のＦＤＲの中央値を表す。技術的バッチ効果．効果の共通の原因についての偽発見率（ＦＤＲ）の分布をまとめて示す。各技術クラス、すなわち、フローセル（図５Ａ）、パイプライン（図５Ｂ）、およびシーケンサー（図５Ｃ）について、技術的バッチ効果を、特徴当たり１５個のサブ試料について分析し、ＢｅｎｊａｍｉｎｉＨｏｃｈｂｅｒｇ補正ＦＤＲを、サブ試料全体で計算した。提示された分布は、サブ試料全体のＦＤＲの中央値を表す。実施例２に記載されるように、生産変更の前後にＲＮＡ発現が決定された約１００対のがん試料のＰＣＡ次元縮小分析の結果をまとめて示す。生産変更から生じる技術的バッチ効果は、図６Ａの第３の主成分項（ＰＣ３）で特定される。この技術的バッチ効果は、図６Ｂに示されるように、生産変更後に得られたＲＮＡ発現データに補正係数を適用することによって除去され得る。実施例２に記載されるように、生産変更の前後にＲＮＡ発現が決定された約１００対のがん試料のＰＣＡ次元縮小分析の結果をまとめて示す。生産変更から生じる技術的バッチ効果は、図６Ａの第３の主成分項（ＰＣ３）で特定される。この技術的バッチ効果は、図６Ｂに示されるように、生産変更後に得られたＲＮＡ発現データに補正係数を適用することによって除去され得る。３つの方法論を使用して収集された生物学的試料からのヘムがんのトランスクリプトーム分析のＵＭＡＰ埋め込みを示す。ＲＮＡ抽出が、臨床医によって、またはＲＮＡ配列決定の直前に実施された生物学的試料からのがんのトランスクリプトーム分析のＵＭＡＰ埋め込みを示す。同じキャプチャプローブの２つのバッチを使用した同じがん試料のトランスクリプトーム分析のＰＣＡ埋め込み（ＰＣ８）を示す。一致した試料は、それぞれのＰＣ項を結ぶ線によって示される。単一、３倍、または６倍の試料プールのいずれかで実施されたがんのトランスクリプトーム分析のＵＭＡＰ埋め込みを示す。円によって示される一致した試料群。濃縮後の７～９回のＰＣＲ増幅サイクル後に実施されたがんのトランスクリプトーム分析のＵＭＡＰ埋め込みを示す。円によって示される一致した試料群。異なるシーケンサー負荷モル濃度（０．７ｕＭ、１ｕＭ、および１．５ｕＭ）を用いて実施したがんのトランスクリプトーム分析のＵＭＡＰ埋め込みを示す。円によって示される一致した試料群。異なる配列決定試薬化学物質を用いて実施されたがんのトランスクリプトーム分析のＵＭＡＰ埋め込みを示す。ポイント間の線によって示される一致した試料群。本開示のいくつかの実施形態による、例示的なＲＮＡ発現プロファイリングパイプラインを示す。本開示のいくつかの実施形態による、試料のバッチに対して品質管理を実施するための例示的な方法を示す。本開示のいくつかの実施形態による、バイオインフォマティクスパイプライン、例えば、ＲＮＡ発現パイプラインにおける変化を検証するための例示的な方法を示す。本開示のいくつかの実施形態による、参照データベースを拡張するための例示的な方法を示す。

本開示のいくつかの実施形態によれば、図面のいくつかの図を通して、同様の参照番号は、対応する部分を指す。

本明細書の開示は、ＲＮＡ配列試料のバッチ（例えば、フローセル全体に相当する）の品質管理分析を実施する改善された方法を提供する。品質管理（ＱＣ）試験は、配列リードと、試料メタデータと、を含む、ＲＮＡ配列決定試料のバッチに対して実施される。本明細書に記載される方法は、自動化されたＲＮＡ発現コールレポートを実施し、臨床レポートに影響を与える可能性のあるバッチ効果を検出するための十分なデータ品質を保証する目的を果たす。このような方法は、データ品質の一貫性を確保するのにも役立ち、これは、時間の経過とともにデータを比較するために重要である。本明細書における品質管理方法は、試料のフローセル全体の自動レビューおよび分析を提供する。

利点
本開示は、トランスクリプトーム試料のセット（例えば、フローセル）における技術的バッチ効果を、がんの種類および組織部位が一致した検証された参照試料のセット（例えば、コホート一致参照バッチ）とともにプールすることによって、それらを評価する新規方法を提供する。これらの方法は、グローバル（例えば、バッチ内の試料のセット全体に対して実施される）および単一試料品質管理分析を同時に可能にするという点で、従来技術に対して改善される。これらの品質管理方法は、試料品質の迅速かつ正確な分析を提供することによって患者に利益をもたらし、したがって、改善された、より時宜にかなった患者の診断および治療を提供する。

大量のＲＮＡ配列決定を行う実験室では、試料を長期間にわたって比較する場合、技術的バッチ効果に非常に注意する必要があり、これは、がんトランスクリプトームの分析および治療に対する患者の反応の判定に不可欠である。核酸抽出、ライブラリー調製、および配列決定で使用される試薬、プロトコル、または技術の変更により、異なるバッチからの試料の比較を無効または複雑にする方法でトランスクリプトームが変更される可能性があり、試料の品質および一貫性を継続的にモニタリングすることが必要である。腫瘍の種類が、がんにおけるトランスクリプトーム分散の主要な生物学的決定因子であるため、異なる組織部位からの試料を分析する場合、このモニタリングは特に困難になる可能性がある。これは、例えば、脳がんおよび肝臓がんの試料は、トランスクリプトーム的に大きく異なることが予想され、それらの比較はバッチ効果の検出に有益ではないことを意味する。本明細書における方法が、参照試料と各個々のフローセル内の試料との間のコホートマッチングを提供するという事実は、これらの品質管理測定基準を以前の方法よりも正確にする。

定義
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用されるとき、「および／または」という用語は、列挙する関連項目の１つ以上の任意かつすべての可能な組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「含む（ｉｎｃｌｕｄｅｓ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語、またはそれらの任意の変形は、記載された特徴、整数、ステップ、動作、要素、および／もしくは構成要素の存在を規定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および／もしくはそれらの群の存在、または追加を除外しないことも理解されたい。さらに、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「有している（ｈａｖｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｗｉｔｈ）」、またはそれらの異形の用語が、詳細な説明および／または特許請求の範囲のいずれかにおいて使用される限り、そのような用語は、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」という用語と同様の方法で包括的であることを意図する。

本明細書で使用されるとき、「もし（ｉｆ）」という用語は、文脈に応じて「場合（ｗｈｅｎ）」もしくは「とき（ｕｐｏｎ）」、または「決定することに応答して（ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ）」もしくは「検出することに応答して（ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ）」を意味するものと解釈されてもよい。同様に、「決定される場合（ｉｆｉｔｉｓｄｅｔｅｒｍｉｎｅｄ）」または「（述べた条件または事象を）検出される場合（ｉｆ（ａｓｔａｔｅｄｃｏｎｄｉｔｉｏｎｏｒｅｖｅｎｔ）ｉｓｄｅｔｅｃｔｅｄ）」という句は、文脈に応じて「決定するとき（ｕｐｏｎｄｅｔｅｒｍｉｎｉｎｇ）」もしくは「決定することに応答して（ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｒｍｉｎｉｎｇ）」、または「（述べた条件または事象を）検出するとき（ｕｐｏｎｄｅｔｅｃｔｉｎｇ）」もしくは「（述べた条件または事象を）検出することに応答して（ｉｎｒｅｓｐｏｎｓｅｔｏｄｅｔｅｃｔｉｎｇ）」を意味するものと解釈され得る。

また、第１、第２などの用語は、様々な要素を説明するために本明細書で使用されることがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１の対象を第２の対象と称することができ、同様に、第２の対象を第１の対象と称することができる。第１の対象および第２の対象は、両方とも同じ対象であるが、同じ対象ではない。さらに、「対象」、「ユーザ」、および「患者」という用語は、本明細書では互換的に使用される。

本明細書で使用される場合、「対象」または「患者」という用語は、任意の生きているまたは生きていないヒト（例えば、男性のヒト、女性のヒト、胎児、妊娠中の女性、子供など）を指す。いくつかの実施形態において、対象は、任意の段階の男性または女性（例えば、男性、女性、または子供）である。

本明細書で使用される場合、「対照」、「対照試料」、「参照」、「参照試料」、「正常」、および「正常試料」という用語は、特定の状態を有さない、またはそうでない場合は健常である対象由来の試料を表す。一例において、本明細書に開示される方法は、腫瘍を有する対象に対して実施され得、参照試料は、その対象の健常な組織から採取された試料である。いくつかの実施形態において、参照試料は、対象から取得することができる（例えば、特定の時間からの対象についてのベンチマーク対照としての機能を果たすために）。いくつかの実施形態において、参照試料は、データベースから取得することができる。参照は、例えば、対象由来の試料の配列決定から取得された配列リードをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的試料および体質試料由来の配列リードをアラインメントし、比較することができる一倍体または二倍体ゲノムを指し得る。体質試料の例は、対象から得られた白血球のＤＮＡであり得る。一倍体ゲノムについては、各遺伝子座には１つのヌクレオチドだけ存在し得る。二倍体ゲノムについては、ヘテロ接合遺伝子座が特定され得、各ヘテロ接合遺伝子座は２つの対立遺伝子を有し得、いずれかの対立遺伝子は遺伝子座へのアラインメントについての一致を可能にし得る。

本明細書で使用される場合、「遺伝子座」という用語は、ゲノム内の、例えば、特定の染色体上の位置（例えば、部位）を指す。いくつかの実施形態において、遺伝子座とは、ゲノム内の、例えば、特定の染色体上の単一のヌクレオチド位置を指す。いくつかの実施形態において、遺伝子座とは、例えば、がんゲノム内の連続するヌクレオチドの変異（例えば、置換、挿入、または欠失）によって定義されるような、ゲノム内のヌクレオチド位置の小さなグループを指す。正常な哺乳動物細胞は、２倍体ゲノムを有しているため、正常な哺乳動物ゲノム（例えば、ヒトゲノム）は、概して、ゲノム内のすべての遺伝子座の２つのコピー、または常染色体上にあるすべての遺伝子座の少なくとも２つのコピー、例えば、母系常染色体上の１つのコピーおよび父系常染色体上の１つのコピーを有するであろう。

本明細書で使用される場合、「対立遺伝子」という用語は、染色体遺伝子座での１つ以上のヌクレオチドの特定の配列を指す。

本明細書で使用される場合、「参照対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子（例えば、「野生型」配列）、または種についての参照ゲノム内で事前定義されている対立遺伝子のいずれかである染色体遺伝子座での１つ以上のヌクレオチドの配列を指す。

本明細書で使用される場合、「変異対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子ではない（例えば、「野生型」配列ではない）、または種についての参照ゲノム内で事前定義されている対立遺伝子ではないいずれかである染色体遺伝子座での１つ以上のヌクレオチドの配列を指す。

本明細書で使用される場合、「一塩基バリアント」、「ＳＮＶ」、「一塩基多型」、または「ＳＮＰ」という用語は、ヌクレオチド配列、例えば、個体からの配列リードの位置（例えば、部位）での１つのヌクレオチドの異なるヌクレオチドへの置換を指す。第１の核酸塩基Ｘから第２の核酸塩基Ｙへの置換は、「Ｘ＞Ｙ」として示され得る。例えば、シトシンからチミンへのＳＮＰは、「Ｃ＞Ｔ」として示され得る。「ｈｅｔ－ＳＮＰ」という用語は、ゲノムが少なくとも２倍体であり、２つ以上の相同配列のうちの少なくとも１つ（しかしすべてではない）が特定のＳＮＰを示す、ヘテロ接合ＳＮＰを指す。同様に、「ｈｏｍ－ＳＮＰ」は、相同ＳＮＰであり、倍数体ゲノムの各相同配列は、参照ゲノムと比較して同じバリアントを有する。本明細書で使用される場合、「構造バリアント」または「ＳＶ」という用語は、反転、挿入、欠失、または複製などの物理的変換を受けたゲノムの大きな（例えば、１ｋｂより大きい）領域を指す（例えば、Ｓｐｉｅｌｍａｎｎｅｔａｌ．，２０１８，ＮａｔＲｅｖＧｅｎｅｔｉｃｓ１９：４５３－４６７によるヒトゲノムＳＶのレビューを参照のこと）。

本明細書で使用される場合、「インデル」という用語は、単一の遺伝子座内または複数の遺伝子にわたるいずれかの、１つ以上のヌクレオチドのストレッチの挿入および／または欠失事象を指す。

本明細書で使用される場合、「コピー数バリアント」、「ＣＮＶ」、または「コピー数多型」という用語は、繰り返されるゲノムの領域を指す。これらは、ゲノム領域で繰り返されるヌクレオチドの数に関して、短い繰り返しまたは長い繰り返しとして分類することができる。長い繰り返しとは、典型的に、遺伝子全体、または遺伝子の大部分が、１回以上繰り返される場合を指す。

本明細書で使用される場合、「変異」という用語は、１つ以上の細胞の遺伝物質における検出可能な変化を指す。特定の例において、１つ以上の変異ががん細胞に見出され得、癌細胞を特定し得る（例えば、ドライバーおよびパッセンジャーの変異）。変異は、親細胞から娘細胞に伝達され得る。当業者は、親細胞における遺伝子変異（例えば、ドライバー変異）が、娘細胞において追加の異なる変異（例えば、パッセンジャー変異）を誘発し得ることを理解するであろう。変異は、概して核酸において起こる。特定の例において、変異は、１つ以上のデオキシリボ核酸またはその断片における検出可能な変化であり得る。変異は、概して、核酸における新しい位置に付加、欠失、置換、反転、または転置されるヌクレオチドを指す。変異は、自然発生の変異または実験的に誘発された変異であり得る。特定の組織の配列における変異は、「組織特異的対立遺伝子」の例である。例えば、腫瘍は、正常細胞では起こらない遺伝子座での対立遺伝子をもたらす変異を有し得る。「組織特異的対立遺伝子」の別の例は、胎児組織で起こるが母体組織では起こらない胎児特異的対立遺伝子である。

本明細書で使用される場合、「ゲノムバリアント」という用語は、１つ以上の変異、コピー数バリアント、インデル、一塩基バリアント、またはバリアント対立遺伝子を指し得る。ゲノムバリアントは、上記の１つ以上の組み合わせを指す場合もある。

本明細書で使用される場合、「がん」、「がん性組織」、または「腫瘍」という用語は、塊の成長が正常組織の成長を上回り、調整されていない組織の異常な塊を指す。血液がんの場合、これには、がん細胞を含有する大量の血液またはその他の体液が含まれる。がんまたは腫瘍は、以下の特徴に応じて「良性」または「悪性」として定義することができる：形態および機能性を含む細胞分化の程度、成長速度、局所浸潤および転移。「良性」腫瘍は十分に分化することができ、悪性腫瘍よりも成長が遅いという特徴があり、原発部位に局在したままである。加えて、場合によっては、良性腫瘍には、離れた部位に侵入、浸潤、または転移する能力を有していない。「悪性」腫瘍は、低分化（退形成）であり得、進行性の侵入、浸潤、および周囲の組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有し得る。したがって、がん細胞は、その成長が正常組織の成長と協調していない組織の異常な塊内に見られる細胞である。したがって、「腫瘍試料」または「体細胞生検」は、本明細書に記載されるように、対象の腫瘍から得られた、またはそれに由来する生物学的試料を指す。

本明細書で使用される場合、「体細胞生検」という用語は、対象の生検を指す。いくつかの実施形態において、生検は固形組織のものである。いくつかの実施形態において、それは液体生検である。

本明細書で使用される場合、「配列決定（ｓｅｑｕｅｎｃｉｎｇ）」、「配列決定（ｓｅｑｕｅｎｃｅｄｅｔｅｒｍｉｎａｔｉｏｎ）」および本明細書で使用される同類の用語は、概して、核酸またはタンパク質などの生体高分子の順序を決定するために使用され得る任意かつすべての生化学的プロセスを指す。例えば、配列決定データは、ｍＲＮＡ転写物またはゲノム遺伝子座などの核酸分子におけるヌクレオチド塩基のすべてまたは一部を含み得る。

本明細書で使用される場合、「配列リード」または「リード」という用語は、本明細書に記載されるかまたは当技術分野で既知の任意の配列決定プロセスによって産生されるヌクレオチド配列を指す。リードは、核酸断片の一端から生成され得（「シングルエンドリード」）、場合によっては、核酸の両端から生成されることもある（例えば、ペアエンドリード、ダブルエンドリード）。配列リードの長さは、多くの場合、特定の配列決定技術に関連する。例えば、ハイスループット法は、サイズが数十～数百塩基対（ｂｐ）まで変化し得る配列リードを提供する。いくつかの実施形態において、配列リードは、約１５ｂｐ～９００ｂｐ長（例えば、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、または約５００ｂｐ）の平均、中央値、または平均の長さのものである。いくつかの実施形態において、配列リードは、約１０００ｂｐ、２０００ｂｐ、５０００ｂｐ、１０，０００ｂｐ、または５０，０００ｂｐ以上の平均、中央値、または平均の長さのものである。例えば、ナノポア配列決定は、サイズが数十～数百、数千塩基対まで変化し得る配列リードを提供し得る。Ｉｌｌｕｍｉｎａ並列配列決定は、それほど変化しない配列リードを提供し得、例えば、ほとんどの配列リードは２００ｂｐ未満にし得る。配列リード（または配列決定リード）は、核酸分子（例えば、一連のヌクレオチド）に対応する配列情報を指し得る。例えば、配列リードは、核酸断片の一部由来の一連のヌクレオチド（例えば、約２０～約１５０）に対応し得るか、核酸断片の一端または両端の一連のヌクレオチドに対応し得るか、または核酸断片全体のヌクレオチドに対応し得る。配列リードは、様々な方法で、例えば、配列決定技術を使用して、またはプローブ、例えば、ハイブリダイゼーションアレイもしくはキャプチャプローブ、またはポリメラーゼ連鎖反応（ＰＣＲ）、もしくは単一のプライマーを使用する線形増幅、もしくは等温増幅などの増幅技術を使用して得ることができる。

本明細書で使用される場合、「リードセグメント」または「リード」という用語は、個体から得られた配列リードおよび／または個体から得られた試料由来の最初の配列リードに由来するヌクレオチド配列を含む任意のヌクレオチド配列を指す。例えば、リードセグメントは、アラインメントされた配列リード、折りたたまれた配列リード、または縫い合わせられたリードを指し得る。さらに、リードセグメントは、一塩基変異などの個々のヌクレオチド塩基を指し得る。

本明細書で使用される場合、「リード深度」、「配列決定深度」、または「深度」という用語は、所与の位置、領域、または遺伝子座で個体から得られた試料由来のリードセグメントの総数を指す。遺伝子座は、ヌクレオチドのように小さくても、染色体腕のように大きくても、またはゲノム全体のように大きくても可能である。配列決定深度は、「Ｙ倍」、例えば、５０倍、１００倍などで表すことができ、「Ｙ」は、遺伝子座が配列リードでカバーされた回数を指す。いくつかの実施形態において、深度は、ゲノムにわたって、エクソームにわたって、トランスクリプトームにわたって、または標的配列決定パネルにわたっての平均配列決定深度を指す。配列決定深度は、複数の遺伝子座、全ゲノムに適用することもでき、この場合、Ｙは、遺伝子座または半数体ゲノム、全ゲノム、全トランスクリプトーム、または全エクソームがそれぞれ配列決定される平均回数を指す。平均深度が引用される場合、データセットに含まれる異なる遺伝子座についての実際の深度は、値の範囲を超えて及ぶことができる。ウルトラディープ配列決定は、遺伝子座での配列決定深度において少なくとも１００倍を指し得る。

本明細書で使用される場合、「配列決定幅」という用語は、特定の参照トランスクリプトーム（例えば、ヒト参照エクソーム）、特定の参照ゲノム（例えば、ヒト参照ゲノム）、またはトランスクリプトームもしくはゲノムの一部のいくつの割合が分析されたかを指す。割合の分母は反復マスクされたゲノムであり得、したがって１００％は、マスクされた部分を除いたすべての参照ゲノムに対応し得る。反復マスクされたトランスクリプトームまたはゲノムは、配列反復がマスクされているトランスクリプトームまたはゲノムを指し得る（例えば、配列リードはトランスクリプトームまたはゲノムのマスクされていない部分にアラインメントする）。トランスクリプトームまたはゲノムの任意の部分をマスクすることができ、したがって、参照エクソームまたはゲノムの任意の特定の部分に焦点を合わせることができる。ブロード配列決定は、参照トランスクリプトームまたはゲノムの少なくとも０．１％を配列決定および分析することを指し得る。

本明細書で使用される場合、「参照トランスクリプトーム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体由来の任意の組織の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたトランスクリプトームを指す。ヒト対象に使用される例示的な参照トランスクリプトームは、Ｉｙｅｒｅｔａｌ２０１５ＴｈｅｌａｎｄｓｃａｐｅｏｆｌｏｎｇｎｏｎｃｏｄｉｎｇＲＮＡｓｉｎｔｈｅｈｕｍａｎｔｒａｎｓｃｒｉｐｔｏｍｅ．ＮａｔＧｅｎｅｔ４７，１９９－２０８に記載されるオンラインＭｉＴｒａｎｓｃｒｉｐｔｏｍｅデータベース、Ｐｅｒｔｅａｅｔａｌ．２０１８ＣＨＥＳＳ：ａｎｅｗｈｕｍａｎｇｅｎｅｃａｔａｌｏｇｃｕｒａｔｅｄｆｒｏｍｔｈｏｕｓａｎｄｓｏｆｌａｒｇｅ－ｓｃａｌｅＲＮＡｓｅｑｕｅｎｃｉｎｇｅｘｐｅｒｉｍｅｎｔｓｒｅｖｅａｌｓｅｘｔｅｎｓｉｖｅｔｒａｎｓｃｒｉｐｔｉｏｎａｌｎｏｉｓｅ．ＧｅｎＢｉｏｌ１９：２０８に記載されるＣＨＥＳＳデータベース、およびＥＮＣＯＤＥプロジェクトがホストするオンラインＥＮＣＯＤＥデータベースに提供される。

本明細書で使用される場合、「発現コール」という用語は、ＲＮＡ発現差次的コール（例えば、対象からの特定の試料が、参照トランスクリプトームと比較して特定のＲＮＡに対してより高いまたはより低い発現を示すかどうかの決定）を指す。いくつかの実施形態において、発現コールは、少なくとも部分的に遺伝子存在量カウントに基づく。

本明細書で使用される場合、「参照エクソーム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体由来の任意の組織の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたエクソームを指す。ヒト対象、および多くの他の生物に使用される例示的な参照エクソームは、ＧＥＮＣＯＤＥコンソーシアムがホストするオンラインＧＥＮＣＯＤＥデータベース、例えば、ヒトエクソームアセンブリのリリース２９（ＧＲＣｈ３８．ｐ１２）に提供される。

本明細書で使用される場合、「参照ゲノム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の有機体について使用される例示的な参照ゲノムは、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（「ＮＣＢＩ」）またはｔｈｅＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，ＳａｎｔａＣｒｕｚ（ＵＣＳＣ）がホストするオンラインゲノムブラウザにおいて提供される。「ゲノム」とは、核酸配列で発現された、有機体または病原体の完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、１人以上のヒト個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子のセットまたは遺伝子配列の代表的な例と見なされ得る。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムは、ＮＣＢＩビルド３４（ＵＣＳＣ同等物：ｈｇ１６）、ＮＣＢＩビルド３５（ＵＣＳＣ同等物：ｈｇ１７）、ＮＣＢＩビルド３６．１（ＵＣＳＣ同等物：ｈｇ１８）、ＧＲＣｈ３７（ＵＣＳＣ同等物：ｈｇ１９）、およびＧＲＣｈ３８（ＵＣＳＣ同等物：ｈｇ３８）を含むが、これらに限定されない。

本明細書で使用される場合、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を決定するための技術を指す。アッセイ（例えば、第１のアッセイまたは第２のアッセイ）は、試料における核酸のコピー数の変化、試料における核酸のメチル化状態、試料における核酸の断片サイズ分布、試料における核酸の変異状態、または試料における核酸の断片化パターンを決定するための技術を含み得る。当業者に知られている任意のアッセイを使用して、本明細書に記載の核酸の特性のうちのいずれかを検出し得る。核酸の特性は、配列、ゲノム同一性、コピー数、１つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、１つ以上のヌクレオチド位置での核酸における変異の有無、および核酸の断片化パターン（例えば、核酸が断片化するヌクレオチド位置）を含み得る。アッセイまたは方法は、特定の感度および／または特異度を有し得、診断ツールとしてのそれらの相対的な有用性を、ＲＯＣ－ＡＵＣ統計を使用して測定し得る。

本明細書で使用される場合、「相対的存在量」という用語は、特定の特徴（例えば、エクソームの特定の領域にアラインメントする）を有する第１の量の核酸断片の、特定の特徴（例えば、エクソームの特定の領域にアラインメントする）を有する第２の量の核酸断片に対する比を指し得る。一例において、相対的存在量は、試料における特定の遺伝子（例えば、エクソームの特定の領域にアラインメントする）をコードするｍＲＮＡ転写産物の数の、試料におけるｍＲＮＡ転写産物の総数に対する比を指し得る。

本明細書で使用される場合、２つのデータセットにおける各種類の特徴を有する試料数のパーセンテージが互いに設定されたパーセンテージ内にある場合、２つのデータセットは特徴に関して「均衡が取れている」。特に指定のない限り、２つのデータセットにおける各種類の特徴を有する試料数のパーセンテージが１０％以内である場合、２つのデータセットは特徴に関して均衡が取れている。例えば、バッチデータセットにおいて、試料の１５％が肺がん試料、試料の２５％が脳がん試料、試料の６０％が結腸がん試料である場合、参照データセットにおいて、試料の５％～２５％が肺がん試料であり、試料の１５％～３５％が脳がん試料であり、試料の５０％～７０％が結腸がん試料であるならば、参照データセットは、バッチデータセットに対して均衡が取れていると見なされる。いくつかの実施形態において、２つのデータセットにおける各種類の特徴を有する試料数のパーセンテージが、互いの１％以内、２％以内、３％以内、４％以内、５％以内、６％以内、７％以内、８％以内、９％以内、１０％以内、１１％以内、１２％以内、１３％以内、１４％以内、１５％以内、１６％以内、１７％以内、１８以内％、１９％以内、２０％以内、２１％以内、２２％以内、２３％以内、２４％以内、または２５％以内である場合、２つのデータセットは、特徴に関して均衡が取れている。一般に、第１の特徴の均衡および第２の特徴の均衡は、互いに独立していると見なされる。しかしながら、いくつかの実施形態において、第１の特徴の均衡および第２の特徴の均衡は、一緒に考慮される。すなわち、いくつかの実施形態において、それは、均衡の取れた少なくとも２つの特徴の複合である。例えば、脳がん試料、皮膚組織から採取された試料、および肺組織から採取された試料のパーセンテージを、ちょうど均衡を取ることとは対照的に、バッチデータセットにおける、皮膚組織から採取された脳がん試料のパーセンテージ、および肺組織から採取された脳がん試料のパーセンテージは、参照データセットにおける、皮膚組織から採取された脳がん試料のパーセンテージ、および肺組織から採取された脳がん試料のパーセンテージに対して均衡が取れている。いくつかの実施形態において、例えば、まれな特徴を共有する十分な数の参照試料が利用できないために、バッチデータセット内のまれな特徴は、参照データセット内で均衡が取れていないことになる。

説明のための適用例を参照して、いくつかの態様を以下に説明する。本明細書に記載の特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が示されていることを理解されたい。しかしながら、当業者は、本明細書に記載の特徴が、特定の詳細のうちの１つ以上を有さないか、または他の方法で実施できることを容易に認識するであろう。いくつかの行為は異なる順序で、および／または他の行為または事象と同時に起こり得るため、本明細書に記載の特徴は、行為または事象の図解された順序によって制限されない。さらに、本明細書に記載の特徴に従った方法論を実施するために、図示されたすべての行為または事象が必要とされるわけではない。

ここで実施形態を詳細に参照すると、その例は添付の図面に示される。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本開示がこれらの具体的な詳細なしで実践されてもよいことは当業者には明らかであろう。他の例では、既知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。

システムの実施形態の例
本開示のいくつかの態様の概要および本開示において使用されるいくつかの定義が提供されたので、次に、例示的なシステムの詳細を図１と併せて説明する。図１は、いくつかの実装形態によるシステム１００を示すブロック図である。いくつかの実装形態におけるシステム１００は、１つ以上の処理ユニットＣＰＵ（複数可）１０２（プロセッサとも呼ばれる）、１つ以上のネットワークインターフェース１０４、（任意選択により）ディスプレイ１０８および入力システム１１０を含むユーザインターフェース１０６、非永続メモリ１１１、永続メモリ１１２、ならびにこれらのコンポーネントを相互接続するための１つ以上の通信バス１１４を含む。１つ以上の通信バス１１４は、任意で、システムコンポーネント間の通信を相互接続および制御する回路（チップセットと呼ばれることもある）を含む。非永続メモリ１１１は、典型的には、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続メモリ１１２は、典型的には、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光記憶、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶デバイス、磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶デバイスを含む。永続メモリ１１２は、任意で、ＣＰＵ１０２から遠隔に配置された１つ以上のストレージデバイスを含む。永続メモリ１１２、および非永続メモリ１１２内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を備える。いくつかの実装形態において、非永続メモリ１１１、または非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュール、データ構造体、またはそれらのサブセットを、場合には永続メモリ１１２と組み合わせて、格納する。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実施するための手順を含む、任意選択のオペレーティングシステム１１６；
・システム１００を他のデバイスおよび／または通信ネットワーク１０４に接続するための任意選択のネットワーク通信モジュール（または命令）１１８；
・ＲＮＡ配列決定試料のバッチのバッチ品質管理を実施するためのバッチ品質管理モジュール１２０；
・各バッチデータセットが、複数（例えば、バッチ）の試料における各試料１２４について、少なくとも対応する複数の配列リード１２６および対応する試料メタデータ１２８を含み、また、各バッチデータセットにおいて、対応するコホート一致参照バッチ１３０も含まれる、１つ以上のバッチデータセット１２２；
・各参照試料が、少なくとも対応する複数の参照試料配列１４４および対応する参照試料メタデータ１４６を含む、１つ以上の参照試料１４２を格納する参照試料データセット１４０；
・１つ以上のバッチ品質管理試験１５２が、品質管理モジュール１２０を介して、バッチデータセット（例えば、バッチデータセット１２２－１）に含まれる複数の試料（例えば、１２４－１、．．．１２４－Ａ）に対して実施される、１つ以上のバッチ品質管理試験１５２を格納するためのグローバル品質管理データセット１５０；
・ＲＮＡ配列決定試料の単一試料品質管理を実施するための単一試料品質管理モジュール１２１；ならびに
・１つ以上の単一試料品質管理試験１６２が、品質管理モジュール１２０を介して、バッチデータセット１２２に含まれる個々の試料１２４に対して実施される、１つ以上の単一試料品質管理試験１６２を格納するための単一試料品質管理データセット１６０。

様々な実装形態において、上記で特定された要素のうちの１つ以上は、前述のメモリデバイスのうちの１つ以上に格納され、上記の機能を実施するための一連の命令に対応する。上記で特定されたモジュール、データまたはプログラム（例えば、命令のセット）は、別々のソフトウェアプログラム、手順、データセットまたはモジュールとして実装される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装形態において組み合わされ得るか、またはそうでなければ再構成され得る。いくつかの実装形態において、非永続メモリ１１１は、任意で、上記の特定されたモジュールおよびデータ構造体のサブセットを格納する。さらに、いくつかの実施形態において、メモリは、上述していない追加のモジュールおよびデータ構造体を格納する。いくつかの実施形態において、上記で特定された要素のうちの１つ以上は、視覚化システム１００以外のコンピュータシステムに格納され、それは、視覚化システム１００が必要なときにそのようなデータの全部または一部を検索し得るように、視覚化システム１００によってアドレス指定可能である。

図１は、「システム１００」を示しているが、この図は、本明細書に記載される実装形態の構造概略図としてではなく、コンピュータシステムに存在し得る様々な特徴の機能的説明として十分に意図されている。実際に、そして当業者によって認識されるように、別々に示されたアイテムは、組み合わせることができ、いくつかのアイテムは、別々にすることができる。さらに、図１は、非永続メモリ１１１内の特定のデータおよびモジュールを示しているが、代わりに、これらのデータおよびモジュールの一部またはすべては、永続メモリ１１２または１つより多いメモリ内に格納され得る。例えば、いくつかの実施形態において、少なくとも１つのバッチデータセット１２２は、クラウドベースのインフラストラクチャの一部であり得る、リモート記憶デバイスに格納される。いくつかの実施形態において、少なくともデータセットの１つのバッチデータセット１２２は、クラウドベースのインフラストラクチャに格納される。いくつかの実施形態において、バッチデータセット１２２、バッチ品質管理モジュール１２０、単一試料品質管理モジュール１２１、参照データセット１４０、グローバルＱＣデータセット１５０、および／または単一試料ＱＣデータセット１６０もまた、リモート記憶デバイス（複数可）に格納され得る。いくつかの実施形態において、データおよびモジュール記憶の他の構成が利用される。

バッチおよび試料の分析
本開示によるシステム１００の詳細が開示されたので、次に、本開示の様々な実施形態によるシステムのプロセスおよび特徴に関する詳細が、以下に開示される。具体的には、図２Ａ、２Ｂ、１５、１６、および１７を参照して、例示的なプロセスを以下に説明する。いくつかの実施形態において、システムのこのようなプロセスおよび特徴は、図１に示されるように、モジュール１１８、１２０、および／または１２１によって実行される。

ブロック２０２。図２Ａのブロック２０２を参照すると、この方法は品質管理を実施する。いくつかの実施形態において、品質管理は、単一のバッチデータセット（例えば、ＲＮＡ試料の単一のフローセルを含む）に対して実施される。いくつかの実施形態において、品質管理は、２つ以上のバッチデータセット（例えば、各フローセルが同じ日または異なる日に分析される、ＲＮＡ試料の２つ以上のフローセル）に対して同時に実施される。いくつかの実施形態において、品質管理は、複数のバッチデータセット（例えば、複数のフローセル）に対して同時に実施される。

ブロック２０４を参照すると、いくつかの実施形態において、本明細書に記載される方法は、クラウドサーバを備えるコンピュータシステムで実施される。すなわち、いくつかの実施形態において、本明細書に記載される方法は、リモートシステム上で全体的または部分的に実施することができる。例えば、上記のように、いくつかの実施形態において、データセットのうちの１つ以上がローカルに記憶され、バッチ品質管理モジュール１２０および／または単一試料品質管理モジュール１２１のうちの少なくとも１つがクラウドサーバ（例えば、クラウド内）に格納される。いくつかの実施形態において、参照データセット１４０、グローバル品質管理データセット１５０、および／または単一試料品質管理データセット１６０もまた、クラウドサーバに格納される。いくつかの実施形態において、必要なデータ（例えば、１つ以上のバッチデータセット１２２）を、ローカルサーバとクラウドサーバとの間で送信することができる。

初期バッチデータセット１２２情報を取得する
ブロック２０６。図２Ａのブロック２０６を参照すると、バッチデータセットが電子形式で取得される（例えば、バッチデータセット内の各試料の情報は、．ｃｓｖファイルで格納される）。バッチデータセットは、複数（例えば、バッチ）の試料内の各それぞれの試料について、標的化パネルまたは全トランスクリプトーム配列決定によってそれぞれの試料から得られた対応する複数の配列リードを含む。いくつかの実施形態において、対応する複数の配列リードの各々は、複数のＲＮＡ分子または該複数のＲＮＡ分子の誘導体（例えば、ｃＤＮＡなどの誘導体）から取得される。いくつかの実施形態において、対応する複数の配列リードの各々は、完全なトランスクリプトーム配列決定によって取得される。いくつかの実施形態において、１つ以上の対応する複数の配列リードは、固形または血液学的腫瘍（例えば、固形生検）から単離されたＲＮＡに由来する。いくつかの実施形態において、１つ以上の対応する複数の配列リードは、それぞれの対象から取得された生殖細胞系列試料に由来する。

いくつかの実施形態において、１つ以上の対応する複数の配列リードが、次世代配列決定によって生成される。いくつかの実施形態において、１つ以上の対応する複数の配列リードが、ショートリードペアエンド次世代配列決定（ｓｈｏｒｔ－ｒｅａｄｐａｉｒｅｄｅｎｄｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ）から生成される。いくつかの実施形態において、１つ以上の対応する複数の配列リードが、１つ以上のスパイクインコントロールを用いたショートリード次世代配列決定から生成される。いくつかの実施形態において、１つ以上のスパイクインコントロールは、細胞の集団にわたる配列リードの変動を較正する（例えば、各細胞から取得されたＲＮＡリードの量は著しく変動する可能性があり、スパイクは、細胞のセット全体のリードを正規化するのに役立つ）。いくつかの実施形態において、１つ以上の対応する複数の配列リードが、複数のプローブを使用した標的化パネル配列決定によって取得される。

ｍＲＮＡ配列決定のための方法は、当該技術分野において既知である。いくつかの実施形態において、ｍＲＮＡは、配列決定の前にｃＤＮＡに逆転写される。例えば、ブロック２１０に従って使用するためのＲＮＡ－ｓｅｑの方法は、Ｎａｇａｌａｋｓｈｍｉｅｔａｌ．，２００８，Ｓｃｉｅｎｃｅ３２０，１３４４－１３４９、およびＦｉｎｏｔｅｌｌａｎｄＣａｍｉｌｌｏ，２０１４，ＢｒｉｅｆｉｎｇｓｉｎＦｕｎｃｔｉｏｎａｌＧｅｎｏｍｉｃｓ１４（２），１３０－１４２に開示されており、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、ｍＲＮＡ配列決定は、全エクソーム配列決定（ＷＥＳ）によって実施される。いくつかの実施形態において、ＷＥＳは、組織試料からＲＮＡを単離し、ｃＤＮＡライブラリーを生成し、任意で、所望の配列を選択し、かつ／または不要なＲＮＡ分子を枯渇させ、、次いで、例えば、次世代配列決定技術を使用してｃＤＮＡライブラリーを配列決定することによって実施される。がん診断における全エクソーム配列決定技術の使用のレビューについては、Ｓｅｒｒａｔｉｅｔａｌ．，２０１６，ＯｎｃｏＴａｒｇｅｔｓＴｈｅｒ．９，７３５５－７３６５およびＣｉｅｓｌｉｋ，Ｍ．ｅｔａｌ．２０１５ＧｅｎｏｍｅＲｅｓ．２５，１３７２－８１を参照されたく、その各々の内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。いくつかの実施形態において、ｍＲＮＡ配列決定は、ナノポア配列決定によって実施される。ヒトゲノムでのナノポア配列決定技術の使用に関するレビューは、Ｊａｉｎｅｔａｌ．，２０１８，Ｎａｔｕｒｅ３６（４），３３８－３４５に見出され得る。このリストは、本明細書に記載される方法に従って使用することができるＲＮＡ配列決定方法を網羅しているわけではない。いくつかの実施形態において、ＲＮＡ配列決定は、当該技術分野で知られている１つ以上の配列決定方法に従って実施される。例えば、ＲＮＡ配列決定方法のレビューである、Ｋｕｋｕｒｂａｅｔａｌ．２０１５ＣｏｌｄＳｐｒｉｎｇＨａｒｂＰｒｏｔｏｃ．１１：９５１－９６９を参照のこと。

本明細書に記載される方法に従って使用するための次世代配列決定の方法は、Ｓｈｅｎｄｕｒｅ２００８Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌｏｇｙ２６：１１３５－１１４５およびＦｕｌｌｗｏｏｄｅｔａｌ．２００９ＧｅｎｏｍｅＲｅｓ．１９：５２１－５３２に開示されており、それらは各々が参照により本明細書に組み込まれる。当該技術分野で周知の次世代配列決定方法には、合成技術（Ｉｌｌｕｍｉｎａ）、パイロシーケンシング（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔ配列決定）、単一分子リアルタイム配列決定（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）、ライゲーションによる配列決定（ＳＯＬｉＤ配列決定）、ナノポア配列決定（ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ）、またはペアエンド配列決定が含まれる。いくつかの実施形態において、超並列配列決定は、可逆的染料ターミネーターで合成ごとの配列決定を使用して実施される。

ＲＮＡ－ｓｅｑは、次世代配列決定に基づくＲＮＡプロファイリングの方法論であり、複数の対象にわたる遺伝子発現パターンの測定および比較を可能にする。いくつかの実施形態において、「配列リード」と呼ばれる数百万の短い一連のものは、対象の腫瘍組織から得られる入力ＲＮＡから調製されたｃＤＮＡのランダムな位置を配列決定することから生成される。いくつかの実施形態において、ＲＮＡ－ｓｅｑ遺伝子発現データは、エクソームキャプチャベースのＲＮＡ－ｓｅｑプロトコルを使用して、ホルマリン固定パラフィン包埋腫瘍試料から生成された。次に、これらのリードを参照ゲノムにコンピュータでマッピングして、「転写マップ」を明らかにすることができ、各遺伝子にアラインメントされた配列リードの数は、その発現レベルの尺度（例えば、存在量）をもたらす。いくつかの実施形態において、ＲＮＡ－ｓｅｑ発現レベル（例えば、生のリードカウント）は、正規化される（例えば、ＧＣ含量、配列決定深度、および／または遺伝子長を補正するために）。いくつかの実施形態において、生のＲＮＡ配列リードをトランスクリプトームにマッピングし、遺伝子カウントを定量化し、正規化する方法は、２０１８年９月２４日に出願された、“ＭｅｔｈｏｄｓｏｆＮｏｒｍａｌｉｚｉｎｇａｎｄＣｏｒｒｅｃｔｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＤａｔａ”と題された米国特許出願第６２／７３５，３４９号に記載されるように実施される。

いくつかの代替の実施形態において、ＲＮＡ－ｓｅｑを使用するのではなく、マイクロアレイが、ＲＮＡプロファイリングを調べるために使用される。そのようなマイクロアレイは、Ｗａｎｇｅｔａｌ．，２００９，ＮａｔＲｅｖＧｅｎｅｔ１０，５７－６３、Ｒｏｙｅｔａｌ．，２０１１，ＢｒｉｅｆＦｕｎｃｔＧｅｎｏｍｉｃ１０：１３５－１５０、Ｓｈｅｎｄｕｒｅ，２００８ＮａｔＭｅｔｈｏｄｓ５，５８５－５８７、Ｃｌｏｏｎａｎｅｔａｌ．，２００８，“Ｓｔｅｍｃｅｌｌｔｒａｎｓｃｒｉｐｔｏｍｅｐｒｏｆｉｌｉｎｇｖｉａｍａｓｓｉｖｅ－ｓｃａｌｅｍＲＮＡｓｅｑｕｅｎｃｉｎｇ，” Ｎａｔ．Ｍｅｔｈｏｄｓ５，６１３－６１９、Ｍｏｒｔａｚａｖｉｅｔａｌ．，２００８，“ＭａｐｐｉｎｇａｎｄｑｕａｎｔｉｆｙｉｎｇｍａｍｍａｌｉａｎｔｒａｎｓｃｒｉｐｔｏｍｅｓｂｙＲＮＡ－Ｓｅｑ，” ＮａｔＭｅｔｈｏｄｓ５，６２１－６２８、およびＢｕｌｌａｒｄｅｔａｌ．，２０１０，“ＥｖａｌｕａｔｉｏｎｏｆｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄｓｆｏｒｎｏｒｍａｌｉｚａｔｉｏｎａｎｄｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎｉｎｍＲＮＡ－Ｓｅｑｅｘｐｅｒｉｍｅｎｔｓ” ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１１，ｐ．９４に開示されており、それらの各々は参照により本明細書に組み込まれる。

ＲＮＡ－ｓｅｑデータ分析パイプラインの第１の計算ステップはリードマッピングであり、リードは、リード配列に一致する遺伝子領域を特定することにより、参照ゲノムまたはトランスクリプトームにアラインメントされる。このタスクについては、様々なアラインメントツールのうちのいずれかを使用し得る。例えば、Ｈａｔｅｍｅｔａｌ．，２０１３ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１４，１８４、およびＥｎｇｓｔｒｏｍｅｔａｌ．２０１３ＮａｔＭｅｔｈｏｄｓ１０，１１８５－１１９１を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングプロセスは、参照ゲノムまたはリードのいずれかのインデックスを構築することによって始まり、次いで、それを使用して、リードがアラインメントする可能性が高い参照配列における一連の位置を検索する。この可能なマッピング位置のサブセットが特定されると、これらの候補領域で、より低速でより感度の高いアルゴリズムを使用してアラインメントが実施される。例えば、ＦｌｉｃｅｋａｎｄＢｉｒｎｅｙ，２００９，ＮａｔＭｅｔｈｏｄｓ６（Ｓｕｐｐｌ．１１），Ｓ６－Ｓ１２を参照されたく、これは、参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングツールは、疑似アラインメント（例えば、ゲノム位置ではなく転写物へのリード配列のアラインメント）を利用する方法論である。例えば、Ｂｒａｙｅｔａｌ．２０１６Ｎｅａｒ－ｏｐｔｉｍａｌｐｒｏｂａｂｉｌｉｓｔｉｃＲＮＡ－ｓｅｑｑｕａｎｔｉｆｉｃａｔｉｏｎ．ＮａｔＢｉｏｔｅｃｈ３４，５２５－５２７を参照されたく、これは、参照により本明細書に組み込まれる。

マッピング後、その存在量（例えば、発現）レベルの推定値を提供するために、エクソン、転写産物、または遺伝子などの各コーディングユニットにアラインメントされたリードを使用してリードカウントを計算する。いくつかの実施形態において、そのようなカウントは、遺伝子のエクソンと重複するリードの総数を考慮する。しかしながら、いくつかの例において、配列リードの一部が既知のエクソンの境界の外側にマッピングされるため、代替の実施形態は、遺伝子の全長を考慮し、イントロン由来のリードもカウントする。さらに、いくつかの実施形態において、スプライシングされたリードを使用して、遺伝子の異なるスプライシングアイソフォームの存在量をモデル化する。例えば、Ｔｒａｐｎｅｌｌｅｔａｌ．，２０１０ＮａｔＢｉｏｔｅｃｈｎｏｌ２８，５１１－５１５、およびＧａｔｔｏｅｔａｌ，２０１４ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ４２，ｐ．ｅ７１を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。

上で説明したように、ＲＮＡ－ｓｅｑデータからの転写産物存在量の定量化は、典型的には、２つの計算ステップ、参照ゲノムまたはトランスクリプトームへのリードのアラインメント、およびアラインメントされたリードに基づく転写産物およびアイソフォーム存在量のその後の推定、を通じて分析パイプラインにおいて実装される。残念ながら、最も使用されているＲＮＡ－Ｓｅｑ技術によって生成されたリードは、概して、それらが試料採取された転写産物よりもはるかに短い。結果として、類似の配列を有する転写産物の存在において、特定の遺伝子に短い配列リードを一意的に割り当てることが常に可能であるとは限らない。そのような配列リードは、参照ゲノムの２つ以上の領域と相同であるため、「マルチリード」と呼ばれる。いくつかの実施形態において、そのようなマルチリードは廃棄される、すなわち、それらは遺伝子存在量カウントに寄与しない。いくつかの実施形態において、曖昧さを解決するために、ＭＭＳＥＱまたはＲＳＥＭなどのプログラムが使用される。Ｔｕｒｒｏｅｔａｌ．，２０１１ＧｅｎｏｍｅＢｉｏｌ１２，ｐ．Ｒ１３、およびＮｉｃｏｌａｅｅｔａｌ．，ＡｌｇｏｒｉｔｈｍｓＭｏｌＢｉｏｌ６，９におけるマルチリードを解決するために使用される方法論の例を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。

ＲＮＡ－ｓｅｑの別の態様は、配列リードカウントの正規化である。いくつかの実施形態において、これは、異なる配列決定深度を考慮に入れるための正規化を含む。例えば、Ｌｉｎｅｔａｌ．，２０１１Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２７，２０３１－２０３７、ＲｏｂｉｎｓｏｎＯｓｈｌａｃｋ，２０１０ＧｅｎｏｍｅＢｉｏｌ１１，Ｒ２５、およびＬｉｅｔａｌ．，２０１２Ｂｉｏｓｔａｔｉｓｔｉｃｓ１３，５２３－５３８を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。いくつかの実施形態において、配列リードカウントは、遺伝子長バイアスを説明するために正規化される。ＦｉｎｏｔｅｌｌａｎｄＣａｍｉｌｌｏ，２０１４ＢｒｉｅｆｉｎｇｓｉｎＦｕｎｃｔｉｏｎａｌＧｅｎｏｍｉｃｓ１４（２），１３０－１４２を参照されたく、これは、参照により本明細書に組み込まれる。

１つ以上の対応する複数の配列リードが、複数のプローブを使用する標的化パネル配列決定から生成される実施形態において、複数のプローブ内の各それぞれのプローブは、参照ゲノムの異なる部分を一意的に表す。このような実施形態において、対応する複数の配列リードにおける各配列リードは、複数のプローブにおける少なくとも１つのプローブに対応する。

複数のプローブにおける各それぞれのプローブは、参照トランスクリプトーム（例えば、ヒト参照トランスクリプトーム）の異なる（例えば、それぞれの）部分を一意的に標的とする。第２の複数の配列リードにおける各配列リードおよび第３の複数の配列リードにおける各配列リードは、複数のプローブにおける少なくとも１つのプローブに対応する。いくつかの実施形態において、例えば、標的化パネル配列決定の代わりに、全ゲノム配列決定が使用される。

いくつかの実施形態において、第２の複数の配列リードは、複数のプローブにわたって少なくとも５０倍の平均深度を有する。いくつかの実施形態において、第２の複数の配列リードは、複数のプローブにわたって少なくとも４００倍の平均深度を有する。他の実施形態において、第２の複数の配列リードは、少なくとも１０倍、１５倍、２０倍、２５倍、３０倍、４０倍、５０倍、７５倍、１００倍、１５０倍、２００倍、２５０倍、３００倍、４００倍、５００倍、またはそれ以上の平均深度を有する。

いくつかの実施形態において、複数のプローブは、少なくとも３００個の異なる遺伝子のためのプローブを含む。いくつかの実施形態において、複数のプローブは、少なくとも５００個の異なる遺伝子のためのプローブを含む。さらに他の実施形態において、複数のプローブは、少なくとも５０個、１００個、１５０個、２００個、２５０個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、１５００個、２０００個、３０００個、４０００個、５０００個、またはそれ以上の異なる遺伝子を含む。

ブロック２０８。図２Ａのブロック２０８を参照すると、バッチデータセットに対してコホート一致参照バッチが決定される。コホート一致参照バッチは、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、または配列決定されたデータについて均衡が取れている。いくつかの実施形態において、コホート一致参照バッチのサイズ（例えば、その中の試料の数）は、バッチデータセットのサイズと同じである。いくつかの実施形態において、コホート一致参照バッチは、バッチデータセットとは異なるサイズのものである。

参照データセット１４０からコホート一致参照データセット１３０を決定する
図２Ａのブロック２１０を参照すると、いくつかの実施形態において、バッチデータセットについてのコホート一致参照データセットを決定することは、試料のバッチ内の各試料について、ｉ）それぞれの複数の配列リードからのそれぞれの複数の配列特徴を抽出し、それによって、バッチの複数の配列特徴を取得することと、ｉｉ）それぞれの複数の試料メタデータ特徴を抽出し、それによって、バッチの複数のメタデータ特徴を取得することと、を含む。いくつかの実施形態において、バッチの複数の配列特徴またはバッチの複数のメタデータ特徴に少なくとも部分的に基づいて、参照データセットから、複数の参照試料を含むコホート一致参照データセットを選択する。

いくつかの実施形態において、コホート一致参照データセットは、複数の参照試料を含む。いくつかの実施形態において、複数の参照試料中の各参照試料は、標的化または全トランスクリプトームＲＮＡ配列決定によってそれぞれの参照試料から得られた対応する複数の配列リードと、それぞれの参照試料についての対応するメタデータと、を含む。いくつかの実施形態において、コホート一致参照データセットについての参照試料は、ＲＮＡ転写プロファイル（例えば、複数の配列リードから決定される）、臨床データ（例えば、患者の診断、治療結果など）、性別、生検の種類（例えば、ヘム対固形生検）、および／または分子データ（例えば、ゲノム変異）などの試料メタデータからの試料特徴に少なくとも部分的に基づいて選択される。

いくつかの実施形態において、患者の診断は、がんの種類および／またはがんの病期を含む。いくつかの実施形態において、バッチデータセット内の各試料についてのそれぞれのがんの種類は、脳がんの所定の病期、神経膠芽細胞腫の所定の病期、前立腺がんの所定の病期、膵臓がんの所定の病期、腎臓がんの所定の病期、結腸直腸がんの所定の病期、卵巣がんの所定の病期、子宮内膜がんの所定の病期、または乳がんの所定の病期の腫瘍からなるセットから選択される。

いくつかの実施形態において、生検の種類は、体細胞生検を含む。いくつかの実施形態において、体細胞生検は、マクロ解剖されたホルマリン固定パラフィン包埋（ＦＦＰＥ）組織切片、外科生検、皮膚生検、パンチ生検、前立腺生検、骨生検、骨髄生検、針生検、ＣＴガイド下生検、超音波ガイド下生検、細針吸引、吸引生検、新鮮な組織または血液試料を含む。いくつかの実施形態において、体細胞生検は、乳房腫瘍、神経膠芽細胞腫、前立腺腫瘍、膵臓腫瘍、腎臓腫瘍、結腸直腸腫瘍、卵巣腫瘍、子宮内膜腫瘍、乳房腫瘍、またはそれらの組み合わせのものである。生検は、典型的に、１つ以上の低侵襲性臨床試験により、患者が１つ以上の腫瘍を有するか、または有する可能性があることが示唆された後に実施される。生検の種類は、多くの場合、腫瘍の位置に依存する。例えば、腎臓腫瘍の生検は、高頻度で内視鏡で実施されるが、卵巣腫瘍の生検は、高頻度で組織の擦り取りを含む。

いくつかの実施形態において、ゲノム変異は、コピー数バリアント、体細胞変異、生殖細胞変異、マイクロサテライト不安定性の徴候、腫瘍変異負荷、病原体負荷の徴候、または腫瘍細胞充実度を含む。

コピー数多型の例は、ＳｈｉｌｉｅｎａｎｄＭａｌｋｉｎ２００９ＧｅｎｏｍｅＭｅｄ１，６２に記載されている。マイクロサテライト不安定性の徴候は、Ｂｕｈａｒｄｅｔａｌ．２００６ＪＣｌｉｎｉｃａｌＯｎｃｏ２４（２），２４１に記載されているように決定され得る。腫瘍変異負荷の決定の例は、Ｃｈａｌｍｅｒｓｅｔａｌ２０１７ＧｅｎｏｍｅＭｅｄ９，３４に記載されている。病原体負荷の徴候および／または免疫浸潤の徴候は、例えば、Ｂａｒｂｅｒｅｔａｌ２０１５ＰＬｏＳＰａｔｈｏｇ１１（１）：ｅ１００４５５８およびＰａｇｅｓｅｔａｌ２０１０Ｏｎｃｏｇｅｎｅ２９，１０９３－１１０２に記載されているように決定され得る。場合によっては、腫瘍細胞充実度の徴候は、体細胞生検で取得されたいくつかの正常細胞と、いくつかのがん性細胞を比較することにより、体細胞生検から決定される。場合によっては、腫瘍細胞充実度の徴候は、体細胞生検の１つ以上の画像から決定される（例えば、がん細胞と非がん細胞を数え、特定することによって）。

コホート一致参照データセットは、いくつかの実施形態において、バッチデータセットに存在する試料の種類に可能な限り密接に対応するように均衡が取れている（例えば、バッチデータセット内の複数の試料におけるそれぞれの試料に類似する参照試料を選択することによって）。いくつかの実施形態において、参照試料とバッチデータセット試料との間の類似性は、上記の試料特徴のうちの少なくとも１つに基づいて決定される。いくつかの実施形態において、コホート一致参照バッチは、可能な限り多くの参照試料を含むように参照データベースから選択される（例えば、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、配列決定された日付、および／または試料メタデータから取得された試料特徴について均衡が取れた参照バッチを維持するために）。

いくつかの実施形態において、バッチデータセット内の試料の第１のサブセットにおける各試料は、対応する第１の生検の種類を有し、バッチデータセット内の試料の第２のサブセットにおける各試料は、対応する第２の生検の種類を有する。いくつかの実施形態において、第１の生検の種類または第２の生検の種類は、マクロ解剖されたホルマリン固定パラフィン包埋（ＦＦＰＥ）組織切片、外科生検、皮膚生検、パンチ生検、前立腺生検、骨生検、骨髄生検、針生検、ＣＴガイド下生検、超音波ガイド下生検、細針吸引、吸引生検、新鮮な組織または血液試料を含むセットから選択される体細胞生検を含む。

いくつかの実施形態において、第１および第２の生検の種類は、バッチデータセット内の各試料についてのそれぞれのメタデータにおいて特定される。均衡が取れたコホート一致参照データセットを提供するために、コホート一致参照データセットにおける参照試料の第１のサブセットにおける各参照試料は、対応する第１の生検の種類を有し、コホート一致参照データセットにおける参照試料の第２のサブセットにおける各参照試料は、対応する第２の生検の種類を有する。例えば、バッチデータセット内の複数の試料が、乳がんを有する試料の５０％、肺がんを有する試料の２０％、脳がんを有する試料の３０％を含む場合、コホート一致参照データセットには、これらのがんの種類のパーセンテージと適合する参照データセットからの最大数の参照試料が組み込まれるであろう。いくつかの実施形態において、コホート一致参照データセットをバッチデータセットと均衡を取らせる同様の方法が、他の試料特徴に関して利用される。

図２Ａのブロック２１２を参照すると、いくつかの実施形態において、バッチの複数の配列特徴およびバッチの複数のメタデータ特徴の線形または非線形の組み合わせが、バッチの複数の配列特徴およびバッチの複数のメタデータ特徴を、次元縮小手法に供することによって決定される。いくつかの実施形態において、次元縮小手法は、均一マニホールド近似および射影（ＵＭＡＰ）を含む。いくつかの実施形態において、次元縮小手法は、主成分分析（ＰＣＡ）を含む。

バッチデータセット１２２に対するグローバル品質管理試験の実施
ブロック２１４。図２Ｂのブロック２１４を参照すると、１つ以上のグローバル品質管理試験（例えば、試験１５２）が、少なくともコホート一致参照データセット（例えば、バッチ）を使用してバッチデータセットに対して実施される。いくつかの実施形態において、１つ以上のグローバルバッチ品質管理試験は、バイオインフォマティクスパイプライン分析および配列決定方法を含むセットからの１つ以上のバッチ効果についての試験を含む。

図２Ｂのブロック２１６を参照すると、いくつかの実施形態において、１つ以上のグローバルバッチ品質管理試験は、バイオインフォマティクスパイプライン分析（例えば、試料分析の日付、シーケンサーの同一性、パイプラインの種類など）、ＤＮＡ汚染、試料処理（例えば、試料収集方法、試薬の変更など）、および配列決定方法（例えば、ＵＭＩ対ＵＤＩ配列アダプタ）を含むセットからの１つ以上のバッチ効果についての試験を含む。

いくつかの実施形態において、試料を分析するために使用される異なるバイオインフォマティクスパイプラインがあり（例えば、生検の種類、無細胞核酸試料に基づく）、異なるパイプラインの使用は、バッチ効果に寄与することができる。例えば、いくつかの実施形態において、血液試料収集に使用される試験管の種類（例えば、ＰＡＸ対ＥＤＴＡ）でさえ、バッチ効果に対する可能な影響について考慮される。いくつかの実施形態において、機器（例えば、配列決定機またはフローセル）に対する変更もまた、バッチ効果に寄与することができる。いくつかの実施形態において、潜在的なバッチ効果を有する試薬は、プローブロット、対照（例えば、Ｈｏｒｉｚｏｎ対照）および緩衝液を含む。

図２Ｂのブロック２１８を参照すると、いくつかの実施形態において、コホート一致参照バッチは、１つ以上のグローバルバッチ品質管理試験を実施する前に、１つ以上の交絡共変量についてバッチデータセット内の各試料を調整するために使用される。いくつかの実施形態において、この調整は、バッチデータセット内の各試料についての配列リードに対する、各それぞれの複数についての参照ゲノム（例えば、バッチデータセット内の各試料およびコホート一致参照バッチ内の各参照試料を共有する参照ゲノム）内の各遺伝子についての発現レベルの正規化を含む。いくつかの実施形態において、Ｍｏｓｔａｆａｖｉ２０１３は、関連する正規化方法の要約を含む。“ＵｎｉｆｉｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｏｆＥｘｉｓｔｉｎｇＮｏｒｍａｌｉｚａｔｉｏｎＭｅｔｈｏｄｓ．”というタイトルのセクションのＰＬＯＳＯＮＥ，ｅ６８１４１を参照されたい。

いくつかの実施形態において、バッチデータセット内の少なくとも１つの試料は、対照試料（例えば、Ｈｏｒｉｚｏｎ対照試料）である。いくつかの実施形態において、バッチデータセット内の少なくとも１つの対照試料は、バッチデータセット内の各他の試料を調整するために使用される。Ｈｏｒｉｚｏｎ対照試料は、既知の融合バリアントを含む細胞株に由来する市販の対照である。いくつかの実施形態において、融合バリアントの発現は、実験条件（例えば、シーケンサーの同一性、配列決定方法、配列決定の日付など）に関係なく一定であると予想される。これらのＨｏｒｉｚｏｎ対照は、バッチデータセット間およびバッチデータセット全体で試料を正規化するのに有用であり、また、時間の経過に伴う配列決定の傾向に関する情報を提供するために有用である（例えば、異なる時点で評価されたＨｏｒｉｚｏｎ対照を相互に比較することによって）。いくつかの実施形態において、任意の市販の対照試料を、本明細書に記載される方法で使用することができる。

いくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、ｉ）バッチデータセット全体の試料当たりの配列リードの平均数を決定すること、ｉｉ）参照データセットから（または例えば、コホート一致参照バッチから）試料当たりの配列リードの参照平均数を取得すること、およびｉｉｉ）バッチデータセット全体の配列リードの平均数を、試料当たりの配列リードの参照平均数と比較すること、を含む。いくつかの実施形態において、配列リードの平均数が、試料当たりの配列リードの参照平均数を下回る場合、バッチデータセットはそれぞれのグローバルバッチ品質管理試験に不合格となる。

いくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、ｉ）バッチデータセット全体の試料当たりのマッピングされた配列リードの平均パーセンテージを決定すること、ｉｉ）参照データセットから（または例えば、コホート一致参照バッチから）試料当たりのマッピングされた配列リードの参照平均パーセンテージを取得すること、およびｉｉｉ）バッチデータセット全体のマッピングされた配列リードの平均パーセンテージを、試料当たりのマッピングされた配列リードの参照平均パーセンテージと比較すること、を含む。いくつかの実施形態において、マッピングされた配列リードの平均パーセンテージが、試料当たりのマッピングされた配列リードの参照平均パーセントを下回る場合、バッチデータセットはそれぞれのグローバルバッチ品質管理試験に不合格となる。

いくつかの実施形態において、バッチデータセット内の各試料についてのそれぞれのメタデータは、それぞれのがんの種類を含む。いくつかのそのような実施形態において、それぞれのグローバルバッチ品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードおよび対応するメタデータを、第２の訓練された分類モデルに適用し、それによって、第２の訓練された分類モデルが、各試料についてのそれぞれの予測されたがんの種類を提供することを含む。いくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、各試料について、それぞれのメタデータからのそれぞれのがんの種類を、それぞれの予測されたがんの種類と比較することをさらに含む。いくつかの実施形態において、それぞれの既知のがんの種類と一致しない、それぞれの予測されたがんの種類を有する１つ以上の試料は、グローバルバッチ品質管理試験に不合格となる。いくつかの実施形態において、バッチデータセット内の１つ以上の試料が、グローバルバッチ品質管理試験に不合格となる場合、バッチデータセット全体が、それぞれのグローバルバッチ品質管理試験に不合格となる。いくつかの実施形態において、第２の訓練された分類方法は、“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ－ＬａｂｅｌＣａｎｃｅｒＣｌａｓｓｉｆｉｃａｔｉｏｎ”と題され、２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，７５０号に記載された分類方法のいずれかを含む。

バッチデータセット内の各試料についてのそれぞれのメタデータが、それぞれのがんの種類を含むいくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、バッチデータセット内の各それぞれの試料についてのそれぞれの腫瘍純度パーセンテージを決定することを含む。いくつかの実施形態において、腫瘍純度は、バリアント対立遺伝子画分に少なくとも部分的に基づいて決定され、いくつかの実施形態において、バリアント対立遺伝子画分は、Ｓｈｉｎｅｔａｌ．２０１７ “Ｐｒｅｖａｌｅｎｃｅａｎｄｄｅｔｅｃｔｉｏｎｏｆｌｏｗ－ａｌｌｅｌｅ－ｆｒａｃｔｉｏｎｖａｒｉａｎｔｓｉｎｃｌｉｎｉｃａｌｃａｎｃｅｒｓａｍｐｌｅｓ” ＮａｔＣｏｍｍ８，１３７７に記載されているように決定される。いくつかの実施形態において、それぞれの試料が、２０％未満、３０％未満、４０％未満、または５０％未満の対応する腫瘍純度を有する場合、それぞれの試料は、それぞれのグローバルバッチ品質管理試験に不合格となる。いくつかの実施形態において、バッチデータセット内の複数の試料のうちの少なくとも３０％、少なくとも４０％、少なくとも５０％、または少なくとも６０％が、それぞれのグローバルバッチ品質管理試験に不合格となる場合、バッチデータセットは、グローバルバッチ品質管理試験に不合格となる。

ブロック２２０。図２Ｂのブロック２２０を参照すると、１つ以上のグローバル品質管理試験１５２のうちのいずれか１つに不合格となったバッチデータセットからのそれぞれの試料は、バッチデータセットから除去されるか、または手動検査のためにフラグが立てられる。いくつかの実施形態において、除去するステップは、１つ以上のグローバル品質管理試験のうちのいずれか１つに不合格となったそれぞれの試料の各々を欠く更新されたバッチデータセットを提供することをさらに含む。

試料レポート
ブロック２２２を参照すると、いくつかの実施形態において、試料のバッチ内の各試料について（いくつかの実施形態において、グローバルバッチ品質管理試験に不合格となった試料でさえ）、それぞれの試料レポートが提供される。代替の実施形態において、試料レポートは、グローバルバッチ品質管理試験のうちのいずれか１つに不合格とならなかった試料（例えば、更新されたバッチデータセットに含まれる試料）についてのみ提供される。いくつかの実施形態において、各それぞれの試料レポートは、発現コールのセット、１つ以上の一致した療法、または１つ以上の一致した臨床試験のうちの少なくとも１つを含む。いくつかの実施形態において、適切な一致した療法は、発現コールおよびがんの種類の情報に基づいて決定される。いくつかの実施形態において、オルガノイド試験に基づいて、適切な一致した治療が決定される。オルガノイド試験の例、およびオルガノイド試験結果と療法感度との間の相関関係は、“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＰｒｅｄｉｃｔｉｎｇＴｈｅｒａｐｅｕｔｉｃＳｅｎｓｉｔｉｖｉｔｙ”と題され、２０１９年１０月２２日に出願された米国仮特許出願第６２／９２４，６２１号に提供されている。いくつかの実施形態において、適切な一致した臨床試験は、それぞれの試料についての対応する発現コールに少なくとも部分的に基づいて決定される。

いくつかの実施形態において、試料レポートは、完全な試料レポートからの最も重要な所見の簡潔な概要を、患者および／または医療提供者に提供する要約をさらに含み得る。いくつかの実施形態において、試料（例えば、患者）レポートは、“ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ－ＬａｂｅｌＣａｎｃｅｒＣｌａｓｓｉｆｉｃａｔｉｏｎ”と題され、２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，７５０号に記載されているように提供される。

いくつかの実施形態において、試料のバッチ内の各試料は、品質管理分析が実施された後、対応する臨床データとさらに関連付けられる。いくつかの実施形態において、ＲＮＡ配列試料と臨床データとの間の関連は、発現コールを検証または改良するために使用される。いくつかの実施形態において、臨床データは、ＤＮＡ変異、療法に対する患者の応答、オルガノイド実験結果（例えば、オルガノイドが、一致した療法に感受性があるかどうかを決定するために、患者から得られたオルガノイドを試験することができる）、および／または組織病理学的画像を含む。組織病理学的画像の例には、Ｈ＆Ｅ（ヘマトキシリンおよびエオシン）およびＩＨＣ（免疫組織化学）染色画像が含まれる。

単一試料品質管理試験の実施
ブロック２３０。図２Ｂのブロック２３０を参照すると、いくつかの実施形態において、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードから、１つ以上の単一試料品質管理試験が、それぞれの試料に対して実施される。１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格となった試料のバッチからのそれぞれの試料は、バッチデータセットから除去されるか、または手動検査のためにフラグが立てられる。いくつかの実施形態において、任意の単一試料品質管理試験を、バッチデータセット全体に適用することができる。いくつかの実施形態において、単一試料ＱＣ試験は、バッチＱＣ試験の前に実施される。いくつかの実施形態において、単一試料ＱＣ試験は、バッチＱＣ試験の後に実施される。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の試料当たりの配列リードの総数を、参照データセット１４０全体における参照試料当たりの配列リードの平均数と比較する。言い換えれば、いくつかの実施形態において、それぞれの単一試料品質管理試験は、ｉ）バッチデータセット全体の試料当たりの配列リードの平均数を決定すること、およびｉｉ）参照データセットから（または例えば、コホート一致参照バッチから、もしくは参照データセットのサブセットから）試料当たりの配列リードの参照平均数を取得することを含む。それぞれの単一試料データセットは、バッチデータセット全体の配列リードの平均数を、試料当たりの配列リードの参照平均数と比較する。いくつかの実施形態において、それぞれの試料についての配列リードのそれぞれの合計数が、試料当たりの配列リードの参照平均数を下回る場合、それぞれの試料は、それぞれの品質管理試験に不合格となる。

いくつかの実施形態において、ウィルコクソン検定は、バッチデータセットが、それぞれの単一試料品質管理試験に不合格となるかどうかを評価するために使用される。いくつかの実施形態において、２つの試料のウィルコクソン検定は、対の群を比較する（例えば、２つの群間で最も類似した対の試料を比較する）。例えば、これは、ＨｉＳｅｑ１およびＨｉＳｅｑ２システムの両方で配列決定された対象の同じセットからの試料を直接比較するのに有用である。いくつかの実施形態において、対になっていないウィルコクソン検定が使用される（例えば、比較されるバッチにいくらかの相違がある場合）。いくつかの実施形態において、修正されたｐ値の閾値は、有意差（例えば、バッチ効果）があるかどうかを決定するために使用される。いくつかの実施形態において、修正されたｐ値の閾値は、参照データセット１４０からの少なくとも複数の高品質の参照試料に基づいて決定される。いくつかの実施形態において、参照試料の対応するリード数が、少なくとも５００万の配列リード、少なくとも１０００万の配列リード、少なくとも２０００万の配列リード、少なくとも３０００万の配列リード、少なくとも４，０００万の配列リード、少なくとも５，０００万の配列リード、少なくとも１億の配列リード、または少なくとも２億の配列リードである場合、参照試料は高品質であると決定される。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードおよび対応する試料メタデータを、第１の訓練された分類モデルに適用し、それによって、第１の訓練された分類モデルが、各試料についてのそれぞれの予測された性別割り当てを含む、予測された性別割り当てのセットを提供することを含む。いくつかの実施形態において、それぞれの単一試料品質管理試験は、予測された性別割り当てのセットを、性別割り当ての予想されたセットと比較することをさらに含む（例えば、意図しない試料交換を検出するために）。いくつかの実施形態において、性別割り当ての予想されたセットと一致しない（例えば、ある性別の割合が高すぎる）、それぞれの予測された性別割り当てを有する１つ以上の試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、予測された性別割り当てのセットが、性別割り当ての予想されたセットと一致しない場合（例えば、試料交換が多すぎるように見える場合）、バッチデータセット全体が、それぞれの単一試料品質管理試験に不合格となる。

いくつかの実施形態において、非限定的な例として、第１の分類モデルは決定木を含む。ブロック２４４の分類子としての使用に適した決定木アルゴリズムは、例えば、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ，ｐｐ．３９５－３９６に記載されており、それは参照により本明細書に組み込まれる。いくつかの実施形態において、決定木はランダムフォレスト回帰である。ブロック２４４の分類器として使用され得る１つの特定のアルゴリズムは、分類および回帰ツリー（ＣＡＲＴ）である。ブロック２４４の分類器として使用され得る特定の決定木アルゴリズムの他の例には、ＩＤ３、Ｃ４．５、ＭＡＲＴ、およびランダムフォレストを含むが、これらに限定されない。ＣＡＲＴ、ＩＤ３、およびＣ４．５は、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ．ｐｐ．３９６－４０８ａｎｄｐｐ．４１１－４１２に記載されており、それは参照により本明細書に組み込まれる。ＣＡＲＴ、ＭＡＲＴ、およびＣ４．５は、Ｈａｓｔｉｅｅｔａｌ．，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋ，Ｃｈａｐｔｅｒ９に記載されており、それは参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Ｂｒｅｉｍａｎ，１９９９，“ＲａｎｄｏｍＦｏｒｅｓｔｓ－－ＲａｎｄｏｍＦｅａｔｕｒｅｓ，”ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ５６７，ＳｔａｔｉｓｔｉｃｓＤｅｐａｒｔｍｅｎｔ，Ｕ．Ｃ．Ｂｅｒｋｅｌｅｙ，Ｓｅｐｔｅｍｂｅｒ１９９９に記載されており、それは参照によりその全体が本明細書に組み込まれる。

いくつかの実施形態において、１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験は、ｉ）試料のバッチ内の各それぞれの試料について、複数の配列リードにおけるそれぞれの数の重複していないマッピングされた配列リード（例えば、ＰＣＲ重複の結果ではないリード）を決定すること、およびｉｉ）それぞれの数の重複していないマッピングされた配列リードを、重複していないマッピングされた配列リードの予想された数と比較すること、を含む。各重複していないマッピングされた配列リードは、参照ゲノムの対応する部分（例えば、参照ゲノム内に一意の開始および終了部位を有する）にマッピングされる。いくつかの実施形態において、それぞれの数の重複していないマッピングされた配列リードが、所定の数の重複していないマッピングされたリードを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。

いくつかの実施形態において、重複していないマッピングされた配列リードの予想された数は、試料が対象の固形または液体生検から取得されたかどうか（例えば、固形腫瘍からまたは血液試料から）に基づいて予測される。いくつかの実施形態において、それぞれの数の重複しているリードは、バッチデータセット内の各試料について決定される（例えば、同一の開始および終了部位を有する配列リードを特定することによって）。いくつかの実施形態において、この方法は、試料レポートまたはグローバルバッチレポートの一部として、それぞれの数の重複しているリードのグラフ表示をさらに提供する。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料の対応する複数の配列リードにおける各塩基対リード位置についてのそれぞれの品質スコアを決定することを含む。いくつかの実施形態において、１つ以上のそれぞれの塩基対リード位置のうちの１つ以上のそれぞれの品質スコアが、閾値品質スコアを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値品質スコアは、２０．０を含む（例えば、ＦａｓｔＱＣによって計算されるように）。いくつかの実施形態において、それぞれの品質スコアは、バッチデータセット内の各それぞれの試料についての複数の配列リードにおける各配列リードについて決定され、いくつかのそのような実施形態において、閾値リード品質スコアを下回る対応する品質スコアを有する１つ以上の配列リードは、破棄される。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料の対応する複数の配列リードにおける各配列リードについての平均品質スコアを決定することを含む。いくつかの実施形態において、対応する複数の配列リードにわたる平均品質スコアに対する平均が、閾値品質スコアを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値品質スコアは、２０．０を含む（例えば、ＦａｓｔＱＣによって計算されるように）。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、適切に対合された配列リードのそれぞれのパーセンテージ（例えば、ペアエンドリードであり、適切に対合された配列リードのパーセンテージ）を決定することであって、適切に対合された配列リードのパーセンテージが、所定の対合されたリード閾値を下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる、決定することを含む。いくつかの実施形態において、所定の対合されたリード閾値は、少なくとも９０％、少なくとも９５％、または少なくとも９９％を含む。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、それぞれの数の発現遺伝子（例えば、ゼロ以外の支持配列リードを有する遺伝子の数）を決定することを含む。いくつかの実施形態において、対応する発現リードスコアが、所定の数の発現リードを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、それぞれの試料が固形生検から得られた場合、所定の数の発現遺伝子は、少なくとも１８，０００個、少なくとも１９，０００個、または少なくとも２０，０００個の遺伝子である。いくつかの実施形態において、それぞれの試料が液体（例えば、血液学的）生検から得られた場合、所定の数の発現遺伝子は、少なくとも１５，０００個、少なくとも１６，５００個、または少なくとも１７，０００個の遺伝子である。いくつかのがんの種類は、発現遺伝子の異なるセットを含む（例えば、いくつかのがんの種類は転写的に異なる）。例えば、Ｌｉｅｔａｌ．２０１７ “Ｔｒａｎｓｃｒｉｐｔｉｏｎａｌｌａｎｄｓｃａｐｅｏｆｈｕｍａｎｃａｎｃｅｒｓ” Ｏｎｃｏｔａｒｇｅｔ８（２１），３４５３４－３４５５１を参照されたい。いくつかの実施形態において、所定の数の発現遺伝子は、それぞれの試料のがんの種類に少なくとも部分的に基づいて（例えば、対応するメタデータから）決定される。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内のそれぞれの試料について、対応する複数の配列リードのそれぞれのＧＣ含量を決定することを含む。いくつかの実施形態において、それぞれのＧＣ含量が、所定のＧＣ含量閾値の範囲外である場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、所定のＧＣ含量閾値は、３５～６０％、４０～６０％、４５～６０％、５０～６０％、または５５～６０％を含む。ＧＣ含量は、ヒトゲノムの遺伝子によって大きく異なる。例えば、Ｖｅｒｓｔｅｅｇｅｔａｌ．２００３ “ＴｈｅＨｕｍａｎＴｒａｎｓｃｒｉｐｔｏｍｅＭａｐＲｅｖｅａｌｓＥｘｔｒｅｍｅｓｉｎＧｅｎｅＤｅｎｓｉｔｙ，ＩｎｔｒｏｎＬｅｎｇｔｈ，ＧＣｃｏｎｔｅｎｔ，ａｎｄＲｅｐｅａｔＰａｔｔｅｒｎｓｆｏｒＤｏｍａｉｎｓｏｆＨｉｇｈｌｙａｎｄＷｅｅｋｌｙＥｘｐｒｅｓｓｅｄＧｅｎｅｓ” ＧｅｎｏｍｅＲｅｓ１３（９），１９９８－２００４を参照されたい。ＧＣ含量は、ＰＣＲ中に核酸分子がどれだけ十分に増幅されるかに影響を与え得る。例えば、Ｍａｍｍｅｄｏｖｅｔａｌ．２００９ “ＡＦｕｎｄａｍｅｎｔａｌＳｔｕｄｙｏｆｔｈｅＰＣＲＡｍｐｌｉｆｉｃａｔｉｏｎｏｆＧＣ－ＲｉｃｈＤＮＡＴｅｍｐｌａｔｅｓ” ＣｏｍｐｕｔＢｉｏｌＣｈｅｍ３２（６），４５２－４５７を参照されたい。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、それぞれの試料の対応する複数の配列リードにわたるそれぞれの塩基配列ごとの含量分析を決定することを含む。いくつかの実施形態において、Ａ、Ｔ、ＣまたはＧ含量の分布が、それぞれの試料についての対応する複数の配列リードによって集合的に表される塩基位置にわたって閾値より高いパーセンテージでドリフトする場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値パーセンテージは、ＦａｓｔＱＣから決定されるように、少なくとも５％、少なくとも６％、少なくとも７％、少なくとも８％、少なくとも９％、または少なくとも１０％のドリフトを含む。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードにわたるそれぞれの塩基ごとのＧＣ含量分析を決定することを含む。いくつかの実施形態において、ＧＣ含量の分布が、対応する複数の配列リードによって集合的に表される塩基位置にわたって閾値より高いパーセンテージでドリフトする場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値パーセンテージは、５％超、６％超、７％超、８％超、９％超、または１０％超のドリフトを含む。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードにわたる配列ごとのリードＧＣ含量の対応する分布を決定することを含む。いくつかの実施形態において、適合度試験により、配列ごとのリードＧＣ含量のそれぞれの分布が、閾値有意水準で正規分布から逸脱していると決定した場合（例えば、０．０５の有意水準でのカイ二乗適合度試験による分析によって）、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードによって表される各塩基位置についての欠失しているコールのパーセンテージを決定する対応する複数の配列リードにわたる対応する欠失している塩基ごとの含量分析を決定することを含む。いくつかの実施形態において、対応する複数の配列リードによって表される塩基位置についての欠失しているコールの対応するパーセンテージが、閾値パーセンテージを超える場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値パーセンテージは、１０％超、１５％超、２０％超、または２５％超を含む。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードにわたる配列リード長さのそれぞれの範囲を決定する配列リード長さ分布分析を含む。いくつかの実施形態において、配列リード長さのそれぞれの範囲が、配列リード期待値から逸脱する場合（例えば、固定長配列リードが、フラグを立てられる／除去される場合、配列リード長さの分布が観察される場合、観察された配列リードの範囲が、フラグを立てられる／除去される場合、分布が、その分布についての期待値を満たしていない場合）、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。

いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードにおける任意の配列リードが、過剰発現されているかどうかを決定する過剰表現された配列分析を含む。いくつかの実施形態において、過剰発現された配列分析が、対応する複数の配列リードの閾値より高いパーセンテージによって表される１つまたは配列リード配列を識別する場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかのそのような実施形態において、閾値パーセンテージは、少なくとも０．０５％、少なくとも０．１０％、少なくとも０．１５％、または少なくとも０．２％を含む。

モジュールのコンテナへのセグメント化
ブロック２４０。図２Ｂのブロック２４０を参照すると、いくつかの実施形態において、１つ以上のバッチ品質管理試験（例えば、バッチ外れ値全体の検出）は、第１のモジュール（例えば、モジュール１２０）を含み、１つ以上の単一試料品質管理試験（例えば、単一試料外れ値の検出）は、第２のモジュール（例えば、モジュール１２１）を含む。いくつかの実施形態において、第１のモジュールおよび第２のモジュールのそれぞれは、それぞれのドッカー（例えば、オペレーティングシステム１１６に関係なく、バッチ品質管理試験および単一試料品質管理試験の実施を可能にする計算コンテナ）を含む。いくつかの実施形態において、第１のモジュールおよび第２のモジュールは、同じコンピュータシステムで実施される。いくつかの実施形態において、第１のモジュールおよび第２のモジュールは、異なるコンピュータシステムで実施される。

ドッカーの例（「コンテナ」または「ドッカーコンテナ」とも記載される）は、Ｂｏｅｔｔｉｇｅｒ２０１５ “ＡｎｉｎｔｒｏｄｕｃｔｉｏｎｔｏＤｏｃｋｅｒｆｏｒｒｅｐｒｏｄｕｃｉｂｌｅｒｅｓｅａｒｃｈ，ｗｉｔｈｅｘａｍｐｌｅｓｆｒｏｍｔｈｅＲｅｎｖｉｒｏｎｍｅｎｔ” ａｒＸｉｖ：１４１０．０８４６ｖ１、およびＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏにおけるＦｅｌｔｅｒｅｔａｌ．２０１４ “Ａｎｕｐｄａｔｅｄｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｆｖｉｒｔｕａｌｍａｃｈｉｎｅｓａｎｄｌｉｎｕｘｃｏｎｔａｉｎｅｒｓ”によって提供される。ドッカーコンテナは、多くの場合、ワークフローを容易にするために有用であり、複数のアプリケーションを協調して使用できるようにし得る。例えば、ＤｉＴｏｍｍａｓｏｅｔａｌ２０１５ “ＴｈｅｉｍｐａｃｔｏｆＤｏｃｋｅｒｃｏｎｔａｉｎｅｒｓｏｎｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｇｅｎｏｍｉｃｐｉｐｅｌｉｎｅｓ” ＰｅｅｒＪ３：ｅ１２７３を参照されたい。いくつかの実施形態において、２つ以上のドッカー（例えば、モジュールまたはコンテナ）の使用は、本明細書に記載される方法の実施に柔軟性（例えば、利用可能なオペレーティングシステムの種類に関係なく適用の容易さ）を提供する。

いくつかの実施形態において、第１のモジュール１２０（例えば、バッチ品質管理モジュール）は、ＲＮＡ試料のバッチ（例えば、フローセル全体またはフローセルのセットからの複数の試料）のグローバルトランスクリプトーム品質を試験する。いくつかの実施形態において、第１のモジュール１２０は、参照からの試料の均衡が取れたセット（例えば、コホート一致参照バッチ）に対して、ＲＮＡ試料のバッチのグローバルトランスクリプトーム品質を評価する。

いくつかの実施形態において、第１のモジュール１２０への入力は、試料のバッチ内の各試料について、ｉ）対応する複数の配列リード、およびｉｉ）対応するメタデータ（例えば、少なくとも１つ以上のバイオインフォマティクス値を含む）を含む。いくつかの実施形態において、各複数の配列リードは正規化される（例えば、ブロック２１８に関して上記されているように）。いくつかの実施形態において、第１のモジュール１２０は、参照データ（例えば、参照データセット１４０）を含むか、またはそれへのアクセスを有する。いくつかの実施形態において、参照データセット１４０は、複数の参照試料内の各参照試料について、対応する複数の配列リード１４４および対応する参照メタデータ１４６を含む、複数の参照試料１４２を含む。

いくつかの実施形態において、対応する複数の配列リード１４４は、．ｃｓｖファイルまたは．ｐａｒｑｕｅｔファイルを含む。いくつかの実施形態において、対応する複数の配列リード１４４は、当該技術分野で知られている任意のファイル形式を含む。いくつかの実施形態において、試料メタデータに含まれるバイオインフォマティクス値は、ＬＩＭＳ（例えば、検査情報管理システム）値を含む。

いくつかの実施形態において、第１のモジュールによって評価されるグローバルバッチ品質管理試験は、統計的試験および／または次元縮小を含む。いくつかの実施形態において、これらの統計的試験は、バッチデータセット１２２と、対応するコホート一致参照バッチ１３０とを区別するための任意の方法を含む。いくつかの実施形態において、統計的バッチ品質管理試験は、バッチデータセットのサブセットおよび対応するコホート一致参照バッチに対して実施される（例えば、特定のがんの種類の試料のみが比較される）。

いくつかの実施形態において、経時的な１つ以上のバッチ品質試験の評価は、第３のモジュールを含み、いくつかの実施形態において、この第３のモジュールは、それぞれの第３のドッカーを含む。いくつかの実施形態において、第３のモジュールは、経時的な（例えば、複数の時点での）ＲＮＡ配列のバッチの傾向を評価する。これは、配列決定方法の安定性を確保するために（例えば、対照試料が複数の時点で類似しているかどうかを評価することによって）両方に有用である。

いくつかの実施形態において、この方法は、（例えば、モジュール１２０の適用に続いて）グローバルバッチ品質管理レポートをさらに提供する。いくつかの実施形態において、グローバルバッチレポートは、少なくとも、ｉ）１つ以上のバス品質管理試験のうちのいずれか１つに不合格となったバッチデータセットからの１つ以上の試料のリスト、およびｉｉ）事前に定義された期間内に評価した参照データセット１４０（例えば、対応する参照試料メタデータから特定された）からの１つ以上の参照試料のリストを含む。

いくつかの実施形態において、この事前に定義された期間は、少なくとも１日、少なくとも２日、少なくとも３日、少なくとも４日、少なくとも５日、少なくとも６日、少なくとも７日、少なくとも１０日、少なくとも１４日、少なくとも２１日、少なくとも２８日、または少なくとも３０日を含む。いくつかの実施形態において、グローバルバッチレポートは、第３のモジュールによって提供される。いくつかの実施形態において、それぞれのグローバルバッチレポートは、少なくとも１日ごと、少なくとも１週間ごと、少なくとも２週間ごと、少なくとも１ヶ月ごと、少なくとも３ヶ月ごと、または少なくとも１年ごとに提供される。

いくつかの実施形態において、第３のモジュールによって評価される品質測定基準は、少なくともＧＣ含量、汚染レベル（例えば、特に、生物学的試料の不適切なＤＮａｓｅ適用に起因するＤＮＡ汚染）、リード数、マッピングされたリードのパーセンテージ、遺伝子重複率、リード数の関数として表される遺伝子の数、転写産物の完全性の数、、原因不明の腫瘍の精度の決定、または性別予測の精度のセットからの１つ以上の測定基準を含む。

いくつかの実施形態において、第３のモジュールは、時間、パイプラインバージョン、シーケンサーの種類、フローセル、またはがんの種類を含むセットのうちの１つ以上と比較して、１つ以上の測定基準の評価の結果のグラフ表示をさらに提供する。いくつかの実施形態において、これらのグラフ表示は、本明細書の他の場所に記載されているか、または当該技術分野で知られている任意のグラフ表示を含む。

いくつかの実施形態において、この方法は、バッチデータセットの全体的な特徴についての１つ以上のグラフ表示をさらに提供する。いくつかの実施形態において、それぞれのグラフ表示は、対応するバッチデータセット特徴に関する詳細情報を含む。いくつかの実施形態において、この方法は、本明細書に記載される実施形態に従って実施される１つ以上のグローバルバッチ品質管理試験の結果の１つ以上のグラフ表示を提供する。いくつかの実施形態において、この方法は、本明細書に記載される実施形態に従って実施される１つ以上の単一試料品質管理試験の結果の１つ以上のグラフ表示を提供する。いくつかの実施形態において、バッチデータセット特徴は、バッチデータセットの試料のバッチ内の各それぞれの試料についてのそれぞれのメタデータ特徴の組み合わせを含む。例えば、いくつかの実施形態において、バッチデータセット内の各試料のメタデータ特徴が組み合わされて、バッチデータセットについての全体的な測定基準（例えば、特徴）を提供する。

ＲＮＡ発現パイプラインにおける技術的バッチ効果の識別
本開示の別の態様は、１つ以上のプロセッサと、１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、品質管理を実施する方法を提供する。この方法は、試験試料のバッチ内の各それぞれの試験試料について、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルと、試料についての特徴の第１のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットと、を含む、バッチデータセットを電子形式で取得することを含む。

この方法は、複数の参照試料における各それぞれの参照試料について、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、バッチデータセットについて決定することを含む。複数の参照試料における各それぞれの参照試料は、それぞれの参照試料についての特徴の第２のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられる。特徴の第１のセットおよび特徴の第２のセットの両方に存在する１つ以上の特徴の第３のセットにおける各それぞれの特徴についての集計値が、バッチデータセットと、コホート一致参照データセットとの間で均衡が取れている。

次元縮小は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。したがって、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットが取得される。

この方法は、試験試料について取得した座標のセットと、参照試料について取得した座標のセットとの間の類似性の統計的尺度を決定することをさらに含む。類似性の統計的尺度は閾値と比較され、類似性の統計的尺度が閾値を満たしている場合、バッチデータセットは、レポートについて検証されるか、または類似性の統計的尺度が閾値を満たしていない場合、検証されない。

例えば、図１５は、本開示のいくつかの実施形態による、品質管理を実施する方法（例えば、参照データセットと比較された試料のバッチに対して）を示す。バッチデータセットは、複数のＮ人の患者１５０２（例えば、１５０２－１、１５０２－２、．．．、１５０２－Ｎ）からの複数のＲＮＡ試料を含む、試験試料のバッチ（例えば、「バッチｉ」）から取得される。いくつかの実施形態において、ブロック１５０４を参照して、バッチデータセットは、試験試料の配列決定分析（例えば、ＲＮＡｓｅｑエクソーム分析）を使用して取得される。バッチデータセットには、各試験試料についての発現プロファイルが含まれ、各発現プロファイルには、複数のＮ人の患者（例えば、１５０６－１、１５０６－２、．．．１５０６－Ｎ）における各それぞれの患者１５０６についての発現データが含まれる。いくつかの実施形態において、発現データは、試験試料中の複数の遺伝子（例えば、ＲＮＡｓｅｑによって配列決定されたもの）における各それぞれの遺伝子についての対応する遺伝子発現値を含む。いくつかの実施形態において、発現データは、試験試料に関連付けられた複数の特徴についての値を示すメタデータ、例えば、ＲＮＡ転写プロファイル（例えば、複数の配列リードから決定されたもの）、臨床データ（例えば、患者の診断、治療結果など）、性別、生検の種類（例えば、ヘム対固形生検）、分子データ（例えば、ゲノム変異）、および／またはその他の特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および／または配列決定された日付）をさらに含む。

いくつかの実施形態において、ブロック１５０８を参照すると、各それぞれの発現プロファイルにおける発現データは正規化される。いくつかの実施形態において、各発現プロファイルにおける発現データの正規化は、複数の正規化されたデータセット１５１０（例えば、１５１０－１、１５１０－２、．．．、１５１０－Ｎ）を生成する。

いくつかの実施形態において、この方法は、複数の参照試料についてコホート一致参照データセット１５１２を取得することをさらに含む。いくつかの実施形態において、コホート一致参照データセットは、バッチデータセット内の試料の１つ以上の特徴１５０９の割合を、例えば、参照データベース１５１１における、それらの１つ以上の特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、配列決定された日付、臨床データ（例えば、患者の診断、治療結果など）、性別、生検の種類（例えば、ヘム対固形生検）、分子データ（例えば、ゲノム変異）、および／またはその他の特徴）の同じ割合を有する参照試料と一致させることによって特定される。コホート一致参照データセットには、複数の参照試料における各参照試料についての発現プロファイルが含まれる。各それぞれの発現プロファイルは、複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む（例えば、各参照試料発現プロファイルに含まれる複数の遺伝子が、各試験試料発現プロファイルに含まれる複数の遺伝子と同じである場合）。

いくつかの実施形態において、複数の参照試料は、試験試料のバッチ（例えば、Ｎ個の参照試料）内の試験試料の数と同じ数の参照試料を含む。いくつかの実施形態において、複数の参照試料は、参照試料および試験試料に関連付けられた特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および／または配列決定された日付）の間の１つ以上の類似性に基づいて試験試料のバッチについて選択される。いくつかの実施形態において、試験試料のバッチと複数の参照試料との間のメタデータ（例えば、特徴についての値）は、試験試料のバッチ内の複数の試験試料の間の試験試料の特徴の分布（例えば、割合）が、複数の参照試料の間の参照試料の特徴の分布（例えば、割合）と類似するように、均衡が取れている。

いくつかの実施形態において、コホート一致参照データセットは正規化されている。

この方法によれば、ブロック１５１４を参照すると、次元縮小（例えば、ＰＣＡ、潜在成分分析、部分最小二乗回帰など）は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。各それぞれの試験試料Ｐおよび各それぞれの参照試料Ｍについて、座標１５１６～１５１８の対応するセットは、対応する発現プロファイルの次元（例えば、１５１６－１、１５１６－２、．．．、１５１６－Ｎ、および１５１８－１、１５１８－２、．．．、１５１８－Ｎ）よりも低い次元空間（例えば、ｍ空間）に埋め込まれる。

ブロック１５２０を参照すると、この方法は、次元縮小後、結合データセットを使用して成分値を評価することをさらに含む。この方法は、試験試料について取得された座標のセットと、参照試料について取得された座標のセットとの間の類似性の統計的尺度を決定すること、および類似性の統計的尺度を閾値と比較することを含む。ブロック１５２２を参照すると、バッチデータセットは、類似性の統計的尺度が閾値を満たしている場合、レポートについて検証され、類似性の統計的尺度が閾値を満たしていない場合、検証されない。いくつかの実施形態において、類似性の統計的尺度が閾値を満たしていない場合、バッチデータセットは、拒否および／またはバッチ効果のさらなる評価のためにフラグが立てられる。いくつかの実施形態において、さらなる分析は、参照試料との非類似性を駆動するバッチデータセット内の個々の試料または個々の試料の群を識別する。いくつかの実施形態において、統計的差異を駆動するこれらの試料のうちの１つ以上がバッチデータセットから除去され、グローバル品質管理試験が、修正されたバッチデータセット（例えば、統計的非類似性に寄与する個々の試料が除去されている）で再実行され、修正されたデータセットは、バッチ品質管理試験に合格した場合に検証される。いくつかの実施形態において、１つ以上の試料が、特定されたバッチ効果に寄与すると特定されると、１つ以上の試料を参照データセットに正規化するために補正係数が、決定され、適用される。このようにして、これらの試料は検証され得、下流分析に使用され得る。いくつかの実施形態において、１つ以上の試料が、特定されたバッチ効果に寄与すると特定されると、１つ以上の試料は拒否される（例えば、手動検査後または自動的に）。いくつかの実施形態において、拒否された試料は、ＲＮＡ発現パイプラインを通して再実行される。

本明細書に記載される他の方法（例えば、図２、１６、および１７に示される方法）に関して本明細書に記載される他のプロセスの詳細もまた、図１５に関して上記されている方法と同様の様式で適用可能であることに留意されたい。例えば、図１５に概説された方法を参照して上記されている、データ収集、データ処理、コホート一致、次元縮小分析などに関連する詳細は、任意選択で、本明細書に記載される他の方法（例えば、図２、１６、および１７に概説されている方法）を参照して本明細書に記載される、データ収集、データ処理、コホート一致、次元縮小分析などの特徴のうちの１つ以上を有する。簡潔にするために、これらの詳細はここでは繰り返さない。

バイオインフォマティクスパイプラインに対する変更の検証
本開示の別の態様は、１つ以上のプロセッサと、１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、ＲＮＡ発現パイプラインにおける変化を検証する方法を提供する。この方法は、試験試料のバッチ内の各それぞれの試験試料について、第１のＲＮＡ発現パイプラインを使用して調製された対応する発現プロファイルを含むバッチデータセットを電子形式で取得することを含む。対応する発現プロファイルは、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む。バッチデータセットは、それぞれの試験試料についての特徴の第１のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットをさらに含む。

この方法は、複数の参照試料における各それぞれの参照試料について、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む、第２のＲＮＡ発現パイプライン（例えば、変更前に存在するパイプライン）を使用して調製された対応する発現プロファイルを含む、コホート一致参照データセットを、バッチデータセットについて決定することを含む。複数の参照試料における各それぞれの参照試料は、それぞれの参照試料についての特徴の第２のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられる。特徴の第１のセットおよび特徴の第２のセットの両方に存在する１つ以上の特徴の第３のセットにおける各それぞれの特徴についての集計値は、バッチデータセットと、コホート一致参照データセットとの間で均衡が取れている。

この方法は、試験試料について取得した座標のセットと、参照試料について取得した座標のセットとの間の類似性の統計的尺度を決定することをさらに含む。類似性の統計的尺度は閾値と比較され、類似性の統計的尺度が閾値を満たしている場合、ＲＮＡ発現パイプラインにおける変化は検証されるか、または類似性の統計的尺度が閾値を満たしていない場合、ＲＮＡ発現パイプラインにおける変化は検証されない。

例えば、図１６は、本開示のいくつかの実施形態（例えば、新しいプロセスの有用性を決定する、かつ／または新しいプロセスについての補正係数を決定する）による、ＲＮＡ発現パイプラインにおける変化を検証する方法を示す。バッチデータセットは、試験試料のバッチから取得され、バッチデータセットは、試験試料のバッチ内の各それぞれの試験試料についての対応する発現プロファイルを含む。いくつかの実施形態において、各それぞれの発現プロファイルは、試験試料中の複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む（例えば、ＲＮＡ発現パイプラインによって決定される）。いくつかの実施形態において、各それぞれの発現プロファイルは、試験試料に関連付けられた複数の特徴についての値を示すメタデータ、例えば、ＲＮＡ転写プロファイル（例えば、複数の配列リードから決定されたもの）、臨床データ（例えば、患者の診断、治療結果など）、性別、生検の種類（例えば、ヘム対固形生検）、分子データ（例えば、ゲノム変異）、および／またはその他の特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および／または配列決定された日付）をさらに含む。

いくつかの実施形態において、各発現プロファイルは、試験試料のバッチ内の各それぞれの試験試料の配列決定分析（例えば、ＲＮＡ発現パイプライン）を使用して調製される。いくつかの実施形態において、試験試料のバッチ内の各それぞれの試験試料は、第１の配列決定分析（例えば、第１のＲＮＡ発現パイプライン、「ｖＸ」）に供される。ブロック１６０２を参照すると、いくつかの実施形態において、ＲＮＡ発現パイプラインにおけるプロセス変更は、配列決定分析を、第１のプロセス（例えば、ｖＸ）から第２のプロセス（例えば、ｖＹ）に変更することを含む。ブロック１６０４を参照すると、いくつかの実施形態において、試験試料のバッチ内の各それぞれの試験試料は、第２の配列決定分析（例えば、第２のＲＮＡ発現パイプライン、「ｖＹ」）にさらに供される。

したがって、いくつかの実施形態において、この方法は、試験試料のバッチ内の各それぞれの試験試料について、第１のプロセス（例えば、ｖＸ）を使用して取得した対応する第１の発現プロファイルを含む、第１のバッチデータセット１６０８（例えば、ｖＸバッチデータセット）、および試験試料のバッチ内の各それぞれの試験試料について、第２のプロセス（例えば、ｖＹ）を使用して取得した対応する第２の発現プロファイルを含む、第２のバッチデータセット（例えば、ｖＹバッチデータセット）を取得することを含む。

いくつかの実施形態において、第１のバッチデータセット内の各それぞれの第１の発現プロファイルにおける発現データ、および第２のバッチデータセット内の各それぞれの第２の発現プロファイルにおける発現データは、正規化される。

いくつかの実施形態において、この方法は、複数の参照試料についてのコホート一致参照データセット１６０６を取得することをさらに含む。いくつかの実施形態において、コホート一致参照データセットは、バッチデータセット内の試料の１つ以上の特徴１６０３の割合を、例えば、参照データベース１６０５における、それらの１つ以上の特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、配列決定された日付、臨床データ（例えば、患者の診断、治療結果など）、性別、生検の種類（例えば、ヘム対固形生検）、分子データ（例えば、ゲノム変異）、および／またはその他の特徴）の同じ割合を有する参照試料と一致させることによって特定される。コホート一致参照データセットには、複数の参照試料における各参照試料についての発現プロファイルが含まれる。各それぞれの発現プロファイルは、複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む（例えば、各参照試料発現プロファイルに含まれる複数の遺伝子が、各試験試料発現プロファイルに含まれる複数の遺伝子と同じである場合）。

いくつかの実施形態において、コホート一致参照データセットは、試料一致データセット１６０８である。すなわち、いくつかの実施形態において、同じ試料が、両方のバージョンのＲＮＡ発現パイプラインを通して実行され、バッチデータセット（例えば、新しいバージョンのＲＮＡ発現パイプラインを通して実行された試料から生成された）および参照データセット（例えば、以前のバージョンのＲＮＡ発現パイプラインを通して実行された試料から生成された）として互いに比較される。

いくつかの実施形態において、複数の参照試料は、参照試料およびプロセスｖＹを使用して処理された試験試料に関連付けられた特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および／または配列決定された日付）の間の１つ以上の類似性に基づいて試験試料のバッチについて選択される。いくつかの実施形態において、試験試料のバッチと複数の参照試料との間のメタデータ（例えば、特徴についての値）は、プロセスｖＹを使用して処理された複数の試験試料の間の試験試料の特徴の分布（例えば、割合）が、複数の参照試料の間の参照試料の特徴の分布（例えば、割合）と類似するように、均衡が取れている。

この方法によれば、ブロック１６１０を参照すると、次元縮小（例えば、ＰＣＡ、潜在成分分析、部分最小二乗回帰など）は、複数の試験試料における、プロセスｖＹを使用して処理された、各それぞれの試験試料についての対応する第２の発現プロファイル、およびコホート一致参照データセットにおける、プロセスｖＸを使用して処理された、各それぞれの参照試料についての対応する発現プロファイルを含む結合データセットに対して実施される。いくつかの実施形態において、結合データセットは、複数の試験試料におけるプロセスｖＸを使用して処理された各それぞれの試験試料についての対応する第１の発現プロファイルをさらに含む。

したがって、プロセスｖＸを使用して処理された各それぞれの試験試料および各それぞれの参照試料について、ならびにプロセスｖＹを使用して処理された各それぞれの試験試料について、座標１６１２～１６１４の対応するセットは、対応する発現プロファイルの次元（例えば、１６１２－１、１６１２－２、．．．、１６１２－Ｎ、および１６１４－１、１６１４－２、．．．、１６１４－Ｎ）よりも低い次元空間（例えば、ｍ空間）に埋め込まれる。

ブロック１６１６を参照すると、この方法は、次元縮小後、結合データセットを使用して成分値を評価することをさらに含む。この方法は、プロセスｖＸを使用して処理された試験試料および参照試料、ならびにプロセスｖＹを使用して処理された試験試料について取得された座標のセット間の類似性の統計的尺度を決定することを含む。ブロック１６１８を参照すると、類似性の統計的尺度が閾値と比較されて、プロセスｖＸとプロセスｖＹとの間に有意な分散があるかどうかが決定される。ブロック１６２０を参照すると、類似性の統計的尺度が閾値を満たしている場合、ＲＮＡ発現パイプラインにおける変化が検証される。ブロック１６２２を参照すると、類似性の統計的尺度が閾値を満たしていない場合、ＲＮＡ発現パイプラインにおける変更が、プロセス変更のさらなる評価のために、かつ／またはプロセスｖＹについての補正係数の決定のために、拒否および／またはフラグが立てられる。

本明細書に記載される他の方法（例えば、図２、１５、および１７に示される方法）に関して本明細書に記載される他のプロセスの詳細もまた、図１６に関して上記されている方法と同様の様式で適用可能であることに留意されたい。例えば、図１６に概説された方法を参照して上記されている、データ収集、データ処理、コホート一致、次元縮小分析などに関連する詳細は、任意選択で、本明細書に記載される他の方法（例えば、図２、１５、および１７に概説されている方法）を参照して本明細書に記載される、データ収集、データ処理、コホート一致、次元縮小分析などの特徴のうちの１つ以上を有する。簡潔にするために、これらの詳細はここでは繰り返さない。

参照データベースの拡張
本開示の別の態様は、１つ以上のプロセッサと、１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、ＲＮＡ発現データを参照データベースに追加する方法を提供する。この方法は、新しい発現データセットを電子形式で取得することを含む。新しい発現データセットは、複数の試験試料中の各それぞれの試験試料について、第１のＲＮＡ発現パイプラインを使用して調製された対応する発現プロファイルを含み、対応する発現プロファイルは、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む。新しい発現データセットは、それぞれの試験試料についての特徴の第１のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットをさらに含む。

この方法は、複数の参照試料における各それぞれの参照試料について、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、新しい発現データセットについて決定することを含む。複数の参照試料における各それぞれの参照試料は、それぞれの参照試料についての特徴の第２のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられる。複数の参照試料における参照試料に対応する各発現プロファイルは、参照データベースからのものである。特徴の第１のセットおよび特徴の第２のセットの両方に存在する１つ以上の特徴の第３のセットにおける各それぞれの特徴についての集計値は、バッチデータセットと、コホート一致参照データセットとの間で均衡が取れている。

この方法は、試験試料について取得された座標のセットと、参照試料について取得された座標のセットとの間の類似性の統計的尺度を決定することをさらに含み、類似性の統計的尺度は閾値と比較される。この方法は、類似性の統計的尺度が閾値を満たしている場合、または類似性の統計的尺度が閾値を満たしていない場合、新しい発現データセットを参照データベースに追加すること、参照データベースにおける発現プロファイルに対して新しい発現データセットにおける発現プロファイルを正規化するための変換係数のセットを決定すること、変換係数のセットを使用して新しい発現データセットにおける発現プロファイルを正規化し、それによって、正規化した新しい発現データセットを取得すること、および正規化された新しい発現データセットを参照データベースに追加することを含む。

例えば、図１７は、本開示のいくつかの実施形態による、ＲＮＡ発現データを参照データベースに追加する方法を示す（例えば、参照データベースの更新に使用される新たに獲得された発現データを検証する）。

ブロック１７０２を参照すると、（例えば、ＲＮＡ発現データの）新しい発現データセットが取得される。いくつかの実施形態において、新しい発現データセットは、複数の試験試料中の各それぞれの試験試料について、第１のＲＮＡ発現パイプラインを使用して調製され、複数の遺伝子についての遺伝子発現値を含む発現プロファイルを含む。新しい発現データセットは、試験試料に関連付けられた特徴についての値を含むメタデータの対応するセットをさらに含む。

ブロック１７０４を参照すると、いくつかの実施形態において、新しい発現データセットは正規化されている。

いくつかの実施形態において、この方法は、新しい発現データセットについてのコホート一致参照データセット１７０６を取得することをさらに含む。いくつかの実施形態において、コホート一致参照データセットは、バッチデータセット内の試料の１つ以上の特徴１７０３の割合を、例えば、参照データベース１７０５における、それらの１つ以上の特徴（例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、配列決定された日付、臨床データ（例えば、患者の診断、治療結果など）、性別、生検の種類（例えば、ヘム対固形生検）、分子データ（例えば、ゲノム変異）、および／またはその他の特徴）の同じ割合を有する参照試料と一致させることによって特定される。コホート一致参照データセットには、複数の参照試料における各参照試料についての発現プロファイルが含まれる。各それぞれの発現プロファイルは、複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む（例えば、各参照試料発現プロファイルに含まれる複数の遺伝子が、各試験試料発現プロファイルに含まれる複数の遺伝子と同じである場合）。

いくつかの実施形態において、コホート一致参照データセットは、複数の参照試料における各参照試料についての発現プロファイルを含む。いくつかの実施形態において、各それぞれの発現プロファイルは、参照データベース（例えば、既存のデータベース）からのものであり、複数の遺伝子（例えば、新しい発現データセットに含まれる）における各それぞれの遺伝子についての対応する遺伝子発現値を含む。

複数の参照試料における各それぞれの参照試料は、参照試料に関連付けられた特徴についての値を含むメタデータの対応するセットに関連付けられる。いくつかの実施形態において、コホート一致参照データセットは、図１５および／または１６に記載された方法のうちのいずれかに従って一致する（例えば、均衡が取れている）。

この方法によれば、ブロック１７０８を参照すると、次元縮小（例えば、ＰＣＡ、潜在成分分析、部分最小二乗回帰など）は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。各それぞれの試験試料Ｎおよび各それぞれの参照試料Ｃについて、座標１７１０～１７１２の対応するセットは、対応する発現プロファイルの次元（例えば、１７１０－１、１７１０－２、．．．、１７１０－Ｎ、および１７１２－１、１７１２－２、．．．、１７１２－Ｎ）よりも低い次元空間（例えば、ｍ空間）に埋め込まれる。

ブロック１７１４を参照すると、この方法は、次元縮小後、結合データセットを使用して成分値を評価することをさらに含む。この方法は、試験試料について取得した座標のセットと、参照試料について取得した座標のセットとの間の類似性の統計的尺度を決定することを含む。ブロック１７１６を参照すると、類似性の統計的尺度が閾値と比較されて、新しい発現データセットと既存のデータベースからのデータとの間に有意な分散があるかどうかが決定される。

ブロック１７１８を参照すると、類似性の統計的尺度が閾値を満たしている場合、新しい発現データセットが参照データベースに追加される。ブロック１７２０を参照すると、類似性の統計的尺度が閾値を満たしていない場合、参照データベースにおける発現プロファイルに対して新しい発現データセットにおける発現プロファイルを正規化するための変換係数のセットが決定され、新しい発現データセットにおける発現プロファイルは、変換係数のセットを使用して正規化されるため、正規化された新しい発現データセットが取得され、正規化された新しい発現データセットが参照データベースに追加される。

本明細書に記載される他の方法（例えば、図２、１５、および１６に示される方法）に関して本明細書に記載される他のプロセスの詳細もまた、図１７に関して上記されている方法と同様の様式で適用可能であることに留意されたい。例えば、図１７に概説された方法を参照して上記されている、データ収集、データ処理、コホート一致、次元縮小分析などに関連する詳細は、任意選択で、本明細書に記載される他の方法（例えば、図２、１５、および１６に概説されている方法）を参照して本明細書に記載される、データ収集、データ処理、コホート一致、次元縮小分析などの特徴のうちの１つ以上を有する。簡潔にするために、これらの詳細はここでは繰り返さない。

実施形態の例
本明細書に記載されるシステムおよび方法のいくつかの実施形態（例えば、上記のように図２、１５、１６、および１７に概説されている方法）において、バッチデータセットを取得することは、試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームＲＮＡ配列決定によってそれぞれの試料から得られた対応する複数の配列リードを電子形式で取得すること、および対応する複数の配列リードから、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を決定すること、を含む。いくつかの実施形態において、本明細書に記載される方法はまた、配列決定データを生成するステップを含む。しかしながら、他の態様において、本明細書に記載される方法は、配列決定がすでに実施された後に開始する。例えば、いくつかの実施形態において、本明細書に記載される方法は、本明細書に記載されるように、試料のバッチ内の各試料について、電子形式で配列リードを取得すること、配列リードに基づいて試料のバッチ内の各試料についての発現プロファイルを決定すること、および次に１つ以上の品質管理方法を実施すること、によって開始する。同様に、いくつかの実施形態において、本明細書に記載される方法は、本明細書に記載されるように、試料のバッチ内の各試料について、電子形式で発現プロファイルを取得すること、および次に１つ以上の品質管理方法を実施することによって開始する。

いくつかの実施形態において、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードは、少なくとも１０，０００個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、少なくとも１００，０００個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、少なくとも１，０００，０００個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、少なくとも１０，０００，０００個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、１０，０００個から１００，０００，０００個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、１００，０００個から５０，０００，０００個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、１，０００，０００個から５０，０００，０００個の配列リードである。

いくつかの実施形態において、試験試料のバッチは、少なくとも１０個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも２５個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも１００個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも１０００個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも２５個、少なくとも５０個、少なくとも１００個、少なくとも２５０個、少なくとも５００個、少なくとも７５０個、少なくとも１０００個、少なくとも２５００個、少なくとも５０００個、少なくとも１０，０００個、少なくとも１００，０００個、少なくとも１，０００，０００個、またはそれ以上の試料を含む。いくつかの実施形態において、試験試料のバッチは、５～１００個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、５０～５００個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、１００～１０００個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、１０００個から１００，０００個の試験試料を含む。

いくつかの実施形態において、遺伝子の第１のセットは、少なくとも１０個の遺伝子を含む。いくつかの実施形態において、遺伝子の第１のセットは、少なくとも１００個の遺伝子を含む。いくつかの実施形態において、遺伝子の第１のセットは、少なくとも１０００個の遺伝子を含む。いくつかの実施形態において、遺伝子の第１のセットは、少なくとも１０，０００個の遺伝子を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも２５個、少なくとも５０個、少なくとも１００個、少なくとも２５０個、少なくとも５００個、少なくとも７５０個、少なくとも１０００個、少なくとも２５００個、少なくとも５０００個、少なくとも１０，０００個、少なくとも２０，０００個、少なくとも３０，０００個、またはそれ以上の遺伝子を含む。

いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位（生物学的試料が獲得された部位）、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定の日付から選択される少なくとも１つの特徴を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定の日付から選択される少なくとも２つの特徴を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定の日付から選択される少なくとも３つの特徴を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、少なくとも組織部位およびがんの種類を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位およびがんの種類である。

いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、核酸抽出法、ｃＤＮＡライブラリー調製法、ＲＮＡ配列決定方法、使用される試薬の種類、および使用される機器の種類から選択される少なくとも１つの特徴を含む。

いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも５０個の参照試料を含む。いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも１００個の参照試料を含む。いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも５００個の参照試料を含む。いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも１０００個の参照試料を含む。いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも５０００個の参照試料を含む。いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも１０，０００個の参照試料を含む。いくつかの実施形態において、複数の参照試料（参照データセット）は、少なくとも１００，０００個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、少なくとも５個、少なくとも６個、少なくとも７個、少なくとも８個、少なくとも９個、少なくとも１０個、少なくとも２５個、少なくとも５０個、少なくとも１００個、少なくとも２５０個、少なくとも５００個、少なくとも７５０個、少なくとも１０００個、少なくとも２５００個、少なくとも５０００個、少なくとも１０，０００個、少なくとも１００，０００個、少なくとも１，０００，０００個、またはそれ以上の試料を含む。いくつかの実施形態において、複数の参照試料は、５個～１００個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、５０個～５００個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、１００個～１０００個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、１０００個～１００，０００個の参照試料を含む。

いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、少なくともバッチデータセットに存在するものと同じ数の試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと同じ数の試料を有する。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも２５％多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも５０％多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも１００％多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも５倍多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも１０倍多い試料を含む。

複数の参照試料が、少なくとも１０００個の参照試料を含む、請求項２７～３６のいずれか一項に記載の方法。

いくつかの実施形態において、それぞれの特徴についての集計値は、試験試料のバッチ内で、それぞれの特徴についてのそれぞれの値を有する、それぞれの試験試料のパーセンテージが、複数の参照試料において、それぞれの特徴について同じそれぞれの値を有する、それぞれの参照試料のパーセンテージの２．５％以内である場合、バッチデータセットと、コホート一致参照セットとの間で均衡が取れている。例えば、がんの種類が、バッチデータセットとコホート一致データセットの間で均衡が取れている特徴であるいくつかの実施形態において、バッチデータセットが、２０％の脳がん試料、３０％の肺がん試料、および５０％の結腸がん試料から構成されている場合、参照データセットは、１７．５％～２２．５％の脳がん試料、２７．５％～３２．５％の肺がん試料、および４７．５％～５２．５％の結腸がん試料を含む。

いくつかの実施形態において、試験試料のバッチ内で、それぞれの特徴についてのそれぞれの値を有する、それぞれの試験試料のパーセンテージが、複数の参照試料内で、それぞれの特徴についての同じそれぞれの値を有する、それぞれの参照試料のパーセンテージの１％以内、２％以内、３％以内、４％以内、５％以内、６％以内、７％以内、８％以内、９％以内、１０％以内、１１％以内、１２％以内、１３％以内、１４％以内、１５％以内、１６％以内、１７％以内、１８％以内、１９％以内、２０％以内、２１％以内、２２％以内、２３％以内、２４％以内、または２５％以内である場合、それぞれの特徴についての集計値は、バッチデータセットとコホート一致参照セットとの間で均衡が取れている。

いくつかの実施形態において、次元縮小は、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルを二次元表示に埋め込むことを含む。いくつかの実施形態において、次元縮小は、均一マニホールド近似および射影（ＵＭＡＰ）を使用した２座標への埋め込みを含む。いくつかの実施形態において、次元縮小は、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルを、２座標、３座標、４座標、５座標、６座標、７座標、８座標、９座標、１０座標、またはそれ以上の座標に埋め込むことを含む。いくつかの実施形態において、次元縮小は、主成分分析（ＰＣＡ）を使用して、より少ない座標系に埋め込むことを含む。

実施例１－サブタイプ一致参照試料を用いた低次元の埋め込みによるＲＮＡにおける配列決定バッチ効果のロバストな検出
プロトコル、試薬、または配列決定技術の変更などの技術的バッチ効果により、大規模なトランスクリプトーム研究が無効になる可能性がある。腫瘍の種類、時間、または複数の施設にわたってトランスクリプトームを分析する検査室は、バッチ間のデータの互換性を検証するための体系的な方法を有する必要がある。

バッチ効果は、少数の遺伝子の大きな変化または多くの遺伝子の小さな変化として現れる可能性がある。ロバストなバッチ効果検出方法により、どちらかが特定されるであろう。さらに、バルクＲＮＡｓｅｑからの結果は、がんの種類および組織部位によって駆動される。これは、複数のがんの種類にわたる研究でのバッチ効果の検出を複雑にする。これらの課題を克服するために、トランスクリプトーム試料の異種セットにおける技術的バッチ効果を評価するための方法を開発した。

簡潔に説明すると、試料を、がんの種類および組織部位に基づいてトランスクリプトームセットと一致するように検証済みの参照データから選択した。トランスクリプトームセットの遺伝子発現プロファイルおよび一致する参照データを、均一マニホールド近似および射影（ＵＭＡＰ）を使用して２座標に埋め込んだ。ＵＭＡＰのクラスタリング特性は、バッチ効果の検出に最適である。次に、マンホイットニーＵ検定を、ｘおよびｙのＵＭＡＰ座標に対して実施した。いずれかの試験が、閾値、例えば０．０１を下回るｐ値に戻る場合、バッチ効果がある可能性がある。

第１の例として、この方法を適用して、異なる採血方法論を使用したときにバッチ効果が生じるかどうかを判断した。簡潔に説明すると、ＲＮＡｓｅｑデータを、ＰＡＸ収集チューブまたはＥＤＴＡ収集チューブのいずれかを使用して収集した、対合したコホートおよび組織が一致した血液試料に対して生成した。他のすべての試料調製、データ収集、およびデータ処理のステップは、すべての試料に対して同じように実施した。次に、ＲＮＡｓｅｑデータを、ＵＭＡＰを使用して２座標に埋め込んだ（図３Ａ；３０２＝ＰＡＸ収集チューブ；３０４＝ＥＤＴＡ収集チューブ）。次に、マンホイットニーＵ検定を、ＵＭＡＰ埋め込みのｘ座標およびｙ座標に別々に適用した。図３Ｂおよび３Ｃに示すように、両方のマンホイットニーＵ検定により、ＰＡＸ収集チューブで収集した血液とＥＤＴＡ収集チューブで収集した血液から生成したＲＮＡｓｅｑデータの間に統計的に有意な差が識別され（ｐ＝７．０８Ｅ－１０）、バッチ効果が、異なる採血方法論の使用から生じたことが証明された。

第２の例として、この方法を適用して、ＲＮＡｓｅｑデータの分析のために異なるバイオインフォマティクスパイプラインを使用したときにバッチ効果が生じるかどうかを判断した。簡潔に説明すると、ＲＮＡｓｅｑデータを、ＳＴＡＲパイプラインまたはｋａｌｌｉｓｔｏパイプラインのいずれかを使用して処理した、対合したコホートおよび組織が一致した試料に対して生成した（ＤｏｂｉｎＡ．ｅｔａｌ．，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２９（１）：１５－２１（２０１３）（ＳＴＡＲを記載している）およびＢｒａｙＮＬｅｔａｌ．，ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ，３４：５２５－２７（２０１６）（ｋａｌｌｉｓｔｏを記載している）を参照されたい。ＲＮＡｓｅｑデータをアラインメントして、転写産物の量を定量化するために使用したバイオインフォマティクスパイプラインの相違を除いて、すべての試料調製、データ収集、およびデータ処理のステップを、すべての試料について同じように実施した。次に、ＲＮＡｓｅｑデータを、ＵＭＡＰを使用して２座標に埋め込んだ（図４Ａ；４０２＝Ｓｔａｒアラインメント；４０４＝ｋａｌｌｉｓｔｏアラインメント）。次に、マンホイットニーＵ検定を、ＵＭＡＰ埋め込みのｘ座標およびｙ座標に別々に適用した。図４Ｂおよび４Ｃに示すように、両方のマンホイットニーＵ検定により、ＳＴＡＲアルゴリズムを使用してアラインメントされたＲＮＡｓｅｑデータとｋａｌｌｉｓｔｏアルゴリズムを使用してアラインメントされたＲＮＡｓｅｑデータの間に統計的に有意な差が識別され（ｐ＝２．８０Ｅ－９およびｐ＝１．６９Ｅ－１９）、異なるＲＮＡｓｅｑアラインメントアルゴリズムの使用から生じるバッチ効果が証明された。

最後に、この方法を使用して、技術的バッチ効果が発生しやすい一般的なソース、すなわち、フローセル、バイオインフォマティクスパイプラインの更新、およびシーケンサーを試験した。各効果について。各技術クラス（フローセル、パイプライン、およびシーケンサー）について、この方法を、特徴ごとに１５個のサブ試料に対して実行し、Ｂｅｎｊａｍｉｎｉ－Ｈｏｃｈｂｅｒｇにより補正した偽発見率を、サブ試料全体で計算した。図５Ａ～５Ｃに提示した分布は、サブ試料全体で計算したＦＤＲの中央値を表す。

したがって、上記の方法は、複数のがんの種類および組織部位にわたる技術的およびソフトウェアのバッチ効果を自動的に試験するための効果的かつ実装が容易な方法である。

実施例２－キャプチャプローブの再設計後に適用したバッチ補正
キャプチャＲＮＡ－Ｓｅｑ法は、特に、ＦＦＰＥ試料における遺伝子発現を分析する場合、全ｍＲＮＡキャプチャ法に比べて多くの利点を有する。例えば、全ｍＲＮＡキャプチャ法でのポリＡ選択は、固定プロセス中にＲＮＡ分子が断片化されるため、ＦＦＰＥ試料では最適に機能しない。したがって、多くのｍＲＮＡ断片は、もはやポリＡテールに関連付けられていないため、キャプチャされない。対照的に、キャプチャＲＮＡ－Ｓｅｑ法は、標的ｍＲＮＡのコード配列に対して設計されたプローブを使用してｍＲＮＡ断片を単離するため、これらの方法は、断片化による影響を大幅に軽減する。さらに、血液学的試料を使用する場合、キャプチャＲＮＡ－Ｓｅｑ方法論は、リボソーム枯渇およびヘモグロビン枯渇による影響が少ない。

しかしながら、ＲＮＡ－Ｓｅｑのキャプチャに使用されるエクソームキャプチャプローブの設計を変更すると、技術的バッチ効果がわずかになることが観察された。これらのバッチ効果を補正するために、第１世代のエクソームキャプチャプローブのセットを使用して以前にエクソーム配列決定された様々ながんの種類を表す４５０個の試料を、第２世代のエクソームキャプチャプローブのセットを使用するエクソーム再配列決定のために選択した。次に、第１世代のエクソームキャプチャプローブのセットを使用して生成された元のエクソーム配列決定結果を、第２世代のエクソームキャプチャプローブのセットを使用して生成された新しいエクソーム配列決定結果と比較することによって、各遺伝子についての線形補正係数を決定した。

線形遺伝子ごとの線形補正は、２つのデータセット間のすべての体系的な相違を取り除くのに十分であることが見出された。各遺伝子ｉについて、ｖ１に補正された発現値Ｅ_ｃｉは、次のように計算した。
Ｅ_ｃｉ＝（Ｅ_ｉ＊ｍ_ｉ）＋ｂ_ｉ
式中、Ｅ_ｉは、第２世代のエクソームキャプチャプローブのセットを使用して遺伝子ｉ（ｌｏｇ２ＴＰＭ）に対して決定された未補正の発現レベルであり、ｍ_ｉは、遺伝子ｉについての勾配補正係数であり、ｂ_ｉは、遺伝子ｉについての切片補正係数である。各遺伝子についてのこれらの勾配および切片の補正係数は、一致したデータセットにおけるｖ１および補正されたｖ２の分布に一致するように学習される。これを、対合した試料の状況を考慮することができる加重損失関数を最小化することによって最適化した。この副次情報を利用することにより、第２世代のエクソームプローブのセットを使用して処理されたすべての試料に同じ線形補正を適用できるため、結果として得られる補正係数は、任意のがんの種類の配列決定された試料に対してロバストに機能するであろう。

補正係数の効果を分析するために、主成分分析（ＰＣＡ）を、各々２回処理された３７個の異なるがんの種類を表す、１００個の試料についての発現値に対して実施し、両方について、１回目は第１世代のエクソームキャプチャプローブのセットを使用し、もう１回目は第２世代のエクソームキャプチャプローブのセットを使用した。これらの１００個の試料は、補正係数を生成するために使用した訓練コホートの一部ではなかった。ＰＣＡは、最初に第２世代のエクソームキャプチャプローブのセットを使用して決定された未補正の発現値に対して実施し、次に上記の補正係数を使用して補正された発現値に対して実施した。

図６Ａに示すように、未補正の発現値をＰＣＡ分析に使用した場合、技術的バッチ効果は、第３の主成分と、アッセイの種類（＋＝第１世代のエクソームキャプチャプローブのセット、Ｏ＝第２世代のエクソームキャプチャプローブのセット、線は、対合した試料を結ぶ）との関連付けによって明確に観察可能であった。しかしながら、図６Ｂに示すように、未補正の発現値をＰＣＡ分析に使用した場合、主成分のいずれもアッセイの種類に関連付けられておらず、すべての試料が、試料およびがんの種類をクラスター化した。

実施例３－生物学的試料の採取部位および保存方法の相違から生じる技術的バッチ効果の識別
ヘムがんは、全血、骨髄から採取することができ、時々、ホルマリン固定パラフィン包埋（ＦＦＰＥ）に保存することができる。しかしながら、これらの試料採取方法論の相違により、技術的バッチ効果の導入がもたらされる。簡潔に説明すると、血液サンプリング、骨髄サンプリングのいずれかによって採取した、またはＦＦＰＥに保存したコホート一致がん試料からのＲＮＡ発現データを、本開示のいくつかの実施形態に従って、ＵＭＡＰを使用して２座標に埋め込んだ、次元縮小分析によって分析した。図７に提示した結果は、トランスクリプトーム試料がクラスター化され、ｙ軸でＦＦＰＥ対ＥＤＴＡ血液／骨髄チューブによって分離され、軸で骨髄対全体によって分離されていることを示す。この分離は、生物学的および技術的な相違の両方によって駆動され、適切な参照の一致を必要とする。

実施例４－ＲＮＡ抽出方法論の相違から生じる技術的バッチ効果の識別
トランスクリプトーム分析中に使用した異なる抽出方法および化学物質は、バッチ効果を導入する可能性がある。例えば、バッチ効果は、ＲＮＡｓｅｑ分析（内部抽出）の直前とは対照的に、例えば、臨床医によって試料が配列決定（外部抽出）のために送られる前にＲＮＡ試料が抽出された場合に生じる可能性がある。簡潔に説明すると、ＲＮＡ単離の前または後に取得されたコホート一致がん試料からのＲＮＡ発現データを、本開示のいくつかの実施形態に従って、ＵＭＡＰを使用して２座標に埋め込んだ、次元縮小分析によって分析した。図８に提示した結果は、ヘムが、内部で抽出された試料とは別に、外部ソースクラスターによって試料を抽出したことを示す。実施例３に記載されているように、血液および骨髄から内部抽出されたＦＦＰＥ試料を分離することにより、第２のバッチ効果が観察される。

実施例５－異なる試薬ロットから生じる技術的バッチ効果の識別
キャプチャＲＮＡＳｅｑの方法論は、キャプチャプローブを使用してｃＤＮＡ断片ライブラリーが濃縮されるステップを含む。この一例では、いくつかのがん試料用に調製したｃＤＮＡ断片ライブラリーの２つの試料を、目的のゲノム領域に相補的なビオチン化オリゴヌクレオチドプローブの同じセットの２つのバッチにハイブリダイズした。これらのキャプチャプローブライブラリーは、時々、それ自体が、異なるゲノムキャプチャ設計のプールになり得る。プローブロットの製造およびキャプチャライブラリーのプールは、バッチ効果を導入する可能性がある。次に、両方のロットのキャプチャプローブを使用して生成したＲＮＡ発現データを、ＰＣＡ次元縮小分析によって分析した。図９に提示した結果は、ＰＣ８（ｘ軸）で検出された、異なるプローブロットによって導入されたバッチ効果を示す。

実施例６－異なるハイブリッドキャプチャプレキシティ（ｐｌｅｘｉｔｙ）から生じる技術的バッチ効果の分析
ハイブリダイゼーションプレキシティとは、標的化キャプチャ中に一緒にプールされたｃＤＮＡ試料の数を指す。アッセイは、プール内の単一のみの試料から１２を超える試料まで様々であり得る。この実験では、９つの腫瘍試料および２つの細胞対照を、３つのプレキシティ条件（単一、３倍、および６倍の試料プール）下で配列決定した。ＲＮＡ配列決定に続いて、異なるプレキシティ条件下で調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、ＵＭＡＰを使用して２座標に埋め込んだ、次元縮小分析によって分析した。図１０に提示した結果は、使用したプレキシティ条件に関係なく、一致した試料がクラスター化されたことを示し、これは、プレキシティがトランスクリプトーム分析に対してバッチ効果を導入しないことを示す。

実施例７－異なる数のＰＣＲ増幅サイクルから生じる技術的バッチ効果の分析
一部のＲＮＡｓｅｑ方法論では、キャプチャ後のＰＣＲは、アンプリコン断片がプローブによってキャプチャされた後、かつ配列決定の前の増幅ステップである。非結合断片は洗い流され、残りの断片は設定されたサイクル数で増幅される（サイクルが多いほど増幅が多くなる）。サイクルが多すぎると、配列の特徴に基づいて不均衡な重複率が発生する可能性がある。この実験では、６つの腫瘍および１つの対照試料に対する増幅サイクル数（７～９）の効果を決定した。ＲＮＡ配列決定に続いて、異なる増幅条件（７～９サイクル）下で調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、ＵＭＡＰを使用して２座標に埋め込んだ、次元縮小分析によって分析した。図１１に提示した結果は、使用した増幅サイクルの数に関係なく、一致した試料がクラスター化されたことを示し、これは、７～９のＰＣＲ増幅サイクル数の変動が、トランスクリプトーム分析に対してバッチ効果を導入しないことを示す。

実施例８－異なるシーケンサー負荷モル濃度から生じる技術的バッチ効果の分析
負荷モル濃度は、シーケンサーに負荷される試料の量を指す。典型的に、モル濃度が低すぎると、複製率が高くなり、データのノイズが大きくなる可能性がある。このバッチ効果実験では、１１個の腫瘍試料および３個の対照試料を、３つのモル濃度条件（０．７、１、および１．５ｕＭ）下で配列決定した。ＲＮＡ配列決定に続いて、異なる負荷モル濃度下で調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、ＵＭＡＰを使用して２座標に埋め込んだ、次元縮小分析によって分析した。図１２に提示した結果は、使用した負荷モル濃度に関係なく、一致した試料がクラスター化されたことを示し、これは、０．７～１．５ｕＭの負荷モル濃度の変動が、トランスクリプトーム分析に対してバッチ効果を導入しないことを示す。

実施例９－配列決定試薬の化学物質の変化から生じる技術的バッチ効果の分析
Ｉｌｌｕｍｉｎａの配列決定試薬の変更は、それらの技術に対する追加の特徴により良く適合させるために使用される化学物質の一般的で専有的な変更である。試薬変更の最近の例は、ユニバーサル分子インデックス（ＵＭＩ）での追加のリードを可能にするために適合された。バッチ効果対照実験では、２８個の試料を２つの試薬バージョン下で配列決定し、以前のバージョンと現在のバージョンの試薬の間にバッチ効果が検出されなかったことを確認した。ＲＮＡ配列決定に続いて、異なるバージョンの試薬を使用して調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、ＵＭＡＰを使用して２座標に埋め込んだ、次元縮小分析によって分析した。全体として、試料は試料ごとにクラスター化され（図１３、結んだ線）、試薬は少しではあるが、トランスクリプトーム分散に対して許容範囲内にある。

結論
本明細書に記載される方法は、ＲＮＡ配列決定試料のバッチを評価するための改善された品質管理方法を提供する。以前の方法よりも精度が改善し、解像度が高いため、本明細書で提供される予測アルゴリズムを使用して、品質管理基準を満たす単一の試料およびバッチ全体を特定することができる。このように品質管理が強化されると、患者に診断を提供し、適切な治療を決定するために使用される情報がより正確になり、診断が改善され、患者に対するより多くの情報に基づいた治療の推奨がもたらされる。

引用されたおよび代替の実施形態
本明細書に引用されるすべての参考文献は、あたかも各個々の刊行物または特許または特許出願がすべての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体がすべての目的のために本明細書に参照により組み込まれる。

本発明は、非一時的コンピュータ可読記憶媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装することができる。例えば、コンピュータプログラム製品は、図１に示され、かつ／または図２Ａおよび２Ｂに記載されるような、プログラムモジュールを含むことができる。これらのプログラムモジュールは、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスク記憶製品、ＵＳＢキー、または他の任意の非一時的コンピュータ可読データまたはプログラム記憶製品に格納することができる。

当業者には明らかであろうように、本出願の趣旨および範囲から逸脱することなく、本出願の多くの修正および変形をなすことができる。本明細書に記載の特定の実施形態は、例としてのみ提供されている。実施形態は、本発明の原理およびその実際の使用を最良に説明するために選択および説明され、それによって当業者が本発明および考えられる特定の用途に適した様々な変更を伴う様々な実施形態を最良に利用することができるようにする。本発明は、そのような特許請求の範囲が権利を有する等価物の全範囲とともに、添付の特許請求の範囲の用語によってのみ限定されるべきである。

Claims

品質管理を実施する方法であって、前記方法が、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、
ａ）試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームＲＮＡ配列決定によって前記それぞれの試料から得られた対応する複数の配列リードと、前記それぞれの試料についての対応するメタデータと、を含む、バッチデータセットを電子形式で取得すること、
ｂ）前記バッチデータセットについて、コホート一致参照バッチを決定することであって、前記コホート一致参照バッチが、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および／または配列決定された日付について均衡が取れている、決定すること、
ｃ）少なくとも前記コホート一致参照バッチを使用して前記バッチデータセットに対して１つ以上のグローバルバッチ品質管理試験を実施すること、ならびに
ｄ）前記１つ以上のグローバルバッチ品質管理試験の実施後、
前記１つ以上のグローバルバッチ品質管理試験の各々が満たされている場合、前記バッチデータセットを検証すること、または
前記グローバルバッチ品質管理試験のうちの１つ以上が満たされていない場合、前記バッチデータセットを検証しないこと、を含む、方法。
前記グローバルバッチ品質管理試験のうちの１つ以上が満たされていない場合、前記１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となる前記バッチデータセットからそれぞれの試料を除去すること、または前記１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てることをさらに含む、請求項１に記載の方法。
標的化パネルＲＮＡ配列決定が、複数のプローブを使用する、請求項１または２に記載の方法。
前記複数のプローブにおける各プローブが、参照トランスクリプトームのそれぞれの部分を一意的に標的化し、
前記対応する複数の配列リードにおける各配列リードが、前記複数のプローブにおける少なくとも１つのプローブに対応する、請求項３に記載の方法。
全トランスクリプトーム配列決定が、次世代配列決定を含む、請求項１～４のいずれか一項に記載の方法。
前記除去することが、更新されたバッチデータセットを提供することをさらに含む、請求項２～５のいずれか一項に記載の方法。
前記バッチデータセットについてのコホート一致参照データセットを決定することが、
試料の前記バッチ内の各試料について、
ｉ）それぞれの複数の配列リードからそれぞれの複数の配列特徴を抽出し、それによって、バッチの複数の配列特徴を取得すること、および
ｉｉ）それぞれの複数の試料メタデータ特徴を抽出し、それによって、バッチの複数のメタデータ特徴を取得することと、
前記バッチの複数の配列特徴または前記バッチの複数のメタデータ特徴に少なくとも部分的に基づいて、参照データセットから、複数の参照試料を含む前記コホート一致参照データセットを選択することと、を含む、請求項１～６のいずれか一項に記載の方法。
前記コホート一致参照データセットが、複数の参照試料を含み、
前記複数の参照試料中の各参照試料が、標的化または全トランスクリプトームＲＮＡ配列決定によってそれぞれの参照試料から得られた対応する複数の配列リードと、前記それぞれの参照試料についての対応するメタデータと、を含む、請求項７に記載の方法。
前記バッチデータセットにおける試料の第１のサブセットにおける各試料が、対応する第１の生検の種類を有し、
前記バッチデータセットにおける試料の第２のサブセットにおける各試料が、対応する第２の生検の種類を有する、請求項７に記載の方法。
前記第１の生検の種類または第２の生検の種類が、マクロ解剖されたホルマリン固定パラフィン包埋（ＦＦＰＥ）組織切片、外科生検、皮膚生検、パンチ生検、前立腺生検、骨生検、骨髄生検、針生検、ＣＴガイド下生検、超音波ガイド下生検、細針吸引、吸引生検、新鮮な組織または血液試料を含むセットから選択される体細胞生検を含む、請求項９に記載の方法。
前記方法が、
試料の前記バッチ内の各それぞれの試料について、前記対応する複数の配列リードから、前記それぞれの試料に対して１つ以上の単一試料品質管理試験を実施することと、
前記１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格である試料の前記バッチからそれぞれの試料を除去するか、または前記１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てることと、をさらに含む、請求項１～１０のいずれか一項に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、
ｉ）試料の前記バッチ内のそれぞれの試料について、前記複数の配列リードにおけるそれぞれの数の重複していないマッピングされた配列リードを決定することであって、各重複していないマッピングされた配列リードが、参照ゲノムの対応する部分にマッピングする、決定することと、
ｉｉ）前記それぞれの数の重複していないマッピングされた配列リードを、予想された数の重複していないマッピングされた配列リードと比較することであって、前記それぞれの数の重複していないマッピングされた配列リードが、所定の数の重複していないマッピングされたリードを下回る場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、比較することと、を含む、請求項１１に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、試料の前記バッチ内のそれぞれの試料について、適切に対合した配列リードのそれぞれのパーセンテージを決定することであって、適切に対合した配列リードの前記パーセンテージが、所定の対合したリード閾値を下回る場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、決定することを含む、請求項１１または１２に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、試料の前記バッチ内のそれぞれの試料について、前記対応する複数の配列リードのそれぞれのＧＣ含量を決定することであって、前記それぞれのＧＣ含量が、所定のＧＣ含量閾値の範囲外である場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、決定することを含む、請求項１１～１３のいずれか一項に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、試料の前記バッチ内のそれぞれの試料について、それぞれの数の発現遺伝子を決定することであって、対応する発現リードスコアが、所定の数の発現リードを下回る場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、決定することを含む、請求項１１～１４のいずれか一項に記載の方法。
前記１つ以上のグローバルバッチ品質管理試験が、バイオインフォマティクスパイプライン分析、ＤＮＡ汚染、試料処理、および配列決定方法を含むセットからの１つ以上のバッチ効果についての試験を含む、請求項１～１５のいずれか一項に記載の方法。
それぞれのグローバルバッチ品質管理試験が、
ｉ）前記バッチデータセット全体の試料当たりの配列リードの平均数を決定することと、
ｉｉ）参照データセットから試料当たりの配列リードの参照平均数を取得することと、
ｉｉｉ）前記バッチデータセット全体の配列リードの前記平均数を、試料当たりの配列リードの参照平均数と比較することであって、配列リードの前記平均数が、試料当たりの配列リードの前記参照平均数を下回る場合、前記バッチデータセットが、前記それぞれのグローバルバッチ品質管理試験に不合格となる、比較することと、を含む、請求項１６に記載の方法。
それぞれのグローバルバッチ品質管理試験が、
前記バッチデータセット内の各それぞれの試料について、前記対応する複数の配列リードおよび対応するメタデータを、第１の訓練された分類モデルに適用し、それによって、前記第１の訓練された分類モデルが、各試料についてのそれぞれの予測された性別割り当てを含む、予測された性別割り当てのセットを提供することと、
予測された性別割り当ての前記セットを、性別割り当ての予想されたセットと比較することであって、性別割り当ての前記予想されたセットと一致しないそれぞれの予測された性別割り当てを有する各試料が、前記それぞれのグローバルバッチ品質試験に不合格となる、比較することと、を含む、請求項１６または１７に記載の方法。
前記方法が、前記バッチの複数の配列特徴および前記バッチの複数のメタデータ特徴を、次元縮小手法に供することによって、前記バッチの複数の配列特徴および前記バッチの複数のメタデータ特徴の線形または非線形の組み合わせを決定することをさらに含む、請求項１～１８のいずれか一項に記載の方法。
前記方法が、（ｃ）前記１つ以上のグローバルバッチ品質管理試験を実施する前に、前記コホート一致参照バッチを使用して、１つ以上の交絡共変量について前記バッチデータセット内の各試料を調整することをさらに含む、請求項１～１９のいずれか一項に記載の方法。
前記バッチデータセット内の少なくとも１つの試料が、対照試料である、請求項２０に記載の方法。
前記バッチデータセット内の前記少なくとも１つの対照試料が、前記バッチデータセット内の各々の他の試料を調整するために使用される、請求項２１に記載の方法。
前記方法が、試料の前記バッチ内の各試料について、それぞれの試料レポートを提供することであって、各それぞれの試料レポートが、発現コールのセット、１つ以上の一致した療法、または１つ以上の一致した臨床試験のうちの少なくとも１つを含む、提供することをさらに含む、請求項１～２２のいずれか一項に記載の方法。
前記方法が、クラウドサーバを備えるコンピュータシステムで実施される、請求項１～２３のいずれか一項に記載の方法。
前記１つ以上のグローバルバッチ品質管理試験が、第１のモジュールを含み、
前記１つ以上の単一試料品質管理試験が、第２のモジュールを含む、請求項１１～２４のいずれか一項に記載の方法。
品質管理を実施する方法であって、前記方法が、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、
ａ）試験試料のバッチ内の各それぞれの試験試料について、
遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルと、
前記それぞれの試験試料についての特徴の第１のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットと、を含む、バッチデータセットを電子形式で取得することと、
ｂ）複数の参照試料における各それぞれの参照試料について、遺伝子の前記第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、前記バッチデータセットについて決定することであって、
前記複数の参照試料における各それぞれの参照試料が、前記それぞれの参照試料についての特徴の第２のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられ、
特徴の前記第１のセットおよび特徴の前記第２のセットの両方に存在する１つ以上の特徴の第３のセットにおける各それぞれの特徴についての集計値が、前記バッチデータセットと、前記コホート一致参照データセットとの間で均衡が取れている、決定することと、
ｃ）前記複数の試験試料における各それぞれの試験試料についての前記対応する発現プロファイル、および前記複数の参照試料における各それぞれの参照試料についての前記対応する発現プロファイルからなる組み合わせたデータセットに対して次元縮小を実施し、それによって、各それぞれの試験試料および各それぞれの参照試料について、前記対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットを取得することと、
ｄ）前記試験試料について取得した座標の前記セットと、前記参照試料について取得した座標の前記セットとの間の類似性の統計的尺度を決定することと、
ｅ）類似性の前記統計的尺度を閾値と比較し、
類似性の前記統計的尺度が、前記閾値を満たしている場合、報告するための前記バッチデータセットを検証すること、または
類似性の前記統計的尺度が、前記閾値を満たしていない場合、報告するための前記バッチデータセットを検証しないことと、を含む、方法。
類似性の前記統計的尺度が、前記閾値を満たしていない場合、さらなるレビューのために前記バッチデータセットにフラグを立てることをさらに含む、請求項２６に記載の方法。
ＲＮＡ発現パイプラインの変化を検証する方法であって、前記方法が、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、
ａ）バッチデータセットを電子形式で取得することであって、前記バッチデータセットが、試験試料のバッチ内の各それぞれの試験試料について、
第１のＲＮＡ発現パイプラインを使用して調製された対応する発現プロファイルであって、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む、対応する発現プロファイルと、
前記それぞれの試験試料についての特徴の第１のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットと、を含む、取得することと、
ｂ）複数の参照試料における各それぞれの参照試料について、第２のＲＮＡ発現パイプラインを使用して調製された遺伝子の前記第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、前記バッチデータセットについて決定することであって、
前記複数の参照試料における各それぞれの参照試料が、前記それぞれの参照試料についての特徴の第２のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられ、
特徴の前記第１のセットおよび特徴の前記第２のセットの両方に存在する１つ以上の特徴の第３のセットにおける各それぞれの特徴についての集計値が、前記バッチデータセットと、前記コホート一致参照データセットとの間で均衡が取れている、決定することと、
ｃ）前記複数の試験試料における各それぞれの試験試料についての前記対応する発現プロファイル、および前記複数の参照試料における各それぞれの参照試料についての前記対応する発現プロファイルからなる組み合わせたデータセットに対して次元縮小を実施し、それによって、各それぞれの試験試料および各それぞれの参照試料について、前記対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットを取得することと、
ｄ）前記試験試料について取得した座標の前記セットと、前記参照試料について取得した座標の前記セットとの間の類似性の統計的尺度を決定することと、
ｅ）類似性の前記統計的尺度を閾値と比較し、
類似性の前記統計的尺度が、前記閾値を満たしている場合、前記ＲＮＡ発現パイプラインにおける変化を検証すること、または
類似性の前記統計的尺度が、前記閾値を満たしている場合、前記ＲＮＡ発現パイプラインにおける前記変化を検証しないことと、を含む、方法。
類似性の前記統計的尺度が、前記閾値を満たしていない場合、類似性の前記統計的尺度が、前記閾値を満たしていない場合のさらなる評価のために前記ＲＮＡ発現パイプラインの前記変化にフラグを立てることをさらに含む、請求項２８に記載の方法。
前記コホート一致参照データセットが、試料対合参照データセットである、請求項２８または２９に記載の方法。
ＲＮＡ発現データを参照データベースに追加する方法であって、前記方法が、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行するための１つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、
ａ）新しい発現データセットを電子形式で取得することであって、前記新しい発現データセットが、複数の試験試料中の各それぞれの試験試料について、
第１のＲＮＡ発現パイプラインを使用して調製された対応する発現プロファイルであって、遺伝子の第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む、対応する発現プロファイルと、
前記それぞれの試験試料についての特徴の第１のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットと、を含む、取得することと、
ｂ）複数の参照試料における各それぞれの参照試料について、遺伝子の前記第１のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、前記新しい発現データセットについて決定することであって、
前記複数の参照試料における各それぞれの参照試料が、前記それぞれの参照試料についての特徴の第２のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられ、
前記複数の参照試料における参照試料に対応する各発現プロファイルが、前記参照データベースからのものであり、
特徴の前記第１のセットおよび特徴の前記第２のセットの両方に存在する１つ以上の特徴の第３のセットにおける各それぞれの特徴についての集計値が、前記バッチデータセットと、前記コホート一致参照データセットとの間で均衡が取れている、決定することと、
ｃ）前記複数の試験試料における各それぞれの試験試料についての前記対応する発現プロファイル、および前記複数の参照試料における各それぞれの参照試料についての前記対応する発現プロファイルからなる組み合わせたデータセットに対して次元縮小を実施し、それによって、各それぞれの試験試料および各それぞれの参照試料について、前記対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットを取得することと、
ｄ）前記試験試料について取得した座標の前記セットと、前記参照試料について取得した座標の前記セットとの間の類似性の統計的尺度を決定することと、
ｅ）類似性の前記統計的尺度を閾値と比較し、
類似性の前記統計的尺度が、前記閾値を満たしている場合、新しい発現データセットを前記参照データベースに追加すること、または
類似性の前記統計的尺度が、前記閾値を満たしていない場合、
前記参照データベース内の発現プロファイルに対して前記新しい発現データセットにおける前記発現プロファイルを標準化するための変換係数のセットを決定し、
変換係数の前記セットを使用して前記新しい発現データセットにおける前記発現プロファイルを標準化し、それによって、標準化された新しい発現データセットを取得し、
前記標準化された新しい発現データセットを前記参照データベースに追加することと、を含む、方法。
前記バッチデータセットを取得することが、試料の前記バッチ内の各それぞれの試料について、
標的化または全トランスクリプトームＲＮＡ配列決定によって前記それぞれの試料から得られた対応する複数の配列リードを電子形式で取得することと、
前記対応する複数の配列リードから、遺伝子の前記第１のセットにおける各それぞれの遺伝子についての前記対応する遺伝子発現値を決定することと、を含む、請求項２６～３１のいずれか一項に記載の方法。
試料の前記バッチ内の各それぞれの試料について、前記対応する複数の配列リードが、少なくとも１０，０００個の配列リードを含む、請求項３２に記載の方法。
試験試料の前記バッチが、少なくとも１０個の試験試料を含む、請求項２６～３３のいずれか一項に記載の方法。
遺伝子の前記第１のセットが、少なくとも１０個の遺伝子を含む、請求項２６～３４のいずれか一項に記載の方法。
遺伝子の前記第１のセットが、少なくとも１０，０００個の遺伝子を含む、請求項２６～３４のいずれか一項に記載の方法。
特徴の前記第３のセットが、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定日付からなる群から選択される特徴を含む、請求項２６～３６のいずれか一項に記載の方法。
特徴の前記第３のセットが、核酸抽出法、ｃＤＮＡライブラリー調製法、ＲＮＡ配列決定法、使用される試薬の種類、および使用される機器の種類から選択される特徴を含む、請求項２６～３７のいずれか一項に記載の方法。
前記複数の参照試料が、少なくとも１００個の参照試料を含む、請求項２６～３８のいずれか一項に記載の方法。
前記複数の参照試料が、少なくとも１０００個の参照試料を含む、請求項２６～３８のいずれか一項に記載の方法。
それぞれの特徴についての前記集計値が、試験試料の前記バッチ内で、前記それぞれの特徴についてのそれぞれの値を有する、それぞれの試験試料のパーセンテージが、前記複数の参照試料において、前記それぞれの特徴について同じそれぞれの値を有する、それぞれの参照試料のパーセンテージの２．５％以内である場合、前記バッチデータセットと、前記コホート一致参照セットとの間で均衡が取れている、請求項２６～４０のいずれか一項に記載の方法。
次元縮小が、各それぞれの試験試料および各それぞれの参照試料について、前記対応する発現プロファイルを二次元表示に埋め込むことを含む、請求項２６～４１のいずれか一項に記載の方法。
試験試料のバッチ内の各それぞれの試験試料について、前記対応する発現プロファイルが、標的化または全トランスクリプトームＲＮＡ配列決定によって前記それぞれの試料から得られた配列リードから決定される、請求項２６～４２のいずれか一項に記載の方法。
標的化パネルＲＮＡ配列決定が、複数のプローブを使用し、
前記複数のプローブにおける各プローブが、参照トランスクリプトームのそれぞれの部分を一意的に標的化し、
前記対応する複数の配列リードにおける各配列リードが、前記複数のプローブにおける少なくとも１つのプローブに対応する、請求項４３に記載の方法。
前記全トランスクリプトーム配列決定が、次世代配列決定を含む、請求項４３に記載の方法。
試料の前記バッチ内の各それぞれの試料について、前記それぞれの試料に対して１つ以上の単一試料品質管理試験を実施することと、
前記１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格となる試料の前記バッチからそれぞれの試料を除去するか、または前記１つ以上の単一試料品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てることと、をさらに含む、請求項２６～４５のいずれか一項に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、
ｉ）試料の前記バッチ内のそれぞれの試料について、前記複数の配列リードにおけるそれぞれの数の重複していないマッピングされた配列リードを決定することであって、各重複していないマッピングされた配列リードが、参照ゲノムの対応する部分にマッピングする、決定することと、
ｉｉ）前記それぞれの数の重複していないマッピングされた配列リードを、予想された数の重複していないマッピングされた配列リードと比較することであって、前記それぞれの数の重複していないマッピングされた配列リードが、所定の数の重複していないマッピングされたリードを下回る場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、比較することと、を含む、請求項４６に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、試料の前記バッチ内のそれぞれの試料について、適切に対合した配列リードのそれぞれのパーセンテージを決定することであって、適切に対合した配列リードの前記パーセンテージが、所定の対合したリード閾値を下回る場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、決定することを含む、請求項４６または４７に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、試料の前記バッチ内のそれぞれの試料について、前記対応する複数の配列リードのそれぞれのＧＣ含量を決定することであって、前記それぞれのＧＣ含量が、所定のＧＣ含量閾値の範囲外である場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、決定することを含む、請求項４６～４８のいずれか一項に記載の方法。
前記１つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験が、試料の前記バッチ内のそれぞれの試料について、それぞれの数の発現遺伝子を決定することであって、前記対応する発現リードスコアが、所定の数の発現リードを下回る場合、前記それぞれの試料が、前記それぞれの単一試料品質管理試験に不合格となる、決定することを含む、請求項４６～４９のいずれか一項に記載の方法。
前記方法が、試料の前記バッチ内の各試料について、それぞれの試料レポートを提供することであって、各それぞれの試料レポートが、発現コールのセット、１つ以上の一致した療法、または１つ以上の一致した臨床試験のうちの少なくとも１つを含む、提供することをさらに含む、請求項２６～５０のいずれか一項に記載の方法。
前記方法が、クラウドサーバを備えるコンピュータシステムで実施される、請求項２６～５１のいずれか一項に記載の方法。
品質管理を実施するための少なくとも１つのプログラムを格納する非一時的なコンピュータ可読記憶媒体であって、前記少なくとも１つのプログラムが、コンピュータによって実行されるように構成され、前記少なくとも１つのプログラムが、
ａ）試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームＲＮＡ配列決定によって前記それぞれの試料から得られた対応する複数の配列リードと、前記それぞれの試料についての対応するメタデータと、を含む、バッチデータセットを電子形式で取得することと、
ｂ）前記バッチデータセットについて、コホート一致参照バッチを決定することであって、前記コホート一致参照バッチが、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、または配列決定された日付について均衡が取れている、決定することと、
ｃ）少なくとも前記コホート一致参照バッチを使用して前記バッチデータセットに対して１つ以上のグローバルバッチ品質管理試験を実施することと、
ｄ）前記１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となる前記バッチデータセットからそれぞれの試料を除去するか、または前記１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てることと、についての命令を含む、非一時的なコンピュータ可読記憶媒体。
コンピュータシステムであって、
少なくとも１つのプロセッサ、
前記少なくとも１つのプロセッサによって実行される少なくとも１つのプログラムを格納するメモリ、を備え、
前記少なくとも１つのプログラムが、
ａ）試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームＲＮＡ配列決定によって前記それぞれの試料から得られた対応する複数の配列リードと、前記それぞれの試料についての対応するメタデータと、を含む、バッチデータセットを電子形式で取得することと、
ｂ）前記バッチデータセットについて、コホート一致参照バッチを決定することであって、前記コホート一致参照バッチが、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、または配列決定された日付について均衡が取れている、決定することと、
ｃ）少なくとも前記コホート一致参照バッチを使用して前記バッチデータセットに対して１つ以上のグローバルバッチ品質管理試験を実施することと、
ｄ）前記１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となる前記バッチデータセットからそれぞれの試料を除去するか、または前記１つ以上のグローバルバッチ品質管理試験のうちのいずれか１つに不合格となるそれぞれの試料に、手動検査のためのフラグを立てることと、を含む、方法によって品質管理スコアを実施するための命令を含む、コンピュータシステム。
コンピュータによる実行のために構成された少なくとも１つのプログラムを格納する非一時的なコンピュータ可読記憶媒体であって、前記少なくとも１つのプログラムが、請求項１～５２のいずれか一項に記載の方法を実施するための命令を含む、非一時的なコンピュータ可読記憶媒体。
コンピュータシステムであって、
少なくとも１つのプロセッサ、
前記少なくとも１つのプロセッサによって実行される少なくとも１つのプログラムを格納するメモリ、を備え、
前記少なくとも１つのプログラムが、請求項１～５２のいずれか一項に記載の方法を実施するための命令を含む、コンピュータシステム。