JP2023522940A

JP2023522940A - 性能測定基準に従ったがん検出パネルの生成

Info

Publication number: JP2023522940A
Application number: JP2022564030A
Authority: JP
Inventors: シャンジン; ヴァローエフアントン
Original assignee: グレイルエルエルシー
Priority date: 2020-04-21
Filing date: 2021-04-20
Publication date: 2023-06-01
Also published as: US20210324477A1; CA3174294A1; EP4128269A1; CN115699205A; WO2021216477A1; AU2021259295A1

Abstract

システムは、がん検出パネルを生成する。システムは、特定の性能閾値以上でがんの存在を検出する一方、最小化サイズおよび数のゲノム領域を有するアッセイを生成するように構成される。パネルに対するゲノム領域を選択するため、システムは、分類モデルを採用する。分類モデルは、疾病の存在と関連しうるゲノム領域のセットを受信する。モデルは、続いて、各ゲノム領域に対する感度スコアを判定し、それらのスコアに従って領域をランク付けする。感度スコアは、ゲノム領域の変動ががんを示す尤度に基づいている。モデルは、続いて、それらのランクに基づいてパネルに対するゲノム領域を選択する。モデルは、所望の検出性能に対して必要な数のゲノム指標のみを選択する。ゲノム領域は、固形がんまたは液状がん、ウイルス領域、またはがんホットスポットと関連しうる。

Description

関連出願の相互参照

本出願は、２０２０年４月２１日に出願された仮特許出願第６３／０１３，５１２号および２０２１年４月１９日に出願された米国特許出願第１７／２３３，５４８号の優先権を主張するものであり、その内容は、参照により本明細書に援用する。

本開示は、疾患検出パネルの生成、より具体的には、検出能力モデルを使用したがん検出パネルの生成に関する。

ＤＮＡシークエンシングデータに対して計算技術を使用することにより、様々な種類のがんまたは他の疾病に対応しうるＤＮＡの変異またはバリアントを同定することができる。しかしながら、バリアントおよび変異の同定のためにシークエンシングデータを効率的にプルダウンする疾患検出パネルを設計することは、難易度の高いプロセスである。典型的に、疾患検出パネルは、パネルに対して選択された多数のゲノム領域を含む。それらの含まれる領域が選択されるのは、それらの領域の変動が、疾病の存在および／または疾病の種類を示すことが前もって示されているためである。しかしながら、含まれる領域は、いかなる方法によってもキュレートされていないことが多く、結果として得られるパネルは、大きく、高価である。

本明細書においては、疾病分類のための縮小遺伝子パネルを生成する方法が開示される。本方法は、コンピューターシステムにより実施されてよい。始めに、システムは、ゲノム領域の第１セットに対するシークエンシングデータを取得する。例えば、５０のゲノム領域のセットである。システムは、ゲノム領域の第１セットに対するシークエンシングデータから複数の特徴量を導出する。

システムは、続いて、分類モデルを特徴量に適用する。分類モデルは、特徴量を使用して疾病分類を予測する。そうするために、分類モデルは、ゲノム領域の第１セットに対応するモデル係数のセットを生成する。システムは、続いて、ゲノム領域をそれらのモデル係数に従ってランク付けする。例えば、最も高いモデル係数を持つゲノム領域が、１番にランク付けされる。

システムは、ランク付けに基づいて疾病分類を最適化する、ゲノム領域の第１サブセットを同定する。例えば、最も高いモデル係数を有するゲノム指標の第１セットから４１のゲノム指標を選択することによる。次に、システムは、ゲノム領域の第１サブセットを含む縮小遺伝子パネル、例えば、サブセットに４１のゲノム指標を含む遺伝子パネルを生成する。

実施形態によっては、シークエンシングデータは、複数の患者から取得された生体試料に存在するシークエンシングセルフリー核酸分子から取得される。このようにして、ゲノム領域の第１セットは、がん関連遺伝子、変異ホットスポット、および／またはウイルス領域の少なくとも１つを含むことができる。いくつかの例においては、ゲノム領域の第１セットは、高シグナルのがんまたは液状がんと関連しているゲノム領域を含む。

実施形態によっては、特徴量は、ゲノム領域の第１セットの各ゲノム領域において、バリアントの最大アレル頻度を含む。様々な例において、特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、および真のバリアントのアレル頻度の少なくとも１つに対応する特徴を表すことができる。バリアントは、一塩基バリアント、挿入、および／または欠失でありうる。

実施形態によっては、分類モデルは、ロジスティック回帰モデルを含む。よって、モデル係数のセットは、導出された特徴量によりロジスティック回帰モデルを訓練することにより取得された回帰係数を含む。

上述したように、システムは、疾病分類を最適化する、ゲノム領域の第１サブセットを同定する。実施形態によっては、第１サブセットを同定するため、システムは、最初の反復において、分類モデルを訓練し、第１ゲノム領域に対応する特徴量に基づいて疾病分類を予測する。すなわち、第１ゲノム領域は、最も高くランク付けされたゲノム領域に対応する。システムは、続いて、第１ゲノム領域に対して訓練された分類モデルの性能測定基準を判定する。

続いて、後続の反復において、システムは、残りのランク付けされたゲノム領域を取り込み、各追加的なゲノム領域が取り込まれた後に性能測定基準を評価することにより、分類モデルを再訓練する。システム、各後続の反復により、欲張りアルゴリズムを適用し、残りのランク付けされたゲノム領域の内、次に高くランク付けされたゲノム領域を分類モデルに追加する。よって、システムは、追加された次に高くランク付けされたゲノム領域および先の反復で前もって追加されたゲノム領域と関連している特徴量を使用して分類モデルを再訓練する。従って、システムは、続いて、再訓練された分類モデルに対する性能測定基準を判定し、各反復に対して取得された性能測定基準を評価する。評価された性能測定基準に基づいて、システムは、最適化された性能測定基準をもたらす、ゲノム領域の第１サブセットを同定することを確認する。

実施形態によっては、最適化された性能測定基準は、分類モデルにより得られた最大性能測定基準である。例えば、最適化された性能測定基準は、ゲノム指標のセットに対する所定の特異度レベルにおける最適化された感度レベルでありうる。縮小遺伝子パネルにより取得された性能測定基準は、完全なゲノム領域の第１セットを含む完全な遺伝子パネルにより取得された性能測定基準と実質的に同様である。

実施形態によっては、ゲノム領域の第１セットは、高シグナルのがんと関連しているゲノム領域を含み、約２Ｍｂのセットサイズを有する。よって、ゲノム領域の第１サブセットは、３００ｋｂ未満のサブセットサイズを有することができるが、他のサイズでもよい。従って、縮小遺伝子パネルは、３００ｋｂを超えない総パネルサイズを有する。

場合によっては、システムは、ゲノム領域の第２セットを使用してゲノム領域の第２サブセットを判定してよい。この場合、システムは、ゲノム領域の第１サブセットにより得られた疾病分類を更に改善する、ゲノム領域の第２サブセットを同定する。一旦同定すると、システムは、ゲノム領域の第１サブセットおよびゲノム領域の第２サブセットを含む縮小遺伝子パネルを生成する。

これを成し遂げるため、システムは、ゲノム領域の第２セットに対するシークエンシングデータの第２セットを取得する。システムは、続いて、ゲノム領域の第２セットをランク付けし、ランク付けされたゲノム領域の第２セットに基づいてゲノム領域の第２サブセットを同定する。一例において、ゲノム領域の第２セットは、患者ごとの体細胞変異の頻度、および／またはコード領域の長さにより正規化された頻度に従ってランク付けされてよい。

実施形態によっては、ゲノム領域の追加的なセットを使用した、ゲノム領域の他の追加的なサブセットもある。例えば、システムは、縮小遺伝子パネルにより得られた疾病分類を更に改善する、ゲノム領域の第３サブセットを同定する。システムは、続いて、縮小遺伝子パネルにゲノム領域の第３サブセットを含む。ゲノム領域の第３サブセットは、縮小パネルの疾病の種類の予測精度を最適化できる。さらに、ゲノム領域の第３セットは、がん特異的遺伝子およびホットスポットでありうる。

含まれうるいくつかの追加的なゲノム領域は、一塩基バリアント、挿入、または欠失に対応するホットスポット領域を含む。別のゲノム領域は、ウイルス関連がんに対応するウイルス標的領域を含むことができる。これらの場合、分類モデルは、縮小パネルに含むべきゲノム領域の数を任意に選択してよい。

実施形態によっては、疾病分類は、がんまたは非がんを予測するための二項分類を含んでよい。分類は、更に／または、がんの種類を予測するための多クラス分類も含んでよい。

実施形態によっては、システムは、１つまたは複数のプログラムを保管する非一時的コンピュータ可読媒体において実施されてよい。プログラムは、プロセッサを含む電子デバイスにより実行されたときにデバイスに先行する請求項の方法のいずれかを実行させる指示を含むことができる。

実施形態によっては、電子デバイスは、１つまたは複数のプロセッサと、メモリと、１つまたは複数のプログラムとを含んでよい。１つまたは複数のプログラムは、メモリに保管され、デバイスの１つまたは複数のプロセッサにより実行されるように構成されうる。１つまたは複数のプログラムは、先行する請求項の方法のいずれかを実行するための指示を含む。

上述したように、システムは、疾患検出（例えば、がん）アッセイパネルを生成できる。パネルを生成するため、システムは、（ｉ）高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第１セット、（ｉｉ）がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第２セット、および（ｉｉｉ）一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第３セット、および（ｉｖ）ウイルス標的と関連しているゲノム領域の第４セットのいずれかからゲノム領域を選択できる。システムは、続いて、複数のプローブセットを含むがんアッセイパネルを生成する。複数のプローブセットの各プローブセットは、ゲノム領域の第１、第２、第３、および第４セットにおけるゲノム領域の少なくとも１つを標的とするための一対のプローブを含むことができる。

ゲノム領域の第１、第２、第３、および／または第４セットからゲノム領域を選択する際、システムは、分類モデルを適用し、がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定してよい。

実施形態によっては、ゲノム領域の第１セットは、本明細書の表１に開示された１つまたは複数のゲノム領域を含み、ゲノム領域の第３セットは、本明細書の表３、表４、表５、および／または表６に開示された１つまたは複数のゲノム領域を含む。実施形態によっては、システムは、パネルの検出感度を改善するゲノム領域の第５セットを選択し、ゲノム領域の第５セットは、本明細書の表２に開示された１つまたは複数のゲノム領域を含む。

実施形態によっては、ゲノム領域の第２セットは、ＣＡＳＰ８、ＩＤＨ１、ＴＥＲＴ１、およびＥＧＦＲの１つまたは複数を含む。実施形態によっては、ゲノム領域の第４セットは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶにおける１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む。

システムは、本明細書に示されたゲノム領域を使用してパネルを生成してよい。パネルは、病状が進むリスクを算定する、病状を検出する、および／または病状を診断する方法において採用されてよい。方法は、遺伝子のセットの少なくとも１つの遺伝子における体細胞変異を含んでよい。遺伝子は、セルフリー核酸試料から取得されてよい。方法は、続いて、検出された体細胞変異に基づいて病状を判定する。様々な実施形態において、体細胞変異を検出することは、ＳＮＶ、挿入、および／または欠失を検出することを含むことができる。一実施形態において、方法は、遺伝子および遺伝子において検出された体細胞変異に従って、治療、予後、または診断を進めることを含んでもよい。

一実施形態において、遺伝子のセットは、遺伝子の第１群から選択された３つ、５つ、または１０以上の遺伝子を含んでよい。遺伝子の第１群は、ＫＲＡＳ、ＴＰ５３、ＥＲＢＢ２、ＥＰＨＢ１、ＮＲＡＳ、ＡＣＶＲ１Ｂ、ＴＰ６３、ＫＥＡＰ１、ＣＤＫ１２、ＫＭＴ２Ｄ、ＤＩＣＥＲ１、ＴＥＴ２、ＬＡＴＳ２、ＥＴＶ５、ＧＲＩＮ２Ａ、ＥＰＨＡ７、ＡＳＸＬ２、ＲＥＴ、ＣＨＤ２、ＲＢ１、ＣＤＨ１、ＰＤＧＦＲＡ、ＢＲＣＡ２、ＴＦＲＣ、ＡＬＫ、ＫＤＭ５Ａ、ＳＭＡＤ４、ＡＴＲ、ＮＯＴＣＨ１、ＮＲＧ１、ＣＴＮＮＢ１、ＫＭＴ２Ｃ、ＳＮＣＡＩＰ、ＭＴＯＲ、ＰＩＫ３ＣＡ、ＳＦ３Ｂ１、ＮＢＮ、ＬＲＰ１Ｂ、ＴＮＦＲＳＦ１４、ＡＲＩＤ１Ａ、ＩＮＰＰ４Ａ、ＥＴＳ１、ＫＡＴ６Ａ、ＦＢＸＷ７、ＭＧＡ、ＭＹＤ８８、ＣＢＬ、ＢＲＡＦ、ＣＲＥＢＢＰ、およびＡＰＣを含むことができる。

一実施形態において、遺伝子のセットは、ＫＲＡＳ、ＴＰ５３、ＥＲＢＢ２、ＥＰＨＢ１、ＮＲＡＳ、ＡＣＶＲ１Ｂ、ＴＰ６３、およびＫＥＡＰ１を含むことができる。遺伝子のセットは、ＣＤＫ１２、ＫＭＴ２Ｄ、ＤＩＣＥＲ１、ＴＥＴ２、ＬＡＴ５２、ＥＴＶ５、ＧＲＩＮ２Ａ、ＥＰＨＡ７、ＡＳＸＬ２、およびＲＥＴから選択された１つまたは複数の遺伝子を更に含んでよい。遺伝子のセットは、ＴＰ５３、ＮＲＡＳ、ＫＭＴ２Ｄ、ＴＥＴ２、ＫＭＴ２Ｃ、ＳＦ３Ｂ１、およびＬＲＰ１Ｂから選択された１つまたは複数の遺伝子を更に含んでよい。遺伝子のセットは、ＭＹＤ８８、ＣＢＬ、ＢＲＡＦ、ＣＲＥＢＢＰ、およびＡＰＣから選択された１つまたは複数の遺伝子を更に含んでよい。

一実施形態において、遺伝子のセットは、遺伝子の第２群から１つまたは複数の遺伝子を更に含む。遺伝子の第２群は、ＳＮＶおよびインデルに対するホットスポットと関連している。遺伝子の第２群は、ＡＫＴ１、ＥＲＢＢ３、ＩＤＨ１、ＰＴＥＮ、ＡＲＡＦ、ＥＺＨ２、ＩＤＨ２、ＰＴＰＲＤ、ＣＤ７９Ａ、ＦＧＦＲ３、ＭＡＰ３Ｋ１、ＲＨＯＡ、ＣＤＫＮ２Ａ、ＧＡＴＡ３、ＭＡＰＫ１、ＲＮＦ４３、ＤＮＭＴ３Ａ、ＧＮＡＳ、ＭＳＨ２、ＳＰＴＡ１、ＥＰ３００、ＨＲＡＳ、ＰＲＥＸ２、およびＴＥＲＴのいずれかを含むことができる。

一実施形態において、遺伝子のセットは、遺伝子の第３群から１つまたは複数の遺伝子を更に含む。遺伝子の第３群は、ウイルスホットスポットと関連している。遺伝子の第３群は、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶのいずれかを含むことができる。

一実施形態において、方法は、非一時的コンピュータ可読媒体により実施されてよい。媒体は、プロセッサを含む電子デバイスにより実行されたときにデバイスに方法のいずれかを実行させる指示を含む１つまたは複数のプログラムを保管できる。

一実施形態において、電子デバイスは、方法を実行するための、１つまたは複数のプロセッサと、メモリと、１つまたは複数のプログラムとを含むことができる。すなわち、電子デバイスは、メモリに保管され、１つまたは複数のプロセッサにより実行されるように構成された１つまたは複数のプログラムを含む。プログラムは、方法を実行するための指示を含む。

一実施形態において、本明細書に記載のシステムのいずれかは、方法を用いて生成されるがんアッセイパネルを生成してよい。例えば、がんアッセイパネルは、高シグナルのがんまたは液状がんと関連している遺伝子の第１群から選択された１つまたは複数の遺伝子と、一塩基バリアント（ＳＮＶ）またはインデルに対するホットスポットと関連している遺伝子の第２群から選択された１つまたは複数の遺伝子と、ウイルスホットスポットと関連している遺伝子の第３群から選択された１つまたは複数の遺伝子とを含むことができる。

一実施形態において、遺伝子の第１群は、ＫＲＡＳ、ＴＰ５３、ＥＲＢＢ２、ＥＰＨＢ１、ＮＲＡＳ、ＡＣＶＲ１Ｂ、ＴＰ６３、ＫＥＡＰ１、ＣＤＫ１２、ＫＭＴ２Ｄ、ＤＩＣＥＲ１、ＴＥＴ２、ＬＡＴＳ２、ＥＴＶ５、ＧＲＩＮ２Ａ、ＥＰＨＡ７、ＡＳＸＬ２、ＲＥＴ、ＣＨＤ２、ＲＢ１、ＣＤＨ１、ＰＤＧＦＲＡ、ＢＲＣＡ２、ＴＦＲＣ、ＡＬＫ、ＫＤＭ５Ａ、ＳＭＡＤ４、ＡＴＲ、ＮＯＴＣＨ１、ＮＲＧ１、ＣＴＮＮＢ１、ＫＭＴ２Ｃ、ＳＮＣＡＩＰ、ＭＴＯＲ、ＰＩＫ３ＣＡ、ＳＦ３Ｂ１、ＮＢＮ、ＬＲＰ１Ｂ、ＴＮＦＲＳＦ１４、ＡＲＩＤ１Ａ、ＩＮＰＰ４Ａ、ＥＴＳ１、ＫＡＴ６Ａ、ＦＢＸＷ７、ＭＧＡ、ＭＹＤ８８、ＣＢＬ、ＢＲＡＦ、ＣＲＥＢＢＰ、およびＡＰＣから成る。

一実施形態において、遺伝子の第２群は、ＳＮＶに対するホットスポットと関連している遺伝子のセットを含む。遺伝子のセットは、ＡＫＴ１、ＣＤＫＮ２Ａ、ＤＮＭＴ３Ａ、ＥＰ３００、ＥＲＢＢ３、ＦＧＦＲ３、ＧＮＡＳ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＭＡＰ３Ｋ１、ＭＡＰＫ１、ＰＲＥＸ２、ＰＴＥＮ、ＰＴＰＲＤ、ＲＨＯＡ、ＳＰＴＡ１、ＴＥＲＴ、およびＥＺＨ２から成る。一実施形態において、遺伝子の第２群は、インデルと関連している遺伝子のセットを含む。遺伝子のセットは、ＡＲＡＦ、ＣＤ７９Ａ、ＧＡＴＡ３、ＭＳＨ２、ＰＴＥＮ、およびＲＮＦ４３から成る。一実施形態において、遺伝子の第３群は、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶから成る。

一実施形態において、本明細書に記載のシステム、デバイス、またはメモリのいずれかは、患者のがんの有無を判定するための最小化されたがん検出パネルを生成する方法を実施してよい。例えば、方法は、パネルを生成するためのワークフローを表すことができる。

まず、システムは、検出パネルを生成するリクエストであって、検出パネルに対する総キロベースサイズを含むリクエストを受信する。システムは、続いて、複数のゲノム領域を受信し、各ゲノム領域は、ゲノム領域の特徴の変動ががんを示す尤度と関連している。ゲノム領域の各々は、キロベースサイズを有する。

システムは、複数のゲノム領域に分類子モデルを適用し、検出パネルを生成する。システムは、分類子モデルを採用し、ゲノム領域の１つ１つに対する感度スコアを判定する。感度スコアは、検出パネルの検出感度への寄与を定量化する。検出感度は、がん検出パネルに含まれるゲノム領域のセットにおける特徴の変動ががんを示す尤度を定量化する。一実施形態において、がんを示す特徴の変動は、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度である。

次に、システムは、分類子モデルを採用し、複数のゲノム領域をそれらの感度スコアに従ってランク付けする。続いて、モデルは、それらのランクに基づいて、ゲノム領域の１つまたは複数を、検出パネルに対するゲノム領域のセットとして選択する。検出パネルにおけるゲノム領域のセットに対するキロベースサイズの合計は、総キロベースサイズ未満である。一実施形態において、判定されたゲノム領域のセットは、リクエストを送信したクライアントデバイスに送られてよい。ゲノム領域のセットを使用して、患者におけるがんの存在を判定するために採用されるパネルを生成することができる。

一実施形態において、ゲノム領域の１つまたは複数は、がんと関連しているウイルスを示す。ウイルスは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶのいずれかでありうる。一実施形態において、ゲノム領域の１つまたは複数は、固形がんと関連している。固形がんと関連しているゲノム領域は、本明細書の表１および表２に開示されたものの１つでありうる。一実施形態において、ゲノム領域の１つまたは複数は、液状がんと関連している。液状がんと関連しているゲノム領域は、本明細書の表１および表２に開示されたものの１つでありうる。一実施形態において、ゲノム領域の１つまたは複数は、がんホットスポットを示す。がんホットスポットと関連しているゲノム領域は、本明細書の表３、表４、または表５に開示されたものの１つでありうる。一実施形態において、ゲノム領域の１つまたは複数は、特定の種類のがんと関連している。

ゲノム領域のセットは閾値未満のキロベースサイズ未満であるため、一実施形態において、検出パネルは、６５、５５、または４５未満のゲノム領域を含む。同様に、総キロベースサイズは、３９０，０００、３３０，０００、２７０，０００、２１０，０００、１５０，０００、またはそれより少ないキロベースのいずれかでありうる。

一実施形態において、リクエストは、検出パネルを設計して検出するがんの種類を含む。この場合、感度スコアは、がんの種類に対する検出パネルの検出感度への寄与を定量化する。さらに、指標をランク付けすることは、検出パネルを設計して検出するがんの種類に基づいてゲノム領域をランク付けすることを更に含む。

一実施形態において、本明細書に記載のパネルの１つまたは複数は、高品質の検出アッセイを促進するように設計されたプローブのセットを含む。例えば、がんアッセイパネルは、少なくともプローブ数のプローブ対を含むことができる。プローブ数の対の各対は、重複配列により互いに重複するように構成された２つのプローブを含む。

重複配列は、重複数の核酸塩基を含む。重複配列は、パネルに対して選択されたゲノム指標からのものであってよい。重複配列内で、重複数の核酸塩基は、１つまたは複数のゲノム領域に対応するライブラリー分子をハイブリッド形成する。ゲノム領域の各々は、例えば、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有する。ゲノム領域に対するバリアントアレル頻度の少なくともいくつかは、がん試料において生じる。他の体細胞多様性およびそれらの多様性の定量化も考えられる。

一実施形態において、がん試料は、特定の原発組織（「ｔｉｓｓｕｅｏｆｏｒｉｇｉｎ（ＴＯＯ）」）のがんを有する被験者からのものである。特定のＴＯＯのがんは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎尿路上皮がん、尿路上皮以外の腎がん、前立腺がん、肛門直腸がん、大腸がん、肝胆道がん、膵がん、上部消化管扁平上皮がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺腺がん、小細胞肺がん、腺がんまたは小細胞肺がん以外の肺がん、神経内分泌がん、肺神経内分泌腫瘍および他の高悪性度神経内分泌腫瘍、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、および白血病でありうる。

一実施形態において、プローブの各々は、７０～１４０のヌクレオチドを含む。他の数のヌクレオチドも考えられる。一実施形態において、プローブ数のプローブ対は、１０００、１５００、２０００、２５００、または３０００のプローブ対である。一実施形態において、重複配列における重複数の核酸塩基は、２０、３０、４０、５０、６０、７０、または８０の核酸塩基である。

一実施形態において、がんアッセイパネルは、本明細書に開示されたような分類子モデルにより選択された、少なくとも２９００のプローブを含む。分類子モデルは、少なくとも２９００のプローブを、その２９００のプローブの各々に対する検出感度を定量化する感度スコアに基づいて選択する。少なくとも２９００のプローブは、標的キロベースサイズ未満の総キロベースサイズを有する。この場合、分類子モデルは、標的キロベースサイズ未満のまま、最も高い感度スコアを有する２９００のプローブを選択する。

一実施形態において、ゲノム領域の１つまたは複数は、本明細書に開示された表１、表２、表３、表４、または表５におけるものである。一実施形態において、ゲノム領域の１つまたは複数は、ウイルス領域と関連しており、ウイルス領域は、がんと関連しているウイルス配列を示す。

一実施形態に係る、シークエンシングに対する核酸試料を調製する方法のフローチャートである。一実施形態に係る、配列リードを処理するための処理システムのブロック図である。一実施形態に係る、パネルを生成するためのパネルジェネレータのブロック図である。一実施形態に係る、配列リードのバリアントを判定する方法のフローチャートである。一実施形態に係る、疾患検出パネルを生成するためのワークフローのフローチャートである。本明細書に記載の方法で同定または選択されないゲノム領域の大規模なセット（約２Ｍｂ）を含むパネルに基づいた３つの分類子の性能を示す受診者動作特性曲線プロットである。図６Ａは、実施形態に係る、訓練データに適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットである。図６Ｂは、一実施形態に係る、図６ＡのＲＯＣプロットに対するＲＯＣ結果プロットである。図６Ｃは、一実施形態に係る、実データに適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットである。図６Ｄは、一実施形態に係る、図６ＣのＲＯＣプロットに対するＲＯＣ結果プロットである。図７Ａは、一実施形態に係る、訓練試料に適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットである。図７Ｂは、一実施形態に係る、図７ＡのＲＯＣプロットに対するＲＯＣ結果プロットである。図７Ｃは、一実施形態に係る、テスト試料に適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットである。図７Ｄは、一実施形態に係る、図７ＣのＲＯＣプロットのＲＯＣ結果プロットである。図８Ａは、一実施形態に係る、固形がんに対する係数プロットである。図８Ｂは、一実施形態に係る、固形がんに対するがん頻度プロットである。図８Ｃは、一実施形態に係る、固形がんに対する非がん頻度プロットである。図９Ａは、一実施形態に係る、液状がんに対する係数プロットである。図９Ｂは、一実施形態に係る、液状がんに対するがん頻度プロットである。図９Ｃは、一実施形態に係る、液状がんに対する非がん頻度プロットである。一実施形態に係る、固形がんおよび液状がんに対する係数プロットである。図１１Ａは、一実施形態に係る、固形がんに対する検出寄与プロットである。図１１Ｂは、一実施形態に係る、液状がんに対する検出寄与プロットである。一実施形態に係る、固形がんに対するサイズ寄与プロットである。一実施形態に係る、カバレッジプロットである。一実施形態に係る、カバレッジサイズプロットである。一実施形態に係る、種類分類プロットである。一実施形態に係る、パネルに対する精度寄与プロットである。一実施形態に係る、がんの存在を判定するためのパネルを生成するための例示のワークフローである。図１７Ａは、一実施形態に係る、訓練データのセットに対する集団プロットである。図１７Ｂは、例示の一実施形態に係る、感度プロットである。図１８Ａは、一実施形態に係る、テストデータのセットに対する集団プロットである。図１８Ｂは、例示の一実施形態に係る、感度プロットである。一実施形態に係る、閾値パネルサイズ未満のパネルを生成するための例示のワークフローである。図２０Ａは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するＳＮＶカウントプロットである。図２０Ｂは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するＳＮＶカウントプロットである。図２０Ｃは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんの種類に対するＳＮＶカウントプロットである。図２０Ｄは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するＳＮＶカウントプロットである。図２０Ｅは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するＳＮＶ差プロットである。図２０Ｆは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するＳＮＶ差プロットである。図２１Ａは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するインデルカウントプロットである。図２１Ｂは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するインデルカウントプロットである。図２１Ｃは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんの種類に対するインデルカウントプロットである。図２１Ｄは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するインデルカウントプロットである。図２１Ｅは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するインデル差プロットである。図２１Ｆは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するインデル差プロットである。

Ｉ．定義
「個人」という用語は、１人の人間を指す。「健常人」という用語は、がんまたは疾病を有していないと推定される個人を指す。「被験者」という用語は、がんまたは疾病を有する、または有する可能性があると知られる個人を指す。

「配列リード」という用語は、個人から取得された試料から読み取られた核酸塩基配列を指す。配列リードは、当技術分野で周知の様々な方法によって取得されうる。

「リードセグメント」または「リード」という用語は、個人から取得された配列リードを含む任意の核酸塩基配列および／または個人から取得された試料から読み取られた最初の配列から導出された核酸塩基配列を指す。例えば、リードセグメントは、アラインされた配列リード、折りたたまれた配列リード、またはスティッチングされたリードを指すことができる。さらに、リードセグメントは、一塩基バリアントなど、個々の核酸塩基の塩基（ｎｕｃｌｅｏｂａｓｅｂａｓｅ）を指すことができる。

「一塩基バリアント」または「ＳＮＶ」という用語は、核酸塩基配列、例えば、個人から読み取られた配列、のある位置（例えば、部位）における、１つの核酸塩基の異なる核酸塩基への置換を指す。第１核酸塩基Ｘから第２核酸塩基Ｙへの置換は、「Ｘ＞Ｙ」と記すことができる。例えば、シトシンからチミンのＳＮＶは、「Ｃ＞Ｔ」と記すことができる。

「インデル」という用語は、配列リードに長さおよび位置（アンカー位置とも呼ばれうる）を有する１つまたは複数の塩基対の任意の挿入または欠失を指す。挿入は正の長さに対応するのに対し、欠失は負の長さに対応する。

「変異」という用語は、１つまたは複数のＳＮＶまたはインデルを指す。

「真陽性」という用語は、実際の生態、例えば、個人における潜在的ながん、疾病、または生殖細胞系列変異の存在を示す変異を指す。真陽性は、健常人に自然に起こる変異（例えば、反復変異）または核酸試料のアッセイ準備中のプロセス誤差などの他のアーチファクト源によっては生じない。

「偽陽性」という用語は、真陽性であると誤って判定された変異を指す。通常、偽陽性は、大きな平均ノイズ率またはノイズ率の大きな不確実性と関連している配列リードを処理する際に生じる可能性が高い。

「セルフリー核酸」、「セルフリーＤＮＡ」、または「ｃｆＤＮＡ」という用語は、個人の体内（例えば、血流）を循環し、１つまたは複数の正常細胞に、および／または１つまたは複数のがん細胞に由来する核酸フラグメントを指す。ｃｆＤＮＡは、血液試料から取得されうる。

「循環腫瘍ＤＮＡ」または「ｃｔＤＮＡ」という用語は、瀕死細胞のアポトーシスまたはネクローシスなどの生物学的過程の結果として個人の血流に放出されうる、または生存腫瘍細胞により能動的に放出されうる、腫瘍細胞または他の種類のがん細胞に由来する核酸フラグメントを指す。場合によっては、ｃｔＤＮＡは、ｃｆＤＮＡ内で見つかるＤＮＡである。

「ゲノム核酸」、「ゲノムＤＮＡ」、または「ｇＤＮＡ」という用語は、１つまたは複数の正常細胞に由来する染色体ＤＮＡを含む核酸を指す。場合によっては、白血球は、正常細胞であると考えられる。

「白血球ＤＮＡ」、または「ｗｂｃＤＮＡ」という用語は、白血球に由来する染色体ＤＮＡを含む核酸を指す。通常、ｗｂｃＤＮＡは、ｇＤＮＡであり、健常なＤＮＡであると考えられる。

「組織核酸」、「がん組織ＤＮＡ」、または「ｔＤＮＡ」という用語は、がん組織または腫瘍から取得される腫瘍細胞または他の種類のがん細胞の染色体ＤＮＡを含む核酸を指す。場合によっては、ｔＤＮＡは、腫瘍の生検から取得される。

「代替アレル」または「ＡＬＴ」という用語は、例えば、既知の遺伝子に対応する、参照アレルと比較して、１つまたは複数の変異を有するアレルを指す。

「シークエンシング深さ」または「深さ」という用語は、個人から取得された試料のリードセグメントの総数を指す。

「代替深さ」または「ＡＤ」という用語は、例えば、ＡＬＴの変異を含む、ＡＬＴを支持する試料の多数のリードセグメントを指す。

「代替頻度」または「ＡＦ」という用語は、所与のＡＬＴの頻度を指す。ＡＦは、所与のＡＬＴについて、試料の対応するＡＤをその試料の深さで割ることにより特定されうる。

ＩＩ．例示のアッセイプロトコル
図１は、一実施形態に係る、シークエンシングに対する核酸試料を調製する方法のフローチャートである。ワークフロー１００は、限定されないが、以下のステップを含む。例えば、ワークフロー１００の任意のステップは、当業者に既知の品質管理または他のラボアッセイ手順のための定量化サブステップを含むことができる。

ステップ１１０において、核酸試料（ＤＮＡまたはＲＮＡ）は、被験者から抽出される。本開示において、ＤＮＡおよびＲＮＡは、別段の指示がない限り交換可能に使用されうる。すなわち、バリアントコーリングおよび品質管理において誤差原因情報を使用するための以下の実施形態は、核酸配列のＤＮＡおよびＲＮＡの両方のタイプに適用できる。しかしながら、本明細書に記載の例は、明確さおよび説明のため、ＤＮＡに焦点を合わせうる。試料は、全ゲノムを含む、ヒトゲノムの任意のサブセットでありうる。試料は、がんを有する、またはがんを有する疑いがあると知られる被験者から抽出されうる。試料は、血液、血漿、血清、尿、糞便、唾液、他の種類の体液、またはその任意の組み合わせを含むことができる。場合によっては、試料は、組織または組織から抽出された体液を含みうる。実施形態によっては、血液試料を取り出す方法（例えば、シリンジまたはフィンガープリック）は、手術を必要としうる、組織生検を取得するための手順より、低侵襲的でありうる。抽出された試料は、ｃｆＤＮＡおよび／またはｃｔＤＮＡを含みうる。健常人の場合、人体は、ｃｆＤＮＡおよび他の細胞残屑を自然に取り除くことができる。被験者ががんまたは疾病を有する場合、抽出された試料のｃｔＤＮＡは、診断で検出可能なレベルで存在しうる。

追加的に、抽出された試料は、ｗｂｃＤＮＡを含みうる。核酸試料を抽出することは、ｗｂｃＤＮＡからｃｆＤＮＡおよび／またはｃｔＤＮＡを分離することを更に含むことができる。ｃｆＤＮＡおよび／またはｃｔＤＮＡからのｗｂｃＤＮＡの抽出は、ＤＮＡが試料から分離されるときに生じうる。血液試料の場合、ｗｂｃＤＮＡは、血液試料のバフィーコート（ｂｕｆｆｃｏａｔ）画分から取得される。ｗｂｃＤＮＡをせん断することにより、長さが３００の塩基対未満のｗｂｃＤＮＡフラグメントを取得できる。ｃｆＤＮＡおよび／またはｃｔＤＮＡからｗｂｃＤＮＡを分離することにより、ｗｂｃＤＮＡがｃｆＤＮＡおよび／またはｃｔＤＮＡから独立して配列される。通常、ｗｂｃＤＮＡに対するシークエンシングプロセスは、ｃｆＤＮＡおよび／またはｃｔＤＮＡに対するシークエンシングプロセスと同様である。

ステップ１２０において、シークエンシングライブラリーが調整される。ライブラリーの調製中、ユニークな分子識別子（ＵＭＩ）が、アダプターライゲーションにより核酸分子（例えば、ＤＮＡ分子）に追加される。ＵＭＩは、アダプターライゲーション中、ＤＮＡフラグメントの末端に追加される短い核酸配列（例えば、４～１０の塩基対）である。実施形態によっては、ＵＭＩは、特定のＤＮＡフラグメントに由来する配列リードを同定するために使用されうるユニークタグとして機能する縮重塩基対である。アダプターライゲーション後のＰＣＲ増幅中、ＵＭＩは、付着したＤＮＡフラグメントと共に複製され、下流分析において同一の元のフラグメントから生じる配列リードを同定する手段を提供する。

ステップ１３０において、標的ＤＮＡ配列は、ライブラリーから濃縮される。濃縮中、ハイブリダイゼーションプローブ（本明細書において「プローブ」とも呼ばれる）を使用して、がん（または疾病）の有無、がんの状態、またはがんの分類（例えば、がんの種類または原発組織）に情報価値のある核酸フラグメントを標的とし、プルダウンする。所与のワークフローについて、プローブは、ＤＮＡまたはＲＮＡの標的（相補的）鎖をアニールする（またはハイブリッド形成する）ように設計されうる。標的鎖は、「プラス」鎖（例えば、ｍＲＮＡに転写され、続いてタンパク質に翻訳される鎖）または相補的「マイナス」鎖でありうる。プローブは、数十、数百、または数千の塩基対の長さに及びうる。一実施形態において、プローブは、遺伝子パネルに基づいて設計され、あるがんまたは他の種類の疾病に対応すると疑われる（例えば、ヒトまたは別の生物の）ゲノムの特定の変異または標的領域を分析する。さらに、プローブは、標的領域の重複部分をカバーできる。「全エクソームシークエンシング」としても知られる、ゲノムの全発現遺伝子のシークエンシングよりも、標的遺伝子パネルを使用することにより、ワークフロー１００を、標的領域のシークエンシング深さを増加させるために使用でき、ここで、深さは、試料内の所与の標的配列が配列された回数のカウントを指す。シークエンシング深さが増すことにより、核酸試料の必要投入量は減少する。ハイブリダイゼーションステップ後、ハイブリッド形成された核酸フラグメントは、捕らえられ、ＰＣＲを使用して増幅もされうる。

ステップ１４０において、配列リードは、濃縮されたＤＮＡ配列から生成される。シークエンシングデータは、当該分野で既知の手段により濃縮されたＤＮＡ配列から取得されうる。例えば、ワークフロー１００は、合成技術（Ｉｌｌｕｍｉｎａ）、パイロシークエンシング（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔシークエンシング）、一分子リアルタイムシークエンシング（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）、ライゲーションによるシークエンシング（ＳＯＬｉＤシークエンシング）、ナノポアシークエンシング（ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ）、またはペアードエンドシークエンシングを含む次世代シークエンシング（ＮＧＳ）技術を含むことができる。実施形態によっては、超並列シークエンシングが、可逆的ダイターミネーターによる合成によるシークエンシングを使用して実行される。他の実施形態において、配列は、ポリメラーゼ連鎖反応（ＰＣＲ）、デジタルＰＣＲ（ｄＰＣＲ）、定量的ＰＣＲ（ｑＰＣＲ）、リアルタイムＰＣＲ（ＲＴ－ＰＣＲ）、定量的リアルタイムＰＣＲ（ｑＲＴ－ＰＣＲ）、または他の当該分野で周知の手段による検出など、増幅ベースの検出またはメチル化特異的増幅手段を使用して検出されうる。

実施形態によっては、配列リードは、当該分野で既知の方法を使用して参照ゲノムにアラインされ、アライメント位置情報を判定することができる。アライメント位置情報は、所与の配列リードの始めの核酸塩基の塩基および終わりの核酸塩基の塩基に対応する、参照ゲノムにおける領域の開始位置および終了位置を示すことができる。アライメント位置情報は、開始位置および終了位置から判定されうる、配列リードの長さも含むことができる。参照ゲノムにおける領域は、遺伝子または遺伝子のセグメントと関連しうる。ｃｆＤＮＡおよび／またはｃｔＤＮＡならびにｗｂｃＤＮＡが独立して配列されているので、ｃｆＤＮＡおよびまたはｃｔＤＮＡならびにｗｂｃＤＮＡの両方に対する配列リードは、独立して生成される。

様々な実施形態において、配列リードは、R₁およびR₂と記されるリード対を含む。例えば、第１リードR₁は、核酸フラグメントの第１末端から配列されうるのに対して、第２リードR₂は、核酸フラグメントの第２末端から配列されうる。そのため、第１リードR₁および第２リードR₂の核酸塩基の塩基対は、参照ゲノムの核酸塩基の塩基と一致して（例えば、逆の向きに）アラインされうる。リード対R₁およびR₂から導出されたアライメント位置情報は、第１リード（例えば、R₁）の末端に対応する参照ゲノムにおける開始位置、および第２リード（例えば、R₂）の末端に対応する参照ゲノムにおける終了位置を含むことができる。言い換えれば、参照ゲノムにおける開始位置および終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い場所を表す。配列アラインメントマップ（ＳＡＭ）フォーマットまたはバイナリー（ＢＡＭ）フォーマットを有する出力ファイルは、図２に関して以下で説明されるような、バリアントコーリングなどの更なる分析のために生成され、出力されうる。

ＩＩＩ．例示の処理システム
図２Ａは、一実施形態に係る、配列リードを処理し、疾患検出パネルを生成するための処理システム２００のブロック図である。処理システム２００は、配列プロセッサ２０５と、配列データベース２１０と、モデルデータベース２１５と、機械学習エンジン２２０と、（例えば、１つまたは複数の階層ベイズモデルまたはジョイントモデルを含む）モデル２２５と、パラメータデータベース２３０と、スコアエンジン２３５と、バリアントコーラー２４０と、パネルジェネレータ２５０とを含む。図２Ｂは、一実施形態に係る、パネルを生成するためのパネルジェネレータのブロック図を示す。パネルジェネレータ２５０は、分類予測モデル２７０と、指標データベース２９０と、プローブジェネレータ２６０とを含む。

ＩＩＩ．Ａ配列からのバリアントの判定
図３は、一実施形態に係る、配列リードのバリアントを判定するためのワークフローのフローチャートである。実施形態によっては、処理システム２００は、ワークフロー３００を実行し、入力シークエンシングデータに基づいて（例えば、ＳＮＶおよび／またはインデルに対する）バリアントコーリングを実行する。さらに、処理システム２００は、上記のワークフロー１００を使用して調製された核酸試料と関連している出力ファイルから入力シークエンシングデータを取得できる。ワークフロー３００は、限定されないが、処理システム２００の構成要素に関して説明される、以下のステップを含む。他の実施形態において、ワークフロー３００の１つまたは複数のステップは、例えば、ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ、ＶａｒＳｃａｎ、Ｓｔｒｅｌｋａ、またはＳｏｍａｔｉｃＳｎｉｐｅｒなど、バリアントコールフォーマット（ＶＣＦ）を使用して、バリアントコールを生成するための異なるプロセスのステップにより置き換えられうる。

ステップ３１０において、配列プロセッサ２０５は、入力シークエンシングデータのアラインされた配列リードを折りたたむ。一実施形態において、配列リードを折りたたむことは、ＵＭＩ、および任意に（例えば、図１に示すワークフロー１００からの）出力ファイルのシークエンシングデータからのアライメント位置情報を使用し、核酸フラグメントまたはその一部の最も可能性の高い配列を判定するためのコンセンサス配列に、複数の配列リードを折りたたむことを含む。ＵＭＩは濃縮およびＰＣＲによってライゲートされた核酸フラグメントにより複製されるため、配列プロセッサ２０５は、いくらかの配列リードが核酸試料の同一の分子に由来することを判定できる。実施形態によっては、同一または類似のアライメント位置情報（例えば、閾値オフセット内の開始位置および終了位置）を有し、共通のＵＭＩを含む配列リードは、折りたたまれ、配列プロセッサ２０５は、折りたたまれたリード（本明細書においてコンセンサスリードとも呼ばれる）を生成し、核酸フラグメントを表す。配列プロセッサ２０５は、対応する一対の折りたたまれたリードが共通のＵＭＩを有する場合、コンセンサスリードを「デュプレックス」と指定するが、これは、由来する核酸分子のプラス鎖およびマイナス鎖の両方が捕らえられたことを示す。そうでなければ、折りたたまれたリードは、「ノンデュプレックス」と指定される。実施形態によっては、配列プロセッサ２０５は、配列リードを折りたたむことに代えて、または折りたたむことに加えて、配列リードに対して他の種類のエラー訂正を実行できる。

ステップ３１５において、配列プロセッサ２０５は、対応するアライメント位置情報に基づいて折りたたまれたリードをスティッチングする。実施形態によっては、配列プロセッサ２０５は、第１リードと第２リードとのアライメント位置情報を比較し、第１リードおよび第２リードの核酸塩基の塩基対が参照ゲノムにおいて重複するかどうかを判定する。一使用事例において、第１リードと第２リードの（例えば、一定数の核酸塩基の塩基の）重複が閾値長さ（例えば、閾値数の核酸塩基の塩基）より長いという判定に応答して、配列プロセッサ２０５は、第１リードおよび第２リードを「スティッチングされた」と指定し、そうでなければ、折りたたまれたリードが「スティッチングされていない」と指定する。実施形態によっては、第１リードおよび第２リードは、重複が閾値長さよりも長い場合、および重複がスライディング重複ではない場合、スティッチングされる。例えば、スライディング重複は、ホモポリマーラン（例えば、単一の繰り返し核酸塩基の塩基）、ジ核酸塩基ラン（例えば、二核酸塩基の塩基配列）、またはトリ核酸塩基ラン（例えば、三核酸塩基の塩基配列）を含むことができ、ホモポリマーラン、ジ核酸塩基ラン、またはトリ核酸塩基ランは、少なくとも閾値長さの塩基対を有する。

ステップ３２０において、配列プロセッサ２０５は、リードをパスにまとめる。実施形態によっては、配列プロセッサ２０５は、リードをまとめ、標的領域（例えば、遺伝子）に対する有向グラフ、例えば、ｄｅＢｒｕｉｊｎグラフを生成する。有向グラフの一方向の辺は、標的領域におけるｋ核酸塩基の塩基の配列（本明細書において「ｋマー」とも呼ばれる）を表し、辺は、点（または頂点）により結ばれる。配列プロセッサ２０５は、折りたたまれたリードを有向グラフにアラインし、折りたたまれたリードのいずれかが辺および対応する点のサブセットにより順番に表されるようにする。

実施形態によっては、配列プロセッサ２０５は、有向グラフを表すパラメータのセットを判定し、有向グラフを処理する。追加的に、パラメータのセットは、折りたたまれたリードから有向グラフにおける頂点または辺により表されたｋマーにうまくアラインされたｋマーのカウントを含むことができる。配列プロセッサ２０５は、例えば、配列データベース２１０に、有向グラフおよび対応するパラメータのセットを保管するが、これらを読み出して、グラフを更新、または新規のグラフを生成することができる。例として、配列プロセッサ２０５は、パラメータのセットに基づいて有向グラフの圧縮版を生成する（例えば、または既存のグラフを修正する）ことができる。一使用事例において、重要度の低い有向グラフのデータを除去するため、配列プロセッサ２０５は、閾値未満のカウントを有する頂点または辺を除外し（例えば、「切り取り」または「刈り取り」）、閾値以上のカウントを有する頂点または辺を保持する。

ステップ３２５において、バリアントコーラー２４０は、配列プロセッサ２０５によりまとめられたパスから候補バリアントを生成する。一実施形態において、バリアントコーラー２４０は、（ステップ３１０において辺または頂点を刈り取ることにより圧縮されうる）有向グラフを、ゲノムの標的領域の参照配列と比較することにより、候補バリアントを生成する。バリアントコーラー２４０は、有向グラフの辺を参照配列にアラインでき、不一致の辺および辺に隣接した不一致の核酸塩基の塩基のゲノム位置を、候補バリアントの位置として記録する。追加的に、バリアントコーラー２４０は、標的領域のシークエンシング深さに基づいて、候補バリアントを生成できる。特に、バリアントコーラー２４０は、例えば、配列リードが多いと配列間の不一致または他の塩基対の変動を（例えば、冗長性を使用して）解消するのに役立つため、シークエンシング深さが長い標的領域において、より確信をもってバリアントを同定することができる。

一実施形態において、バリアントコーラー２４０は、バリアントモデル２２５を使用して候補バリアントを生成し、被験者からの配列リードに対する期待ノイズ率を判定する。バリアントモデル２２５は、階層ベイズモデルでありうるが、実施形態によっては、処理システム２００は、１つまたは複数の異なる種類のモデルを使用する。さらに、階層ベイズモデルは、候補バリアントを生成するために利用でき、全てバリアントコーリングの感度／特異度を改善するために位置特異的なノイズ情報をモデル化するするという点で互いに関係している、多くの可能性があるモデルアーキテクチャの１つでありうる。より具体的には、機械学習エンジン２２０は、健常人からの試料を使用してバリアントモデル２２５を訓練し、配列リードの位置ごとに期待ノイズ率をモデル化する。

さらに、複数の異なるモデルが、モデルデータベース２１５に保管されうる、または訓練後の適用のために読み出されうる。例えば、第１モデルを訓練して、ＳＮＶノイズ率をモデル化し、第２モデルを訓練して、インデルノイズ率をモデル化する。さらに、スコアエンジン２３５は、バリアントモデル２２５のパラメータを使用し、配列リードにおける１つまたは複数の真陽性の尤度を判定できる。スコアエンジン２３５は、尤度に基づいて（例えば、対数目盛りにおける）品質スコアを判定できる。例えば、品質スコアは、フレッド

であり、Ｐは、間違った候補バリアントコール（例えば、偽陽性）の尤度である。

ステップ３３０において、スコアエンジン２３５は、バリアントモデル２２５または対応する真陽性の尤度もしくは品質スコアに基づいて候補バリアントをスコア化する。

ステップ３３５において、処理システム２００は、候補バリアントを出力する。実施形態によっては、処理システム２００は、対応するスコアと共に、判定された候補バリアントのいくつかまたは全てを出力する。例えば、処理システム２００の外の、下流システム、または処理システム２００の他の構成要素は、限定されないが、がん、疾病、または生殖細胞系列変異の存在を予測することを含む様々なアプリケーションに対して、候補バリアントおよびスコアを使用できる。

候補バリアントは、ｃｆＤＮＡおよび／またはｃｔＤＮＡならびにｗｂｃＤＮＡの両方に対して出力される。本明細書において、通常、ｗｂｃＤＮＡに対する候補バリアントは「正常体」である一方、ｃｆＤＮＡおよび／またはｃｔＤＮＡに対する候補バリアントは「バリアント」である。様々な検出方法およびモデルは、バリアントを正常体と比較し、バリアントががんまたは何らかの他の疾病の特性を含むかを判定することができる。様々な実施形態において、正常体およびバリアントは、任意の他のプロセス、任意の数の試料（例えば、腫瘍生検または血液試料）を使用して生成されうる、または候補バリアントを保管するデータベースからアクセスされうる。

ＩＩＩ．Ｂパネルの生成
図２Ｂに戻ると、パネルジェネレータ２５０は、処理システム２００により判定された様々な特徴、スコア、配列等を使用して、疾患検出パネルを生成する。本明細書に記載の疾患検出パネルの一例はがん検出パネルであるが、疾患検出パネルは、他の疾病も検出できる。

パネルジェネレータ２５０は、ゲノム領域を保管する指標データベース２９０を含む。より具体的には、指標データベース２９０は、被験者からの試料においてがんシグナルの有無を検出する、および／またはそうでなければ、被験者ががんを有する尤度を予測するために使用されうるシークエンシングデータ（例えば、バリアントおよび正常体）を保管する。シークエンシングデータは、その対応するゲノム領域と結び付けられ、保管されうる。指標データベースは、システム２００により処理されたシークエンシングデータも保管できるが、外部ソースからアップロードされた、および／またはそうでなければ、外部のデータベースまたは公表されているデータベースから読み出されたシークエンシングデータなど、システム２００により処理されていないシークエンシングデータも保管できる。指標データベース２９０に保管されたゲノム領域については、以下で更に詳細に説明される。

パネルジェネレータ２５０は、分類予測モデル２７０（「分類モデル」）を採用し、パネルに含むべきゲノム領域を同定する。分類モデル２７０は、同定されたゲノム領域を含むパネルの分類能力を予測する。パネルに対するゲノム領域を同定し、選択するプロセスについては、以下で更に詳細に説明される。

分類モデル２７０は、異なる種類のゲノム領域を同定する異なるモデルを採用できる。例示として、分類モデル２７０は、（ｉ）関連遺伝子モデル２７２を使用してがん関連遺伝子のゲノム領域と、（ｉｉ）領域カバレッジモデル２７４を使用してがん試料における指標となるゲノム領域と、（ｉｉｉ）がん種類モデル２７６を使用してがんの種類を示すゲノム領域と、（ｉｖ）ホットスポット領域モデル２７８を使用してホットスポットゲノム領域と、（ｖ）ウイルス領域モデル２８０を使用してがんと関連しているウイルスゲノム領域とを同定できる。以下、様々なモデルが説明される。

パネルジェネレータ２５０は、プローブジェネレータ２６０も含む。プローブジェネレータ２６０は、パネルに対して同定されたゲノム領域に対するがん検出プローブを判定する。プローブジェネレータ２６０については、以下で更に詳細に説明される。

ＩＶ．がんを示すバリアント
指標データベース２９０は、疾病の存在を示しうるゲノム領域のセット（「指標セット」）を含む。各指標セットは、異なるプロセス等によって、異なる試料タイプから取得された配列を含むことができる。例えば、第１指標セットは、がん試料および非がん試料の両方から取得された配列を含むことができるのに対して、第２指標セットは、がん試料のみから取得された配列を含むことができる。別の例においては、第１指標セットは、固形がんおよび液状がんから取得された両方の配列を含むことができるのに対して、第２指標セットは、固形がんのみから取得された配列を含むことができる。パネルジェネレータ２５０により生成された検出パネルが、以下で述べるように、任意の組み合わせで、および一部分または全体において、１つまたは複数の指標セットを含むことができることが知られている。

いくつかの指標セットは、確立された指標ライブラリーから選択される。例えば、指標セットは、ＴｈｅＣｉｒｃｕｌａｔｉｎｇＣｅｌｌ－ｆｒｅｅＧｅｎｏｍｅＡｔｌａｓＳｔｕｄｙ（「ＣＣＧＡ」；ＣｌｉｎｉｃａｌＴｒｉａｌ．ｇｏｖ識別子ＮＣＴ０２８８９９７８）において同定された遺伝子の指標ライブラリーから選択された１つまたは複数のゲノム領域を含むことができる。ＣＣＧＡＳｔｕｄｙは、がんのある人とない人の血液中のゲノムがんシグナルのランドスケープを特徴付けるように設計された、有望な、観察に基づいた、長期的な研究である。非特定化された生物検体が、アメリカおよびカナダの１４２ヵ所の約１５，０００人の参加者から収集された。試料は、各コホートの複数の部位にわたるがんの種類および非がんの分布が確実に事前に指定されたものになるように選択され、がん試料および非がん試料は、性別ごとに年齢を適合させた頻度であった。表１は、本明細書に記載の様々な実施形態に従って、ＣＣＧＡＳｔｕｄｙから選択された５０のゲノム領域または遺伝子を含む例示のＣＣＧＡ指標セットをリスト化している。

別の例においては、指標セットは、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓＰｒｏｇｒａｍ（「ＴＣＧＡ」；ＣｌｉｎｉｃａｌＴｒｉａｌ．ｇｏｖ識別子ＮＣＴ０２８８９９７８）において同定された遺伝子のデータベースなど、公表されているデータベースから選択された１つまたは複数のゲノム領域を含むことができる。ＴＣＧＡデータベースは、３３種類のがんにわたる、２０，０００を超える原発がんおよび一致する正常試料を分子的に特徴付けた、米国国立がん研究所（ＮＣＩ）と米国国立ヒトゲノム研究所（ＮＨＧＲＩ）との協力によって開発された公的ソースである。表２は、本明細書に記載の様々な実施形態に従って、ＴＣＧＡから選択された１９のゲノム領域または遺伝子を含む例示のＴＣＧＡ指標セットをリスト化している。

別の例においては、指標セットは、がんを示す特定の配列を有するゲノム領域（「変異ホットスポット」）を含むことができる。いくつかの例においては、そのようなホットスポット部位は、文献、ＧｅｎｏｍｉｃＤａｔａＣｏｍｍｏｎｓＤａｔａＰｏｒｔａｌ（「ＧＤＣ」）などのがんデータの公表されているプラットフォームで見つけることができる、および／または上記のＣＣＧＡＳｔｕｄｙなどの他の研究により裏付けられる。例として、ＣＣＧＡの複数の患者にわたり頻繁に変異したＥＺＨ２のプロモーターホットスポット部位は、検出パネルに含まれうる、またはそうでなければ検出パネルへの含有が考慮されうる。表３は、がんを示すホットスポットを有する１８のゲノム領域を含む例示のホットスポット指標セットをリスト化している。丸括弧内の数字は、その遺伝子またはゲノム領域におけるがんを示すホットスポット部位の数を示している。

別の例においては、指標セットは、その変異ががんを示すＳＮＶおよび／またはインデルを含むゲノム領域（「リストＡ」）を含むことができる。表４は、リストＡ指標セットに対する２４のゲノム領域をリスト化している。丸括弧内の文字は、ゲノム領域が１つまたは複数のＳＮＶ（Ｓ）、１つまたは複数のインデル（Ｉ）、またはその両方を含むかどうかを示している。リストＡ指標セットのゲノム領域の１つまたは複数は、様々な実施形態に従って検出パネルに含まれうる。いくつかの例においては、ＳＮＶに対応するゲノム領域のみが検出パネルに含まれる。

別の例においては、別の指標セットが、その変異ががんを示すＳＮＶおよび／またはインデルを含むゲノム領域（「リストＢ」）を含むことができる。表５は、リストＢ指標セットに対する６４のゲノム領域をリスト化している。丸括弧内の文字は、ゲノム領域が１つまたは複数のＳＮＶ（Ｓ）、１つまたは複数のインデル（Ｉ）、またはその両方を含むかどうかを示している。リストＢ指標セットのゲノム領域の１つまたは複数は、様々な実施形態に従って検出パネルに含まれうる。いくつかの例においては、ＳＮＶに対応するゲノム領域のみが検出パネルに含まれる。

別の例においては、別の指標セットが、その変異ががんを示すＳＮＶおよび／またはインデルを含むゲノム領域（「リストＣ」）を含むことができる。表６は、リストＣ指標セットに対する１５３のゲノム領域をリスト化している。丸括弧内の文字は、ゲノム領域が１つまたは複数のＳＮＶ（Ｓ）、１つまたは複数のインデル（Ｉ）、またはその両方を含むかどうかを示している。リストＣ指標セットのゲノム領域の１つまたは複数は、様々な実施形態に従って検出パネルに含まれうる。いくつかの例においては、ＳＮＶに対応するゲノム領域のみが検出パネルに含まれる。

別の例においては、指標セットは、ウイルス関連がんを示すウイルスのゲノム領域（「ウイルス」）を含むことができる。例として、がんと正の関連を示すウイルスが、全ゲノムバイサルファイトシークエンシングを使用してＣＣＧＡＳｔｕｄｙにおいて同定された。パネルジェネレータ２５０は、本明細書に記載の様々な実施形態に従って、検出パネルに含まれるべき最適な数の標的領域を判定できる。単なる例として、ウイルス指標セットは、以下のゲノム領域：ＨＰＶ１６、ＨＰＶ１８、ＨＢＶ、およびＥＢＶの各々において１０の部位を含むことができる。

他の指標セットも考えられる。

Ｖ．疾患検出パネル
Ｖ．Ａアッセイパネル
処理システム２００は、患者の疾病の有無（「疾病分類」）など、病状を判定するための疾患検出パネル（「パネル」）を生成するように構成されたパネルジェネレータ２５０を含む。場合によっては、パネルを使用して、疾病のステージおよび／または原発組織を判定することもできる。通常、パネルは、患者から取得された試料（例えば、血液、組織等）に適用され、疾病分類を判定する。便宜上、本明細書において、パネルジェネレータ２５０から生成された例示のパネルは、試料におけるがんの存在（「がんの存在」）を分類するように構成されるが、他の疾病も考えられる。

パネルは、ゲノム領域のセットを含む。パネルにおける各ゲノム領域は、染色体における１つまたは複数の特定の部位に位置する核酸塩基の１つまたは複数の配列（「コード領域」）を含む。ゲノム領域は、その変動が、がんの有無、がんのステージおよび／または重症度、および／またはがんの種類（例えば、予測されたがんの原発組織）など、病状を示す１つまたは複数の特徴を有することができる。一例として、がん検出パネルは、３ｐ２２．１に位置する、ゲノム領域ＣＴＮＮＢ１を含むことができる。ＣＴＮＮＢ１の特徴の変動は、がんの存在、および、より具体的には、がんの種類が肝胆道がんであると示すことができる。

パネルにおける各コード領域は、１つまたは複数の検出プローブにより配列される。検出プローブは、コード領域における核酸塩基に対応する核酸塩基の相補的配列を含む。検出プローブは、試料に適用されたとき、コード領域における核酸塩基配列を標的とし、核酸フラグメント（すなわち、テスト配列）をプルダウンする。テスト配列は特徴を含み、それらの特徴の変動（「特徴変動」）はがんの存在を示すことができる。例示として、特徴は、集団（例えば、健常な集団）におけるそのコード領域におけるインデルと比較されたときの、テスト配列に対するコード領域におけるインデルの変動でありうる。

パネルジェネレータ２５０は、がんの存在を判定するために採用されうるパネルを生成する。簡潔に説明すると、パネルジェネレータ２５０は、少なくとも１つのゲノム領域に対する１つまたは複数の検出プローブを含むパネルを生成する。試料に適用されたとき、検出プローブは、ゲノム領域と関連しているコード領域に対するテスト配列を生成する。処理システム（例えば、システム２００）は、テスト配列におけるバリアントを同定する。バリアントは、一塩基バリアント（「ＳＮＶ」）、挿入、または欠失（後の２つはまとめて「インデル」と呼ばれる）でありうる。システム２００は、バリアントの特徴を、集団における（例えば、健常な集団における）その同一の特徴と比較する。集団と比較したその特徴の特徴変動は、がんの存在（例えば、がんシグナルの存在）を示すことができる。特徴変動は、特徴量として定量化されうる。例えば、システム２００は、ＳＮＶの最大バリアントアレル頻度（「最大ＶＡＦ」）を表す特徴量を導出できる。従って、システム２００は、特徴量に基づいて試料におけるがんの存在を判定できる。すなわち、ＳＮＶの最大バリアントアレル頻度は、がんの存在を示す。

他の特徴、特徴変動、および特徴量も考えられる。例えば、特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、および／または真のバリアントのアレル頻度の少なくとも１つに対応する特徴変動を定量化できる。

構成によっては、システム２００は、特徴量に基づいてがんの存在の尤度を判定できる。例えば、各ゲノム領域について、ＳＮＶに対する特定の最大ＶＡＦは、がんの存在の尤度に対応しうる。従って、システム２００は、判定された尤度が閾値尤度を上回る場合、試料にがんが存在すると判定できる。

Ｖ．Ｂパネルサイズ
パネルジェネレータ２５０は、パネルサイズを有するパネルを生成する。パネルサイズは、パネルに含まれるゲノム領域の核酸塩基の総数である。いくつかの例においては、ゲノム領域の各々は、ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有し、ゲノム領域に対するバリアントアレル頻度の少なくともいくつかは、がん試料で生じる。状況を追加すると、一旦、パネルに対するゲノム領域が判定されると、パネルジェネレータ２５０は、（例えば、プローブジェネレータ２６０を使用して）パネルのプローブカバレッジを更に判定できる。いくつかの例においては、プローブジェネレータ２６０は、プローブをタイリングし、パネルに含まれる各標的ゲノム領域の重複部分をカバーする。例として、パネルのプローブは、各対のプローブが、例えば、６０のヌクレオチドの重複配列と互いに重複するように、対で配置されうる。重複配列については、１０、２０、３０、４０、５０、７０、８０、９０、１００のヌクレオチドの重複長さなど、他の長さも考えられ、場合によっては、以下で説明される所望のプローブサイズ次第でありうる。そのような例において、パネル全体のプローブカバレッジサイズは、パネルサイズ自体よりもずっと大きい。パネルのプローブは、試料に適用され、がんの存在を判定するために採用されるテスト配列を生成できる。

パネルに含まれるプローブはプローブサイズを有し、プローブサイズはプローブにおける核酸塩基（またはヌクレオチド、本明細書においては交換可能に使用される）の数である。例えば、核酸塩基［ＣＡＧＧＴＣＧＡＡＴＴＣ］を含むプローブは、１２の核酸塩基のプローブサイズを有する。他のプローブサイズを有する他のプローブも考えられる。例えば、プローブは、４０、６０、８０、１００、１２０、１４０、１６０、２００、または他の数の核酸塩基を有することができる。いくつかの例においては、その数の核酸塩基は、プライマー配列によりフランキング領域として機能する追加的な数の核酸塩基を含むことができる、またはそうでなければ、その追加的な数の核酸塩基と組み合わされうる。そのようなフランキング領域は、プローブの端に位置し、追加的な１０、２０、３０、４０、５０、６０、または他の数の核酸塩基を有することができる。例として、１２０の塩基のプローブサイズにフランキング領域に対する４０の塩基（例えば、プローブの両端に２０の塩基のフランキング領域）をプラスすると、プローブあたり１６０の核酸塩基の全体サイズが得られる。典型的に、パネルにおけるプローブは、同一のプローブサイズを有する。

本明細書において使用されるように、パネルによりプローブされたゲノム領域は、指標サイズを有する。指標サイズは、そのゲノム領域に対応するプローブのプローブサイズの合計である。例示すると、パネルは、がんの存在を示す第１ゲノム領域を含む。第１ゲノム領域は、１２０の核酸塩基のプローブサイズを有する４つのプローブにより配列される。よって、ゲノム領域の指標サイズは、４８０の核酸塩基である。

パネル全体のプローブサイズは、そのため、パネルに含まれる全てのゲノム領域の指標サイズの合計である。例示すると、パネルは、第１ゲノム領域と第２ゲノム領域とを含む。第１ゲノム領域は２．３ｋ核酸塩基（または「ｋｂ」）の指標サイズを有し、第２ゲノム領域は５．８ｋｂの指標サイズを有する。そのため、パネル全体のプローブカバレッジサイズは、８．１ｋｂである。

Ｖ．Ｄパネル検出能力
パネルの疾患検出能力を定量化する測定基準はいくつかある。一例において、パネルジェネレータ２５０は、検出感度および／または検出特異度を有するパネルを生成する。検出感度はパネルの真陽性率の定量化であり、検出特異度はパネルの真陰性率の定量化である。パネルの能力を定量化する他の測定基準も考えられる。

例示すると、システム２００は、パネルジェネレータ２５０により生成されたパネルを採用し、９５の試料においてがんの存在を判定する。試料は、８０のがん試料および１５の非がん試料を含む。システム２００は、がん試料の内７０個および非がん試料の内１つががんを示すと判定する。システム２００は、がん試料の内１０個および非がん試料の内１４個ががんを示さないとも判定する。そのため、パネルの検出感度は８８％であり、パネルの検出特異度は９３％である。

Ｖ．Ｅ性能測定基準
パネルジェネレータ２５０は、性能測定基準に基づいてパネルを生成できる。性能測定基準は、例えば、パネルサイズ、パネル検出能力、標的疾患（例えば、がん）、疾病の種類（例えば、咽頭がん、肝がん等）、および／または疾病のステージ（例えば、ステージＩ、ステージＩＩ等）などを含むことができる。

説明のため、図４は、実施形態に係る性能測定基準に従ったパネルを生成するための例示のワークフローを示す。ワークフロー４００は、システム２００または別の類似のシステムにより実行されうる。ワークフロー４００は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。

システム２００は、リクエストを受信し、疾病分類（例えば、がん）を判定するパネルを生成する（４１０）。リクエストは、パネルがどのように設計されるべきかを定義する性能測定基準を含む。パネルジェネレータ２５０は、指標データベース２９０から１つまたは複数の指標セットにアクセスし（４２０）、各セットは、１つまたは複数のゲノム領域およびそのシークエンシングデータを含む。パネルジェネレータ２５０は、その変動ががんの存在を示しうる、アクセスされたゲノム領域の１つまたは複数を選択することによりパネルを生成する（４３０）。指標となるゲノム領域の判定およびパネルに対するそれらの選択については、以下でより詳細に説明される。パネルジェネレータ２５０は、選択されたゲノム領域を含むパネルを要求元に送信する（４４０）。いくつかの例においては、パネルジェネレータ２５０は選択されたゲノム領域をカバーし、プローブおよび／またはプローブカバレッジを要求元に送信するプローブのセットを（例えば、プローブジェネレータ２６０によって）判定する、またはそうでなければ、設計する。

ＶＩ．分類モデル
パネルジェネレータ２５０は、分類モデル２７０を採用し、パネルに含むべきゲノム領域を同定する。分類モデル２７０は、同定されたゲノム領域の異なる組み合わせを含むパネルの分類能力を予測することによりゲノム領域を同定する。分類モデル２７０は、いくつかの異なるモデルを含むことができ、各モデルは、異なるゲノム領域を同定できる。

パネルを生成するため、パネルジェネレータ２５０は、（例えば、指標データベース２９０からの）１つまたは複数のゲノム領域を含む指標セットにアクセスし、それらの１つまたは複数のゲノム領域を分類モデル２７０に入力する。パネルジェネレータ２５０は、分類モデル２７０を利用し、アクセスされたゲノム領域のどれががんの存在（「指標」）を示しうるのかを判定し、パネルに含有する適切な指標を選択する。分類モデル２７０における様々なモデルの各々は、異なる方法でパネルに含むべき指標を判定できる。例えば、関連遺伝子モデル２７２は、その特徴変動ががんの存在と関連しているゲノム領域が、関連指標としてパネルに含まれるべきと判定できる。別の例においては、ウイルス領域モデル２８０は、がんと関連しているウイルスと関連しているゲノム領域が、ウイルス指標としてパネルに含まれるべきと判定できる。様々なモデルについては、本明細で更に詳細に説明される。

分類モデル２７０の他の構成も考えられる。ある構成において、パネルジェネレータ２５０は、分類モデル２７０を採用し、１つまたは複数の性能測定基準に従ってパネルに対する指標を判定する。例えば、パネルジェネレータ２５０は、閾値パネルサイズ未満のパネルサイズを有するが、最も高い検出感度を有するパネルを生成できる。別の例においては、パネルジェネレータ２５０は、閾値感度を上回る検出感度を有するが、最小のパネルサイズを有するパネルを生成できる。

別の構成において、パネルジェネレータ２５０は、分類モデル２７０が２つ以上の特徴に基づいて指標を判定したときに検出能力が増加するパネルを生成できる。一例として、分類モデル２７０は、ＳＮＶおよびインデルの両方の特徴変動に基づいて指標を判定できる。

ＶＩ．Ａ例示の分類モデル性能
パネルの検出能力は、分類モデル２７０の構成次第である。受診者動作特性曲線プロット（「ＲＯＣプロット」）は、パネルの検出能力を視覚化する。ＲＯＣプロットにおいて、ｘ軸は偽陽性率であり、ｙ軸は真陽性率である。偽陽性率は１から特異度を引いたものであり、真陽性率は感度である。

図５は、本明細書に記載の方法で同定または選択されなかったゲノム領域の大規模なセット（約２Ｍｂ）を含むパネルに基づいた３つの分類子の性能を示すＲＯＣプロットを示す。ＲＯＣプロット５１０は、３つの例示の分類モデル２７０のがん／非がん検出能力を示す３つの曲線を含む。第１曲線は、コピー数異常（「ＣＮＡ」）の特徴変動を分析し、がんの存在を判定するように構成された分類モデルにより生成されたパネルの検出能力を示す（ＣＮＡ５１２）。第２曲線は、ＳＮＶおよびインデルの特徴変動を分析し、がんの存在を判定するように構成された分類モデルにより生成されたパネルの検出能力を示す（バイ分類子５１４）。第３曲線は、ＳＮＶ、インデル、およびＣＮＡの特徴変動を分析するように構成された分類子により生成されたパネルの検出能力を示す（マルチ分類子５１６）。表７は、図５に示す３つのモデルの検出能力の比較を示している。

ＶＩＩ．関連指標
上述したように、分類モデル２７０は、関連遺伝子モデル２７２（「関連モデル２７２」）を含む。関連モデル２７２は、指標セットにおけるどのゲノム領域ががんの存在に関係しているかを判定する。ゲノム領域とがんの存在との関係を定量化するため、パネルジェネレータ２５０は、ゲノム領域の各々に対するモデル係数を判定する。関連モデル２７２に関して、モデル係数は、ゲノム領域のがんの存在に対する、特徴量の指標となるものを定量化する（「感度係数」）。例えば、０．０５の感度係数が、ゲノム領域に対して導出された特徴量ががんの存在を示す尤度が低いことを示すのに対し、０．５５の感度係数は、ゲノム領域に対する特徴量ががんの存在を示す尤度が高いことを示す。

状況を示すため、ゲノム領域を含むアクセスされた指標セットについて考える。ゲノム領域は、指標セットにおけるがんおよび非がんのシークエンシングデータと関連している。パネルジェネレータ２５０は、シークエンシングデータに対する特徴量を導出し、分析する。例えば、パネルジェネレータ２５０は、アクセスされたシークエンシングデータにおけるＳＮＶに対する最大ＶＡＦを判定する。この際、シークエンシングデータにおけるＳＮＶに対する最大ＶＡＦの変動ががんの存在を示す場合、パネルジェネレータ２５０は、ゲノム領域の感度係数が高い（例えば、０．６０）と判定する。反対に、シークエンシングデータにおけるＳＮＶに対する最大ＶＡＦの変動ががんの存在を示さない場合、ゲノム領域の感度係数は低い（例えば、０．０６）。

モデル係数を判定する方法はいくつかある。一例において、パネルジェネレータ２５０は、関連モデル２７２を採用し、アクセスされたシークエンシングデータに対してＬ２罰則付きロジスティック回帰を実行する。この場合、モデル係数（例えば、感度係数）は、各ゲノム領域に対して判定された回帰係数である。他の例においては、分類モデル２７０は、Ｌ１罰則付きロジスティック回帰、エラスティックネット分類子ロジスティック回帰サポートベクターマシン（ＳＶＭ）、ＮａiｖｅＢａｙｅｓ、およびランダムフォレストを実行し、モデル係数を判定できる。

パネルジェネレータ２５０は、分類モデル２７０を採用し、アクセスされたゲノム領域を、それらの判定されたモデル係数に基づいてランク付けする。パネルジェネレータ２５０は、続いて、パネルに対するゲノム領域を関連指標として選択する。ランク付けおよび関連指標の選択については、以下で更に詳細に説明される。

ＶＩＩ．Ａ関連モデル性能
本明細書に記載の回帰ベースモデル（例えば、関連モデル２７２）は、ゲノム領域の大規模なセットで見られるものよりも検出能力が高い。例示として、表８は、回帰ベースの分類モデル２７０を使用して生成されたパネル（例えば、縮小され、最適化されたパネル）の検出能力を、上の表７で示したゲノム領域の大規模なセットの分類モデルと比較している。より具体的には、表は、ＳＮＶおよびインデルの両方の特徴変動を分析するために構成されたパネルの検出能力を比較している。さらに、表は、３つの異なるロジスティック回帰ベースの分類モデルの検出能力を、ゲノム領域の大規模なセットのものと比較している。表に示すように、ｌｏｇ－ｒｅｇ－ｌ２はＬ２ロジスティック回帰分類子であり、ｌｏｇ－ｒｅｇ－Ｌ１はＬ１ロジスティック回帰分類子であり、ｌｏｇ－ｒｅｇ－ｅｎはエラスティックネットロジスティック回帰分類子である。表に示すように、Ｌ２またはエラスティックネットロジスティック回帰を使用した縮小パネルに基づく分類子性能は、９５％、９８％、および９９％の特異度にわたり、ゲノム領域の大規模なセットのものより改善したのに対し、Ｌ１ロジスティック回帰を使用した縮小パネルの分類子性能は、概して、それらの特異度にわたり、同様の性能を得た、またはそうでなければ大規模なセットの分類子の性能を再現／維持した。

ＶＩＩ．Ｂモノ分類子およびバイ分類子
パネルジェネレータ２５０は、分類モデル２７０を採用し、ゲノム領域に対して導出された１つまたは複数の特徴量を分析することによりパネルを生成できる。概して、２つの特徴量に基づいて（すなわち、ＳＮＶおよびインデルの両方に基づいて）生成されたパネルは、単一の特徴量（例えば、ＳＮＶのみ）に基づいて生成されたパネルと同様の検出能力を得た。例示すると、図６Ａ～図６Ｄは、ＳＮＶおよびインデル（「バイ分類子」）に対する特徴量を分析する分類モデルと、ＳＮＶのみ（「モノ分類子」）に対する特徴量を分析する分類モデルとを採用するパネルジェネレータ２５０により生成されたパネルの検出能力を示している。図６Ａ～図６Ｄにおいて、分類子は、低シグナルのがんおよび高シグナルのがんの両方を含む試料に適用される。

図６Ａは、いくつかの実施形態に係る、低シグナルのがんおよび高シグナルのがんの両方を含む訓練データに適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットを示す。バイ分類子６１２がＳＮＶおよびインデルを特徴として有するＬ２ロジスティック回帰分類子を含むのに対し、モノ分類子６１４はＳＮＶのみに対するＬ２ロジスティック回帰分類子である。ＲＯＣプロット６１０に示すように、バイ分類子６１２は、高い検出感度においてはモノ分類子６１４より検出能力がわずかに高いが、性能は概して同一である。

図６Ｂは、いくつかの実施形態に係る、図６ＡにおけるＲＯＣプロットに対するＲＯＣ結果プロットを示す。ＲＯＣ結果プロットにおいて、ｘ軸は特異度であり、ｙ軸は感度である。ＲＯＣ結果プロットは、様々な特異度においてバイ分類子の感度をモノ分類子と比較する。ＲＯＣ結果プロット６２０に示すように、バイ分類子６２２は、モノ分類子６２４と比較して特異度に対する感度がわずかに高いが、それでも、性能は概して同一である。言い換えれば、本明細書に記載の方法に従ったパネル設計に対してＳＮＶのみを使用することにより、結果として臨床的感度の損失を最小限（例えば、１～２％）に抑えつつ、よりシンプルでより費用対効果の良いパネルがもたらされる。

図６Ｃは、いくつかの実施形態に係る、テストデータに適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットを示す。例えば、図６Ａ～図６Ｂにおけるような訓練データに対してバイ分類子およびモノ分類子を訓練した後、訓練された分類子は、テストデータのセットに対する分類を実行できる。図６Ａ～図６Ｂにおけるように、バイ分類子６３２がＳＮＶおよびインデルを特徴として有するＬ２ロジスティック回帰分類子を含むのに対し、モノ分類子６３４はＳＮＶのみに対するＬ２ロジスティック回帰分類子である。ＲＯＣプロット６３０に示すように、バイ分類子６３２は、概して、モノ分類子６３４と比較して検出能力が高いが最小限であり、結果として同様の分類性能が得られる。

図６Ｄは、いくつかの実施形態に係る、図６ＣのＲＯＣプロットに対するＲＯＣ結果プロットを示す。ＲＯＣ結果プロット６４０に示すように、バイ分類子６４２は、モノ分類子６４４と比較して９５％および９９％の特異度において感度が高いが最小限であり、９８％の特異度においてはモノ分類子６４４と同一の感度である。言い換えれば、テストデータにおける分類は、本明細書に記載するようなパネル設計に対してＳＮＶのみを使用することにより、ＳＮＶおよびインデルの両方に対して設計されたパネルと同様の性能を得ながら、よりシンプルなパネルも得られることを確認している。

図７Ａ～図７Ｄは、高シグナルのがんのみに対する、モノ分類子と比較したバイ分類子の検出能力の増加を更に示す。具体的に、図７Ａ～図７Ｄにおいて、パネルは、図６Ａ～図６Ｄにおけるような高シグナルのがんおよび低シグナルのがんの両方ではなく、高シグナルのがんのみを含む試料に適用される。図７Ａ～図７Ｄに示す両方の分類子は、Ｌ２ロジスティック回帰を含む。

図７Ａは、いくつかの実施形態に係る、訓練試料に適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットを示す。ＲＯＣプロット７１０に示すように、バイ分類子７１２は、高い検出感度において、モノ分類子７１４よりも検出能力が高いが最小限である。そのため、本明細書に記載の方法に従って高シグナルのがんに対するパネル設計に対してＳＮＶのみを使用することにより、結果として臨床的感度の損失を最小限に抑えつつ、よりシンプルでより費用対効果の良いパネルがもたらされる。

図７Ｂは、いくつかの実施形態に係る、図７ＡのＲＯＣプロットに対するＲＯＣ結果プロットを示す。ＲＯＣ結果プロット７２０に示すように、バイ分類子７２２は、モノ分類子７２４と比較して、全ての特異度で感度が高いが最小限である。そのため、バイ分類子７２２およびモノ分類子７２４は、高シグナルのがんに対して同様の分類性能を達成すると考えることができる。

表９は、図７Ａおよび図７Ｂにおけるパネルの結果を比較している。

図７Ｃは、いくつかの実施形態に係る、高シグナルのがんのテスト試料に適用されるバイ分類子およびモノ分類子により生成されたパネルに対するＲＯＣプロットを示す。例えば、図７Ａ～図７Ｂにおけるような高シグナルのがんの訓練データに対してバイ分類子およびモノ分類子を訓練した後、訓練された分類子は、高シグナルのがんのテストデータのセットに対する分類を実行できる。ＲＯＣプロット７３０に示すように、バイ分類子７３２は、高い検出感度において、モノ分類子７３４より検出能力が高いが最小限である。

図７Ｄは、いくつかの実施形態に係る、図７ＣにおけるＲＯＣプロットのＲＯＣ結果プロットを示す。ＲＯＣ結果プロット７４０に示すように、バイ分類子７４２は、モノ分類子７４４と比較して、全ての特異度で感度が高いが最小限である。そのため、テストデータに対する分類が更に示すように、本明細書に記載の方法に従って高シグナルのがんに対するパネル設計にＳＮＶのみを使用することにより、結果として臨床的感度の損失を最小限に抑えつつ、よりシンプルでより費用対効果の良いパネルがもたらされる。

表１０は、図７Ｃおよび図７Ｄにおけるパネルの結果を比較している。

ＶＩＩＩ．ゲノム領域のランク付け
上述したように、パネルジェネレータ２５０は、分類モデル２７０をアクセスされたゲノム領域に適用することによりパネルを生成する。分類モデル２７０は、アクセスされた指標の各々に対する特徴量を導出する関連モデル２７２を含む。関連モデル２７２は、続いて、ゲノム領域に対するモデル係数を判定し、それらのモデル係数に基づいてゲノム領域をランク付けする。ここで、モデル係数は、回帰ベースの分類子の回帰係数であるが、がんの存在に対するゲノム領域の指標となるものの別の定量化もありうる。

分類予測モデル２７０の１つまたは複数のモデルは、ゲノム領域をランク付けする、またはそうでなければ、パネル設計に含まれるべきゲノム領域を選択するための、回帰ベースの分類子および／または他のモデルを含むことができることが知られている。例として、関連モデル２７２は、図６Ａ～図６Ｄおよび図７Ａ～図７Ｄにおいて上述したような高シグナルのがんおよび／または他のがんを含む訓練データのセットなど、訓練データのセットに対して訓練されたロジスティック回帰分類子を含むことができる。さらに、関連モデル２７２は、ＳＮＶのみのパネル設計に対してＳＮＶのみを使用するモノ分類子、またはＳＮＶおよびインデルのパネル設計に対してＳＮＶおよびインデルを使用するバイ分類子を含むことができる。上述したように、場合によっては、ＳＮＶのみのパネルのためにＳＮＶのみをベースとした分類が、同様の分類性能が期待されうる、またはそうでなければ、得られうるとき、ＳＮＶとインデルとを結合したアプローチより好まれうる。なお、さらに、いくつかの例においては、ゲノム領域をランク付けまたは選択するためのモデルの１つまたは複数は、データベースおよび／または文献など、様々なソースからゲノム領域をカスタマイズまたはキュレートするためのモデルまたは方法論を含むことができる。分類予測モデル２７０は、以下で更に説明されるように、そのような分類モデルおよび／またはカスタマイズ技術の任意の組み合わせを含むことができることが知られている。

図８Ａ～図８Ｃ、図９Ａ～図９Ｃ、および図１０は、関連モデル２７２を指標セットに適用するパネルジェネレータ２５０により判定されたモデル係数を示す。指標セットは、例えば、固形および／または液状の両方のシークエンシングデータを含むＣＣＧＡ指標セットでありうる。関連モデル２７２は、訓練データ（例えば、高シグナルのがんのみの訓練データ、または高シグナルおよび低シグナルのがんの訓練データ）のセットに対して訓練されたＬ２ロジスティック回帰分類子など、回帰ベースの分類子でありうる。

ＶＩＩＩ．Ａ固形がん
図８Ａは、いくつかの実施形態に係る、高シグナルのがん（例えば、固形がん）に関係している４５の遺伝子に対する係数プロットを示す。係数プロットは、多数のゲノム領域に対するモデル係数を示す。すなわち、ｘ軸の各バーは、異なる遺伝子またはゲノム領域を表し、ｙ軸に沿ったバーの高さは、（任意の単位の）ゲノム領域のモデル係数の定量化である。

係数プロット８１０において、ゲノム領域は、それらの判定されたモデル係数に従ってランク付けされる。すなわち、ゲノム領域は、がんの存在を示す、またはがんの存在について情報価値のある、それらの特徴量に従ってランク付けされる。ここで、ゲノム領域は、固形がんに関係している遺伝子に対応し、以下の表１１にリスト化されている。そのため、係数プロット８１０の左側のゲノム領域は、係数プロット８１０の右側のゲノム領域より多く固形がんの存在を示す。

図８Ｂは、一実施形態に係る、固形がんに対するがん頻度プロットを示す。がん頻度プロットは、がんが存在する試料におけるゲノム領域に対する指標となる特徴量頻度を示す。すなわち、ｘ軸の各バーは異なるゲノム領域を表し、ｙ軸のバーの高さはそのゲノム領域における特徴量がどの程度がん試料を示すかを定量化したものである。さらに、ｘ軸の各位置におけるゲノム領域は、図８Ａの係数プロットの対応する位置におけるゲノム領域と同一である。例えば、図８Ａのゲノム領域１は、図８Ｂ等のゲノム領域１と同一である。

例示されたがん頻度プロット８２０において、がんを示す特徴は、ゲノム領域のＳＮＶに対する最大バリアントアレル頻度である。そのため、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度が、固形がんが存在する試料でどの程度生じるかを定量化したものである。とりわけ、ゲノム領域に対する指標となる特徴量頻度は、それらの対応するモデル係数と同様にはランク付けされない。このことは、指標となる特徴変動頻度の高さが、必ずしもがんの存在を強く示すゲノム領域に対応するわけではないことを示す。

図８Ｃは、一実施形態に係る、固形がんに対する非がん頻度プロットを示す。非がん頻度プロットは、非がん試料におけるゲノム領域に対する指標となる特徴量頻度を示す。ここで、ｘ軸の各位置のゲノム領域は、図８Ａおよび図８Ｂの対応する位置におけるゲノム領域と同一である。

非がん頻度プロット８３０において、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度が非がん試料でどの程度生じるかを定量化したものである。非がん試料における頻度は、がん試料における頻度よりずっと少なく、これは、図示された指標の特異度が高いことを示している。

ＶＩＩＩ．Ｂ液状がん
図９Ａ～図９Ｃは、モデル係数および特徴変動頻度が液状がん試料に対して訓練された回帰分類子から導出されることを除いて、図８Ａ～図８Ｃと同様なプロットを示す。追加的に、図９Ａ～図９Ｃは、いくつかの補足ゲノム領域（すなわち、ゲノム領域４６～５０）を含む。図９Ａ～図９Ｃのｘ軸の各位置におけるゲノム領域は、図８Ａ～図８Ｃの対応する位置のゲノム領域と同一である。

図９Ａは、いくつかの実施形態に係る、液状がんの検出のために適用されたときのゲノム領域に対する係数プロットを示す。係数プロット９１０において、ゲノム領域は、固形がんの存在を示すためのそれらのランク付けの順番に、ｘ軸に沿って並べられている。しかしながら、液状がんに対するモデル係数が固形がんに対するモデル係数と類似していないため、ゲノム領域は、液状がん検出に対しては適切にランク付けされていない。追加的に、補足ゲノム領域は、多くの元のゲノム領域よりも高いモデル係数を有する。このことは、パネルジェネレータ２５０が、プローブしようとするがんの種類に基づいてパネルに対するゲノム領域を選択できることを示している。

図９Ｂは、いくつかの実施形態に係る、液状がんに対するがん頻度プロットを示す。がん頻度プロット９２０において、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度ががん試料においてどの程度生じるかを定量化したものである。ｘ軸の各位置のゲノム領域は、図８Ａ～図８Ｃの対応する位置のゲノム領域と同一である。図８Ｂと同様に、特徴変動頻度は、ゲノム領域のランク付けに対応していない。

図９Ｃは、いくつかの実施形態に係る、液状がんに対する非がん頻度プロットを示す。非がん頻度プロット９３０において、指標となる特徴量頻度は、指標となる最大バリアントアレル頻度が非がん試料においてどの程度生じるかを定量化したものである。図８Ｃと同様に、非がん試料の頻度変動は、がん試料の頻度変動よりずっと小さい。

ＶＩＩＩ．Ｃ固形がん対液状がん
図１０は、いくつかの実施形態に係る、固形がんおよび液状がんに対する係数プロットを示す。係数プロット１０１０は、固形がんおよび液状がんに対するゲノム領域のモデル係数の差を示す。係数プロット１０１０において、塗りつぶされたバーが固形がん１０１２に対するモデル係数を表すのに対し、塗りつぶされていないバーは液状がん１０１４に対するモデル係数を表す。ｘ軸の各位置のゲノム領域は、図９Ａ～図９Ｃの対応する位置のゲノム領域と同一である。図示するように、ゲノム領域５、６、１０、および３９に対するモデル係数は、固形がんおよび液状がんの両方のがんの存在を示す。ゲノム領域１～４５におけるモデル係数が概して固形がんの存在を示すのに対し、ゲノム領域４６～５０におけるモデル係数は概して液状がんの存在を示す。

ＩＸ．指標の選択
上述したように、パネルジェネレータ２５０は、分類モデル２７０をアクセスされたゲノム領域に適用することによりパネルを生成する。分類モデル２７０は、各ゲノム領域に対するモデル係数を判定し、ランク付けする。パネルジェネレータ２５０は、続いて、パネルに対するゲノム領域を、それらのランク付けされたモデル係数に基づいて、指標として選択する。

パネルジェネレータ２５０は、いくつかの方法で指標を選択できる。第１構成において、パネルジェネレータ２５０は、特徴量からモデル係数を判定し、単一の反復でそれらの係数をランク付けする。パネルジェネレータ２５０は、続いて、単一の反復のランク付けに基づいて、パネルに対するゲノム領域を選択できる。分類モデル２７０は、異なる指標セットにも適用され、各指標セットに対して同様の方法で選択されうる。

別の構成において、パネルジェネレータ２５０は、各ゲノム領域がパネルに対して選択された後、モデル係数を判定し、ランク付けすることができる。例えば、第１反復の後に最も高くランク付けされた係数によりゲノム領域を選択した後、パネルジェネレータ２５０のモデルは、分類モデル２７０を残りの指標に適用し、特徴を導出し、第２反復でモデル係数をランク付けすることができる。パネルジェネレータは、続いて、第２反復で判定されたモデル係数に基づいて、ゲノム領域を選択できる。反復選択プロセスは、必要に応じて継続でき、異なる指標セットを含むことができる。

追加的に、どのようにパネルジェネレータ２５０を構成し、指標を選択するかを決定するときに考慮すべき設計上の側面がいくつかある。分類モデルによっては、各追加的な指標がそのパネルの検出能力を増加させると考え、パネルに対してできるだけ多くの指標を選択する。しかしながら、以下で説明するように、パネルの検出能力は、必ずしも各追加的な指標により増加するものではない。さらに、パネルに対する追加的な指標を選択することにより、そのパネルの複雑さおよびコストが増加する。そのため、パネルジェネレータ２５０は、性能測定基準に基づいて指標を選択するように構成されうる。性能測定基準によっては、上述したように、検出能力（例えば、分類感度、分類精度）、パネルサイズ、パネル標的（例えば、固形、液状等）、および／またはその任意の組み合わせを含む。

ＩＸ．Ａ検出能力
パネルジェネレータ２５０は、最適化された検出能力によりパネルを生成できる。検出能力を測定するための１つの性能測定基準は、例えば、９５％の特異度におけるパネル感度（「検出能力の測定基準」）であるが、他の性能測定基準も考えられる。従って、本例において、パネルジェネレータ２５０は、性能測定基準が別のゲノム領域または関連指標の追加により低下する、次第に減少する、および／または頭打ちになるまで、関連指標としてゲノム領域を継続的に選択する。関連指標は反復して選択され、各反復では、判定された最も高いモデル係数により指標を選択できる。

例示として、図１１Ａは、いくつかの実施形態に係る、固形がんに対する検出寄与プロットを示す。検出寄与プロット１１１０において、ｘ軸は、パネルに追加されたゲノム領域を表し、ｙ軸は、そのパネルに対する検出能力の測定基準を示す。ここで、性能測定基準は、所与の特異度における感度である。ゲノム領域は、固形がんに対するそれらのモデル係数に従ってランク付けされた順番でパネルに追加される。図示するように、ゲノム領域をパネルに追加することにより、寄与変曲点１１１２まで検出能力の測定基準が増加する。寄与変曲点１１１２において、追加的なゲノム領域を追加することにより、検出能力の測定基準が低下する。示された例において、寄与変曲点１１１２は４５のゲノム領域で生じ、その後、検出能力の測定基準が低下する。従って、パネルジェネレータ２５０は、（例えば、２００のゲノム領域の大規模なセットの）始めの４５のゲノム領域を、パネルに対する関連指標として選択できる。表１１は、例えば、固形がんの存在を判定するためのパネルに対して選択された４５の関連指標を示す。表は、それらの名前、サイズ、およびゲノムにおける位置を示す。

図１１Ｂは、いくつかの実施形態に係る、液状がんに対する検出寄与プロットを示す。検出寄与プロット１１２０において、ｘ軸は、パネルに追加されたゲノム領域を表し、ｙ軸は、そのパネルに対する性能測定基準を示す。ここで、性能測定基準は、所与の特異度における感度である。ゲノム領域は、液状がんに対するそれらのモデル係数に従ってランク付けされた順番でパネルに追加される。示された例において、寄与変曲点１１２２は、５つのゲノム領域であり、その後、性能測定基準は概して頭打ちになる。従って、パネルジェネレータ２５０は、（例えば、９つのゲノム領域の大規模なセットの）始めの５つのゲノム領域をパネルに対する関連指標として選択できる。表１２は、例えば、液状がんの存在を判定するためのパネルに対して選択された５つの関連指標を示す。表は、それらの名前、サイズ、およびゲノムにおける位置を示す。

ＩＸ．Ｂパネルサイズ
パネルジェネレータ２５０は、ランク付けされた指標を選択し、閾値パネルサイズ未満のパネルサイズのパネルを生成できる。例えば、パネルジェネレータ２５０は、５００ｋｂ未満のパネルを生成するように構成されうる。閾値パネルサイズは、パネルジェネレータ２５０の構成、システム２００の管理者による指定でありうる、またはシステム２００のユーザから受信されうる。

例示すると、図１２は、いくつかの実施形態に係る、固形がんに対するサイズ寄与プロットを示す。サイズ寄与プロット１２１０において、ｘ軸は、パネルに追加されたランク付けされたゲノム領域の数を表し、ｙ軸は、パネルに対するパネルサイズを示す。破線の横線１２１２は、２００ｋｂの所望の閾値パネルサイズを示す。図示するように、ゲノム領域をパネルに追加することによりパネルサイズが増加し、４５番目に追加された指標は、パネルサイズを、閾値パネルサイズを上回って増加させる。従って、選択されたパネルは、始めの４４のゲノム領域を含む。

Ｘ．追加的な指標
上述したように、パネルジェネレータ２５０は、分類モデル２７０を採用し、パネルに関連指標として含むべきゲノム領域を判定する。本明細書で説明されるように、分類モデルは、関連遺伝子モデル２７２に従ってパネルに対するゲノム領域を選択した。しかしながら、状況によっては、関連遺伝子モデル２７２は、その構成によりパネルの検出能力を増加させうるいくつかのゲノム領域を同定しなくてもよい。従って、分類モデル２７０は、１つまたは複数の追加的なモデルを採用し、パネルの指標として追加的なゲノム領域を同定し、選択できる。以下で説明するように、いくつかの追加的なモデルには、例えば、領域カバレッジモデル２７４、がん種類モデル２７６、ホットスポット領域モデル２７８、およびウイルス領域モデル２８０がある。

Ｘ．Ａカバレッジ指標
上述したように、パネルジェネレータ２５０は、指標データベース２８０からゲノム領域を含む指標セットにアクセスできる。パネルジェネレータ２５０は、例えば、関連モデル２７２を訓練し、指標セットからの同定された指標を使用してパネルを生成する。しかしながら、場合によっては、指標セットは、関連モデル２７２を訓練するのに適切ではない。これらの例において、パネルジェネレータ２５０は、異なるモデルを適用して、パネルカバレッジを改善するカバレッジ指標として、パネルに対する追加的なゲノム領域を選択できる。カバレッジは、指標セットにおける試料が、どのぐらいパネルに含まれるゲノム領域により同定されるかを定量化したものである。カバレッジは、感度の定量化ではない。

説明のため、がん試料のみから取得されたゲノム領域を含む指標セットについて考える。この場合、指標セットががん試料から判定されたゲノム領域を含むが、非がん試料から取得された対照データを欠いているため、パネルジェネレータ２５０は、関連モデル２７２を訓練できない。従って、パネルジェネレータ２５０は、領域カバレッジモデル（「カバレッジモデル２７４」）を適用して、パネルに含むべきカバレッジ指標を判定できる。

カバレッジモデル２７４は、関連モデル２７０と同様な方法で、指標セットにおける各ゲノム領域に対するモデル係数を同定する。本例において、モデル係数は、ゲノム領域をパネルに追加するときにどのぐらいの追加的な試料（例えば、訓練および／またはテストセットにおける患者の試料）が同定されるのかの尺度（「カバレッジ係数」）である。パネルジェネレータ２５０は、続いて、判定されたカバレッジ係数をランク付けし、続いて、カバレッジ指標として、パネルに含有するために、ランク付けされたリストからゲノム領域を選択する。パネルジェネレータ２５０は、いくつかの他の測定基準によりそれらのランク付けされた順番でカバレッジ指標を選択することも、全く選択しないことも考えられる。

例えば、いくつかの例においては、カバレッジモデル２７４は、欲張りアルゴリズムを使用し、性能（例えば、感度）が頭打ちになるまで遺伝子をパネルに追加する。例えば、最初のパネルは、上述したように関連遺伝子モデル２７２により選択された上位５０の遺伝子を含むことができる。場合によっては、ＴＣＧＡデータなどの追加的なデータセットを使用することにより、パネルに含まれるべき追加的な遺伝子を同定できる。その場合、パネルの性能（例えば、感度）は、ＴＣＧＡデータにおいて評価され、それにより、カバレッジモデル２７４は、最初の５０の遺伝子に加えて、パネルの感度を更に増加させる追加的な遺伝子を同定できる。例として、ＳＮＶパネル設計に関して、カバレッジモデル２７４は、ＴＣＧＡＳＮＶデータから高シグナルのがんおよび液状がんを評価し、続いて、感度が頭打ちになるまで、および／または所望のパネルサイズになるまで、遺伝子をパネルに追加する欲張りアルゴリズムを使用できる。その際、カバレッジモデル２７４は、患者ごとの体細胞変異の頻度により、および／またはコード領域の長さにより正規化された頻度により、ＴＣＧＡデータにおける遺伝子をランク付けし、続いて、ＴＣＧＡ遺伝子を追加することにより、どれぐらいの追加的な患者（例えば、試料）が捕らえられる、またはそうでなければ、カバーされるかを調査できる。場合によっては、カバレッジモデル２７４により同定されたゲノム領域は、候補遺伝子（例えば、ＴＣＧＡ遺伝子）と見なされ、続いて、それらの性能への寄与の評価に加えて、および／または代えて、ＧＤＣがんポータルおよび文献において変異プロファイルを観察することによるなど、他のデータベースとクロスチェッキングすることにより、パネルへの追加のために手動でキュレートされうる。

例示すると、図１３Ａは、いくつかの実施形態に係るカバレッジプロットを示す。カバレッジプロットは、アクセスされた指標セット（例えば、ＴＣＧＡ指標セット）により適用されたパネルのカバレッジを示す。カバレッジプロット１３１０において、ｘ軸は、パネルに対して選択されたゲノム領域の数を示し、ｙ軸は、パネルのカバレッジ（例えば、カバーされた患者の試料の数）を示す。本例において、始めの５０のゲノム領域は、関連モデル２７２に従って選択された関連指標１３１２である。残りのゲノム領域は、カバレッジモデル２７４に従って選択されたＴＣＧＡゲノム領域の指標セットからのカバレッジ指標１３１４である。

カバレッジプロット１３１０は、カバレッジ指標のカバレッジを描写する２本の線：（ｉ）パネルにおける指標の数が増加するにつれてカバレッジを示す第１の線（例えば、非正規化１３１６）、および（ｉｉ）コード領域の長さにより正規化され、パネルにおける指標の数が増加するにつれてカバレッジを示す第２の線（例えば、正規化１３１８）を含む。どちらの場合にも、カバレッジプロット１３１０は、パネルにおけるゲノム領域の数が増加するにつれて、完全なカバレッジに向けた漸近的成長を示す。パネルジェネレータ２５０は、場合によってはパネルの残りの空間および／またはパネルの所望のサイズに応じて、パネルに対するカバレッジ指標のいずれかを選択できる。例えば、パネルジェネレータ２５０は、パネルに対して３つのカバレッジ指標を選択できる。表１３は、パネルに対して選択された３つのカバレッジ指標の名前、サイズ、および位置を示す。

図１３Ｂは、いくつかの実施形態に係るカバレッジサイズプロットを示す。カバレッジサイズプロット１３２０は、異なる方法で図１３Ａにおける情報を伝達する。ここで、ｘ軸は、パネルサイズを示し、ｙ軸は、パネルのカバレッジを示す。ここで、パネルサイズの増加は、それらのそれぞれのモデルに従ってゲノム領域をパネルに追加することから生じる。追加されたゲノム領域は、図１３Ａのカバレッジプロット１３１０と同じ順番で生じる。

カバレッジサイズプロット１３２０において、始めの２４０ｋｂのパネルサイズは関連モデル２７２に従って選択された指標（関連指標１３２２）に起因し、パネルサイズにおける追加的な塩基は、カバレッジモデル２７４に従って選択された指標（カバレッジ指標１３２４）からのものである。カバレッジプロット１３２０も、２本の線：（ｉ）パネルサイズの増加に伴うカバレッジの増加を示す第１の線（非正規化１３２８）、および（ｉｉ）パネルサイズの増加に伴うカバレッジの増加を示すが、追加された指標のコード領域の長さにより正規化される第２の線（正規化１３２６）を含む。

Ｘ．Ｂがんの種類指標
上述したように、パネルジェネレータ２５０は、指標セットにアクセスし、指標となるゲノム領域をそれらのモデル係数に従ってランク付けする。ここまで、モデル係数は、がんの存在に対してゲノム領域がどのように決定力をもつか、またはゲノム領域がどのぐらいカバレッジを追加するかを定量化するのみであった。しかしながら、構成によっては、ゲノム領域およびそれらのモデル係数は、がんの種類も示すことができる。

例示すると、図１４は、いくつかの実施形態に係る種類分類プロットを示す。種類分類プロットは、様々ながんの種類に対して、ゲノム領域の変動頻度を示す。図示された種類分類プロット１４１０は、１５種類のがんにわたる５０のゲノム領域（例えば、上記の表１１および表１２における５０の選択された遺伝子）における体細胞変異の頻度を示す。変動頻度の範囲は０．００～０．６０である。ゲノム領域は、図９Ａ～図９Ｃにおける関連指標と同一であり、同様にランク付けされる。１５種類のがんは、それぞれ、例えば、肺、乳、大腸、膵、食道、胃、肝胆道、白血病、リンパ腫、多発性骨髄腫、膀胱、肛門直腸、頭頸部、卵巣、および子宮頸がんでありうる。他のがんの種類も考えられるが、示されてはいない。

分類種類プロット１４１０は、ゲノム領域の特徴変動（例えば、最大バリアントアレル頻度の変動）が様々ながんの種類を有する試料においてどのくらい生じるかについての差を示す。例えば、１番目のがんの種類は、１番目のゲノム領域の特徴変動により示されるのに対し、１２番目のがんの種類は、同一のゲノム領域の特徴変動によりほとんど示されていない。別の例においては、４番目のがんの種類は、３番目のゲノム領域の特徴変動により示されるのに対し、５番目のがんの種類は、同一のゲノム領域の特徴変動によりほとんど示されていない。

各ゲノム領域に関して、特徴変動が高いがんの種類の数が多いほど、ゲノム領域はがんの存在を示す可能性が高い。すなわち、いくつかのがんの種類にわたり特徴変動が高いゲノム領域は、モデル係数（例えば、感度係数）が高い。このことは、種類分類プロット１４１０において、プロットの右側のゲノム領域（すなわち、モデル係数がより低いもの）よりも、複数のがんの種類にわたって変動頻度が高く、密度が高い、プロットの左側のゲノム領域（すなわち、モデル係数がより高いもの）として示されている。

場合によっては、ゲノム領域の特徴変動は、単一のがんの種類に対して生じ、他に対しては生じない。例えば、１９番目のゲノム領域における特徴変動は、１３番目のがんの種類を示すが、他は示さない。このことは、パネルが１９番目のゲノム領域の特徴変動を検出した場合、その変動は１３番目のがんの種類を示す可能性が高いことを示す。

従って、いくつかのゲノム領域は、パネルの種類精度を高めることができる。種類精度は、パネルが、がんが存在する試料においてどれぐらい正確にがんの種類を判定するかを定量化するものである。よって、種類精度を高めるため、パネルジェネレータ２５０は、がん種類モデル２７６を適用し、種類指標としてパネルに含むべきゲノム領域を判定できる。

がん種類モデル２７６は、指標となるゲノム領域を含む指標セットに対して実行される多項ロジスティック回帰でありうる。パネルジェネレータ２５０は、がん種類モデル２７６を指標セットに対する特徴量に適用し、各ゲノム領域に対するモデル係数（「種類係数」）のセットを判定する。種類係数のセットは、様々ながんの種類に対するゲノム領域の指標となるものを定量化する。パネルジェネレータ２５０は、続いて、各がんの種類に対して判定された種類係数をランク付けし、続いて、種類指標としてパネルに含有するため、ランク付けされたリストからゲノム領域を選択する。パネルジェネレータ２５０は、いくつかの他の測定基準によりランク付けされた順番で種類指標を選択することも、全く選択しないことも考えられる。

実施形態によっては、パネルジェネレータ２５０は、後続の種類指標がパネルの種類精度を低下させる、またはパネルの種類精度の増加に貢献しなくなるまで、種類指標をパネルに追加する。例示すると、図１５は、いくつかの実施形態に係る、パネルに対する精度寄与プロットを示す。精度寄与プロット１５１０において、ｘ軸は、パネルに対する潜在的な種類指標の数を表し、ｙ軸は、パネルに対する種類精度を示す。ｘ軸の種類指標は、それらのモデル係数に従ってランク付けされた順番で選択される。

図示するように、追加的な種類指標をパネルに追加することにより、寄与変曲点１５１２まで種類精度が高まる。寄与変曲点１５１２において、種類指標を追加すると、パネルの種類精度が低下する。示された例において、寄与変曲点は、９つの種類指標で生じるが、他の例においては他の数でありうる。従って、パネルジェネレータ２５０は、９つの追加的なゲノム領域の任意の組み合わせまたは全てをパネルに追加し、その種類精度を高めることができる。例えば、パネルジェネレータ２５０は、パネルに対して５つの種類指標を選択できる。表１４は、パネルに対して選択された５つの種類指標の名前、サイズ、および位置を示す。

Ｘ．Ｃホットスポット指標
上述したように、パネルジェネレータ２５０は、任意の数のゲノム領域をパネルに追加し、がんの存在を判定できる。しかしながら、状況によっては、パネルジェネレータ２５０は、ゲノム領域の１つまたは複数の部分を追加することにより、完全なゲノム領域を追加するのと同様な方法でがんの存在を判定できることを判定できる。

説明のため、長さが１５６８ｂｐのゲノム領域について考える。ゲノム領域の特徴変動は、がんの存在を示す。本例において、特徴変動は、集団において特定の頻度で、ゲノム領域の３４２ｂｐのセグメントで生じる。特定の頻度が閾値頻度（例えば、集団の少なくとも１％）より大きい場合、パネルジェネレータ２５０は、セグメントをホットスポットとして同定できる。パネルジェネレータ２５０は、ゲノム領域全体（例えば、１５６８ｂｐの領域）を追加するのではなく、ホットスポット指標（例えば、３４２ｂｐのセグメント）としてホットスポットをパネルに追加できる。

パネルに対するホットスポット指標を判定する方法はいくつかある。一実施形態において、パネルジェネレータ２５０は、ホットスポット領域モデル２７８を指標セットに適用し、ホットスポット指標を判定できる。ホットスポット領域モデル２７８は、アクセスされた指標セットに含まれる任意のゲノム領域に対するホットスポットを判定できる。そのため、パネルジェネレータ２５０は、ホットスポット領域モデル２７８を採用し、指標セットにおける各ゲノム領域を分析し、特徴変動が起こりやすいホットスポットを判定する。パネルジェネレータ２５０は、１つまたは複数の基準に基づいて、パネルに対するホットスポット指標としてホットスポットを選択できる。例示すると、基準には、（ｉ）ホットスポットは、試料集団の閾値パーセンテージよりも大きい特徴変動を有する、（ｉｉ）ホットスポットは、２つ以上の指標セットを分析するときに同定される、（ｉｉｉ）ホットスポットは、がんの存在を示す限り、セグメントのライブラリーにおいて同定される、（ｉｖ）セグメントは、分類モデル２７０における他のモデルによりパネルに対して選択されたゲノム領域で生じる、（ｖ）セグメントは、分類モデル２７０における他のモデルによりパネルに対して選択されたゲノム領域で生じない、および（ｖｉ）ホットスポットは、指標セットにおける配列の閾値数よりも多く生じることを含むことができる。

様々な基準選択が、パネルサイズおよびパネルの検出能力に影響を与える。例えば、パネルジェネレータ２５０が第４基準を利用してホットスポット領域モデル２７８を採用することにより、ゲノム領域がホットスポット指標に置き換えられうる。ゲノム領域をホットスポット指標に置き換えることにより、パネルサイズが減少する一方、同時にパネルの検出能力も低下しうる。反対に、パネルジェネレータ２５０が第５基準を利用してホットスポット領域モデル２７８を採用することにより、かなりの数のホットスポットがパネルに追加されうる。ホットスポット指標を追加することにより、パネルサイズが増加し、概してパネルの検出能力も高まる。他の多くの基準の組み合わせも考えられる。

一例において、パネルジェネレータ２５０は、分類モデル２７０における他のモデルにより前もって同定されていない、集団の１％より多くで生じるホットスポットに対する３６のホットスポット指標を選択する。表１５は、ゲノム領域の名前、そのゲノム領域におけるホットスポットの数、およびパネルに対して選択された１３のホットスポット指標の位置を示す。

Ｘ．Ｄウイルス指標
上述したように、パネルジェネレータ２５０は、指標セットにおいてがんの存在を示すゲノム領域を判定し、パネルを生成する。場合によっては、指標セットは、がんの存在と関連しているウイルスゲノムを含む。従って、パネルジェネレータ２５０は、パネルに対するウイルス指標として、がんの存在と関連しているウイルスに対するゲノム領域を選択できる。例示すると、ＨＰＶウイルスは、子宮頸がんと関連しており、かなりの割合の子宮頸がんの患者に存在する。従って、パネルジェネレータ２５０は、子宮頸がんに対するパネルの検出能力を高めるウイルス指標を含むことができる。

パネルに対するウイルス指標を判定する方法はいくつかある。一実施形態において、パネルジェネレータ２５０は、ウイルスセグメントモデルを適用し、ウイルス指標を判定できる。ウイルスセグメントモデルは、アクセスされた指標セットからウイルス指標を判定する。そのため、パネルジェネレータ２５０は、ウイルスセグメントモデルを採用し、ウイルスゲノムの１つまたは複数のセグメント（「ウイルスセグメント」）に対するウイルス係数を判定する。ウイルス係数は、ウイルスセグメントと、がんの存在との関連、および、場合によっては、がんの種類との関連を定量化する。パネルジェネレータ２５０は、続いて、（分類および／または種類に対して）判定されたウイルス係数をランク付けし、続いて、ウイルス指標としてパネルに含有するため、ランク付けされたリストからセグメントを選択する。ウイルス指標は、いくつかの他の測定基準によりランク付けされた順番で選択されることも、全く選択されないことも考えられる。例えば、パネルジェネレータ２５０は、閾値を超えるウイルス係数を有するウイルス指標だけを選択できる。追加的に、場合によっては、ウイルスセグメントモデルは、パネルに含有するため、ウイルスごとに２つ以上のウイルスセグメントを選択できる。例えば、パネルジェネレータ２５０は、パネルに含有するため、ＨＰＶの１０のウイルスセグメントを選択できる。

表１６は、ウイルスの名前、ウイルス指標として含まれるウイルスセグメントの数、およびウイルス指標のサイズを示す。

ＸＩ．例示のパネル生成
本明細書に記載するように、パネルジェネレータ２５０は、いくつかの性能測定基準に従ってパネルを生成でき、本節では、ある性能測定基準に従ってパネルを生成するパネルジェネレータ２５０のいくつかの例について説明する。

ＸＩ．Ａ分類能力の増加
一例において、性能測定基準は、分類能力である。従って、パネルジェネレータ２５０は、がんの存在を判定するためのパネルを生成する。図１６は、一実施形態に係る、がんの存在を判定するためのパネルを生成するための例示のワークフローを示す。ワークフロー１６００は、システム２００または別の類似のシステム２００により実行されうる。ワークフロー４００は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。

パネルジェネレータ２５０は、ゲノム領域の第１セットに対するシークエンシングデータ（例えば、テスト配列）を取得する（１６１０）。ゲノム領域の第１セットは、ＣＣＧＡ指標セットでありうるが、ゲノム領域の別のセットでもよい。第１セットにおけるゲノム領域の各々は、多数のテスト配列と関連し、がん関連遺伝子、変異ホットスポット、およびウイルス領域と関連しうる。

パネルジェネレータ２５０は、第１セットにおける各ゲノム領域に対する特徴量を導出する（１６１２）。例えば、各ゲノム領域に対する特徴量は、そのゲノム領域と関連しているシークエンシングデータにおけるテスト配列のＳＮＶに対する最大ＶＡＦでありうる。他の特徴量も考えられる。例えば、特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、真のバリアントのアレル頻度等でありうる。

パネルジェネレータ２５０は、ゲノム領域の特徴量に基づいてパネルの疾病分類能力を予測する分類モデル２７０を採用する。疾病分類能力は、例えば、がんの有無および／またはがんの種類を分類することを含むことができる。パネルの分類能力は、どちらの場合にも、例えば、特定の特異度におけるパネルの感度などの、性能測定基準により定量化されうる。

疾病分類能力を予測するため、パネルジェネレータ２５０は、分類モデル２７０を特徴量に適用し、モデル係数のセットを生成する（１６１４）。各モデル係数は、指標セットにおける１つのゲノム領域に対応し、疾病分類に対して、その対応するゲノム領域の指標となるものを定量化する。

パネルジェネレータ２５０は、ゲノム領域をそれらのモデル係数に従ってランク付けする（１６１６）。例えば、モデル係数が最も高いゲノム領域が最初にランク付けされるのに対し、モデル係数が最も低いゲノム領域は、最後にランク付けされる。

パネルジェネレータ２５０は、、ゲノム領域の第１サブセットをそれらのランクに基づいて同定する（１６１８）。例えば、パネルジェネレータ２５０は、パネルの疾病分類を最適化する、ゲノム領域のサブセットを同定できる。パネルジェネレータ２５０は、同定されたゲノム領域の第１サブセットを含むパネルを生成する（１６２０）。

実施形態によっては、パネルジェネレータ２５０は、指標の１つまたは複数の追加的なセットにアクセスし、分類モデル２７０を指標の追加的なセットに適用できる。その際、パネルジェネレータ２５０は、パネルに含有するため、ゲノム領域の１つまたは複数の追加的なサブセットを同定できる。

第１例において、パネルジェネレータ２５０は、第２指標セットにアクセスし、そのセットにおけるゲノム領域に対する特徴量を導出できる。第２指標セットに適用されたとき、分類モデル２７０は、各ゲノム領域に対するモデル係数を判定し、モデル係数に従ってゲノム領域をランク付けする。分類モデル２７０は、パネルに含むべきゲノム領域の第２サブセットを、それらのランクに基づいて同定できる。領域の同定された第２セットは、ゲノム領域の第１サブセットと同一の、または異なる性能測定基準に基づいて、パネルに対して選択されうる。第１例において、ゲノム領域の第２セットは、疾病分類能力ではなく、パネルのカバレッジを最適化できる。第２例において、選択されたゲノム領域は、パネルによりカバーされるホットスポットの数を増加させることができる。第３例において、選択されたゲノム領域は、がん関連ウイルスと関連しうる。

図１７Ａ～図１８Ｂは、ワークフロー１６００に従ってパネルジェネレータ２５０により生成されたパネルの分類精度を示す。

図１７Ａは、一実施形態に係る、訓練データのセットに対する集団プロットである。集団プロット１７１０において、ｘ軸は、がんの種類であり、ｙ軸は、訓練集団におけるその種類のがんを有する試料の数である。集団プロットにおいて、がんの種類は、それぞれ、肛門直腸、膀胱、子宮頸、大腸、食道、胃、頭頸部、肝胆道、白血病、肺、リンパ腫、多発性骨髄腫、卵巣、膵、および乳である。

図１７Ｂは、例示の一実施形態に係る感度プロットである。感度プロット１７２０において、ｘ軸は、がんの種類であり、ｙ軸は、訓練集団に対するパネルの検出感度数である。

表１７は、訓練データにおける第１パネルおよび第２パネルの検出能力を示す。第１パネルは、関連指標を含むパネルである。第２パネルは、関連指標、カバレッジ指標、種類指標、ホットスポット指標、およびウイルス指標を含むパネルである。表における各項目は、示された特異度における感度である。

図１８Ａは、一実施形態に係る、テストデータのセットに対する集団プロットである。集団プロット１８１０において、ｘ軸は、がんの種類であり、ｙ軸は、テスト集団におけるその種類のがんを有する試料の数である。集団プロットにおいて、がんの種類は、それぞれ、肛門直腸、膀胱、子宮頸、大腸、食道、胃、頭頸部、肝胆道、白血病、肺、リンパ腫、多発性骨髄腫、卵巣、膵、および乳である。

図１８Ｂは、例示の一実施形態に係る感度プロットである。感度プロット１８２０において、ｘ軸は、がんの種類であり、ｙ軸は、テスト集団に対するパネルの検出感度数である。

表１８は、第１パネルおよび第２パネルの両方のテストデータにおけるパネルの検出能力を示す。第１パネルは、関連指標を含むパネルである。第２パネルは、関連指標、カバレッジ指標、種類指標、ホットスポット指標、およびウイルス指標を含むパネルである。表における各項目は、示された特異度における感度である。

ＸＩ．Ｂパネルサイズの減少
一例において、性能測定基準は、パネルサイズである。従って、パネルジェネレータ２５０は、閾値パネルサイズ未満の、がんの存在を判定するためのパネルを生成する。図１９は、一実施形態に係る、閾値パネルサイズ未満のパネルを生成するための例示のワークフローを示す。ワークフロー１９００は、システム２００または別の類似のシステム２００により実行されうる。ワークフロー１９００は、追加的な、またはより少ないステップを含むことができ、ステップは、異なる順番で配置されうる。

システム２００は、リクエストを受信し、患者におけるがんの存在を判定するパネルを生成する（１９１０）。リクエストは、パネルに対する閾値パネルサイズを含む。一例において、システム２００は、システム２００のユーザから、閾値パネルサイズを含むリクエストを受信するが、リクエストは、例えば、接続されたクライアントシステム２００、システム２００の管理者などの他のソースからも受信されうる。例示すると、システム２００のユーザは、システム２００にリクエストを送信し、４００，０００の塩基対の閾値パネルサイズを有するパネルを生成するが、他の閾値パネルサイズも考えられる。例えば、閾値パネルサイズは、１０ｋｂ、３５ｋｂ、７０ｋｂ、１５０ｂｋ、３００ｋｂ等でありうる。

システム２００は、パネルジェネレータ２５０を利用し、パネルに含むべき１つまたは複数のゲノム領域を判定する。パネルジェネレータ２５０は、パネルに含まれうるゲノム領域に対するシークエンシングデータを含む指標セットにアクセスする（１９１２）。ゲノム領域データベースに含まれるいくつかの例示のゲノム領域が、表Ｉ～表Ｖに示される。他の例においては、シークエンシングは、他のソースからアクセスまたは受信されうる。例えば、システム２００は、ユーザから１つまたは複数のゲノム領域を受信できる、または、システム２００は、本明細書に記載のプロセスのいずれかを使用して１つまたは複数のゲノム領域を判定できる。

パネルジェネレータ２５０は、指標セットにおける各ゲノム領域に対する特徴量を導出し（１９１４）、分類モデル２７０を特徴量に適用し、指標セットにおける各ゲノム領域に対するモデル係数を判定する（１９１６）。パネルジェネレータ２５０は、上述したように判定されたモデル係数をランク付けする（１９１８）。

パネルジェネレータ２５０は、結果として得られるパネルが閾値パネルサイズ未満のパネルサイズを有するように、パネルに対するゲノム領域のサブセットを同定する（１９２０）。説明のため、先の例を続けると、パネルに対する閾値パネルサイズは、１６．０ｋｂである。パネルジェネレータ２５０は、パネルに対するゲノム領域を反復して選択し、対応するパネルサイズは、選択されたゲノム領域のサイズに基づいて増加する。パネルジェネレータ２５０は、追加的なゲノム領域により、結果として得られるパネルサイズが閾値パネルサイズを上回る場合、パネルに対する追加的なゲノム領域を選択しない。

パネルジェネレータ２５０は、同定されたゲノム領域の第１サブセットを含むパネルを生成する（１９２２）。パネルを生成することは、同定されたゲノム領域のサブセットを要求元に送信することを含むことができる。例えば、パネルジェネレータ２５０は、パネルを要求したシステム２００のユーザにパネルを送信する。

ＸＩ．Ｃフィルタリング
パネルジェネレータにより生成されたパネルの検出能力を改善できるフィルタリング方法はいくつかある。第１例において、パネルジェネレータは、シークエンシングデータにおける閾値数の配列にバリアントを有するゲノム領域に対する特徴量のみを導出することができる。第２例において、パネルジェネレータは、パネルからゲノム領域を複製し、またはゲノム領域の重複を除外し、検出能力を高めることができる。第３例において、システム管理者は、パネルからゲノム領域を除外することができる。最後に、パネルジェネレータは、ゲノム領域ブラックリストに基づいてパネルからゲノム指標を除外することができる。ゲノム領域ブラックリストには、特許権を有するゲノム領、偽陽性を生じさせることが知られるゲノム領域、またはパネルの検出能力を低下させうる任意の他のゲノム領域を含めることができる。

ＸＩＩ．アッセイパネルに対するプローブの生成
パネルジェネレータ２５０は、プローブジェネレータ２６０を採用し、パネルに対するプローブを生成することもできる。そのため、プローブジェネレータ２６０は、パネルに対して選択されたゲノム領域を入力し、そのゲノム領域を配列する１つまたは複数のプローブを出力することができる。例えば、プローブジェネレータ２６０は、４．５ｋｂのパネルに対して選択されたゲノム領域を入力できる。プローブジェネレータ２６０は、５つのプローブを出力し、そのゲノム領域を配列することができる（例えば、４つの１ｋｂのプローブ、および１つの５００ｋｂのプローブ）。

いくつかの例においては、プローブジェネレータ２６０は、ゲノム領域に対するプローブを標的プローブ長さに正規化できる。言い換えれば、プローブジェネレータ２６０は、ゲノム領域に対して生成された全てのプローブが標的長さを有することを保証する。様々な実施形態において、プローブジェネレータ２６０は、プローブを正規化するとき、（ｉ）プローブを標的長さに分割する、および／または（ｉｉ）プローブを標的長さに増大させることができる。プローブジェネレータ２６０は、プローブを何度も分割し、および／または増大させ、プローブを標的長さに正規化することができる。

説明のため、例えば、第１ゲノム領域を含むプローブジェネレータ２６０により生成されたパネルについて考える。プローブジェネレータ２６０は、第１ゲノム領域に対して第１プローブおよび第２プローブを判定する。第１プローブは、２５６４の核酸塩基のサイズを有し、第２プローブは、１１２の核酸塩基のサイズを有する。パネルにおけるプローブの標的サイズは、例えば、１２０の核酸塩基である。プローブジェネレータ２６０は、（ｉ）第１プローブを２２のプローブに分割し、プローブの内２１個が１２０の核酸塩基を有し、プローブの内１つが４４の核酸塩基を有し、（ｉｉ）４４の核酸塩基を有するプローブを１２０の核酸塩基にパディングすることにより、第１プローブを正規化する。プローブをパディングすることは、情報価値のない核酸塩基をプローブの端に付加することを含む。プローブジェネレータ２６０は、プローブを１２０の核酸塩基にパディングすることにより、第２プローブを正規化する。

場合によっては、プローブは、プローブの端の近くのコード領域を誤って配列する可能性が高いこともありうる。例として、プローブが１２０の核酸塩基を含む場合、例えば、始めの１０の核酸塩基および最後の１０の核酸塩基は、それらの核酸塩基と関連しているコード領域を不適切に配列する可能性が高い。そのため、パネルジェネレータは、パネルに対して判定されたプローブの１つまたは複数を中心化することができる。プローブを中心化することは、情報価値のない核酸塩基をプローブの両端に付加することを含む。説明のため、例えば、１５０の核酸塩基を含むゲノム領域に対するプローブについて考える。プローブジェネレータ２６０は、プローブが１８０の核酸塩基を含むように、１５の核酸塩基をそれぞれの端に付加することにより、プローブを中心化する。他の数の核酸塩基も、プローブの両端に付加されうる。

場合によっては、プローブは、例えプローブの端の近くにはなくても、コード領域を不適切に配列することができる。従って、プローブジェネレータ２６０は、プローブをタイリングし、コード領域をより正確に配列できる。プローブをタイリングすることは、コード領域における全ての核酸塩基が少なくとも２つのプローブで生じるプローブを生成することを含む。通常、タイリングされたプローブは、隣接していると見なされる。隣接したプローブは、対の各プローブにおける核酸塩基の割合が同一であるプローブの対である。いくつかの例においては、割合は２分の１だが、他の割合もありうる。

説明のため、例えば、核酸塩基の以下の組み合わせ：ＴＣＧＡＡＡＣＧＧＴＣで配列されるコード領域を有するゲノム領域について考える。プローブジェネレータ２６０は、以下のプローブ：（ｉ）［ｘｘＴＣ］、（ｉｉ）［ＴＣＧＡ］、（ｉｉｉ）［ＧＡＡＡ］、（ｉｖ）［ＡＡＣＧ］、（ｖ）［ＣＧＧＴ］、（ｖｉ）［ＧＴＣｘ］、および（ｖｉｉ）［Ｃｘｘｘ］を生成することにより、プローブをタイリングする。本例において、プローブ（ｉ）および（ｉｉ）、（ｉｉ）および（ｉｉｉ）、（ｉｉｉ）および（ｉｖ）等は、プローブの半分が同一である、隣接した対である。これらのプローブにより、コード領域の各核酸塩基は、２回配列される。

実施形態によっては、プローブジェネレータ２６０は、判定されたプローブを中心化し、正規化する。説明のため、例えば、３３０の核酸塩基を有するゲノム領域に対するプローブについて考える。プローブの標的サイズは、１２０の核酸塩基である。プローブジェネレータ２６０は、本例において、５つの核酸塩基を各プローブの両端に付加することにより、プローブを中心化する。従って、プローブジェネレータ２６０は、１２０の核酸塩基の３つのプローブを生成することにより、プローブを中心化し、正規化する。生成されたプローブの各々は、中心に１１０の情報価値のある核酸塩基を有し、両端に５つずつの情報価値のない核酸塩基を有する。プローブを中心化し、正規化する他の例も考えられる。

ＸＩＩＩ．パネルにより呼び出されたバリアント
システム２００は、パネルジェネレータ２５０により生成されたパネルを採用し、バリアントを呼び出すことができる。例示すると、図２０Ａ～図２０Ｆは、大規模なセットパネルにより呼び出されたバリアントの数、およびパネルジェネレータ２５０により生成されたパネルにより呼び出されたバリアントの数の統計分析を示す箱ひげプロットを示す。

図２０Ａは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するＳＮＶカウントプロットを示す。ＳＮＶカウントプロット２０１０において、ｘ軸は、がんの種類であり、ｙ軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。がんの種類は、それぞれ、膀胱、乳、大腸、食道、頭頸部、肺（ｌｕｎｃｈ）、リンパ腫、卵巣、腎、および子宮でありうる。

図２０Ｂは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するＳＮＶカウントプロットを示す。ＳＮＶカウントプロット２０２０において、ｘ軸は、がんのステージであり、ｙ軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。

図２０Ｃは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんの種類に対するＳＮＶカウントプロットを示す。ＳＮＶカウントプロット２０３０において、ｘ軸は、がんの種類であり、ｙ軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。

図２０Ｄは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するＳＮＶカウントプロットを示す。ＳＮＶカウントプロット２０４０において、ｘ軸は、がんのステージであり、ｙ軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。

図２０Ｅは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するＳＮＶ差プロットを示す。ＳＮＶ差プロット２０５０において、ｘ軸は、がんの種類であり、ｙ軸は、大規模なセットパネルと、パネルジェネレータ２５０により生成されたパネルとの間の、そのがんの種類に対するシークエンシングデータにおけるバリアントの数の差である。

図２０Ｆは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するＳＮＶ差プロットを示す。ＳＮＶ差プロット２０６０において、ｘ軸は、がんの種類であり、ｙ軸は、大規模なセットパネルと、パネルジェネレータ２５０により生成されたパネルとの間の、そのがんのステージに対するシークエンシングデータにおけるバリアントの数の差である。

図２１Ａは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するインデルカウントプロットを示す。インデルカウントプロット２１１０において、ｘ軸は、がんの種類であり、ｙ軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。がんの種類は、それぞれ、膀胱、乳、大腸、食道、頭頸部、肺（ｌｕｎｃｈ）、リンパ腫、卵巣、腎、および子宮でありうる。

図２１Ｂは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するインデルカウントプロットを示す。インデルカウントプロット２１２１において、ｘ軸は、がんのステージであり、ｙ軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。

図２１Ｃは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんの種類に対するインデルカウントプロットを示す。インデルカウントプロット２１３０において、ｘ軸は、がんの種類であり、ｙ軸は、そのがんの種類に対するシークエンシングデータにおけるバリアントの数である。

図２１Ｄは、一実施形態に係る、パネルジェネレータを使用して生成されたパネルの様々ながんのステージに対するインデルカウントプロットを示す。インデルカウントプロット２１４０において、ｘ軸は、がんのステージであり、ｙ軸は、そのがんのステージに対するシークエンシングデータにおけるバリアントの数である。

図２１Ｅは、一実施形態に係る、大規模なセットパネルの様々ながんの種類に対するインデル差プロットを示す。インデル差プロット２１５０において、ｘ軸は、がんの種類であり、ｙ軸は、大規模なセットパネルと、パネルジェネレータ２５０により生成されたパネルとの間の、そのがんの種類に対するシークエンシングデータにおけるバリアントの数の差である。

図２１Ｆは、一実施形態に係る、大規模なセットパネルの様々ながんのステージに対するインデル差プロットを示す。インデル差プロット２１６０において、ｘ軸は、がんの種類であり、ｙ軸は、大規模なセットパネルと、パネルジェネレータ２５０により生成されたパネルとの間の、そのがんのステージに対するシークエンシングデータにおけるバリアントの数の差である。

ＸＩＶ．追加的な検討事項
本発明の実施形態についての先の説明は、例示の目的で提示されており、網羅的であること、または本発明を開示された正確な形態に限定する意図はない。関連する技術分野に精通した者あれば、上記の開示を考慮して、多くの修正および変形が可能であることが理解できるであろう。

本記載のいくつかの部分は、情報に対する操作のアルゴリズムおよび記号的表現の観点から本発明の実施形態を説明している。これらのアルゴリズム的記述および表現は、データ処理分野に精通する者により、自分たちの仕事の内容を他の当業者に効果的に伝達するために、一般に使用されている。これらの操作は、機能的に、コンピュータ的に、または論理的に説明されたが、コンピュータプログラムまたは同等の電気回路、マイクロコード等により実施されると理解される。さらに、一般性を失うことなく、これらの操作の配置をモジュールと呼ぶことが、折に触れて都合がいいことも分かっている。説明された操作およびそれらの関連モジュールは、ソフトウェア、ファームウェア、ハードウェア、またはその任意の組み合わせにおいて具現化されうる。

本明細書に記載のステップ、操作、またはプロセスのいずれも、１つまたは複数のハードウェアまたはソフトウェアモジュールを、単独で、または他のデバイスと組み合わせて用いることで実行または実施されうる。一実施形態において、ソフトウェアモジュールは、説明したステップ、操作、またはプロセスのいずれかまたは全てを実行するためのコンピュータプロセッサにより実行されうる、コンピュータプログラムコードを備えるコンピュータ可読非一時的媒体を含むコンピュータプログラム製品により実施される。

本発明の実施形態は、本明細書に記載のコンピューティングプロセスにより生産される製品にも関わりうる。そのような製品は、コンピューティングプロセスから結果として得られる情報を含むことができ、その情報は、非一時的な有形のコンピュータ可読記録媒体に保管され、コンピュータプログラム製品の任意の実施形態、または本明細書に記載の他のデータの組み合わせを含むことができる。

最後に、本明細書で使用される言語は、主に読みやすさおよび教育的目的のために選択されており、発明の主題を描写または制限するために選択されたのではない。そのため、本発明の範囲は、本詳細な説明によるのではなく、むしろ本明細書に基づいた出願に際して公表される特許請求の範囲により制限されることが意図されている。従って、本発明の実施形態の開示は、以下の特許請求の範囲において説明される本発明の範囲の例示を意図しているのであって、制限を意図しているのではない。

Claims

疾病分類のための縮小遺伝子パネルを生成する方法であって、
ゲノム領域の第１セットに対するシークエンシングデータを取得することと、
前記ゲノム領域の第１セットに対する前記シークエンシングデータから複数の特徴量を導出することと、
前記複数の特徴量に基づいて疾病分類を予測する分類モデルを適用することであって、前記分類モデルは、前記ゲノム領域の第１セットに対応するモデル係数のセットを生成することと、
前記モデル係数のセットに従って前記ゲノム領域の第１セットをランク付けすることと、
前記ランク付けを使用して、前記疾病分類を最適化する、前記ゲノム領域の第１セットの第１サブセットを同定することと、
前記ゲノム領域の第１サブセットを含む前記縮小遺伝子パネルを生成することと
を含む方法。
前記シークエンシングデータは、複数の患者から取得された生体試料に存在するシークエンシングセルフリー核酸分子から取得される、請求項１の方法。
前記ゲノム領域の第１セットは、がん関連遺伝子、変異ホットスポット、およびウイルス領域の少なくとも１つを含む、請求項１または２の方法。
前記ゲノム領域の第１セットは、高シグナルのがんまたは液状がんと関連しているゲノム領域を含む、請求項１～３のいずれか一項の方法。
前記複数の特徴量は、前記ゲノム領域の第１セットにおける各ゲノム領域においてバリアントの最大アレル頻度を含む、請求項１～４のいずれか一項の方法。
前記複数の特徴量は、バリアントの有無、平均アレル頻度、小バリアントの総数、および真のバリアントのアレル頻度の少なくとも１つに対応する特徴を表す、請求項１～５のいずれか一項の方法。
前記バリアントは、一塩基バリアント、挿入、および欠失の少なくとも１つを含む、請求項５または６の方法。
前記分類モデルは、ロジスティック回帰モデルを含み、前記モデル係数のセットは、前記複数の特徴量により前記ロジスティック回帰モデルを訓練することにより取得された回帰係数を含む、請求項１～７のいずれか一項の方法。
前記ゲノム領域の第１サブセットを同定することは、
最初の反復において、前記分類モデルを訓練し、第１ゲノム領域に対応する特徴量に基づいて疾病分類を予測することであって、前記第１ゲノム領域は、最も高くランク付けされたゲノム領域に対応することと、
前記第１ゲノム領域に対して訓練された前記分類モデルの性能測定基準を判定することと、
後続の反復において、残りのランク付けされたゲノム領域を取り込み、各追加的なゲノム領域が取り込まれた後に前記性能測定基準を評価することにより、前記分類モデルを再訓練することであって、各後続の反復は、
欲張りアルゴリズムを適用し、残りのランク付けされたゲノム領域の内、次に高くランク付けされたゲノム領域を前記分類モデルに追加することと、
前記追加された次に高くランク付けされたゲノム領域および先の反復で前もって追加されたゲノム領域と関連している特徴量を使用して前記分類モデルを再訓練することと、
前記再訓練された分類モデルに対する性能測定基準を判定することと
を含むことと、
各反復に対して取得された前記性能測定基準を評価し、最適化された性能測定基準をもたらす前記ゲノム領域の第１サブセットを同定することと
を含む、請求項１～８のいずれか一項の方法。
前記最適化された性能測定基準は、前記分類モデルにより得られた最大性能測定基準を含む、請求項９の方法。
前記ゲノム領域の第１セットは、所定の特異度レベルにおける感度レベルを含む性能測定基準を最適化する、請求項１～１０のいずれか一項の方法。
前記疾病分類は、がんまたは非がんを予測するための二項分類およびがんの種類を予測するための多クラス分類の少なくとも１つを含む、請求項１～１１のいずれか一項の方法。
前記縮小遺伝子パネルにより取得された性能測定基準は、完全なゲノム領域の第１セットを含む完全な遺伝子パネルにより取得された性能測定基準と、実質的に同様である、請求項１～１２のいずれか一項の方法。
前記ゲノム領域の第１セットは、高シグナルのがんと関連しているゲノム領域を含み、約２Ｍｂのセットサイズを有し、前記ゲノム領域の第１サブセットは、３００ｋｂ未満のサブセットサイズを有する、請求項１～１３のいずれか一項の方法。
前記ゲノム領域の第１サブセットにより得られた前記疾病分類を更に改善するゲノム領域の第２サブセットを同定することと、
前記ゲノム領域の第１サブセットと前記ゲノム領域の第２サブセットとを含む前記縮小遺伝子パネルを生成することと
を更に含む、請求項１～１４のいずれか一項の方法。
ゲノム領域の第２セットに対するシークエンシングデータの第２セットを取得することと、
患者ごとの体細胞変異の頻度およびコード領域の長さにより正規化された頻度の少なくとも１つにより前記ゲノム領域の第２セットをランク付けすることと、
前記ランク付けされたゲノム領域の第２セットに基づいて前記ゲノム領域の第２サブセットを同定することと
を更に含む、請求項１５の方法。
前記縮小遺伝子パネルにより得られた前記疾病分類を更に改善するゲノム領域の第３サブセットを同定することであって、前記ゲノム領域の第３サブセットは、疾病の種類の予測精度を最適化することと、
前記縮小遺伝子パネルに前記ゲノム領域の第３サブセットを含むことと
を更に含む、請求項１～１６のいずれか一項の方法。
前記ゲノム領域の第３セットは、さらに、がん特異的遺伝子およびホットスポットである、請求項１７の方法。
追加的なホットスポット領域を前記縮小遺伝子パネルに追加することであって、前記ホットスポット領域は、一塩基バリアント、挿入、または欠失に対応することを更に含む、請求項１～１８のいずれか一項の方法。
追加的なウイルス標的領域を前記縮小遺伝子パネルに追加することであって、前記ウイルス標的領域は、ウイルス関連がんに対応することを更に含む、請求項１～１９のいずれか一項の方法。
前記縮小遺伝子パネルは、３００ｋｂを超えない総パネルサイズを有する、請求項１～２０のいずれか一項の方法。
プロセッサを含む電子デバイスにより実行されたときに前記デバイスに請求項１～２１の方法のいずれかを実行させる指示を含む１つまたは複数のプログラムを保管する非一時的コンピュータ可読媒体。
１つまたは複数のプロセッサと、
メモリと、
前記メモリに保管され、前記１つまたは複数のプロセッサにより実行されるように構成され、請求項１～２１の方法のいずれかを実行するための指示を含む、１つまたは複数のプログラムと
を備える電子デバイス。
がんアッセイパネルを生成する方法であって、
高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第１セットを選択することと、
がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第２セットを選択することと、
一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第３セットを選択することと、
ウイルス標的と関連しているゲノム領域の第４セットを選択することと、
複数のプローブセットを含む前記がんアッセイパネルを生成することであって、前記複数のプローブセットにおける各プローブセットは、前記ゲノム領域の第１、第２、第３、および第４セットにおける前記ゲノム領域の少なくとも１つを標的とするための一対のプローブを含むことと
を含む方法。
前記ゲノム領域の第１、第２、第３、および第４セットの少なくとも１つに対する前記ゲノム領域を選択することは、分類モデルを適用し、前記がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定することを含む、請求項２４の方法。
前記ゲノム領域の第１セットは、表１の１つまたは複数のゲノム領域を含む、請求項２４または２５の方法。
前記パネルの前記検出感度を改善するゲノム領域の第５セットを選択することであって、前記ゲノム領域の第５セットは、表２の１つまたは複数のゲノム領域を含むことを更に含む、請求項２６の方法。
前記ゲノム領域の第２セットは、ＣＡＳＰ８、ＩＤＨ１、ＴＥＲＴ１、およびＥＧＦＲの１つまたは複数を含む、請求項２４～２７のいずれか一項の方法。
前記ゲノム領域の第３セットは、表３の１つまたは複数のゲノム領域を含む、請求項２４～２８のいずれか一項の方法。
前記ゲノム領域の第３セットは、表４の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項２４～２９のいずれか一項の方法。
前記ゲノム領域の第３セットは、表５の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項２４～３０のいずれか一項の方法。
前記ゲノム領域の第３セットは、表６の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項２４～３１のいずれか一項の方法。
前記ゲノム領域の第４セットは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶにおける１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項２４～３２のいずれか一項の方法。
前記がんアッセイパネルの総パネルサイズは、３００キロベース以下である、請求項２４～３３のいずれか一項の方法。
請求項２４～３４のいずれか一項の方法により作成されたがんアッセイパネル。
病状が進むリスクを算定する、病状を検出する、および／または病状を診断する方法であって、
被験者から取得されたセルフリー核酸試料から、遺伝子のセットの少なくとも１つの遺伝子における体細胞変異を検出することであって、前記遺伝子のセットは、ＫＲＡＳ、ＴＰ５３、ＥＲＢＢ２、ＥＰＨＢ１、ＮＲＡＳ、ＡＣＶＲ１Ｂ、ＴＰ６３、ＫＥＡＰ１、ＣＤＫ１２、ＫＭＴ２Ｄ、ＤＩＣＥＲ１、ＴＥＴ２、ＬＡＴＳ２、ＥＴＶ５、ＧＲＩＮ２Ａ、ＥＰＨＡ７、ＡＳＸＬ２、ＲＥＴ、ＣＨＤ２、ＲＢ１、ＣＤＨ１、ＰＤＧＦＲＡ、ＢＲＣＡ２、ＴＦＲＣ、ＡＬＫ、ＫＤＭ５Ａ、ＳＭＡＤ４、ＡＴＲ、ＮＯＴＣＨ１、ＮＲＧ１、ＣＴＮＮＢ１、ＫＭＴ２Ｃ、ＳＮＣＡＩＰ、ＭＴＯＲ、ＰＩＫ３ＣＡ、ＳＦ３Ｂ１、ＮＢＮ、ＬＲＰ１Ｂ、ＴＮＦＲＳＦ１４、ＡＲＩＤ１Ａ、ＩＮＰＰ４Ａ、ＥＴＳ１、ＫＡＴ６Ａ、ＦＢＸＷ７、ＭＧＡ、ＭＹＤ８８、ＣＢＬ、ＢＲＡＦ、ＣＲＥＢＢＰ、およびＡＰＣから成る第１群の３つ以上の遺伝子を含むことと、
前記検出された体細胞変異に基づいて前記病状を判定することと
を含む方法。
前記遺伝子のセットは、前記第１群の５つ以上の遺伝子を含む、請求項３６の方法。
前記遺伝子のセットは、前記第１群の１０以上の遺伝子を含む、請求項３６または３７の方法。
前記遺伝子のセットは、ＫＲＡＳ、ＴＰ５３、ＥＲＢＢ２、ＥＰＨＢ１、ＮＲＡＳ、ＡＣＶＲ１Ｂ、ＴＰ６３、およびＫＥＡＰ１を含む、請求項３６の方法。
前記遺伝子のセットは、ＣＤＫ１２、ＫＭＴ２Ｄ、ＤＩＣＥＲ１、ＴＥＴ２、ＬＡＴ５２、ＥＴＶ５、ＧＲＩＮ２Ａ、ＥＰＨＡ７、ＡＳＸＬ２、およびＲＥＴの１つまたは複数を更に含む、請求項３９の方法。
前記遺伝子のセットは、ＴＰ５３、ＮＲＡＳ、ＫＭＴ２Ｄ、ＴＥＴ２、ＫＭＴ２Ｃ、ＳＦ３Ｂ１、ＬＲＰ１Ｂを含む、請求項３６～４０のいずれか一項の方法。
前記遺伝子のセットは、ＭＹＤ８８、ＣＢＬ、ＢＲＡＦ、ＣＲＥＢＢＰ、およびＡＰＣの１つまたは複数を更に含む、請求項４１の方法。
前記体細胞変異を検出することは、ＳＮＶに対して検出することを含む、請求項３６～４２のいずれか一項の方法。
前記体細胞変異を検出することは、インデルに対して検出することを更に含む、請求項４３の方法。
前記遺伝子のセットは、ＳＮＶおよびインデルに対するホットスポットと関連している遺伝子の第２群の１つまたは複数の遺伝子を更に含み、前記遺伝子の第２群は、ＡＫＴ１、ＥＲＢＢ３、ＩＤＨ１、ＰＴＥＮ、ＡＲＡＦ、ＥＺＨ２、ＩＤＨ２、ＰＴＰＲＤ、ＣＤ７９Ａ、ＦＧＦＲ３、ＭＡＰ３Ｋ１、ＲＨＯＡ、ＣＤＫＮ２Ａ、ＧＡＴＡ３、ＭＡＰＫ１、ＲＮＦ４３、ＤＮＭＴ３Ａ、ＧＮＡＳ、ＭＳＨ２、ＳＰＴＡ１、ＥＰ３００、ＨＲＡＳ、ＰＲＥＸ２、およびＴＥＲＴから成る、請求項３６～４４のいずれか一項の方法。
前記遺伝子のセットは、ウイルスホットスポットと関連している遺伝子の第３群の１つまたは複数の遺伝子を更に含み、前記遺伝子の第３群は、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶから成る、請求項３６～４５のいずれか一項の方法。
前記遺伝子および前記遺伝子において検出された前記体細胞変異に従って治療、予後、または診断を進めることを更に含む、請求項３６～４６のいずれか一項の方法。
プロセッサを含む電子デバイスにより実行されたときに前記デバイスに請求項３６～４７の方法のいずれかを実行させる指示を含む１つまたは複数のプログラムを保管する非一時的コンピュータ可読媒体。
１つまたは複数のプロセッサと、
メモリと、
前記メモリに保管され、前記１つまたは複数のプロセッサにより実行されるように構成され、請求項３６～４７の方法のいずれかを実行するための指示を含む、１つまたは複数のプログラムと
を備える電子デバイス。
請求項３６～４９のいずれか一項の方法により作成されたがんアッセイパネル。
高シグナルのがんまたは液状がんと関連している遺伝子の第１群から選択された１つまたは複数の遺伝子と、
一塩基バリアント（ＳＮＶ）またはインデルに対するホットスポットと関連している遺伝子の第２群から選択された１つまたは複数の遺伝子と、
ウイルスホットスポットと関連している遺伝子の第３群から選択された１つまたは複数の遺伝子と
を含むがんアッセイパネル。
前記遺伝子の第１群は、ＫＲＡＳ、ＴＰ５３、ＥＲＢＢ２、ＥＰＨＢ１、ＮＲＡＳ、ＡＣＶＲ１Ｂ、ＴＰ６３、ＫＥＡＰ１、ＣＤＫ１２、ＫＭＴ２Ｄ、ＤＩＣＥＲ１、ＴＥＴ２、ＬＡＴＳ２、ＥＴＶ５、ＧＲＩＮ２Ａ、ＥＰＨＡ７、ＡＳＸＬ２、ＲＥＴ、ＣＨＤ２、ＲＢ１、ＣＤＨ１、ＰＤＧＦＲＡ、ＢＲＣＡ２、ＴＦＲＣ、ＡＬＫ、ＫＤＭ５Ａ、ＳＭＡＤ４、ＡＴＲ、ＮＯＴＣＨ１、ＮＲＧ１、ＣＴＮＮＢ１、ＫＭＴ２Ｃ、ＳＮＣＡＩＰ、ＭＴＯＲ、ＰＩＫ３ＣＡ、ＳＦ３Ｂ１、ＮＢＮ、ＬＲＰ１Ｂ、ＴＮＦＲＳＦ１４、ＡＲＩＤ１Ａ、ＩＮＰＰ４Ａ、ＥＴＳ１、ＫＡＴ６Ａ、ＦＢＸＷ７、ＭＧＡ、ＭＹＤ８８、ＣＢＬ、ＢＲＡＦ、ＣＲＥＢＢＰ、およびＡＰＣから成る、請求項５１のパネル。
前記遺伝子の第２群は、ＳＮＶに対するホットスポットと関連している遺伝子のセットを含み、前記遺伝子のセットは、ＡＫＴ１、ＣＤＫＮ２Ａ、ＤＮＭＴ３Ａ、ＥＰ３００、ＥＲＢＢ３、ＦＧＦＲ３、ＧＮＡＳ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＭＡＰ３Ｋ１、ＭＡＰＫ１、ＰＲＥＸ２、ＰＴＥＮ、ＰＴＰＲＤ、ＲＨＯＡ、ＳＰＴＡ１、ＴＥＲＴ、およびＥＺＨ２から成る、請求項５１または５２のパネル。
前記遺伝子の第２群は、インデルと関連している遺伝子のセットを含み、前記遺伝子のセットは、ＡＲＡＦ、ＣＤ７９Ａ、ＧＡＴＡ３、ＭＳＨ２、ＰＴＥＮ、およびＲＮＦ４３から成る、請求項５１～５３のいずれか一項のパネル。
前記遺伝子の第３群は、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶから成る、請求項５１～５４のいずれか一項のパネル。
前記アッセイパネルは、被験者のがんの有無を検出する、請求項５１～５５のいずれか一項のパネル。
前記アッセイパネルは、被験者のがんの種類を検出する、請求項５１～５６のいずれか一項のパネル。
患者のがんの有無を判定するためのがん検出パネルを生成する方法であって、
リクエストを受信し、前記検出パネルを生成することであって、前記検出パネルは、ゲノム領域のセットを含み、前記リクエストは、前記検出パネルに対する総キロベースサイズを有することと、
複数のゲノム領域を受信することであって、各ゲノム領域は、前記ゲノム領域の特徴の変動ががんを示す尤度と関連しており、各ゲノム領域は、キロベースサイズを有することと、
分類子モデルを前記複数のゲノム領域に適用し、前記検出パネルを生成することであって、前記分類子モデルは、
前記ゲノム領域の１つ１つに対して感度スコアを判定することであって、前記感度スコアは、前記検出パネルの検出感度への寄与を定量化し、前記検出感度は、前記がん検出パネルに含まれる前記ゲノム領域のセットにおける前記特徴の変動ががんを示す前記尤度を定量化することと、
前記複数のゲノム領域をそれらの感度スコアに従ってランク付けすることと、
それらのランクに基づいて、ゲノム領域の１つまたは複数を、前記検出パネルに対する前記ゲノム領域のセットとして選択することであって、前記検出パネルにおけるゲノム領域のセットに対する前記キロベースサイズの合計は、前記総キロベースサイズ未満であることと
を含むことと
を含む方法。
前記パネルを採用し、患者におけるがんの存在を判定することを更に含む、請求項５８の方法。
前記リクエストを送信して前記検出パネルを生成したクライアントデバイスに前記ゲノム領域のセットを送ることを更に含む、請求項５８または５９の方法。
前記ゲノム領域の前記特徴は、一塩基バリアントである、請求項５８～６０のいずれか一項の方法。
がんを示す前記特徴の前記変動は、前記ゲノム領域の前記一塩基バリアントに対する最大バリアントアレル頻度である、請求項６１の方法。
前記ゲノム領域の１つまたは複数は、がんと関連しているウイルスを示す、請求項５８～６１のいずれか一項の方法。
前記ウイルスは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶのいずれかである、請求項６３の方法。
前記ゲノム領域の１つまたは複数は、固形がんと関連している、請求項５８～６４のいずれか一項の方法。
前記ゲノム領域は、表１または表２のゲノム領域である、請求項６５の方法。
前記ゲノム領域の１つまたは複数は、液状がんと関連している、請求項５８～６６のいずれか一項の方法。
前記ゲノム領域は、表１または表２のゲノム領域である、請求項６７の方法。
前記ゲノム領域の１つまたは複数は、がんホットスポットを示す、請求項５８～６８のいずれか一項の方法。
前記ゲノム領域は、表３、表４、または表５のゲノム領域である、請求項６９の方法。
前記ゲノム領域の１つまたは複数は、特定の種類のがんと関連している、請求項５８～７０のいずれか一項の方法。
前記検出パネルは、６５、５５、または４５未満のゲノム領域を含む、請求項５８～７１のいずれか一項の方法。
前記総キロベースサイズは、３９０，０００、３３０，０００、２７０，０００、２１０，０００、または１５０，０００キロベースである、請求項５８～７２のいずれか一項の方法。
前記リクエストは、前記検出パネルを設計して検出するがんの種類を含み、
前記感度スコアは、前記がんの種類に対する前記検出パネルの検出感度への寄与を定量化する、請求項５８～７３のいずれか一項の方法。
指標をランク付けすることは、
前記検出パネルを設計して検出するがんの種類に基づいて前記ゲノム領域をランク付けすることを更に含む、請求項５８～７４のいずれか一項の方法。
少なくともプローブ数のプローブ対であって、前記プローブ数の対の各対は、重複配列により互いに重複するように構成された２つのプローブを含む、少なくともプローブ数のプローブ対を含むがんアッセイパネルであって、
前記重複配列は、重複数の核酸塩基を含み、
前記重複数の核酸塩基を含む前記重複配列は、１つまたは複数のゲノム領域に対応するライブラリー分子をハイブリッド形成し、前記ゲノム領域の各々は、前記ゲノム領域の一塩基バリアントに対する最大バリアントアレル頻度を有し、前記ゲノム領域に対する前記バリアントアレル頻度の少なくともいくつかは、がん試料において生じる、がんアッセイパネル。
前記がん試料は、特定のＴＯＯのがんを有する被験者からのものであり、前記特定のＴＯＯの前記がんは、乳がん、子宮がん、子宮頸がん、卵巣がん、膀胱がん、腎尿路上皮がん、尿路上皮以外の腎がん、前立腺がん、肛門直腸がん、大腸がん、肝胆道がん、膵がん、上部消化管扁平上皮がん、扁平上皮以外の上部消化管がん、頭頸部がん、肺腺がん、小細胞肺がん、腺がんまたは小細胞肺がん以外の肺がん、神経内分泌がん、肺神経内分泌腫瘍および他の高悪性度神経内分泌腫瘍、黒色腫、甲状腺がん、肉腫、多発性骨髄腫、リンパ腫、および白血病から成る群から選択される、請求項７６のがんアッセイパネル。
前記プローブの各々は、７０～１４０のヌクレオチドを含む、請求項７６または７７のがんアッセイパネル。
前記ゲノム領域の１つまたは複数は、表１または表２のものである、請求項７６～７８のいずれか一項のがんアッセイパネル。
前記ゲノム領域の１つまたは複数は、表３、表４、または表５のものである、請求項７６～７９のいずれか一項のがんアッセイパネル。
前記ゲノム領域の１つまたは複数は、ウイルス領域と関連しており、ウイルス領域は、がんと関連しているウイルス配列を示す、請求項７６～８０のいずれか一項のがんアッセイパネル。
少なくとも２９００の前記プローブが、分類子モデルにより選択され、前記分類子モデルは、前記２９００のプローブの各々に対する検出感度を定量化する感度スコアに基づいて前記少なくとも２９００のプローブを選択する、請求項７６～８１のいずれか一項のがんアッセイパネル。
少なくとも２９００の前記プローブが、標的キロベースサイズ未満の総キロベースサイズを有し、前記分類子モデルは、前記標的キロベースサイズ未満のまま、最も高い感度スコアを有する前記２９００のプローブを選択する、請求項７６～８２のいずれか一項のがんアッセイパネル。
前記プローブ数のプローブ対は、１０００、１５００、２０００、２５００、または３０００のプローブ対である、請求項７６～８３のいずれか一項のがんアッセイパネル。
前記重複配列における前記重複数の核酸塩基は、２０、３０、４０、５０、６０、７０、または８０の核酸塩基である、請求項７６～８４のいずれか一項のがんアッセイパネル。
ハードウェアプロセッサにより実行されたときに：
高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第１セットを選択することと、
がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第２セットを選択することと、
一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第３セットを選択することと、
ウイルス標的と関連しているゲノム領域の第４セットを選択することと、
複数のプローブセットを含むがんアッセイパネルを生成することであって、前記複数のプローブセットにおける各プローブセットは、前記ゲノム領域の第１、第２、第３、および第４セットにおける前記ゲノム領域の少なくとも１つを標的とするための一対のプローブを含むことと
を含むステップを前記ハードウェアプロセッサに実行させる指示を保管する非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第１、第２、第３、および第４セットの少なくとも１つに対する前記ゲノム領域を選択することは、分類モデルを適用し、前記がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定することを含む、請求項８６の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第１セットは、表１の１つまたは複数のゲノム領域を含む、請求項８６または８７の非一時的コンピュータ可読記録媒体。
前記指示は、実行されたとき、前記パネルの前記検出感度を改善するゲノム領域の第５セットを選択することであって、前記ゲノム領域の第５セットは、表２の１つまたは複数のゲノム領域を含むことを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項８８の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第２セットは、ＣＡＳＰ８、ＩＤＨ１、ＴＥＲＴ１、およびＥＧＦＲの１つまたは複数を含む、請求項８６～８９のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第３セットは、表３の１つまたは複数のゲノム領域を含む、請求項８６～９０のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第３セットは、表４の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項８６～９１のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第３セットは、表５の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項８６～９２のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第３セットは、表６の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項８６～９３のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の第４セットは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶにおける１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項８６～９４のいずれか一項の非一時的コンピュータ可読記録媒体。
前記がんアッセイパネルの総パネルサイズは、３００キロベース以下である、請求項８６～９５のいずれか一項の非一時的コンピュータ可読記録媒体。
ハードウェアプロセッサと、
前記ハードウェアプロセッサにより実行されたときに：
高シグナルのがん遺伝子および液状がん遺伝子と関連しているゲノム領域の第１セットを選択することと、
がん特異的遺伝子およびがん特異的ホットスポットと関連しているゲノム領域の第２セットを選択することと、
一塩基バリアントまたはインデルに対するホットスポットと関連しているゲノム領域の第３セットを選択することと、
ウイルス標的と関連しているゲノム領域の第４セットを選択することと、
複数のプローブセットを含むがんアッセイパネルを生成することであって、前記複数のプローブセットにおける各プローブセットは、前記ゲノム領域の第１、第２、第３、および第４セットにおける前記ゲノム領域の少なくとも１つを標的とするための一対のプローブを含むことと
を含むステップを前記ハードウェアプロセッサに実行させる指示を保管する非一時的コンピュータ可読記録媒体と
を含むシステム。
前記ゲノム領域の第１、第２、第３、および第４セットの少なくとも１つに対する前記ゲノム領域を選択することは、分類モデルを適用し、前記がんアッセイパネルの検出感度への各ゲノム領域の寄与を算定することを含む、請求項９７のシステム。
前記ゲノム領域の第１セットは、表１の１つまたは複数のゲノム領域を含む、請求項９７または９８のシステム。
前記指示は、実行されたとき、前記パネルの前記検出感度を改善するゲノム領域の第５セットを選択することであって、前記ゲノム領域の第５セットは、表２の１つまたは複数のゲノム領域を含むことを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項９９のシステム。
前記ゲノム領域の第２セットは、ＣＡＳＰ８、ＩＤＨ１、ＴＥＲＴ１、およびＥＧＦＲの１つまたは複数を含む、請求項９７～１００のいずれか一項のシステム。
前記ゲノム領域の第３セットは、表３の１つまたは複数のゲノム領域を含む、請求項９７～１０１のいずれか一項のシステム。
前記ゲノム領域の第３セットは、表４の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項９７～１０２のいずれか一項のシステム。
前記ゲノム領域の第３セットは、表５の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項９７～１０３のいずれか一項のシステム。
前記ゲノム領域の第３セットは、表６の１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項９７～１０４のいずれか一項のシステム。
前記ゲノム領域の第４セットは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶにおける１つまたは複数のゲノム領域に位置する１つまたは複数の部位を含む、請求項９７～１０５のいずれか一項のシステム。
前記がんアッセイパネルの総パネルサイズは、３００キロベース以下である、請求項９７～１０６のいずれか一項のシステム。
患者のがんの有無を判定するためのがん検出パネルを生成するための指示を保管する非一時的コンピュータ可読記録媒体であって、前記指示は、ハードウェアプロセッサにより実行されたときに：
リクエストを受信し、前記検出パネルを生成することであって、前記検出パネルは、ゲノム領域のセットを含み、前記リクエストは、前記検出パネルに対する総キロベースサイズを有することと、
複数のゲノム領域を受信することであって、各ゲノム領域は、前記ゲノム領域の特徴の変動ががんを示す尤度と関連しており、各ゲノム領域は、キロベースサイズを有することと、
分類子モデルを前記複数のゲノム領域に適用し、前記検出パネルを生成することであって、前記分類子モデルは、
前記ゲノム領域の１つ１つに対して感度スコアを判定することであって、前記感度スコアは、前記検出パネルの検出感度への寄与を定量化し、前記検出感度は、前記がん検出パネルに含まれる前記ゲノム領域のセットにおける前記特徴の変動ががんを示す前記尤度を定量化することと、
前記複数のゲノム領域をそれらの感度スコアに従ってランク付けすることと、
それらのランクに基づいて、ゲノム領域の１つまたは複数を、前記検出パネルに対する前記ゲノム領域のセットとして選択することであって、前記検出パネルにおけるゲノム領域のセットに対する前記キロベースサイズの合計は、前記総キロベースサイズ未満であることと
を含むことと
を含むステップを前記ハードウェアプロセッサに実行させるように構成される、非一時的コンピュータ可読記録媒体。
前記指示は、実行されたとき、
前記パネルを採用し、患者におけるがんの存在を判定することを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項１０８の非一時的コンピュータ可読記録媒体。
前記指示は、実行されたとき、
前記リクエストを送信して前記検出パネルを生成したクライアントデバイスに前記ゲノム領域のセットを送ることを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項１０８または１０９の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の前記特徴は、一塩基バリアントである、請求項１０８～１１０のいずれか一項の非一時的コンピュータ可読記録媒体。
がんを示す前記特徴の前記変動は、前記ゲノム領域の前記一塩基バリアントに対する最大バリアントアレル頻度である、請求項１１１の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の１つまたは複数は、がんと関連しているウイルスを示す、請求項１０８～１１１のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ウイルスは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶのいずれかである、請求項１１３の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の１つまたは複数は、固形がんと関連している、請求項１０８～１１４のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域は、表１または表２のゲノム領域である、請求項１１５の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の１つまたは複数は、液状がんと関連している、請求項１０８～１１６のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域は、表１または表２のゲノム領域である、請求項１１７の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の１つまたは複数は、がんホットスポットを示す、請求項１０８～１１８のいずれか一項の非一時的コンピュータ可読記録媒体。
前記ゲノム領域は、表３、表４、または表５のゲノム領域である、請求項１１９の非一時的コンピュータ可読記録媒体。
前記ゲノム領域の１つまたは複数は、特定の種類のがんと関連している、請求項１０８～１２０のいずれか一項の非一時的コンピュータ可読記録媒体。
前記検出パネルは、６５、５５、または４５未満のゲノム領域を含む、請求項１０８～１２１のいずれか一項の非一時的コンピュータ可読記録媒体。
前記総キロベースサイズは、３９０，０００、３３０，０００、２７０，０００、２１０，０００、または１５０，０００キロベースである、請求項１０８～１２２のいずれか一項の非一時的コンピュータ可読記録媒体。
前記リクエストは、前記検出パネルを設計して検出するがんの種類を含み、
前記感度スコアは、前記がんの種類に対する前記検出パネルの検出感度への寄与を定量化する、請求項１０８～１２３のいずれか一項の非一時的コンピュータ可読記録媒体。
指標をランク付けすることは、
前記検出パネルを設計して検出するがんの種類に基づいて前記ゲノム領域をランク付けすることを更に含む、請求項１０８～１２４のいずれか一項の非一時的コンピュータ可読記録媒体。
患者のがんの有無を判定するためのがん検出パネルを生成するためのシステムであって、
ハードウェアプロセッサと、
前記ハードウェアプロセッサにより実行されたときに：
リクエストを受信し、前記検出パネルを生成することであって、前記検出パネルは、ゲノム領域のセットを含み、前記リクエストは、前記検出パネルに対する総キロベースサイズを有することと、
複数のゲノム領域を受信することであって、各ゲノム領域は、前記ゲノム領域の特徴の変動ががんを示す尤度と関連しており、各ゲノム領域は、キロベースサイズを有することと、
分類子モデルを前記複数のゲノム領域に適用し、前記検出パネルを生成することであって、前記分類子モデルは、
前記ゲノム領域の１つ１つに対して感度スコアを判定することであって、前記感度スコアは、前記検出パネルの検出感度への寄与を定量化し、前記検出感度は、前記がん検出パネルに含まれる前記ゲノム領域のセットにおける前記特徴の変動ががんを示す前記尤度を定量化することと、
前記複数のゲノム領域をそれらの感度スコアに従ってランク付けすることと、
それらのランクに基づいて、ゲノム領域の１つまたは複数を、前記検出パネルに対する前記ゲノム領域のセットとして選択することであって、前記検出パネルにおけるゲノム領域のセットに対する前記キロベースサイズの合計は、前記総キロベースサイズ未満であることと
を含むことと
を含むステップを前記ハードウェアプロセッサに実行させるように構成される指示を保管する非一時的コンピュータ可読記録媒体と
を含む、システム。
前記指示は、実行されたとき、
前記パネルを採用し、患者におけるがんの存在を判定することを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項１２６のシステム。
前記指示は、実行されたとき、
前記リクエストを送信して前記検出パネルを生成したクライアントデバイスに前記ゲノム領域のセットを送ることを含む更なるステップを前記ハードウェアプロセッサに実行させる、請求項１２６または１２７のシステム。
前記ゲノム領域の前記特徴は、一塩基バリアントである、請求項１２６～１２８のいずれか一項のシステム。
がんを示す前記特徴の前記変動は、前記ゲノム領域の前記一塩基バリアントに対する最大バリアントアレル頻度である、請求項１２９のシステム。
前記ゲノム領域の１つまたは複数は、がんと関連しているウイルスを示す、請求項１２６～１３０のいずれか一項のシステム。
前記ウイルスは、ＨＰＶ１６、ＨＰＶ１８、ＥＢＶ、およびＨＢＶのいずれかである、請求項１３１のシステム。
前記ゲノム領域の１つまたは複数は、固形がんと関連している、請求項１２６～１３２のいずれか一項のシステム。
前記ゲノム領域は、表１または表２のゲノム領域である、請求項１３３のシステム。
前記ゲノム領域の１つまたは複数は、液状がんと関連している、請求項１２６～１３４のいずれか一項のシステム。
前記ゲノム領域は、表１または表２のゲノム領域である、請求項１３５のシステム。
前記ゲノム領域の１つまたは複数は、がんホットスポットを示す、請求項１２６～１３６のいずれか一項のシステム。
前記ゲノム領域は、表３、表４、または表５のゲノム領域である、請求項１３７のシステム。
前記ゲノム領域の１つまたは複数は、特定の種類のがんと関連している、請求項１２６～１３８のいずれか一項のシステム。
前記検出パネルは、６５、５５、または４５未満のゲノム領域を含む、請求項１２６～１３９のいずれか一項のシステム。
前記総キロベースサイズは、３９０，０００、３３０，０００、２７０，０００、２１０，０００、または１５０，０００キロベースである、請求項１２６～１４０のいずれか一項のシステム。
前記リクエストは、前記検出パネルを設計して検出するがんの種類を含み、
前記感度スコアは、前記がんの種類に対する前記検出パネルの検出感度への寄与を定量化する、請求項１２６～１４１のいずれか一項のシステム。
指標をランク付けすることは、
前記検出パネルを設計して検出するがんの種類に基づいて前記ゲノム領域をランク付けすることを更に含む、請求項１２６～１４２のいずれか一項のシステム。