JP7368483B2

JP7368483B2 - 相同組換え欠損を推定するための統合された機械学習フレームワーク

Info

Publication number: JP7368483B2
Application number: JP2021547568A
Authority: JP
Inventors: ヴェンカット，アールティ; パーソンズ，ジェロッド; ベル，ジョシュア，エスケー; イガルトゥア，キャサリン; ジャン，イーリン; サラウディーン，アミーン; フレイレ，ヴェロニカサンチェス; テル，ロバート
Original assignee: テンパスラブズ，インコーポレイテッド
Priority date: 2019-02-12
Filing date: 2020-02-12
Publication date: 2023-10-24
Anticipated expiration: 2040-02-12
Also published as: EP3924502A1; WO2020168008A1; AU2020221845A1; US20200255909A1; EP3924502A4; JP2022521492A; US10975445B2; CA3129831A1; US20210246511A1; JP2024016039A

Description

関連出願の相互参照
本出願は、２０１９年２月１２日に出願された米国仮特許出願第６２／８０４，７３０号、および２０１９年１２月１０日に出願された米国仮特許出願第６２／９４６，３４７号の優先権を主張し、あらゆる目的のためにそれら全体が参照により本明細書に組み込まれる。

本開示は、一般に、相同組換え欠損を予測するためのがん性組織のＤＮＡ配列決定に対して訓練された機械学習分類器の使用に関する。

精密腫瘍学は、個々の腫瘍の固有のゲノム、エピジェネティック、および／またはトランスクリプトミクスプロファイルに合わせてがん治療法を調整する実践である。これは、患者が苦しんでいるがんのタイプのみに基づいてがん患者を治療する、例えば、すべての乳がん患者を第１の治療法で治療し、すべての肺がん患者を第２の治療法で治療するための従来の方法とは対照的である。精密腫瘍学は、同じタイプのがん、例えば乳がんと診断された異なる患者が一般的な治療計画に対して非常に異なった反応を示したという多くの観察から生まれた。時間の経過とともに、研究者は、個々のがんが特定の治療モダリティにどのように反応するかについて、あるレベルの予測を容易にするゲノム、エピジェネティック、およびトランスクリプトミクスマーカーを特定してきた。

特定のゲノム変化を標的とした治療法は、（例えば、黒色腫、結腸直腸がん、および非小細胞肺がんについてのＮＣＣＮ（ＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ）ガイドラインで示唆されているように）すでにいくつかの腫瘍タイプにおける標準ケアとなっている。ＮＣＣＮガイドラインのこれらのいくつかの周知の変異は、個々のアッセイまたは小さな次世代配列決定（ＮＧＳ）パネルで対処され得る。ただし、最大数の患者が個別化された腫瘍学の恩恵を受けるには、適応外薬の適応、併用療法、または組織非依存性免疫療法の標的となる可能性のある分子変化を評価する必要がある。Ｓｃｈｗａｅｄｅｒｌｅｅｔａｌ．２０１６ＪＡＭＡＯｎｃｏｌ．２，１４５２－１４５９，Ｓｃｈｗａｅｄｅｒｌｅｅｔａｌ．２０１５ＪＣｌｉｎＯｎｃｏｌ．３２，３８１７－３８２５、およびＷｈｅｌｅｒｅｔａｌ．２０１６ＣａｎｃｅｒＲｅｓ．７６、３６９０－３７０１を参照のこと。大規模パネルＮＧＳアッセイはまた、臨床試験登録のためのより広いネットをキャストする。Ｃｏｙｎｅｅｔａｌ．２０１７Ｃｕｒｒ．Ｐｒｏｂｌ．Ｃａｎｃｅｒ４１，１８２－１９３、およびＭａｒｋｍａｎ２０１７Ｏｎｃｏｌｏｇｙ３１，１５８，１６８を参照のこと。

腫瘍のゲノム解析は、患者に合わせた治療を提供し、転帰を改善するための日常的な臨床診療に急速になりつつある。Ｆｅｒｎａｎｄｅｓｅｔａｌ．２０１７Ｃｌｉｎｉｃｓ７２，５８８－５９４を参照のこと。実際、最近の研究では、臨床ケアは、そのような試験を受けている患者の３０～４０％のＮＧＳアッセイ結果によって導かれていることが示されている。Ｈｉｒｓｈｆｉｅｌｄｅｔａｌ．２０１６Ｏｎｃｏｌｏｇｉｓｔ２１，１３１５－１３２５、Ｇｒｏｉｓｂｅｒｇｅｔａｌ．２０１７Ｏｎｃｏｔａｒｇｅｔ８，３９２５４－３９２６７、Ｒｏｓｓｅｔａｌ．ＪＡＭＡＯｎｃｏｌ．１，４０－４９、およびＲｏｓｓｅｔａｌ．２０１５Ａｒｃｈ．Ｐａｔｈｏｌ．ＬａｂＭｅｄ．１３９、６４２－６４９を参照のこと。遺伝学に導かれた治療法アドバイスを受けた患者はより良い転帰を有するという証拠が増えている。例えば、マッチングスコア（例えば、治療法関連の数と患者あたりのゲノム異常に基づくスコア）を使用して、マッチングスコアが高い患者ほど安定した疾患の頻度が高く、治療が失敗するまでの時間が長く、全生存期間がより大きくなることを示したＷｈｅｌｅｒｅｔａｌ．（２０１６ＣａｎｃｅｒＲｅｓ．７６、３６９０－３７０１）を参照のこと。そのような方法は、すでに複数の治療法ラインに失敗した患者にとって特に有用である可能性がある。

標的療法は、特に無増悪生存期間に関して、患者の転帰に有意な改善を示している。Ｒａｄｏｖｉｃｈｅｔａｌ．２０１６Ｏｎｃｏｔａｒｇｅｔ７，５６４９１－５６５００を参照のこと。最近の証拠は、３，７４３人の患者からの進行期腫瘍の遺伝子試験を伴ったＩＭＰＡＣＴ試験から報告され、ここでは、患者の約１９％が腫瘍生物学に基づいてマッチした標的療法を受けており、マッチした治療を受けた患者は１６．２％の奏効率を示したのに対し、マッチしない治療を受けた患者では５．２％の奏効率であることを示した。Ｂａｎｋｈｅａｄ．「ＩＭＰＡＣＴＴｒｉａｌ：ＳｕｐｐｏｒｔｆｏｒＴａｒｇｅｔｅｄＣａｎｃｅｒＴｘＡｐｐｒｏａｃｈｅｓ．」ＭｅｄＰａｇｅＴｏｄａｙ．２０１８年６月５日を参照のこと。ＩＭＰＡＣＴ研究はさらに、分子的にマッチした治療法を受けた患者の３年全生存期間が、マッチしない治療を受けた患者の３倍以上であることを見出した（１５％対７％）。同文献およびＡＳＣＯＰｏｓｔ．「２０１８ＡＳＣＯ：ＩＭＰＡＣＴＴｒｉａｌＭａｔｃｈｅｓＴｒｅａｔｍｅｎｔｔｏＧｅｎｅｔｉｃＣｈａｎｇｅｓｉｎｔｈｅＴｕｍｏｒｔｏＩｍｐｒｏｖｅＳｕｒｖｉｖａｌＡｃｒｏｓｓＭｕｌｔｉｐｌｅＣａｎｃｅｒｃｏｎｄｉｔｉｏｎｓ．」ＴｈｅＡＳＣＯＰＯＳＴ．２０１８年６月６日を参照のこと。遺伝子検査によってケアの軌道が変わる患者の比率の推定値は、約１０％～５０％超まで大きく変動する。Ｆｅｒｎａｎｄｅｓｅｔａｌ．２０１７Ｃｌｉｎｉｃｓ７２，５８８－５９４を参照のこと。

特定の治療法の有効性にリンクしたゲノム形質の一例は、ＢＲＣＡ１、ＢＲＣＡ２、またはＰＡＬＢ２相同組換え遺伝子の変異である。ＰＡＲＰ阻害剤（ＰＡＲＰｉ）として知られるポリＡＤＰリボースポリメラーゼ１（ＰＡＲＰ１）の薬理学的阻害剤のクラスは、ＢＲＣＡ１、ＢＲＣＡ２、またはＰＡＬＢ２相同組換え遺伝子に変異を含むいくつかのがんを治療するための治療法有効性がある。ＰＡＲＰ１は、エラーが発生しやすいマイクロホモロジー媒介末端結合（ＭＭＥＪ）ＤＮＡ修復経路に不可欠な酵素ある。ＳｈａｒｍａＳ．ｅｔａｌ．，ＣｅｌｌＤｅａｔｈＤｉｓ．６（３）：ｅ１６９７（２０１５）。ＰＡＲＰ１活性がない場合、一本鎖切断に遭遇するとＤＮＡ複製フォークが失速する。フォークの失速は、最終的には、ＭＭＥＪ経路よりもエラーが発生しにくい相同組換え（ＨＲ）修復によって修復できる二本鎖染色体切断をもたらす。

がん細胞が一般的に欠損している他のＤＮＡ修復タンパク質とは異なり、ＰＡＲＰ１は特定のがんのタイプで過剰発現していることが示されている。相同修復と比較してＭＭＥＪＤＮＡ修復が増加すると、ゲノム変異が蓄積し、がんの発症につながる可能性があると理論付けられている。ただし、ＰＡＲＰ阻害剤の有効性は完全には理解されていない。例えば、ＢＲＣＡ１、ＢＲＣＡ２、またはＰＡＬＢ２変異を持つすべてのがんがＰＡＲＰ阻害剤に感度があるわけではない。さらに、相同組換えタンパク質に変異がない一部のがんは、ＰＡＲＰ阻害剤に感度がある。

相同組換え（ＨＲ）は、通常の高度に保存されたＤＮＡ修復プロセスであり、同一または密接に関連するＤＮＡ分子間で遺伝情報の交換を可能にする。これは、ＤＮＡの両方の鎖で発生する有害な切断（つまり損傷）を正確に修復するために細胞によって最も広く使用されている。ＤＮＡ損傷は、ＵＶ光、放射線、または化学的損傷などの外因性（外部）ソースから、または、ＤＮＡ複製のエラーやＤＮＡ損傷を引き起こす他の細胞プロセスなどの内因性（内部）ソースから発生することがある。二本鎖切断は、ＤＮＡ損傷の一タイプである。

ＨＲＤを有する患者にポリ（ＡＤＰ－リボース）ポリメラーゼ（ＰＡＲＰ）阻害剤を使用すると、ＤＮＡ修復の２つの経路が損なわれ、細胞死（アポトーシス）をもたらす。ＰＡＲＰ阻害剤の有効性は、生殖細胞系列または体細胞のＢＲＣＡ変異を示す卵巣がんだけでなく、ＨＲＤが他の根本的な病因によって引き起こされるがんでも改善される。

ポリ（ＡＤＰ－リボース）ポリメラーゼ（ＰＡＲＰ）は、ＤＮＡ修復、ゲノム安定性、プログラム細胞死などの多くの細胞プロセスに関与するタンパク質ファミリーである。相同組換え欠損（「ＨＲ欠損」または「ＨＲＤ」）は、患者に対するＰＡＲＰ阻害剤（ＰＡＲＰｉ）およびプラチナベースの治療法の有効性を高めることが示されている欠損である。細胞ＤＮＡの最も一般的な病変は一本鎖切断（ＳＳＢ）であり、１日あたり細胞あたり数万で発生する。ＰＡＲＰは、一本鎖切断の修復を助けるＤＮＡ修復酵素である。これらのＰＡＲＰが（例えば、ＰＡＲＰ阻害剤の治療法によって）機能していないか、ブロックされている場合、これはしばしば、いわゆる二本鎖切断（ＤＳＢ）につながる。相同組換え修復（ＨＲＲ）は、体がこれらのＤＳＢを修復する主な方法である。がん細胞がＨＲＤ（または言い換えれば、ＨＲＲの欠損）を持っている場合、細胞が増殖し続ける代わりに、ＤＳＢから回復する細胞の可能性が低下し、細胞をアポトーシス（プログラムされた細胞死）に導く。がん細胞を死に至らしめることは、人のがんの成長を止める１つの方法である。

人によっては、ＨＲＤは、ＢＲＣＡ１／２の両アレルの不活性化によって一般的に引き起こされる、相同組換えＤＮＡ修復経路の喪失を通じて腫瘍に生じる疾患状態と考えられている。欠損症はしばしばＢＲＣＡ遺伝子の変異によって示されるが、がんで一般的であるように、腫瘍がＨＲ欠損症を持つことができる他の方法がある。

がん全体で、ＨＲＤは約６％の頻度で発生する。発生率は、卵巣がんでは３０％、ならびに乳がん、膵臓がん、および前立腺がんでは中程度（１２～１３％）になる可能性がある。ＨＲＤは、ＢＲＣＡ１、ＢＲＣＡ２、ＲＡＤ５１Ｃ、およびＰＡＬＢ２の両アレルの不活性化によって引き起こされる可能性がある。ヘテロ接合性の喪失（ＬＯＨ）と欠失（特にＢＲＣＡ２）も主な原因であると考えられている。

上記の背景を考慮すると、当技術分野で必要とされるのは、どのがんが相同修復欠損（ＨＲＤ）であるかを予測するための改善された方法であり、例えば、どのがん患者がＰＡＲＰ阻害剤に好意的に反応する可能性が高いかを特定する。本開示は、がんの相同組換え状態を予測するように訓練された機械学習アルゴリズムを使用して、がん性組織からのＤＮＡ配列決定結果を評価するためのシステムおよび方法を提供することによって、これらおよび他のニーズに対処する。

相同組換えの喪失は、広く認識されているがん進行の決定因子である。しかし、患者のゲノムから相同組換え欠損症（ＨＲＤ）を推定するための計算リソースはほとんど存在しない。ゲノミクスベースのＨＲＤテストは、がんの診断に役立ち、例えばＰＡＲＰｉによる治療に向けた患者の層別化に使用することができる。人のがんのＨＲＤ状態を推定するためのシステムおよび方法が開示されている。

一態様では、本開示は、試験対象におけるがんの相同組換え経路状態を判定するための方法を提供する。本方法は、試験対象からの第１のＤＮＡサンプルの第１の複数の配列読み取りを電子形式で取得することであって、第１のＤＮＡサンプルが、対象のがん性組織からのＤＮＡ分子を含む、取得することを含む。本方法は、試験対象からの第２のＤＮＡサンプルの第２の複数の配列読み取りを電子で取得することであって、第２のＤＮＡサンプルが、対象の非がん性組織からのＤＮＡ分子からなる、取得することを含む。次に、本方法は、第１の複数の配列読み取りおよび第２の複数の配列読み取りに基づいて、対象のゲノムデータ構築物を生成することであって、ゲノムデータ構築物が、対象のがん性組織および非がん性組織のゲノムの１つ以上の特徴を含む、生成することを含む。いくつかの実施形態では、複数の特徴は、（ｉ）対象のがん性組織における第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態、（ｉｉ）対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、（ｉｉｉ）対象のがん性組織のゲノムの第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度、および（ｉｖ）対象の非がん性組織のゲノムの第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度を含む。次に、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器にゲノムデータ構築物を入力し、それによって試験対象の相同組換え経路状態を判定することと、を含む。

別の態様において、本開示は、がんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための方法を提供する。本方法は、がんを有する複数の訓練対象におけるそれぞれの訓練対象ごとに、それぞれの訓練対象の対応するゲノムデータ構築物を取得することを含む。対応するゲノム訓練構築物が、（ａ）それぞれの訓練対象のがんの相同組換え経路状態、および（ｂ）それぞれの訓練対象のがん性組織および非がん性組織のゲノムの１つ以上の特徴を含む。いくつかの実施形態では、１つ以上の特徴が、（ｉ）それぞれの訓練対象のがん性組織における第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態、（ｉｉ）それぞれの訓練対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、（ｉｉｉ）それぞれの訓練対象のがん性組織のゲノムの第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度、および（ｉｖ）それぞれの訓練対象の非がん性組織のゲノムの第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度を含む。次に、本方法は、それぞれの訓練対象ごとに、少なくとも（ａ）それぞれの訓練対象のがんの相同組換え経路状態、および（ｂ）それぞれの訓練対象のがん性組織からの対応するＤＮＡサンプルから判定された複数の特徴に対して分類アルゴリズムを訓練することを含む。

本開示の追加の態様および利点は、以下の詳細な説明から当技術分野の当業者に容易に明らかになり、本開示の例示的な実施形態のみが示され、説明される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正することができる。したがって、図面および説明は、本質的に例示的なものと見なされるべきであり、限定的なものとして見なされるべきではない。

本開示のいくつかの実施形態による、がん性組織のＤＮＡ配列決定に由来する情報を使用して、がんの相同組換え状態を予測するためのコンピューティングデバイスの例のブロック図をまとめて示す。本開示のいくつかの実施形態による、がん性組織のＤＮＡ配列決定に由来する情報を使用して、がんの相同組換え状態を予測するためのコンピューティングデバイスの例のブロック図をまとめて示す。本開示のいくつかの実施形態による、がん性組織のＤＮＡ配列決定に由来する情報を使用してがんの相同組換え状態を予測するための例示的な方法のフローチャートを提供する。１つ以上の患者検体の分析から生成された情報に基づいて臨床レポートを生成するための方法の例を示す。本開示のいくつかの実施形態による、ＨＲＤ分類モデルの例示的な入力を示す。本開示のいくつかの実施形態による、腫瘍正常マッチバリアントコールおよび腫瘍のみコールのための例示的なバイオインフォマティクスパイプラインを示す。本開示のいくつかの実施形態による、腫瘍および正常な分離株からの対端読み取りが、同じ順序識別子の下で別々に圧縮および記憶されることを示す。本開示のいくつかの実施形態による、ＦＡＳＴＱファイルの品質修正を示す。本開示のいくつかの実施形態による、腫瘍および正常なＢＡＭアラインメントファイルを取得するためのステップを示す。本開示のいくつかの実施形態による、腫瘍および正常なＢＡＭアラインメントファイルからバリアントを呼び出すためのステップを示す。本開示のいくつかの実施形態による、ＨＲＤコールおよび必要な出力を生成するための例示的なシステムを示す。本開示のいくつかの実施形態による、ＨＲＤ情報を示すテキストおよび画像の例示的なディスプレイを示す。

図面のいくつかの図を通して、同様の参照番号は、対応する部分を指す。

本開示は、がん性組織のＤＮＡ配列決定に由来する情報を使用して、がんの相同組換え状態を予測し、治療の予測および結果を改善するためのシステムおよび方法を提供する。いくつかの実施形態では、マッチしたがん性組織および生殖系列組織からの配列決定データを一緒に使用して、予測の精度を改善する。

定義
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用するとき、「および／または」という用語は、列挙する関連項目の１つ以上の任意のおよびあり得る全ての組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「備える（ｃｏｍｐｒｉｓｅｓ）」および／または「備えている（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、述べた特徴、完全体、ステップ、動作、要素、および／または構成要素が存在することを規定するが、１つ以上の他の特徴、完全体、ステップ、動作、要素、構成要素、および／またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されるであろう。さらに、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「有している（ｈａｖｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｗｉｔｈ）」、またはそれらの変化形の用語が詳細な説明および／または特許請求の範囲のいずれかで使用される限り、そのような用語は、「備えている」という用語と同様の方法で包括的である。

本明細書で使用されるとき、「もし」という用語は、文脈に応じて「場合」もしくは「とき」、または「決定することに応じて」もしくは「検出することに応じて」を意味するものと解釈されてもよい。同様に、「決定される場合」または「（述べた条件または事象が）検出される場合」という句は、文脈に応じて「決定するとき」もしくは「決定することに応じて」、または「（述べた条件または事象を）検出するとき」もしくは「（述べた条件または事象を）検出することに応じて」を意味するものと解釈され得る。

また、第１、第２などの用語は、様々な要素を説明するために本明細書で使用されることがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第１の対象を第２の対象と称することができ、同様に、第２の対象を第１の対象と称することができる。第１の対象および第２の対象は、両方とも対象であるが、同じ対象ではない。さらに、「対象」、「ユーザ」、および「患者」という用語は、本明細書では互換的に使用される。

本明細書で使用される場合、「対象」という用語は、生きているまたは生きていない人間を指す。いくつかの実施形態では、対象は、任意の段階の男性または女性（例えば、男性、女性、または子供）である。

本明細書で使用される場合、「対照」、「対照サンプル」、「参照」、「参照サンプル」、「正常」、および「正常サンプル」という用語は、特定の状態を有さない、そうでなければ健康な対象からのサンプルを説明する。一例では、本明細書に開示される方法は、腫瘍を有する対象に対して実施することができ、参照サンプルは、対象の健康な組織から採取されたサンプルである。参照サンプルは、対象またはデータベースから取得できる。参照は、例えば、対象からのサンプルの配列決定から取得された配列読み取りをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的サンプルから配列が読み取られ、構成サンプルをアラインメントおよび比較できる一倍体または二倍体ゲノムを指すことができる。構成サンプルの例は、対象から取得された白血球のＤＮＡであり得る。一倍体ゲノムの場合、各遺伝子座に存在できるヌクレオチドは１つだけである。二倍体ゲノムの場合、ヘテロ接合遺伝子座を特定することができ、各ヘテロ接合遺伝子座は２つのアレルを持つことができ、どちらのアレルも遺伝子座へのアラインメントのマッチを可能にすることができる。

本明細書で使用される場合、「遺伝子座」という用語は、例えば特定の染色体上の、ゲノム内の位置（例えば、部位）を指す。いくつかの実施形態では、遺伝子座は、ゲノム内の、すなわち特定の染色体上の単一のヌクレオチド位置を指す。いくつかの実施形態では、遺伝子座は、例えば、がんゲノム内の連続するヌクレオチドの変異（例えば、置換、挿入、または欠失）によって定義されるような、ゲノム内のヌクレオチド位置の小さなグループを指す。正常な哺乳動物細胞は二倍体ゲノムを有するため、正常な哺乳動物ゲノム（例えば、ヒトゲノム）は、一般に、ゲノム内のすべての遺伝子座の２つのコピー、または常染色体上に位置するすべての遺伝子座の少なくとも２つのコピー、例えば、母体の常染色体と父方の常染色体上の１つのコピーを有する。

本明細書で使用される場合、「アレル」という用語は、染色体遺伝子座にある１つ以上の複数のヌクレオチドの特定の配列を指す。

本明細書で使用される場合、「参照アレル」という用語は、種の集団内のその染色体遺伝子座で表される主要なアレル（例えば、「野生型」配列）か、または種の参照ゲノム内で事前定義されているアレルのいずれかである染色体遺伝子座での１つ以上のヌクレオチドの配列を指す。

本明細書で使用される場合、「変異型アレル」という用語は、種の集団内のその染色体遺伝子座で表される主要なアレルではない（例えば、「野生型」配列ではない）か、または種の参照ゲノム内で事前定義されているアレルではないもののいずれかである染色体遺伝子座での１つ以上のヌクレオチドの配列を指す。

本明細書で使用される場合、「一塩基バリアント」または「ＳＮＶ」という用語は、ヌクレオチド配列、例えば、個体から読み取られた配列の位置（例えば、部位）でのあるヌクレオチドの異なるヌクレオチドへの置換を指す。第１の核酸塩基Ｘから第２の核酸塩基Ｙへの置換は、「Ｘ＞Ｙ」として示され得る。例えば、シトシンからチミンへのＳＮＶは「Ｃ＞Ｔ」として示され得る。

本明細書で使用される場合、「変異」または「バリアント」という用語は、１つ以上の細胞の遺伝物質における検出可能な変化を指す。特定の例では、１つ以上の変異ががん細胞に見出され、がん細胞を特定することができる（例えば、ドライバーおよびパッセンジャーの変異）。変異は見かけの細胞から娘細胞に伝染する可能性がある。当業者は、親細胞における遺伝子変異（例えば、ドライバー変異）が、娘細胞において追加の異なる変異（例えば、パッセンジャー変異）を誘発し得ることを理解するであろう。変異は一般的に核酸で発生する。特定の例において、変異は、１つ以上のデオキシリボ核酸またはそのフラグメントにおける検出可能な変化であり得る。変異とは、一般に、核酸の新しい位置に追加、削除、置換、反転、または変換されたヌクレオチドを指す変異は、自然変異または実験的に誘発された変異であり得る。特定の組織の配列の変異は、「組織特異的アレル」の例である。例えば、腫瘍は、正常細胞では発生しない遺伝子座にアレルをもたらす変異を有し得る。「組織特異的アレル」の別の例は、胎児組織で発生するが母体組織では発生しない胎児特異的アレルである。

本明細書で使用される場合、「ヘテロ接合性の喪失」という用語は、二倍体対象（例えば、ヒト）のゲノムの（例えば、１つ以上の遺伝子の一部または全部を含む）セグメントの１つのコピーの喪失または二倍体対象のゲノム、対象の組織、例えばがん性組織における機能的遺伝子産物をコードする配列の１つのコピーの喪失を指す。本明細書で使用される場合、対象のゲノム全体にわたるヘテロ接合性の喪失を表す測定基準に言及する場合、ヘテロ接合性の喪失は、対象のゲノムにおける様々なセグメントの１つのコピーの喪失によって引き起こされる。ゲノム全体にわたるヘテロ接合性の喪失は、対象のゲノム全体を配列決定することなく推定することができ、遺伝子パネルターゲティングベースの配列決定方法論に基づくそのような推定のためのそのような方法は、当技術分野で説明されている。したがって、いくつかの実施形態では、対象の組織のゲノム全体にわたるヘテロ接合性の喪失を表す測定基準は、単一の値、例えば、ゲノムのパーセンテージまたは画分として表される。場合によっては、腫瘍はさまざまなサブクローン集団で構成されており、それぞれの集団では、それぞれのゲノムの全体わたるヘテロ接合性の喪失の程度が異なることがある。したがって、いくつかの実施形態では、がん性組織のゲノム全体にわたるヘテロ接合性の喪失は、不均一な腫瘍集団にわたるヘテロ接合性の平均的な喪失を指す。本明細書で使用される場合、特定の遺伝子、例えば、相同ＤＮＡ組換え経路に関与するタンパク質（例えば、ＢＲＣＡ１またはＢＲＣＡ２）などのＤＮＡ修復タンパク質におけるヘテロ接合性の喪失の測定基準に言及するときに、ヘテロ接合性の喪失は、組織のゲノム内のタンパク質をコードする遺伝子の１つのコピーの完全または部分的な喪失、および／または完全長の遺伝子産物の翻訳を妨げる遺伝子の１つのコピーの変異、例えば、目的の遺伝子におけるフレームシフトまたは短縮（時期尚早な終止コドンを作成）変異を指す。場合によっては、腫瘍はさまざまなサブクローン集団で構成されており、各々が目的の遺伝子で異なる変異状態を有することがある。したがって、いくつかの実施形態では、目的の特定の遺伝子のヘテロ接合性の喪失は、がん性組織のすべての配列決定されたサブクローン集団にわたる遺伝子のヘテロ接合性の喪失の平均値によって表される。他の実施形態において、目的の特定の遺伝子のヘテロ接合性の喪失は、がん性組織のすべての配列決定されたサブクローン集団にわたる目的の遺伝子におけるヘテロ接合性の喪失の固有の発生数のカウントによって表される（例えば、配列決定データで特定された遺伝子の固有のフレームシフトおよび／または短縮型変異の数）。

本明細書で使用される場合、「がん」、「がん性組織」、または「腫瘍」という用語は、塊の成長が正常組織の成長を上回り、調整されていない組織の異常な塊を指す。がんまたは腫瘍は、以下の特徴に応じて「良性」または「悪性」として定義することができる。すなわち、形態および機能性を含む細胞分化の程度、成長速度、局所侵入および転移である。「良性」腫瘍は十分に分化することができ、悪性腫瘍よりも成長が遅いという特徴があり、原発部位に局在したままである。追加的に、場合によっては、良性腫瘍には、離れた部位に浸潤、侵入、または転移する能力がない。「悪性」腫瘍は、低分化（退形成）である可能性があり、進行性の湿潤、侵入、および周囲の組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有する可能性がある。したがって、がん細胞は、その成長が正常組織の成長と協調していない組織の異常な塊内に見られる細胞である。したがって、「腫瘍サンプル」は、本明細書で説明されるように、対象の腫瘍から得られた、またはそれに由来する生物学的サンプルを指す。

本明細書で使用される場合、本明細書で使用される「配列決定」、「配列判定」などの用語は、一般に、核酸またはタンパク質などの生体高分子の順序を決定するために使用できるありとあらゆる生化学的プロセスを指す。例えば、配列決定データは、ｍＲＮＡ転写物またはゲノム遺伝子座などの核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。

本明細書で使用される場合、「配列読み取り」または「読み取り」という用語は、本明細書で説明されるか、または当技術分野で知られている任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。読み取りは、核酸フラグメントの一端から生成することができ（「シングルエンド読み取り」）、場合によっては、核酸の両端から生成することもある（例えば、ペアエンド読み取り、ダブルエンド読み取り）。読み取られるシーケンスの長さは、特定の配列決定テクノロジーに関連していることがよくある。例えば、ハイスループット法では、サイズが数十～数百塩基対（ｂｐ）まで変化する可能性のある配列読み取りが提供される。いくつかの実施形態では、配列読み取りは、約１５ｂｐ～９００ｂｐの長さの平均、中央値、または算術的平均の長さ（例えば、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、または約５００ｂｐのものである。いくつかの実施形態では、配列読み取りは、約１０００ｂｐ、２０００ｂｐ、５０００ｂｐ、１０，０００ｂｐ、または５０，０００ｂｐ以上の平均、中央値、または算術的平均の長さのものである。例えば、ナノポア配列決定では、サイズが数十から数百、数千塩基対まで変化する可能性のある配列読み取りが提供され得る。イルミナのパラレル配列決定では、それほど変化しない配列読み取りを提供することができ、例えば、ほとんどの配列読み取りは２００ｂｐ未満にすることができる。配列読み取り（または配列決定読み取り）は、核酸分子（例えば、ヌクレオチドのストリング）に対応する配列情報を指すことができる。例えば、配列読み取りは、核酸フラグメントの一部からのヌクレオチドのストリング（例えば、約２０～約１５０）に対応することができ、核酸フラグメントの一端または両端のヌクレオチドのストリングに対応することができ、または核酸フラグメント全体のヌクレオチドに対応することができる。配列読み取りは、様々な方法、例えば、配列決定技術を使用するか、もしくは例えば、ハイブリダイゼーションアレイやキャプチャープローブのプローブを使用する、またはポリメラーゼ連鎖反応（ＰＣＲ）、単一プライマーもしくは等温増幅を使用した線形増幅などの増幅技術で取得され得る。

本明細書で使用される場合、「読み取りセグメント」または「読み取り」という用語は、個体から取得された配列読み取りを含む任意のヌレオクチド配列および／または個体から取得されたサンプルからの初期の配列読み取りに由来するヌクレオチド配列を指す。例えば、読み取りセグメントは、アラインメントされた配列読み取り、折りたたまれたシーケンス読み取り、またはステッチされた読み取りを指すことができる。さらに、読み取りセグメントは、一塩基バリアントなどの個々のヌクレオチド塩基を参照することができる。

本明細書で使用される場合、「参照エクソーム」という用語は、対象から特定された配列を参照するために使用され得る任意の生物または病原体からの任意の組織の、部分的または完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたエクソームを指す。人間の対象および他の多くの生物に使用される例示的な参照エクソームは、ＮＣＢＩ（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）がホストするオンラインゲノムブラウザで提供される。

本明細書で使用される場合、「参照ゲノム」という用語は、対象から特定された配列を参照するために使用され得る任意の生物または病原体の、部分的または完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒトの対象および他の多くの生物に使用される例示的な参照ゲノムは、ＮＣＢＩ（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）またはＵＣＳＣ（ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，ＳａｎｔａＣｒｕｚ）がホストするオンラインゲノムブラウザで提供される。「ゲノム」とは、核酸配列で表現された、生物または病原体の完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体から組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態では、参照ゲノムは、１つ以上のヒト個体から組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例と見なすことができる。いくつかの実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒトの参照ゲノムには、ＮＣＢＩｂｕｉｌｄ３４（ＵＣＳＣ同等物：ｈｇ１６）、ＮＣＢＩｂｕｉｌｄ３５（ＵＣＳＣ同等物：ｈｇ１７）、ＮＣＢＩｂｕｉｌｄ３６．１（ＵＣＳＣ同等物：ｈｇ１８）、ＧＲＣｈ３７（ＵＣＳＣ同等物：ｈｇ１９）、およびＧＲＣｈ３８（ＵＣＳＣ同等物：ｈｇ３８）が含まれるが、これらに限定されない。

本明細書で使用される場合、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を判定するための技術を指す。アッセイ（例えば、第１のアッセイまたは第２のアッセイ）は、サンプル中の核酸のコピー数の変動、サンプル中の核酸のメチル化状態、サンプル中の核酸のフラグメントサイズ分布、サンプル中の核酸の変異状態、またはサンプル中の核酸の断片化パターンを判定するための技術を含むことができる。当業者に知られている任意のアッセイを使用して、本明細書に説明される核酸の任意の特性を検出することができる。核酸の特性には、配列、ゲノム同一性、コピー数、１つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、１つ以上のヌクレオチド位置での核酸の変異の有無、および核酸の断片化のパターン（例えば、核酸が断片化するヌクレオチド位置）を含むことができる。アッセイまたは方法は、特定の感度および／または特異性を有することができ、診断ツールとしてのそれらの相対的な有用性は、ＲＯＣ－ＡＵＣ統計を使用して測定することができる。

「分類」という用語は、サンプルの特定のプロパティに関連付けられている任意の数字または他の文字を指すことができる。例えば、いくつかの実施形態では、「分類」という用語は、対象またはサンプルにおけるがんのタイプ、対象またはサンプルにおけるがんの段階、対象またはサンプルにおけるがんの予後、対象の腫瘍負荷、対象における腫瘍転移の存在などを指すことができる。分類は、バイナリ（例えば、正または負）にすることか、またはより多くのレベルの分類（例えば、１～１０または０～１のスケール）にすることができる。「カットオフ」および「閾値」という用語は、操作で使用される所定の数を指すことができる。例えば、カットオフサイズは、それを超えるとフラグメントが除外されるサイズを指すことができる。閾値は、それを超えるか、またはそれを下回ると特定の分類が適用される値であり得る。これらの用語のいずれかは、これらのコンテキストのいずれかで使用できる。

説明のための例示的な出願を参照して、いくつかの態様を以下に説明する。本明細書に説明される特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が記載されていることを理解されたい。しかしながら、当業者は、本明細書に説明される特徴が、１つ以上の特定の詳細なしで、または他の方法で実施できることを容易に認識するであろう。いくつかの行為は異なる順序で、および／または他の行為またはイベントと同時に発生する可能性があるため、本明細書に説明される特徴は、行為またはイベントの説明される順序によって制限されない。さらに、本明細書に説明される特徴に従った方法論を実装するために、説明されたすべての行為または事象が必要とされるわけではない。

ここで実施形態を詳細に参照すると、その例は添付の図面に示される。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本開示がこれらの具体的な詳細なしで実践されてもよいことは当業者には明らかであろう。他の例では、周知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。

例示的なシステムの実施形態
試験対象におけるがんの相同組換え経路状態を判定する、および／またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム１００の詳細な説明が、図１Ａ～１Ｂと併せて説明される。したがって、図１Ａ～１Ｂは、本開示の実施形態による、システムのトポロジーをまとめて示す。

図１Ａを参照すると、典型的な実施形態では、システム１００は、１つ以上のコンピュータを含む。説明を目的として、図１Ａでは、システム１００は、細胞ベースのアッセイからのデータを使用して複雑な生物学的システム内の相互作用を特定するためのすべての機能性を含む単一のコンピュータとして表される。しかしながら、いくつかの実施形態では、試験対象におけるがんの相同組換え経路状態を判定するための機能性は、任意の数のネットワーク化コンピュータに分散される、および／または複数のネットワーク化コンピュータの各々に存在し、および／または通信ネットワーク１０５を介してアクセス可能な遠隔地にある１つ以上の仮想マシン上でホストされる。本出願には、幅広い異なるコンピュータトポロジのうちのいずれかが使用され、そのようなトポロジーは全て本開示の範囲内であることは、当業者は理解するであろう。

ここで、例示的なシステムの詳細を図１と併せて説明する。図１は、いくつかの実装によるシステム１００を示すブロック図である。いくつかの実装におけるデバイス１００は、少なくとも、１つ以上の処理ユニットＣＰＵ１０２（プロセッサとも呼ばれる）と、１つ以上のネットワークインターフェース１０４と、例えばディスプレイ１０８および／またはキーボード１１０を含むユーザインターフェース１０６と、メモリ１１１と、これらの構成要素を相互接続するための１つ以上の通信バス１１４と、を含む、１つ以上の通信バス１１４は、任意選択で、システムコンポーネント間の通信を相互接続および制御する回路（チップセットと呼ばれることもある）を含む。メモリ１１１は、非永続メモリ、永続メモリ１１２、またはそれらの任意の組み合わせであってもよい。非永続メモリには通常、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどの高速ランダムアクセスメモリが含まれますが、永続メモリには、通常、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートストレージデバイスを含まれる。その特定の実装に関係なく、メモリ１１１は、少なくとも１つの非一時的なコンピュータ可読記憶媒体を含み、プログラム、モジュール、およびデータ構造の形態であり得るコンピュータ実行可能な実行可能命令をその上に記憶する。

いくつかの実施形態では、図１Ａに示されるように、メモリ１１１は、以下を記憶する。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実行するための手順を含むオペレーティングシステム１１６。
・システム１００を他のデバイスおよび／または通信ネットワーク１０５に接続するための任意選択のネットワーク通信モジュール（または命令）１１８。
・試験対象からの第１のＤＮＡサンプルの第１の複数の配列読み取り１２２（例えば、１２２－１－１，…，１２２－１－Ｎ）を電子形式で含む第１の試験データセット１２０－１であって、第１のＤＮＡサンプルは、対象のがん性組織からのＤＮＡ分子を含む。
・試験対象からの第２のＤＮＡサンプルの第２の複数の配列読み取り１２２（例えば、１２２－２－１，…，１２２－２－Ｍ）を電子形式で含む第２の試験データセット１２０－２であって、第２のＤＮＡサンプルは、対象の非がん性組織からのＤＮＡ分子からなる。
・第１の複数の配列読み取りおよび第２の複数の配列読み取りに基づいて生成され、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に入力される、対象のがん性組織および非がん性組織のゲノムの１つ以上の特徴を含む試験ゲノムデータ構造物１２８であって、以下を含む。
〇図１Ｂに示されるように、第１の複数のＤＮＡ損傷修復遺伝子１３０－１について、対象のがん性組織のゲノムにおけるヘテロ接合性状態（例えば、第１のデータセット）１３２。
〇対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度（例えば、第１のデータセット）１３４であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第１の複数の配列読み取り１３６におけるゲノムヘテロ接合性の喪失を決定し、第１の複数の配列読み取りに対する腫瘍純度の推定１３８により、判定されたヘテロ接合性の喪失を正規化することによって、判定される、ヘテロ接合性の喪失の尺度１３４。
〇第２の複数のＤＮＡ損傷修復遺伝子１３０－２について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度（例えば、第１のデータセット）１４０－１。
〇第２の複数のＤＮＡ損傷修復遺伝子１３０－２について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度（例えば、第２のデータセット）１４０－２。
・例えば、訓練ゲノムデータ構築物１７６に記憶された訓練データを使用して、疾患状態を区別するために疾患分類器１７３を訓練するための分類器訓練モジュール１７０。
・例えば、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するための１つ以上の相同組換え経路分類器１７４である、疾患分類器１７３。
・疾患分類器を評価するための分類器評価モジュール１７１。
・例えば、訓練された疾患分類器１７３を用いて試験ゲノムデータ構築物１２８を評価することにより、試験対象の相同組換え経路状態を判定するための疾患分類モジュール１７２。
・それぞれの訓練対象について、がんの相同組換え経路状態を判定するためのアルゴリズム、例えば、疾患分類器１７３を訓練するために使用できる訓練ゲノムデータを記憶する訓練ゲノムデータ構造物１７６であって、それぞれの訓練対象のがんおよびそれぞれの訓練対象の非がん性組織のゲノムの１つ以上の特徴についての相同組換え経路状態１９０を含み、以下を含む訓練ゲノムデータ構築物１７６。
〇図１Ｂに示されるように、第１の複数のＤＮＡ損傷修復遺伝子１７８－１について、対象のがん性組織のゲノムにおけるヘテロ接合性状態１８０。
〇対象のがん性組織のゲノムの全体のにわたるヘテロ接合性の喪失の尺度１８２であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第１の複数の配列読み取り１８４におけるゲノムヘテロ接合性の喪失を判定し、第１の複数の配列読み取りに対する腫瘍純度の推定１８６により、判定されたヘテロ接合性の喪失を正規化することによって、任意選択で判定される、ヘテロ接合性の喪失の尺度１８２。
〇第２の複数のＤＮＡ損傷修復遺伝子１７８－２について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度１８８－１。
〇第２の複数のＤＮＡ損傷修復遺伝子１７８－２について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度１８８－２。

いくつかの実装では、モジュール１１８、１７０、１７１および／または１７２および／またはデータストア１２０、１２８および／または１７６は、任意のブラウザ内でアクセス可能である（例えば、電話、タブレット、またはラップトップ／デスクトップシステムにインストールされる）。いくつかの実施形態では、モジュール１１８、１２０、１７０、１７１および／または１７２は、ネイティブデバイスフレームワーク上で動作し、Ｗｉｎｄｏｗｓ、ｍａｃＯＳ、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、ＡｎｄｒｏｉｄＯＳ、またはｉＯＳなどのオペレーティングシステム１１６を動作させるシステム１００にダウンロード可能である。

いくつかの実装では、システム１００の上記のデータ要素またはモジュールのうちの１つ以上は、前述のメモリデバイスのうちの１つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上記のデータ、モジュール、またはプログラム（例えば、命令のセット）は、別々のソフトウェアプログラム、手順、またはモジュールとして実装される必要はなく、したがって、これらのモジュールの様々なサブセットは、様々な実装形態において組み合わされ、または他の方法で再構成されてもよい。いくつかの実装では、メモリ１１１は、任意選択的で、上記のモジュールおよびデータ構造のサブセットを記憶する。さらに、いくつかの実施形態では、メモリ１１１は、上述していない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、上記で特定された要素の１つ以上は、システム１００の要素以外のコンピュータシステムに記憶され、これは、システム１００が必要なときにそのようなデータの全部または一部を検索できるように、システム１００によってアドレス指定可能である。

図１は「システム１００」を示しているが、この図は、本明細書で説明される実装の構造概略図としてではなく、コンピュータシステムに存在し得る様々な特徴の機能的説明として意図されている。実際には、また当業者によって認識されるように、別々に示されるアイテムは組み合わせることができ、いくつかのアイテムは別々にすることができる。さらに、図１は、メモリ１１１（非永続的１１１または永続的メモリ１１２であり得る）内の特定のデータおよびモジュールを示しているが、これらのデータおよびモジュール、またはその一部は、２つ以上のメモリに記憶されてもよいと理解されたい。

例示的な方法
試験対象におけるがんの相同組換え経路状態を決定判定する、および／またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム１００の詳細が開示されたので、システムのプロセスおよび特徴に関する詳細は、本開示の様々な実施形態に従って、以下に開示される。具体的には、図２を参照して、例示的なプロセスを以下に説明する。いくつかの実施形態では、システムのそのようなプロセスおよび特徴は、図１に示されるように、モジュール１１８、１２０、１７０、１７１および／または１７２によって実行される。これらの方法を参照すると、本明細書に説明されるシステム（例えば、システム１００）は、試験対象におけるがんの相同組換え経路状態を判定する、および／またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための命令を含む。

図２は、本開示の様々な実施形態による、試験対象におけるがんの相同組換え経路状態を判定するための例示的なワークフロー２００を示す。ワークフロー２００に示されるステップの様々な実装に関するさらなる詳細は、以下により詳細に説明される。当業者は、ワークフロー２００に示される各ステップを実行するための適切な代替案を知っているであろう。

一態様では、本開示は、試験対象におけるがんの相同組換え経路状態を判定するための方法２００を提供する。本方法は、試験対象からの第１のＤＮＡサンプルの第１の複数の配列読み取りを電子形式で取得することであって、第１のＤＮＡサンプルが、対象のがん性組織からのＤＮＡ分子を含む、取得すること（２０２）を含む。本方法は、試験対象からの第２のＤＮＡサンプルの第２の複数の配列読み取りを電子で取得することであって、第２のＤＮＡサンプルが、対象の非がん性組織からのＤＮＡ分子からなる、取得すること（２０４）を含む。

いくつかの実施形態では、第１のＤＮＡサンプルは、対象のがん性組織の固形腫瘍生検からのものである。他の実施形態では、第２のＤＮＡサンプルは、液体サンプル、例えば、液体生検からのものである。一般に、対象のがん性の生物学的サンプルは生検である。がん性組織のサンプルを取得するための方法は当技術分野で知られており、サンプリングされるがんのタイプに依存している。例えば、骨髄生検および循環腫瘍細胞の分離株を使用して血液がんのサンプルを取得することができ、内視鏡生検を使用して消化管、膀胱、および肺のがんのサンプルを取得することができ、針生検（例えば、細針吸引、コア針吸引、真空補助生検、および画像誘導生検を使用して、皮下腫瘍のサンプルを取得することができ、皮膚生検、例えば、剃毛生検、パンチ生検、切開生検、および切除生検を使用して、取得することができる。皮膚がんのサンプルを取得することができ、および外科的生検を使用して、患者の内臓に影響を与えるがんのサンプルを取得することができる。いくつかの実施形態では、生物学的サンプルは固形生検である。いくつかの実施形態では、固形生検は、マクロ解剖されたホルマリン固定パラフィン包埋（ＦＦＰＥ）組織切片である。いくつかの実施形態では、生物学的サンプルは、血液または唾液を含む。

いくつかの実施形態では、第１の複数の配列読み取りが、ゲノム領域のパネルについて対象のがん性組織からの核酸を濃縮するために複数の核酸プローブを使用した標的化配列決定によって生成された。いくつかの実施形態では、第１の複数の配列読み取りが、対象のがん性組織からの核酸の全ゲノム配列決定によって生成された。いくつかの実施形態では、第１の複数の配列読み取りは、対象のがん性組織からの核酸の全体的または部分的なエクソーム配列決定によって生成された。

いくつかの実施形態では、第２のＤＮＡサンプルは、対象からの血液サンプルのバフィーコート調製物からのものである。他の実施形態では、第２のＤＮＡサンプルは、対象の唾液からのものである。一般に、実質的にすべて非がん性組織に由来するゲノムまたはエキソミック材料を含む任意のサンプルを使用して、第２の複数の配列読み取りを生成することができる。

いくつかの実施形態では、第２の複数の配列読み取りが、ゲノム領域のパネルについて対象の非がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された。いくつかの実施形態では、第２の複数の配列読み取りが、対象の非がん性組織からの核酸の全ゲノム配列決定によって生成された。いくつかの実施形態では、第２の複数の配列読み取りが、対象の非がん性組織からの核酸の全体的または部分的なエクソーム配列決定によって生成された。

次に、本方法は、第１の複数の配列読み取りおよび第２の複数の配列読み取りに基づいて、対象のゲノムデータ構築物を生成することであって、ゲノムデータ構築物が、対象のがん性組織および非がん性組織のゲノムの１つ以上の特徴を含む、生成すること（２０６）を含む。いくつかの実施形態では、複数の特徴は、（ｉ）対象のがん性組織における第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態、（ｉｉ）対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、（ｉｉｉ）対象のがん性組織のゲノムの第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度、および（ｉｖ）対象の非がん性組織のゲノムの第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度を含む。

いくつかの実施形態では、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、第１の複数の配列読み取りにおけるゲノムヘテロ接合性の喪失を判定し、第１の複数の配列読み取りに対する腫瘍純度の推定により、判定されたヘテロ接合性の喪失を正規化することによって取得される。つまり、多くの「腫瘍生検」には、残留パーセンテージの非がん性細胞が含まれる。腫瘍生検から分離された核酸からのヘテロ接合性の喪失を推定するときに、非がん性細胞からの核酸の存在は、ヘテロ接合性の全体的な喪失を下方に歪めるであろう。サンプルの腫瘍純度、例えば、非がん性細胞ではなくがん性細胞に由来する核酸のパーセンテージを推定することにより、配列決定データへの非がん性の寄与の存在を説明することができ、対象のがんゲノム全体のヘテロ接合性の喪失のより正確な分析を提供する。

いくつかの実施形態では、第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態が、第１の複数のＤＮＡ損傷修復遺伝子において検出された固有のフレームシフト変異の数のカウントを含む。いくつかの実施形態では、第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態が、第１の複数のＤＮＡ損傷修復遺伝子において検出された固有の短縮型変異の数のカウントを含む。いくつかの実施形態では、第１の複数のＤＮＡ損傷修復遺伝子が、相同組換え経路に関与する遺伝子である。いくつかの実施形態では、第１の複数のＤＮＡ損傷修復遺伝子が、ＢＲＣＡ１およびＢＲＣＡ２を含む。

いくつかの実施形態では、対象のがん性組織のゲノム中の第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度が、第１の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む。いくつかの実施形態では、対象の非がん性組織のゲノム中の第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度が、第２の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む。

いくつかの実施形態では、第２の複数のＤＮＡ損傷修復遺伝子が、相同組換え経路に関与する遺伝子である。いくつかの実施形態では、第２の複数のＤＮＡ損傷修復遺伝子が、ＢＲＣＡ１およびＢＲＣＡ２を含む。いくつかの実施形態では、ＢＲＣＡ１およびＢＲＣＡ２における相同組換えの喪失に関連する固有の変異は、表１に列挙された変異の少なくとも２５、５０、７５、１００、１２５、または全てを含む。

次に、本方法は、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に変異型アレルゲノムデータ構築物を入力し、それによって試験対象の相同組換え経路状態を判定すること（２０８）を含む。いくつかの実施形態では、分類器が、以下にさらに詳細に説明するように、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ＮａｉｖｅＢａｙｅｓアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定ツリーアルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである。

いくつかの実施形態では、方法２００は、分類器によって行われたＨＲＤ予測に基づいて対象を治療することも含む。例えば、いくつかの実施形態では、試験対象のがんが相同組換え欠損であると判定されたときに、ポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤を試験対象に投与することによってがんを治療し、試験対象のがんが相同組換え欠損ではないと判定されたときに、ＰＡＲＰ阻害剤の試験対象に投与することを含まない治療法でがんを治療する。いくつかの実施形態では、ＰＡＲＰ阻害剤は、オラパリブ、ベリパリブ、ルカパリブ、ニラパリブ、およびタラゾパリブから選択される。さまざまなＰＡＲＰ阻害剤に対する現在のＦＤＡ承認の概要を以下の表２に提供する。

図３は、１つ以上の患者検体の分析および患者の健康情報の摂取から生成された情報に基づかない臨床レポートを生成するための例示的な方法のフローチャートを表示する。臨床実験室は、包括的なゲノムプロファイリングの注文やＨＲＤ状態の推定を提供する試験の注文などの注文を受けてもよい。物理的検体は、処理と分析のために実験室に提供されてもよい。処理および分析は、ＨＲＤ状態の推定を含み得るヌクレオチドおよび臨床情報を含み得る分析を含み得る。１つ以上の検体は、アクセッション、病理学レビュー、抽出、ライブラリー調製、キャプチャーおよびハイブリダイゼーション、プーリング、および配列決定のステップを含み得る実験室を通して処理され得る。配列決定は、ショートリードテクノロジーなどの次世代配列決定テクノロジーを使用して実行されてもよい。ロングリード配列決定または当技術分野で知られている他の配列決定方法などの他の配列決定方法を交互に使用してもよい。配列決定の結果は、バイオインフォマティクスパイプラインに提供されてもよい。バイオインフォマティクスパイプラインの結果は、病原性および生物学的重要性についてのバリアント（該当する場合は体細胞および生殖細胞系列バリアントを含む）の解釈を含む、バリアント科学分析に提供されてもよい。バリアント科学分析では、マイクロサテライト不安定性（ＭＳＩ）または腫瘍の変異負荷も推定してもよい。標的化治療は、注文する医師によるさらなる検討とレビューのために、遺伝子、バリアント、およびがんのタイプに基づいて特定されてもよい。いくつかの態様において、変異、がんのタイプ、および／または病歴に基づいて、患者が適格である可能性がある臨床試験が特定されてもよい。検証ステップが発生してもよく、その後、サインアウトと配信のためにレポートが完成されてもよい。いくつかの態様において、レポートにはＨＲＤ状態の推定が含まれる。他の態様では、図３に提示された方法の一部で生成された情報に基づいて、ＨＲＤ状態の推定を有する第２のレポートが配信されてもよい。

生物学的サンプル
いくつかの実施形態では、推定されたＨＲＤ状態は、がんおよび／または正常な検体のヌクレオチドに関する情報に基づいて生成されてもよい。がん検体は、血液腫瘍および固形腫瘍を含む、異なるサブタイプのがんに由来してもよい。いくつかの実施形態では、包括的なゲノムプロファイリングに利用されるサンプルタイプは、固定ホルマリン、パラフィン包埋（ＦＦＰＥ）スライド、末梢血、または骨髄吸引物であり得る。サンプルは、エチレンジアミン四酢酸カリウム（ＥＤＴＡ）チューブなどのリポジトリに収集されてもよい。検体は、組織ブロックまたは複数のＦＦＰＥスライド、例えば、最大３枚のスライド、最大５枚のスライド、最大１０枚のスライド、または最大２０枚のスライドであり得る。いくつかの実施形態では、マッチした正常な検体は、末梢血または唾液である。

特徴
いくつかの態様において、推定されたＨＲＤ状態を生成するために使用される情報は、複数遺伝子の包括的なゲノムプロファイリングパネルによって実施される配列決定によって生成され得る。パネルは、１０を超える、１００を超える、または１，０００を超える遺伝子を分析してもよい。パネルは、検体のエクソームを分析する全エクソームパネルであってもよい。パネルは、検体のゲノムを分析する全ゲノムパネルであってもよい。いくつかの態様において、推定されたＨＲＤ状態を生成するために使用される情報は、ＤＮＡベースの試験などの包括的なゲノムプロファイリング試験の一部として生成されてもよい。パネルは、一塩基多型（ＳＮＶ）、挿入／欠失、コピー数多型（ＣＮＶ）、および遺伝子再配列を特定してもよい。

システムおよび方法は、特定の遺伝子の変異状態を考慮に入れてもよい。例えば、システムおよび方法は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、または１５個の遺伝子の変異状態を考慮に入れてもよい。システムおよび方法は、１５～３０遺伝子、３０～４５遺伝子、４５～６０遺伝子、６０～７５遺伝子、７５～１０５遺伝子、および１～７００遺伝子の変異状態を考慮に入れてもよい。システムおよび方法は、ＨＲ経路（相同組換え修復変異ＨＲＲｍ）などの経路において一般的に変異した遺伝子を考慮に入れてもよい。

システムおよび方法は、変異アレル画分の少なくとも５％における塩基置換について少なくとも９９％の感度、少なくとも５％の変異アレル画分のインデルについて少なくとも９８％の感度、３０％以上の腫瘍核における８つ以上の遺伝子コピーからのＣＮＶについて少なくとも９５％の感度、および／または遺伝子配列について少なくとも９９％の感度を有するパネルを使用してもよい。

パネルは、腫瘍の平均配列決定深度が５００倍であってもよい。パネルは、マッチした正常に対して平均配列決定深度が１５０倍であってもよい。

いくつかの態様において、レポートは、患者のがんの変異状態に関する情報、およびＨＲＤ状態の推定などの包括的なゲノムプロファイリング情報とともに臨床医に返送されてもよい。いくつかの態様において、包括的なゲノムプロファイリング情報で報告された遺伝子は、ＨＲＤ状態の推定の基礎となるか、そうでなければこれに関連するものとして強調表示されてもよい。そのような遺伝子の数は、１～５、１～１０、１～２０、１～３０、１～４０、１～５０などであり得る。いくつかの態様において、包括的なゲノムプロファイリング情報において変異として報告された遺伝子は、検出されたときに、生殖細胞系列または体細胞の変化であるとして強調され得る。

いくつかの態様において、システムおよび方法はスケーラブルであり、ＤＮＡ損傷修復経路における他の遺伝子、またはＲＮＡ発現などの他のデータ型との統合を可能にして、ＰＡＲＰ阻害剤治療オプションなどの治療オプションに関する臨床意思決定支援を提供するために利用され得る。

バイオインフォマティクスパイプラインでは、ＨＲＤ予測エンジンに提供できるさまざまな特徴が生成されてもよい。いくつかの実施形態では、コピー数セグメントのいくつかまたはすべて、目的のＢＲＣＡ遺伝子における短縮型およびストップゲイン効果の病原性変異、ゲノムワイドＬＯＨ比率、腫瘍純度、およびＢＲＣＡ遺伝子におけるＬＯＨが、ＨＲＤ状態を推測するために使用される。

遺伝子配列決定パネルでの患者検体の腫瘍正常マッチ配列決定分析とそれに続くバイオインフォマティクスパイプラインを使用して、各患者のＳＮＰとコピー数バリアントをコールし、ＤＮＡバリアントデータセットに記憶してもよい。

各ＤＮＡバリアントデータセットは、同じ患者からのがんサンプルと非がんサンプルをＤＮＡ全エクソーム次世代配列決定（ＮＧＳ）で処理してＤＮＡ配列決定データを生成することによって生成してもよく、ＤＮＡ配列決定データはバイオインフォマティクスパイプラインによって処理されて、各サンプルにＤＮＡバリアントコールファイル（他の出力の中でも）を生成してもよい。がんサンプルは、がん細胞を含む組織サンプルまたは血液サンプルであり得る。場合によっては、患者のがんサンプルの代わりに腫瘍オルガノイドサンプルが処理されることがある。

より詳細には、生殖細胞系列（「正常」、非がん性）ＤＮＡは、血液（例えば、患者が血液がんではないがんを有する場合）または唾液（例えば、患者が血液がんを有する場合）のいずれかから抽出され得る。正常な血液サンプルは患者から収集することができ（例えば、ＰＡＸｇｅｎｅＢｌｏｏｄＤＮＡＴｕｂｅｓで）、唾液サンプルは患者から収集することができる（例えば、ＯｒａｇｅｎｅＤＮＡＳａｌｉｖａキットで）。

血液がんサンプルは、患者から収集することができる（例えば、ＥＤＴＡ収集チューブで）。固形腫瘍サンプルからマクロ解剖されたＦＦＰＥ組織切片（組織病理学スライドにマウントされることがある）を病理学者が分析して、サンプル中の全体的な腫瘍量と、腫瘍と正常核の比率としての腫瘍細胞性の比を決定することができる。各切片について、切片が腫瘍純度の閾値を満たすように、背景組織を除外または除去することができる（一例では、切片内の核の少なくとも２０％が腫瘍核である）。

次に、プロテイナーゼＫを含む市販の試薬を使用して血液サンプル、唾液サンプル、および組織切片からＤＮＡを分離し、ＤＮＡの液体溶液を生成することができる。

分離されたＤＮＡの各溶液は、溶液中のＤＮＡ分子の濃度および／または量を判定するための品質管理プロトコルに供されてもよく、これは、蛍光色素および蛍光マイクロプレートリーダー、標準分光蛍光計、またはフィルター蛍光計の使用を含んでもよい。

各がんサンプルおよび各正常サンプルに、分離されたＤＮＡ分子は、超音波処理装置（例えば、Ｃｏｖａｒｉｓ超音波処理装置）を使用して、平均的な長さに機械的に剪断され得る。ＤＮＡ分子を分析してフラグメントサイズを判定することもでき、これは、ゲル電気泳動技術を介して行うことができ、ＬａｂＣｈｉｐＧＸＴｏｕｃｈなどのデバイスの使用を含んでもよい。

ＤＮＡライブラリーは、例えば、ＫＡＰＡＨｙｐｅｒＰｒｅｐキット、ＮｅｗＥｎｇｌａｎｄＢｉｏｌａｂｓ（ＮＥＢ）キット、または同様のキットを使用して、分離されたＤＮＡから調製することができる。ＤＮＡライブラリーの調製には、ＤＮＡ分子へのアダプターのライゲーションが含まれてもよい。例えば、ＲｏｃｈｅＳｅｑＣａｐデュアルエンドアダプターを含むＵＤＩアダプター、またはＵＭＩアダプター（例えば、全長またはずんぐりしたＹアダプター）をＤＮＡ分子にライゲーションすることができる。

この例では、アダプターは、それらが由来するサンプルに従ってＤＮＡ分子を識別するための、および／または下流のバイオインフォマティクス処理および／または次世代配列決定反応を容易にするためのバーコードとして機能し得る核酸分子である。アダプター内のヌクレオチドの配列は、サンプルを区別するためにサンプルに固有であってもよい。アダプターは、シーケンサーフローセル上のオリゴヌクレオチド分子を固定するためのＤＮＡ分子の結合を促進し、配列決定反応の開始点を提供することにより、配列決定プロセスのシードとして機能し得る。

ＤＮＡライブラリーは、試薬、例えばＡｘｙｇｅｎＭＡＧＰＣＲクリーンアップビーズを使用して増幅および精製することができる。次に、ＤＮＡ分子の濃度および／または量は、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルター蛍光光度計を使用して定量化され得る。

ＤＮＡライブラリーをプールし（２つ以上のＤＮＡライブラリーを混合してプールを作成することができる）、試薬で処理してオフターゲットキャプチャーを低減することができる（例えば、ＨｕｍａｎＣＯＴ－１および／またはＩＤＴｘＧｅｎＵｎｉｖｅｒｓａｌＢｌｏｃｋｅｒｓ）。プールは真空で乾燥させ、再懸濁することができる。ＤＮＡライブラリーまたはプールは、プローブセット（例えば、１９，０００の既知のヒト遺伝子の約１００、６００、１，０００、１０，０００などを含むパネルに固有のプローブセット）にハイブリダイズし、市販の試薬で増幅することができる（例えば、ＫＡＰＡＨｉＦｉＨｏｔＳｔａｒｔＲｅａｄｙＭｉｘ）。

プールは、インキュベーター、ＰＣＲマシン、ウォーターバス、または他の温度調節デバイスでインキュベートして、プローブをハイブリダイズさせることができる。次に、プールは、Ｓｔｒｅｐｔａｖｉｄｉｎでコーティングされたビーズ、またはヒトゲノムのエキソンを表すＤＮＡ分子および／または遺伝子パネル用に選択された遺伝子などのハイブリダイズしたＤＮＡプローブ分子をキャプチャーするための別の手段と混合することができる。

プールは、市販の試薬、例えば、ＫＡＰＡＨｉＦｉＬｉｂｒａｒｙＡｍｐｌｉｆｉｃａｔｉｏｎキットとＡｘｙｇｅｎＭＡＧＰＣＲクリーンアップビーズをそれぞれ使用して、２回以上増幅および精製することができる。プールまたはＤＮＡライブラリーは、例えば、蛍光色素（例えば、ＰｉｃｏＧｒｅｅｎプール定量化）および蛍光マイクロプレートリーダー、標準分光蛍光計、またはフィルター蛍光計を使用することによって、ＤＮＡ分子の濃度または量を判定するために分析され得る。

一例では、ＤＮＡライブラリーの調製および／または全エクソームキャプチャーステップは、液体処理ロボット（例えば、ＳｃｉＣｌｏｎｅＮＧＳｘ）を使用して、自動化されたシステムで実行され得る。

ライブラリー増幅は、デバイス、例えばイルミナＣ－Ｂｏｔ２で実行でき、増幅されたターゲットキャプチャーＤＮＡライブラリーを含む結果のフローセルは、次世代シーケンサー、例えばＩｌｌｕｍｉｎａＨｉＳｅｑ４０００またはＮｏｖａＳｅｑ６０００で、ユーザが選択した固有のオンターゲット深度（３００ｘ、４００ｘ、５００ｘ、１０，０００ｘなど）まで配列決定される。サンプルは、すべてのターゲットｂｐの９５％をユーザが選択した最小深度（３００ｘなど）まで配列決定する必要がある各サンプルとの均一性についてさらに評価できる。次世代シーケンサーは、各フローセルまたは各患者サンプルにＦＡＳＴＱ、ＢＣＬ、または他のファイルを生成してもよい。

バイオインフォマティクスパイプライン
特定の態様において、バイオインフォマティクスパイプラインは、この文書に開示されたシステムおよび方法を含む。

ＦＡＳＴＱとアライメント
マッチした正常組織が患者に利用可能になるときに、腫瘍正常マッチ配列決定実行が実行される。ＤＮＡは正常組織、通常は血液または唾液から抽出される。次に、腫瘍組織から抽出されたＤＮＡに加えて、これが配列決定される。これらの２つの配列決定実行（１つは腫瘍組織用、もう１つは正常組織用）は、２つのＦＡＳＴＱ出力ファイルを生成する。ＦＡＳＴＱフォーマットは、ヌクレオチド配列などの生物学的配列とそれに対応する品質スコアの両方を記憶するためのテキストベースのフォーマットである。これらのＦＡＳＴＱファイルを分析して、サンプルに存在する遺伝的バリアントまたはコピー数の変化を判定する。「マッチした」パネル固有のワークフローを実行して、腫瘍正常マッチＦＡＳＴＱファイルを共同で分析する。マッチした正常が利用できない場合、腫瘍組織からのＦＡＳＴＱファイルは「腫瘍のみ」モードで分析される。例えば、図５を参照のこと。

２つ以上の患者サンプルが同じシーケンサーフローセルで同時に処理される場合、各患者サンプルに使用されるアダプターのシーケンスの違いは、各読み取りを正しい患者サンプルに関連付けて正しいＦＡＳＴＱファイルに配置するのを容易にするバーコードの目的に役立つことができる。

効率性のために、各分離株のペアエンド配列決定の結果は、ＦＡＳＴＱファイルの分割ペアに含まれる。各腫瘍と正常な分離株の順方向（読み取り１）と逆方向（読み取り２）のシーケンスは別々に記憶されるが、同じ順序で同じ識別子の下に記憶される。例えば、図６を参照のこと。

様々な実施形態において、バイオインフォマティクスパイプラインは、各分離株からのＦＡＳＴＱデータをフィルタリングすることができる。このようなフィルタリングには、シーケンサーエラーの修正またはマスキング、低品質の配列または塩基、アダプターシーケンス、汚染、キメラリード、過剰表現された配列、ライブラリーの調製、増幅、またはキャプチャーによって引き起こされるバイアス、および他のエラーの除去（トリミング）が含まれる（図７）。エラーが発生する可能性のある読み取り全体、個々のヌクレオチド、または複数のヌクレオチドは、ＦＡＳＴＱファイルの読み取りに関連する品質評価、シーケンサーの既知のエラー率、および／または読み取りにおける各ヌレオクチドと、参照ゲノムの同じ位置にアラインされた他の読み取りにおける１つ以上のヌクレオチドとの比較に基づいて廃棄されてもよい。フィルタリングは、Ｓｋｅｗｅｒなどのソフトウェアツールなどのさまざまなソフトウェアツールによって部分的または全体的に行うことができる（ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１８６／１４７１－２１０５－１５－１８２を参照）。ＦＡＳＴＱファイルは、品質管理と読み取りの迅速な評価のために、例えば、ＡｆｔｅｒＱＣ、Ｋｒａｋｅｎ、ＲＮＡ－ＳｅＱＣ、ＦａｓｔＱＣなどの配列決定データＱＣソフトウェア（Ｉｌｌｕｍｉｎａ、ＢａｓｅＳｐａｃｅＬａｂｓ、またはｈｔｔｐｓ：／／ｗｗｗ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｂｙ－ｔｙｐｅ／ｉｎｆｏｒｍａｔｉｃｓ－ｐｒｏｄｕｃｔｓ／ｂａｓｅｓｐａｃｅ－ｓｅｑｕｅｎｃｅ－ｈｕｂ／ａｐｐｓ／ｆａｓｔｑｃ．ｈｔｍｌ）、または別の同様のソフトウェアプログラムにより分析されてもよい。ペアエンド読み取りの場合、読み取りをマージできる。

マッチしたパネル固有の腫瘍正常分析では、各ＦＡＳＴＱファイル、１つは腫瘍用、もう１つは正常（利用可能な場合）から分析される。腫瘍のみの分析では、腫瘍ＦＡＳＴＱのみが分析に利用可能である。

ＦＡＳＴＱからの各読み取りは、読み取り中のヌクレオチドの配列に最もよくマッチする配列を有するヒトゲノム中の位置にアラインメントすることができる。読み取りをアラインメントするように設計された多くのソフトウェアプログラムがある。例えば、Ｎｏｖｏａｌｉｇｎ（Ｎｏｖｏｃｒａｆｔ，Ｉｎｃ．）、Ｂｏｗｔｉｅ、ＢｕｒｒｏｗｓＷｈｅｅｌｅｒＡｌｉｇｎｅｒ（ＢＷＡ）、Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを使用するプログラムなどである。アラインメントは、参照ゲノムにおけるヌレオクチド配列の部分を有する各読み取りにおけるヌレオクチド配列を比較することによって、読み取りの配列に対応する可能性が最も高い参照ゲノム配列の部分を判定することによって、参照ゲノム（例えば、ｈｇ１９、ＧＲＣｈ３８、ｈｇ３８、ＧＲＣｈ３７、ゲノム参照コンソーシアムによって開発された他の参照ゲノムなど）を使用することに向いている。アラインメントは、参照ゲノムの座標および参照ゲノムの各ヌクレオチドのカバレッジ（読み取り数）に従って、各読み取りの開始位置と終了位置を記憶するＳＡＭファイルを生成してもよい。ＳＡＭファイルをＢＡＭファイルに変換したり、ＢＡＭファイルをソートしたり、重複した読み取りに削除のマークを付けたりして、重複のないＢＡＭファイルを作成することができる。（例えば、図８に示すように）このプロセスにより、腫瘍ＢＡＭファイルと通常のＢＡＭファイル（利用可能なときに）が生成される。様々な実施形態において、ＢＡＭファイルは、一塩基バリアント（ＳＮＶ）、コピー数バリアント（ＣＮＶ）、遺伝子再配列などを含む、遺伝的バリアントおよび他の遺伝的特徴を検出するために分析され得る。様々な態様において、検出された遺伝的バリアントおよび遺伝的特徴は、品質管理の一形態として分析される。例えば、検出された遺伝的バリアントまたは特徴のパターンは、サンプル、配列決定手順、および／またはバイオインフォマティクスパイプラインに関連する問題、例えば、サンプルの汚染、サンプルの誤った標識、試薬の変更、配列決定手順および／またはバイオインフォマティクスパイプラインの問題などを示す。

ＳＮＶとインデルのコール
アラインメントに続いて、ＳａｍＢＡＭＢＡのようなツールを使用して、ソートされたバムの重複をマークおよびフィルタリングすることができる。ｆｒｅｅｂａｙｅｓやｐｉｎｄｅｌなどのソフトウェアパッケージを使用して、ソートされたＢＡＭファイルを入力として使用し、参照として分析する遺伝子ターゲットを含むゲノムおよびパネルベッドファイルを使用してバリアントを呼び出す。生のＶＣＦファイル（バリアントコール形式）ファイルが出力され、サンプルのヌクレオチド塩基が参照ゲノムのその位置のヌクレオチド塩基と同じではない場所が示される。ｖｃｆｂｒｅａｋｍｕｌｔｉおよびｖｔなどのソフトウェアパッケージを使用して、生のＶＣＦファイル内のマルチヌクレオチド多型バリアントを正規化し、バリアント正規化ＶＣＦファイルが出力される。ＶＣＦ内のＳＮＶは、転写情報、変異の影響、および１０００のゲノムデータベースでの有病率についてＳＮＰＥｆｆを使用して注釈が付けられている。ＥＧＦＲバリアントは、ｓｐｅｅｄｓｅｑを使用してｃｈｒ７で腫瘍と通常のｆａｓｔｑファイルを再アラインメントすることを通じて別々に呼び出される。重複はＳａｍｂａｍｂａなどのツールを使用してマーク付けし、バリアントコールは他の染色体について説明したステップと同様に行われる。例えば、図９を参照のこと。

コピー数バリアントの判定
様々な実施形態において、システムおよび方法は、ＨＲＤ状態を推定するために使用されるゲノム特徴を計算するためのコピー数分析方法を含む。例えば、いくつかの実施形態では、コピー数を評価するために、重複排除されたＢＡＭファイルおよびバリアントコールパイプラインから生成されたＶＣＦを使用して、腫瘍サンプルと正常サンプルとの間のヘテロ接合生殖細胞系列ＳＮＶの読み取り深度および変動を計算することができる。マッチした正常なサンプルが利用可能ではない場合、腫瘍サンプルとプロセスがマッチした正常対照のプールとの比較を利用することができる。円形のバイナリセグメンテーションを適用することができ、セグメントは、腫瘍とそのコンパレータ（マッチした正常または正常なプール）の間で非常に異なるｌｏｇ２比で選択することができる。おおよその整数コピー数は、セグメント化された領域での異なるカバレッジと、ヘテロ接合性生殖細胞系列ＳＮＶの分析によって生成された間質混合物の推定値（例えば、腫瘍純度、または腫瘍対非腫瘍であるサンプルの部分）の組み合わせから評価することができる。

ヘテロ接合性の喪失の決定
いくつかの態様において、ＬＯＨは、コピー数コールアルゴリズムを使用することを通じて判定され得る。まず、腫瘍ゲノムの腫瘍純度とコピー状態は、期待値最大化アルゴリズム（ＥＭ）を使用して推定することができる。コピー状態と腫瘍純度の推定には、次の手順が関与してもよい。すなわち、１）読み取りアラインメントと正規化、２）Ｂアレル頻度と偏差の計算、３）腫瘍純度の予備推定、４）ゲノムセグメンテーション、および５）初期腫瘍純度推定の精緻化ＥＭアルゴリズムによるコピー状態とＬＯＨの推定である。

読み取りアラインメントと正規化プローブ標的カバレッジを計算するために、腫瘍からの配列決定された読み取りをヒト参照ゲノムにアラインメントし、長さと深さ、およびＧＣ含量によって正規化することができる。正常組織からの読み取りも、利用可能なときには同様に処理できる。マッチした正常が利用可能ではない場合、がんを持っていることが知られていない正常な健康な個人からの読み取りカバレッジからなる正常なプールを使用することができる。性別がマッチした正常なプールを選択するために、Ｘ染色体カバレッジとともにバリアントをＸ染色体にマッピングすることにより、性別推定ステップを実行することができる。通常のプールから、例えばＰＣＡ選択ステップを適用することを通じて、最も近いネイバーを選択することができる。それらのカバレッジ値は、腫瘍カバレッジを正規化するために使用することができる。このＰＣＡの選択により、体細胞ＣＮＶ検出の感度を高める。最後に、読み取りカバレッジは、正常カバレッジおよびｌｏｇ２変換されたものに対する腫瘍カバレッジの比率として表すことができる。

Ｂアレル頻度と偏差の計算ヘテロ接合バリアントには、コピー数とＬＯＨに関する有用な情報が含まれている。これらのバリアントは、ｆｒｅｅｂａｙｅｓとｐｉｎｄｅｌを使用してなされた体細胞および生殖細胞系列バリアントコールからマイニングされ得る。予想される正常値からのＢアレル頻度（ＢＡＦ）偏差は、ヘテロ接合ＳＮＰごとに計算され、ＢＡＦ対数オッズ比としても表される。バリアントが正常な生殖細胞系列である場合、正常からのＢＡＦ偏差は０に近いはずである。ＬＯＨを示すバリアントの場合、ＢＡＦは０から大幅に逸脱する。

腫瘍純度の予備的推定値腫瘍純度の初期推定値は、ＥＭアルゴリズムの入力として使用するために、体細胞バリアントおよびＢＡＦデータから取得することができる。体細胞バリアントの最大ＶＡＦは、理論的には腫瘍の純度と等しいはずである。これは、腫瘍の純度の体細胞推定値である。ＢＡＦデータから、対数オッズ比が２より大きいことを示すバリアントの場合、明らかにＬＯＨであり、コピーが失われるか、またはコピーが中立であるときにのみこのような有意な偏差が予想される。そのようなバリアントの可能な最大ＶＡＦの２倍は、理論的には腫瘍の純度と等しいはずであり、ＢＡＦの推定値に対応する。これらの２つの推定値を平均して、腫瘍純度の初期推定値を形成する。

ゲノムセグメンテーションゲノムの二変量セグメンテーションが、腫瘍と通常のカバレッジ比およびＢＡＦ対数オッズデータを使用して実行される。一連のローリングＴ試験は、循環バイナリセグメンテーションと同様のアルゴリズムを使用してゲノム全体に実行され、コピー数の有意な切り替えが観察されるゲノムのセクションを特定する。これにより、全ゲノムがセグメントに集約され、各セグメントは異なるコピー数プロファイルを有する。セグメンテーションの分岐とプルーニングの閾値パラメーターは、どの程度セグメンテーションとフォーカルセグメントの検出が可能あり、Ｔｅｍｐｕｓデータ用に最適化されるかを制御する。

初期腫瘍純度推定の改良とＥＭアルゴリズムによるコピー状態とＬＯＨの推定腫瘍純度の初期の推定から、腫瘍純度の半分から可能な最大値までの範囲の腫瘍純度値が繰り返され、各ゲノムセグメントに対して最適なコピー状態が推定される。各腫瘍純度の推定値とゲノムセグメントごとに、予想される対数比とＢＡＦが、０～２０の範囲のコピー状態ごとに計算され、意味のあるコピー状態の組み合わせのみが可能になる。次に、観測されたカバレッジとＢＡＦの尤度が、２変量確率密度関数からのこれらの期待値を前提として計算され、尤度行列が作成される。最尤のコピー状態がこの行列から返される。このプロセスはすべてのセグメントで繰り返され、最適なコピー状態マップにセグメントが構築される。すべての腫瘍純度に対してこのステップを繰り返すと、腫瘍純度尤度行列が生成され、モデル誤差が最小で最尤の腫瘍純度が最終推定値として返される。すべてのゲノムセグメントでコピー状態の割り当てが利用可能になると、マイナーコピー数が０のセグメントにＬＯＨが割り当てられる。これらのセグメントは、腫瘍の純度に応じて、１コピーの喪失、コピー中立、または高次のＬＯＨのいずれかになる。

腫瘍の純度
腫瘍の純度を計算するために、体細胞バリアントと生殖細胞系列Ｂアレル頻度から初期の腫瘍純度の推定値が取得され、これは、腫瘍正常カバレッジ対数腫瘍の正常範囲の対数比と正常期待からのＢアレル頻度偏差が与えられて、腫瘍の純度の尤度を評価するグリーディアルゴリズムを使用して精緻化される。アルゴリズムは、初期推定値を取り巻く一連の腫瘍純度の範囲を反復処理して、最尤法で腫瘍の純度を返す。

ヘテロ接合性の喪失
ゲノムワイドヘテロ接合性の喪失（ＬＯＨ）の推定のために、各ＳＮＰが、生殖細胞系列変異型アレル画分と正常期待からのＢアレル頻度の偏差に基づいてＬＯＨについて評価された。バイナリ０／１システムを使用してＬＯＨなし／ＬＯＨありを割り当て、ＬＯＨ下のゲノム塩基の平均比率を取得した。ＬＯＨを受けている塩基の数を、この特許に背悦明されている方法などのコピー数法を使用して分析された塩基の総数で割って、ゲノムワイドＬＯＨ比率の推定値を判定することができる。一例では、ゲノムワイドＬＯＨ比率の推定値は、生殖細胞系列（正常）サンプルには存在しない可能性のある体細胞（がん）サンプルのＬＯＨを表してもよい。

ＢＲＣＡ１およびＢＲＣＡ２遺伝子の平均ＬＯＨも同様の方法で判定できるが、２つの遺伝子の座標のみを考慮する。一例では、ＢＲＣＡ１／２遺伝子のＬＯＨは、生殖細胞系列（正常）サンプルには存在しない可能性のある体細胞（がん）サンプルのＬＯＨを表してもよい。

病原性バリアントの数をカウント
特定の遺伝子の病原性バリアントの数をカウントするために、各患者にコールされたすべてのＳＮＰを使用し、既知の病原性および短縮型ＢＲＣＡバリアント（例えば、ＢＲＣＡ１やＢＲＣＡ２）のリストを含むキュレートされた参照変異リストと照合した。次に、ＳＮＰ位置の重複に基づいて病原性バリアントの数を取得した。体細胞変異と生殖細胞系列バリアントの別々のカウントもＢＲＣＡについて出力される。２つのカウントの合計も生成され得る。

いくつかの実施形態では、本明細書に説明されるシステムおよび方法で使用される病原性バリアントは、表１に列挙されたバリアントのうちの１つ以上を含む。いくつかの実施形態では、本明細書で説明されたシステムおよび方法で使用される病原性バリアントは、表１に列挙される少なくとも５、１０、１５、２０、２５、３０、４０、５０、７５、１００、１２５、またはすべてのバリアントを含む。

ＨＲＤマーカーに基づく陽性ＨＲＤコール
様々な態様において、ＨＲＤの特定のマーカーが検出された場合、本明細書に開示されるシステムおよび方法は、陽性ＨＲＤコールを返す。一例では、病原性ストップゲインまたはフレームシフトバリアントがＢＲＣＡ１またはＢＲＣＡ２に存在する場合、陽性ＨＲＤコールが返される。別の例では、ゲノムワイドヘテロ接合性の喪失の比率が、ＢＲＣＡ１またはＢＲＣＡ２のヘテロ接合性の喪失と組み合わされて、ＢＲＣＡ変異を示す閾値を超えている場合、陽性ＨＲＤコールが返される。

分類器
一般に、多くの異なる分類アルゴリズムが、本明細書に説明されるシステムおよび方法で使用されることが分かっている。例えば、いくつかの実施形態では、モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ＮａｉｖｅＢａｙｅｓアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定ツリーアルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。

いくつかの実施形態では、本明細書で説明されるシステムおよび方法で使用される分類アルゴリズムは、ランダムフォレストアルゴリズムである。いくつかの実施形態では、訓練された分類方法は、訓練された分類器ストリームを含む。いくつかの実施形態では、非限定的な例として、訓練された分類器ストリームは決定ツリーである。本明細書で説明される分類モデルとして使用するのに好適な決定ツリーアルゴリズムは、例えば、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ，３９５－３９６に説明されており、これは参照により本明細書に組み込まれる。ツリーベースのメソッドは、フィーチャスペースを長方形のセットに分割し、モデル（定数など）を各１つに適合させる。いくつかの実施形態では、決定ツリーはランダムフォレスト回帰である。分類モデルとして使用できる１つの具体的なアルゴリズムは、分類および回帰ツリー（ＣＡＲＴ）である。分類器として使用できる具体的な決定ツリーアルゴリズムの他の例には、ＩＤ３、Ｃ４．５、ＭＡＲＴ、およびランダムフォレストが含まれるが、これらに限定されない。ＣＡＲＴ、ＩＤ３、およびＣ４．５は、Ｄｕｄａ，２００１，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ＮｅｗＹｏｒｋ．３９６－４０８，４１１－４１２に説明されており、これは、参照により本明細書に組み込まれる。ＣＡＲＴ、ＭＡＲＴ、およびＣ４．５は、Ｈａｓｔｉｅｅｔａｌ．，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，ＮｅｗＹｏｒｋ，Ｃｈａｐｔｅｒ９に説明されており、これは、参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Ｂｒｅｉｍａｎ，１９９９，“ＲａｎｄｏｍＦｏｒｅｓｔｓ－－ＲａｎｄｏｍＦｅａｔｕｒｅｓ，”ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ５６７，ＳｔａｔｉｓｔｉｃｓＤｅｐａｒｔｍｅｎｔ，Ｕ．Ｃ．Ｂｅｒｋｅｌｅｙ，Ｓｅｐｔｅｍｂｅｒ１９９９に説明されており、参照によりその全体が本明細書に組み込まれる。

いくつかの実施形態では、様々なＢＲＣＡＬＯＨ状態、病原性変異、およびゲノムワイドＬＯＨ測定値を有する腫瘍オルガノイドを増殖させ、ＰＡＲＰ阻害剤で処理して、インビトロＰＡＲＰ薬物応答を取得することができる。サンプルは、幅広いがんコーホートにまたがる可能性がある。ＰＡＲＰに感度があると期待される腫瘍細胞株は、ＨＲＤ変異を持たない陰性対照と一緒に試験することができる。ＰＡＲＰ結果データは、ランダムフォレスト分類器の入力特徴を精緻化するために使用できる。追加情報は、ＨＲＤ経路の変異シグネチャーおよび他の遺伝子から収集できる。例えば、本明細書に参照により組み込まれる、ＧｕｌｈａｎＤＣ，ＬｅｅＪＪ，ＭｅｌｌｏｎｉＧＥＭ，Ｃｏｒｔｅｓ－ＣｉｒｉａｎｏＩ，ＰａｒｋＰＪ，「Ｄｅｔｅｃｔｉｎｇｔｈｅｍｕｔａｔｉｏｎａｌｓｉｇｎａｔｕｒｅｏｆｈｏｍｏｌｏｇｏｕｓｒｅｃｏｍｂｉｎａｔｉｏｎｄｅｆｉｃｉｅｎｃｙｉｎｃｌｉｎｉｃａｌｓａｍｐｌｅｓ，」ＮａｔＧｅｎｅｔ．，５１（５）：９１２－１９（２０１９）を参照のこと。

代替の実施形態では、ランダムフォレスト分類器を訓練してＨＲＤコールを生成する代わりに、またはそれに加えて、システムおよび方法はビジネスロジックを使用する。例えば、いくつかの実施形態では、図１０に示されるようなビジネスルールセットが、本明細書で説明されるシステムおよび方法で使用される。

いくつかの実施形態では、本明細書に説明されるシステムおよび方法を使用する分類アルゴリズムは、回帰アルゴリズムである。回帰アルゴリズムは、任意のタイプの回帰にすることができる。例えば、いくつかの実施形態では、回帰アルゴリズムはロジスティック回帰である。ロジスティック回帰アルゴリズムは、Ａｇｒｅｓｔｉ，ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣａｔｅｇｏｒｉｃａｌＤａｔａＡｎａｌｙｓｉｓ，１９９６，Ｃｈａｐｔｅｒ５，ｐｐ．１０３－１４４，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎ，ＮｅｗＹｏｒｋに開示されており、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、回帰アルゴリズムは、ラッソ、Ｌ２、または弾性ネット正則化を有するロジスティック回帰である。

いくつかの実施形態では、本明細書で説明されるシステムおよび方法を使用した分類アルゴリズムは、ニューラルネットワークである。畳み込みニューラルネットワークアルゴリズムを含むニューラルネットワークアルゴリズムの例は、例えば、Ｖｉｎｃｅｎｔｅｔａｌ．，２０１０，“Ｓｔａｃｋｅｄｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒｓ：Ｌｅａｒｎｉｎｇｕｓｅｆｕｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎａｄｅｅｐｎｅｔｗｏｒｋｗｉｔｈａｌｏｃａｌｄｅｎｏｉｓｉｎｇｃｒｉｔｅｒｉｏｎ，”ＪＭａｃｈＬｅａｒｎＲｅｓ１１，ｐｐ．３３７１－３４０８、Ｌａｒｏｃｈｅｌｌｅｅｔａｌ．，２００９，“Ｅｘｐｌｏｒｉｎｇｓｔｒａｔｅｇｉｅｓｆｏｒｔｒａｉｎｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ，”ＪＭａｃｈＬｅａｒｎＲｅｓ１０，ｐｐ．１－４０、およびＨａｓｓｏｕｎ，１９９５，ＦｕｎｄａｍｅｎｔａｌｓｏｆＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＭａｓｓａｃｈｕｓｅｔｔｓＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙに開示されており、これらの各々は、参照により本明細書に組み込まれる。

いくつかの実施形態では、本明細書で説明されるシステムおよび方法を使用した分類アルゴリズムは、サポートベクトルマシン（ＳＶＭ）である。ＳＶＭアルゴリズムの例は、例えば、ＣｒｉｓｔｉａｎｉｎｉａｎｄＳｈａｗｅ－Ｔａｙｌｏｒ，２０００，“ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，”ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｃａｍｂｒｉｄｇｅ、Ｂｏｓｅｒｅｔａｌ．，１９９２，“Ａｔｒａｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｏｐｔｉｍａｌｍａｒｇｉｎｃｌａｓｓｉｆｉｅｒｓ，”ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＡｎｎｕａｌＡＣＭＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，ＡＣＭＰｒｅｓｓ，Ｐｉｔｔｓｂｕｒｇｈ，Ｐａ．，ｐｐ．１４２－１５２、Ｖａｐｎｉｋ，１９９８，ＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇＴｈｅｏｒｙ，Ｗｉｌｅｙ，ＮｅｗＹｏｒｋ、Ｍｏｕｎｔ，２００１，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ｓｅｑｕｅｎｃｅａｎｄｇｅｎｏｍｅａｎａｌｙｓｉｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，Ｎ．Ｙ．、Ｄｕｄａ，ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＳｅｃｏｎｄＥｄｉｔｉｏｎ，２００１，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．，ｐｐ．２５９，２６２－２６５、Ｈａｓｔｉｅ，２００１，ＴｈｅＥｌｅｍｅｎｔｓｏｆＳｔａｔｉｓｔｉｃａｌＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ，ＮｅｗＹｏｒｋおよびＦｕｒｅｙｅｔａｌ．，２０００，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１６，９０６－９１４に開示されており、これらの各々は、参照によりその全体が本明細書に組み込まれる。分類に使用される場合、ＳＶＭは、ラベル付けされたデータから最大に離れた超平面を使用して、バイナリラベル付けされたデータ訓練セットの特定のセットを分離する。線形分離が不可能な場合、ＳＶＭは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の手法と組み合わせて機能する。特徴空間でＳＶＭによって見出された超平面は、入力空間の非線形決定境界に対応する。

いくつかの実施形態では、機械学習モデルは、ロジスティック回帰分類器を含む。他の実施形態では、機械学習または深層学習モデルは、決定ツリー、アンサンブル（例えば、バギング、ブースティング、ランダムフォレスト）、勾配ブースティングマシン、線形回帰、ＮａｉｖｅＢａｙｅｓ、またはニューラルネットワークのうちの１つであり得る。ＨＲＤモデルには、訓練中に調整される特徴の学習された重みが含まれている。ここでは、「重み」という用語は、使用されている特定の機械学習手法に関係なく、モデルの任意の所与の特徴に関連する学習量を表すために一般的に使用される。いくつかの実施形態では、がん指標スコアは、１つ以上のＤＮＡ配列（またはそのＤＮＡ配列読み取り）に由来する特徴の値を機械学習または深層学習モデルに入力することによって判定される。

いくつかの実施形態では、例えば、ＨＲＤ評価モデルがニューラルネットワーク（例えば、従来型または畳み込みニューラルネットワーク）であるときに、疾患分類器の出力は、例えば、がん陽性またはがん陰性のいずれかの分類である。しかしながら、いくつかの実施形態では、分類ではなく、モデルの出力に連続または半連続の値を提供するために、ニューラルネットワークの隠れ層、例えば、出力層の直前の隠れ層は、分類モデルの出力として使用される。

したがって、いくつかの実施形態では、モデルは、（ｉ）複数の遺伝子型特性の値を受けるための入力層であって、複数の遺伝子型特性は、第１の次元数を含む、入力層と、（ｉｉ）重みのセットを含む埋め込み層であって、埋め込み層は入力層の出力を直接または間接的に受け、埋め込み層の出力は、第１の次元数よりも小さい第２の次元数を有するモデルスコアセットである、埋め込み層と、（ｉｉｉ）埋め込み層からモデルスコアセットを直接または間接的に受ける出力層と、を含む。いくつかの実施形態では、分類器の出力は、埋め込み層と呼ばれるニューラルネットワーク内の隠れ層に関連付けられたニューロンのセットの出力である。そのような実施形態では、埋め込み層内のそのような各ニューロンは、重みおよび活性化関数に関連付けられ、出力は、そのような各活性化関数の出力からなる。いくつかの実施形態では、埋め込み層内のニューロンの活性化関数は、正規化線形ユニット（ＲｅＬＵ）、ｔａｎｈ、またはシグモイド活性化関数である。いくつかのそのような実施形態では、埋め込み層のニューロンは、入力層の入力の各々に完全に接続されている。いくつかのそのような実施形態では、出力層の各ニューロンは、埋め込み層の各ニューロンに完全に接続されている。いくつかの実施形態では、出力層の各ニューロンは、ソフトマックス活性化関数に関連付けられている。いくつかの実施形態では、１つ以上の埋め込み層および出力層は完全には接続されていない。

患者レポート
いくつかの実施形態では、患者レポートは、分類器の出力に基づいて生成される。レポートは、デジタルコピー（例えば、ＪＳＯＮオブジェクト、ｐｄｆファイル、またはＷｅｂサイトやポータル上の画像）、ハードコピー（例えば、紙に印刷されたもの、または別の有形の媒体）、または別のフォーマットで患者、医師、医療関係者、または研究者に提示できる。

いくつかの実施形態では、レポートは、検体のＨＲＤ状態、検出された遺伝的バリアント、患者のサンプルの他の特性、および／または臨床記録に関連する情報を含む。レポートには、ＨＲＤステータス、検出された遺伝的バリアント、サンプルの他の特性、および／または臨床記録に基づいて、患者が適格である臨床試験、患者にマッチする可能性がある治療法、および／または患者が所与の治療法を受けた場合に予想される副作用が含まれてもよい。一例では、患者検体がＨＲＤを有すると予測される場合、患者は、ＰＡＲＰ阻害剤、プラチナベースの化学療法、および／または追加のＤＮＡ損傷療法にマッチしてもよい。

レポートに含まれる結果および／または追加の結果（例えば、バイオインフォマティクスパイプラインから）を使用して、臨床データのデータベースを分析し、特に、治療法が、検体と同じまたは同様の結果を有する他の患者のがんの進行を遅らせたことを示す傾向があるかどうかを判定することができる。結果は、腫瘍オルガノイド実験を設計するためにも使用できる。例えば、オルガノイドは、検体と同じ特性を有するように遺伝子操作されてもよく、治療法への曝露後に観察されて、治療がオルガノイドの成長速度を低下させることができ、したがって、検体に関連付けられた患者の成長速度を低減する可能性が高いことを判定することができる。

この例では、ＨＲＤ情報は、さらに処理および／または表示するために、ＪＳＯＮオブジェクトなどのレポートオブジェクトに記憶できる。例えば、レポートオブジェクトからの情報は、注文する医師に返すための臨床検査レポートを準備するために使用され得る。情報は、テキスト、画像、および／または音声の組み合わせとして提供されてもよい。ＨＲＤ情報を示すテキストと画像の例示的なディスプレイを図１１として提示する。

いくつかの実施形態では、レポートはまた、相同組換えＤＮＡ修復経路における遺伝子および／またはこの経路と相互作用する遺伝子に関連する遺伝的バリアントのリストを含む。このリストの例示的なディスプレイを図１２として提示する。

治療法
いくつかの態様において、本明細書に開示されるシステムおよび方法は、コンパニオン診断として使用されてもよい。例えば、いくつかの実施形態では、推定されたＨＲＤ状態は、ＰＡＲＰ阻害剤でがんを治療する決定を下すために臨床医によって使用されてもよい。

表２に、いくつかのＰＡＲＰ阻害剤と、２０１９年の様々ながんのタイプに対する各ＰＡＲＰ阻害剤のＦＤＡ承認または臨床試験の状態を示す。この表は、ＨＲＤが陽性であると試験された患者に対するＰＡＲＰ阻害剤の広範な潜在的有用性を示す。

いくつかの態様において、推定されたＨＲＤ状態は、標準的なネオアジュバント化学療法にプラチナを加えることによりがんを治療する決定を下すために臨床医によって使用されてもよい。標準的な併用化学療法にプラチナ剤を追加すると、治療の毒性が高まるため、患者は、プラチナ剤と標準的な併用化学療法の組み合わせを通じてがんが治療される可能性が高いかどうかを示す推定されたＨＲＤの恩恵を受けるだろう。

いくつかの態様において、ＰＡＲＰ阻害剤は、具体的には生殖細胞系列の変化を宿すがんの治療のために承認されている。例えば、オラパリブは少なくとも３つの化学療法レジメンで治療された生殖細胞系列ＢＲＣＡ（ｇＢＲＣＡ）陽性卵巣がんに対して承認されており、タロザパリブはｇＢＲＣＡ陽性、ＨＥＲ２陰性の限局性または転移性乳がんで承認されている。ＢＲＣＡにおける生殖細胞系列バリアントまたはＤＮＡ修復経路に関連する他の遺伝子を検出することは、医師がＰＡＲＰｉを処方することを決定するのに役立つ可能性がある。

デジタルおよび実験室のヘルスケアプラットフォームを使用した実装
本明細書に説明される方法およびシステムは、一般に医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用することができる。そのようなプラットフォームと組み合わせて、上述の方法およびシステムの多くの使用が可能であると理解されたい。そのようなプラットフォームの一例は、「ＤａｔａＢａｓｅｄＣａｎｃｅｒＲｅｓｅａｒｃｈａｎｄＴｒｅａｔｍｅｎｔＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓ」と題する、２０１９年１０月１８日に出願された米国特許出願第１６／６５７，８０４号に説明されており、これは、それらの全体が全ての目的のために本明細書に参照により組み込まれる。

例えば、上述の方法およびシステムの１つ以上の実施形態の実装は、ＨＲＤ検出をサポートするデジタルおよび実験室のヘルスケアプラットフォームを構成するマイクロサービスを含み得る。実施形態は、＿＿＿を実行および送達するための単一のマイクロサービスを含み得るか、または各々が上記の実施形態の１つ以上を一緒に実装する特定の役割を有する複数のマイクロサービスを含むことができる。一例では、第１のマイクロサービスは、ＨＲＤモデルを訓練するために第２のマイクロサービスに特徴を送達するために、ゲノム特徴の計算を実行することができる。同様に、第２のマイクロサービスは、上記の一実施形態により、ＨＲＤモデルの訓練を実行して、訓練されたＨＲＤモデルを第３のマイクロサービスに送達することができる。第３のマイクロサービスは、訓練されたＨＲＤモデルを使用して、検体に関連付けられたデータを分析し、検体がＨＲＤを有する可能性を判定することができる。

上記の実施形態が、デジタルおよび実験室のヘルスケアプラットフォームとともに、またはその一部として１つ以上のマイクロサービスで実行される場合、そのようなマイクロサービスの１つ以上は、上記の実施形態をインスタンス化するのに必要な適切な時間および適切な順序で、必要に応じてイベントのシーケンスを調整する注文管理システムの一部であり得る。マイクロサービスベースの注文管理システムは、例えば、「ＡｄａｐｔｉｖｅＯｒｄｅｒＦｕｌｆｉｌｌｍｅｎｔａｎｄＴｒａｃｋｉｎｇＭｅｔｈｏｄｓａｎｄＳｙｓｔｅｍｓ」と題する、２０１９年７月１２日に出願された米国仮特許出願第６２／８７３，６９３号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

例えば、上記の第１および第２のマイクロサービスを続行すると、注文管理システムは、＿＿＿＿＿＿＿の注文が受信され、処理の準備ができたことを第１のマイクロサービスに通知してもよい。＿＿＿＿＿＿＿＿の送達が第２のマイクロサービスに対して準備ができると、第１のマイクロサービスが実行し、注文管理システムに通知する。さらに、注文管理システムは、第１のマイクロサービスが完了したことを含め、第２のマイクロサービスの実行パラメータ（前提条件）が満たされていることを特定し、上記の一実施形態に従って、＿＿＿＿＿＿＿＿への注文を処理し続けることができることを第２のマイクロサービスに通知することができる。

デジタルおよび実験室のヘルスケアプラットフォームが遺伝子分析システムをさらに含む場合、遺伝子分析システムは、標的化パネルおよび／または配列決定プローブを含むことができる。標的化パネルの例は、例えば、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＥｘｐａｎｄｉｎｇＣｌｉｎｉｃａｌＯｐｔｉｏｎｓｆｏｒＣａｎｃｅｒＰａｔｉｅｎｔｓｕｓｉｎｇＩｎｔｅｇｒａｔｅｄＧｅｎｏｍｉｃＰｒｏｆｉｌｉｎｇ」と題する、２０１９年９月１９日に出願された米国仮特許出願第６２／９０２，９５０号に開示されており、その全体が全ての目的のために本明細書に参照により組み込まれる。一例では、標的化パネルは、上記の一実施形態による、＿＿の次世代配列決定結果の送達を可能にし得る。次世代配列決定プローブの設計例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇＵｎｉｆｏｒｍＰｒｏｂｅＤｅｓｉｇｎ」と題する、２０１９年１０月２１日に出願された米国仮特許出願第６２／９２４，０７３号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームがバイオインフォマティクスパイプラインをさらに含む場合、上述の方法およびシステムは、バイオインフォマティクスパイプラインで利用されるシステムおよび方法の完了または実質的な完了後に利用することができる。一例として、バイオインフォマティクスパイプラインは、次世代の遺伝子配列決定結果を受信し、参照ゲノムにアラインメントされたＤＮＡおよび／またはＲＮＡ読み取りカウントを反映する１つ以上のＢＡＭファイルなどのバイナリファイルのセットを返してもよい。上述の方法およびシステムは、例えば、ＤＮＡおよび／またはＲＮＡの読み取りカウントを摂取し、結果として＿＿を生成するために利用され得る。

デジタルおよび実験室のヘルスケアプラットフォームがさらにＲＮＡデータノーマライザーを含む場合、任意のＲＮＡ読み取りカウントは、上述のように実施形態を処理する前に正規化され得る。ＲＮＡデータノーマライザーの例は、例えば、「ＭｅｔｈｏｄｓｏｆＮｏｒｍａｌｉｚｉｎｇａｎｄＣｏｒｒｅｃｔｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＤａｔａ」と題する、２０１９年９月２４日に出願された米国特許出願第１６／５８１，７０６号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが遺伝子データデコンボリューターをさらに含む場合、デコンボリューションのための任意のシステムおよび方法を利用して、２つ以上の生物学的成分を有する検体に関連付けられた遺伝子データを分析して、遺伝子データへの各成分の寄与を判定する、および／または、検体が精製された場合に、どの遺伝データが検体の任意の成分に関連付けられるかを判定することができる。遺伝子データデコンボリューターの例は、例えば、両方とも「ＴｒａｎｓｃｒｉｐｔｏｍｅＤｅｃｏｎｖｏｌｕｔｉｏｎｏｆＭｅｔａｓｔａｔｉｃＴｉｓｓｕｅＳａｍｐｌｅｓ」と題する、２０１９年１２月３１日に出願された米国特許出願第１６／７３２，２２９号とＰＣＴ１９／６９１９１号、「ＣａｌｃｕｌａｔｉｎｇＣｅｌｌ－ｔｙｐｅＲＮＡＰｒｏｆｉｌｅｓｆｏｒＤｉａｇｎｏｓｉｓａｎｄＴｒｅａｔｍｅｎｔ」と題する、２０１９年１０月２１日に出願された米国仮特許出願第６２／９２４，０５４号、および「ＲａｐｉｄＤｅｃｏｎｖｏｌｕｔｉｏｎｏｆＢｕｌｋＲＮＡＴｒａｎｓｃｒｉｐｔｏｍｅｓｆｏｒＬａｒｇｅＤａｔａＳｅｔｓ（ＩｎｃｌｕｄｉｎｇＴｒａｎｓｃｒｉｐｔｏｍｅｓｏｆＳｐｅｃｉｍｅｎｓＨａｖｉｎｇＴｗｏｏｒＭｏｒｅＴｉｓｓｕｅＴｙｐｅｓ）」と題する、２０１９年１２月６日に出願された米国仮特許出願第６２／９４４，９９５号に開示されており、これらは、それらの全体が全ての目的のために本明細書に参照により組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが自動化されたＲＮＡ発現コーラーをさらに含む場合、ＲＮＡ発現レベルは、分析用の複数のＲＮＡ発現データセットを準備するために行われることが多い、参照発現レベルに対する値として表現されるように調整し、同じ方法、機器、および／または試薬を使用して生成されていないためにデータセットに違いがあるときに発生するアーティファクトを回避することができる。自動化されたＲＮＡ発現コーラーの例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＡｕｔｏｍａｔｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＣａｌｌｓｉｎａＣａｎｃｅｒＰｒｅｄｉｃｔｉｏｎＰｉｐｅｌｉｎｅ」と題する、２０１９年１２月４日に出願された米国仮特許出願第６２／９４３，７１２号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが患者および／または検体に関連付けられた遺伝的および／または臨床データに基づく可能性がある疾患状態に関連する情報、特性、または判定を送達するための１つ以上の洞察エンジンをさらに含むことができる。例示の洞察エンジンには、起源不明の腫瘍エンジン、ヒト白血球抗原（ＨＬＡ）ホモ接合性の喪失（ＬＯＨ）エンジン、腫瘍変異負荷エンジン、ＰＤ－Ｌ１状態エンジン、相同組換え欠損エンジン、細胞経路活性化レポートエンジン、免疫浸潤エンジン、マイクロサテライト不安定性エンジン、病原体感染状態エンジンなどを含むことができる。起源不明の腫瘍エンジンの例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ－ＬａｂｅｌＣａｎｃｅｒＣｌａｓｓｉｆｉｃａｔｉｏｎ」と題する、２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，７５０号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。ＨＬＡＬＯＨエンジンの例は、例えば「ＤｅｔｅｃｔｉｏｎｏｆＨｕｍａｎＬｅｕｋｏｃｙｔｅＡｎｔｉｇｅｎＬｏｓｓｏｆＨｅｔｅｒｏｚｙｇｏｓｉｔｙ」と題する、２０１９年８月２０日に出願された米国仮特許出願第６２／８８９，５１０号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。腫瘍変異負荷（ＴＭＢ）エンジンの例は、例えば、「ＡｓｓｅｓｓｍｅｎｔｏｆＴｕｍｏｒＢｕｒｄｅｎＭｅｔｈｏｄｏｌｏｇｉｅｓｆｏｒＴａｒｇｅｔｅｄＰａｎｅｌＳｅｑｕｅｎｃｉｎｇ」と題する、２０１９年２月１２日に出願された米国仮特許出願第６２／８０４，４５８号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。ＰＤ－Ｌ１状態エンジンの例は、例えば、「ＡＰａｎ－ＣａｎｃｅｒＭｏｄｅｌｔｏＰｒｅｄｉｃｔＴｈｅＰＤ－Ｌ１ＳｔａｔｕｓｏｆａＣａｎｃｅｒＣｅｌｌＳａｍｐｌｅＵｓｉｎｇＲＮＡＥｘｐｒｅｓｓｉｏｎＤａｔａａｎｄＯｔｈｅｒＰａｔｉｅｎｔＤａｔａ」と題する、２０１９年５月３０日に出願された米国仮特許出願第６２／８５４，４００号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。ＰＤ－Ｌ１状態エンジンの追加の例は、例えば、「ＰＤ－Ｌ１ＰｒｅｄｉｃｔｉｏｎＵｓｉｎｇＨ＆ＥＳｌｉｄｅＩｍａｇｅｓ」と題する、２０１９年３月２６日に出願された米国仮特許出願第６２／８２４，０３９号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。本明細書に開示されるシステムおよび方法は、相同組換え欠損エンジンの一例である。代替の相同組換え欠損エンジンは、例えば、「ＡｎＩｎｔｅｇｒａｔｉｖｅＭａｃｈｉｎｅ－ＬｅａｒｎｉｎｇＦｒａｍｅｗｏｒｋｔｏＰｒｅｄｉｃｔＨｏｍｏｌｏｇｏｕｓＲｅｃｏｍｂｉｎａｔｉｏｎＤｅｆｉｃｉｅｎｃｙ」と題する、２０１９年２月１２日出願された米国仮特許出願第６２／８０４，７３０号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。細胞経路活性化レポートエンジンの例は、例えば、「ＣｅｌｌｕｌａｒＰａｔｈｗａｙＲｅｐｏｒｔ」と題する、２０１９年８月１６日に出願された米国仮特許出願第６２／８８８，１６３号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。免疫浸潤エンジンの例は、例えば、「ＡＭｕｌｔｉ－ＭｏｄａｌＡｐｐｒｏａｃｈｔｏＰｒｅｄｉｃｔｉｎｇＩｍｍｕｎｅＩｎｆｉｌｔｒａｔｉｏｎＢａｓｅｄｏｎＩｎｔｅｇｒａｔｅｄＲＮＡＥｘｐｒｅｓｓｉｏｎａｎｄＩｍａｇｉｎｇＦｅａｔｕｒｅｓ」と題する、２０１９年８月６日に出願された米国特許出願第１６／５３３，６７６号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。免疫浸潤エンジンの追加の例は、例えば、「ＣｏｍｐｒｅｈｅｎｓｉｖｅＥｖａｌｕａｔｉｏｎｏｆＲＮＡＩｍｍｕｎｅＳｙｓｔｅｍｆｏｒｔｈｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＰａｔｉｅｎｔｓｗｉｔｈａｎＩｍｍｕｎｏｌｏｇｉｃａｌｌｙＡｃｔｉｖｅＴｕｍｏｒＭｉｃｒｏｅｎｖｉｒｏｎｍｅｎｔ」と題する、２０１９年２月１２日に出願された米国特許出願第６２／８０４，５０９号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。ＭＳＩエンジンの例は、例えば、「ＭｉｃｒｏｓａｔｅｌｌｉｔｅＩｎｓｔａｂｉｌｉｔｙＤｅｔｅｒｍｉｎａｔｉｏｎＳｙｓｔｅｍａｎｄＲｅｌａｔｅｄＭｅｔｈｏｄｓ」と題する、２０１９年１０月１５日に出願された米国特許出願第１６／６５３，８６８号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。ＭＳＩエンジンの追加の例は、例えば、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＤｅｔｅｃｔｉｎｇＭｉｃｒｏｓａｔｅｌｌｉｔｅＩｎｓｔａｂｉｌｉｔｙｏｆａＣａｎｃｅｒＵｓｉｎｇａＬｉｑｕｉｄＢｉｏｐｓｙ」と題する、２０１９年１１月６日に出願された米国仮特許出願第６２／９３１，６００号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームがレポート生成エンジンをさらに含むときに、上述の方法およびシステムを利用して、患者の遺伝的プロファイルおよび医師に提示するための１つ以上の洞察エンジンの結果の要約レポートを作成することができる。例えば、レポートは、配列決定された検体が、第１の器官、第２の器官、第３の器官などからの腫瘍または正常組織をどの程度含んでいたかについての情報を医師に提供することができる。例えば、レポートは、検体内の組織のタイプ、腫瘍、または臓器の各々の遺伝的プロファイルを提供してもよい。遺伝子プロファイルは、組織タイプ、腫瘍、または器官に存在する遺伝子配列を表してもよく、バリアント、発現レベル、遺伝子産物に関する情報、または組織、腫瘍、もしくは器官の遺伝子分析に由来し得る他の情報を含むことができる。レポートには、遺伝子プロファイルまたは洞察エンジンの結果と要約の一部またはすべてに基づいてマッチした治療法および／または臨床試験が含まれ得る。例えば、治療法は、「ＴｈｅｒａｐｅｕｔｉｃＳｕｇｇｅｓｔｉｏｎＩｍｐｒｏｖｅｍｅｎｔｓＧａｉｎｅｄＴｈｒｏｕｇｈＧｅｎｏｍｉｃＢｉｏｍａｒｋｅｒＭａｔｃｈｉｎｇＰｌｕｓＣｌｉｎｉｃａｌＨｉｓｔｏｒｙ」と題する、２０１９年２月１２日に出願された米国仮特許出願第６２／８０４，７２４号に開示されたシステムおよび方法に従ってマッチしてもよく、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。例えば、臨床試験は、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｏｆＣｌｉｎｉｃａｌＴｒｉａｌＥｖａｌｕａｔｉｏｎ」と題する、２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，９１３号に開示されたシステムおよび方法に従ってマッチしてもよく、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

レポートには、結果と多くの検体からの結果のデータベースとの比較が含まれ得る。結果を結果のデータベースと比較するための方法およびシステムの例は、「ＡＭｅｔｈｏｄａｎｄＰｒｏｃｅｓｓｆｏｒＰｒｅｄｉｃｔｉｎｇａｎｄＡｎａｌｙｚｉｎｇＰａｔｉｅｎｔＣｏｈｏｒｔＲｅｓｐｏｎｓｅ，ＰｒｏｇｒｅｓｓｉｏｎａｎｄＳｕｒｖｉｖａｌ」と題する、２０１８年１２月３１日に出願された米国仮特許出願第６２／７８６，７３９号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。この情報は、場合によっては、バイオマーカーを発見したり、臨床試験を設計したりするために、追加の検体からの同様の情報および／または臨床反応情報と組み合わせて使用されてもよい。

デジタルおよび実験室のヘルスケアプラットフォームが、プラットフォームに関連して開発されたオルガノイドへの本明細書における１つ以上の実施形態の適用をさらに含むときに、方法およびシステムを使用して、オルガノイドに由来する遺伝子配列決定データをさらに評価して、配列決定されたオルガノイドが第１の細胞タイプ、第２の細胞タイプ、第３の細胞タイプなどを含む程度に関する情報を提供する。例えば、レポートは、検体内の細胞タイプの各々の遺伝的プロファイルを提供してもよい。遺伝子プロファイルは、所与の細胞タイプに存在する遺伝子配列を表してもよく、バリアント、発現レベル、遺伝子産物に関する情報、または細胞の遺伝子分析に由来し得る他の情報を含むことができる。レポートには、デコンボリューションされた情報の一部またはすべてに基づいてマッチした治療法が含まれ得る。これらの治療法は、オルガノイド、そのオルガノイドの誘導体、および／または同様のオルガノイドで試験して、それらの治療法に対するオルガノイドの感度を決定することができる。例えば、オルガノイドは、「ＴｕｍｏｒＯｒｇａｎｏｉｄＣｕｌｔｕｒｅＣｏｍｐｏｓｉｔｉｏｎｓ，Ｓｙｓｔｅｍｓ，ａｎｄＭｅｔｈｏｄｓ」と題する、２０１９年１１月２２日に出願された米国特許出願第１６／６９３，１１７号、「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＰｒｅｄｉｃｔｉｎｇＴｈｅｒａｐｅｕｔｉｃＳｅｎｓｉｔｉｖｉｔｙ」と題する、２０１９年１０月２２日に出願された米国仮特許出願第６２／９２４，６２１号、および「ＬａｒｇｅＳｃａｌｅＰｈｅｎｏｔｙｐｉｃＯｒｇａｎｏｉｄＡｎａｌｙｓｉｓ」と題する、２０１９年１２月５日に出願された米国仮特許出願第６２／９４４，２９２号に開示されたシステムおよび方法に従って、培養および試験することができ、これらは、それら全体が全ての目的のために本明細書に参照により組み込まれる。

デジタルおよび実験室のヘルスケアプラットフォームが、医療機器または一般に医療および研究を標的とする実験室開発試験と組み合わせて、またはその一部として、上記のうちの１つ以上の適用をさらに含むときに、そのような実験室開発試験または医療機器の結果は、人工知能を使用することで通じて向上し、パーソナライズすることができる。実験室開発試験の例、特に人工知能によって向上する可能性のあるものは、例えば、「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｓｓｉｓｔｅｄＰｒｅｃｉｓｉｏｎＭｅｄｉｃｉｎｅＥｎｈａｎｃｅｍｅｎｔｓｔｏＳｔａｎｄａｒｄｉｚｅｄＬａｂｏｒａｔｏｒｙＤｉａｇｎｏｓｔｉｃＴｅｓｔｉｎｇ」と題する、２０１９年１０月２２日に出願された米国仮特許出願第６２／９２４，５１５号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。

上記に与えられた例は例示的なものであり、デジタルおよび実験室のヘルスケアプラットフォームと組み合わせた本明細書に説明されたシステムおよび方法の使用を制限するものではないと理解されたい。

実施例１－初期のＨＲＤ予測モデルの分析
本明細書に説明されているように、初期のＨＲＤ予測アルゴリズムの精度は、ＢＲＣＡにおける既知の病原性変異を有するサンプルでキュレーションされた小さな４０サンプル訓練セットを使用して評価された。ＨＲＤ予測に必要なすべてのゲノム特徴は、ＣＯＮＡを使用して訓練サンプルで計算された。ｓｋｌｅａｒｎの「ｔｒａｉｎ＿ｔｅｓｔ＿ｓｐｌｉｔ」メソッドを使用して、初期検証用の訓練セットとテストセットを作成した。ｓｋｌｅａｒｎの「ｓｔａｎｄａｒｄｓｃａｌｅｒ」および「ｆｉｔ＿ｔｒａｎｓｆｏｒｍ」メソッドを使用して、訓練サンプルの平均と分散を正規化し、将来のテストデータのスケールも同じに保った。「ＲａｎｄｏｍＦｏｒｅｓｔＣｌａｓｓｉｆｉｅｒ」メソッドを使用して、ゲノム特徴の数を「ｎ＿ｅｓｔｉｍａｔｏｒｓ」として設定したランダムフォレスト分類器を作成した。「ｃｏｍｐｕｔｅ＿ｓｉｍｐｌｅ＿ｃｒｏｓｓ＿ｖａｌ＿ｓｃｏｒｅ」を使用して、単純な５分割交差検証スコアメトリックを計算し、９９％の分類精度を取得した。上位のｋ特徴は、標準のＧｉｎｉ基準を使用して取得された。ｐｉｃｋｌｅを使用して分類モデルをファイルにダンプし、モデルをロードして各試験サンプルの予測を行った。各患者について、最初にＣＯＮＡを使用してＨＲＤ特徴を計算し、訓練サンプルに使用したのと同じスケーリング関数を使用して特徴を標準化した。次に、ｓｋｌｅａｒｎに実装された「ｍｏｄｅｌ．ｐｒｅｄｉｃｔ＿ｐｒｏｂａ」関数を使用して、これらの標準化された特徴が与えられた場合に、ＨＲＤの確率が取得された。ＨＲＤ予測の信頼度はモデル予測確率であり、確率＞０．５のサンプルに対して陽性コールが定義される。このモデルには任意の新しい特徴を簡単に組み込むことができ、訓練セットを簡単に拡張して再訓練と予測を行うことができる。

実施例２－初期のＨＲＤ予測モデルの分析
３５の異なるがんタイプにわたる１０００の患者サンプルのＨＲＤ状態は、本明細書に説明されているようにＨＲＤ分類器を使用して分析された。分析により、合計６．４％のＨＲＤ陽性のコールが特定された。ＢＲＣＡ遺伝子の病原性バリアントはＨＲＤ陽性コールで陰性コールよりも有意に大きかったが（Ｐ＜４．１ｅ－２１９、Ｍａｎｎ－Ｗｈｉｔｎｅｙ試験）、ＢＲＣＡのＬＯＨは濃縮されなかった（Ｐ＜０．０６、Ｍａｎｎ－Ｗｈｉｔｎｅｙ試験）。卵巣がん（１２％ＨＲＤ陽性、ｎ＝５７）、乳がん（１４．６％、ｎ＝８９）、および結腸直腸がん（１０％、ｎ＝２８５）は、最も代表的ながんのタイプの一部であった。以前に発表された結果とは対照的に、膵臓（２．３％、ｎ＝２９５）および前立腺（２．７％、ｎ＝３７）の患者のほとんどはＨＲＤを予測していなかった。

引用されたおよび代替の実施形態
本明細書に引用される全ての参考文献は、あたかも各個々の刊行物または特許または特許出願が全ての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体が全ての目的のために本明細書に参照により組み込まれる。

本発明は、非一時的コンピュータ可読記憶媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装することができる。例えば、コンピュータプログラム製品には、図１に任意の組み合わせで示されているプログラムモジュール、および／または本出願の他の場所で説明されているプログラムモジュールを含むことができる。これらのプログラムモジュールは、ＣＤ－ＲＯＭ、ＤＶＤ、磁気ディスク記憶製品、ＵＳＢキー、または他の任意の非一時的コンピュータ可読データまたはプログラム記憶製品に記憶することができる。

当業者には明らかとなるように、本開示の多くの修正および変形を、その趣旨および範囲から逸脱することなく行うことができる。本明細書に記載の特定の実施形態は、例としてのみ提供されている。実施形態は、本発明の原理およびその実際の使用を最良に説明するために選択および説明され、それによって当業者が本発明および考えられる特定の用途に適した様々な変更を伴う様々な実施形態を最良に利用することができるようにする。本開示は、そのような特許請求の範囲が権利を有する等価物の全範囲と共に、添付の特許請求の範囲の用語によってのみ限定されるべきである。

Claims

試験対象におけるがんの相同組換え経路状態を判定する方法であって、
１つ以上のプロセッサと、前記１つ以上のプロセッサによって実行するための１つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、
（Ａ）前記試験対象からの第１のＤＮＡサンプルの第１の複数の配列読み取りを電子形式で取得することであって、前記第１のＤＮＡサンプルが、前記対象のがん性組織からのＤＮＡ分子を含む、取得することと、
（Ｂ）前記試験対象からの第２のＤＮＡサンプルの第２の複数の配列読み取りを電子で取得することであって、前記第２のＤＮＡサンプルが、前記対象の非がん性組織からのＤＮＡ分子からなる、取得することと、
（Ｃ）前記第１の複数の配列読み取りの各配列と、前記第２の複数の配列読み取りの各配列とを、ヒトの参照ゲノムに対してアライメントし、それによって、対応する第１の複数のアライメントされた配列読み取りと、対応する第２の複数のアライメントされた配列読み取りとを生成することと、
（Ｄ）前記第１の複数のアライメントされた配列読み取りおよび前記第２の複数のアライメントされた配列読み取りに基づいて、前記対象のゲノムデータ構築物を生成することであって、前記ゲノムデータ構築物が、前記対象の前記がん性組織および前記非がん性組織のゲノムの複数の特徴を含み、前記複数の特徴が、（ｉ）前記対象の前記がん性組織の前記ゲノムにおける第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態、（ｉｉ）前記対象の前記がん性組織の前記ゲノム全体のヘテロ接合性の喪失の尺度、（ｉｉｉ）前記対象の前記がん性組織の前記ゲノム中の第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度、および（ｉｖ）前記対象の前記非がん性組織の前記ゲノム中の前記第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度、を含む、生成することと、
（Ｅ）相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に前記ゲノムデータ構築物を入力し、それによって前記試験対象の前記相同組換え経路状態を判定することと、を含む、方法。
前記第１のＤＮＡサンプルが、前記対象の前記がん性組織の固形腫瘍生検からのものである、請求項１に記載の方法。
前記第２のＤＮＡサンプルが、前記対象からの血液サンプルのバフィーコート調製物からのものである、請求項１または２に記載の方法。
前記第１の複数の配列読み取りが、ゲノム領域のパネルについて前記対象の前記がん性組織からの核酸を濃縮するために複数の核酸プローブを使用した標的化配列決定によって生成された、請求項１～３のいずれか一項に記載の方法。
前記第１の複数の配列読み取りが、前記対象の前記がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項１～３のいずれか一項に記載の方法。
前記第２の複数の配列読み取りが、ゲノム領域のパネルについて前記対象の前記非がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された、請求項１～５のいずれか一項に記載の方法。
前記第２の複数の配列読み取りが、前記対象の前記非がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項１～５のいずれか一項に記載の方法。
前記対象の前記がん性組織の前記ゲノム全体の前記ヘテロ接合性の喪失の前記尺度が、
前記第１の複数の配列読み取りにおけるゲノムヘテロ接合性の喪失を判定すること、および
前記第１の複数の配列読み取りに対する腫瘍純度の推定により、前記判定されたヘテロ接合性の喪失を正規化することによって、判定され、
前記腫瘍純度の推定は、前記第１の複数の配列読み取りと、前記第２の複数の配列読み取りとに基づく、請求項１～７のいずれか一項に記載の方法。
前記第１の複数のＤＮＡ損傷修復遺伝子の前記ヘテロ接合性状態が、前記第１の複数のＤＮＡ損傷修復遺伝子において検出された固有のフレームシフト変異の数のカウントを含む、請求項１～８のいずれか一項に記載の方法。
前記第１の複数のＤＮＡ損傷修復遺伝子の前記ヘテロ接合性状態が、前記第１の複数のＤＮＡ損傷修復遺伝子において検出された固有の短縮型変異の数のカウントを含む、請求項１～９のいずれか一項に記載の方法。
前記第１の複数のＤＮＡ損傷修復遺伝子が、ＢＲＣＡ１およびＢＲＣＡ２を含む、請求項１～１０のいずれか一項に記載の方法。
前記対象の前記がん性組織の前記ゲノム中の前記第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記第１の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項１～１１のいずれか一項に記載の方法。
前記対象の前記非がん性組織の前記ゲノム中の前記第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記第２の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項１～１２のいずれか一項に記載の方法。
前記第２の複数のＤＮＡ損傷修復遺伝子が、ＢＲＣＡ１およびＢＲＣＡ２を含む、請求項１～１３のいずれか一項に記載の方法。
前記第２の複数のＤＮＡ損傷修復遺伝子が、ＢＲＣＡ１およびＢＲＣＡ２を含み、
ＢＲＣＡ１およびＢＲＣＡ２における相同組換えの喪失に関連する前記固有の変異が、表１に列挙された変異のうちの少なくとも５０を含む、請求項１２または１３に記載の方法。
前記第２の複数のＤＮＡ損傷修復遺伝子が、ＢＲＣＡ１およびＢＲＣＡ２を含み、
ＢＲＣＡ１およびＢＲＣＡ２における相同組換えの喪失に関連する前記固有の変異が、表１に列挙された変異を含む、請求項１２または１３に記載の方法。
前記方法が、
前記試験対象の前記がんが相同組換え欠損であると判定されたときに、ポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤を前記試験対象に投与することにより前記がんを治療することと、
前記試験対象の前記がんが相同組換え欠損ではないと判定されたときに、ＰＡＲＰ阻害剤を前記試験対象に投与することを含まない治療法で前記がんを治療することと、をさらに含む、請求項１～１６のいずれか一項に記載の方法。
前記ＰＡＲＰ阻害剤が、オラパリブ、ベリパリブ、ルカパリブ、ニラパリブ、およびタラゾパリブからなる群から選択される、請求項１７に記載の方法。
前記がんが乳がんである、請求項１～１８のいずれか一項に記載の方法。
前記がんが卵巣がんである、請求項１～１８のいずれか一項に記載の方法。
前記がんが結腸直腸がんである、請求項１～１８のいずれか一項に記載の方法。
前記分類器が、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ＮａｉｖｅＢａｙｅｓアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定ツリーアルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである、請求項１～２１のいずれか一項に記載の方法。
前記分類器がランダムフォレストアルゴリズムである、請求項１～２１のいずれか一項に記載の方法。
前記第１の複数の配列読み取りが、前記対象の前記がん性組織から生成されたｃＤＮＡ分子のエクソーム配列決定によって生成された、請求項１～３および８～２３のいずれか一項に記載の方法。
前記第２の複数の配列読み取りが、前記対象の前記非がん性組織から生成されたｃＤＮＡ分子のエクソーム配列決定によって生成された、請求項１～３および８～２３のいずれか一項に記載の方法。
前記第１の複数の配列読み取りが、ヒトゲノム中の少なくとも１０の異なる遺伝子座のそれぞれについて少なくとも３００のそれぞれの固有の配列読み取りを含み、第２の複数の配列読み取りが、ヒトゲノム中の少なくとも１０の異なる遺伝子座のそれぞれについて少なくとも３００のそれぞれの固有の配列読み取りを含む、請求項１～２５のいずれか一項に記載の方法。
コンピュータシステムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されるときに、前記プロセッサに請求項１～２６のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を含む非一時的なコンピュータ可読媒体と、を含む、コンピュータシステム。
プロセッサによって実行されるときに、プロセッサに請求項１～２６のいずれか一項に記載の方法を実行させるプログラムコード命令を記憶した非一時的なコンピュータ可読記憶媒体。
がんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための方法であって、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサによって実行するための少なくとも１つのプログラムを記憶するメモリと、を含むコンピュータシステムにおいて、
（Ａ）がんを有する複数の訓練対象におけるそれぞれの訓練対象ごとに、前記それぞれの訓練対象の対応するゲノムデータ構築物を取得することであって、前記対応するゲノム訓練構築物が、（ａ）前記それぞれの訓練対象の前記がんの相同組換え経路状態、および（ｂ）前記それぞれの訓練対象のがん性組織および非がん性組織のゲノムの複数の特徴を含み、前記複数の特徴が、（ｉ）前記それぞれの訓練対象の前記がん性組織の前記ゲノムにおける第１の複数のＤＮＡ損傷修復遺伝子のヘテロ接合性状態、（ｉｉ）前記それぞれの訓練対象の前記がん性組織の前記ゲノム全体のヘテロ接合性の喪失の尺度、（ｉｉｉ）前記それぞれの訓練対象の前記がん性組織の前記ゲノム中の第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度、および（ｉｖ）前記それぞれの訓練対象の前記非がん性組織の前記ゲノム中の前記第２の複数のＤＮＡ損傷修復遺伝子において検出された変異型アレルの尺度を含む、取得することと、
（Ｂ）それぞれの訓練対象ごとに、少なくとも（ａ）前記それぞれの訓練対象の前記がんの前記相同組換え経路状態、および（ｂ）前記それぞれの訓練対象の前記がん性組織からの前記対応するＤＮＡサンプルから判定された前記複数の特徴に対して分類アルゴリズムを訓練することと、を含む、方法。
コンピュータシステムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサによって実行されるときに、前記プロセッサに請求項２９に記載の方法を実行させる、コンピュータ実行可能命令を含む非一時的なコンピュータ可読媒体と、を含む、コンピュータシステム。
プロセッサによって実行されるときに、前記プロセッサに請求項２９に記載の方法を実行させるプログラムコード命令を記憶した非一時的なコンピュータ可読記憶媒体。