JP2023535962A - 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法 - Google Patents

低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法 Download PDF

Info

Publication number
JP2023535962A
JP2023535962A JP2023505760A JP2023505760A JP2023535962A JP 2023535962 A JP2023535962 A JP 2023535962A JP 2023505760 A JP2023505760 A JP 2023505760A JP 2023505760 A JP2023505760 A JP 2023505760A JP 2023535962 A JP2023535962 A JP 2023535962A
Authority
JP
Japan
Prior art keywords
coverage
data
hrd
bins
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023505760A
Other languages
English (en)
Inventor
クリスティアン、ポッツォリーニ
グレゴワール、アンドレ
トンマーゾ、コレッタ
チェンユ、シュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sophia Genetics SA
Original Assignee
Sophia Genetics SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sophia Genetics SA filed Critical Sophia Genetics SA
Publication of JP2023535962A publication Critical patent/JP2023535962A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Processing (AREA)

Abstract

ゲノムデータアナライザは、訓練された畳込みニューラルネットワークなどの機械学習モデルを用いて、腫瘍サンプル中のゲノム不安定性の存在を検出及び特徴付けするように構成される可能性がある。ゲノムデータアナライザは、様々な臨床腫瘍学設定で日常的に使用されてもよいように、ハイスループットシーケンシングワークフローにおける低いシーケンシングカバレッジであっても入力データとして全ゲノムシーケンシングリードを使用する可能性がある。ゲノムデータアナライザは、染色体アーム又は完全染色体からのアラインメントされたリードデータカバレッジを配置して、場合によっては画像としてカバレッジデータ信号アレイを形成する可能性がある。訓練された機械学習モデルは、カバレッジデータ信号アレイを処理して、例えば相同修復又は組換え欠損(HRD)によって引き起こされるゲノム不安定性などの染色体空間不安定性(CSI)が腫瘍サンプル中に存在するかどうかを決定する可能性がある。後者の指示は、腫瘍に対する好ましい抗癌治療の選択を導く可能性がある。

Description

本明細書に記載の方法は、一般にゲノム解析に関し、より具体的には、癌を検出及び治療するためのゲノム情報の使用に関する。
抗癌治療応答の予測因子としての腫瘍ゲノミクス
固有の生殖系列変異を超えて、癌細胞は、コピー数多型、特定のアレル又はゲノム領域の重複又は欠失などの体細胞大規模染色体異常を有することが多い。これらのバリアントのいくつかは、例えば腫瘍抑制機序、特に相同組換え修復(HRR又はHR)機能などのいくつかのゲノム機能の喪失を引き起こし、したがって癌をより侵攻性にする場合がある。これらのゲノム変異を同定することは、特定の抗癌療法に対する細胞過剰増殖性障害を有する対象の応答を予測することが示されているので、個別化癌治療の最近の進歩において決定的に重要である。対象は、ヒト又は動物であり得る。抗癌治療の例は、そのようなアルキル化剤、例えば限定されないが、白金系化学療法剤、カルボプラチン、シスプラチン、イプロプラチン、ネダプラチン、オキサリプラチン、ピコプラチン、クロルメチン、クロラムブシル、メルファラン、シクロホスファミド、イホスファミド、エストラムスチン、カルムスチン、ロムスチン、フォテムスチン、ストレプトゾシン、ブスルファン、ピポブロマン、プロカルバジン、ダカルバジン、チオテパ、テモゾロミド及び/若しくは他の抗腫瘍性白金配位化合物;DNA損傷剤若しくは放射線;アントラサイクリン、例えば、限定されないが、エピルビンシン(epirubincin)若しくはドキソルビシン;トポイソメラーゼI阻害剤、例えば、限定されないが、カンポテシン(campothecin)、トポテカン、イリノテカン;並びに/又はPARP(ポリADP-リボースポリメラーゼ)阻害剤を含む。癌細胞を選択的に破壊するために腫瘍DNA相同修復欠損(HRD)を利用するPARP阻害剤の例は、特定の癌型について米国及び欧州で承認されているオラパリブ、ルカパリブ、ニラパリブ(MK4827)、及びタラゾパリブ(BMN-673)である。PARP阻害剤の他の例としては、イニパリブ、CEP9722(-14-メトキシ-9-[(4-メチルピペラジン-1-イル)メチル]-9,19-ジアザペンタシクロ[10.7.0.0^{2,6}.0^{7,11}.0^{13,18}]ノナデカ-1(12),2(6),7(11),13(18),14,16-ヘキサエン-8,10-ジオン)、3-アミノベンズアミド、ベラピリブ(velapirib)、パミパリブ又はE7016(10-((4-ヒドロキシピペリジン-1-イル)メチル)クロメノ[4,3,2-de]フタラジン-3(2H)-オン)が挙げられる。PARP阻害剤は、HRD腫瘍細胞の発生を防ぐ多数のDNA二本鎖切断(DSB)を間接的に誘導するが、正常細胞は一般にHRを介してそれらの切断を修復することができる(Keung et al., 2019,Journal of Clinical Medicine 8(4), p.435)。
HRDゲノム解析試験
したがって、腫瘍由来のサンプルなどのDNAサンプルを分類する方法は、したがって、可能性のある癌型の診断を容易にする可能性があり、又はゲノムシーケンシング及び解析のおかげでそれらの腫瘍サンプルにおける大規模DNAコピー数異常の特徴付けに従って患者に最も適切な癌治療を適合させる可能性がある。特に、癌が相同修復欠損(HRD)であるかどうかの同定は、治療の計画においてかなりの助けとなる可能性がある。過去10年間で、この目的のために異なるゲノム変異シグネチャが同定されている。欧州特許第2609216号明細書は、PARP阻害剤、放射線療法、又は白金系化学療法剤を含む化学療法などの抗癌治療の転帰を予測するための全般的染色体異常スコア(GCAS)の使用を開示している。欧州特許第2817630号明細書は、テロメアアレル不均衡(TAI)事象の数の検出、及びこの数が白金抵抗性であることが知られている類似の癌からの基準値を上回る場合の白金含有療法の選択を提案している。Institut Curie及びINSERMのStern、Manie及びPopovaによる欧州特許第2859118号明細書は、染色体コピー数の大規模遷移(LST)に対応する、少なくとも3メガベースに及ぶセグメントのゲノムあたりの数をカウントすることによってHRDを予測する方法を開示している。Myriad GeneticsのAbkevichらによる欧州特許第2794907号明細書は、少なくとも一対のヒト染色体において11メガベースより長いが染色体全体より短いヘテロ接合性喪失(LOH)領域の総数をカウントし、この数を参照数と比較して多様な可能性のある癌治療に対する患者の応答を予測することを開示している。欧州特許第2981624号明細書は、LOH、TAI及びLST指標を使用することを開示しており、欧州特許第3180447号明細書は、多様な可能性のある癌治療に対する患者の応答を予測するために、それらの値をHRDスコアに加算して参照数と比較することを開示している。後者の試験方法は、Myriad Genetics myChoice CDxアッセイによる卵巣癌患者のHRDの試験として現在使用されており、これは、少なくとも500倍のカバレッジ中央値でいくつかの遺伝子に対するカスタムハイブリダイゼーションベースの標的濃縮を使用する。このHRDスコアはまた、最近、高悪性度漿液性卵巣癌(HGSOC)の進行に関する可能な予後予測因子として示された(Takaya et al, “Homologous recombination deficiency status-based classification of high-grade serous ovarian carcinoma”,Nature Research Scientific Reports (2020) 10:2757)。
Myriad myChoiceアッセイと同様に、Foundation Medicineの商用アッセイFoundationFocus CDxBRCALOHは、BRCA1及びBRCA2遺伝子の解析を専門にして、卵巣癌患者がPARP阻害剤療法であるルカパリブに応答性であるかどうかを決定する。後者のアッセイはまた、500倍のカバレッジ中央値でいくつかの遺伝子のすべてのコードエクソンのカスタムハイブリダイゼーションベースの捕捉を使用するが、ゲノム全体のコピー数プロファイルとSNPのマイナーアレル画分との組合せから評価されるLOHスコアのみを使用する。
WGSデータのHRD解析方法
より一般的には、国際公開第2017191074号は、塩基置換、再編成及びインデルシグネチャ(HRDetectスコア)を含む異なるゲノム変化の解析から計算された確率的スコアに従って腫瘍DNAサンプルのHRD状態を特徴付けることを提案している。H.Davies et al., “HRDetect is a predictor of BRCA1 and BRCA2 deficiency based on mutational signatures”, Nature Medicine, 2017年3月13日オンライン公開に記載されているように、後者のHRDetectスコアを用いた全ゲノムシーケンシング(WGS)は、全ゲノムにわたって観察された変異シグネチャから、98.7%の感度でHRDを検出する可能な方法として示されている。WGSとは対照的に、全エクソームシーケンシング(WES)のみが適用される場合、HRDetectの感度は、バイオインフォマティクスアルゴリズムの具体的な適応に応じて46.8%~73%の間で有意に低下する。
乳癌及び卵巣癌を超えて、“Genomic aberration based molecular signatures efficiently characterize homologous recombination deficiency in prostate cancer”で報告されているように、Sztupinszkiらも最近、WGS及びWESデータ(scarHRD)からHRDシグネチャn前立腺腫瘍の指標としてLOH、TAI及びLSTの使用を検討し始めた。“
上記の方法はすべてSNV及び/又はINDEL呼出しに依存しているので、次世代シーケンシング(NGS)ワークフローでは高いカバレッジ深度(通常は少なくとも30倍)が必要である。WGS及び大きなパネルにおける高いカバレッジ要件は、ウェットラボ実験及びドライラボデータ処理オーバーヘッドの両方に関して、実地臨床における解析のコストを大幅に増加させる。したがって、ローパスWGS(LP-WGS-1倍~5倍)又は超ローパスWGS(ULP-WGS-0.1倍まで)を使用する代替方法は、臨床腫瘍学にとってより有利である可能性がある。“ShallowHRD:Detection of Homologous Recombination Deficiency from shallow Whole Genome Sequencing“, Bioinformatics, 2020年4月21日において、Eeckhoutteらは、Manie、Stern及びPovaの方法と同様にLST状態を特徴付けるソフトウェア方法であるShallowHRDを記載しているが、浅いWGSデータについては、約1倍のカバレッジまで詳細に記載している。それらのアプローチは、染色体アーム内コピー数変化のカウントを単に使用する。このカウントは、カバレッジデータ信号内の3Mb未満のセグメントを除去した後の、少なくとも10メガベースの隣接するセグメント間の大規模遷移の数として推定される場合がある。著者らによれば、15未満の遷移は、HRD陰性腫瘍を同定することを可能にし、一方、19超は、先行技術のscarHRD法と同様の感度及び特異性でHRD陽性腫瘍を同定することを可能にする。この方法は、臨床腫瘍学におけるより費用効果の高いNGSワークフローの使用に有望であるが、その感度は、HRDetect及びSNPアレイ上のLST指標の測定によって達成される結果よりも依然として低いことを本発明者らは観察している。これは、先行技術の方法のLOH及びTAIシグネチャを統合することができないという事実に起因する可能性がある。さらに、それは、一方では各染色体アーム内に、他方ではヒトゲノムの複数の染色体間にどのようにそれらの遷移が分布するかにかかわらず、染色体変化が大きく、十数回を超える大規模な遷移を引き起こすのに十分な頻度である腫瘍を分類することのみを可能にする。
腫瘍学におけるいくつかの最近の研究は、機能不全DNAの超変異性が染色体の異なる領域に不均一な変化を引き起こす可能性があることを示唆している。“Regulation of mitotic recombination between DNA repeats in centromeres”, Nucleic Acids Research, 2017, Vol.45, No.19においてZafarら、“The dark side of centromeres,types,causes and consequences of structural abnormalities implicating centromeric DNA”, Barra et al., Nature Communications (2018) 9:4340においてBarraらは、おそらく腫瘍のセントロメア領域の固有の脆弱性のために、結腸直腸癌及び腺癌に由来する癌細胞株のセントロメア周囲領域及びセントロメア領域に染色体再編成及び切断の有意な比率が観察されること、並びにこれは他の癌でも一般的であることを報告している。Barraらは、これらの領域における高度に反復的な配列を明示的に解析するためのモデル及び技術が欠如していることを強調している。
したがって、最近の癌ゲノミクスの発見、特に腫瘍ゲノムにおける染色体異常の特定の空間的特徴の有望な発見に適応しながら、日常的な腫瘍学実地臨床のための自動化されたNGSワークフローに容易かつ費用効果的に展開することができる改良されたゲノム解析方法が必要とされている。最近の癌ゲノミクスの発見を統合し、診断、予後、治療選択及び患者管理に関連するHRDを含む特徴を同定することを可能にする改良されたゲノム解析方法が特に必要とされている。好ましくは、これらの方法及び技術はまた、先行技術と比較してHR事象の検出における妥当な精度を維持しながら、日常的な臨床設定における全体的な解析コストを低減するために、より低いカバレッジで適用可能である可能性がある。さらに、改良されたゲノム解析方法はまた、先行技術のLOH、LST又はTAI指標などのスカラHRD指標の明示的な測定及び閾値化に依存する代わりに機械学習技術を使用することによってHR欠損腫瘍の特徴付けを容易にする可能性があり、その結果、ヒト及び動物の様々な異なる癌のための腫瘍の分類における臨床データの利用可能性の増加をより容易に活用することができる。
欧州特許第2609216号明細書 欧州特許第2817630号明細書 欧州特許第2859118号明細書 欧州特許第2794907号明細書 欧州特許第2981624号明細書 欧州特許第3180447号明細書 国際公開第2017191074号
Keung et al., 2019, Journal of Clinical Medicine 8(4), p.435 Takaya et al, "Homologous recombination deficiency status-based classification of high-grade serous ovarian carcinoma", Nature Research Scientific Reports (2020) 10:2757 H.Davies et al., "HRDetect is a predictor of BRCA1 and BRCA2 deficiency based on mutational signatures", Nature Medicine, 2017年3月13日オンライン公開 Sztupinszki et al., "Genomic aberration based molecular signatures efficiently characterize homologous recombination deficiency in prostate cancer" Eeckhoutte et al., "ShallowHRD:Detection of Homologous Recombination Deficiency from shallow Whole Genome Sequencing", Bioinformatics, 2020年4月21日 Zafar et al., "Regulation of mitotic recombination between DNA repeats in centromeres", Nucleic Acids Research, 2017, Vol. 45, No. 19 Barra et al., "The dark side of centromeres, types, causes and consequences of structural abnormalities implicating centromeric DNA", Nature Communications (2018) 9:4340
対象DNAサンプルの相同組換え欠損(HRD)状態を決定する方法であって、解析される対象DNAサンプルの全ゲノムのシーケンシングリードのセットを得ることと、対象DNAサンプルのシーケンシングリードのセットを参照ゲノムにアラインメントすることであって、参照ゲノムが複数のビンに分割され、各ビンが、解析される全ゲノム染色体中の染色体アームからの同じゲノム領域に属する、アラインメントすることと、染色体アーム上のカバレッジ信号を得るために、各染色体アームに沿った各ビン内のアラインメントされたリードの数をカウントし、正規化することと、染色体アームのカバレッジ信号を対象DNAサンプルのカバレッジデータ信号アレイに配置することと、訓練された機械学習モデルにカバレッジデータ信号アレイを入力することであって、モデルが、陽性の相同組換え欠損状態を有するサンプルからのカバレッジデータ信号アレイと陰性の相同組換え欠損状態を有するサンプルからのカバレッジデータ信号アレイとを区別するために既知の相同組換え欠損状態のサンプルのセットを使用して訓練されている、入力することとを含み、それによって、対象DNAサンプルの相同組換え欠損スコア(HRDスコア)を決定し、かつ訓練された機械学習モデルからのHRDスコアに従って、対象DNAサンプルの陰性、陽性又は不確定の相同組換え欠損(HRD)状態を決定する方法が提案される。可能な実施形態では、シーケンシングリードのセットは、リード深度カバレッジが最大30倍である全ゲノムシーケンシングから、又はリード深度カバレッジが少なくとも0.1倍及び最大5倍であるローパス全ゲノムシーケンシングから得られてもよい。可能な実施形態では、染色体アーム上のカバレッジ信号を得るために、各染色体アームに沿った各ビン内のアラインメントされたリードの数をカウントし、正規化することは、サンプルあたりのカバレッジ信号を正規化すること、及び/又はGCバイアス補正を適用するためにGC含量によって正規化することを含んでもよい。可能な実施形態では、染色体アームのカバレッジ信号は、1Dカバレッジデータ信号ベクトル又は2Dカバレッジデータ信号画像に配置されてもよい。可能な実施形態では、染色体アームのカバレッジ信号は、染色体アームのセントロメア領域に隣接する最も近いビンである、各染色体アームのセントロメアビンに対して各染色体のカバレッジデータ信号を行にアラインメントさせることによって、2Dカバレッジデータ信号画像に配置されてもよい。可能な実施形態では、機械学習モデルは、訓練ラベルとして既知の相同組換え欠損状態を有する腫瘍データサンプルのセットを使用して事前に訓練されていてもよい。訓練データセットは、データサンプルの染色体からのデータを既知の相同組換え欠損状態ラベルと組み合わせることによって生成された人工サンプルデータで増強されてもよい。データ増強サンプルは、実サンプルデータセットにおいて観察されるような純度-倍数性比分布を表すために生成されてもよい。可能な実施形態では、参照ゲノムは、最大100kbpビンの第1のセットに分割されてもよく、各染色体アーム上にカバレッジ信号を配置する前に、100kbpビンを少なくとも500kbpのより大きなビンの第2のセットに折り畳むステップをさらに含む。ビンの第1のセットのビンは、最大100kbpの均一なサイズを有してもよく、ビンの第2のセットのビンは、2.5~3.5Mbpのサイズを有してもよく、ビンの第1のセットから25~35個の100kbpビンをプールすることによって得られる。
患者DNAサンプルの相同組換え欠損(HRD)状態を決定するインビトロ方法であって、
患者サンプルからのDNAの断片を提供することと、
染色体のセットと重複する前記断片を含むライブラリを構築することと、
最大30倍の全ゲノムシーケンシングカバレッジ、好ましくは少なくとも0.1倍及び最大5倍のゲノムシーケンシングカバレッジまでライブラリをシーケンシングすることと、
本明細書に開示される方法に従って得られた訓練された機械学習モデルの解析に基づいて患者サンプルのHRD状態を決定することと
を含む方法が提案される。患者DNAサンプルは、腫瘍細胞を含まないDNA(cfDNA)、新鮮凍結組織(FFT)又はホルマリン固定パラフィン包埋(FFPE)サンプルであってもよい。患者サンプルのHRDスコア又はHRD状態は、癌治療レジメンに対する腫瘍応答の予測因子であってもよい。癌治療レジメンは、アルキル化剤、白金系化学療法剤、カルボプラチン、シスプラチン、イプロプラチン、ネダプラチン、オキサリプラチン、ピコプラチン、クロルメチン、クロラムブシル、メルファラン、シクロホスファミド、イホスファミド、エストラムスチン、カルムスチン、ロムスチン、フォテムスチン、ストレプトゾシン、ブスルファン、ピポブロマン、プロカルバジン、ダカルバジン、チオテパ、テモゾロミド及び/若しくは他の抗腫瘍性白金配位化合物、DNA損傷剤、放射線療法、アントラサイクリン、エピルビンシン、ドキソルビシン、トポイソメラーゼI阻害剤、カンポテシン、トポテカン、イリノテカン、PARP(ポリADP-リボースポリメラーゼ)阻害剤、オラパリブ、ルカパリブ、ニラパリブ、タラゾパリブ、イニパリブ、CEP9722、MK4827、BMN-673、3-アミノベンズアミド、ベラピリブ、パミパリブ並びに/又はE7016からなる群から選択されてもよい。
本明細書に開示される方法に従って、腫瘍患者サンプルがHRD陽性であることを検出するステップを含む、白金系化学療法剤、DNA損傷剤、アントラサイクリン、トポイソメラーゼI阻害剤、PARP阻害剤で治療するための癌患者を選択する方法が提案される。可能な実施形態では、患者は、高悪性度漿液性卵巣癌、前立腺癌、乳癌又は膵臓癌から選択される癌を有してもよい。
対象DNAサンプルの相同組換え欠損(HRD)状態を決定するための機械学習アルゴリズムを訓練する方法であって、既知の陽性の相同組換え欠損状態を有するサンプルからのカバレッジデータ信号アレイ及び既知の陰性の相同組換え欠損状態を有するサンプルからのカバレッジデータ信号アレイを機械学習教師あり訓練アルゴリズムに入力することを含む方法が提案される。
訓練された機械学習モデルは、ランダムフォレストモデル、ニューラルネットワークモデル、深層学習分類器又は畳込みニューラルネットワークモデルであってもよい。ニューラルネットワークモデルで訓練された機械学習モデルは、陽性若しくは陰性のHRD状態の単一ラベルバイナリ分類、又は陽性、陰性若しくは不確定のHRD状態の単一ラベルマルチクラス分類、又はHRD状態を表すスカラHRDスコアをその出力で生成するように訓練された畳込みニューラルネットワークであってもよい。機械学習モデルは、同じHRD状態並びに同じ正規化された純度及び倍数性比を共有する実サンプルのセットの染色体からデータをサンプリングすることによって生成されたデータ増強セットを使用して半教師ありモードで訓練されてもよい。
DNAサンプルを特徴付ける方法であって、前記参照ゲノムにアラインメントされた患者サンプルからシーケンシングリードのセットを得ることと、参照ゲノムの少なくとも2本の染色体の塩基対位置(bp)をビンのセットに分割することであって、各ビンが最大20メガベースペア(20Mbp)のゲノム領域に対応し、各ビンが単一染色体アームからのカバレッジデータのみを含む、分割することと、アラインメントされたリードから、シーケンシングされた患者サンプルの各ビンのカバレッジデータを推定することと、1つの次元に沿った染色体又は染色体アームのいずれかと、別の次元に沿った前記染色体又は染色体アームのビンのセットとを含む多次元アレイにカバレッジデータを配置することであって、各染色体又は染色体アームのセントロメアビン又はテロメアビンのいずれかが多次元アレイの空間配置にアラインメントされることを特徴とする、配置することと、多次元アレイを訓練された機械学習モデルに入力することと、訓練された機械学習モデルの出力で、染色体空間不安定性(CSI)指標を生成することとを含む方法が提案される。可能な実施形態では、CSI指標は、前記患者サンプルが相同組換え(HR)欠損である可能性が高い(HRD+)か低い(HRD-)かの指標であってもよい。患者サンプルは腫瘍サンプルであってもよく、患者サンプルのCSI指標は、白金系化学療法剤、DNA損傷剤、アントラサイクリン、トポイソメラーゼI阻害剤、又はPARP阻害剤を含む癌治療レジメンに対する腫瘍応答の予測因子であってもよい。
一実施形態では、機械学習モデルは、HRD状態(陽性又は陰性)などの既知のゲノム不安定性状態を有するサンプルからのラベル付きカバレッジデータを使用して、教師ありモード又は半教師ありモードで訓練される。
一実施形態では、ゲノム不安定性の染色体空間不安定性(CSI)指標は、機械学習モデルによって学習される可能性があるように、前記DNAサンプル中の少なくとも1つの染色体アームの少なくとも1つの領域にゲノム不安定性を有するDNAサンプルと、前記DNAサンプル中の少なくとも1つの染色体アームの少なくとも1つの領域にゲノム不安定性を有しない別のDNAサンプルとの間の差に基づく。
可能な実施形態では、ビンサイズが染色体アームに沿って一定のままであるように、各染色体アーム長に対してより大きなビンサイズを適合させることによって、多次元アレイを配置する前に、ビンの第1のセットをより大きなビンにさらに折り畳まれてもよい。ビンの第1のセットは、最大100kbpの均一なサイズを有してもよく、折り畳まれたビンは、少なくとも500kbpのサイズを有してもよい。カバレッジデータは、多次元アレイを配置する前に離散的なコピー数を推測するために正規化及び/又はセグメント化されてもよい。可能な実施形態では、多次元アレイの空の要素は、最も近いビンの値又は所定の値のいずれかでパディングされてもよい。可能な実施形態では、訓練された機械学習モデルは、ランダムフォレストモデル又はニューラルネットワークモデル、例えば、陽性若しくは陰性のCSI状態の単一ラベルバイナリ分類、又は陽性、陰性若しくは不確定のCSI状態の単一ラベルマルチクラス分類、又はCSI状態を表すスカラCSIスコアをその出力で生成するように訓練された畳込みニューラルネットワークであってもよい。患者サンプルは腫瘍サンプルであってもよく、機械学習モデルは、ターゲットアプリケーションに従ってCSI状態でラベル付けされた実サンプルのセットを使用して教師ありモード又は半教師ありモードで訓練されてもよい。可能な実施形態では、CSI状態ラベルは、HRDetect方法による、及び/又は同じHRD状態を共有し、同様の腫瘍含量を有する実サンプルのセットの染色体をサンプリングすることによって生成された人工サンプルを使用したHRD状態であってもよい。人工サンプルは、実サンプルデータセットと同じ純度-倍数性分布を再現するために選択されてもよい。
特定の一実施形態では、患者サンプルは腫瘍サンプルであってもよく、機械学習モデルは、HRD状態を有するラベル付きデータを使用して教師ありモード又は半教師ありモードで訓練されてもよい。訓練データは、HRD状態を有する臨床サンプルから得られ、かつ多次元アレイとして配置されたカバレッジデータから構成され得る。訓練データラベルは、HRD検出方法、例えばHRDetect方法から得ることができる。
特定の一実施形態では、純度及び倍数性などのサンプル特異的特性によって導入されるバイアスを説明するデータ増強戦略を使用して、機械学習アルゴリズムを訓練するために使用される多次元アレイの多様性及び数を増加させることができる。
本開示の特定の実施形態による次世代シーケンシングシステムを表す図である。 本開示の特定の実施形態によるゲノム解析ワークフローを表す図である。 異なる染色体アームに沿ってより具体的に観察可能な空間事象をより良く証明するために、小さなカバレッジビンをより大きなビンに折り畳むこと及び平滑化することを含む、低カバレッジデータ準備前処理ワークフローの可能な実施形態を概略的に示す図である。 ヒトDNAサンプル中の22本の非性染色体のセットに沿って、ローパス全ゲノムシーケンシング実験のカバレッジデータ信号からの小さなビンの第1のセットを用いて最初に測定されてもよいような正規化リードカバレッジデータ信号の一例をプロットした図である。 カバレッジデータ信号図4からのより大きなビンの第2のセットを用いて計算されてもよいような正規化リードカバレッジデータ信号の一例をプロットした図である。 セントロメア領域をそれぞれのpアーム及びqアーム染色体アーム長(y軸)とアラインメントさせるように配置されたヒトゲノム染色体のセット全体(x軸上に詳述)を示す図である。 図7a)は、HRD陰性腫瘍DNAサンプルについての、染色体空間不安定性解析の前に、提案されたカバレッジデータ準備方法の特定の実施形態に従って、セントロメアビンが単一の列に垂直にアラインメントされるように、染色体が行ごとに配置され、カバレッジビンが列に沿って配置された2D行列として空間的に再配置された正規化カバレッジデータを示す図である。図7b)は、HRD陽性腫瘍DNAサンプルについての、染色体空間不安定性解析の前に、提案されたカバレッジデータ準備方法の特定の実施形態に従って、セントロメアビンが単一の列に垂直にアラインメントされるように、染色体が行ごとに配置され、カバレッジビンが列に沿って配置された2D行列として空間的に再配置された正規化カバレッジデータを示す図である。 可能な染色体空間不安定性アナライザ(例えば、HRD状態解析のための)の内部データワークフローアーキテクチャを概略的に表す図である。 提案されたCSIアナライザデータ処理モジュールの特定の実施形態による畳込みニューラルネットワークの可能なアーキテクチャを示す図である。 図10a)は、560乳癌ゲノムデータベースの1つのサンプルについての正規化されたカバレッジデータを示す図である。図10b)は、560乳癌ゲノムデータベースの1つのサンプルについての正規化されたカバレッジデータを示す図である。 560乳癌ゲノムデータベースからの202個のBAMファイルサンプルからの22本の非性染色体に沿った正規化されたカバレッジデータを示す図である。 先行技術のHRDスコア方法対提案されたCSI指標分類器をHRDetectスコアに対してベンチマークしている図である。 おそらくはHR欠損に関連して異なるBRCA欠損を有する一連の69個の試験サンプルについてのHRDスコア、提案されたCSI指標スコア及びHRDetectスコア結果をプロットしている図である。 セントロメア領域に隣接する少なくとも1つのビン又はテロメア領域に隣接する少なくとも1つのビンに対する、少なくとも2つの解析された例示的な染色体(chr.A及びchr.B)からの各染色体アーム(pアーム及びqアーム)に対するカバレッジ信号画像の例示的なアラインメントを示す図である。パネルA)少なくとも2つの例示的な解析された染色体(chr.A及びchr.B)からの各染色体アーム(pアーム及びqアーム)のカバレッジ信号画像、ドット付き矩形-テロメア領域に隣接するビン、縦縞矩形-セントロメア領域に隣接するビン、パネルB)-セントロメア領域に隣接するビンに対するカバレッジ信号画像のアラインメント、パネルC)-テロメア領域に隣接するビンに対するカバレッジ信号画像のアラインメント、パネルD)-セントロメア領域に隣接するビンに対するカバレッジ信号画像のアラインメント、パネルE)-テロメア領域に隣接するビンに対するカバレッジ信号画像のアラインメント。 実施例2に記載のlpWGSと標的捕捉との組合せから得られた例示的な出力データを示す図である。図15A:ローパスWGS(lpWGS)と標的シーケンシングとを組み合わせたワークフローで生成されたNGSデータから得られた、100kB間隔で計算された生のカバレッジを示す図である。例示目的のために、標的実験において濃縮されたゲノム領域における生のカバレッジを空のマーカーによって示し、lpWGS領域を塗りつぶしたマーカーによって示す。図15B:非標的(lpWGSのみ)領域(左、図15B1)及び標的(捕捉濃縮)領域(右、図15B2)におけるマッピングされたリードのアラインメントを示す図である。図15C:lpWGS領域(左、図15C1)に限定された正規化カバレッジ、及び捕捉濃縮領域(右、図15C2)で同定されたバリアントのアレル画分を示す図である。 実施例3に記載の人工サンプルの調製を示す図である。パネルAは、人工サンプルを生成するためにランダムに選択された3つの元の腫瘍サンプルについてのゲノム(X軸、正規化カバレッジプロット)にわたる正規化カバレッジ(Y軸)を示す。各サンプルの腫瘍含量(又は純度、T)、倍数性(P)及び純度倍数性比(PPR)を、サンプルの対応する正規化カバレッジプロットの上に示す。 実施例3に記載の人工サンプルの調製を示す図である。各サンプルの腫瘍含量(又は純度、T)、倍数性(P)及び純度倍数性比(PPR)を、サンプルの対応する正規化カバレッジプロットの上に示す。パネルBは、セット内の元のサンプルで観察された最低のPPRに一致するようにサンプルのインシリコ希釈後の正規化カバレッジプロットを示す。 実施例3に記載の人工サンプルの調製を示す図である。各サンプルの腫瘍含量(又は純度、T)、倍数性(P)及び純度倍数性比(PPR)を、サンプルの対応する正規化カバレッジプロットの上に示す。パネルCは、希釈されたサンプルのカバレッジプロットからのデータを組み合わせることによって組み立てられた人工サンプルの正規化カバレッジプロットを示す。
元のサンプル、希釈サンプル及び人工サンプルにおける正規化カバレッジ点の色を保存した。
本開示は、少なくとも部分的には、基礎となる染色体配置に関連して腫瘍サンプルシーケンシングデータカバレッジを処理するように設計された、本開示の機械学習訓練済アナライザが、一般に染色体空間不安定性(CSI)の指標、特に腫瘍サンプルの相同修復欠損(HRD)状態の指標を抽出できるという発見に基づく。
ここで、提案された方法及びシステムを、より詳細な実施形態を参照して説明する。しかしながら、提案された方法及びシステムは、異なる形態で具体化されてもよく、本明細書に記載の実施形態に限定されると解釈されるべきではない。むしろ、これらの実施形態は、本開示が徹底的かつ完全であり、当業者に範囲を十分に伝えるように提供される。
定義
「DNAサンプル」は、例えば固形腫瘍又は流体から抽出される可能性があるような、生物に由来する核酸サンプルを指す。生物は、ヒト、動物、植物、真菌、又は微生物であってもよい。核酸は、ホルマリン固定パラフィン包埋(FFPE)サンプルなどの固体サンプル中に見出される可能性がある。あるいは、核酸は、血液又は血漿中の循環腫瘍DNAなど、限られた量又は低濃度で見出される可能性がある。
「DNA断片」は、高分子量DNAの断片化から生じるDNAの短い断片を指す。断片化は、サンプル生物において天然に生じていてもよく、又は例えば機械的剪断、超音波処理、酵素的断片化及び他の方法によって、DNAサンプルに適用されたDNA断片化方法から人工的に生成されていてもよい。断片化後、DNA片を末端修復して、各分子が平滑末端を有することを確実にしてもよい。ライゲーション効率を改善するために、アデニンを断片化されたDNAの3’平滑末端のそれぞれに付加して、DNA断片を相補的なdTオーバーハングを有するアダプターにライゲーションすることを可能にしてもよい。
「DNA産物」とは、DNA断片を操作、伸長、ライゲーション、複製、増幅、コピー、編集及び/又は切断して次世代シーケンシングワークフローに適合させることから生じるDNAの操作された断片を指す。
「DNA-アダプター産物」とは、DNA断片を次世代シーケンシングワークフローに適合させるためにDNAアダプターにライゲーションして得られたDNA産物を指す。
「DNAライブラリ」は、次世代シーケンシングワークフローとの適合性のためにDNA断片を適合させるためのDNA産物又はDNA-アダプター産物の集合体を指す。
「プール」は、単一のハイスループットシーケンシング解析に多重化される可能性があるような、同じ又は異なる生物に由来する複数のDNAサンプル(例えば、48サンプル、96サンプル、又はそれ以上)を指す。各サンプルは、固有のサンプルバーコードによってプール内で同定されてもよい。
「ヌクレオチド配列」又は「ポリヌクレオチド配列」は、シトシン(配列列のC文字で表される)、チミン(配列列のT文字で表される)、アデニン(配列列のA文字で表される)、グアニン(配列列のG文字で表される)及びウラシル(配列列のU文字で表される)などのヌクレオチドの任意のポリマー又はオリゴマーを指す。それは、DNA若しくはRNA、又はそれらの組合せであってもよい。それは、一本鎖又は二本鎖の形状で永久的又は一時的に見出される場合がある。別段の指示がない限り、核酸配列は、5’から3’方向に左から右に記載される。
「増幅」は、1つ以上の親配列から複製された複数のポリヌクレオチド配列を生成するポリヌクレオチド増幅反応を指す。増幅は、様々な方法、例えばポリメラーゼ連鎖反応(PCR)、線形ポリメラーゼ連鎖反応、核酸配列に基づく増幅、ローリングサークル増幅、及び他の方法によって生成されてもよい。
「シーケンシング」は、DNAライブラリからヌクレオチドの配列を読み取って、バイオインフォマティクスワークフローにおいてバイオインフォマティクスコンピュータによって処理することができるシーケンシングリードのセットを生成することを指す。ハイスループットシーケンシング(HTS)又は次世代シーケンシング(NGS)は、並行した、典型的には配列あたり50~数千塩基対の複数の配列のリアルタイムシーケンシングを指す。例示的なNGS技術には、Illumina、Ion Torrent Systems、Oxford Nanopore Technologies、Complete Genomics、Pacific Biosciences、BGIなどからのものが含まれる。実際の技術に応じて、NGSシーケンシングは、さらなるシーケンシングステップを容易にするためのシーケンシングアダプター又はプライマーを用いたサンプル調製、並びに単一の親分子の複数のインスタンスが、例えば合成によるシーケンシングの場合にフローセルへの送達の前にPCR増幅を用いてシーケンシングされるような増幅ステップを必要とする場合がある。
「シーケンシング深度」又は「シーケンシングカバレッジ」又は「シーケンシングの深度」は、ゲノムがシーケンシングされた回数を指す。標的濃縮ワークフローでは、全ゲノム内の関心領域の小さなサブセットのみがシーケンシングされ、したがって、過度に大きなデータ保存及びデータ処理オーバーヘッドに直面することなくシーケンシング深度を増加させることが合理的である可能性がある。例えばコピー数変化を検出する際に、ゲノムに沿った高解像度を必要としないいくつかのゲノム解析用途では、ローパス(LP)カバレッジ(1倍~10倍)又はさらには超ローパス(ULP)カバレッジ(<1倍-すべての位置がシーケンシングされるわけではない)が、情報技術基盤コストの観点からより効率的である可能性があるが、これらのワークフローは、シーケンサ及びアライナから入力された信頼性の低いデータを処理するために、より洗練されたバイオインフォマティクスの方法及び技術を必要とする。さらに、データの保存及び処理に関連するより高いコストとは別に、実験的NGSランの運用コスト、すなわちシーケンシングのためにシーケンサにサンプルをロードすることもまた、日常的な臨床ワークフローにおいて並行してアッセイされる可能性があるカバレッジ深度及びサンプル数のバランスをとることによって最適化される必要がある。実際、次世代シーケンサは、それらが単一の実験で(すなわち、所与のランにおいて)生成することができるリードの総数が依然として限られている。カバレッジが低いほど、ゲノム解析のためのサンプルあたりのリードが少なく、次世代シーケンシングラン内で多重化され得るサンプルの数が多い。
「アラインメントする」又は「アラインメント」又は「アライナ」は、バイオインフォマティクスワークフローにおいて、用途に応じて、参照ゲノム配列に対してシーケンシングリードを塩基ごとにマッピング及びアラインメントすることを指す。例えば、シーケンシングリードが実験的増幅プロセスで使用されるハイブリッド捕捉プローブに従って特定の標的ゲノム領域にマッピングすると予想される標的濃縮用途では、アラインメントは、参照ゲノム内の染色体番号、開始位置及び終了位置などのゲノム座標によって定義される対応する配列に対して特異的に検索される可能性がある。バイオインフォマティクスの実施において知られているように、いくつかの実施形態では、本明細書において用いられる「アラインメント」方法はまた、シーケンシングリードのマッピングを容易にするための、及び/又は、例えば、非ペアリードを除去することによって、及び/又はリードの末端としてのアダプター配列をトリミングすることによって、リードから無関係なデータを除去するための特定の前処理ステップ、及び/又は他のリード前処理フィルタリング手段を含んでもよい。異なる座標系(絶対又は相対位置インデックス、0ベース又は1ベースなど)を有する例示的なバイオインフォマティクスデータ表現には、BEDフォーマット、GTFフォーマット、GFFフォーマット、SAMフォーマット、BAMフォーマット、VCFフォーマット、BCFフォーマット、Wiggleフォーマット、GenomicRangesフォーマット、BLASTフォーマット、GenBank/EMBL Feature Tableフォーマットなどが含まれる。
「カバレッジ」又は「配列リードカバレッジ」又は「リードカバレッジ」は、ゲノム位置又はゲノム位置のセットにアラインメントされたシーケンシングリードの数を指す。一般に、より高いカバレッジを有するゲノム領域は、下流のゲノム特徴付けにおいて、特にバリアントを呼び出すときに、より高い信頼性に関連する。
「ビン」、「ゲノムセクション」、「パーティション」、「ゲノム部分」又は「染色体の部分」は、ゲノムの目的の連続領域を指す。そのような領域はバリアントを含む場合があるので、ビンは一般に、固定DNA配列ではなくゲノムの位置又は領域を指す。バイオインフォマティクスの方法及びプロセスでは、ビンは、参照ゲノムに沿ったその開始及び終了ゲノム座標によって同定される場合があり、ビン長は、開始座標から終了座標までの塩基(b、kb、Mb)又は塩基対(bp、kbp、Mbp)の数として測定される場合がある。一般に、ビンは、染色体全体、染色体のセグメント、参照ゲノムのセグメント、複数の染色体部分、複数の染色体、複数の染色体からの部分、及び/又はそれらの組合せに対応する場合がある。好ましくは、ビンは、参照ゲノムのゲノムセクションへの分割(例えば、サイズ、セグメント、連続領域、任意に定義されたサイズの連続領域などによって分割される)から得られた染色体の部分である。ゲノムセクションは、バイオインフォマティクスにおいて既知の任意の適切な基準を使用して、検討から選択、ソート、フィルタリング及び/又は除去されてもよい。ゲノムに沿って、ビンは同じ均一な長さ又は異なる可変の長さを有することができる。
「カバレッジビンカウント」又は「カバレッジカウント」又は「カウント」は、ビンにマッピングされるか又はビンと部分的に重複する(DNA断片を表す)シーケンシングリード又はペアエンドリードの数を指す。カウントは、ゲノムセクションにマッピング又はアラインメントされた(すなわち、関連付けられた)生の配列リード及び/又は前処理された配列リードの一部又は全部から導出されてもよい。リードのセットのいくつかは、当技術分野で既知の様々なバイオインフォマティクス方法に従って、リード単位又はペアエンドリード単位で、それらをカウントする前にそれらの組合せによって重み付け、除去、フィルタリング、正規化、調整、折畳み、マージ、加算、及び/又は減算、又は処理されてもよい。いくつかの実施形態では、カウントは、不確定性又は品質値と関連付けられてもよい。いくつかの実施形態では、リード又はペアエンドリードは、単一のビンに完全に含まれるのではなく、2つの隣接するビンにわたって重複してもよい。この場合、リードは、最大の重複を有するビン内でカウントされてもよい。
「カバレッジデータ信号」又は「カバレッジデータ信号」又は「カバレッジデータ信号アレイ」は、1Dベクトル(したがって、カバレッジ信号ベクトル又はカバレッジ信号アレイ又は1Dヒートマップを得る)、2D行列(したがって、カバレッジ信号行列又はカバレッジ信号画像又は2Dヒートマップを得る)、又は任意の適切なトポロジとして配置されてもよい、それぞれのカウントに関連付けられたビンの集合を指す。カバレッジデータ信号は、任意選択的に、技術的バイアスを除去するために正規化することができる。カバレッジデータ信号アレイは、本明細書ではカバレッジデータ信号画像又はカバレッジデータ信号多次元アレイと呼ばれる2D表現に配置されてもよい。
「染色体アーム」は、染色体セントロメアによって互いに結合された染色体の2つのセクション(アーム)のいずれかを指す。pアームは最短アームを指し、qアームは最長アームを指す。各アームは、テロメアで終端する。メタセントリック染色体では、pアーム及びqアームは同様のサイズを有する。サブメタセントリック染色体では、pアームはqアームよりも短い。アクロセントリック染色体では、pアームは非常に短い。テロセントリック染色体では、pアームはもはや存在しないか、又は染色体を調べるときにもはや見えないほど短い。ヒトの正常細胞は、テロセントリック染色体を保有していない。しかし、それらは特定の腫瘍細胞に見出される場合がある。
染色体についての「セントロメア領域(centromeric region)」又は「セントロメア領域(centromere region)」は、染色体のセントロメアの隣の領域を指す。
染色体カバレッジデータ信号についての「セントロメアビン」は、染色体アームに関連するカバレッジビンのセット内のセントロメア領域に最も近い隣接ビンであるカバレッジビンを指す。シーケンシングデータゲノム座標系に沿って、任意の所与のヒト染色体について、セントロメアの左側に1つ、セントロメアの右側に1つ、最大2つのセントロメアビンをゲノムカバレッジデータと関連付けてもよい。
染色体についての「テロメア領域」は、染色体のテロメアの隣の領域を指す。
染色体カバレッジデータ信号についての「テロメアビン」は、この染色体に関連するカバレッジビンのセット内の染色体の開始及び終了におけるそれぞれ2つのテロメア領域のいずれかに最も近い隣接ビンであるカバレッジビンを指す。最大2つの別個の遠いテロメアビンを、任意の所与のヒト染色体についてのゲノムカバレッジデータと関連付けてもよく、一方はpアームについて、他方はqアームについてである。
「染色体不安定性」又は「CIN」は、染色体全体又は染色体の一部が重複又は欠失するような、染色体が不安定であるゲノム不安定性の一種を指す。より具体的には、CINは、染色体全体又はそのセクションの付加率又は喪失率の増加を指す。そのようなゲノム変化は、染色体全体の増加若しくは喪失、又は大規模染色体再編成などの構造異常のいずれかが関与する、特に腫瘍細胞で起こる可能性がある。
「染色体空間不安定性」又は「CSI」は、ゲノムに沿った事象の空間分布に従って付加率又は喪失率の増加が特徴付けられる可能性がある染色体不安定性を指す。CSI情報は、訓練された機械学習モデルの出力で、所与の表現型、例えばスカラ数について機械学習モデルによって計算されたCSIスコアとして、又は、陽性の値「CSI+」、陰性の値「CSI-」、若しくは場合によっては不確定若しくは未決定の値「未決定CSI」とラベル付けされる可能性があるCSI状態としてのいずれかで直接得られる可能性があることが理解される。CSIの陽性又は陰性の状態もまた、CSIスコアに基づいて推測されてもよい。
「相同組換え欠損状態」又は「HRD状態」は、相同組換え経路の分類を指し、相同組換え経路の欠損をもたらす任意の細胞状態/事象に関する。HRD状態は、相同組換え経路が欠損している陽性(HRD+)として分類される場合があるか、又は相同組換え経路が欠損していない陰性(HRD-)として分類される場合があるか、又はそうでなければ未決定(HRD不確定、HRD不明)として分類される場合がある。
「機械学習モデル」は、明示的な統計モデルとは対照的に、データサイエンス分野で知られているような教師あり、半教師あり又は教師なしの学習技術を使用して訓練されたデータモデル又はデータ分類器を指す。データ入力は、1D信号(ベクトル)、2D信号(行列)、又はより一般的には多次元アレイ信号(例えば、テンソル、又はその赤、緑及び青の色分解平面-3つの行列の3*2D信号として表されるRGBカラー画像)、及び/又はそれらの組合せとして表されてもよい。多次元アレイは、少なくとも2つの次元に沿って配置されたデータ構造によって数学的に定義され、各次元は1つを超える値を記録する。
深層学習分類器の場合、データ入力は、一連のデータ処理層を介してさらに処理され、隠れデータ構造、データシグネチャ及び基礎となるパターンを暗黙的に捕捉する。複数のデータ処理層を使用することにより、深層学習は、複雑なパターン検出及びデータ解析タスクの多様性に対する自動化されたデータ処理の一般化を容易にする。機械学習モデルは、教師あり、半教師あり又は教師なしの学習フレームワーク内で訓練されてもよい。教師あり学習フレームワーク内で、モデルは、入力及びマッチング出力の例示的なペアに基づいて、入力データセットからの出力結果をマッピングする関数を学習する。教師あり学習に用いられる機械学習モデルの例としては、サポートベクターマシン(SVM)、回帰分析、線形回帰、ロジスティック回帰、ナイーブベイズ、線形判別分析、決定木、k近傍法、ランダムフォレスト、畳込みニューラルネットワーク(CNN)などの人工ニューラルネットワーク(ANN)、リカレントニューラルネットワーク(RNN)、全結合ニューラルネットワーク、長・短期記憶記憶(LSTM)モデルなど、及び/又はそれらの組合せが挙げられる。教師なし学習フレームワーク内で訓練されたモデルは、データに関する事前知識を必要とせずに、データセットの隠れ構造を同定する関数を推測する。当該技術分野で知られている教師なし機械学習モデルの例としては、k平均クラスタリング、混合モデルクラスタリング、階層クラスタリングなどのクラスタリング、異常検出方法、主成分分析(PCA)、独立成分分析(ICA)、T分布型確率的近傍埋込み(t-SNE)、生成モデル、及び/又は教師なしニューラルネットワーク、オートエンコーダ、及び/又はそれらの組合せが挙げられる。半教師あり学習(SSL)は、ラベル付きデータとラベルなしデータの両方を使用してモデルを訓練することができる機械学習フレームワークである。データ増強方法を任意選択的に使用して、実データサンプルの不足したセットから人工データサンプルを生成し、モデル訓練に使用されるデータの数及び多様性を増加させることができる。ラベルなしデータは、少量のラベル付きデータと共に使用されると、他のフレームワークと比較して学習精度の大幅な改善をもたらすことができる。このアプローチは、利用可能なデータの一部のみがラベル付けされる場合に特に興味深い。
「畳込みニューラルネットワーク」又は「CNN」は、畳込み層として知られる複数のデータ処理層を使用して、分類又は回帰タスクを解くのに最適な方法で入力データを表す機械学習モデルを指す。訓練中、重みパラメータは、確率的勾配降下を実行するための誤差逆伝播アルゴリズムなどの当技術分野で知られている最適化アルゴリズムを使用して、各CNN層に対して最適化される。実行時に、結果として得られる訓練されたCNNは、入力データを非常に効率的に処理し、例えば、学習された分類タスクの場合に可能な限り偽陽性及び偽陰性が少ない正しいデータ出力ラベルに分類する可能性がある。畳込みニューラルネットワークをリカレントニューラルネットワークと組み合わせて、深層学習分類器を生成してもよい。
ゲノム解析システム
ここで、例示的なゲノム解析システム及びワークフローを、図1を参照してさらに詳細に説明する。DNA解析の当業者には明らかなように、ゲノム解析ワークフローは、次世代シーケンシングワークフローにおける生のシーケンシングリードなどのDNA解析データを生成するために実験室(「ウェットラボ」としても知られる)で行われる予備実験ステップ、並びにバイオインフォマティクスシステム(「ドライラボ」としても知られる)を用いてDNAバリアント及び関連アノテーションの詳細な同定などのエンドユーザにとって関心のある情報をさらに同定するためにDNA解析データに対して行われる後続のデータ処理ステップを含む。実際の用途、実験室設定及びバイオインフォマティクスプラットフォームに応じて、DNA解析ワークフローの様々な実施形態が可能である。図1は、ウェットラボシステムを含むNGSシステムの一例を記載しており、ここで、DNAサンプルは、まず、NGSシーケンサ110による処理を容易にするためにDNA断片を生成し、シーケンシングに適合させ、増幅する場合があるDNAライブラリ調製プロトコル100を用いて実験的に調製される。次世代シーケンシングワークフローでは、得られたDNA解析データは、FASTQフォーマットの生のシーケンシングリードのデータファイルとして生成される場合がある。次いで、ワークフローは、提案された方法に従って調製されたDNAサンプルのプールに対する生のシーケンシングリードを入力として取得し、一連のデータ処理ステップを適用して入力サンプルの特定のゲノム特徴を特徴付けるドライラボゲノムデータアナライザシステム120をさらに含んでもよい。例示的なゲノムデータアナライザシステム120は、ゲノムバリアントを自動的に同定及び特徴付け、エンドユーザに報告するために2020年に世界中の1000を超える病院によって既に使用されたSophia Data Driven Medicineプラットフォーム(Sophia DDM)であるが、他のシステムも同様に使用されてもよい。ゲノムバリアント解析のためにゲノムデータアナライザシステム120によって適用される可能性があるデータ処理ステップの様々な詳細な可能な実施形態は、例えば国際PCT特許出願WO2017/220508に記載されているが、他の実施形態も可能である。
図1に示すように、ゲノムデータアナライザ120は、生のNGSシーケンシングデータを参照ゲノム、例えば医療用途におけるヒトゲノム又は獣医学用途における動物ゲノムと比較する配列アラインメントモジュール121を備えてもよい。従来のゲノムデータアナライザシステムでは、得られたアラインメントデータは、SNP及びINDEL多型などのバリアント情報を検索するために、バリアント呼出しモジュール(図示せず)によってさらにフィルタリング及び解析される場合がある。バリアント呼出しモジュールは、異なるバリアント呼出しアルゴリズムを実行するように構成されてもよい。次いで、得られた検出されたバリアント情報は、エンドユーザによるさらなる処理のためのゲノムバリアントレポートとして、例えば視覚化ツールを用いて、及び/又はさらなるバリアントアノテーション処理モジュール(図示せず)によって、ゲノムデータアナライザモジュール120によって出力されてもよい。可能な実施形態では、ゲノムデータアナライザシステム120は、空間的に配置されたカバレッジデータ信号を準備するカバレッジデータ準備モジュール122、及び空間的に配置されたカバレッジデータ信号を解析し、CSI情報を導出する染色体空間不安定性(CSI)アナライザモジュール123などの自動化されたデータ処理モジュールを備えることができ、CSI情報は、例えば視覚化ツールを用いてエンドユーザに、又は別の下流プロセス(図示せず)に報告されてもよい。可能な実施形態では、染色体空間不安定性(CSI)アナライザモジュール123は、空間的に配置されたカバレッジデータ信号を解析し、CSI情報から、HRDスコアなどのCSIスコア、又はHRD状態などのCSI状態を導出するように適合されてもよい。次いで、HRDスコア、HRD状態及び/又はCSI情報は、例えば視覚化ツールを用いてエンドユーザに、又は別の下流プロセス(図示せず)に報告されてもよい。
データ処理ワークフロー
ゲノムデータアナライザ120は、異なるデータ処理方法を使用及び組み合わせることによってシーケンシングデータを処理してゲノムデータ解析レポートを生成してもよい。
配列アラインメントモジュール121は、異なるアラインメントアルゴリズムを実行するように構成されてもよい。多数のゲノムデータシーケンシングリードの高速処理のために最適化されたBowtie2又はBWAなどの標準的な生データアラインメントアルゴリズムを使用してもよいが、他の実施形態も可能である。アラインメント結果は、バイオインフォマティクス分野の当業者に知られているように、BAM又はSAMフォーマットの1つ又はいくつかのファイルとして表されてもよいが、ストレージ最適化及び/又はゲノムデータプライバシー保護のためのゲノムデータアナライザ120の要件に応じて、他のフォーマット、例えば、順序保存暗号化のために最適化された圧縮フォーマット又はフォーマットを使用してもよい。
図2は、バイオインフォマティクスパイプライン内のBAMファイルなどのアラインメントファイルの解析からCSIレポートを生成するための自動化されたデータ処理モジュールの可能なワークフローを示す。可能な実施形態では、カバレッジデータ準備モジュール122は、各ゲノムビンにアラインメントされた生のリード数又はペアエンドリード数としてアラインメントされたリードからカバレッジデータ信号を生成し(200)、得られたデータを空間的に配置されたカバレッジデータ信号として配置する(210)ように適合されてもよい。空間的に配置されたカバレッジデータは、行列として、それぞれ行列のセットとして、又はカバレッジ多次元アレイデータ(テンソル)として表されて、2D画像、それぞれ多平面2D画像、又は多次元アレイ(テンソル)入力信号で動作するCSIアナライザ123によるその処理を容易にする可能性がある。次いで、染色体空間不安定性(CSI)アナライザモジュール123は、空間的に配置されたカバレッジデータ情報をさらに解析、分類及び/又はカテゴリ化し(220)、データが腫瘍サンプルについて起こり得る染色体空間不安定性(CSI)を特徴付ける特定の特性を示すかどうかをエンドユーザに報告する(230)可能性がある。可能な実施形態では、染色体空間不安定性(CSI)アナライザモジュール123は、CSIスコアを生成してもよい。別の可能な実施形態では、染色体空間不安定性(CSI)アナライザモジュール123は、陰性状態、陽性状態、又は未決定状態などのCSI状態を生成してもよい。可能な実施形態では、CSIスコアに基づいてCSI状態を推測してもよいが、他の実施形態も可能である。好ましい実施形態では、CSIは、腫瘍サンプルの相同修復欠損(HRD)をHRDスコア又はHRD状態として特徴付けてもよいが、染色体空間不安定性に関連する他のゲノム特徴、例えばBRCA1又はBRCA2欠損によって引き起こされるHRDも特徴付けてもよい。次いで、この報告は、癌サブタイプ及び/又はその予後の癌ゲノミクス診断を容易にする可能性がある。この報告はまた、例えば、腫瘍細胞増殖を減少又は停止させるためのHRR経路の欠損を利用する特定の癌治療の使用など、解析された腫瘍を特異的に標的とする医学的治療の選択を容易にする可能性がある。
ゲノムデータアナライザ120は、中央処理装置(CPU、本明細書では「プロセッサ」又は「コンピュータプロセッサ」)、RAMなどのメモリ及びハードディスクなどの記憶装置、並びに通信ネットワーク、例えばインターネット又はローカルネットワークを介して他のコンピュータシステムと通信するための通信インターフェースを含むコンピュータシステム又はコンピュータシステムの一部であってもよい。ゲノムデータアナライザコンピューティングシステム、環境、及び/又は構成の例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、ミニコンピュータシステム、メインフレームコンピュータシステム、グラフィカル処理ユニット(GPU)などが挙げられるが、これらに限定されない。いくつかの実施形態では、コンピュータシステムは、多数の他の汎用又は専用コンピューティングシステムと共に動作可能であり、例えばゲノムデータファームにおけるクラウドコンピューティングなどの分散コンピューティングを可能にする可能性がある1つ以上のコンピュータサーバを備えてもよい。いくつかの実施形態では、ゲノムデータアナライザ120は、大規模並列システムに統合されてもよい。いくつかの実施形態では、ゲノムデータアナライザ120は、次世代シーケンシングシステムに直接統合されてもよい。
ゲノムデータアナライザ120コンピュータシステムは、コンピュータシステムによって実行されるプログラムモジュールなどのコンピュータシステム実行可能命令の一般的な文脈で適合させてもよい。一般に、プログラムモジュールは、特定のタスクを実行するか、又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含んでもよい。コンピュータプログラミングの当業者によく知られているように、プログラムモジュールは、ネイティブオペレーティングシステム及び/又はファイルシステム機能、スタンドアロンアプリケーション;ブラウザ又はアプリケーションのプラグイン、アプレットなど;Python、Biopython、C/C++、又は他のプログラミング言語でプログラムされる可能性がある市販又はオープンソースのライブラリ及び/又はライブラリツール;カスタムスクリプト、例えばPerlスクリプト又はBioperlスクリプトを使用してもよい。
命令は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散クラウドコンピューティング環境で実行されてもよい。分散クラウドコンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルコンピュータシステム記憶媒体及びリモートコンピュータシステム記憶媒体の両方に配置してもよい。
したがって、本明細書に記載の方法はコンピュータ実装方法であることが理解される。
カバレッジデータの準備-ビニング
可能な実施形態では、参照ゲノム座標は最初にP個のビンのセットに分割され、各ビンにマッピングされたDNA断片の数は、当技術分野で知られているバイオインフォマティクス法を使用して、BAM又はSAMファイル(シーケンシングリードアラインメント後)からのアラインメントされたリードを入力としてカウントされ、P個のビンに沿ってカバレッジデータ信号を生成する(200)。バイオインフォマティクスの当業者には明らかなように、いくつかの実施形態では、入力データ品質を改善するために、ビンの一部を無視、フィルタリング、又は他のビンとマージしてもよい。
可能な単純な実施形態では、均一なサイズを参照ゲノムに沿ったビンに使用してもよいが、不均一なサイズの選択も可能である。ビンのサイズは、本明細書に記載の機械学習解析方法によるカバレッジデータ信号解析を容易にしながら、各染色体のカバレッジデータ信号の解析に十分な空間的詳細を維持するように選択されてもよい。好ましくは、ビンのサイズは300bp~20Mpbの範囲であってもよいが、他の実施形態も可能である。
参照ヒトゲノムの場合、染色体は、おそらく性染色体を除き、最大の染色体(chr1)から最小の染色体(chr22)まで連続的に配列される。ヒト染色体は、長さを、chr1についての249Mbpから、chr22についての51Mbpまで減少させることによってナンバリングされる。したがって、例えば、参照ゲノムを3Mbpのビンに分割することによって、最も長い第1染色体についての84個のビンから最も短い第22染色体についての4個のビンまでの1Dアレイ(ベクトル)を得ることが可能である。表1は、セントロメア領域の理論上のそれぞれの開始位置及び終了位置、染色体全長及びそのタイプ、並びに、リードアラインメントに使用される参照ゲノムの座標系における、GRCh37参照ゲノム(hs37d5バージョン)を参照した、ヒトゲノムにおける各染色体についてのpアーム(短アーム)及びqアーム(長アーム)についてのそれぞれの長さ(単位Mbp)を示す。ヒトゲノムのすべてのビンが、短いNGSリードをヒトゲノムの特定の反復配列又は問題のある領域、例えば、アクロセントリック染色体13、14、15、21、22又はYのpアームに正確にマッピングすることが困難であるために、現在のハイスループットシーケンシング技術でBAMファイル内のアラインメントされたリードを含むとは限らないことに留意されたい。
Figure 2023535962000002
バイオインフォマティクスの当業者には明らかなように、可能な実施形態では、全ゲノムシーケンシングデータに沿ったビンサイズ及び位置も、BAMファイルからの実際のカバレッジに適合させてもよい。一般に、P個のビンのセット内の各ビンは、参照座標系におけるビン{bin_start,bin_end}1<=bin_index<=Pの開始位置及び終了位置に対応する2つの値によって定義される場合があると考えてもよい。したがって、ビンのサイズは、bin_size=bin_end-bin_startのように可変であってもよい。可能な実施形態では、ビンのサイズは、0.5Mbp~1.5Mbp、又は1.5Mbp~2.5Mbp、又は2.5Mbp~3.5Mbp、又は3.5Mbp~4.5Mbp、又は4.5Mbp~5.5Mbp、又は5.5Mbp~6.5Mbp、又は6.5Mbp~7.5Mbp、又は7.5Mbp~8.5Mbp、又は8.5Mbp~9.5Mbpの範囲内であってもよい。別の可能な実施形態では、ビンのサイズは、各染色体又は各染色体アームに対して固定数のビンが得られるように選択されてもよい。他の実施形態も可能である。
次いで、各染色体又は各染色体アームに対するカバレッジ信号は、ビンの固定セットの各ビン内のアラインメントされたリードの数をカウントすることによって得てもよい。可能な実施形態では、各染色体又は各染色体アームについて得られた高解像度カバレッジデータ信号アレイは、下流CSI解析のための高次元のデータ入力として使用されてもよい。可能な代替の実施形態では、100kbpの第1のサイズを使用して、高解像度カバレッジビンの第1のセットを生成してもよい。得られた高解像度カバレッジデータ信号は、例えば約30個の100kbpの大きな初期ビンを組み合わせて2.5Mbp~3.5Mbpのより大きなサイズのビンを生成することによって、1~20Mbpのより大きなビンの第2のセットにさらに折り畳んで、したがって下流CSI解析のためのデータの次元を削減してもよい。この目的のために、バイオインフォマティクスの当業者に知られている様々な方法、例えば、平滑化、次元数を削減するための中央値又は平均値の使用、プーリング、サンプリング、及び他の方法を使用してもよい。好ましい実施形態では、折畳みは、異なる染色体アームからのカバレッジデータをビンに混合することなく、各ビンを特定の染色体アームに一意に割り当てる。次いで、カバレッジデータを1つの染色体アームから次の染色体アームに明確に分離し、染色体アームレベルでの染色体空間不安定性事象の解析を容易にする可能性がある。
可能な実施形態では、折畳みは、染色体アーム境界での境界効果を低減するために、折り畳まれたビンのサイズを各染色体アーム長に適合させることを含んでもよい。例えば、染色体アーム長が考慮される初期ビンサイズによって分割可能でない状況では、得られる最後の折り畳まれたビンは通常、他のビンよりも短くなり、境界効果(例えば、染色体アームの任意の末端上のセントロメアビン又はテロメアビンは、3Mbpの全領域を含まなくてもよく、場合によってはCSI事象の解析に重要でありながら、それらの領域に対して歪んだカバレッジをもたらす場合がある)を引き起こす。この影響を低減するための戦略は、考慮される染色体アーム長がビニングサイズによって無視できる余りで分割可能であるように、染色体アーム長に関してビニングサイズを適合させることである。これにより、考慮される染色体アーム上のすべての折り畳まれたビンが同じ実際のサイズを有することが保証される。
可能なさらなる実施形態では、折畳みは、折り畳まれたビンの可変サイズの合計が染色体アームに沿って多かれ少なかれ均一に分布しながら染色体アーム長に依然として等しくなるように、折り畳まれたビンの開始位置又は終了位置、したがって実際のサイズを染色体アームに沿って個別に適合させることを含んでもよい。
図3は、セントロメアに対応する中心位置320、pアームテロメアに対応する開始位置310及びqアームテロメアに対応する終了位置330を含む染色体300を概略的に示す。染色体は、開始位置310から始まる第1のテロメア領域315、セントロメアの周りのセントロメア領域325、終了位置330で終わる第2のテロメア領域335を含む。バイオインフォマティクスの当業者には明らかなように、セントロメア領域325の一部351は、この領域325をカバーする既存の参照ゲノム内に関連する参照配列を有さず、したがってマッピングすることができない。可能な実施形態では、限定されたカバレッジ領域又は低品質領域に対応する高解像度ビンはまた、対応する領域(例えば、図3の領域370)のゲノム知識に従って除去されてもよい。好ましい実施形態では、第1の高解像度カバレッジビン350,352の異なるセットは、BAMファイルから各染色体アームに対して別々に構築されてもよい。次いで、高解像度ビンの各セットは、各アームのより大きなスケールのビン360,362の第2のセットにさらに折り畳まれてもよい。ビンはまた、対応する領域のゲノム知識に従って、及び/又は2つの染色体アーム(テロメア310,330に隣接する最も近いビンであるテロメアビン372,375、又はセントロメア320に隣接する最も近いビンであるセントロメアビン373,374)のそれぞれの末端でのビニングを最適化するために、より短い又はより大きいゲノム領域(例えば、2.5Mbpのビン371の後に3.5Mbpのビン372が続き、依然として平均して3Mbpビニングになる)に及んでもよい。
例えば、各染色体アームからの最初の100kbpビンを独立して平滑化して、3Mbpのビン(すなわち、100kbpの30個のビンにわたる集合)を得てもよい。各染色体アームのビンの総数は30で正確に除算できない可能性があるため、染色体アームの最後の平滑化されたビンは通常、30個未満の元のビンを含む。これは、それらの領域を保持する場合にはそれらの領域に過度の重要性を与えるか、又は逆にそれらを除去する場合には過度の情報を失う可能性がある。境界効果を低減するために、可変サイズのより大きなビンを各染色体アームについて独立して折り畳んでもよい。可能な実施形態では、最小の未完了ビンの余りにつながり、標的サイズに最も近いビンサイズを選択してもよい。可能な実施形態では、完了していない場合の最後のビンは、この時点で無視できるものとして拒否されてもよいが、他の実施形態も可能である。表2の3列は、2*22の染色体アームに沿って標的3Mbpサイズでより大きなビンに折り畳まれた100kbpビンの初期セットについて、各染色体アームについて提案された折り畳まれたビンサイズの例示的な分布を示す。列4は、すべてのアームの固定サイズ3Mpbで除算した場合にアーム境界で最後に折り畳まれたビンを形成する余りのより高解像度のビンの列2のデフォルト数と比較して、拒否された境界ビンの結果として得られたサイズを示す。
Figure 2023535962000003
Figure 2023535962000004
カバレッジデータの準備-正規化
バイオインフォマティクスの当業者には明らかなように、いくつかの実施形態では、生のカバレッジデータ信号は、当技術分野で知られている方法によってさらに正規化、フィルタリング又は平滑化されてもよい。可能な実施形態では、正規化は、サンプルごとのカバレッジの差を引き起こす可能性があるサンプルシーケンシング実験に関連するバイアスを取り除くために、全サンプルの平均カバレッジ信号でカバレッジデータ信号を除算することによって、サンプルごとに正規化することを含んでもよい。正規化は、GCバイアス補正を適用するためのGC含量による正規化も含んでもよい。ビンごとの正規化、線形及び非線形最小二乗回帰、GC LOESS(GC正規化)、LOWESS、PERUN(サンプルごとの正規化)、RM、GCRM、cQn及び/又はそれらの組合せなどの他の実施形態も可能である。
可能なさらなる実施形態では、正規化データをビン内のサブ領域にさらにセグメント化して、カバレッジデータ信号内の均一な領域を同定してもよく、これはおそらく異なるコピー数(通常は染色体あたり2つ)に対応する。カバレッジセグメント化は、所与のサンプルのカバレッジプロファイルから他のゲノム領域と比較して離散セグメントにおけるコピー数を推測することを可能にする。そうするために、カバレッジプロファイルは、カバレッジが一定であると考えられるセグメント(すなわち、ゲノムの部分)に分解される。次いで、前のステップで定義されたセグメントの各々を、カバレッジ信号振幅に関して定義された離散レベルに関連付けてもよい。この段階で、コピー数多型(CNV)事象は既に検出され得るが、各カバレッジレベルに関連付けられた絶対コピー数は不明のままである。
サンプルの腫瘍含量及び倍数性が既知であるか、又はデータから推測することができる場合、セグメント化によって同定された離散レベルを、腫瘍に存在するコピー数を反映する整数にマッピングすることができる(例えば、CN=1、CN=2、...)。バイオインフォマティクスの当業者には明らかなように、絶対コピー数参照の有無にかかわらずそのようなセグメント化方法は、ノイズを低減し、サンプルのコピー数プロファイルの同定を容易にする可能性がある。しかしながら、ノイズの存在下では、セグメント化は、特に低いカバレッジ深度でシーケンシングするときに、コピー数の変化に起因するカバレッジ変動を抑制することによって誤った結果を生成する可能性がある。したがって、好ましい実施形態では、本明細書に記載のゲノム解析方法は、セグメント化ステップなしで動作する可能性がある。代替の実施形態では、本明細書に開示される機械学習方法を適用する前に、データを前処理するためにセグメント化ステップを適用してもよい。
正規化及び/又はセグメント化の可能なステップの後、カバレッジデータは、一般に、1Dベクトルのセットからなり、それらの各々は染色体に対応する。可能な実施形態では、カバレッジデータはまた、1Dベクトルのセットからなってもよく、それらの各々は染色体アームに対応する。可能な実施形態では、異なる染色体が異なるサイズを有するという事実を反映して、ベクトルのサイズは可変であってもよい。別の可能な実施形態では、ビンは、各染色体ベクトル(又は各染色体アームベクトル)が同じサイズを有するように可変サイズを有する。
サンプル及びGC含量による正規化後の、100kbpビンを有するヒトゲノムの最初の22本の染色体(性染色体を除く)にわたる1倍カバレッジでの全ゲノムNGSシーケンシング実験について、例示的なカバレッジデータ1D信号を図4にプロットする。図5は、3Mbpの折り畳まれたビンを有する染色体ごとに配置された同じカバレッジデータ信号を示す。
カバレッジデータの空間配置
したがって、好ましい実施形態では、カバレッジデータは、アレイ構造内のテロメアビン又はセントロメアビンのいずれかに沿って各染色体又は染色体アームのビンをアラインメントさせるようにカバレッジデータが編成される多次元データアレイを形成するようにさらに空間的に配置されてもよい(210)。多次元アレイ構造は、先行技術のHRD検出方法のような単純なヒト操作特徴に依存する代わりに、画像分類器などの非ゲノム用途のために最近開発された効率的なゲノム解析機械学習訓練モデルから恩恵を受けるのに特によく適する可能性がある。
換言すれば、テロメアビン又はセントロメアビンの提供された定義に沿って、カバレッジデータ信号ベクトルは、2Dアレイ構造内のセントロメア領域に隣接する少なくとも1つのセントロメアビン又はテロメア領域に隣接する少なくとも1つのテロメアビンに沿って各染色体又は染色体アームのビンをアラインメントさせるようにカバレッジデータが編成されるカバレッジデータ信号画像を形成するようにさらに空間的に配置されてもよい(210)。
可能な実施形態では、カバレッジデータ信号ベクトルは、ゲノムに沿った各染色体又は染色体アームのビンの尾頭連結としてカバレッジデータが編成される1Dカバレッジデータアレイを形成するようにさらに空間的に配置されてもよい(210)。
別の好ましい実施形態では、カバレッジデータ信号ベクトルは、アレイ構造内のセントロメア領域に隣接する少なくとも2つのビンに沿って各染色体又は染色体アームのビンをアラインメントさせるようにカバレッジデータが編成される多次元カバレッジデータ信号アレイを形成するようにさらに空間的に配置されてもよく(210)、一方のビンはセントロメアの左側にあり、他方のビンはセントロメアの右側にあり、この多次元データアレイは2Dアレイ、具体的には2D画像である。
別の好ましい実施形態では、カバレッジデータは、アレイ構造内のテロメア領域に隣接する少なくとも2つのビンに沿って各染色体又は染色体アームのビンをアラインメントさせるようにカバレッジデータが編成される多次元データアレイを形成するようにさらに空間的に配置されてもよく(210)、一方のビンは、この染色体に関連するカバレッジビンのセット内の染色体の開始にあり、他方のビンは、この染色体に関連するカバレッジビンのセット内の染色体の終了にあり、この多次元データアレイは、2Dアレイ、具体的には2D画像である。
さらに好ましい実施形態では、カバレッジデータは、アレイ構造内のセントロメア領域に隣接する少なくとも1つ若しくは少なくとも2つのビン又はテロメア領域に隣接する少なくとも1つ若しくは少なくとも2つのビンに沿って各染色体又は染色体アームのビンをアラインメントさせるようにカバレッジデータが編成される多次元データアレイを形成するようにさらに空間的に配置されてもよく(210)、この多次元データアレイは2Dアレイ、具体的には2D画像である。
この文脈において、セントロメア又はテロメア領域に隣接するビンは、これらの領域に最も近いビンであることを意味する。
さらに好ましい実施形態では、各染色体アームのビンは独立して計算される。
一実施形態では、方法は、限定されないが、染色体アームのそれぞれについて、2.5Mbp~3.5Mbpのウィンドウにわたって正規化カバレッジ中央値をとることによってカバレッジデータをさらに正規化してもよいステップを含んでもよい。正確なビン解像度は、染色体アームの末端で可能な限り最小の未完了ビンが得られるように、各染色体アームについて独立してこれらの2つの値の間で選択されてもよい。最後の未完了ビンは、CNNなどの機械学習モデルの入力から破棄される。したがって、各pアームの最後のビンは、その位置に関してその対応する染色体セントロメアに最も近いカバレッジ信号を含む。同様に、各qアームの最初のビンは、その位置に関してその対応する染色体セントロメアに最も近いカバレッジ信号を含むビンである。並行して、各pアームの最初のビンは、その位置に関してその対応するpアーム染色体テロメア領域に最も近いカバレッジ信号を含む。同様に、各qアームの最後のビンは、その位置に関してその対応するqアーム染色体テロメア領域に最も近いカバレッジ信号を含むビンである。
したがって、セントロメア領域はこれらのビンに含まれなくてもよいことが理解及び図3に記載される。したがって、pアームの最後のビン及びqアームの最初のビンはむしろ、染色体のセントロメア領域にフラグを立てる。
本明細書に記載のビンをアラインメントさせるようにカバレッジデータを編成する効果は、染色体アーム内のゲノム不安定性などの検出された事象間の空間的関係を検出することを可能にする。CNNなどの機械学習モデルは、検出された事象の空間分布に関する情報を使用してもよく、したがって、正確な状態検出がこのタイプの空間配置から恩恵を受ける場合、その出力予測を潜在的に改善する可能性がある。
図6は、セントロメア位置に従ってアラインメントされた染色体のグラフ表示を示す。表1及び図6に見られるように、最長の染色体chr1は249Mbp長であり、最長のpアームはchr1について124.7Mbp長であるが、最長のqアームは実際にはchr2において147.9Mbpでより長い。所与の一定のビンサイズbin_sizeを有する可能な実施形態では、カバレッジデータは、(ceiling(chr_p-arm_max_len)/bin_size+ceiling(chr_q-arm_max_len)/bin_size)*N個の2次元アレイに適合させてもよく、ここで、Nは、表す染色体の数であり、chr_p-arm_max_lenは、最長のpアーム長であり、chr_q-arm_max_lenは、一緒に解析されるN本の染色体のセットにおける最長のqアーム長である。実例として、bin_size=3Mbpの一定サイズのビンを用いて、セントロメアビンによってアラインメントされた22本の非性染色体のアーム上の全ゲノムシーケンシングカバレッジデータについて、次元92*22(又は22*92)のアレイを、CSIアナライザ123へのデータ入力としてゲノムデータアナライザ120によって空間的に配置してもよい(210)。124.7Mbpの最長pアーム(chr1)のカバレッジデータは、実際には3Mbpの42個のビンに適合してもよく、一方、147.9Mbpの最長qアーム(chr2)は、3Mbpの50個のビンに適合してもよい。可能な実施形態では、多次元アレイは、解析されるN本の染色体のセットにおける最長の染色体アームのビンにわたって2*N本の染色体アームを表すように配置されてもよい。例えば、カバレッジデータは、3Mbpの一定のビンサイズで22本の染色体を解析するための次元44*50のアレイとして空間的に配置されてもよい。各染色体アームのカバレッジデータは、染色体アームセントロメアビンがアレイにアラインメントされるように、アレイ内の行(又は列)として配置されてもよい。可能な実施形態では、図3に概略的に示す適応的ビニングを適用して、無関係な高解像度ビンを除去し、染色体ゲノムに沿った可変ビンサイズ及び位置を調整してもよい。例えば、次元84*22(又は22*84)のアレイは、CSIアナライザ123へのデータ入力としてゲノムデータアナライザ120によって空間的に配置されてもよい(210)。他の実施形態も可能である。
ビンの数は染色体及び/又は染色体アームの長さと共に変化するので、アレイのいくつかの要素は、カバレッジデータから利用できない仮想データをパディングすることによって満たされる必要がある。データサイエンスの当業者には明らかなように、多次元アレイの空のエントリ(又は要素)をパディングするための様々な選択肢が可能である。可能な実施形態では、空の要素は一定の値で満たされてもよい。別の可能な実施形態では、空の要素は、所定の一定の値のマスクアレイから満たされてもよい。別の可能な実施形態では、空の要素は、実データによって満たされた行又は列の部分におけるカバレッジデータの関数として満たされてもよい。可能な実施形態では、染色体又は染色体アーム行(それぞれの列)に沿ったビンの列(それぞれの行)の最後の利用可能なビンから左又は右(それぞれ上又は下)のカバレッジ値を繰り返すことによって空の要素をパディングしてもよい。
別の可能な実施形態では、ビンの個々のサイズは、アレイのより高密度の充填を容易にするように選択されてもよい。いくつかの染色体アームのビンの総数を増加させるために、特定のゲノム対象の領域においてより小さいビンサイズ(より良好な解像度に対応する)を選択してもよい。
図7は、それぞれa)HRD陰性腫瘍DNAサンプル及びb)HRD陽性腫瘍DNAサンプルからの、機械学習モデルによるCSI解析に適した2Dアレイ画像として空間的に再配置された正規化カバレッジデータの一例を示す。染色体空間不安定性解析の前に、提案されたカバレッジデータ準備方法の特定の実施形態に従って、セントロメアビンが単一の列に垂直にアラインメントされるように、染色体は行ごとに配置され、カバレッジビンは列に沿って配置される。画素が明るいほど、プロットされたビンの正規化されたカバレッジカウント値Cbinは高くなり、逆に、画素が暗いほど値は低くなる。
染色体空間不安定性(CSI)アナライザ
ゲノムデータアナライザシステム250は、染色体空間不安定性アナライザ123を空間的に配置されたカバレッジデータ多次元アレイにさらに適用して、各DNAサンプル中の2つ以上の染色体又は染色体アームの特定の空間不安定性パターンを特徴付ける1つ以上のゲノム特性を自動的に解析及び報告する可能性がある。腫瘍サンプル解析の場合、CSIアナライザモジュール123は、各染色体アームに沿った所与のゲノム領域におけるアレルの大きな欠失又は重複などの染色体異常の負荷を報告する可能性がある。
可能な実施形態では、CSIアナライザモジュール123は、HRD陽性状態でラベル付けされたゲノム不安定性を有するDNAサンプルと、HRD陰性状態でラベル付けされたゲノム不安定性を有しない別のDNAサンプルとを識別するように訓練されたコンピュータ実装アルゴリズムである。
可能な実施形態では、腫瘍サンプルの場合、CSIアナライザモジュール123は、同様の特徴を共有するサンプルを同定する可能性があり、したがって所与の治療に良好に応答する可能性があるシグネチャを同定する可能性がある。
したがって、CSIアナライザモジュール123は、腫瘍サンプルの1つ以上のゲノム特性を特徴付けるために、指標、スカラスコア、又は特徴指標の組合せを同定し、カテゴリ化し、報告する可能性がある。したがって、好ましい実施形態では、CSIアナライザモジュール123は、HRD陰性若しくはHRD陽性、又は場合によっては未決定(不確定)などの腫瘍サンプルの状態を同定、カテゴリ化及び報告する可能性がある。可能な実施形態では、CSIアナライザモジュール123は、腫瘍サンプルのHRD可能性の指標としてスカラスコアを報告する可能性がある。当業者には明らかなように、このバイオインフォマティクス方法は、腫瘍サンプル中の癌細胞ゲノム変化の詳細な理解、及び患者の推測される癌細胞生物学の詳細に対する個別化医療治療の適応を大幅に容易にする。
一実施形態では、ゲノム特性レポートは、グラフィカルユーザインターフェース上でエンドユーザに表示されてもよい。別の可能な実施形態では、ゲノム特性レポートは、さらなる自動化処理のためのテキストファイルとして生成されてもよい。他の実施形態も可能である。
好ましい実施形態では、CSIアナライザモジュール123は、空間的に配置されたカバレッジデータ多次元アレイに機械学習モデルを適用するように適合されてもよい。可能な実施形態では、CSIアナライザモジュール123は、訓練されたニューラルネットワーク入力として空間的に配置されたカバレッジデータ多次元アレイを解析し(220)、訓練されたニューラルネットワーク出力としてCSI結果を生成するためのデータ処理モジュールとして、訓練されたニューラルネットワーク又は訓練されたニューラルネットワークの組合せを含んでもよい。
ここで、例示的なCSIアナライザ123及びそのデータ処理ワークフローを、図8を参照してさらに詳細に説明する。機械学習の当業者には明らかなように、当技術分野で知られている異なる方法及びアーキテクチャを使用して、準備されたカバレッジデータ多次元アレイ入力を処理し、腫瘍サンプルのCSI状態又はCSIスコアを導出してもよい。
例示的なCNN機械学習モデル
染色体アームがそれらのそれぞれのセントロメア位置に沿ってアラインメントされている2D画像などの多次元アレイを分類して、この染色体セットのCSI状態を特徴付ける視覚パターンを強調するために、畳込みニューラルネットワーク(CNN)を構築し、TensorFlow、Caffe、Caffe2、Pytorch、Theanoなどの画像パターン認識の技術分野で知られている方法及び技術を使用することによって訓練してもよい。
図8は、患者腫瘍DNAサンプルの空間的に配置されたカバレッジデータ行列画像を処理して、それをHRD陽性(HRD+)又はHRD陰性(HRD-)のいずれかとして分類する可能性がある畳込みニューラルネットワーク(CNN)の一例を概略的に表す。図8の例において、訓練されたCNNは、一番上のchr1から一番下のchr22までの22本の非性染色体の行配置、及びビンの列配置(図8の例示的な図示において、約3Mbpサイズで、染色体のセントロメア領域に沿ってアラインメントされ、0カバレッジカウントで基本的なパディングを有するが、他の実施形態も可能である)を用いてプロットされた、空間的に配置されたカバレッジデータ行列画像800を入力として取得する。入力画像800は、いくつかの処理層を有する第1の畳込みニューラルネットワーク810に入力され、中間特徴のセットを定量化し、中間特徴のセット自体は、その2つの出力として、HRD-のスコアとHRD+のスコアとの2つのスコアを抽出することを担当する第2のニューラルネットワーク分類器820に入力される。次いで、CSIアナライザは、HRD-及びHRD+の出力値を比較して閾値化することにより、HRD状態(HRD-、HRD+、又は不確定)を導出する可能性がある。
より一般的には、深層学習の当業者には明らかなように、CSIアナライザ123は、様々なCNNアーキテクチャを使用するように適合されてもよい。畳込みネットワークは、第1系列の直列接続された畳込みデータ処理層810を含んでもよく、これは、様々な予測を出力するために第2系列の完全接続層720にさらに供給されてもよい。CNNアーキテクチャは、例えば、1D、2D若しくは多次元データを処理するように配置された1つ以上の畳込み層、任意選択的に、1D、2D若しくは多次元データを処理するように配置された1つ以上の最大プーリング層、中間プーリング層若しくは平均プーリング層、訓練中の正則化を容易にするための1つ以上の複数のドロップアウト層、任意選択的に、1つ以上のバッチ正規化層、平坦化層と、それに続く1つ以上の完全接続層、又はそれらの組合せを含んでもよい。例えばReLU、SELU、又はより一般的には勾配の消失を防止する任意の活性化関数など、当技術分野で知られている異なる活性化方法を使用してもよい。当技術分野で知られている異なる出力活性化、例えば、単一ラベルバイナリ分類に関連付けられた確率(例えば、陽性状態の確率、陰性状態の確率=1-陽性状態の確率)を生成するためのシグモイド法、又は単一ラベルマルチクラス分類出力に関連付けられた確率(例えば、陽性状態、陰性状態、又は不確定状態の相互に排他的な確率)を生成するためのソフトマックス法、又は例えばHRDスコアなどの確率として解釈されることを意味しないスカラ値を生成する線形法若しくはReLU分類法などの回帰法を使用してもよい。
好ましい実施形態では、CSIアナライザ123は、CNNからの出力を閾値化することによって、各サンプルのHRD+又はHRD-状態解析などの最終出力決定を生成する。閾値は、例えば診断、予後のために、又は最も効率的な癌治療の選択を導くために、エンドユーザのニーズに従ってCSI解析の感度及び/又は特異性を最適化するように、用途に応じて適合させてもよい。可能な実施形態では、CSIアナライザ123はまた、エンドユーザのニーズに従ってCNN出力値をさらに報告する(230)可能性がある。
図9は、空間的に配置されたカバレッジデータを解析する(220)ためにCSIアナライザ123によって使用されてもよい可能な詳細なCNNアーキテクチャの一例を示す。ネットワークの内部の各畳込み層について、フィルタの数及びフィルタ次元は、[NxHxW]として表され、ここで、Nはフィルタの数であり、Hはフィルタの高さであり、Wはフィルタの幅である。各畳込みは、活性化関数(正規化線形ユニット、ReLU)を通過し、その後、バッチ正規化(BN)が続く。中間畳込み層は、通常のCNNアーキテクチャに従って、最大プーリング層と交互配置され、最後に平均プーリング及び平坦化層が続く。この例では、CNNの出力層は平坦化され、バッチ正規化層、ドロップアウト層を通過し、シグモイド活性化関数を使用して単一ノード高密度層(すなわち、完全接続層)への入力として与えられる。
染色体空間不安定性(CSI)アナライザ訓練
教師あり及び半教師ありCSIアナライザ訓練の場合、ラベル付き入出力ペアのセットを訓練セットとして使用してもよい。例えば、HRD状態を分類するようにCSIアナライザを訓練するために、パブリックドメインのHRDラベル付きデータサンプルのサブセットを使用して、訓練フェーズ中に特に適用されるバックプロパゲーションなどの最適化プロセスによって、その異なる層に沿ってそのパラメータ(例えば、重み)を調整することによって、ネットワークがその出力誤差を最小化することを可能にしてもよい。機械学習の当業者には明らかなように、誤差を測定するために異なる損失関数、例えば、単一ラベルバイナリ分類出力を有するモデルのバイナリ交差エントロピー測定、単一ラベルマルチクラス分類出力を有するモデルのカテゴリ交差エントロピー測定、又は二乗平均平方根誤差、絶対誤差、若しくは他の誤差測定に基づく回帰法を使用してもよい。最適化は、ADAM又はRMPSpropなどの最新技術の確率的降下勾配ベースの最適化器を使用してもよい。正則化は、ドロップアウト法、早期停止法、及び/又はL-1若しくはL-2パラメータ正則化を使用してもよい。他の実施形態も可能である。
染色体不安定性に関連するより多くの臨床状態が現在及び将来の腫瘍学研究によって分類されるにつれて、HRD又は所与の治療に対する応答などの他の現象によって誘発されるゲノム瘢痕を検出することを目的とした機械学習モデルを訓練するために追加のデータセットを使用してもよい。可能な実施形態では、HRD+及びHRD-バイナリ状態、並びに任意選択的に「不確定の」状態は、マルチクラスグラウンドトゥルースラベルとして使用されてもよい。別の可能な実施形態では、HRDetectなどの先行技術の方法からのHRDスコアをスカラ出力ラベルとして使用してもよい。多次元アレイフォーマットの実施形態の選択が訓練時及びランタイム時に同じままである限り、入力カバレッジ信号データアレイはまた、本明細書に開示される方法の可能な実施形態のいずれかによる多次元データとして空間的に配置されてもよい。
可能な実施形態では、機械学習モデルを訓練するための追加のデータセットは、患者DNAサンプルからのカバレッジデータ信号アレイを含んでもよく、これらの患者は既知の相同組換え欠損状態であり、かつ/又はこれらの患者は癌治療レジメンを受け、治療の転帰は既知である(応答対無応答)。
可能な実施形態では、機械学習モデルを訓練するための追加のデータセットは、初代細胞株実験若しくは不死化細胞株実験又は腫瘍由来オルガノイド実験、特にHRDを有すると予測されるオルガノイドが癌治療レジメンによって排除されるか又はそれらの増殖が減少するかどうかを決定する実験から生成されたDNAサンプルからのカバレッジデータ信号アレイを含んでもよい。
可能な実施形態では、半教師あり学習フレームワークを使用して、機械学習モデルを訓練してもよい。実際、ラベル付きデータへのアクセスは、特に半教師あり学習をこの用途の有望なフレームワークにするHRD状態予測の文脈では、困難で費用がかかり得る。モデルの過剰適合の程度は、その複雑さ及びそれが受ける訓練の量の両方によって決定されるため、より多くの訓練例を有するモデルを提供することは、過剰適合を低減するのに役立ち得る。データ増強は、既存のデータから新しい人工訓練サンプルを作成することにある。可能な実施形態では、同じHRD状態を共有し、同様の腫瘍含量(又は同様の腫瘍含量を模倣するように生物学的に前処理された)及び倍数性を有する利用可能な実サンプルから染色体をサンプリングすることによって、人工サンプルを生成してもよい。
可能な実施形態では、同じHRD状態並びに同じ正規化された純度及び倍数性比を共有する利用可能な実サンプルから染色体をサンプリングすることによって人工サンプルを生成してもよく、純度はサンプル中の腫瘍細胞のパーセンテージであり、倍数性はゲノム全体の平均染色体コピー数であり、したがって平均腫瘍細胞上の完全な染色体セットの数を特徴付ける。
一実施形態では、機械学習モデルは、ラベル付き実サンプルからのカバレッジデータ信号アレイデータで訓練される。
別の実施形態では、機械学習モデルは、同じHRD状態を共有する利用可能な実サンプルから染色体をサンプリングし、サンプリングされた染色体の純度/倍数性比が同じであることを保証することによって生成された、ラベル付き実サンプル及びラベル付きデータ増強サンプルの両方からのカバレッジデータ信号アレイデータで訓練される。
したがって、任意の機械学習モデルは、陽性HRD状態を有するDNAサンプルと陰性HRD状態を有する別のDNAサンプルとの間の差をCSIスコアとして定量化し、次いでCSIスコア結果に基づいて試験DNAサンプルを分類することを学習する可能性がある。
可能な実施形態では、機械学習モデルは、HRDetect方法に従ってHRD状態でラベル付けされた少なくとも1セットの実サンプルを使用して、教師ありモード又は半教師ありモードで訓練されている。好ましくは、学習モデルは、HRDetect方法に従ってHRD状態でラベル付けされた少なくとも1セットの実サンプルを使用して、教師ありモードで訓練されている。
可能な実施形態では、機械学習モデルは、同じHRD状態を共有する実サンプルのセットの染色体をサンプリングし、純度倍数性比の差を説明することによって生成された人工サンプルを使用して、教師ありモード又は半教師ありモードで訓練されている。可能な実施形態では、機械学習モデルは、同じHRD状態を共有する実サンプルのセットの染色体をサンプリングし、純度倍数性比の差を説明することによって生成された人工サンプルを使用して、教師ありモードで訓練されている。
一実施形態では、訓練された機械学習モデルは、対象DNAサンプルのCSIスコアを計算し、このCSIスコアを使用して、対象DNAサンプルが特定のCSI状態を有するサンプルのグループに属する確率を分類する。
一実施形態では、訓練された機械学習モデルは、対象DNAサンプルのCSIスコアを計算し、このCSIスコアを使用して、サンプルのグループに属する対象DNAサンプルのHRD状態を決定する。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、CSI状態がHRD状態である方法が提供される。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、DNAサンプルが癌サンプルからのDNAである方法が提供される。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、ローパス全ゲノムシーケンシングカバレッジが、少なくとも0.1倍~最大30倍、例えば1倍~10倍、例えば0.1倍~5倍又は例えば0.1倍~1倍である方法が提供される。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、ローパスゲノムシーケンシングが、少なくとも0.1倍~最大30倍、例えば1倍~10倍、例えば0.1倍~5倍又は例えば0.1倍~1倍であり、少なくとも2本から最大22本の染色体からのリードを含む対象DNAサンプルのシーケンシングリードのセットが得られる方法が提供される。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、DNAサンプルのシーケンシングリードのヒト参照ゲノムへのアラインメントが実行される方法が提供される。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、GC含量による正規化が実行され、GCバイアス補正を適用する方法が提供される。
一実施形態では、HRD状態であるDNAサンプルのCSI状態を決定するコンピュータベースの方法が提供される。
一実施形態では、DNAサンプルのCSI状態を決定するコンピュータベースの方法であって、機械学習モデルが、HRD+/HRD-状態などの既知のゲノム不安定性状態のサンプルの訓練データセットを使用して事前に訓練されており、したがって、この機械学習モデルは、HRD状態などの特定のCSI状態を有するサンプルに特徴的なカバレッジプロファイルを有するサンプルを区別するように訓練される方法が提供される。
診断/予後診断方法
一実施形態では、患者から得られたDNAサンプルを特徴付けるインビトロ方法であって、
患者サンプルからのDNAの断片を単離することと、
染色体のセットと重複する前記断片を含むシーケンシングライブラリを構築することと、
最大30倍のシーケンシングカバレッジまでライブラリをシーケンシングすることと、
得られたシーケンシングリードをヒト参照ゲノムにアラインメントすることと、
本発明の方法を用いて、患者サンプルのCSIスコアを生成することと
を含む方法が提供される。
一実施形態では、患者から得られたDNAサンプルを特徴付けるインビトロ方法であって、
患者サンプルからのDNAの断片を単離することと、
染色体のセットと重複する前記断片を含むシーケンシングライブラリを構築することと、
最大30倍のシーケンシングカバレッジまでライブラリをシーケンシングすることと、
得られたシーケンシングリードをヒト参照ゲノムにアラインメントすることと、
本発明の方法で得られたCSIスコアに基づいて、患者サンプルのHRD状態を決定することと
を含む方法が提供される。
PARP阻害剤による治療のために癌患者を選択する方法であって、本明細書に記載の方法のいずれかを用いて腫瘍患者サンプルがHRD陽性であることを検出するステップを含む、方法。
一実施形態では、患者は、HRD陽性(HRD+)又はHRD陰性(HRD-)のいずれかであるとして本明細書に記載の方法のいずれかを使用して分類することができる癌に罹患している。
一実施形態では、患者から得られたDNAサンプルを特徴付けるインビトロ方法であって、患者サンプルが腫瘍サンプルであり、患者サンプルの染色体空間不安定性指標が、白金系化学療法剤、DNA損傷剤、アントラサイクリン、トポイソメラーゼI阻害剤、又はPARP阻害剤を含む癌治療レジメンに対する腫瘍応答の予測因子である方法が提供される。
一実施形態では、患者から得られたDNAサンプルを特徴付けるインビトロ方法であって、染色体空間不安定性指標に基づいて、腫瘍患者サンプルが相同組換え(HR)欠損であるかどうかを同定するステップを含み、相同組換え(HR)欠損である可能性が高いことが、PARP阻害剤が癌を治療する方法に使用するためのものであってもよいことを示す方法が提供される。PARP阻害剤は、単独で又は他の治療と組み合わせて使用されてもよい。
一実施形態では、白金系化学療法剤、DNA損傷剤、アントラサイクリン、トポイソメラーゼI阻害剤、又はPARP阻害剤での治療のために癌患者を選択する方法であって、本明細書に記載のDNA癌サンプルのCSI状態を決定するコンピュータベースの方法に従って、患者DNA癌サンプルがHRD陽性であることを検出するステップを含む方法が提供される。一実施形態では、治療のために癌患者を選択する方法は、インビトロ方法である。
一実施形態では、本明細書に記載のDNA癌サンプルのCSI状態を決定するコンピュータベースの方法であって、
DNA癌サンプルが相同組換え欠損であると決定された場合、癌を、ポリADPリボースポリメラーゼ(PARP)阻害剤を試験対象に投与することによって治療することを含む方法が提供される。
一態様によれば、サンプルは患者サンプルであり、組織、新鮮凍結組織(FFT)、血液若しくは任意の体液、又は細胞学的検体/調製物(FFPE、スミア)などの形態である。一態様によれば、サンプルは、FFPEサンプルを含む患者腫瘍サンプルである。
別の特定の実施形態では、患者は、癌、特に高悪性度漿液性卵巣癌、前立腺癌、乳癌、膵臓癌などに罹患している。
一実施形態によれば、本明細書に記載の方法に従ってHDR+又はHDR-である癌型を診断する方法であって、サンプルが、癌を有するか、又は癌を有することが疑われる対象から得られる方法が提供される。
ウェットラボワークフロー内での統合
CSIアナライザのデータ生成-WGSワークフロー
可能な実施形態では、対象DNAサンプルのCSI状態を決定する方法であって、
a)核酸を含むサンプル材料を提供することと、
b)全ゲノムシーケンシング用の第1の核酸シーケンシングライブラリを調製することと、
c)ステップb)で得られた第1の核酸シーケンシングライブラリをシーケンシングすることと、
d)ステップc)で得られた核酸配列を解析することであって、(ステップcで得られた)核酸配列からの配列が、本明細書に記載の対象DNAサンプルのCSI状態を決定するコンピュータベースの方法に従って解析される、解析することと
を含む方法が提供される。
CSIアナライザのデータ生成-WGSワークフロー及びバリアントコーラーターゲット標的濃縮ワークフロー
可能な実施形態では、対象DNAサンプルのCSI状態を決定する方法であって、
a)核酸を含むサンプル材料を提供することと、
b)全ゲノムシーケンシング用の第1の核酸シーケンシングライブラリを調製することと、
c)ステップb)で得られた核酸シーケンシングライブラリをシーケンシングすることと、
d)ステップc)で得られた核酸配列を解析することであって、(ステップcで得られた)核酸配列からの配列が、本明細書に記載の対象DNAサンプルのCSI状態を決定するコンピュータベースの方法に従って解析される、解析することと
を含む方法が提供される。
本方法は、
e)同じサンプル材料から、第2の核酸シーケンシングライブラリを調製することと、
f)第2の核酸シーケンシングライブラリに対して標的濃縮を実施することと、
g)ステップf)で得られた標的濃縮ライブラリをシーケンシングすることと、
h)ステップg)で得られた核酸配列を解析することであって、(ステップfで得られた)濃縮された核酸ライブラリからの配列が、任意の既知のバリアント呼出しの方法に従って解析される、解析することと
をさらに含む。
ゲノム解析の当業者には明らかなように、第1及び第2のライブラリは、同じサンプルから任意の順序で同時に、又は異なる時間に独立して調製されてもよい。可能な実施形態では、第1及び第2のライブラリは、ライブラリを2つのサブセットに分割することによって得られてもよく、一方のサブセット(第1のライブラリ-CSI解析用のWGSライブラリ)はステップc)及びd)を通過し、他方のサブセット(第2のライブラリ-バリアント呼出し解析用の標的濃縮ライブラリ)はサブセットe)~h)を通過する。
別の可能な実施形態では、対象DNAサンプルのCSI状態を決定する方法であって、
a)核酸を含むサンプル材料を提供することと、
b)第1の核酸シーケンシングライブラリを調製することと、
c)第2の濃縮された核酸シーケンシングライブラリを得るために、核酸シーケンシングライブラリに対して標的濃縮を実施することと、
d)ステップb)及びステップc)で得られた核酸シーケンシングライブラリをシーケンシングすることと、
e)ステップd)で得られた核酸配列を解析することであって、c)で濃縮された領域にアラインメントする配列を除外した後、(ステップb)で得られた)第1の濃縮されていない核酸配列ライブラリからの非標的ゲノム領域中の配列が、本明細書に記載の対象DNAサンプルのCSI状態を決定するコンピュータベースの方法に従って解析され、
かつ
(ステップcで得られた)第2の濃縮された核酸ライブラリからの配列が、任意の既知のバリアント呼出し方法に従って解析される、解析することと
を含む方法が提供される。
ゲノミクスの当業者には明らかなように、上記のワークフローは、ゲノム解析の異なるステップを使用してもよい。
核酸を含むサンプル材料を提供するステップは、任意の既知のDNA抽出方法に従って実施されてもよい。複数のサンプルが単一の実験で一緒にシーケンシングされる場合、ゲノムバーコード化法を使用して下流解析でサンプル材料を同定してもよい。
核酸シーケンシングライブラリを調製するステップは、シーケンシングライブラリを調製するための任意の既知の方法に従って実施されてもよい。任意選択的に、核酸シーケンシングライブラリを調製するステップb)は、核酸配列を増幅するさらなるステップb.0.)を含んでもよい。核酸の増幅は、ポリメラーゼ連鎖反応(PCR)などの任意の既知の方法に従って実施されてもよい。
標的濃縮を実施するステップは、標的濃縮DNAシーケンシング又はRNAシーケンシングの任意の既知の方法、例えば、標的ハイブリダイゼーション捕捉(すなわち、ハイブリダイゼーション捕捉ベースの標的シーケンシング)又はアンプリコンベースのアプローチ(アンプリコンシーケンシング)に従って実施されてもよい。
一実施形態によれば、標的濃縮は、捕捉ベースの標的濃縮である。この実施形態によれば、標的濃縮を実施するステップは、少なくとも1つのプローブ又はプローブセットを、目的のバリアントを有する可能性があることが知られているゲノム領域(例えば、限定されないが、BRCA1領域及びBRCA2領域)(「標的領域」又は「濃縮領域」)からの標的核酸に対してハイブリダイズし、非標的核酸を洗い流し、核酸を濃縮するステップを含む。用語「プローブ」又は互換的に「ベイト」又は「(プローブ)核酸分子」又は「捕捉プローブ」又は「(DNA/RNA)オリゴヌクレオチド(捕捉)プローブ」は、標的核酸分子にハイブリダイズすることができる核酸分子を指すと理解される。任意の既知のプローブ設計を使用することができる。「標的核酸」という用語は、使用されるプローブによって捕捉される可能性がある遺伝子又は転写物内の核酸領域を指す。好ましくは、標的核酸は、BRCA1及びBRCA2から選択されるがこれらに限定されない、HRR経路に関連する遺伝子である。
ステップb)で得られた核酸シーケンシングライブラリは少なくとも2つの部分に分割されてもよく、一方の部分は標的濃縮に供されず、したがって濃縮されていない核酸ライブラリのままであり、他方の部分は標的濃縮に供され、濃縮された核酸ライブラリを形成することが理解される。
濃縮されていない核酸ライブラリ及び濃縮された核酸ライブラリは、一緒に又は別々にシーケンサにロードされてもよいことが理解される。したがって、核酸配列は、選択されたワークフローに応じて別々に又は一緒に得られてもよい。
濃縮されていない核酸ライブラリ及び濃縮された核酸ライブラリを一緒にシーケンサにロードする場合、これらのライブラリを所定の濃度でロードする。これらの相対濃度は、濃縮されていないライブラリの核酸のカバレッジが0.1倍~10倍、0.5倍~10倍、少なくとも0.2倍、又は好ましくは少なくとも0.1倍、及び最大30倍であるような、かつ濃縮されたライブラリの核酸のカバレッジが少なくとも30倍、又は30倍~100倍、又は100倍~500倍、又は500倍~1000倍、又は1000倍~5000倍、好ましくは少なくとも4000倍であるような、標的(濃縮)領域及び非標的領域における所望のカバレッジの関数である。
核酸ライブラリをシーケンシングするステップは、任意の既知の方法に従って、既知のシーケンサを使用して実施されてもよい。
可能な実施形態では、濃縮されていない核酸ライブラリからの配列の解析及び濃縮された核酸サンプルからの配列の解析は、別々に行われる。
2つのライブラリが一緒にシーケンシングされる場合、本明細書に記載のコンピュータベースの方法に従ってCSI状態を得るための濃縮されていない核酸ライブラリからの配列の解析は、標的濃縮ライブラリにカバーされる領域をフィルタリング除外するさらなるステップを含んでもよい。これらの領域は、例えば、
m1)シーケンシングリードを、標的濃縮ライブラリによってカバーされていないゲノム領域上でのみ参照ゲノムにアラインメントすることによって、又は
m2)アラインメントファイル(例えば、BAM又はSAMファイル)において、標的濃縮ライブラリによってカバーされていないアラインメントされたゲノム領域のみを選択することによって、又は
m3)CSIスコア決定から、高解像度ビン、標的ゲノム領域と重複するビンを除外することによって(例えば、標的濃縮ライブラリによってカバーされるゲノム領域と重複するビンをマスキングすることによって)、
任意の既知のマスキング戦略に従ってCSIアナライザによってマスキング又はフィルタリング除外されてもよい。
濃縮されたライブラリから得られたゲノムの標的濃縮領域を、濃縮されていないライブラリと濃縮されたライブラリとの複合シーケンシングにおいてマスキングするステップは、標的濃縮によって導入されたカバレッジ差がCSI解析に影響を及ぼさないことを確実にする。
可能な実施形態では、濃縮された核酸ライブラリからの配列の解析は、既知の方法によるバリアント呼出しを含む。バリアントアレル画分(VAF)に関するこの解析から得られたデータは、患者DNAサンプルをさらに特徴付けるために使用されてもよい追加の情報である。可能な実施形態では、サンプルのHRD状態は、CSI状態、バリアント呼出し結果(例えば、相同修復欠損に関連する遺伝子における1つ以上のバリアント、例えば、限定されないが、BRCA1又はBRCA2遺伝子における特定のバリアントが同定された場合)、又はそれらの任意の組合せ(例えば、CSI状態が陽性として同定された場合、又は相同修復欠損に関連する遺伝子における1つ以上のバリアントが同定された場合)から導出されてもよい。可能な実施形態では、サンプルの全ゲノムに沿ったゲノム不安定性から可能なHRD状態を同定するために、バリアント呼出し結果がサンプルのHRD状態を同定しなかった場合にのみ、バリアント呼出し解析を最初に実施してもよく、本明細書に記載のコンピュータベースの方法によるサンプルのCSI解析を解析してもよい。
実験-実施例1
第1の実験では、図9のCNNは、Nik-Zainal et al., “Landscape of somatic mutations in 560 breast cancer whole-genome sequences”, Nature 534, 47-54 (2016)-European Genome-phenome Archive EGA (https://www.ebi.ac.uk/ega/studies/EGAS00001001178)で利用可能なWellcome Trust Sanger Institute及びInternational Cancer Genome Consortium ICGCからのデータセット、並びにH.Davies et al., “HRDetect is a predictor of BRCA1 and BRCA2 deficiency based on mutational signatures”, Nature Medicine, 2017年3月13日オンライン公開を参照して、HRDetectスコアによって定義されるBRCA欠損状態及びHRD状態が公的に利用可能な560例の乳癌患者に含まれる133個の新鮮凍結腫瘍サンプルのサブセットで測定されたローパスWGSカバレッジデータを用いて訓練されている。133個の公的に利用可能な実サンプルのこの元の訓練データセットを、3083個の人工訓練サンプルに増強した。データ増強を行って、元のデータセットで観察された同じ純度-倍数性分布を保存した。データ増強によって得られた人工サンプルは、訓練及び検証にのみ使用した。元のデータセットの有意な部分(560乳癌研究から採取した202個中69個のサンプル)を試験のために保持し、データ増強手順には関与しなかった。
各腫瘍サンプルの元のBAMファイルを最初に1000万ペアエンドリードにダウンサンプリングして、ローパスWGSを模倣し、カバレッジ信号を最初に100kbpの高解像度カバレッジビンの第1のセットを使用して事前に計算し、サンプル及びGC正規化を実行することによって前処理した。得られた正規化されたカバレッジ信号(y軸)を、性染色体を除く全ゲノム(x軸)にわたって、HRD-サンプルについては図10a)に、HRD+サンプルについては図10b)にそれぞれ表示する。x軸は、各染色体の境界に垂直の破線を有するゲノム座標を示す。
正規化カバレッジデータを、図3の適応的ビニング戦略を使用して2.5Mpb~3.5Mbpの範囲の平均3Mbp標的ビンサイズにさらに折り畳んだ。図11は、得られたカバレッジデータを、本開示のいくつかの実施形態による空間配置方法を適用する前の、HR欠損サンプルをy軸の上部にした、CSI状態によってソートされた133個の元の訓練サンプルについての1D信号として、サンプルごとに1行として示す。x軸は、各染色体の境界に垂直の破線を有するゲノム座標を示す。
訓練データセット内のサンプルの正規化カバレッジデータをさらに空間的に配置して、HRD状態を予測するためにCNNモデルを訓練するために使用された84個のビン*22本の染色体の2Dアレイを形成した。22本の染色体のカバレッジビンは、それらのセントロメアビンに対してアラインメントされた、chr1からchr22までの22行としてプロットされる。より短い染色体アームの場合、空のビンは、同じ行に存在する最も近いテロメアビンの値をコピーすることによって満たされる。図7a)は、HRD-サンプルについて得られたアレイを示し、図7b)は、HRD+サンプルについて得られたアレイを示す。
図12は、HRDetectスコアに対する分類器としてベンチマークされた、訓練に使用されていない69個の試験サンプルを含む202個のサンプルのフルデータセット(ソフトマックスを介して確率に変換する前に、CNNの出力で測定される「BRCAness」状態指示として示される)に対して訓練されたCNNを適用することによって得られた結果を左側に示し、先行技術のHRDスコア(LOH、LST及びTAIスコアを平均化して得られる)の結果を右側に示す。図12に示すヒストグラムに見られるように、提案された方法は、202個の実サンプルのセット全体又は機械学習モデルの訓練に使用されない69個のサンプルのセットのみの試験に関係なく、HRDetect陽性サンプルを予測する際に先行技術のHRDスコア方法よりも優れている。
図13は、試験セット内の69個のサンプルの各々について、3つのHRDetectスコア(上)、HRDスコア(下)及び訓練されたCNNの出力で得られたSOPHiA CSI(本明細書ではBRCAnessとして示される)スコア(中)を示す。各個々のパネルでは、スコア結果を増加させることによってサンプルは左から右にソートされている。BRCA欠損のないサンプルを薄い灰色で表示されている。BRCA欠損サンプルは濃い灰色で示されている(BRCA欠損を引き起こす変異のタイプを示すために異なる灰色レベルが使用されている)。図13において明らかなように、HRDetectスコア及びSOPHiA BRCAness CSIスコアは、すべてのBRCA欠損サンプルについて非常に高い。この結果は、BRCA欠損サンプルの同定において、CSI指標がHRDスコアよりも優れていることを示している。
実験-実施例2-高悪性度卵巣漿液性腺癌Ovkate細胞のための単一のウェットラボワークフローにおけるlpWGSと捕捉ベースの標的パネルとの組合せ
ローパス全ゲノムシーケンシング及び捕捉ベースの標的パネルをOVKATE(RRID:CVCL_3110)細胞(https://web.expasy.org/cellosaurus/CVCL_3110)で実施した。DNeasy Blood&Tissue Kits(Qiagen)を製造者の説明書に従って使用してDNAを抽出した。次いで、SOPHiA Geneticsライブラリ調製キットを使用して全ゲノムシーケンシングライブラリを調製した。全ゲノムライブラリの一部を使用して、SOPHiA Genetics捕捉プロトコルを用いてHRR経路に関連する遺伝子をカバーするプローブパネルを使用して標的濃縮を実施した。次いで、濃縮されたライブラリ及び全ゲノムライブラリを、Nextseq Midフローセル(Illumina)上で一緒にシーケンシングした。2つのタイプのライブラリを、ゲノム上で約1~2倍、捕捉パネルの標的領域上で1000倍を超えるカバレッジを達成するように、フローセル上にロードし、バランスをとった。
図15は、lpWGS及び標的捕捉後に得られたデータの解析の例示的なワークフローを示す。
培養したOvkate細胞から抽出したDNAを、ローパスWGSと標的濃縮を組み合わせたNGSワークフローに従って処理した。NGSデータを生物情報学的に処理して、参照ゲノムにアラインメントされたリードの情報を含むBAMファイルを生成した。標的領域へのリードマッピングは、バリアント呼出しを行い、濃縮領域図15Cにおけるアレル画分を測定することを可能にした(右、図15C2)。捕捉濃縮アプローチによって標的化された領域をマスキングした後のlp-WGS領域からのリードは、全ゲノムのカバレッジレベルのプロファイルを計算することを可能にした。後者をバイアス図15Cを除去するために正規化し(左、図15C1)、CNNで処理してHRDスコアを計算した。Ovkate細胞をHRD陽性として分類した(スコア15.8)。
したがって、lpWGSと捕捉ベースの標的シーケンシングの組合せは、目的の遺伝子におけるサンプルCSI状態及び変異HRD状態の並行検出を可能にする。
実験-実施例3-増強訓練データの取得
一実験では、Nik-Zainal et al., “Landscape of somatic mutations in 560 breast cancer whole-genome sequences”, Nature 534, 47-54 (2016)の公的に利用可能なデータから、既知のHRD状態を有する新鮮凍結組織の169個の実サンプルを最初に選択した。各人工サンプルについて、同じHRD状態を有する実サンプルの乱数からの染色体をランダムに組み合わせて、データ増強(DA)訓練サンプルを作成してもよい。人工サンプルを作成するためのサンプル数は、N=K*exp(-K*x)を使用して指数分布から引き出された乱数であってもよく、xは乱数であり、K=1/3である。このようなアプローチを使用することにより、限られた数のサンプルのみからのデータを組み合わせて人工サンプルを組み立てることが保証される。
次に、最も低い純度/倍数性比を有するプール中のサンプルを同定し、プール中のすべてのサンプルの純度/倍数性比がこの比に等しくなるように他のすべてのサンプルの純度を低下させた。これにより、異なる腫瘍純度及び倍数性を有するサンプルからランダムに選択された染色体間のカバレッジの振幅の差の導入を防ぐことが可能になる(図16A)。これを達成するために、正常なサンプルからシーケンシングリードを追加することによって、インシリコで純度を低下させた(図16B)。この戦略は、すべてのDAサンプルにおいて、所与の倍数性について観察されたカバレッジ差の振幅が、データ増強サンプルについてはすべての染色体にわたって一定であったが(図16C)、DA訓練データの純度/倍数性比にバイアスを導入したことを確実にした。特に、これらのサンプルにおける純度及び倍数性の分布は、元のサンプルのセットについて観察されたものよりも低い傾向があった。この潜在的な交絡因子を説明し、得られた4403個の保持されたDAサンプルのセットの純度/倍数性分布が元のサンプルのものと一致することを確実にするために、メトロポリスヘイスティングス及びギブスサンプリング法を適用した。
そのようなDA訓練データのセットは、機械学習モデルを訓練するために使用されてもよい。機械学習の当業者には明らかなように、そのようなデータ増強戦略は、HRDなどのいくつかのクラスの方法の性能をサポートするために必要とされ得る大量のデータが利用できない可能性がある場合に、CSI分類器機械学習モデルの訓練を容易にする可能性がある。訓練データセットのサイズ及び多様性を増加させるために、インシリコでデータ増強を準備してもよい。増強データセットの重要な特性を維持するデータ増強戦略が成功すると、区別できない人工データ及び実データがもたらされる。
提案された方法のさらなる利点及び恩恵
提案された機械学習方法は、特に腫瘍学の実務において、個別化医療データの利用可能性の増加に本質的に適応するので、追加の利点をさらにもたらす。それらは、診断、予後、及び/又は治療を導くのに適した予測的特徴を確立するための明示的な生物学モデル(例えば、好ましくはテロメア又はセントロメアの周囲などの特定の染色体アーム領域で起こる疑わしい事象)を必要としない。半教師あり訓練フレームワークを使用する場合、データ増強は、DNAサンプル中のノイズの多いデータ又は低い腫瘍含量に対して感度が低いより堅牢なデータモデルの開発を容易にする。より多くのデータが利用可能になるにつれて、モデルパラメータのみが変化するので、ランタイムゲノムアナライザシステム及びワークフローを再構築する必要なしにモデルは再訓練される可能性がある。特定の用途(例えば、乳癌)のために最初に開発された訓練されたモデルは、他の用途(例えば、卵巣癌、前立腺癌又は膵臓癌)及び/又は他のサンプルタイプ(FFPE、FFT、cfDNA、ctDNA)に転送してもよい。それらはまた、異なる療法及び治療に対する応答を含む異なる状態を予測するために使用されてもよい。
本明細書で提案される方法は、lpWGSシーケンシングデータでの使用に適しており、したがって、高カバレッジ(>30倍)WGS又はSNPアレイを使用する先行技術の方法よりも安価であり、標準的な実地臨床での実装及び展開が容易である。
他の実施形態及び用途
様々な実施形態を上述したが、それらは限定ではなく例として提示されていることを理解されたい。当業者には、その趣旨及び範囲から逸脱することなく、形態及び詳細の様々な変更を行うことができることが明らかであろう。実際、上記の説明を読んだ後、代替の実施形態を実施する方法は、当業者には明らかであろう。
提案された方法の例示的な実施形態及び用途は、標的次世代シーケンシングゲノム解析に関連して記載されているが、例えばSNPアレイ及びアレイCGHウェットラボワークフローからのゲノムデータを使用して、代替の腫瘍サンプルゲノム解析ワークフローからのHR欠損の検出及び分類に適用するように適合されてもよいことは、バイオインフォマティクスの当業者には明らかであろう。SNPアレイ、アレイCGH、又は次世代シーケンシング(NGS)技術を使用して、コピー数と共に変化するカウントを生成してもよい。さらに、例えばWES(全エクソームシーケンシング)又はCES(キャピラリー電気泳動)パネルから得られる可能性があるようなローパスWGS(0.1倍~5倍)又は大きな標的濃縮シーケンシングライブラリを単独で使用又は組み合わせて、提案された機械学習方法への入力データを生成してもよい。あるいは、ローパスWGSは、単一又は別個のウェットラボワークフローで小さな標的パネル(アンプリコンベース又は捕捉ベース)と組み合わせることができる。おそらく、標的シーケンシング方法から発行されたオフターゲットリードはまた、多次元アレイへの主要な又は相補的な入力データとして使用される可能性があるが、CSIアナライザ123アーキテクチャにおける入力データ処理コンポーネントとして訓練されたニューラルネットワークによく適したままである。
提案された方法の例示的な実施形態及び用途は、行に配置され、それらのセントロメアビンによって垂直にアラインメントされた染色体カバレッジビンの画像として配置されたカバレッジデータ信号アレイに関連して説明されているが、様々な他の実施形態も可能であることは、バイオインフォマティクスの当業者には明らかであろう。図14は、セントロメア領域又はテロメアビンに隣接する少なくとも1つのビンに対する、少なくとも2つの解析された染色体(chr.A及びchr.B)からの各染色体アーム(pアーム及びqアーム)に対するカバレッジ信号画像の例示的なアラインメントを示す。
可能な実施形態では、染色体アームはアレイ内の行として表されてもよく、すべてのアームのセントロメアビンはアレイの最初の列に沿ってアラインメントされてもよい。別の可能な実施形態では、染色体アームはアレイ内の行として表されてもよく、すべてのアームのテロメアビンはアレイの最初の列に沿ってアラインメントされてもよい。別の可能な実施形態では、染色体アームはアレイ内の行として表されてもよく、すべてのアームのセントロメアビンはアレイの最後の列に沿ってアラインメントされてもよい。別の可能な実施形態では、染色体アームはアレイ内の行として表されてもよく、すべてのアームのテロメアビンはアレイの最後の列に沿ってアラインメントされてもよい。
可能な実施形態では、染色体アームはアレイ内の列として表されてもよく、すべてのアームのセントロメアビンはアレイの最初の行に沿ってアラインメントされてもよい。別の可能な実施形態では、染色体アームはアレイ内の列として表されてもよく、すべてのアームのテロメアビンはアレイの最初の行に沿ってアラインメントされてもよい。別の可能な実施形態では、染色体アームはアレイ内の列として表されてもよく、すべてのアームのセントロメアビンはアレイの最後の行に沿ってアラインメントされてもよい。別の可能な実施形態では、染色体アームはアレイ内の列として表されてもよく、すべてのアームのテロメアビンはアレイの最後の行に沿ってアラインメントされてもよい。
可能な実施形態では、染色体全体はアレイ内の列として表されてもよく、すべての染色体のセントロメアビンはアレイの行に沿ってアラインメントされてもよい。セントロメアビンのアラインメント行は、アレイの中心にあってもよく、又は染色体のセットのpアーム及びqアームのそれぞれのビン長に従って中心から上又は下にシフトされてもよい。染色体のpアームに関連するビン及びqアームに関連するビンは、それぞれセントロメアビン行の上及び下にあってもよく、又は逆にセントロメアビン行の下及び上にあってもよい。
可能な実施形態では、染色体全体はアレイ内の行として表されてもよく、すべての染色体のセントロメアビンはアレイの列に沿ってアラインメントされてもよい。セントロメアビンのアラインメント列は、アレイの中心にあってもよく、又は染色体のセットのpアーム及びqアームのそれぞれのビン長に従って中央から右又は左にシフトされてもよい。染色体のpアームに関連するビン及びqアームに関連するビンは、それぞれセントロメアビン列の右及び左にあってもよく、又は逆にセントロメアビン列の左及び右にあってもよい。
可能な実施形態では、染色体全体はアレイ内の行として表されてもよく、すべての染色体の2つのテロメアビンのうちの1つはアレイの列に沿ってアラインメントされてもよい。可能な実施形態では、テロメアビンのアラインメント列は、アレイの最初の列であってもよい。別の可能な実施形態では、テロメアビンのアラインメント列は、アレイの最後の列であってもよい。可能な実施形態では、pアームテロメアビンはアラインメントに使用されてもよい。別の可能な実施形態では、qアームテロメアビンはアラインメントに使用されてもよい。別の可能な実施形態では、アラインメントのためのpアーム又はqアームのテロメアビンの選択は、染色体ごとに個別に選択されてもよい。
可能な実施形態では、染色体全体はアレイ内の列として表されてもよく、すべての染色体の2つのテロメアビンのうちの1つはアレイの行に沿ってアラインメントされてもよい。可能な実施形態では、テロメアビンのアラインメント行は、アレイの最初の行であってもよい。別の可能な実施形態では、テロメアビンのアラインメント行は、アレイの最後の行であってもよい。可能な実施形態では、pアームテロメアビンはアラインメントに使用されてもよい。別の可能な実施形態では、qアームテロメアビンはアラインメントに使用されてもよい。別の可能な実施形態では、アラインメントのためのpアーム又はqアームのテロメアビンの選択は、染色体ごとに個別に選択されてもよい。
ゲノムデータアナライザ120コンピュータシステム(本明細書では「システム」とも)120は、本明細書に記載のCSI及びHRDアナライザシステム及び方法に加えて、シーケンシングデータの受信及び/若しくは組合せ、コピー数変化の呼出し、並びに/又は腫瘍サンプルをさらに特徴付けるためのバリアントのアノテーションなど、異なるゲノムデータ解析方法を実施するようにプログラム又は他の方法で構成されてもよい。機械学習モデルは、正規化カバレッジデータ2Dアレイ入力に加えて、GC含量、ビンサイズ、マッピング精度、マッピング品質、バリアントアレル画分(VAF)などの情報をさらに含む拡張多次元アレイ入力を使用してもよい。機械学習モデルはまた、腫瘍含量情報(純度)、サンプル倍数性情報を提供する追加のスカラ入力を使用してもよい。ゲノムデータアナライザシステムはまた、サンプルの質を評価する(すなわち、FFPE分解の程度を測定する)ために使用されてもよい。ゲノムデータアナライザシステムはまた、癌のCSI状態レベルに基づいて癌を分類するために使用されてもよい。ゲノムデータアナライザシステムはまた、癌のCSI状態及び免疫回避事象との関連に基づいて癌を層別化するために使用されてもよい(Bakhoum et al., 2018, Cell 174(6), p.1347-1360)。
提案された方法の例示的な実施形態及び用途は、訓練された機械学習モデルとしてのCNNに関連して説明されているが、可能な実施形態(図示せず)では、ランダムフォレスト機械学習モデルを交互に使用してもよい。ランダムフォレスト又はランダムデシジョンフォレストは、訓練時間に多数の決定木を構築し、個々の木のクラス(分類)又は平均予測(回帰)のモードであるクラスを出力することによって動作する分類、回帰及び他のタスクのためのアンサンブル学習方法である。ランダムデシジョンフォレストは、高次元入力データの良好な候補となる訓練セットに過剰適合する決定木の習慣を修正する。
他に定義されない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。本明細書の説明で使用される用語は、特定の実施形態のみを説明するためのものであり、限定することを意図するものではない。明細書及び添付の特許請求の範囲で使用されるように、単数形「a」、「an」及び「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。
反対のことが示されない限り、以下の明細書及び添付の特許請求の範囲に記載される数値パラメータは、得ようとする所望の特性に応じて変化する場合がある近似値であり、したがって「約」という用語によって修飾される場合がある。少なくとも、特許請求の範囲に対する均等論の適用を制限する試みとしてではなく、各数値パラメータは、有効数字の数及び通常の丸め手法に照らして解釈されるべきである。
広い範囲を示す数値範囲及びパラメータは近似値であるにもかかわらず、特定の例に示される数値は可能な限り正確に報告される。しかしながら、任意の数値は、それぞれの試験測定値に見られる標準偏差から必然的に生じる特定の誤差を本質的に含む。本明細書を通して与えられるすべての数値範囲は、そのようなより狭い数値範囲がすべて本明細書に明示的に記載されているかのように、そのようなより広い数値範囲内に入るすべてのより狭い数値範囲を含む。
デジタルデータ通信の当業者には明らかなように、本明細書に記載の方法は、データファイル又はデータストリームなどの様々なデータ構造に公平に適用されてもよい。したがって、「データ」、「データセット」、「データ構造」、「データフィールド」、「ファイル」、又は「ストリーム」という用語は、本明細書全体を通して区別なく使用されてもよい。
上記の詳細な説明は多くの具体的な詳細を含むが、これらは実施形態の範囲を限定するものとして解釈されるべきではなく、いくつかの実施形態の例示を単に提供するものとして解釈されるべきである。
さらに、機能及び利点を強調する任意の図は、例示のみを目的として提示されていることを理解されたい。開示された方法は、示された方法以外の方法で利用されてもよいように十分に柔軟で構成可能である。

Claims (21)

  1. 対象DNAサンプルの相同組換え欠損(HRD)状態を決定するコンピュータベースの方法であって、
    解析される前記対象DNAサンプルの全ゲノムのシーケンシングリードのセットを得ることと、
    前記対象DNAサンプルの前記シーケンシングリードのセットを参照ゲノムにアラインメントすることであって、前記参照ゲノムが複数のビンに分割され、各ビンが、解析される全ゲノム染色体中の染色体アームからの同じゲノム領域に属する、アラインメントすることと、
    染色体アーム上のカバレッジ信号を得るために、各染色体アームに沿った各ビン内のアラインメントされたリードの数をカウントし正規化することと、
    前記染色体アームの前記カバレッジ信号を前記対象DNAサンプルのカバレッジデータ信号アレイに配置することと、
    訓練された機械学習モデルに前記カバレッジデータ信号アレイを入力することであって、前記モデルが、陽性の相同組換え欠損状態を有するサンプルからの前記カバレッジデータ信号アレイと陰性の相同組換え欠損状態を有するサンプルからの前記カバレッジデータ信号アレイとを区別するために既知の相同組換え欠損状態のサンプルのセットを使用して訓練されている、入力することと、
    を含み、
    それによって、前記対象DNAサンプルの相同組換え欠損スコア(HRDスコア)を決定し、かつ
    前記訓練された機械学習モデルからの前記HRDスコアに従って、前記対象DNAサンプルの陰性、陽性又は不確定の相同組換え欠損(HRD)状態を決定する、
    方法。
  2. シーケンシングリードのセットが全ゲノムシーケンシングから得られ、リード深度カバレッジが最大30倍である、請求項1に記載の方法。
  3. シーケンシングリードのセットがローパス全ゲノムシーケンシングから得られ、リード深度カバレッジが少なくとも0.1倍及び最大5倍である、請求項2に記載の方法。
  4. 染色体アーム上のカバレッジ信号を得るために、各染色体アームに沿った各ビン内のアラインメントされたリードの数をカウントし正規化することが、サンプルあたりの前記カバレッジ信号を正規化すること、及び/又はGCバイアス補正を適用するためにGC含量によって正規化することを含む、請求項1から3に記載の方法。
  5. 前記染色体アームの前記カバレッジ信号が、1Dカバレッジデータ信号ベクトル又は2Dカバレッジデータ信号画像に配置される、請求項1から4に記載の方法。
  6. 前記染色体アームの前記カバレッジ信号が、前記染色体アームのセントロメア領域に隣接する最も近いビンである、各染色体アームのセントロメアビンに対して各染色体の前記カバレッジデータ信号を行にアラインメントさせることによって、2Dカバレッジデータ信号画像に配置される、請求項5に記載の方法。
  7. 前記機械学習モデルが、訓練ラベルとして既知の相同組換え欠損状態を有する腫瘍データサンプルのセットを使用して事前に訓練されている、請求項1から6に記載の方法。
  8. 前記訓練データセットが、データサンプルの染色体からのデータを既知の相同組換え欠損状態ラベルと組み合わせることによって生成された人工サンプルデータで増強される、請求項7に記載の方法。
  9. 前記データ増強サンプルが、前記実サンプルデータセットにおいて観察されるような純度-倍数性比分布を表すために生成される、請求項8に記載の方法。
  10. 前記参照ゲノムが、最大100kbpビンの第1のセットに分割され、各染色体アーム上に前記カバレッジ信号を配置する前に、前記100kbpビンを少なくとも500kbpのより大きなビンの第2のセットに折り畳むステップをさらに含む、請求項1に記載の方法。
  11. 前記ビンの第1のセットの前記ビンが、最大100kbpの均一なサイズを有し、前記ビンの第2のセットの前記ビンが、2.5~3.5Mbpのサイズを有し、前記ビンの第1のセットから25~35個の100kbpビンをプールすることによって得られる、請求項10に記載の方法。
  12. 患者DNAサンプルの相同組換え欠損(HRD)状態を決定するインビトロ方法であって、
    患者サンプルからのDNAの断片を提供することと、
    染色体のセットと重複する前記断片を含むライブラリを構築することと、
    最大30倍の全ゲノムシーケンシングカバレッジ、好ましくは少なくとも0.1倍及び最大5倍のゲノムシーケンシングカバレッジまでライブラリをシーケンシングすることと、
    請求項1に従って得られた訓練された機械学習モデルの解析に基づいて前記患者サンプルの前記HRD状態を決定することと、
    を含む方法。
  13. 前記患者DNAサンプルが、腫瘍細胞を含まないDNA(cfDNA)、新鮮凍結組織(FFT)又はホルマリン固定パラフィン包埋(FFPE)サンプルである、請求項1から12のいずれか一項に記載の方法。
  14. 前記患者サンプルの前記HRDスコア又は前記HRD状態が、癌治療レジメンに対する腫瘍応答の予測因子である、請求項1から13のいずれか一項に記載の方法。
  15. 前記癌治療レジメンが、アルキル化剤、白金系化学療法剤、カルボプラチン、シスプラチン、イプロプラチン、ネダプラチン、オキサリプラチン、ピコプラチン、クロルメチン、クロラムブシル、メルファラン、シクロホスファミド、イホスファミド、エストラムスチン、カルムスチン、ロムスチン、フォテムスチン、ストレプトゾシン、ブスルファン、ピポブロマン、プロカルバジン、ダカルバジン、チオテパ、テモゾロミド及び/若しくは他の抗腫瘍性白金配位化合物、DNA損傷剤、放射線療法、アントラサイクリン、エピルビンシン(epirubincin)、ドキソルビシン、トポイソメラーゼI阻害剤、カンポテシン(campothecin)、トポテカン、イリノテカン、PARP(ポリADP-リボースポリメラーゼ)阻害剤、オラパリブ、ルカパリブ、ニラパリブ、タラゾパリブ、イニパリブ、CEP9722、MK4827、BMN-673、3-アミノベンズアミド、ベラピリブ(velapirib)、パミパリブ並びに/又はE7016からなる群から選択される、請求項15に記載の方法。
  16. 請求項1に記載の方法に従って、腫瘍患者サンプルがHRD陽性であることを検出するステップを含む、白金系化学療法剤、DNA損傷剤、アントラサイクリン、トポイソメラーゼI阻害剤、PARP阻害剤で治療するための癌患者を選択する方法。
  17. 前記患者が、高悪性度漿液性卵巣癌、前立腺癌、乳癌又は膵臓癌から選択される癌を有する、請求項16に記載の方法。
  18. 対象DNAサンプルの相同組換え欠損(HRD)状態を決定するための機械学習アルゴリズムを訓練する方法であって、
    既知の陽性の相同組換え欠損状態を有するサンプルからのカバレッジデータ信号アレイ及び既知の陰性の相同組換え欠損状態を有するサンプルからのカバレッジデータ信号アレイを機械学習教師あり訓練アルゴリズムに入力すること、
    を含む方法。
  19. 前記訓練された機械学習モデルが、ランダムフォレストモデル、ニューラルネットワークモデル、深層学習分類器又は畳込みニューラルネットワークモデルである、請求項1から18のいずれか一項に記載の方法。
  20. 前記ニューラルネットワークモデルで訓練された機械学習モデルが、前記陽性若しくは陰性のHRD状態の単一ラベルバイナリ分類、又は前記陽性、陰性若しくは不確定のHRD状態の単一ラベルマルチクラス分類、又は前記HRD状態を表すスカラHRDスコアをその出力で生成するように訓練された畳込みニューラルネットワークである、請求項19に記載の方法。
  21. 前記機械学習モデルが、同じHRD状態並びに同じ正規化された純度及び倍数性比を共有する実サンプルのセットの染色体からデータをサンプリングすることによって生成されたデータ増強セットを使用して半教師ありモードで訓練されている、請求項1から20のいずれか一項に記載の方法。
JP2023505760A 2020-07-27 2021-07-27 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法 Pending JP2023535962A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20187813.9A EP3945525A1 (en) 2020-07-27 2020-07-27 Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data
EP20187813.9 2020-07-27
PCT/EP2021/071073 WO2022023381A1 (en) 2020-07-27 2021-07-27 Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data

Publications (1)

Publication Number Publication Date
JP2023535962A true JP2023535962A (ja) 2023-08-22

Family

ID=71833187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023505760A Pending JP2023535962A (ja) 2020-07-27 2021-07-27 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法

Country Status (9)

Country Link
US (3) US20220028481A1 (ja)
EP (2) EP3945525A1 (ja)
JP (1) JP2023535962A (ja)
KR (1) KR20230045009A (ja)
CN (1) CN116194995A (ja)
AU (1) AU2021314892A1 (ja)
BR (1) BR112023000014A2 (ja)
CA (1) CA3185856A1 (ja)
WO (1) WO2022023381A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT201900013335A1 (it) * 2019-07-30 2021-01-30 Menarini Silicon Biosystems Spa Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)
US20220198267A1 (en) * 2020-12-18 2022-06-23 Vmware, Inc. Apparatus and method for anomaly detection using weighted autoencoder
US20230265525A1 (en) * 2022-02-22 2023-08-24 Genegeniedx Corp Methods for detecting homologous recombination deficiency in cancer patients
EP4297037A1 (en) * 2022-06-24 2023-12-27 Seqone Device for determining an indicator of presence of hrd in a genome of a subject
WO2024050366A1 (en) * 2022-08-30 2024-03-07 Foundation Medicine, Inc. Systems and methods for classifying and treating homologous repair deficiency cancers
CN115330603B (zh) * 2022-10-17 2023-01-20 湖南自兴智慧医疗科技有限公司 基于深度学习卷积神经网络的人类染色体图像摆正方法
WO2024124181A2 (en) * 2022-12-09 2024-06-13 The Broad Institute, Inc. Compositions and methods for detecting homologous recombination
CN116129123B (zh) * 2023-02-27 2024-01-05 中国矿业大学 基于不确定度校准和区域分解的端到端染色体分割方法
CN116646010B (zh) * 2023-07-27 2024-03-29 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质
CN117373678B (zh) * 2023-12-08 2024-03-05 北京望石智慧科技有限公司 基于突变签名的疾病风险预测模型构建方法及分析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2609216T3 (en) 2010-08-24 2016-09-12 Dana Farber Cancer Inst Inc Methods to predict anti-cancer response
AU2012358244A1 (en) 2011-12-21 2014-06-12 Myriad Genetics, Inc. Methods and materials for assessing loss of heterozygosity
NZ628813A (en) 2012-02-23 2015-10-30 Univ Denmark Tech Dtu Methods for predicting anti-cancer response
CA3190075A1 (en) 2012-06-07 2013-12-12 Institut Curie Methods for detecting inactivation of the homologous recombination pathway (brca1/2) in human tumors
AU2014248007B2 (en) 2013-04-05 2020-03-26 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
DK3180447T3 (da) 2014-08-15 2020-06-15 Myriad Genetics Inc Fremgangsmåder og materialer til analyse af homolog rekombinationsdeficiens
US20190139625A1 (en) * 2016-01-05 2019-05-09 Genome Research Limited Method of characterising a dna sample
US12062416B2 (en) * 2016-05-01 2024-08-13 Genome Research Limited Method of characterizing a DNA sample
EP3475863B1 (en) 2016-06-22 2023-12-06 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data
EP3801623A4 (en) * 2018-06-01 2022-03-23 Grail, LLC NEURAL CONVOLUTIONAL NETWORK SYSTEMS AND DATA CLASSIFICATION METHODS
WO2021119311A1 (en) * 2019-12-10 2021-06-17 Tempus Labs, Inc. Systems and methods for predicting homologous recombination deficiency status of a specimen
WO2021231921A1 (en) * 2020-05-14 2021-11-18 Guardant Health, Inc. Homologous recombination repair deficiency detection

Also Published As

Publication number Publication date
CN116194995A (zh) 2023-05-30
EP3945525A1 (en) 2022-02-02
EP4189685A1 (en) 2023-06-07
US20220028481A1 (en) 2022-01-27
US20220310199A1 (en) 2022-09-29
AU2021314892A1 (en) 2023-03-09
CA3185856A1 (en) 2022-02-03
WO2022023381A1 (en) 2022-02-03
KR20230045009A (ko) 2023-04-04
BR112023000014A2 (pt) 2023-02-07
US20220084626A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
US20220310199A1 (en) Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next- generation sequencing data
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
KR102662206B1 (ko) 심층 학습 기반 비정상 스플라이싱 검출
US11621083B2 (en) Cancer evolution detection and diagnostic
JP2022025101A (ja) セルフリー核酸のフラグメントームプロファイリングのための方法
EP4073805B1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CA3239063A1 (en) Molecular analyses using long cell-free dna molecules for disease classification
Cambon et al. Classification of clinical outcomes using high-throughput informatics: Part 1–nonparametric method reviews
AU2022349855A1 (en) Methods of cancer prognosis
EP4377479A1 (en) Detection of genetic variants in human leukocyte antigen genes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20240725