JP7277450B2 - 体細胞構造変異の検出のための方法、及び、システム - Google Patents

体細胞構造変異の検出のための方法、及び、システム Download PDF

Info

Publication number
JP7277450B2
JP7277450B2 JP2020521572A JP2020521572A JP7277450B2 JP 7277450 B2 JP7277450 B2 JP 7277450B2 JP 2020521572 A JP2020521572 A JP 2020521572A JP 2020521572 A JP2020521572 A JP 2020521572A JP 7277450 B2 JP7277450 B2 JP 7277450B2
Authority
JP
Japan
Prior art keywords
events
mosaic
computer
samples
somatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020521572A
Other languages
English (en)
Other versions
JP2020537527A (ja
Inventor
ジュリオ ジェノヴェーゼ
ポー ル ロー
スティーヴン マッカロール
Original Assignee
プレジデント アンド フェロウズ オヴ ハーヴァード カレッジ
ザ・ブロード・インスティテュート・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by プレジデント アンド フェロウズ オヴ ハーヴァード カレッジ, ザ・ブロード・インスティテュート・インコーポレイテッド filed Critical プレジデント アンド フェロウズ オヴ ハーヴァード カレッジ
Publication of JP2020537527A publication Critical patent/JP2020537527A/ja
Priority to JP2023023146A priority Critical patent/JP2023071770A/ja
Application granted granted Critical
Publication of JP7277450B2 publication Critical patent/JP7277450B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Developmental Disabilities (AREA)
  • Social Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Surgery (AREA)
  • Urology & Nephrology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

関連出願への相互参照
本出願は、2017年10月17日に出願した米国仮特許出願第62/573,642号の利益を主張する。上記した出願の全内容を、本明細書の一部を構成するものとして、漏れなく援用する。
連邦政府から資金提供を受けた研究に関する陳述
本発明は、the National Institutes of Healthでの補助金交付番号第HG007805号、the National Human Genome Research Instituteでの第HG006855号、ならびに、the Department of Defenseでの第W81XWH-16-1-0315号及び第W81XWH-16-1-0316号の下で、合衆国政府の支援を受けて完成した。合衆国政府は、本発明について、一定の権利を有する。
技術分野
本明細書で開示した事項は、一般的には、長期位相データから体細胞構造変異を検出するためのコンピューターをベースとした方法、製品、及び、システムに関する。
体細胞変異を有する血球のクローン性増殖は、がんの罹患が定かでない個体で認められることがよくある。クローン性増殖で認められた当該体細胞変異は、ゲノム全体に非ランダムに群がっており、そして、一般的にがんにおいて変異している遺伝子が豊富であり、検出可能なクローンモザイクが往々にして前がん状態である、という考えと一致しており、このようなモザイクは、将来の血液悪性腫瘍のリスクを10倍超にまで高める。幾つかの結果は、クローンモザイクの可能性に対する遺伝的変異の潜在的な寄与を示唆している。これまでの研究は、当該ゲノム全体に群がるモザイク現象の健康への影響を調査しているが、偶発的がんに対する特定の体細胞変異の影響は、染色体Y(mLOY)事象の一般的な損失を超えて定量することが困難であった。
クローンモザイク現象のほとんどすべての研究における制限要因は、試料サイズであり、ゲノム全体で検出可能であった最大で約1,000のモザイク事象から初期の洞察を得ている。2つの主要な要素:(i)分析した個体の数、及び(ii)低度~中程度の細胞分画に存在するクローン性増殖を検出する能力が、検出可能なモザイクの突然変異の数を決定する。
特定の例示的な実施形態では、体細胞構造変異を同定する方法は、1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定すること、それぞれの試料における構成的分節重複をマスクすること、それぞれの試料についての体細胞SV事象の推定セットを同定すること、ならびに、少なくとも一部を、体細胞SV事象の推定セットに対する尤度比試験の適用に基づいて、それぞれの試料についての体細胞SV事象の最終セットを定義すること、を含む。対立遺伝子の総頻度、及び、相対頻度の決定は、遺伝子型強度データを、logR比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含み得る。分節重複は、少なくとも部分的に、認められた段階的BAF偏差のモデル化に基づいてマスクし得る。特定の例示的な実施形態では、認められたBAF偏差のモデル化は、pBAF値に対応する状態を有する25状態隠れマルコフモデル(HMM)を使用して、個々の染色体にわたるモデル化を含む。特定の例示的な実施形態では、マスクする領域の選択は、HMMを通してビタビ経路を演算し、かつ、非ゼロ状態の連続領域を検査することを含む。
特定の例示的な実施形態では、SV事象の推定セットの同定は、3状態HMMの使用を含み得る。当該3状態HMMは、所定の体細胞SV事象にて平均|ΔBAF|を表す単一のパラメーターでパラメーター化し得る。
特定の例示的な実施形態では、当該方法は、同定したそれぞれのSV事象の染色体位置を同定することをさらに含み得る。特定のその他の例示的な実施形態では、当該方法は、同定したそれぞれの体細胞SV事象のコピー数を同定することをさらに含み得る。特定の例示的な実施形態では、当該方法は、同定したそれぞれの体細胞SV事象についての多重サブクローン性事象を検出することをさらに含み得る。特定の例示的な実施形態では、同定したそれぞれの体細胞SV事象の染色体位置を同定することは、3状態HMMの後方から5つの試料を取得し、かつ、当該5つの試料のコンセンサスに基づいてそれぞれのSV事象の境界を決定することを含む。特定の例示的な実施形態では、同定したそれぞれの体細胞SV事象のコピー数を決定することは、少なくとも部分的に、LRR、及び、|ΔBAF|偏差に基づいて、当該事象が、ロス、CNN-LOH、または、ゲインであった相対確率を決定することを含む。特定の例示的な実施形態では、多重サブクローン性事象を検出することは、乗法増分が0.01~0.25の範囲である|ΔBAF|レベルを有する51状態HMMに関するビタビ復号を使用して、同定したそれぞれの体細胞SVを再分析することを含む。
一部の実施形態では、1つ以上の体細胞SV事象の検出に基づいて、疾患、または、疾患に対する感受性を検出することをさらに含む。一部の実施形態では、当該疾患は、がんである。一部の実施形態では、当該がんは、血液癌を含む。一部の実施形態では、当該血液癌は、白血病である。一部の実施形態では、当該白血病は、慢性リンパ性白血病(CLL)である。一部の実施形態では、検出した1つ以上の当該SV事象は、表13から選択した1つ以上のSV事象を含む。
別の態様では、本開示は;コンピューターにより実行されると、遺伝子型決定データから当該コンピューターに体細胞構造変異(SV)を検出させるコンピューター可読プログラム命令を組み込んだ、コンピューターで実行可能な持続的記憶装置を含み、コンピューターで実行可能な当該プログラム命令が:1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定するコンピューターで実行可能なプログラム命令;構成的分節重複をマスクするコンピューターで実行可能なプログラム命令;1つ以上の試料のそれぞれの試料についての体細胞SV事象の推定セットを同定するコンピューターで実行可能なプログラム命令;ならびに、1つ以上の試料のそれぞれの試料についての1つ以上の体細胞SV事象を定義するコンピューターで実行可能なプログラム命令を含む、コンピュータープログラム製品を含む。
一部の実施形態では、当該製品は、1つ以上の試料のそれぞれの試料について同定したそれぞれの体細胞SV事象の染色体位置を決定する、コンピューターで実行可能なプログラム命令をさらに含む。一部の実施形態では、当該製品は、同定したそれぞれの体細胞SV事象のコピー数を決定する、コンピューターで実行可能なプログラム命令をさらに含む。一部の実施形態では、当該製品は、同定したそれぞれの体細胞SVについての多重サブクローン性事象を検出する、コンピューターで実行可能なプログラム命令をさらに含む。一部の実施形態では、対立遺伝子の総頻度、及び、相対頻度の決定は、遺伝子型強度データを、logR比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含む。一部の実施形態では、体細胞SV事象の推定セットを同定することは、3状態HMMの使用を含む。一部の実施形態では、当該3状態HMMは、所定の体細胞SV事象にて平均|ΔBAF|を表す単一のパラメーターでパラメーター化する。
一部の実施形態では、当該製品は、1つ以上の体細胞SV事象の検出に基づいて、疾患、または、疾患に対する感受性を検出することをさらに含む。一部の実施形態では、当該疾患は、がんである。一部の実施形態では、当該がんは、血液癌である。一部の実施形態では、当該血液癌は、白血病である。一部の実施形態では、当該白血病は、慢性リンパ性白血病である。
別の態様では、本開示は、1つ以上の体細胞SV事象を検出するシステムを含み、当該システムは:記憶装置;ならびに、当該記憶装置に通信可能に接続したプロセッサであって、当該記憶装置に格納され、当該システムに:1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定させ;構成的分節重複をマスクさせ;1つ以上の試料のそれぞれの試料についての体細胞SV事象の推定セットを同定させ;1つ以上の試料のそれぞれの試料についての1つ以上の体細胞SV事象を定義させる、アプリケーションコード命令を実行する、当該プロセッサを含む。
別の態様では、本開示は、対立遺伝子頻度を決定するための試薬、及び、本明細書に記載したコンピュータープログラム製品またはシステムを含むキットを含む。
別の態様では、本開示は、対象の病態の存在または感受性を検出する方法を含み、当該方法は、本明細書に記載の方法を使用して、当該対象由来の試料での1つ以上の体細胞構造変異を検出することを含み、1つ以上の当該体細胞構造変異の有無が、病態の存在または感受性を示す。
一部の実施形態では、当該核酸は、無細胞核酸である。一部の実施形態では、当該試料は、母体血液であり、かつ、当該無細胞核酸は、胎児無細胞核酸である。一部の実施形態では、当該無細胞核酸は、循環腫瘍DNAである。一部の実施形態では、当該病態は、胎児異数性である。一部の実施形態では、当該病態は、がんである。一部の実施形態では、当該方法は、検出した当該病態の存在または感受性に基づいて、医療処置を実行することをさらに含む。
例示的な実施形態のこれら、ならびに、その他の態様、目的、特徴、及び、利点は、例示した例示的な実施形態の以下の詳細な説明を考慮すれば、当業者には自明である。
本発明の原理を利用し得る例示的な実施形態を説明する以下の詳細な説明と、添付した図面とを参照することで、本発明の特徴及び利点は理解できる。
特定の例示的な実施形態に従って、体細胞構造変異を検出するためのシステムを示すブロック図である。
特定の例示的な実施形態に従って、遺伝子型決定データにおいて体細胞構造変異を検出するための方法を示すブロック流れ図である。
特定の例示的な実施形態に従って、演算機器及びモジュールを示すブロック図である。
それぞれの水平線が、単一の体細胞SVに対応している;合計で5,562個の常染色体事象を、4,889個のユニークな個体で示している。本出願人は、女性で、2,780個の染色体X事象をさらに検出した(大部分は、染色体全体のロス)。検出した事象を、コピー数で色分けする(ロス=赤色、CNN-LOH=緑色、ゲイン=青色、不明=灰色)。部分欠失は、可能であれば、推定標的遺伝子の名称を赤字で表示する。近傍の体細胞SVに影響を与える遺伝子座は、SVの色で表示する。拡大した染色体ごとのプロットは、図12~34に記載している。
検出した体細胞SVの分布特性。(図5A)対立遺伝子の総強度の尺度であるLog2R比(LRR)は、それぞれのコピー数の事象の間で、対立遺伝子の相対強度の尺度であるB対立遺伝子頻度(BAF)偏差に対して、ほぼ線形に加減する[1、2、8]。(図5B)ゲイン事象が多い常染色体は、ロス事象が少ない傾向がある(染色体14及び22に関するV(D)J組換えが関与する欠失を除く)。(図5C)常染色体の体細胞SVが検出された大部分の個体は、1つの事象しか有していないが、予想よりも多くの数(441対100)では、多重事象がある。SVタイプの幾つかのペアが、偶然から予想されるよりも遙かに頻繁に同時発生しており;共起グラフスケールでは、端部の加重が大きくなっている。(図5D)検出可能なモザイクの割合は、特に、女性の染色体Xのロスについては、年齢と関係して増加する。エラーバー、95%CI。(図5E)異なるSVタイプの保有者は、異なる年齢及び性別分布を有する。エラーバー、平均値の標準誤差。(図5F)異なる血統で異常な血球数を有する個体間において、異なるSVが有意に高まっている(FDR0.05)。表1~6に、数値データを示す。
10q25.2で切断を招く脆弱な箇所FRA10Bでの反復増殖。上部のパネル(a~c)は、UK Biobank分析を示しており、また、下部のパネル(d、e)は、SFARI分析を示す。(図6A)10q25.2での生殖系列変異体は、UK Biobankの末端10qモザイク欠失と強く関連している。当該欠失の左側の境界は誤りであると判定しており;真正のブレークポイントは、おそらくは、ほぼ同じである、ことに注意されたい。(図6B)末端10q欠失のUK Biobank保有者は、主に、女性であり、そして、全体の研究集団のそれと同様の年齢分布を有する。(図6C)当該欠失のすべてのUK Biobank保有者は、rs118137427:Gマイナー対立遺伝子を保有する。(図6D)末端10q欠失を有するSFARI試料(2つの親子二人組)は、FRA10Bで継承した反復増殖を保有する。(図6E)FRA10Bでの反復増殖のすべてのSFARI保有者は、rs118137427:Gマイナー対立遺伝子を保有する。
クローン選択に起因するシスの体細胞SVに関連する新規の遺伝子座。それぞれの遺伝子座では、図7A、7B、及び、7Cのそれぞれに示したように、1つ以上の受け継いだ遺伝的変異が、染色体変異を引き起こして、増殖する上での利点をもたらす。ゲノム改変を、それぞれのパネルの上部に示し、また、関連シグナルを、下部にプロットしている。変異体に関連する独立したリードに標識を付け、そして、リード変異体との結合不均衡に従って色分けをする(スケーリングをして読み易くした)。図7Cでは、CNN-LOH、及び、ロス事象に対する異なる矢印の大きさは、CNN-LOHが、より一般的なシナリオであることを示す(集団の間、及び、リスク変異体の保有者の間;図18及び38)。
体細胞SVと、偶発的がん、及び、死亡率との関連。(図8A)多重SVタイプは、DNAを回収して>1年後に診断した偶発的がんのリスク増加を招く。(図8B、図8C)モザイク状態(特に、13q欠失、及び、12トリソミー)を含むロジスティックモデルは、その他のリスク要因と共に、偶発的CLLの試料外予測精度を高める。(図8D)(任意のSVの)検出可能なクローン性、及び、偶発的なCLLを有する個体において、クローン細胞分画とは逆に、悪性腫瘍までの時間を追跡する。(図8E)(任意の常染色体での)ロス、ゲイン、及び、CNN-LOH事象はすべて、死亡リスクを高める。数値データを、表12及び13に示す。
このUK Biobank試料(1282743)は、約31~53Mbに由来するchr13のモザイク欠失があり、このことは、非位相B対立遺伝子頻度(BAF)、及び、log2R比(LRR)データだけでは、確証を持って認めることができない(図9A、図9C)。しかしながら、段階的BAFデータ(図9B)では事象の存在が明らかであり、また、LRRの局所的減少は、この事象が欠失であることを示す。
このUK Biobank試料(2480737)には、9pテロメアから約27Mbまでのchr9pにモザイクCNN-LOHがあり、このことは、非段階的B対立遺伝子頻度(BAF)データ(図10A)から確証を持って認めることができないが、段階的BAFデータでは明らかである(図10B)。位相切替えエラーは、20Mbで段階的BAFのサイン切替えを招く。当該領域(図10C)でのlog2R比(LRR)のシフトの欠如は、この事象が、CNN-LOHであることを示す。
このUK Biobank試料(2961290)は、chr12に完全染色体モザイク事象を有しており、このことは、非位相B対立遺伝子頻度(BAF)、及び、log2R比(LRR)データだけでは、確証を持って認めることができない(図11A、図11C)が、段階的BAFデータでは明らかである(図11B)。幾つかの位相切替えエラーは、chr12全体で段階的BAFのサイン切替えを招く。平均LRRのわずかな正のシフト(図11C)は、この事象が、chr12のモザイクゲインであることを示す。
それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。 それぞれの図は、実施例試料セットのそれぞれの染色体で検出したモザイクSV事象を提供する。分析をしている特定の染色体を、それぞれの図の上部に示す。事象を、コピー数に応じて色分けしている:ロス(赤色)、CNN-LOH(緑色)、ゲイン(青色)、不明(灰色)。濃色は、対立遺伝子の割合が高いことを示す。単一の個体での多重事象は、同じy座標でプロットしている(プロットの上部)。コピー数が不明な事象も、一般的には、対立遺伝子の割合が低いので、境界の不確実性が大きくなる。
それぞれの染色体で検出した体細胞SVの対立遺伝子の総強度対相対強度。検出したそれぞれのSVの平均log2R比(LRR)を、ヘテロ接合部位でのB対立遺伝子頻度の推定変化(|ΔBAF|)に対してプロットする。
体細胞SVを検出するための位相一致をベースとした統計試験の感度。我々のアルゴリズムが判定したそれぞれの体細胞SV(赤色=ロス、緑色=CNN-LOH、青色=ゲイン、灰色=コピー数不明)について、我々は、refの位相一致試験を使用して、二項P値を演算した[54]。この試験は、連続するヘテロ接合SNP間の相対的なハプロタイプの位相を利用するが、長期の位相情報は利用しない。我々は、それぞれのSVの推定細胞分画を、その位相一致P値に対してプロットした。(コピー数が不明な事象の場合、我々は細胞分画を推測せず、これらの事象をx軸にプロットする。)本出願人は、検出可能にするために数十メガベースで同相に集約する必要がある微妙な対立遺伝子の不均衡を予想したので、我々の分析で検出可能な事象の大部分は、位相一致試験を使用して、名目上の有意性に達しないことを認めた。
それぞれの染色体で検出した体細胞SVのクローン性増殖の程度。ロス、CNN-LOH、または、ゲインを判定するそれぞれの体細胞SVについて、LRR、及び、|ΔBAF|から、我々は、その対立遺伝子の割合(すなわち、当該SVを有する血液細胞の割合)を推定する。バイオリン形状プロットは、(少なくとも10の事象を判定した時はいつでも)染色体及びコピー数で層別化した対立遺伝子の割合の分布を示す。
体細胞ロス、及び、CNN-LOH事象によるゲノム範囲。赤色及び緑色の曲線は、当該ゲノムでのそれぞれの位置をカバーする検出した体細胞のロス(赤色)及びCNN-LOH(緑色)の総数を示す。
SFARI試料でのモザイク16p11.2の欠失の証拠は無い。chr6:25~35Mb(1行/SFARI個体)の読み取り深度プロファイルプロットは、UK Biobankで我々が認めた16p11.2の欠失を有する個体の証拠が無いことを示す(図27)。(図39A)おおよそ30個の試料(赤色)で、おそらくは、技術的な影響が故に、当該領域全体での読み取り漏れを示した。(図39B)ある試料は、約26.8~31.9Mbの候補モザイク複製を有する。
信頼度の高い、及び、信頼度の低い体細胞SV判定を有する個人の年齢分布。年齢分布を、(i)0.01(緑色)の厳密なFDR閾値を通過する「高品質」の検出事象、及び、(ii)0.01のFDR閾値には満たないが、0.05(赤色)のFDR閾値を通過する「低品質」の検出事象に対して生成させた。これらの分布を、UK Biobank登録者の全体的な年齢分布(青色)と比較を行ったが、40~70歳の範囲外の年齢の若干の個人を排除した。それぞれのカテゴリーでの事象数に基づくと、低品質で検出した事象の約20%は、偽陽性であると考えられる。FDR推定手順の健全性を確認するために、当該低品質の年齢分布を、高品質、及び、全体的な年齢分布に回帰させて、当該低品質の年齢分布を、(a)当該高品質事象の年齢分布と同様の年齢分布を有する正しく判定した事象と、(b)当該試料全体と同様の年齢分布を有する偽の判定との混合物であると推論した。偽の判定に対応する要素について、0.30の回帰重みが認められており、推定偽陽性率と十分一致していた。
クローン選択に起因するシスでのJAK2 46/1ハプロタイプと、9p CNN-LOHとの間での従来の関連性の複製。共通するJAK2 46/1ハプロタイプは、体細胞JAK2 V617F変異のリスクを招き、次いで、9p CNN-LOHが、強い増殖効果をもたらすことが知られている[13~16、18]。この分析では、9pに関するCNN-LOHは、JAK2 46/1(P=1.6×10-13;OR=2.7(2.1~3.5))と強く関連しており、リスクハプロタイプは、主に、hetsでは、CNN-LOHで複製される(52/61ヘテロ接合性ケース;P=1.8×10-8)。この図では、ゲノム改変を上部のパネルに示しており、そして、関連するシグナルを下部にプロットしている。リード関連変異体に標識を付け、そして、リード変異体との結合不均衡に従って色分けをする(スケーリングをして読み易くした)。
10q25.2でのFRA10Bドライブ切断での多重反復増殖。(図42A)反復増殖を有するSFARIでの30名の個人は、増殖の程度が異なる4つの異なる反復モチーフを保有する。反復モチーフは、ATリッチであり、そして、以前に報告したFRA10B反復に類似している[35]。(図42B)UK Biobankでの10q末端欠失の保有者は、10q25.2で、同祖的な長さのハプロタイプを共有する。IBDグラフの正方形の結節点は男性に対応しており、そして、円形は女性に対応している。結節点の大きさは、クローン細胞分画に比例しており、また、末端の加重は、IBDの長さとともに大きくなる。色を付けた結節点は、FRA10Bでの反復配列多型(VNTR)の帰属保有者を示しており;色強度スケールは、帰属用量に比例する。
FRA10Bでの反復配列多型を含むSFARI系統。読み取り計数(非リファレンス/合計)を、各個人について報告しており、そして、自閉症発端者を、オレンジ色で示している。
p-テロメアに向かって伸長するchr1に関する体細胞SVを有する個人でのMPL遺伝子座(chr1:43.8Mb)での同祖的下降グラフ。IBDグラフの正方形の結節点は男性に対応しており、そして、円形は女性に対応している。結節点の大きさは、クローン細胞分画に比例しており、また、末端の加重は、IBDの長さとともに大きくなる。色を付けた結節点は、体細胞chr1p CRP-LOHに関連するSNPの帰属保有者(図4)を示しており;色強度スケールは、帰属用量に比例する。
15q26.3での生殖細胞系列CNV。(図45A)chr15qの700kbの末端におけるSFARI試料の読み取り深度プロファイルプロット。ある家族の3名は、15q26.3で、約70kbの欠失を保有しており、そして、4人目は、約290kbの重複と同じ欠失を保有している(おそらくは、これらの事象の母集団頻度に基づいた同じハプロタイプに関するものである;図38を参照されたい)。これらの4名(青色で強調表示した)は、SFARIでは、rs182643535T対立遺伝子から離間している。15qモザイクの証拠を示すものは無かった。(図45B)拡大した読み取り深度プロファイルプロットであり、欠失だけの個体は、青色で強調表示しており、また、del+dupの個体は、緑色で強調表示している。ブレークポイント分析は、約70kbの欠失が、chr15:102151467~102222161にまで及び、そして、逆方向で保持されている1139bpの中間セグメント(chr15:102164897~102166035)を含む、ことを示す。約290kbの複製は、chr15:102026997~102314016にまで及ぶ。
15q26.3での体細胞SV及び生殖細胞系列CNV。生殖細胞系列の約70kb欠失、及び、約290kb重複の同定したブレークポイントを使用して(図37)、我々は、約70kb欠失領域内(24プローブ)、及び、隣接する約220kb領域内(97プローブ)で、UK Biobank試料での平均遺伝子型決定強度(LRR)を演算した。個々人を、220kbの平均LRRと、70kbの平均LRRとを隣接させてプロットし、そして、体細胞15qSVのモザイク状態に応じて色分けする。70kbの欠失、290kbの複製、及び、del+dupを保持するUK Biobank試料はすべて、異なるクラスターで簡単に同定できる。このプロットは、コピー数の多いクラスターも含んでいるようである。単純な70kbの欠失は、体細胞SVの素因となる唯一の構成的CNVである。ほとんどの体細胞SVは、CNN-LOH事象であり、70kbの欠失について細胞をホモ接合性にしており;2名は、相同(正常)染色体の体細胞ロスを招いて、70kbの欠失に対して細胞を半接合にする。
多重CNN-LOHサブクローンを有する染色体の段階的BAFプロット。上記したすべてのプロットは、テロメアに向かう|ΔBAF|を増加させる段階関数を示しており、異なる長さの染色体アーム(すべてが、当該テロメアにまで及ぶ)に影響をする異なるCNN-LOH事象を含む多重クローン細胞集団の特徴である。明確な|ΔBAF|値(HMMを使用して判定する)を、異なる色で示す。段階的BAFのサインの切替えは、段階的切替えエラーに対応しており、遺伝子型決定強度の極端なシフトが、遺伝子型決定の精度を低下させるので、|ΔBAF|が非常に大きな領域(例えば、chr14q CNN-LOH事象を有する個体5466353)になると、エラーが頻発する。
偏った女性chrXロスを有するシス関連性のマンハッタンプロット。プロットの間隔は、chrXセントロメア、及び、X転置領域(XTR)に対応しており;我々は、Laurie et al.[2]にならって、後者を分析からマスクした。
CLL予測精度:精密再現曲線。精度再現曲線は、ROC曲線が、図5b、cで報告したものと同じである、クロス検証ベンチマークのためのものである。右側のベンチマークは、リンパ球数が正常範囲(1×109/L~3.5×109/L)の個体だけを含んでいるが、左側のベンチマークでは、この制限を緩和している(また、予測のために、さらなるモザイク事象変数も使用する(11q-、14q-、22q-、及び、常染色体事象の総数)。双方のベンチマークでは、従前のがん診断、または、CLL診断での評価から1年以内の個体は除外している;しかしながら、リンパ球数が非常に多い一部の個体には、この制限を課しておらず(及び、1年を超えて診断がされていないにも関わらず、おそらくは、評価時点ですでにCLLを有していた)、したがって、2つのベンチマークの間での見かけの予測に差異があった。
リンパ球数で分別したCLL症例で検出した体細胞SV。これらの個人を、DNA回収時のがんの状態(従前の診断無し/任意の従前の診断)によって層別化し、そして、SV(ロス=赤色、CNN-LOH=緑色、ゲイン=青色、不明=灰色)を、着色した長方形を使用して、染色体ごとにプロットする(BAF偏差で高さを付ける)。
体細胞SVを検出するための隠れマルコフモデル。細胞集団における母系染色体と父系染色体の含有量のバランスを変化させる体細胞SVは、ヘテロ接合部位で、対立遺伝子バランス(|ΔBAF|)の偏差を招く。演算段階の遺伝子型決定強度データでは、これらの偏差は、同じ絶対値(θ)を有する符号付き偏差の伸びとして現れるが、位相切替えエラーで符号が反転する。単一パラメーターθの3状態隠れマルコフモデルは、この挙動を捕捉し、そして、尤度比検定統計量の演算を可能にする。
可能性のある構成上の重複の除外。長さが>10Mbであり、LRR>0.35、または、LRR>0.2であり、かつ、|ΔBAF|>0.16の事象を選別し、次いで、長さが<10Mbであり、LRR>0.2、または、LRR>0.1であり、かつ、|ΔBAF|>0.1の事象をさらに選別した。(i)構成的重複の大部分が短く、そして、(ii)短い事象は、ノイズの多いLRR及び|ΔBAF|推定値を有しているので、より厳格な選別を、短い事象に適用した。
本明細書での図面は、例示目的のものに他ならず、また、必ずしも、一定の縮尺で描かれてはいない。
一般的定義
特に断りの無い限り、本明細書で使用する技術用語、及び、科学用語は、本開示が関係する当業者が一般的に理解するものと同じ意味を有する。分子生物学における一般的な用語及び技術の定義は、Molecular Cloning:A Laboratory Manual,2nd edition(1989)(Sambrook,Fritsch,and Maniatis);Molecular Cloning:A Laboratory Manual,4th edition(2012)(Green and Sambrook);Current Protocols in Molecular Biology(1987)(F.M.Ausubel et al. eds.);the series Methods in Enzymology(Academic Press,Inc.):PCR 2:A Practical Approach(1995)(M.J.MacPherson,B.D.Hames,and G.R.Taylor eds.):Antibodies,A Laboraotry Manual(1988)(Harlow and Lane,eds.):Antibodies A Laboraotry Manual,2nd edition 2013(E.A.Greenfield ed.);Animal Cell Culture(1987)(R.I.Freshney,ed.);Benjamin Lewin,Genes IX,published by Jones and Bartlet,2008(ISBN 0763752223);Kendrew et al.(eds.),The Encyclopedia of Molecular Biology,published by Blackwell Science Ltd.,1994(ISBN 0632021829);Robert A.Meyers(ed.),Molecular Biology and Biotechnology:a Comprehensive Desk Reference,published by VCH Publishers,Inc.,1995(ISBN 9780471185710);Singleton et al.,Dictionary of Microbiology and Molecular Biology 2nd ed.,J.Wiley & Sons(New York,N.Y.1994),March,Advanced Organic Chemistry Reactions,Mechanisms and Structure 4th ed.,John Wiley & Sons(New York,N.Y.1992);及び、Marten H.Hofker and Jan van Deursen,Transgenic Mouse Methods and Protocols,2nd edition(2011)で認め得る。
本明細書で使用する単数形「a」、「an」、及び「the」は、文脈が明らかに他のことを示していない限り、単数及び複数の両方の意味を含む。
用語「任意の」または「任意に」は、その後に記載される事象、状況、または、置換が起こり得る、または、起こり得ないこと、及び、その説明は、当該事象または状況が起こる事例と、それが起こらない事例とを含むことを意味する。
端点で示した数値範囲は、それぞれの範囲内に含まれるすべての数及び分数、ならびに、そこに記載した端点を含む。
本明細書で使用する用語「約(about)」または「約(approximately)」は、パラメーター、量、時間的期間などの測定可能な数値を指す場合、指定した数値の、及び、同数値から±10%以下、±5%以下、±1%以下、及び、±0.1%以下など、当該指定した数値の、及び、同数値からの変動値を含むことを意味するが、かような変動は、開示した発明で実施する上で適切なものでなくてはならない。修飾語「約(about)」または「約(approximately)」が指す数値それ値自体も、具体的に、かつ、好ましくは開示されたものである、ことを理解されたい。
本明細書全体を通して「ある実施形態」、「実施形態」、「例示的実施形態」とは、当該実施形態に関連して説明する特定の特徴、構造、または、特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体の様々な箇所での句「ある実施形態では」、「実施形態では」、または「例示的な実施形態」の使用は、必ずしも、すべてが同じ実施形態を指すとは限らない。さらに、特定の特徴、構造、または、特性は、1つ以上の実施形態では、本開示から当業者には自明な任意の適切な方法で組み合わせ得る。さらに、本明細書に記載した一部の実施形態は、その他の実施形態が含む一部であるが、その他のものでない特徴を含み、異なる実施形態の特徴の組み合わせは、本発明の範囲内にあることを意味する。例えば、添付した特許請求の範囲では、請求した実施形態のいずれもが、任意の組み合わせで使用することができる。
本明細書で引用したすべての刊行物、刊行された特許公報、及び、特許出願は、それぞれの刊行物、特許公報、または、特許出願が、本明細書の一部を構成するものとして、具体的かつ個別に示されているのと同程度にまで、本明細書の一部を構成するものとして援用する。本明細書に開示した方法の感度の改善
概要
本明細書で開示した実施形態は、長期位相情報を利用して、遺伝子型データにおける微妙な染色体不均衡を検出する方法、システム、及び、コンピュータープログラム製品を提供する。クローン性増殖は、突然変異と、それに続く選択的増殖から生じるものであり、そして、本明細書で開示した実施形態は、がん、及び、その他の疾患を予測または診断する体細胞構造変異事象(SV)に使用し得る。本明細書で開示した方法での増強した感度は、疾患、または、感受性疾患の存在を検出するために使用し得る。同様に、本明細書で開示した実施形態は、疾患の進行、及び/または、治療的処置を追跡して、例えば、がんなどの特定の疾患状態のドライバー変異を含むクローンの解消など、疾患のクリアランスを検証し得る。
本明細書で開示したコンピューター実装方法は、有用な診断を提供するシステムであるキットにさらに組み合わせ得る。例えば、ソフトウェア構成要素を、試料遺伝子型決定のための試薬と一緒に梱包し、または、試料を加工して、様々な配列決定及びプローブをベースとした手法を含む対立遺伝子頻度を決定する遺伝子型決定システムに組み込み得る。
一部の実施形態では、本明細書で開示した方法は、無細胞核酸、または、単一細胞もしくは少数の細胞に由来する核酸など、少量の核酸を用いて、試料を分析するために使用し得る。例えば、これらの方法は、妊娠中の女性の血液での胎児核酸、循環腫瘍DNA、または、胚から得た単一細胞、もしくは、多重細胞に由来する核酸を分析するために使用し得る。
システムアーキテクチャの例
図1は、特定の例示的な実施形態に従った、遺伝子型決定データから体細胞構造変異を検出するためのシステムを示すブロック図である。図1に示すように、当該システム100は、1つ以上のネットワーク105を介して、互いに通信するように構成したネットワーク機器110及び120を含む。一部の実施形態では、機器120に関連する利用者は、本明細書に記載した技術の利点を得るために、利用者インターフェースアプリケーション111のインストールを行い、及び/または、機能選択を行わなければならない。
それぞれのネットワーク105は、ネットワーク機器(機器110及び120を含む)が、データ交換をすることができる有線または無線の通信手段を含む。例えば、それぞれのネットワーク105は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、イントラネット、及び、インターネット、携帯電話ネットワーク、または、これらの任意の組み合わせを含むことができる。例示的な実施形態の考察を通して、用語「データ」及び「情報」とは、本明細書では互換的に使用しており、テキスト、画像、オーディオ、ビデオ、または、コンピューターをベースとした環境に存在することができるその他の形式の情報を指す、ことを理解されたい。
それぞれのネットワーク機器110及び120は、ネットワーク105を介してデータを送受信することができる通信モジュールを有する機器を含む。例えば、それぞれのネットワーク機器110及び120は、サーバー、デスクトップ型コンピューター、ノート型コンピューター、タブレット型コンピューター、スマートフォン、携帯型コンピューター、携帯情報端末(「PDA」)、または、その他の任意の有線もしくは無線のプロセッサ駆動機器を含むことができる。図1に示した例示的な実施形態では、当該ネットワーク機器110及び120は、末端利用者、及び、バックエンドサーバの操縦者/管理者(図示せず)が操作する。利用者は、ウェブブラウザアプリケーション、または、スタンドアロンアプリケーションなどのアプリケーション121を使用して、分散ネットワーク105を介して、ファイルまたはウェブページを閲覧、アップロード、ダウンロード、または、その他の方法でアクセスすることができる。
そこに示したネットワーク接続は例であること、及び、コンピューターと機器との間の通信リンクを確立するその他の手段を使用できることが理解される。さらに、当業者、及び、本開示の利益を享有する者は、図1に例示した機器110及び120が、幾つかのその他の適切なコンピューターシステム構成のいずれかを持つことができることを理解するだろう。例えば、携帯電話、または、携帯型コンピューターとして具体化した利用者用機器120は、上記したすべての構成要素を含み得ない。
特定の例示的な実施形態では、本明細書に提示する実施形態に関連するネットワーク演算機器、及び、その他の任意の演算機器は、図1に関してさらに詳細に説明したものなど、それらに限定されない、任意のタイプの演算機器とし得る。さらに、これらの演算機器のいずれかに関連付けた任意の構成要素、例えば、本明細書に記載した構成要素、または、本明細書で提示した技術に関連付けたその他の任意の構成要素(スクリプト、ウェブコンテンツ、ソフトウェア、ファームウェア、または、ハードウェア)は、図1に関して詳細に考察している構成要素のいずれかとし得る。本明細書で考察している演算機器は、ネットワーク105などの1つ以上のネットワークを介して、その他の演算機器、または、通信システムと同様に、互いに通信することができる。当該ネットワーク105は、図2に関して考察したネットワーク技術のいずれかなど、任意のタイプのデータまたは通信ネットワークを含み得る。
プロセスの例
図2に例示する例示的な方法は、動作環境例100の構成要素に関して、以下で説明する。図2の例示的な方法は、その他のシステム、及び、その他の環境でも実行し得る。
図2は、特定の例示的な実施形態に従った、体細胞構造変異(SV)を検出するための方法200を示すブロック流れ図である。
方法200は、ブロック205で始まり、データ入力モジュール111は、分析のために1つ以上の試料から遺伝子型決定データを受け取る。特定の例示的な実施形態では、このデータ入力モジュール111は、入力した遺伝子型データから対立遺伝子の総強度、及び、相対強度の測定値を決定する。遺伝子型決定データは、当該技術分野の標準的な技術を使用して取得し得るものであり、UK Biobank[23]に保存されている遺伝子型決定データは、本明細書で開示した実施形態で使用し得る遺伝子型決定データの代表的なタイプを表す。特定の例示的な実施形態では、遺伝子型決定データからの対立遺伝子の総強度、及び、相対強度の決定は、遺伝子型強度データ(例えば、A及びB対立遺伝子プローブセット強度、Aint及びBint)を変換することを含む。特定の例示的な実施形態では、このものは、当該遺伝子型強度データを、logR比率(LRR)、及び、B対立遺伝子頻度(BAF)値へと変換することを含み得る。
特定の例示的な実施形態では、当該データ入力モジュール111は、遺伝子型強度データをLRR、及び、BAF値に変換するように構成しており、それぞれの遺伝子型バッチについて、判定した遺伝子型(AA、AB、BB)のそれぞれのクラスターについて、(X、Y)=(コントラスト、サイズ)-スペース[67]:
Figure 0007277450000001
にて、クラスター中央値を演算することを含む。バッチレベルのクラスターの中心を、可能なバッチ効果を考慮して演算する。クラスターが10未満の判定を含んでいれば、当該強度中央値を、欠如として設定する。次に、それぞれの個体について、アフィン正規化、及び、GC修正(X、Y)変換した強度。この手順は、特定の個体のSNP全体にわたるプローブ強度の系統的な変動(例えば、強度レベルが大幅に上昇または低下する)、ならびに、「GC波」アーティファクトを修正する[52]。特定の例示的な実施形態では、一対の多変量線形回帰
Figure 0007277450000002
式中、mは、SNPを示し、(X、Y)は、SNP mでの現在の個体/試料の(コントラスト、サイズ)-スペースの強度値であり、(Xexp、Yexp)は、SNP mで判定した個体の遺伝子型に対応するクラスター中心(上記したように演算した)であり、
Figure 0007277450000003
は、50、100、500、1k、10k、50k、100k、250kの9つのウィンドウ内のGC及びCpG含量の比率であり、そして、1M bpを、SNP mを中心としていた。このGC含量は、ヒトリファレンス(hg19)に関して、BEDツール[68]を使用して決定し得るものであり、そして、CpG含量は、EpiGRAPH CpGアノテーション[69]を使用して決定し得る。GC及びCpGの項を持たない式(3)及び(4)は、それぞれの個体で認められた強度値(X、Y)のアフライン変換となり、それぞれの個体で判定した遺伝子型に基づいて、「期待した」強度値(Xm、exp、Ym、exp)に最も一致する。当該GCとCpGの項は、測定したプローブ強度に関するローカルGC及びCpGの含量の影響に起因するアーティファクト変動の多項式(二次)モデルを構成する[52]。特定の例示的な実施形態では、最小二乗回帰は、式(3)及び(4)(個人の遺伝子型を判定せず、または、関連するクラスター中心を欠如するように設定したSPSを無視する)に対して実行して、修正した(X、Y)値を得て、回帰予測(すなわち、(Xm、exp、Ym、exp)から最小二乗残差を差し引いたもの)として定義する。
次に、それぞれの遺伝子型決定バッチ、判定した遺伝子型(AA、AB、BB)に由来するそれぞれのクラスターについて、当該データ入力モジュール111は、修正した(X、Y)値の平均を決定する。このステップでは、クラスターの中心を、アフラインで正規化し、かつ、GCで修正した(X、Y)値で再演算する(中央値ではなく平均値をとるが、さもなければ、最初のステップに従う)。
次に、それぞれの遺伝子型について、当該データ入力モジュール111は、修正した(X、Y)値を、LRR及びBAF値に変換する。当該(X、Y)の値は、[51]に開示したものと同様の極様変換と、それに続く、線形補間を使用して変換し得る;
Figure 0007277450000004
を設定しており、式中、第1の式で、XABは、現在のSNPでhetsと称する遺伝子型についての修正した平均X=logint/Bint値を示す。特定の例示的な実施形態では、XABを欠いているSNPを除外し得る。次いで、当該クラスター中心を、同じ方法で変換して、
Figure 0007277450000005
を取得し得る。次いで、クラスター中心間の線形補間を、
Figure 0007277450000006
空間で実行して[51]、それぞれの遺伝子型についてのBAF、及び、予想したlogRを推定して、そこからLRR値を、logR-logexpとして取得し得る。クラスター中心を欠いていれば、垂直線
Figure 0007277450000007
を挟んで反対側のクラスター中心を反映するように設定し得る。
特定の例示的な実施形態では、当該データ入力モジュール111を、それぞれの常染色体内のそれぞれの試料について標準偏差(BAF)を決定して、異常なBAF及びLRR値を除外し得る。特定の例示的な実施形態では、平均LRR>3.0(可能性のある非モザイクトリソミー)、または、平均LRR<-0.5(可能性のある非モザイクモノソミー)を有する染色体を、除外し得る。
特定の例示的な実施形態では、データ入力モジュール111は、特定のゲノム領域をマスクするように構成し得る。例えば、染色体6のHLA領域(28,477,797-33,338,354、ビルド37)の遺伝子型測定値、及び染色体X(88,575,629-92,308,067)のX転座領域(XTR)は、マスクし得る[2]。
次いで、当該方法は、ブロック210に進み、当該体細胞SVモジュール112は、遺伝子型決定データ内の受け継いだ分節重複(すなわち、構成的重複)を同定してマスクする。BAF及びLRRでは、100%の細胞分画で、体細胞ゲイン事象と同じ効果があるので、構成的重複は、モザイクSVの偽陽性検出を生み出す可能性がある。構成的欠失は、100%の細胞分画で、体細胞ロス事象のように挙動する。
構成的重複は、特徴的に短く(一般的には、1Mb未満)、また、遺伝子型決定の強度が極端にシフトするので、比較的簡単に選別でき;ヘテロ接合部位は、|ΔBAF)約0.17のAABまたはABB遺伝子型を有しており、そして、すべての部位は、LRR約0.35の3倍体の総コピー数を有する(図2、及び、図44)。そのような領域を判定してマスクするために、当該SVモジュール112は、25状態隠れマルコフモデル(HMM)を使用して、染色体にわたって認められた段階的BAF偏差(pBAF)をモデル化し得る。特定の例示的な実施形態では、当該SVモジュール112は、0.02の間隔で、[-0.24、+0.24]のpBAF値に対応する状態を有する、認められた段階的BAF偏差をモデル化する。それぞれの状態は、それぞれの箇所(遺伝子型決定バッチ内のすべての個体にわたって測定した)で、平均値が状態値に等しく、かつ、標準偏差が経験的標準偏差(BAF)に等しい、正規分布で認められたpBAFを放出したと考えられ、そして、zスコアを、4を上限とすることで、異常値の影響を減らし得る。当該SVモジュール112は、確率0.003(事象境界のモデル化)で、0状態とそれぞれの非ゼロ状態との間の遷移、そして、確率0.001(位相スイッチエラーのモデル化)で、それぞれの非ゼロ状態と、そのネガティブ状態との間の遷移を可能にするように構成し得る。テロメアでは、0.01の確率を、(テロメアで終了するコールを優先するため)それぞれの非ゼロ状態の開始/終了に割り当て得る。
当該SVモジュール112は、上記したHMMを通してビタビ(最尤)経路を演算し、そして、非ゼロ状態の隣接領域を調べることで、マスクする領域を選択し得る。特定の例示的な実施形態では、当該SVモジュール11は、構成的重複である可能性が高い<2MBの|ΔBAF|>0.1、及び、LRR>0.1の領域をマスクし、そして、このフォームの近傍の領域間の(<2Mbの)ギャップをさらにマスクすることができる(統合した領域の1Mbの側面には、明らかなモザイク、すなわち、|ΔBAF|<0.05が認められなかったと考えられる)。
次に、当該方法は、ブロック215に進み、当該SVモジュール112は、推定の体細胞SV事象を検出する。多状態隠れマルコフモデルでビタビ復号を行う上記した手法は、構成的重複を探し出すには適しているが、細胞分画が小さな体細胞SVに対して敏感である正式に十分に較正した統計試験を定義するには、別の手法が必要である。上記した単一の25状態HMMは、モザイク事象内の平均|ΔBAF|を表す単一のパラメーターθでパラメーター化した3状態HMMのファミリーに置き換え得る(すなわち、当該HMMの状態は、{-θ、0、+θ}である;図43)。この手法の主な利点は、(i)自然に、尤度比検定統計量を生成して、θ=?0(次の節で説明する)を試験すること;ならびに、(ii)導出した試験統計を、位相切替え及びSV境界の不確実性を超えて統合する(最尤推定とは異なる)ことである。
状態数の減少とは別に、事象検出に使用する3状態HMMは、幾つかの定数値だけが、上記した25状態HMMと異なる。当該±θ→0「停止」遷移確率を、常染色体では3×10-4に、そして、染色体Xでは1×10-4にまで減少させ得るものであり、このことは、対象である体細胞事象の大部分が、数十メガベースのものである、という事実を反映している。当該±θ→0「開始」遷移確率を、常染色体(個々のX染色体)の停止確率の0.004(それぞれ、0.08)倍にまで抑制し得る。(開始確率と停止確率の非対称性は、当該HMMが、モザイク状態と非モザイク状態で同じ時間を費やすことを期待すべきではない、という事実を反映している;大部分の染色体の大部分の部分は、非モザイクであると考えられる。)当該-θ←→+θ切替えエラーの確率は、0.001に保たれており、大規模位相切替えの推定率[24、26]を概ね反映している。確率論的ペナルティは、末端動原体の染色体を除いて、非ゼロ状態で開始/終了するように評価する必要はなく、非ゼロ状態で開始する確率を(我々が、p-アーム遺伝子型を有していなければ、セントロメアで)、0.2の係数にまで抑制した。上記したように、それぞれの状態は、正規分布で認められたpBAFを放出すると考えられる;。特定の例示的な実施形態では、zスコアを、2を上限とすることで、異常値の影響をさらに抑制し得る。
この3状態HMMの潜在的な問題点は、|ΔBAF|が異なる多重SVを有する染色体を適切にモデル化しないことである。しかしながら、このモデルの主たる目的は、(特に、低細胞分画のSVについての)事象の発見である;SV事象を含む染色体を同定した後に、さらなる後処理(後述する)を、推定セットに対して行って、複雑なSVを回収する。加えて、事象を判定した後に、|ΔBAF|を、SV境界内で再推定し得る。
次いで、当該方法は、ブロック220に進み、当該SVモジュール112は、体細胞SV事象の最終セットを検出する。特定の例示的な実施形態では、当該SVモジュール112は、上記した推定SV事象を検出する際に決定した値に対して、尤度比検定を適用することで、体細胞SV事象の最終セットを検出する。特定の例示的な実施形態では、染色体に関する段階的BAF偏差(xで示した)の所定の配列について、θでパラメーター化したHMMのファミリーを、以下の尤度比検定統計に供する。所定のθについて、尤度L(θ|x)を、非ゼロ状態±θのHMM下でxを観測する総確率として、当該SVモジュール112で決定し得る。(この演算は、ダイナミック・プログラミングを使用して効率的に行うことができる。)次に、
Figure 0007277450000008
の尤度比は、
Figure 0007277450000009
で与えられ、式中、分子は、すべての状態が0に至る(すなわち、SVが存在しない)モデルでの尤度であり、そして、分母は、θを最良のもので選択した時の尤度である。
Figure 0007277450000010
の仮説検定を作成するためには、さらに1つのステップが必要である。漸近理論は、-2 log Λが、帰無仮説の下で、約χ2だけ分布していると主張するために引き出すことがよくあるが、そこには、2つの問題がある。最も重要なこととして、隠れマルコフモデルは不完全であり、特に、モデル内の確率定数の様々な選択により、検定統計量の絶対値が大幅に変わり得る。第2に、我々の帰無仮説θ=0は、パラメーター空間の境界にある。
これらの理由により、当該SVモジュール112は、理論に頼るのではなく、試験統計量-2 log Λの経験的ヌル分布を推定するように構成し得る。特定の例示的な実施形態において、ヌル分布は、認められたpBAF配列を取得し、そして、それぞれのヘテロ接合箇所で位相をランダム化して(|ΔBAF|を固定して維持して)概算する。例示的なある実施形態では、個々の試料ごとに5つの独立したランダム化を行い、それぞれの複製について、-2 log Λを演算し、そして、得られたヌル試験統計の分布を使用して、実際のデータで認められた試験統計に照らして、偽発見率0.05を達成するカットオフ値を決定した。この検定は、それぞれの常染色体、及び、染色体Xについて個別に実行でき、1.41~3.87の臨界値を示し得る。
次いで、当該方法は、ブロック225に進み、当該SVモジュール112は、体細胞SV事象染色体位置(すなわち、境界)を同定し得る。これまでの方法は、染色体のどこかでの体細胞SVの発生の有無を検出して、認められたBAF偏差を説明することができる。しかしながら、そうであるならば(すなわち、帰無仮説が否定された場合)、上記した方法では、SVが染色体のどこにあるかは示されない。SV境界を推定するために、当該SVモジュール112は、θの尤度最大化の選択を使用して、当該HMMの後方から5つの試料を取得し得る。次いで、当該SVモジュール112は、5つの試料のコンセンサスを使用して、SVの境界を同定し得る。
次いで、当該方法は、ブロック230に進み、当該SVモジュールは、体細胞SV事象のコピー数を同定する。LRRデータは、コピー数を決定するために組み込み得る。前述したように[1,2,8]、判定したSVの平均LRRは、(ロス及びゲインについての)推定BAF偏差と共に直線的に増加もしくは減少し、または、(CNN-LOHについては)ゼロに近似する(図2、及び、図27)。これらの傾向線は、当該SVモジュール112が、ゲイン及びロスに対応する、予想されるLRR/|ΔBAF|勾配を推定することを可能にする(それぞれ、約2.16、及び、-1.89)。推定BAF偏差/|ΔBAF|、及び、平均LRRμ^、及び、LRRσ^の標準誤差を有する特定の事象については、当該SVモジュール112は、当該事象が、ロス、CNN-LOH、または、ゲインであった相対確率を演算するように構成することができる。
特定の例示的な実施形態では、上記した手法は、ロス、CNN-LOH、及び、ゲインの染色体特異的頻度を活用することで改善し得る。具体的には、一部の染色体は、1つのタイプの事象を多数含んでおり、別のタイプは、ほとんど含んでおらず(図1)、そして、この情報は、コピー数が不明な事象(すなわち、|ΔBAF|が小さく、したがって、ロス、CNN-LOH、または、ゲインに対応する予想される平均LRRの間での乖離がほとんど無い事象)を判定する上で役立ち得る。当該SVモジュール112は、当該LRR対|ΔBAF|空間を、ロス/CNN-LOH/ゲイン傾向線を2等分する3つの区画に分割し:s=LRR/|ΔBAF|とし、s<-0.94の事象を、ロスまたは不明として判定し、-0.94≦s<1.08の事象を、CNN-LOHまたは不明として判定し、そして、1.08≦sの事象を、ゲインまたは不明として判定する必要がある。これらの区画の1つにある事象を判定するために、その平均LRRμ^は、(i)最も近傍の傾向線と、その次に近傍の傾向線での期待値の少なくとも2倍である;または(ii)その期待値の2つの標準誤差σ^内のいずれかである、ことをさらに必要とし得る。これらのルールを設定すると、当該SVモジュール112は、それぞれの事象に対する事前の判定を設定して、上記した要件が満たされ、かつ、可能性が最も大きな判定が、その次に可能性が大きい判定よりも少なくとも20倍のものであれば、(μ^及びσ^、ならびに、前段落で説明した通常のモデルに基づいて)事象のコピー数を判定するように構成し得る。次いで、当該SVモジュール112は、同じ手順を実行するが、従前の判定確率を組み込んで、すべての事象を再判定し得る:所定の事象について、例えば、類似の境界線(<10Mbで、かつ、染色体長の<10%が異なる)を使用して、最大で20個の事象に対して行われた事前判定から導出したそのコピー数を事前に増やしておき、0.5の疑似計数を加えることで、コピー数に、ゼロ確率が割り当てられないようにする。
ある特別な事例では、別個の処理を必要とし得る:1つの染色体アームのロスと、その他の染色体アームのゲインとを同時に伴うイソ染色体(最も顕著なのは、i(17q);図20)。したがって、当該SVモジュール112は、LRRが、p対qアームに関する有意な差異の有無を検査する全染色体事象についての別個の確認を含むように構成することができ、そうであれば、当該SVモジュール112は、セントロメアで事象を分割し得る。当該SVモジュール112は、より一般的には、多重|ΔBAF|、及び/または、判定でLRRレベルを有する事象の検索のための手作業確認も行い得るが、サブクローンCNN-LOH(後述する)を超えるような事象は認められなかった。
次いで、当該方法は、ブロック235に進み、当該SVモジュール112は、多重サブクローンSV事象を検出し得る。上記したフレームワークは、検出可能なクローン性を有する大部分の個体が、低度~中程度の細胞分画で、単一の単純な事象(単一のクローンロス、CNN-LOH、または、ゲイン)を有する集団コホートで発生する散発的なSVを同定し、かつ、判定することを目的としている。しかしながら、(主に、一般的、または、偶発的がんの診断を有する)少数の個体では、多重事象を検出し得るものであり、一部の試料では、重複または連続した事象が発生して、より慎重な処置が必要となる可能性がある。
したがって、当該SVモジュール112は、後処理ステップを実行し得ることとなり、検出した事象を、乗算増分において、0.01~0.25の範囲の|ΔBAF|レベルを有する51状態HMMで、ビタビ復号を使用して再分析する。このHMMでは、0状態と非ゼロ状態との間の開始/停止遷移(確率10-4)、及び、それぞれの状態と、そのネガティブとの間の切替えエラー遷移(確率0.001)に加えて、当該SVモジュール112は、異なる非ゼロ状態の間の|ΔBAF|シフト遷移(確率10-7)も導入し得る。テロメアでは、当該SVモジュール112は、それぞれの非ゼロ状態での開始/終了に対して、0.01の確率を割り当て得る。事後解読により多重|ΔBAF|状態が発生したすべての判定を調査し、そして、これらの事例のほとんどすべてにおいて、問題の事象は、本来は、CNN-LOHとして判定していたが、(染色体アームの様々なセグメントをカバーする多重サブクローンCNN-LOH事象と一致する)テロメアに関するBAF偏差を増加させる階段関数を示したことが認められた。そのようなすべての事象を、図39A~39Bに記載している。
次いで、当該方法を終了させる。
図53は、体細胞構造変異(SV)を検出するための例示的な方法(300)を示す。方法300は、コンピューター実装方法とし得るものであって、例えば、1つ以上の演算機器を使用して実行することができる。ステップ310は、1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定することを含み得る。この決定は、遺伝子型強度データを、logR比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含み得る。ステップ320は、1つ以上の試料のそれぞれの試料における構成的分節重複をマスクすることを含み得る。このマスク行為は、認められた段階的BAF偏差(pBAF)のモデル化を含み得る。特定の例では、認められた当該pBAFのモデル化は、pBAF値に対応する状態を有する25状態隠れマルコフモデル(HMM)を使用して、個々の染色体全体をモデル化して実行し得る。ステップ330は、1つ以上の試料でのそれぞれの試料についての体細胞SV事象の推定セットを同定することを含み得る。特定の例では、体細胞SV事象の推定セットは、3状態HMMを使用して同定し得る。この3状態HMMは、所定のSV事象内で、平均|ΔBAF|を表す単一のパラメーターによってパラメーター化し得る。ステップ340は、1つ以上の試料のそれぞれの試料について1つ以上の体細胞SV事象を定義することを含み得る。一部の実施形態では、ステップ310~340は、任意の順序、例えば、図53の矢印で示した順序で実行し得る。一部の事例では、ステップ310~340を、単一のステップとして実行し得る。
一部の実施形態では、方法300は、1つ以上の試料でのそれぞれの試料について、同定したそれぞれの体細胞SV事象の染色体位置を決定することをさらに含み得る。同定したそれぞれの体細胞SV事象の染色体位置を、3状態HMMの後方の5つの試料を取得し、そして、当該5つの試料のコンセンサスに基づいて、それぞれのSV事象の境界を決定することで特定し得る。
一部の実施形態では、方法300は、1つ以上の試料でのそれぞれの試料について、同定したそれぞれの体細胞SV事象のコピー数を決定することをさらに含み得る。同定したそれぞれの体細胞SV事象のコピー数は、少なくとも一部を、LRR、及び、|ΔBAF|偏差に基づいて、当該事象が、ロス、CNN-LOH、または、ゲインであった相対確率を決定して決定し得る。
一部の実施形態では、方法300は、同定したそれぞれの体細胞SV事象について、多重サブクローン性事象を検出することをさらに含み得る。当該多重サブクローン性事象は、乗法増分の範囲が0.01~0.25である|ΔBAF|レベルを有する51状態HMMに関するビタビ復号を使用して、同定したそれぞれの体細胞SVを再分析することで検出し得る。
一部の実施形態では、方法300は、マスクする領域を選択することをさらに含み得るものであり、このものは、当該HMMを通してビタビ経路を演算し、そして、非ゼロ状態の隣接領域を調べることを含む。特定の実施形態では、方法300は、例えば、1つ以上の体細胞SV事象の検出に基づいて、本明細書で開示した疾患、または、疾患に対する感受性を検出することをさらに含み得る。
本明細書では、コンピューターにより実行されると、本明細書に開示した方法をコンピューターに実行させる、コンピューター可読プログラム命令を組み込んだ、コンピューターで実行可能な持続的記憶装置を含むコンピュータープログラム製品も開示している。一部の例では、当該コンピューターで実行可能なプログラム命令は、方法300の1つ以上のステップを実行するためのコンピューターで実行可能なプログラム命令を含み得る。
さらに、本明細書では、体細胞SV事象を検出するためのシステムも開示している。特定の例では、当該システムは、記憶装置と、当該記憶装置に通信可能に接続したプロセッサとを含み得るものであり、当該プロセッサは、当該記憶装置に格納されており、かつ、システムに、方法300の1つ以上のステップを実行させる、アプリケーションコード命令を実行する。
本明細書の開示は、本明細書に記載の方法を実施するためのキットも含む。当該キットは、(例えば、対立遺伝子頻度を決定するための)試薬、コンピュータープログラム製品、システム、または、それらの組み合わせを含み得る。
その他の例示的実施形態
図3は、特定の例示的実施形態に従った演算機器2000、及び、モジュール2050を示す。当該演算機器2000は、本明細書で提示した様々なコンピューター、サーバー、モバイル機器、埋込システム、または、演算システムの任意のものに対応し得る。当該モジュール2050は、当該演算機器2000が、本明細書で提示した様々な方法、及び、処理機能の実行を容易ならしめるように構成した1つ以上のハードウェアまたはソフトウェア要素を含み得る。当該演算機器2000は、プロセッサ2010、システムバス2020、システムメモリ2030、記憶媒体2040、入力/出力インターフェース2060、及び、ネットワーク2080と通信するためのネットワークインターフェース2070などの様々な内蔵した、または、増設した構成要素を含み得る。
当該演算機器2000は、従来のコンピューターシステム、埋め込んだコントローラ、ラップトップ、サーバー、モバイル機器、スマートフォン、セットトップボックス、キオスク、ルーター、もしくは、その他のネットワークノード、車両情報システム、テレビに関連する1つ以上のプロセッサ、カスタマイズした機器、その他の任意のハードウェアプラットフォーム、または、それらの任意の組み合わせ、もしくは、個数で実装し得る。当該演算機器2000は、データネットワーク、または、バスシステムを介して相互接続した複数の演算機器を使用して機能するように構成した分散システムとし得る。
当該プロセッサ2010は、コードまたは命令を遂行して、本明細書に記載した動作、及び、機能を実行し、要求フロー、及び、アドレスマッピングを管理し、そして、演算を実行し、かつ、コマンドを生成するように構成し得る。当該プロセッサ2010は、演算機器2000での構成要素の動作を監視及び制御するように構成し得る。当該プロセッサ2010は、汎用プロセッサ、プロセッサコア、マルチプロセッサ、再構成可能プロセッサ、マイクロコントローラ、デジタル信号プロセッサ(「DSP」)、特定用途向け集積回路(「ASIC」)、グラフィック処理ユニット(「GPU」)、フィールドプログラマブルゲートアレイ(「FPGA」)、プログラマブルロジック機器(「PLD」)、コントローラ、ステートマシン、ゲートロジック、離散ハードウェア構成要素、その他の任意の処理ユニット、または、それらの任意の組み合わせ、もしくは、個数とし得る。当該プロセッサ2010は、単一の処理ユニット、複数の処理ユニット、単一の処理コア、複数の処理コア、専用処理コア、コプロセッサ、または、それらの任意の組み合わせとし得る。特定の実施形態では、当該プロセッサ2010は、当該演算機器2000のその他の構成要素と併せて、1つ以上のその他の演算機器で実行する仮想演算機器とし得る。
当該システムメモリ2030は、読み取り専用メモリ(「ROM」)、プログラム可能な読み取り専用メモリ(「PROM」)、消去可能でプログラム可能な読み取り専用メモリ(「EPROM」)、フラッシュメモリ、または、電力負荷の有無に関係なく、プログラム命令もしくはデータを保存できるその他の機器などの任意の不揮発性メモリを含み得る。当該システムメモリ2030は、ランダムアクセスメモリ(「RAM」)、スタティックランダムアクセスメモリ(「SRAM」)、ダイナミックランダムアクセスメモリ(「DRAM」)、及び、同期ダイナミックランダムアクセスメモリ(「SDRAM」)などの揮発性メモリも含み得る。その他のタイプのRAMも、当該システムメモリ2030を実装するために使用し得る。当該システムメモリ2030は、単一のメモリモジュール、または、複数のメモリモジュールを使用して実装し得る。当該システムメモリ2030を、演算機器2000の一部として示しているが、当業者であれば、当該システムメモリ2030が、特許請求した技術の範囲から逸脱せずに、演算機器2000から分離し得ることを認識する。また、当該システムメモリ2030は、記憶媒体2040などの不揮発性記憶機器を含み、または、それと併せて作動し得ることも理解されたい。
当該記憶媒体2040は、ハードディスク、フロッピーディスク、コンパクトディスク読み取り専用メモリ(「CD-ROM」)、デジタル多目的ディスク(「DVD」)、ブルーレイディスク、磁気テープ、フラッシュメモリ、その他の不揮発性記憶機器、半導体ドライブ(「SSD」)、任意の磁気記憶装置、任意の光学記憶装置、任意の電気的記憶装置、任意の半導体記憶装置、任意の物理ベースの記憶装置、任意のその他のデータ記憶装置、または、それらの任意の組み合わせ、もしくは、個数を含み得る。当該記憶媒体2040は、1つ以上のオペレーティングシステム、アプリケーションプログラム、及び、モジュール2050などのプログラムモジュール、データ、または、任意のその他の情報を記憶し得る。当該記憶媒体2040を、当該演算機器2000の一部とし得るものであり、または、当該機器2000に接続し得る。また、当該記憶媒体2040は、サーバー、データベースサーバー、クラウドストレージ、ネットワーク接続ストレージなどの、当該演算機器2000と通信する1つ以上のその他の演算機器の一部とし得る。
当該モジュール2050は、本明細書に記載した様々な方法、及び、処理機能を実行して、当該演算機器2000を補助するように構成した1つ以上のハードウェアまたはソフトウェア要素を含み得る。当該モジュール2050は、当該システムメモリ2030、当該記憶媒体2040、または、その両方に関連して、ソフトウェアまたはファームウェアとして記憶した1つ以上の一連の命令を含み得る。したがって、当該記憶媒体2040は、命令またはコードが、当該プロセッサ2010の実行のために記憶され得る機械、または、コンピューター可読媒体の例を示し得る。機械、または、コンピューター可読媒体は、一般的に、当該プロセッサ2010に命令を提供するために使用する任意の1つ以上の媒体のことを指し得る。当該モジュール2050に関連するかような機械、または、コンピューター可読媒体は、コンピューターソフトウェア製品を含み得る。また、当該モジュール2050を含むコンピューターソフトウェア製品は、ネットワーク2080、任意の信号伝達媒体、またはほかの任意の通信もしくは送達技術を介して、当該モジュール2050を演算機器2000に送達するための1つ以上のプロセスまたは方法に関連し得る、ことを理解されたい。また、当該モジュール2050は、FPGA、または、その他のPLDのためのマイクロコード、または、構成情報などのハードウェア回路を構成するためのハードウェア回路、または、情報を含み得る。
当該入力/出力(「I/O」)インターフェース2060は、1つ以上の外部機器に接続し、1つ以上の外部機器からデータを受信し、そして、1つ以上の外部機器にデータを送信するように構成し得る。そのような外部機器は、様々な内部機器と共に、周辺機器としても公知である。当該I/Oインターフェース2060は、様々な周辺機器を、当該演算機器2000、または、当該プロセッサ2010に作動可能に結合するための電気的、及び、物理的接続の両方を含み得る。当該I/Oインターフェース2060は、周辺機器、当該演算機器2000、または、当該プロセッサ2010との間で、データ、アドレス、及び、制御信号を通信するように構成し得る。当該I/Oインターフェース2060は、小型コンピューターシステムインターフェース(「SCSI」)、シリアル接続SCSI(「SAS」)、ファイバーチャネル、周辺機器相互接続(「PCI」)、PCIエクスプレス(PCIe)、シリアルバス、パラレルバス、アドバンスト・テクノロジー・アタッチメント(「ATA」)、シリアルATA(「SATA」)、ユニバーサルシリアルバス(「USB」)、Thunderbolt、FireWire、様々なビデオバスなどの任意の標準インターフェースを実装するように構成し得る。当該I/Oインターフェース2060は、1つのインターフェース、または、バス技術のみを実装するように構成し得る。あるいは、当該I/Oインターフェース2060は、複数のインターフェース、または、バス技術を実装するように構成し得る。当該I/Oインターフェース2060は、当該システムバス2020の一部として、そのすべてとして、または、当該システムバス2020と共に作動するように構成し得る。当該I/Oインターフェース2060は、1つ以上の外部機器、内部機器、当該演算機器2000、または、プロセッサ2010の間の送信をバッファリングするための1つ以上のバッファを含み得る。
当該I/Oインターフェース2060は、当該演算機器2000を、マウス、タッチスクリーン、スキャナー、バイオメトリックリーダー、電子デジタイザー、センサー、レシーバー、タッチパッド、トラックボール、カメラ、マイク、キーボード、その他の任意のポインティング機器、または、それらの任意の組み合わせなどの様々な入力機器に接続し得る。当該I/Oインターフェース2060は、当該演算機器2000を、ビデオディスプレイ、スピーカー、プリンター、プロジェクター、触覚フィードバック機器、オートメーション制御、ロボット構成要素、アクチュエーター、モーター、ファン、ソレノイド、バルブ、ポンプ、トランスミッター、信号エミッタ、ライトなどの様々な出力機器に接続し得る。
当該演算機器2000は、当該ネットワークインターフェース2070を介して、1つ以上のその他のシステムに対する論理接続、または、当該ネットワーク2080を横断する演算機器を使用して、ネットワーク環境で作動し得る。当該ネットワーク2080は、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、イントラネット、インターネット、無線アクセスネットワーク、有線ネットワーク、モバイルネットワーク、電話回線ネットワーク、光ネットワーク、または、それらの組み合わせを含み得る。当該ネットワーク2080は、任意のトポロジーのパケット交換、回路交換とし得るものであり、かつ、任意の通信プロトコルを使用し得る。当該ネットワーク2080での通信接続は、光ファイバーケーブル、自由空間光通信、導波管、導電体、無線リンク、アンテナ、無線周波数通信などの様々なデジタルまたはアナログ通信媒体を含み得る。
当該プロセッサ2010は、当該システムバス2020を介して、当該演算機器2000のその他の要素、または、本明細書に記載した様々な周辺機器に接続し得る。当該システムバス2020は、当該プロセッサ2010の内部、当該プロセッサ2010の外部、または、その両方とし得る、ことを理解されたい。一部の実施形態では、当該プロセッサ2010のいずれもが、当該演算機器2000のその他の要素、または、本明細書に記載した様々な周辺機器を、システムオンチップ(「SOC」)、システムオンパッケージ(「SOP」)、または、ASICデバイスなどの単一の機器に統合し得る。
本明細書に記載したシステムが、利用者に関する個人情報を収集し、または、個人情報を利用する状況では、プログラムまたは機能による、利用者情報(例えば、利用者のソーシャルネットワーク、ソーシャルアクション、または、アクティビティ、職業、利用者の嗜好、または、利用者の現在位置に関する情報)の収集の可否を制御し、あるいは、利用者に関連性の高いコンテンツをコンテンツサーバーから受信するかどうか、及び/または、受信する方法を制御する機会を利用者に提供し得る。加えて、特定のデータは、保存または使用をする前に、1つ以上の方法で処理をして、個人を特定する情報を削除し得る。例えば、利用者の個人情報を処理して、利用者を特定する情報を特定できなくし、または、利用者の地理的位置を、位置情報がどこで取得されたか(都市、郵便番号、または州レベル)に一般化して、利用者の位置を特定できなくする。したがって、利用者は、当該利用者に関する情報の収集の仕方、及び、コンテンツサーバーでの使用の仕方を制御し得る。
実施形態は、本明細書で説明及び例示した機能を具体化するコンピュータープログラムを含み得るものであって、当該コンピュータープログラムは、機械可読媒体に格納した命令と、当該命令を実行するプロセッサとを含むコンピューターシステムで実装する。しかしながら、コンピュータープログラミングにおいて実施形態を実装する数多くの異なる方法があることは自明であり、そして、当該実施形態は、任意の1組のコンピュータープログラム命令に限定されると解釈すべきではない。さらに、熟練したプログラマであれば、そのようなコンピュータープログラムを作成して、添付したフローチャート、及び、アプリケーションテキストでの関連する記載に基づいて、開示した実施形態の一部を実装することができる。したがって、プログラムコード命令の特定のセットの開示が、実施形態を作成及び使用する方法を適切に理解する上で必要である、とは見なさない。さらに、当業者であれば、本明細書に記載した実施形態の1つ以上の態様が、1つ以上の演算システムで実施し得るように、ハードウェア、ソフトウェア、または、それらの組み合わせで実行し得ることを理解し得る。さらに、複数のコンピューターが動作を実行し得るので、コンピューターが実行する動作に関しては、単一のコンピューターが実行するものと解釈すべきではない。
本明細書に記載した例示的な実施形態を、本明細書に記載した方法及び処理機能を実行するコンピューターハードウェア、及び、ソフトウェアと共に使用することができる。本明細書に記載したシステム、方法、及び、手順は、プログラム可能なコンピューター、コンピューターで実行可能なソフトウェア、または、デジタル回路で実施することができる。当該ソフトウェアは、コンピューター可読媒体に保存することができる。例えば、コンピューター可読媒体として、フロッピーディスク、RAM、ROM、ハードディスク、リムーバブルメディア、フラッシュメモリ、メモリスティック、光学メディア、光磁気メディア、CD-ROMなどがある。デジタル回路として、集積回路、ゲートアレイ、ビルディングブロックロジック、フィールドプログラマブルゲートアレイ(FPGA)などがある。
前出の実施形態で提示した例示的なシステム、方法、及び、動作は、例示目的のものであり、代替の実施形態では、特定の行動は、異なる順序で、互いに並行して、完全に省略して、及び/または、異なる例示的な実施形態の間で組み合わせることができ、及び/または、特定の追加の動作を、様々な実施形態の範囲、及び、趣旨から逸脱せずに実行し得る。したがって、本明細書で特許請求した発明は、そのような代替の実施形態を含む。
特定の実施形態を、詳細に説明してきたが、これらの説明は、例示目的のものに他ならない。したがって、上記した数多くの態様は、特に断りのない限り、必要とする、または、必須の要素として意図していないことを理解されたい。上記したものに加えて、例示的な実施形態の開示した態様の変更、及び、それに対応する同等の構成要素または動作は、本開示の利益を享有する当業者であれば、以下の特許請求の範囲で定義した実施形態の趣旨、及び、範囲から逸脱せずに実現することができ、当該範囲には、かような変更、及び、同等の構成を含む、最も広範な解釈が付与される。
例示的有用性
本明細書での方法は、疾患などの特定の病態に関連する1つ以上の体細胞構造変異を分析し、それにより、当該病態の存在または感受性を検出するために使用し得る。一部の実施形態では、本明細書で開示したものは、対象での病態の存在、または、感受性を検出する方法を含み、この方法は、当該対象由来の試料の核酸での1つ以上の体細胞構造変異を検出することを含む。1つ以上の体細胞構造変異の有無は、病態の存在または感受性を示す。
試料
一部の実施形態では、当該体細胞構造変異は、試料、例えば、少量の核酸を含む試料の核酸にある。特定の例では、当該試料は、目的の核酸を含む生物学的試料とし得る。一部の事例では、当該試料を、流体、例えば、体液とし得る。体液の例として、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液などがある。本明細書で使用する用語「血液」、「血漿」、及び、「血清」は、それらの画分、または、処理した部分を明示的に含む。同様に、試料を、生検、ぬぐい液、塗抹標本などから得る場合、当該「試料」は、生検、ぬぐい液、塗抹標本などに由来する処理した画分、または、一部を明示的に含む。一部の例では、当該試料を、血液とし得る。一部の例では、当該試料を、血漿とし得る。一部の例では、当該試料を、血清とし得る。一部の例では、当該試料を、組織もしくは臓器、または、胚、あるいは、それらの一部とし得る。
当該試料での核酸は、無細胞核酸を含み得る。用語「無細胞核酸」及び「循環無細胞核酸」とは、本明細書では互換的に使用しており、例えば、対象(妊婦または患者)の血液を循環する、インビボで、細胞外に存在する核酸、または、それらの断片のことを指す。また、これらの用語は、インビボで細胞外供給源から得て、そして、インビトロで、分離し、単離し、または、その他の方法で操作した核酸の断片のことを指すために使用することもできる。無細胞核酸の例として、無細胞DNA、無細胞RNA、無細胞胎児DNA、無細胞胎児RNA、循環腫瘍DNA、もしくは、循環腫瘍RNA、または、それらの任意の組み合わせがある。特定の実施形態では、当該核酸は、組織、臓器、または、胚に由来する単一の細胞、または、複数の細胞に由来し得る。一部の事例では、当該核酸は、例えば、着床前の遺伝子スクリーニングに使用される、胚由来の単一の細胞、または、複数の細胞に由来し得る。
非侵襲的出生前検査(NIPT)
一部の実施形態では、本明細書の方法は、非侵襲的出生前検査(NIPT)を実施するために使用し得る。例えば、当該方法は、妊娠した対象の液体試料での無細胞核酸を検出、及び/または、分析することを含み得る。無細胞核酸スクリーニング、または、NIPTは、バイオインフォマティクスツール及びプロセス、ならびに、母体血清でのDNA断片の次世代シーケンシングを利用して、妊娠中の特定の染色体状態の確率を決定する。すべての個人は、血流に各々の無細胞DNAを持っている。妊娠中、胎盤(主に、栄養膜細胞)由来の無細胞胎児DNAも母体血流に入り込み、そして、母体無細胞DNAと混合される。栄養膜細胞のDNAは、通常、胎児の染色体構成を反映している。
本明細書の方法は、母体試料(例えば、母体血液)由来の無細胞核酸を使用して、異数性(例えば、21トリソミー、18トリソミー、及び、13トリソミー)、先天性副腎過形成、単一遺伝子障害(例えば、嚢胞性線維症、ベータサラセミア、鎌状赤血球貧血、脊髄性筋萎縮症、及び、筋緊張性ジストロフィー)、溶血性疾患、または、その他の条件(例えば、胎児の性別)など、胎児の障害または病態をスクリーニングすることを含み得る。特定の事例では、当該方法は、22q11複製/欠失(例えば、Schmid et al.,Fetal Diagn Ther.2017 Nov 8.doi:10.1159/000484317)、1q21複製/欠失、16p11複製/欠失、15q11複製/欠失、15q13複製/欠失、または、これらの任意の組み合わせなど、これらに限定されない染色体変化(複数可)をスクリーニングすることを含む。
異常な結果は、一般的に、指定した病態のリスクが高いことを示す。一部の事例では、NIPTは、Norton ME etal.,Cell-free DNA Analysis for Noninvasive Examination of Trisomy,N Engl J Med,2015;372:1589-1597に記載された方法を使用して実行し得る。
がん診断
本明細書の方法は、循環核酸を分析して、循環腫瘍核酸(例えば、循環腫瘍DNA(ctDNA))を検出、及び、分析するために使用し得る。循環腫瘍核酸は、血液、または、その他の生物組織に存在する腫瘍細胞由来の核酸分子を含み得る。理論に拘束されるわけではないが、循環腫瘍核酸は、劣化が進むにつれて内容物を血中に放出する循環腫瘍細胞(CTC)など、死滅しつつある腫瘍細胞に由来し得る。
当該方法は、対象由来の循環核酸での1つ以上の体細胞構造変異の存在を検出することを含み、それにより、循環腫瘍核酸の存在の有無を検出し得る。当該循環腫瘍核酸が存在する事例では、当該方法は、当該循環腫瘍核酸を分析し、及び、当該循環腫瘍核酸での腫瘍関連変異体を検出することをさらに含み得る。分析の結果は、がんの病期、寛解、再発などの腫瘍の状態を検出するために使用し得る。一部の事例では、Chen X et al.,Manta:rapid detection of structural variants and indels for germline and cancer sequencing applications,Bioinformatics,Volume 32,Issue 8,15 April 2016,Pages 1220-1222に記載された方法を使用して、循環腫瘍DNAでの体細胞変異の検出を行い得る。
この方法は、体細胞構造変異、例えば、1つ以上の体細胞構造変異事象、または、モザイク染色体変化に基づいて、疾患を検出することを含み得る。当該体細胞構造変異は、当該疾患に関連し得る。一部の事例では、当該疾患を、がんとし得る。例えば、当該疾患を、血液癌とし得る。特定の例では、当該血液癌を、白血病、例えば、慢性リンパ性白血病とし得る。特定の例では、当該疾患を、固形腫瘍とし得る。本明細書に記載の方法で検出することができる疾患の例として、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨形成肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ管内皮肉腫、滑膜腫、中皮腫、ユーイングの、平滑筋肉腫、横紋筋肉腫、胃腸系癌、結腸癌、膵臓癌、乳癌、泌尿生殖器系癌、卵巣癌、前立腺癌、扁平上皮癌、基底細胞癌、腺癌、汗腺癌、皮脂腺癌、乳頭癌、乳頭状腺癌、嚢胞腺癌、髄様癌、気管支癌、腎細胞癌、肝癌、胆管癌、絨毛癌、精上皮腫、胚癌、ウィルムス腫瘍、子宮頸癌、内分泌系癌、精巣腫瘍、肺癌、小細胞肺癌、非小細胞肺癌、膀胱癌、上皮癌、神経膠腫、星状細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽腫、聴神経腫、乏突起神経膠腫、髄膜腫、黒色腫、神経芽細胞腫、網膜芽細胞腫、または、それらの組み合わせがある。
この方法は、体細胞構造変異の分析に基づいて、対象を処置することをさらに含み得る。対象を処置するとは、試料に体細胞構造変異が無いことを決定したときに、医療処置を行うことを含み得る。代わりに、または、加えて、対象を処置するとは、試料に体細胞構造変異が有ることを決定したときに、医療処置を行うことを含み得る。当該医療処置として、健康状態のモニタリング、再検査、さらなるスクリーニング、追跡調査、薬物、または、その他の種類の療法(例えば、化学療法、放射線療法、遺伝子療法など)、手術、ライフスタイル管理、及び、それらの任意の組み合わせがある。一部の事例では、対象の処置は、対象の1つ以上の遺伝子を改変して、体細胞構造変異に関連するゲノムの欠陥を修正することを含み得る。例えば、1つ以上の遺伝子の改変は、CRISPR-Cas媒介遺伝子編集などの遺伝子編集技術を使用して実行し得る。
様々なさらなる実施形態を、以下に付番したパラグラフに記載している:
1.体細胞構造変異(SV)を検出するためのコンピューター実装方法であって;1つ以上の演算機器を使用して、1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定すること;前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料における構成的分節重複をマスクすること;前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料についての体細胞SV事象の推定セットを同定すること;及び、前記1つ以上の演算機器を使用して、少なくとも一部を、前記体細胞SV事象の推定セットに対する尤度比試験の適用に基づいて、前記1つ以上の試料のそれぞれの試料についての1つ以上の体細胞SV事象を定義すること、を含む前記方法。
2.前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料について同定されたそれぞれの体細胞SV事象の染色体位置を決めることをさらに含む、パラグラフ1に記載の方法。
3.前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料について同定されたそれぞれの体細胞SV事象のコピー数を決定することをさらに含む、パラグラフ1または2に記載の方法。
4.前記1つ以上の演算機器を使用して、同定されたそれぞれの体細胞SV事象について多重サブクローン性事象を検出することをさらに含む、パラグラフ1~3のいずれか1つに記載の方法。
5.前記対立遺伝子の総頻度、及び、相対頻度を決定することが、遺伝子型強度データを、logR比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含む、パラグラフ1~4のいずれか1つに記載の方法。
6.前記構成的分節重複をマスクすることが、前記1つ以上の演算機器を使用して、認められた段階的BAF偏差(pBAF)をモデル化することを含む、パラグラフ1~5のいずれか1つに記載の方法。
7.前記認められたpBAFをモデル化することが、pBAF値に対応する状態を有する25状態隠れマルコフモデル(HMM)を使用して、個々の染色体についてモデル化することにより実行される、パラグラフ1~6のいずれか1つに記載の方法。
8.マスクする領域を選択することをさらに含み、前記HMMを通してビタビ経路を演算すること、及び、非ゼロ状態の隣接領域を調べることを含む、パラグラフ1~7のいずれか1つに記載の方法。
9.前記体細胞SV事象の推定セットを同定することが、3状態HMMの使用を含む、パラグラフ1~8のいずれか1つに記載の方法。
10.前記3状態HMMが、所定の体細胞SV事象での平均|ΔBAF|を表す単一のパラメーターによってパラメーター化される、パラグラフ1~9のいずれか1つに記載の方法。
11.同定されたそれぞれの体細胞SV事象の前記染色体位置を決定することが、前記3状態HMMの後方から5つの試料を取得すること、及び、前記5つの試料のコンセンサスに基づいて、それぞれのSV事象の境界を決定することを含む、パラグラフ1~10のいずれか1つに記載の方法。
12.同定されたそれぞれの体細胞SV事象の前記コピー数を決定することが、少なくとも一部を、LRR、及び、|ΔBAF|偏差に基づいて、前記事象が、ロス、CNN-LOH、または、ゲインであった相対確率を決定することを含む、パラグラフ1~11のいずれか1つに記載の方法。
13.多重サブクローン性事象を検出することが、乗法増分が0.01~0.25の範囲である|ΔBAF|レベルを有する51状態HMMに関するビタビ復号を使用して、同定されたそれぞれの体細胞SVを再分析することを含む、パラグラフ1~12のいずれか1つに記載の方法。
14.前記1つ以上の体細胞SV事象の検出に基づいて、疾患、または、疾患に対する感受性を検出することをさらに含む、パラグラフ1~13のいずれか1つに記載の方法。
15.前記疾患が、がんである、パラグラフ1~14のいずれか1つに記載の方法。
16.前記がんが、血液癌を含む、パラグラフ1~15のいずれか1つに記載の方法。
17.前記血液癌が、白血病である、パラグラフ1~16のいずれか1つに記載の方法。
18.前記白血病が、慢性リンパ性白血病(CLL)である、パラグラフ1~17のいずれか1つに記載の方法。
19.前記検出された1つ以上のSV事象が、表13から選択される1つ以上のSV事象を含む、パラグラフ14~16のいずれか1つに記載の方法。
20.コンピュータープログラム製品であって:コンピューターにより実行されると、遺伝子型決定データから前記コンピューターに体細胞構造変異(SV)を検出させるコンピューター可読プログラム命令を組み込んだ、コンピューターで実行可能な持続的記憶装置を含み、前記コンピューターで実行可能なプログラム命令が:1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定するコンピューターで実行可能なプログラム命令;構成的分節重複をマスクするコンピューターで実行可能なプログラム命令;前記1つ以上の試料のそれぞれの試料についての体細胞SV事象の推定セットを同定するコンピューターで実行可能なプログラム命令;ならびに、前記1つ以上の試料のそれぞれの試料についての1つ以上の体細胞SV事象を定義するコンピューターで実行可能なプログラム命令を含む、前記コンピュータープログラム製品。
21.前記1つ以上の試料のそれぞれの試料について同定されたそれぞれの体細胞SV事象の染色体位置を決定するコンピューターで実行可能なプログラム命令をさらに含む、パラグラフ20に記載のコンピュータープログラム製品。
22.同定されたそれぞれの体細胞SV事象のコピー数を決定する、コンピューターで実行可能なプログラム命令をさらに含む、パラグラフ20または21に記載のコンピュータープログラム製品。
23.同定されたそれぞれの体細胞SVについての多重サブクローン性事象を検出する、コンピューターで実行可能なプログラム命令をさらに含む、パラグラフ20~22のいずれか1つに記載のコンピュータープログラム製品。
24.対立遺伝子の総頻度、及び、相対頻度を決定することが、遺伝子型強度データを、logR比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含む、パラグラフ20~23のいずれか1つに記載のコンピュータープログラム製品。
25.前記体細胞SV事象の推定セットを同定することが、3状態HMMの使用を含む、パラグラフ20~24のいずれか1つに記載のコンピュータープログラム製品。
26.前記3状態HMMが、所定の体細胞SV事象での平均|ΔBAF|を表す単一のパラメーターによってパラメーター化される、パラグラフ20~25のいずれか1つに記載のコンピュータープログラム製品。
27.前記1つ以上の体細胞SV事象の検出に基づいて、疾患、または、疾患に対する感受性を検出することをさらに含む、パラグラフ20~26のいずれか1つに記載のコンピュータープログラム製品。
28.前記疾患が、がんである、パラグラフ20~27のいずれか1つに記載のコンピュータープログラム製品。
29.前記がんが、血液癌である、パラグラフ20~28のいずれか1つに記載のコンピュータープログラム製品。
30.前記血液癌が、白血病である、パラグラフ20~29のいずれか1つに記載のコンピュータープログラム製品。
31.前記白血病が、慢性リンパ性白血病である、パラグラフ20~31のいずれか1つに記載のコンピュータープログラム製品。
32.1つ以上の体細胞SV事象を検出するシステムであって:記憶装置;ならびに、前記記憶装置に通信可能に接続されたプロセッサであって、前記記憶装置に格納され、前記システムに:1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定させ;構成的分節重複をマスクさせ;前記1つ以上の試料のそれぞれの試料についての体細胞SV事象の推定セットを同定させ;前記1つ以上の試料のそれぞれの試料についての1つ以上の体細胞SV事象を定義させる、アプリケーションコード命令を実行する、前記プロセッサを含む、前記システム。
33.対立遺伝子頻度を決定するための試薬、及び、パラグラフ20~31のいずれか1つに記載のコンピュータープログラム製品、または、パラグラフ32に記載のシステムを含むキット。
34.対象の病態の存在または感受性を検出する方法であって、前記対象由来の試料での核酸におけるパラグラフ1~19のいずれか1つに記載の1つ以上の体細胞構造変異を検出することを含み、前記1つ以上の体細胞構造変異の有無が、前記病態の存在または感受性を示す、前記方法。
35.前記核酸が、無細胞核酸である、パラグラフ34に記載の方法。
36.前記試料が、母体血液であり、かつ、前記無細胞核酸が、胎児無細胞核酸である、パラグラフ34または35に記載の方法。
37.前記無細胞核酸が、循環腫瘍DNAである、パラグラフ34~36のいずれか1つに記載の方法。
38.前記病態が、胎児異数性である、パラグラフ34~37のいずれか1つに記載の方法。
39.前記病態が、がんである、パラグラフ34~38のいずれか1つに記載の方法。
40.前記病態の前記検出された存在または感受性に基づいて医療処置を行うことをさらに含む、パラグラフ34~39のいずれか1つに記載の方法。
本発明を、以下の実施例でさらに説明をするが、これらは、特許請求の範囲に記載した本発明の範囲を限定しない。
(実施例1)
実施例1-8,342個のモザイク構造変異のマップは、クローン性造血の強力なドライバーを示す
本明細書で開示した長期ハプロタイプ位相情報を利用する例示的な実施形態に従った方法を使用して、151,202名のUK Biobank登録者[23]に由来するSNPアレイデータで確認をした8,342個の体細胞構造変異(SV)の分析から得た知見を以下に示す。DNAを採取した後の5~10年間のUK Biobank登録者の健康結果も、利用した。
これらのデータは、幾つかの遺伝子座で受け継がれた変異が、シスで作用して、モザイク現象を生成または推進するメカニズムを含む、クローン性増殖に関する新たな知見を検討する。将来の血液悪性腫瘍を強力に示唆する幾つかの体細胞SV(OR>100)も同定した。
UK Biobankでの体細胞SV
UK Biobankでの40~70歳の151,202名の登録者の血液の遺伝子型判別から得た対立遺伝子特異的SNPアレイ強度データを分析した;品質管理した後も、607,525個の遺伝子型変異が残存していた(方法)。本出願人は、UK Biobankで独自に利用可能な長期位相情報を利用して、1%という低い細胞分画でクローン的に増殖したSVの高感度検出を達成した[24~26]。この手法を経て、正確な位相情報を、非常に多くのSNP(図9A~9C、10A~10C、11A~11C、及び、12)に及ぶ対立遺伝子特異的情報と組み合わせることで、2つのハプロタイプの存在量における微妙な不均衡の検出を可能にすることがわかった。この情報を最大限に活用するために、本出願人は、位相をベースとしたSV検出のための新規の統計的手法を開発した(手法及び補足事項)。
本出願人は、0.05の偽発見率(FDR)で、8,342個の体細胞SV(分析した151,202名の内の7,484名)を検出した(図4、図12~34)。本出願人は、検出したSVの71%を、(i)ロス、(ii)コピー数が中立的であるヘテロ接合性のロス(CNN-LOH)、または、(iii)ゲイン(図5A、及び、図35)のいずれかに確信を持って分類した。検出した大部分のSVは、推定したクローン細胞画分が5%未満であり、かつ、長期位相が無いと検出できず(図36);最小の推定した細胞画分は1%未満であった(図37)。検出したSVのゲノム分布は、これまでの研究[1、2、7、8]と概ね一致しており;大部分のゲインは、染色体全体または染色体アーム(有糸分裂分離の特徴)を複製しており;大部分のCNN-LOHは、部分的な染色体アーム(有糸分裂組換えの特徴)に影響を及ぼしており;及び、大部分の常染色体のロスは、はるかに小さな焦点領域を欠失した(図4、及び、図12~34)。
一般的に欠失した領域(CDR)<1Mbの長さは、1コピーのロスが過剰な細胞増殖を招く十分な腫瘍抑制遺伝子を有する単数体を示し得るので、特に興味深い[2]。最も頻繁に認められる3つの局所的欠失は、従前の研究で特定した13q14、DNMT3A、及び、TET2遺伝子座を標的としており[2、8]、本出願人は、さらに、13q、2p、及び、4qの大部分のCNN-LOH事象が、これらの同じCDRに及んでいることを認めた(図4、及び、図38)。本出願人は、一般的に、がんで変異しているETV6、NF1、及び、CHEK2で、ならびに、RPA2、及び、RYBPで新規のCDRを検出した(補足事項)。また、本出願人は、欠失を、自閉症で周知の遺伝的危険因子である領域と重複する16p11.2でCDRを認めた;本出願人は、the Simons Foundation Autism Research Initiative(SFARI)[27](図39A~39B)において、the Simons Simplex Collectionで配列決定した2,076個のゲノムから、このモザイク事象を検出しなかった。
欠失は、稀に複製を受ける染色体に集中する傾向があり(図5F、及び、表2)、累積ハプロ不全、及び、三重感受性が、クローン進化を形作るという理論を支持している[28]。体細胞のロスとゲインの傾向の類似した逆の関係は、体細胞SVの汎がん分析で従前に認められているが[29]、ロスとゲインの多い染色体のセットは、血液由来のDNAの我々の分析では多少異なっており、このことは、血液でのクローン進化の一部のドライバーが、造血系に特有のものであることを示唆している。
一部の種類の体細胞変異は、原則として、相乗的な成長促進効果を招いており、これは、個人が、偶然から予想されるよりも遙かに頻繁に多重の体細胞SVを獲得する傾向がある、という従前の観察で示唆された仮説である[1,2,7,8](図5C、及び、表3)。検出したモザイクSVの大規模なセットは、同時発生SVの3つのクラスターを特定するのに十分な統計的解像度を提供しており、その内の1つは、慢性リンパ性白血病(CLL)で一般的に一緒に認められる事象を含んでいる[30、31]:13qLOH(欠失及びCNN-LOHを含む)、12トリソミー、ならびに、染色体14及び22でのクローンV(D)J欠失(図5C、表4)。これらの事象の共起は、増殖の相乗効果によって、共有した遺伝的もしくは環境的ドライバーによって、または、一方の事象から他方の事象への連続的な進行によって説明できる。
本出願人は、後天性変異が高齢者と男性で最も認められる一般的なパターンに対する幾つかの興味深い例外を認めた[1、2、7、8](図5D、及び、表5)。女性における染色体Xのロス[32]は、本出願人が検出した最も一般的な事象であり(図34、及び、表2)、年齢を重ねるにつれて、頻度が劇的に増加した(図5D、及び、表5)。(我々の位相をベースとした検出手法は適用できず、また、UK BiobankのmLOYは、他の場所で研究されていたため、本出願人は、Y染色体のロスを調べなかった[19]。)常染色体SVを、位置及びコピー数で層別化すると、驚くべき関係が明らかになった:大部分のゲイン事象は、(予想通りに)高齢者及び男性でよく認められたが、CNN-LOH事象は、両性に等しく影響しており、そして、若い人でも検出される傾向があった(図5e、及び、表6)。3つのSVは、明らかに外れ値であった:染色体15の増加は、高齢男性で遙かに頻度が大きかったが[33]、10q及び16pでの欠失は、女性で遙かに頻度が大きく、高齢者では増加が認められなかった。(体細胞SV保有者の全体的な年齢の偏りで、偽発見率制御を簡便に確認できた;図40。)
一部の後天性変異は、原則として、特定の造血細胞系統で発生または選択できる。本出願人は、リンパ球、好塩基球、単球、好中球、赤血球、または、血小板の指標について、上位1%の個人に焦点を当てて、この仮説を試験した。本出願人は、コホートのこれらのサブセットの1つ以上に濃縮した数多くの後天性SVを特定した(図5F、及び、表7)。これらの関係が、特定の血球コンパートメントにおけるクローン選択を反映しているという考えと一致しており、CLL[30,31]で一般的に認められる変異は、リンパ球数の多い個人間で豊富であり、JAK2関連9p事象(骨髄増殖性新生物、MPNで一般的に認められる)は、骨髄指数が高い個人に最も多く認められた。これらの結果は、後天性SVが、公知の悪性腫瘍を持たない個体で、無症状の血液組成表現型を生み出し得ることを示唆している。近傍の体細胞SVに対する受け継いだ変異の影響。
SVの形成または選択に関して受け継いだ影響を特定するために、本出願人は、それぞれのSVと同じ染色体にある再発性体細胞SVと、生殖細胞変異との間の関連について染色体全体のスキャンを行った(方法)。この分析は、10q、1p、11q、及び、15qのゲノム的に近傍の体細胞SVに強く関連する4つの遺伝子座、ならびに、女性の染色体Xのロスに関連する2つの遺伝子座を明らかにした(表1、図6A~6E、及び、図7A~7C)。(また、本出願人は、JAK2 46/1と、9pCNN-LOHとの従前の関連性を複製した[13~16、18];図41。)これらの遺伝子座での遺伝的変異の因果的影響を解明するために、本出願人は、全ゲノム配列データを使用して、これらの関連性を詳細にマッピングし、そして、関連するSV変異と比較したリスク対立遺伝子の染色体位相を調べた。
体細胞末端10q欠失は、10q欠失の推定共通ブレークポイントでの公知のゲノム脆弱部位[34、35]である、FRA10B近傍の共通SNPrs118137427と強く関連していた(表1、及び、図6A)。これらのモザイク10q欠失を有する60名全員が、続いて、末端欠失を獲得した同じ染色体で常に受け継がれているrs118137427:Gリスク対立遺伝子(集団のRAF=5%;図6C)を受け継いでいた(表1)。
rs118137427:Gリスク対立遺伝子で潜在的にタグ付けした原因変異を特定するために、本出願人は、新たに2,076名(SFARIコホート)から、WGSデータで後天性10q欠失を検索した。本出願人は、10qの末端欠失(モザイク形式)を持つ2組の親子を特定した;4名すべてが、rs118137427:Gハプロタイプバックグラウンドに関するFRA10Bで顕著になったATリッチ反復を保有していた(図6D及び6E、ならびに、図34)。rs118137427:Gリスク対立遺伝子が、FRA10B遺伝子座の不安定バージョンにタグ付けすることを示すさらなる証拠[36]を、(2,076名すべてのSFARI登録者の)WGSデータでのFRA10Bにおける可変数タンデム反復(VNTR)配列を分析して提供した。この分析は、13の家族の30名のSFARI登録者が保有していた4つの新規のVNTRモチーフを明らかにした;集団において、それらのハプロタイプの頻度が低い(5%)にもかかわらず(図6E、ならびに、図42A~42B、及び、43)、4つのすべての新規のモチーフが、rs118137427:Gハプロタイプバックグラウンドに存在していた。(VNTRは、自閉症の状態と関連していなかった。)4つの新規のVNTR配列モチーフの内の2つは、SFARIにおいて、UK Biobankに帰属させるのに十分に一般的であった;これらの2つの帰属可能なVNTRモチーフは、UKBコホートの0.1~0.4%だけに存在すると推定されたが、10q欠失の60事例の内の24事例を解明した(表8)。興味深いことに、末端の10qを欠失した60名の内の51名は女性であり、そして、事例の年齢分布は研究集団と一致しており、その他のモザイクSVでの、男性に偏った、年齢依存的な一般的な捕捉パターンに対する明らかな例外であった(図6B)。
chr1pに関するCNN-LOH事象は、1p34.1にある(トロンボポエチン受容体をコードする)MPLがん原遺伝子で、3つの独立した稀なリスクハプロタイプ(リスク対立遺伝子頻度、RAF=0.01~0.05%)と強く関連した:3つのハプロタイプのそれぞれが、1p CNN-LOHのリスクを、50倍超で増加させた(表1)。MPL遺伝子座での家系別同一性分析は、さらなる、または、再発する非常に稀なリスク変異も、当該遺伝子座に存在することを示唆した(図44)。興味深いことに、MPLでの機能獲得型変異は、骨髄増殖性新生物を招くことが公知である[37,38]が、あるハプロタイプ、rs369156948に関するリード帰属SNPは、MPLでの機能喪失(LOF)をコードするSNPである:その他の2つは、MPLなどの長いハプロタイプをタグ付けしたSNPをもたらす(図7A、及び、表9)。
本出願人は、MPLが関係するCNN-LOH事象を選択するための興味深い、可能性のあるメカニズムを同定することができた。本出願人が、体細胞CNN-LOHと比較して稀なリスク対立遺伝子を、確信を持って段階的に調整できた16個の事象すべてについて、当該リスク対立遺伝子を、CNN-LOHで除去した(Ρ=3×10-5;表1、及び、図7A)。これらの結果の妥当な解釈は、MPL機能を抑制する稀な遺伝的変異を有する個人の間で、CNN-LOHを介した正常なMPL遺伝子活性の回復が、増殖における利点を提供するということである。クローン性造血が、(大部分の遺伝子座において)それに続く血液癌の強力な危険因子であるという事実にもかかわらず、rs369156948 LOF対立遺伝子の36名の帰属保有者の内のだれもが、一般的、かつ、偶発的血液癌の診断を受けておらず、このことは、この稀な対立遺伝子が、実際には、その効果は低増殖性であり、または、ネガティブ選択を目的とし得る、という考えを支持している。
ch11qに関するCNN-LOH事象は、11q22.3でATM遺伝子を取り囲む稀なリスクハプロタイプ(RAF=0.07%)と強力に関連した(40倍超のリスクの増大)(表1、図7B、及び、表9)。本出願人が、当該体細胞変異と比較してリスク対立遺伝子を、確信を持って段階的に調整できた6個のCNN-LOH事象すべてについて、当該LOH変異は、稀なリスク対立遺伝子をホモ接合性にした(表1、及び、図7B)。(この動態は、MPLでの動態とは対照的であり、そこでは、受け継がれた稀なリスクハプロタイプを、LOH及びクローン選択で排除した。)原因となる変異の同定にはさらなるデータが必要であるが、ATMは、明らかに推定標的であり;ATMは、細胞周期の調節において重要な役割を果たしており、また、LOFの変異及びATMの欠失は、一般に、CLLで認められる[30、31]。(現在の分析では、後天性11q欠失も、標的ATMに出現した;図4、及び、図22。)
chr15qでのCNN-LOH、及び、ロス事象は、15q26.3で、TM2D3のすべて、及び、TARSL2の一部にまたがる受け継がれた稀な70kbの欠失と関連した。信頼度の高い段階的判定を伴う41個の事象の内の39個について、当該CNN-LOH、または、ロスは、受け継いだ欠失のホモ接合性、または、ヘミ接合性を生成するものと推測され、当該ゲノムからリファレンス(非欠失)対立遺伝子を除去した(表1、及び、図8C)。(この動態は、ATMでの動態に似ており、受け継がれた稀なリスク対立遺伝子のクローン選択を示唆している。)当該70kbの欠失は、0.03%の対立遺伝子頻度で存在しており、また、15q変異のリスクを、約700倍も増加させた:89名の保有者の内の45名で、検出可能な15q事象を示した(CNN-LOHが32、ロスが2、未判定が11;図46)。興味深いことに、当該70kbの欠失は、時として、当該遺伝子座の独立した290kbの重複も持ち合わせた対立遺伝子に受け継がれた(図45A~45B);このさらに複雑な対立遺伝子では、TM2D3及びTARSL2の遺伝子量は、正常であった。さらに複雑な対立遺伝子の保有者は、体細胞SVの素因を示さなかった(図46)。領域内のTM2D3、TARSL2、または、非コード要素が関係する増殖メカニズムを決定するために、さらなる研究が必要となる。
上記したシス関連の浸透率の高さ(50%まで)は、一部のリスク対立遺伝子保有者が、実際には、関連する体細胞SVを有する多重サブクローン細胞集団を保有しているのではないかと我々は考えた。本出願人は、同じ染色体が関係する2つ以上のCNN-LOH変異(ブレークポイント、及び、対立遺伝子の割合が異なる)を獲得した41名を検出した(図47)。(対照的に、28名だけが、異なる染色体に複数のCNN-LOH突然変異を保有していた。)複数の同じ染色体CNN-LOH事象を有する41名すべてについて、すべての事象は、(異なるクローンで)同じハプロタイプの反復選択が関与していた。同じ個体で反復選択した41個のハプロタイプの内、16個は、我々の関連スキャンで同定した稀なリスク対立遺伝子の1つを保有しており、14個は、同じ遺伝子座に、その他の(マッピングしていない)対立遺伝子ドライバーが関与しているようであり、そして、11個は、その他のゲノム遺伝子座が関与していた(図47)。この結果は、これらの個人において、CNN-LOHが付与した強力な増殖の利点を示しており、また、有糸分裂組換えが、増殖について異なる傾向を有する遺伝的ハプロタイプを保有する個人において、クローン選択のための複数の機会を生み出すのに十分に一般的である、ことを示唆している。近傍のSVを獲得するリスクを顕著に増大させる上記した稀な対立遺伝子を説明する結果とは対照的に、本出願人は、Xロスのリスクをわずかに増加させるだけだが、増殖したクローンでどのX染色体が喪失されるかに強い影響を与える(女性では、変異にヘテロ接合性である)染色体Xの2つの共通の変異を発見した。これらは、DXZ1近傍のXp11.1での強い関連性(Ρ=6.6×10-27、喪失したハプロタイプでの1.9:1のバイアス)、及び、DXZ4近傍のXq23での弱い関連性(Ρ=1.0×10-9、喪失したハプロタイプでの1.5:1のバイアス)とが関与していた(表1、図48、及び、表11)。これらの関連は、偏ったX染色体不活化[39](表11)を説明しているようには見えず、また、本出願人が先に説明したものとは非常に異なったメカニズムを示唆している(補足事項)。
体細胞SVとのトランス関連性
細胞増殖及び細胞周期調節に関与する遺伝子の近傍にある遺伝的変異は、男性でのYのロスの素因となり[17、19]、また、女性でのXのロスも遺伝的形質である(同胞対解析でh2=26%(17.4~36.2%))[19]が、Xのロスの関連は未だ報告されていない。本出願人は、BOLT-REML[40]分析を実行することにより(方法)、女性のXロスの遺伝率を確認し、hg2=10.6%(標準誤差3.6%)のSNP遺伝率推定値を得た。Xのロスに影響を与えるトランス変異についてのゲノム全体の関連分析は、SP140L、及び、HLA遺伝子座での2つの新規のゲノム全体の有意な関連をさらに明らかにした(表1)。
がんのリスク、または、染色体維持の表現型に影響を与える生殖細胞変異は、原則として、前がん性、または、良性のクローン性増殖のリスクを高める。本出願人は、CLL、MPN、Yのロス、クローン性造血、及び、テロメア長に関する従前のGWASに関連する86個の変異を検討し、そして、7つのクラスの体細胞SVとのトランス関連についてこれらの変異を試験し、染色体タイプ(常染色体対X染色体)、及び、コピー数で事象を層別化した(表12)。4つの変異が、Bonferroniの有意性(P<8.3×10-5)に達した:TERTにおける2つの結合した変異(最近になってクローン性造血との関連が認められたイントロンの欠失[11]、及び、従前よりMPNに関連していた共通のSNP[41]、及び、JAK2 V617F突然変異)、稀なCHEK2フレームシフトSNP(従前は、JAK2 V617F突然変異に関連していた[18])、及び、TP53における低頻度3’UTR SNP(従前は、がん[42]、及び、mLOY[19]に関連していた)(表11)。TERT及びCHEK2変異は、複数のタイプの常染色体事象に関連していた;対照的に、当該TP53 SNPは、主に、ロス(常染色体に関する局所的欠失、及び、Xの全染色体ロスの両方)に関連していた(表12)。CHEK2フレームシフトSNPの保有者は、特に、複数のクローンSVを発症する傾向があった:常染色体SVを検出した33名の保有者の内の8名は、一般的に、複数のクローンにおいて、2つ以上の検出可能な事象を有していた(3の期待値と比較して、P=0.008)。
体細胞SV、及び、がんの発症
検出可能な(任意の遺伝子座での)モザイクを有するがんに罹患していない個人は、その後の血液癌のリスクが、10倍を超えて高くなる[1~4]。慢性リンパ性白血病(CLL)に関しては、進行の数年前にクローンモザイク現象が先行することが公知である緩慢に進行する血液癌[43、44]、CLL以前の症例で認められるモザイク異常は、CLLで認められるものと同じ遺伝子座で発生する[30、31、45、46]。
この研究で検出した数多くの事象により、特定のモザイクSVが、特定のがんのリスクをより正確に予測する可能性を評価することができた[47]。本出願人は、年齢及び性別を補正した分析において、その後のがん診断(DNA収集して1年超えて以降に)と有意に(FDR<0.05で)関連した17個の体細胞SV事象を同定した(図8A、及び、表13)。これらのSVのサブセットのオッズ比は、非常に高く:血液癌で一般的に認められる幾つかのSVは、偶発的CLLまたはMPNのリスクが100倍を超えて高くなっていた。2pのDNMT3A欠失は、偶発的な非血液癌のリスクを、3.5倍にまで高めたが、この弱い関連性も、非血液癌とクローン性造血との両方のリスクを増加させる、その他の認められていないリスク要因で説明し得る。
CLL及び偶発的CLLとで共通して認められる異常との関連性の強さに基づいて、本出願人は、これらの事象のモザイク状態を、その他のリスク要因、年齢、性別、CLL遺伝的リスクスコア(GRS)[48]、及び、リンパ球数と組み合わせて、偶発的CLLの予測を改善できると考えた。これらの予測因子から構築したロジスティックモデルは、10倍の交差検証で高い予測精度(AUC=0.92)を達成し、モザイクに関する情報が無くとも、構築した予測因子よりも優れていた(図8B、及び、図49)。この結果は、評価時に、分析を、正常なリンパ球数(1~3.5×109/L)を有する個人に制限しても安定していた(AUC=0.81;図8C)。非常に低い細胞分画で検出可能な12トリソミーを有する初期のクローンは、主に、この予測精度を向上した(図50)。偶発的CLLに罹患した個人は、診断の6年前までにクローン性を示し、そして、クローン率は、悪性腫瘍までの時間と反比例した(図8D)。さらに、本出願人は、検出可能なモザイク現象が、すべての原因のリスクをおよそ2倍にすることを認めた。
考察
長期位相情報を使用して、151,202名の遺伝子型データの微妙な染色体の不均衡を検出することで、本出願人は、8,342個の体細胞SVを網羅する、従前の分析よりも1桁大きい規模のマップを作成した[1、2、7、8]。本出願人は、これらのデータが提供した統計的検出力を使用して、モザイクSVのゲノム分布を明らかにし、クローン性増殖が受け継いできた数多くのドライバーを特定し、これらが受け継いだ強力な影響の可能性のあるメカニズムを知見するに至り、そして、クローンの増殖が健康転帰に及ぼす影響を調査した。
クローン性増殖は、突然変異、及び、それに続く選択的増殖に起因しており[10]、そして、上記した結果は、この変換を駆動する多様な生物学的メカニズムを明らかにする。第一に、ゲノムの改変を行わなくてはならない。体細胞SVに関する我々のマップは、CNN-LOHを作り出す有糸分裂組換え、染色体のゲイン及びロスを作り出す誤分離、ならびに、間質性欠失を作り出す複製エラーが、SVを生成する最も一般的なプロセスであることを確認しており[1、2、7、8]、その一方で、変異の特定の供給源として、染色体不安定部FRA10Bでの切断も強調した。第二に、染色体異常を有する変異細胞は、アポトーシス及び老化を免れなければならない。本出願人は、TP53、CHEK2、及び、TERTにおけるクローン性トランスドライバーを観察しており、これは、細胞周期遺伝子の変動をmLOYに結合する最近の結果を裏付けている[19]。第三に、変異細胞は、増殖上の利点を持ち合わせなくてはならない。選択圧は、コピー数を変更するSV(例えば、腫瘍抑制遺伝子のロス)[1、2、7、8]について明確なことは多いが、CNN-LOHが、頻繁に変異する遺伝子座に第二のヒットをもたらす[49]か、または、インプリンティングを撹乱する[50]事例を除いて、CNN-LOHを追跡することは困難である。ここで、本出願人は、CNN-LOHは、受け継いだ対立遺伝子を複製または欠失することで、強力な選択的利点をも達成できることを確認した。
受け継いだ対立遺伝子の保有者の大部分が、その後に、問題とする変異を獲得し、次いで、クローン的に増幅するので、受け継いだCNN-LOHリスク変異の(50%までの)高い浸透率は、受け継いだ対立遺伝子と(より不安定な)後天性突然変異との間の基本的な差異として通常認められるものを疑問視する。浸透率の高さは、有糸分裂組換えが、個体が生存している間にホモ接合細胞のクローン選択のための潜在的に受け継いだ機会を予想通りに解き放つのに十分に一般的である、ことを意味している。同様に、この事象は、後天性(体細胞性)変異が関与しているにもかかわらず、本出願人は、FRA10Bでの10q切断のメンデル遺伝パターンを認めた(図6A~6E)。
クローン性増殖は、様々なレベルの増殖及び生物学的変化を示しており、したがって、健康に関して様々な影響を及ぼす[10]。本出願人は、シス作用性遺伝的変異が引き起こすものの一部を含む数多くの体細胞SVには、識別可能な悪影響が無いことを知見した。しかしながら、血液癌で一般的に認められる体細胞SVは、がんのリスクを大幅に高めるものであり、そして、早期発見に使用できる可能性がある。遺伝子型データ及び健康転帰を収集するための人口規模の取り組みが拡大し続けているので、試料サイズと人口をベースとした染色体位相との両方の能力を向上させることで、本出願人は、クローン性造血、及び、その臨床後遺症について、これまで以上に実効性のある分析を期待している。
方法
UK Biobankコホート、及び、遺伝子型強度データ。このUK Biobankは、評価時に40~70歳である個人を対象とした非常に大規模かつ積極的な研究である[23]。協力者には、2006年~2010年の間に評価センターに参加してもらい、遺伝子型決定及び血液分析のために血液試料を提供して、そして、病歴及び環境曝露に関するアンケートにも回答してもらった。評価後の何年もの間、これらの個人の健康転帰データ(例えば、がんの診断、及び、死亡)は、UK national registriesを通じて蓄積した。
本出願人は、それぞれが約800K SNPを有し、かつ、95%超が重複しているAffymetrix UK BiLEVE、及び、UK Biobank Axiom対立遺伝子に関して分類した152,729個の試料からなるUK Biobankでの遺伝的データを分析した。本出願人は、欠落及びヘテロ接合性フィルターに基づいたゲノム解析から除外対象とした480名、ならびに、同意を撤回した1名を外し、そして、152,248個の試料を残した。本出願人は、変異セットを、欠落率が10%以下の両アレル変異に制限し、そして、UK BiLEVE対立遺伝子と、UK Biobankアレイとの間で対立遺伝子頻度が著しく異なることが判明した111個の変異を除外し、そして、常染色体及びX染色体に関して、725,664個の変異を残した。最後に、本出願人は、10個に満たない試料(または、chrXについては、5個に満たない女性試料)がマイナー対立遺伝子にホモ接合性であると判定された118,139個の変異をさらに除外した;本出願人は、これらの変異での遺伝子型判定が、稀なホモ接合体をヘテロ接合体と判定するエラーの影響を受けやすいことを認めた。本出願人は、Kpbwt=40,000のEagle2[26]、さもなければ、デフォルトパラメーターを使用して、残りの607,525個の変異を段階的に導入した。
本出願人は、Jacobs et al.,[1]と同様の方法で、アフィン正規化及びGC波補正[52]を行った後に、遺伝子型強度を、log2 R比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換した[51](対立遺伝子の総強度と相対強度を測定)(補足事項)。次いで、それぞれの試料について、本出願人は、それぞれの常染色体内でのヘテロ接合部位間で、標準偏差(BAF)を演算し、そして、本出願人は、平均値標準偏差(BAF)>0.11で、遺伝子型の質の低さが示された320個の試料を除外した。最後に、本出願人は、(長期連鎖不平衡の領域における、見かけの短い間質性CNN-LOH事象に基づいた;補足事項を参照されたい)汚染の可能性を示す証拠[8]が出てきた別の725個の試料、及び、表現型データの無い1つの試料を除外して、分析のために、151,202個の試料を残した。
長期ハプロタイプ位相を使用した体細胞SVの検出。本明細書で、本出願人は、体細胞SV検出のための我々の手法の基本的な考えを概説する。
核となる知見は、本出願人が、長期位相情報を利用して、細胞母集団における母系対立遺伝子画分と父系対立遺伝子画分との間の局所的な不均衡を検索する、ことを意図していることにある(図9A~9C、10A~10C、及び、11A~11C)。この目的のためのハプロタイプ位相の有用性は、従前から認識されていた[8、53、54]が、従前の手法では、ほぼすべてのメガベースで発生するフェーズ切替えエラーを考慮する必要があり、このことは、ハプロタイプをベースとした分析が直面する一般的な課題である[55]。UK Biobankにおいて、本出願人は、数十メガベースの規模で正確な位相情報を持ち合わせており[24、26]、新規のモデル化手法、及び、検出感度のさらなる改善を可能にする(図36)。
この技術は、3状態隠れマルコフモデル(HMM)を使用して、ヘテロ接合部位でSVが誘発した対立遺伝子バランス(|ΔBAF|)の偏差を捕捉する(図51)。このモデルは、SV内の生殖細胞系列hetsで、予測される絶対BAF偏差を表す単一のパラメーターθを有する。演算した段階的遺伝子型決定強度データでは、位相判定に(符号を付けた)BAF偏差を乗じると、SV内に連続した領域が生成され、予想される段階的BAF偏差は、+θ、または、-θになる(位相切替えエラー時に、符号が反転する);SVの外部では、BAF偏差は想定されない。我々のHMMでの3つの状態は、これら3つの可能性をコードし、そして、これら状態での発光は、ノイズが多いBAF測定を表す。+θと-θ状態の間の遷移は、切替えエラーを表しており、±θと0状態の間の遷移は、SV境界を捕捉する。
パラメーター化したHMMを使用して認められた段階的BAF偏差のモデル化は、染色体でのモザイクSVの有無を決定するための尤度比検定統計を自然に生成する、という重要な利点がある。明示すると、θの所定の選択について、本出願人は、標準のHMM動的プログラミング演算を使用して、SV誘発BAF偏差が、E[|ΔBAF|]=0であるという仮定の下で、認められたBAFデータの総確率を演算して、位相切替え、及び、SV境界における不確実性を積分する。θ=0(すなわち、SV無し)の尤度に対して、すべての選択可能なθに対する最大尤度との比率を求めて、検定統計量を得る。当該HMMが、当該データを完全に表すのであれば、この検定統計量は、漸近分布と比較できる。しかしながら、実際には、当該HMMでのパラメーター(例えば、遷移確率)が不完全に推定されていることを本出願人は把握していたので、代わりに、本出願人は、我々の試験統計を経験的に較正した:本出願人は、無作為化した位相でデータの試験統計を演算して、そのヌル分布を推定し、そして、本出願人は、この経験的ヌルを使用して、FDRを制御した。最後に、当該FDR閾値を通過する染色体について、本出願人は、当該HMMから状態経路を収集することで(θの最尤値を使用して)、SV境界を判定した。
上記した検出手順は、BAFデータのみを使用しており、そして、デザインではLRR測定を無視する(遺伝子型決定アーティファクトに対して最大限に安定させる);しかしながら、事象を検出した後に、本出願人は、LRRデータを組み込んで、検出したSVを、ロス、CNN-LOH、または、ゲインとして判定した。モザイクSVは、BAF(相対対立遺伝子強度の測定)を、ヘテロ接合部位で、0.5から逸脱させ、そして、ロス及びゲインは、LRR(総強度の測定)を、0から逸脱させると、クローン細胞画分と共に偏差が大きくなる;したがって、本出願人が、LRR及びBAF偏差で検出した事象をプロットしてみると、3つの線形クラスターの生成が認められ(図5A、及び、図27)、このものは、従前の研究[1、2、8]と一致していた。本出願人は、染色体固有のクラスターを使用して、コピー数の判定を行い、そして、異なる染色体に関する異なる頻度の事象タイプを利用した。クラスターは、BAF偏差がゼロに近づくと収束するので、本出願人は、検出した全SVの29%を含み、95%未満の信頼コピー数を有している、低細胞画分で検出したSVについては、検出したSVのコピー数を判定しなかった。次いで、本出願人は、参考文献[1]のようにして、クローン細胞画分を推定した。
構成的重複の可能性を排除する後処理ステップとして、本出願人は、LRR>0.35、または、LRR>0.2、及び、|ΔBAF|>0.16で、長さが>10Mbの事象を選別し、そして、本出願人は、LRR>0.2、または、LRR>0.1、及び、|ΔBAF|>0.1で、長さが<10Mbの事象を選別した(図44)。(大部分の構成的重複は、別のHMMが関与する前処理ステップで、すでにマスクしていた。
血統における体細胞SV型のエンリッチメント。本出願人は、97%の協力者について利用可能な完全な血球数データから14個の血球数指標(リンパ球、好塩基球、単球、好中球、赤血球、及び、血小板の数及び割合、ならびに、赤血球及び血小板の分布幅)を分析した。本出願人が、ヨーロッパ系の祖先を持つと自己申告した個人(コホートの96%)に限定をしたところ、140,250名が残った;次いで、本出願人は、性別で層別化を行い、そして、年齢、年齢係数、及び、喫煙状態を回帰させた後に、分位点で、それぞれの血液指数を正規化した。
異なる血球タイプに結合した体細胞SVのクラスを同定するために、本出願人は、まず、染色体の位置及びコピー数に基づいてSVを分類した。それぞれの常染色体について、本出願人は、検出した事象の大部分を構成するSVの5つの別個のカテゴリー:p-アームのロス、q-アームのロス、p-アームのCNN-LOH、q-アームのCNN-LOH、及び、ゲイン、を定義した。本出願人は、ロス、及び、CNN-LOH事象をアーム別に細分化したが、ほとんどのゲイン事象が、染色体全体のトリソミーであるため、ゲイン事象は細分化しなかった(図1)。染色体Xについて、本出願人は、2つのロスカテゴリーを、単一の全染色体ロスカテゴリーに置き換えた。全体として、この分類は、114個のSVタイプをもたらした。本出願人は、我々の血球濃縮分析を、少なくとも10回再現して、78種のSVタイプにまで制限し、そして、本出願人は、chr17ゲインカテゴリをさらに除外した(これらの事象のほとんどすべてが、すでに17p-事象として計数されているi(17q)イソ染色体から生じるため;図20)。
残りの77種のSVタイプのそれぞれについて、本出願人は、Fisherの直接確率検定を使用して、正規化したそれぞれの血液指数に異常(上位1%)値を有する個人間でのSV検出のエンリッチメントを演算した。本出願人は、FDR閾値が0.05を超えると、有意のエンリッチメントを報告した(図5F、及び、表6)。
体細胞SVとのシス関連性についての染色体全体の関連試験。近傍の体細胞SVに影響を与える受け継いだ変異を同定するために、本出願人は、2種類の関連分析を行った。まず、本出願人は、近傍の体細胞SVを発現する可能性を高める変異を検索した。本出願人は、それぞれの変異について、当該変異と、最大で3つの変異特異的ケースコントロール表現型との間の関連性についてFisher試験を行い、(事象境界での不確実性を許容するために)当該変異を含む、または、4Mb以内の(i)ロス、(ii)CNN-LOH、または(iii)ゲイン事象を含んでいれば、それらをケースの試料に該当するものと考慮して定義した。本出願人は、少なくとも25の症例で表現型を試験した。本出願人は、マイナー対立遺伝子頻度(MAF)が>2×10-5である5,100万の帰属変異に関して、これらの試験を行って(UK10K及び1000 Genomes フェーズ3 リファレンスパネルのマージを使用してUK Biobankで帰属させた[56])、帰属傾向が不十分であるヨーロッパ系のMAFよりも5倍超の大きさの非ヨーロッパ系のMAFを有する変異を除外した。本出願人は、祖先がイギリス人またはアイルランド人であると自己申告した個人に限定し、主要要素の外れ値(>4標準偏差)を除外し、そして、(plinkrel-カットオフ 0.05を使用して)0.05の関連性カットオフを課した後に、120,664名を分析した[57]。
本出願人は、体細胞SVが、対立遺伝子のバランスをシフトする傾向がある変異(対立遺伝子特異的な発現に類似している)を検索する第二の形式の関連分析も実行した。SVの所定のクラスについて、それぞれの変異について、本出願人は、SVが変異及び重複するヘテロ接合型SV保有者を調べ、そして、本出願人は、二項検定を実行して、SVが、一方の対立遺伝子を、他方に対して欠失または複製する可能性が高いか否かを確認した。本出願人は、二項検定を、SVに対して確信を持って変異を段階的に導入した個人に制限した(ランダムに改めて得た5つの試料では、不一致は無かった;補足事項)。
上記した2つの関連性試験は独立しているので、本出願人は、2段階の発見と検証の手法を適用して、ゲノム全体の有意な関連性を同定した。本出願人は、いずれかの試験での発見について、10-8の値のP値閾値を使用し、そして、その他の試験での検証のために名目P<0.05の有意性を確認した(体細胞SVに影響を与える変異が、両方のタイプの関連を示すと推論した)。いずれの試験でもP<10-8のすべての遺伝子座で、一方の試験でP<10-8の最も有意な変異が、他方で検証された(表1)。同定した遺伝子座で、本出願人は、P<10-6に到達する二次的な独立した関連性をさらに検索した。
最終的な分析では、本出願人は、体細胞SV表現型を改良して、関連性をマッピングする性能をわずかに高めた。1p、9p、及び、15q CNN-LOHに関連する遺伝子座について、本出願人は、テロメアに到達するすべての事象を含めるようにケースステータスを拡大すると、関連強度が向上することを知見した(コピー数が不明な幾つかの検出したテロメア事象は、おそらくは、同じ生殖細胞系列変異で駆動したCNN-LOHであるため)。FRA10Bでの関連シグナルについて、本出願人は、10q25からテロメアに及ぶ端末ロス事象のみを含めるようにケースステータスを調整した。
MPL及びFRA10Bでの同祖的分析。本出願人が複数の原因となる稀な変異の証拠を見つけた遺伝子座で、本出願人は、さらなる、または、再発する原因変異の可能性をさらに調査するために、SV保有者間で同祖性を共有する長いハプロタイプを検索した。本出願人は、ハプロタイプ拡張子を有するGERMLINEを使用して、IBD管を判別した[58]。
SFARI Simons Simplex Collectionデータセット。Simons Simplex Collection(SSC)は、the Simons Foundation Autism Research Initiative(SFARI)[27]が収集した、自閉症単身世帯から得た遺伝的試料の管理機関である。本出願人は、SSC配列の第一のフェーズ(平均カバレージ 37.8X[59])の2,076個の全ゲノム配列を分析して、本出願人が検出したモザイクSVが、自閉症の遺伝的リスクに寄与しているか否かを調べた。承認を受けた研究者は、https://base.sfari.orgに申請すれば、この研究で説明されているSSC母集団データセットを取得できる。
15q26.3での70kbの欠失の検出及び判定。本出願人は、WGSデータで、15q26.3関連シグナル(具体的には、rs182643535タグSNP)をマッピングして、15q CNN-LOH及びロスに関連する受け継いだ70kbの欠失を発見した(図7C、及び、図37)。次いで、本出願人は、欠失した領域での24個のプローブでの遺伝子型強度を使用して、UK Biobank SNP-対立遺伝子データで、この欠失を判定した(図38)。
FRA10BでのVNTRの検出及び帰属。当該FRA10B部位で、10回を超える回数で読み取りを行うすべてのSFARI試料について、本出願人は、読み取りのローカルアセンブリを実行して、コンセンサスVNTR配列を生成しようとした。本出願人は、13世帯において、4つの異なる配列を同定した(図34、及び、35)。本出願人は、FRA10Bで非リファレンス読み取りの割合が高い個人をさらに調べて、さらなるVNTR保有者を見つけた。本出願人は、十分な読み取り証拠を持ち合わせていた30名の保有者の保存リストを作成した(家族内の別の個人が保有者であれば、証拠が少なくて済む)。一部の試料では読み取りが欠落しているので、これらのVNTR配列が、さらなるSFARI試料で見つかる可能性がある。本出願人は、Minimac3を使用して、UK BiobankにVNTR配列を入力した[60]。
クローンのトランスドライバーについてのGWAS及び遺伝率の推定。本出願人は、トランス関連性がMAF>0.1%である変異を、6つのクラスのSV(任意の事象、任意のロス、任意のCNN-LOH、任意のゲイン、任意の常染色体事象、任意の常染色体ロス)について、共変量として、10の主要要素、年齢、及び、遺伝子型決定アレイを含む、BOLT-LMM[61]を使用して、(上記した)ヨーロッパ系祖先とは無関係な120,664名について試験した。また、本出願人は、0.1のFDRで、3,462名のXロス判定の可能性のある拡大セットを使用して、女性Xロスとの関連性の試験を行い、この分析を、66,685名の女性に限定した。従前のGWASに関係していた86個の変異についての我々の標的分析では、本出願人は、86個の変異及び7つの表現型に基づいて、8.3×10-5のBonferroni有意性閾値を適用した。本出願人は、BOLT-REMLを使用して、XロスのSNP遺伝率を推定し[40]、推定値を、易罹病性スケールに変換した[62]。
GEUVADIS RNA-配列データにおけるX染色体不活性化の分析。偏りのあるX染色体不活化(XCI)で、優先的なXハプロタイプロスの媒介の可能性を試験するために、本出願人は、Xp11.1で最初の偏りがあったロス関連の近傍での偏ったXCIの証拠について、GEUVADIS RNA-配列データ[63]を調べた。本出願人は、会合シグナルを含む動原体周辺の連鎖不平衡ブロック内でのFAAH2における3つのコーディングSNPを同定した。本出願人は、少なくとも1つのSNPについてヘテロ接合性であった、ヨーロッパ系祖先を有する61名のRNA-配列データを分析した(61名の内の60名は、3つすべてのSNPについてヘテロ接合性であり、他の個人は、2つのSNPでヘテロ接合性であった)。本出願人は、GATK[64]ASE Read Counterを使用して、RNA-配列BAMファイルから対立遺伝子特異的な発現を同定した。ほとんどの個人は、クローンリンパ芽球様細胞株でのXCIで、予想通りに、3つのSNPにわたって強力な一貫した対立遺伝子特異的発現を示した[39];しかしながら、本出願人は、一方の対立遺伝子、または、他方の対立遺伝子を支持する体系的に偏ったXCIの証拠を認めなかった(表10)。
UK Biobankがん表現型。本出願人は、1つ以上の一般的、または、偶発的がん診断を受けた23,901名について、UK Biobankから提供を受けた英国のがん登録データを分析した。がん登録データには、診断日、及び、ICD-O-3組織学、及び、行動コードが含まれており、本出願人は、これらを使用して、CLL、MPN、血液、及び、非血液癌の診断を受けた個人を特定した[65、66]。我々が注目していたのは、DNA収集から1年を超えた時点で偶発的がんの診断を予測する体細胞SVの予後診断力であったので、本出願人は、今回の報告以前にがん(がん登録データ、または、自己報告された一般的ながんのいずれか)を有していた全員を分析から除外した。また、本出願人は、各人で最初のがんの診断だけに関心を向け、そして、本出願人は、UK Biobankの提案にあるように、2014年9月30日以降の診断について調査を行った(追跡期間の中央値は5.7年、標準偏差0.8年、範囲4~9年)。最後に、本出願人は、祖先がヨーロッパ系である自己申告した個人に限定して分析を行った。このような除外をすることで、事例の総数は、CLLが78、MPNが42、血液が441、及び、非血液癌が7,458にまで減少し、本出願人が分析したコントロールは、119,330例であった。
クローン性SVが付与するがんリスクの推定。偶発的がんの診断に関連する体細胞SVのクラスを同定するために、本出願人は、染色体の位置、及び、コピー数に基づいて、SVを上記した114のクラスに分類した。次に、本出願人は、少なくとも30名の保有者については、45のクラスだけに関心を向けた。それぞれのSVクラスについて、本出願人は、試料が、SVだけを含み、または、当該試料で検出したすべてのモザイクSVの中で最も細胞分画が多ければ、それらの試料を事例として考慮した(すなわち、本出願人は、サブクローン性事象の保有者を事例として計数しなかった)。本出願人は、Cochran-Mantel-Haenszel(CMH)試験を使用して、SVクラスと偶発的がんとの間の関連性に関するオッズ比及びP値を演算して、性別及び年齢(6つの5年瓶)で層別化した。SV表現型と偶発的がん表現型の両方が稀であり、回帰の基礎である通常の近似値とは相容れないので、本出願人は、Cox比例ハザードモデルを使用して、ハザード比を演算するのではなく、CMH試験を使用して、(経過観察の間のいずれかの時点での偶発的がんについての)オッズ比を演算した。本出願人は、0.05のFDR閾値を超える有意な関連を報告した(図5A、及び、表13)。
偶発的CLLの予測。本出願人は、偶発的CLLを予測するために、3つのネスト化したロジスティックモデルを検討した。ベースラインである第一のモデルにおいて、本出願人は、説明変数として、年齢及び性別だけを含めた。
第二のモデルでは、本出願人は、リンパ球数、及び、CLLの遺伝的リスクを加えた(従前に公開され、かつ、P<5×10-8に到達した、参考文献[48]の14回の高信頼GWASヒットを使用して演算した);対数リンパ球数は、精度の大部分を改善した。完全なモデルでは、本出願人は、11q-、+12、13q-、13q CNN-LOH、14q-、22q-の説明変数、及び、その他の常染色体事象の総数を加えた。
本出願人は、2つの試料のベンチマークセットで、それぞれのモデルの精度の評価を実施しており、一方は、すべての試料(上記した除外を通過する)を含み、そして、他方は、評価時にリンパ球数が正常(1~3.5×109/L)である個人に限定しており、すなわち、多くとも、わずかなクローン性しか示さない。(第2のベンチマークセットにおいて、本出願人は、モデル全体のモザイク事象を、+12、13q-、及び、13q CNN-LOHに制限した。)本出願人は、モデルのパフォーマンスを比較するために、10倍もの層別交差検証を実行した。本出願人は、すべての交差検証フォールドから結果を統合し、そして、受信者操作特性曲線(AUC)下の面積を演算して、予測精度を評価し(図8B、及び、8C)、そして、本出願人は、適合率―再現率特性も測定した(図41)。
クローン性SVが付与する死亡リスクの推定。本出願人は、評価を行った後に死亡したとの報告を受けた4,619名について、UK Biobankから提供を受けた英国の死亡登録データを分析した。UK Biobankの提案に従い、本出願人は、2015年12月31日以降の死亡について審査を行い、平均経過観察期間の6.9年(範囲5~10年)で、4,518名の死亡報告残した。本出願人は、体細胞SVと死亡率との間の関係を調査し、モザイクの点突然変異が死亡リスクを増加させるという従前の所見の拡大を目指した[3、4、11]。この分析については、死亡リスクに関するSVの影響が弱く、また、経過観察中に報告を受けた死亡者の数が比較的に少なかったため、染色体でSVを層別化するには不十分であった。したがって、本出願人は、コピー数のみでSVを層別化し、そして、Cox比例ハザードモデルを使用して、それぞれの事象クラスが付与したハザード比を演算した。本出願人は、これらの分析を、祖先がヨーロッパ系であると自己申告した個人に限定し、そして、本出願人は、年齢と性別、ならびに、従前はクローン性造血[3、11、21]に関連しており、かつ、UK Biobankのモザイク現象と関連している喫煙状況(P=0.00017)を調整した。本出願人は、すべてのクラスの事象が、従前のがん診断の有無にかかわらず、個人の死亡率を高めており、ロスが、最大のリスクを招き、そして、CNN-LOHが、最小のリスクを招くことを認めた(図8D、及び、表14)。
本出願人は、本明細書に記載した手法が非常に安定しており、検出した事象の全体的なゲノム分布が、従前の研究と概ね一致していることを認めた[1、2、7、8]。しかしながら、当初の分析では、本出願人は、(CNN-LOHが、一般的に、有糸分裂組換え、及び、テロメアへの伸長を受けて作り出されるものだと仮定して)技術的なアーティファクトを示す数百もの明らかに短い間質性CNN-LOH事象を検出した。調査の結果、本出願人は、これらのアーティファクト事象の圧倒的多数が、ゲノムの特定の5つの領域で発生していることを発見した:chr3:約45Mb(11事象)、chr6:約30Mb(709事象)、chr8:約45Mb(12事象)、chr10:約80Mb(40事象)、chr17:約40Mb(40事象)。また、本出願人は、そのような多重検出が、同じ試料で頻発することに気づいた;すべての保有者をまとめてみると、717個の試料が含まれており、そのほとんどすべてが、(我々が、この当初の分析からマスクしていなかった)HLAで、chr6アーティファクトを保持していた。当該chr3、chr6、及び、chr8領域は、すべて、長期LDを有することが従前から指摘されており[70]、このことは、試料汚染[8]が有力な原因であると示唆されており;試料が、別人の細胞で汚染されているのであれば、長期LD(すなわち、多様性が小さなハプロタイプ)、対立遺伝子のバランスは、元の試料の親のハプロタイプの一方(外来DNAにより近似している方)を優先してシフトすることができる。したがって、安全のために、本出願人は、これらの試料の717個すべてを分析から除外し、そして、本出願人は、3つ以上の間質性CNN-LOH判定を有する6名、及び、スイッチ切替えエラー率の高さがうかがえる3つ以上の判定を有する2名をさらに除外して、合計で、725名を除外した。
上記した問題とは別に、本出願人は、ごく一部の部位をhetsとして誤って判定し、続いて、同じハプロタイプで段階的に行って、非常に強力な位相整列BAF偏差を招くホモ接合性(ROH)を実行したところ、短い間質性CNN-LOHを判定する非常に稀な技術的アーティファクトも認めた。これらの判定は、容易に選別できた;本出願人は、小さなヘテロ接合性(この領域で予想されるヘテロ接合性の<1/3)、及び、LRR>-0.1(ロス事象に起因して、当該領域が、おそらく半接合性ではないことを保証する)という基準を使用した。これらのフィルターをかけた後に、本出願人は、すべての試料の内で、32個の間質性CNN-LOH判定だけを残したが、手動確認では明らかなアーティファクトは認められなかった。
焦点欠失の分析
体細胞SVのゲノム分布は、非常にランダムであり、そして、一般的には、長さが<1Mbの欠失した領域(CDR)は、1つのコピーのロスが、過剰な細胞増殖を招くハプロ不足遺伝子を示し得るので、特に、重要である[2]。14q11.2、14q32.33、及び、22q11.22のV(D)J組換え領域を除くと、最も一般的に欠失した3つの領域は、2pのDNMT3A、4qのTET2、及び、13qのDLEU2/DLEU7を標的としており、従前の研究での所見と一致している[2、8];本出願人は、これらの染色体アームでのCNN-LOH事象の大部分が、これらの遺伝子を含んでおり、選択の収束パターンを示唆していることを認めた(図4、及び、図38)。(本出願人は、大きな欠失、及び、11qにてATMにまで及ぶCNN-LOH事象を有する同様のパターンを認めた。)また、本出願人は、体細胞SVの集団研究で以前は指摘されていなかったが、一般的には、がんで変異している3つの遺伝子でCDRを認めた:12pのETV6(血液悪性腫瘍での変異)、17qのNF1(神経線維腫症1型での欠失)、及び、22qでのCHEK2(DNA損傷応答での関与、及び、数多くのがんでの変異)(図15、20、及び25)。加えて、本出願人は、文献検索で、推定標的遺伝子に関係した2つの新規のCDRを認めた:1p36.11-1p35.3の300kb領域にある6つの遺伝子の内の1つであるRPA2は、6つの欠失に含まれており、そして、DNA損傷応答に関与しており[71]、及び、3p13の620kb領域における唯一の遺伝子であるRYBPは、7つの欠失に含まれており、そして、腫瘍抑制遺伝子である、と報告されている[72](図12、及び、14)。
CDRを検出するために、本出願人は、数多くのロス事象が及ぶ短いゲノム領域を同定する必要があった;しかしながら、本出願人は、ロスが焦点領域に多少なりでも特異的であるとの要求を満足する必要もあった(例えば、短い欠失は、アーム全体の欠失よりも遙かに重要である)。この直感を裏付けるために、本出願人は、それぞれのロス事象に、最大重量を1として(6Mbより短い事象について)、6Mb/[事象の長さ]に等しい重量を与えた。次いで、本出願人は、総重量が4を超えるすべての領域を調べ、そして、これらの領域でのロスの積み重ねが、CDRと見なすのに十分な焦点であるか否かを確認した。
偏ったX染色体ロスの分析
モザイク状態に関する標準GWASを実行することに加えて、本出願人は、別のタイプの関連性について、検出したSVを検索した:ヘテロ接合性の個人における一方の対立遺伝子を、他方よりも優先して、対立遺伝子のバランスのシフトを行う(対立遺伝子特異的発現と類似している)。本出願人は、高頻度のXロスが故に(図4)、女性染色体Xに関するこの分析に注力して取り組み、そして、関連性をさらに高めるために、本出願人は、Xロス判定の可能性のある3,462名の拡大セットを使用して、0.1のFDRで、Xロス関連分析を行った。本出願人は、DXZ1の近傍のXp11.1で印象的な関連性(P=6.6×10-27、喪失したハプロタイプでの1.9:1の偏り)、及び、DXZ4の近傍のXq23で弱い関連性(Ρ=1.0×10-9、喪失したハプロタイプでの1.5:1の偏り)を認めた(表1、図48、及び、表10)。また、両方の遺伝子座で、本出願人は、対立遺伝子数とXロスとの間の名目上の関連性(Ρ=1×10-3)を認めた(表1)。Xp11.1、及び、Xq23バイアスシグナルは、独立しているように見える(ヘテロ接合型リスクハプロタイプが一致していれば、2.7:1の偏りであり、また、一致してなければ、1.2:1の偏りである)。本出願人は、当初、特に、XCIでのXp11.1及びXp23の役割[73]を考慮すると、これらの観察事項は、偏ったX染色体不活化(XCI)[39]によって説明できると考えていたが、本出願人は、GEUVADIS RNA-配列データでの偏ったXCIの証拠を発見しなかった[63](表11)。興味深いことに、本出願人は、Xp11.1でリードSNP rs2942875が、Xのゲインに関して同様の影響を及ぼし(表10)、Xの誤分離が関与するメカニズムを示唆するように見える弱い証拠を認めたが、この可能性を調査するには、もっと大量の試料が必要となる;本出願人は、FDR0.1で、Xゲインの可能性ある29個だけを判定した。
Figure 0007277450000011
Figure 0007277450000012
Figure 0007277450000013
Figure 0007277450000014
Figure 0007277450000015
Figure 0007277450000016
Figure 0007277450000017
Figure 0007277450000018
Figure 0007277450000019
Figure 0007277450000020
Figure 0007277450000021
Figure 0007277450000022
Figure 0007277450000023
Figure 0007277450000024
Figure 0007277450000025
Figure 0007277450000026
Figure 0007277450000027
Figure 0007277450000028
Figure 0007277450000029
Figure 0007277450000030
Figure 0007277450000031
Figure 0007277450000032
これまでに記載した本発明の方法、コンピュータープログラム製品、システム、及び、キットの様々な修正、及び、変更は、当業者に自明であり、本発明の範囲、及び、趣旨から逸脱しない。本発明を、特定の実施形態に関連して説明をしてきたが、さらなる変更が可能であり、また、特許請求した本発明が、そのような特定の実施形態に過度に限定されるべきではない、ことを理解されたい。実際のところ、当業者に自明である、本明細書に記載した本発明を実施するための様式の様々な変更が、本発明の範囲内に収まることを意図している。本出願は、一般的に、本発明の原理に従うものであり、かつ、前出の本開示からの逸脱などを含めて、本発明の任意の変形、使用、または、適合を含むことを意図しており、本発明が関係する技術分野で公知の慣例の範囲内にあり、また、本明細書に記載する以前から存在する本質的な特徴部分に適用し得る。
引用文献
1. Jacobs,K.B.et al.Detectable clonal mosaicism and its relationship to aging and cancer.Nature Genetics 44,651-658(2012).
2. Laurie,C.C.et al.Detectable clonal mosaicism from birth to old age and its relationship to cancer.Nature Genetics 44,642-650(2012).
3. Genovese,G.et al.Clonal hematopoiesis and blood-cancer risk inferred from blood DNA sequence.New England Journal of Medicine 371,2477-2487(2014).
4. Jaiswal,S.et al.Age-related clonal hematopoiesis associated with adverse outcomes.New England Journal of Medicine 371,2488-2498(2014).
5. Xie,M.et al.Age-related mutations associated with clonal hematopoietic expansion and malignancies.Nature Medicine 20,1472-1478(2014).
6. McKerrell,T.et al.Leukemia-associated somatic mutations drive distinct patterns of age- related clonal hemopoiesis.Cell Reports 10,1239-1245(2015).
7. Machiela,M.J.et al.Characterization of large structural genetic mosaicism in human autosomes.American Journal of Human Genetics 96,487-497(2015).
8. Vattathil,S.& Scheet,P.Extensive hidden genomic mosaicism revealed in normal tissue.American Journal of Human Genetics 98,571-578(2016).
9. Young,A.L.,Challen,G.A.,Birmann,B.M.& Druley,T.E.Clonal haematopoiesis har- bouring AML-associated mutations is ubiquitous in healthy adults.Nature Communications 7(2016).
10. Forsberg,L.A.,Gisselsson,D.& Dumanski,J.P.Mosaicism in health and disease-clones picking up speed.Nature Reviews Genetics(2016).
11. Zink,F.et al.Clonal hematopoiesis,with and without candidate driver mutations,is com- mon in the elderly.Blood blood-2017(2017).
12. Jaiswal,S.et al.Clonal hematopoiesis and risk of atherosclerotic cardiovascular disease.New England Journal of Medicine(2017).
13. Jones,A.V.et al.JAK2 haplotype is a major risk factor for the development of myelopro- liferative neoplasms.Nature Genetics 41,446-449(2009).
14. Kilpivaara,O.et al.A germline JAK2 SNP is associated with predisposition to the develop- ment of JAK2V617F-positive myeloproliferative neoplasms.Nature Genetics 41,455-459(2009).
15. Olcaydu,D.et al.A common JAK2 haplotype confers susceptibility to myeloproliferative neoplasms.Nature Genetics 41,450-454(2009).
16. Koren,A.et al.Genetic variation in human DNA replication timing.Cell 159,1015-1026(2014).
17. Zhou,W.et al.Mosaic loss of chromosome Y is associated with common variation near TCL1A.Nature Genetics 48,563-568(2016).
18. Hinds,D.A.et al.Germ line variants predispose to both JAK2 V617F clonal hematopoiesis and myeloproliferative neoplasms.Blood 128,1121-1128(2016).
19. Wright,D.J.et al.Genetic variants associated with mosaic Y chromosome loss highlight cell cycle genes and overlap with cancer susceptibility.Nature Genetics(2017).
20. Forsberg,L.A.et al.Mosaic loss of chromosome Y in peripheral blood is associated with shorter survival and higher risk of cancer.Nature Genetics 46,624-628(2014).
21. Dumanski,J.P.et al.Smoking is associated with mosaic loss of chromosome Y.Science 347,81-83(2015).
22. Dumanski,J.P.et al.Mosaic loss of chromosome Y in blood is associated with Alzheimer disease.American Journal of Human Genetics 98,1208-1219(2016).
23. Sudlow,C.et al.UK Biobank:an open access resource for identifying the causes of a wide range of complex diseases of middle and old age.PLOS Medicine 12,1-10(2015).
24. Loh,P.-R.,Palamara,P.F.& Price,A.L.Fast and accurate long-range phasing in a uk biobank cohort.Nature Genetics 48(2016).
25. O’Connell,J.et al.Haplotype estimation for biobank-scale data sets.Nature Genetics(2016).
26. Loh,P.-R.etal.Reference-basedphasingusingtheHaplotypeReferenceConsortiumpanel.Nature Genetics 48,1443-1448(2016).
27. Fischbach,G.D.& Lord,C.The Simons Simplex Collection:a resource for identification of autism genetic risk factors.Neuron 68,192-195(2010).
28. Davoli,T.et al.Cumulative haploinsufficiency and triplosensitivity drive aneuploidy pat- terns and shape the cancer genome.Cell 155,948-962(2013).
29. Beroukhim,R.et al.The landscape of somatic copy-number alteration across human can- cers.Nature 463,899-905(2010).
30. Landau,D.A.et al.Mutations driving CLL and their evolution in progression and relapse.Nature 526,525-530(2015).
31. Puente,X.S.et al.Non-coding recurrent mutations in chronic lymphocytic leukaemia.Nature 526,519-524(2015).
32. Machiela,M.J.et al.Female chromosome X mosaicism is age-related and preferentially affects the inactivated X chromosome.Nature Communications 7(2016).
33. Sinclair,E.J.,Potter,A.M.,Watmore,A.E.,Fitchett,M.& Ross,F.Trisomy 15 associated with loss of the Y chromosome in bone marrow:a possible new aging effect.Cancer Genetics and Cytogenetics 105,20-23(1998).
34. Sutherland,G.,Baker,E.& Seshadri,R.Heritable fragile sites on human chromosomes.V.A new class of fragile site requiring BrdU for expression.American Journal of Human Genetics 32,542(1980).
35. Hewett,D.R.et al.FRA10B structure reveals common elements in repeat expansion and chromosomal fragile site genesis.Molecular Cell 1,773-781(1998).
36. Richards,R.I.& Sutherland,G.R.Dynamic mutations:a new class of mutations causing human disease.Cell 70,709-712(1992).
37. Gurney,A.L.,Carver-Moore,K.,de Sauvage,F.J.& Moore,M.W.Thrombocytopenia in c-mpl-deficient mice.Science 265,1445-1448(1994).
38. Tefferi,A.Novel mutations and their functional and clinical relevance in myeloproliferative neoplasms:JAK2,MPL,TET2,ASXL1,CBL,IDH and IKZF1.Leukemia 24,1128-1138(2010).
39. Tukiainen,T.et al.Landscape of X chromosome inactivation across human tissues.bioRxiv 073957(2016).
40. Loh,P.-R.et al.Contrasting genetic architectures of schizophrenia and other complex diseases using fast variance components analysis.Nature Genetics 47,1385-1392(2015).
41. Oddsson,A.et al.The germline sequence variant rs2736100 c in TERT associates with myeloproliferative neoplasms.Leukemia 28,1371-1374(2014).
42. Stacey,S.N.et al.A germline variant in the TP53 polyadenylation signal confers cancer susceptibility.Nature Genetics 43,1098-1103(2011).
43. Rawstron,A.C.etal.MonoclonalB-celllymphocytosisandchroniclymphocyticleukemia.New England Journal of Medicine 359,575-583(2008).
44. Landgren,O.et al.B-cell clones as early markers for chronic lymphocytic leukemia.New England Journal of Medicine 360,659-667(2009).
45. Landau,D.A.et al.Evolution and impact of subclonal mutations in chronic lymphocytic leukemia.Cell 152,714-726(2013).
46. Ojha,J.et al.Monoclonal B-cell lymphocytosis is characterized by mutations in CLL puta- tive driver genes and clonal heterogeneity many years before disease progression.Leukemia 28,2395-2398(2014).
47. Roulland,S.et al.t(14;18)translocation:A predictive blood biomarker for follicular lym- phoma.Journal of Clinical Oncology 32,1347-1355(2014).
48. Berndt,S.I.et al.Meta-analysis of genome-wide association studies discovers multiple loci for chronic lymphocytic leukemia.Nature Communications 7(2016).
49. O’Keefe,C.,McDevitt,M.A.& Maciejewski,J.P.Copy neutral loss of heterozygosity:a novel chromosomal lesion in myeloid malignancies.Blood 115,2731-2739(2010).
50. Chase,A.etal.Profoundparentalbiasassociatedwithchromosome14acquireduniparental disomy indicates targeting of an imprinted locus.Leukemia 29,2069-2074(2015).
51. Peiffer,D.A.et al.High-resolution genomic profiling of chromosomal aberrations using Infinium whole-genome genotyping.Genome Research 16,1136-1148(2006).
52. Diskin,S.J.et al.Adjustment of genomic waves in signal intensities from whole-genome SNP genotyping platforms.Nucleic Acids Research 36,e126-e126(2008).
53. Nik-Zainal,S.et al.The life history of 21 breast cancers.Cell 149,994-1007(2012).
54. Vattathil,S.& Scheet,P.Haplotype-based profiling of subtle allelic imbalance with SNP arrays.Genome Research 23,152-158(2013).
55. Genovese,G.,Leibon,G.,Pollak,M.R.& Rockmore,D.N.Improved IBD detection using incomplete haplotype information.BMC Genetics 11,58(2010).
56. Huang,J.et al.Improved imputation of low-frequency and rare variants using the UK10K haplotype reference panel.Nature Communications 6(2015).
57. Chang,C.C.et al.Second-generation PLINK:rising to the challenge of larger and richer datasets.GigaScience 4,1-16(2015).
58. Gusev,A.et al.Whole population,genome-wide mapping of hidden relatedness.Genome Research 19,318-326(2009).
59. Werling,D.M.et al.Limited contribution of rare,noncoding variation to autism spectrum disorder from sequencing of 2,076 genomes in quartet families.bioRxiv 127043(2017).
60. Das,S.et al.Next-generation genotype imputation service and methods.Nature Genetics 48,1284-1287(2016).
61. Loh,P.-R.et al.Efficient Bayesian mixed model analysis increases association power in large cohorts.Nature Genetics 47,284-290(2015).
62. Lee,S.H.,Wray,N.R.,Goddard,M.E.& Visscher,P.M.Estimating missing heritability for disease from genome-wide association studies.American Journal of Human Genetics 88,294-305(2011).
63. Lappalainen,T.et al.Transcriptome and genome sequencing uncovers functional variation in humans.Nature 501,506-511(2013).
64. McKenna,A.et al.The genome analysis toolkit:a mapreduce framework for analyzing next-generation dna sequencing data.Genome Research 20,1297-1303(2010).
65. Turner,J.J.et al.InterLymph hierarchical classification of lymphoid neoplasms for epi- demiologic research based on the WHO classification(2008):update and future directions.Blood blood-2010(2010).
66. Arber,D.A.etal.The2016revisiontotheWorldHealthOrganization(WHO)classification of myeloid neoplasms and acute leukemia.Blood blood-2016(2016).
67. Affymetrix,Inc.AxiomR genotyping solution data analysis guide(2016).URL http://media.affymetrix.com/support/downloads/manuals/axiom_ genotyping_solution_analysis_guide.pdf.
68. Quinlan,A.R.& Hall,I.M.BEDTools:a flexible suite of utilities for comparing genomic features.Bioinformatics 26,841-842(2010).
69. Bock,C.,Walter,J.,Paulsen,M.& Lengauer,T.CpG island mapping by epigenome pre- diction.PLOS Computational Biology 3,e110(2007).
70. Price,A.L.et al.Long-range LD can confound genome scans in admixed populations.American Journal of Human Genetics 83,132(2008).
71. Lee,D.-H.et al.A PP4 phosphatase complex dephosphorylates RPA2 to facilitate DNA repair via homologous recombination.Nature Structural & Molecular Biology 17,365-372(2010).
72. Chen,D.et al.RYBP stabilizes p53 by modulating MDM2.EMBO Reports 10,166-172(2009).
73. Rao,S.S.et al.A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping.Cell 159,1665-1680(2014).
74. Di Bernardo,M.C.et al.A genome-wide association study identifies six susceptibility loci for chronic lymphocytic leukemia.Nature Genetics 40,1204-1210(2008).
75. Slager,S.L.et al.Genome-wide association study identifies a novel susceptibility locus at 6p21.3 among familial CLL.Blood 117,1911-1916(2011).
76. Slager,S.L.et al.Common variation at 6p21.31(BAK1)influences the risk of chronic lymphocytic leukemia.Blood 120,843-846(2012).
77. Berndt,S.I.et al.Genome-wide association study identifies multiple risk loci for chronic lymphocytic leukemia.Nature Genetics 45,868-876(2013).
78. Speedy,H.E.et al.A genome-wide association study identifies multiple susceptibility loci for chronic lymphocytic leukemia.Nature Genetics 46,56-60(2014).
79. Tapper,W.et al.Genetic variation at MECOM,TERT,JAK2 and HBS1L-MYB predisposes to myeloproliferative neoplasms.Nature Communications 6(2015).
80. Codd,V.et al.Identification of seven loci affecting mean telomere length and their associ- ation with disease.Nature Genetics 45,422-427(2013).
81. Machiela,M.J.&Chanock,S.J.LDlink:aweb-basedapplicationforexploringpopulation- specific haplotype structure and linking correlated alleles of possible functional variants.Bioinformatics 31,3555-3557(2015).

Claims (27)

  1. モザイク構造変異(モザイクSV)を検出するためのコンピューター実装方法であって;
    1つ以上の演算機器を使用して、1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定すること、ここで前記対立遺伝子の総頻度、及び、相対頻度を決定することが、遺伝子型強度データを、logR 2 比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含み
    前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料における構成的分節重複をマスクすること、ここで前記構成的分節重複をマスクすることが、前記1つ以上の演算機器を使用して、認められた段階的BAF偏差(pBAF)をモデル化することを含み、前記認められたpBAFをモデル化することが、pBAF値に対応する状態を有する25状態隠れマルコフモデル(HMM)を使用して、個々の染色体についてモデル化することにより実行され、さらにマスクする領域を選択することをさらに含み、前記HMMを通してビタビ経路を演算すること、及び、非ゼロ状態の隣接領域を調べることを含み、
    前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料についてのモザイクSV事象の推定セットを同定すること、ここで前記モザイクSV事象の推定セットを同定することが、3状態HMMの使用を含み、前記3状態HMMが、所定のモザイクSV事象での平均|ΔBAF|を表す単一のパラメーターによってパラメーター化される、
    ;及び
    前記1つ以上の演算機器を使用して、少なくとも一部を、前記モザイクSV事象の推定セットに対する尤度比試験の適用に基づいて、前記1つ以上の試料のそれぞれの試料についての1つ以上のモザイクSV事象を定義すること、を含む前記方法。
  2. 前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料について同定されたそれぞれのモザイクSV事象の染色体位置を決めることをさらに含み、同定されたそれぞれのモザイクSV事象の前記染色体位置を決定することが、前記3状態HMMの後方から5つの試料を取得すること、及び、前記5つの試料のコンセンサスに基づいて、それぞれのSV事象の境界を決定することを含む、請求項1に記載の方法。
  3. 前記1つ以上の演算機器を使用して、前記1つ以上の試料のそれぞれの試料について同定されたそれぞれのモザイクSV事象のコピー数を決定することをさらに含み、同定されたそれぞれのモザイクSV事象の前記コピー数を決定することが、少なくとも一部を、LRR、及び、|ΔBAF|偏差に基づいて、前記事象が、ロス、CNN-LOH、または、ゲインであった相対確率を決定することを含む、請求項2に記載の方法。
  4. 前記1つ以上の演算機器を使用して、同定されたそれぞれのモザイクSV事象について多重サブクローン性事象を検出することをさらに含み、多重サブクローン性事象を検出することが、乗法増分が0.01~0.25の範囲である|ΔBAF|レベルを有する51状態HMMに関するビタビ復号を使用して、同定されたそれぞれのモザイクSVを再分析することを含む、請求項1に記載の方法。
  5. 前記1つ以上のモザイクSV事象の検出に基づいて、疾患、または、疾患に対する感受性を検出することをさらに含む、請求項1に記載の方法。
  6. 前記疾患が、がんである、請求項に記載の方法。
  7. 前記がんが、血液癌を含む、請求項に記載の方法。
  8. 前記血液癌が、白血病である、請求項に記載の方法。
  9. 前記白血病が、慢性リンパ性白血病(CLL)である、請求項に記載の方法。
  10. 前記検出された1つ以上のSV事象が、1p=、1q=、2p-、3+、3q=、4q-、4q=、5q-、5q=、6p=、7q-、8+、8q=、9+、9p=、9q=、10q-、11q-、11p=、11q=、12+、12q=、13q-、13q=、14+、14q-、14q=、15+、15q=、16p=、16q=、17+、17p-、17q=、18+、19p=、19q=、20q-、20q=、21+、21q=、22+、22q-、22q=、-Xから選択される1つ以上のSV事象を含む、請求項5~7のいずれか1項に記載の方法。
  11. コンピューター可読プログラム命令を組み込んだコンピューターで実行可能な持続的記憶装置であって:
    コンピューターにより実行されると、遺伝子型決定データから前記コンピューターにモザイク構造変異(モザイクSV)を検出させるコンピューター可読プログラム命令を組み込んだ、コンピューターで実行可能な持続的記憶装置を含み、前記コンピューターで実行可能なプログラム命令が:
    1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定するコンピューターで実行可能なプログラム命令、ここで前記対立遺伝子の総頻度、及び、相対頻度を決定することが、遺伝子型強度データを、logR 2 比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含み
    構成的分節重複をマスクするコンピューターで実行可能なプログラム命令、ここで前記構成的分節重複をマスクすることが、前記1つ以上の演算機器を使用して、認められた段階的BAF偏差(pBAF)をモデル化することを含み、前記認められたpBAFをモデル化することが、pBAF値に対応する状態を有する25状態隠れマルコフモデル(HMM)を使用して、個々の染色体についてモデル化することにより実行され、さらにマスクする領域を選択することをさらに含み、前記HMMを通してビタビ経路を演算すること、及び、非ゼロ状態の隣接領域を調べることを含み
    前記1つ以上の試料のそれぞれの試料についてのモザイクSV事象の推定セットを同定するコンピューターで実行可能なプログラム命令、ここで前記モザイクSV事象の推定セットを同定することが、3状態HMMの使用を含み、前記3状態HMMが、所定のモザイクSV事象での平均|ΔBAF|を表す単一のパラメーターによってパラメーター化される;ならびに
    少なくとも一部を、前記モザイクSV事象の推定セットに対する尤度比試験の適用に基づいて、前記1つ以上の試料のそれぞれの試料についての1つ以上のモザイクSV事象を定義するコンピューターで実行可能なプログラム命令を含み、
    同定されたそれぞれのモザイクSVについての多重サブクローン性事象を検出する、コンピューターで実行可能なプログラム命令をさらに含む、前記コンピューターで実行可能な持続的記憶装置
  12. 前記1つ以上の試料のそれぞれの試料について同定されたそれぞれのモザイクSV事象の染色体位置を決定するコンピューターで実行可能なプログラム命令をさらに含み、同定されたそれぞれのモザイクSV事象の前記染色体位置を決定することが、前記3状態HMMの後方から5つの試料を取得すること、及び、前記5つの試料のコンセンサスに基づいて、それぞれのSV事象の境界を決定することを含む、請求項11に記載のコンピューターで実行可能な持続的記憶装置
  13. 同定されたそれぞれのモザイクSV事象のコピー数を決定する、コンピューターで実行可能なプログラム命令をさらに含み、同定されたそれぞれのモザイクSV事象の前記コピー数を決定することが、少なくとも一部を、LRR、及び、|ΔBAF|偏差に基づいて、前記事象が、ロス、CNN-LOH、または、ゲインであった相対確率を決定することを含む、請求項12に記載のコンピューターで実行可能な持続的記憶装置
  14. 対立遺伝子の総頻度、及び、相対頻度を決定することが、遺伝子型強度データを、logR2比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含む、請求項11に記載のコンピューターで実行可能な持続的記憶装置
  15. 前記1つ以上のモザイクSV事象の検出に基づいて、疾患、または、疾患に対する感受性を検出することをさらに含む、請求項11に記載のコンピューターで実行可能な持続的記憶装置
  16. 前記疾患が、がんである、請求項15に記載のコンピューターで実行可能な持続的記憶装置
  17. 前記がんが、血液癌である、請求項16に記載のコンピューターで実行可能な持続的記憶装置
  18. 前記血液癌が、白血病である、請求項17に記載のコンピューターで実行可能な持続的記憶装置
  19. 前記白血病が、慢性リンパ性白血病である、請求項18に記載のコンピューターで実行可能な持続的記憶装置
  20. 1つ以上のモザイクSV事象を検出するシステムであって:
    記憶装置;ならびに
    前記記憶装置に通信可能に接続されたプロセッサであって、前記記憶装置に格納され、前記システムに:
    1つ以上の試料についての対立遺伝子の総強度、及び、相対強度を決定させ、ここで前記対立遺伝子の総頻度、及び、相対頻度を決定することが、遺伝子型強度データを、logR 2 比(LRR)、及び、B対立遺伝子頻度(BAF)値に変換することを含み
    構成的分節重複をマスクさせ、ここで前記構成的分節重複をマスクすることが、前記1つ以上の演算機器を使用して、認められた段階的BAF偏差(pBAF)をモデル化することを含み、前記認められたpBAFをモデル化することが、pBAF値に対応する状態を有する25状態隠れマルコフモデル(HMM)を使用して、個々の染色体についてモデル化することにより実行され、さらにマスクする領域を選択することをさらに含み、前記HMMを通してビタビ経路を演算すること、及び、非ゼロ状態の隣接領域を調べることを含み
    前記1つ以上の試料のそれぞれの試料についてのモザイクSV事象の推定セットを同定させ、ここで前記モザイクSV事象の推定セットを同定することが、3状態HMMの使用を含み、前記3状態HMMが、所定のモザイクSV事象での平均|ΔBAF|を表す単一のパラメーターによってパラメーター化される
    前記1つ以上の試料のそれぞれの試料についての1つ以上のモザイクSV事象を定義させ、
    同定されたそれぞれのモザイクSVについての多重サブクローン性事象を検出する、
    アプリケーションコード命令を実行する、前記プロセッサを含む、前記システム。
  21. 対立遺伝子頻度を決定するための試薬、及び、請求項11~19のいずれか1項に記載のコンピューターで実行可能な持続的記憶装置、または、請求項20に記載のシステムを含むキット。
  22. 対象の病態の存在または感受性を検出する方法であって、前記対象由来の試料での核酸において請求項1に記載のコンピューター実装方法により1つ以上のモザイク構造変異(モザイクSV)を検出することを含み、前記1つ以上のモザイクSVの有無が、前記病態の存在または感受性を示す、前記方法。
  23. 前記核酸が、無細胞核酸である、請求項22に記載の方法。
  24. 前記試料が、母体血液であり、かつ、前記無細胞核酸が、胎児無細胞核酸である、請求項23に記載の方法。
  25. 前記無細胞核酸が、循環腫瘍DNAである、請求項23に記載の方法。
  26. 前記病態が、胎児異数性である、請求項22に記載の方法。
  27. 前記病態が、がんである、請求項22に記載の方法。
JP2020521572A 2017-10-17 2018-10-17 体細胞構造変異の検出のための方法、及び、システム Active JP7277450B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023023146A JP2023071770A (ja) 2017-10-17 2023-02-17 体細胞構造変異の検出のための方法、及び、システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762573642P 2017-10-17 2017-10-17
US62/573,642 2017-10-17
PCT/US2018/056342 WO2019079493A2 (en) 2017-10-17 2018-10-17 METHODS AND SYSTEMS FOR DETECTING SOMATIC STRUCTURAL VARIANTS

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023023146A Division JP2023071770A (ja) 2017-10-17 2023-02-17 体細胞構造変異の検出のための方法、及び、システム

Publications (2)

Publication Number Publication Date
JP2020537527A JP2020537527A (ja) 2020-12-24
JP7277450B2 true JP7277450B2 (ja) 2023-05-19

Family

ID=66174625

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020521572A Active JP7277450B2 (ja) 2017-10-17 2018-10-17 体細胞構造変異の検出のための方法、及び、システム
JP2023023146A Pending JP2023071770A (ja) 2017-10-17 2023-02-17 体細胞構造変異の検出のための方法、及び、システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023023146A Pending JP2023071770A (ja) 2017-10-17 2023-02-17 体細胞構造変異の検出のための方法、及び、システム

Country Status (6)

Country Link
US (1) US20200303036A1 (ja)
EP (1) EP3697946A4 (ja)
JP (2) JP7277450B2 (ja)
CN (1) CN111587302B (ja)
CA (1) CA3079190A1 (ja)
WO (1) WO2019079493A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021217152A1 (en) 2020-04-24 2021-10-28 LifeVault Bio, Inc. Methods of predicting susceptibility to infectious disease and related methods of treatment
CN113066529B (zh) * 2021-03-26 2023-08-18 四川大学华西医院 基于全外显子数据的近亲家系鉴定方法、装置及设备
CN114863994B (zh) * 2022-07-06 2022-09-30 新格元(南京)生物科技有限公司 污染评估方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136603A1 (en) 2016-02-02 2017-08-10 Guardant Health, Inc. Cancer evolution detection and diagnostic

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229244B2 (en) * 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
CN103911428B (zh) * 2009-03-27 2016-02-24 生命技术公司 用于检测等位基因变体的方法、组合物和试剂盒
US20130297221A1 (en) * 2011-06-01 2013-11-07 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Accurate Construction Of Long Range Haplotype
WO2013086464A1 (en) * 2011-12-07 2013-06-13 The Broad Institute, Inc. Markers associated with chronic lymphocytic leukemia prognosis and progression
US10289800B2 (en) * 2012-05-21 2019-05-14 Ariosa Diagnostics, Inc. Processes for calculating phased fetal genomic sequences
US10577655B2 (en) * 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
WO2016061568A1 (en) * 2014-10-17 2016-04-21 Ancestry.Com Dna, Llc Haplotype phasing models
US10395759B2 (en) * 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US20200087710A1 (en) * 2017-03-17 2020-03-19 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
WO2018170578A1 (en) * 2017-03-20 2018-09-27 Ontario Institute For Cancer Research (Oicr) Cancer risk based on tumour clonality

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136603A1 (en) 2016-02-02 2017-08-10 Guardant Health, Inc. Cancer evolution detection and diagnostic

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Selina Vattathil, et al.,Extensive Hidden Genomic Mosaicism Revealed in Normal Tissue,American Journal of Human Genetics [online],2016年03月03日,Volume 98, Issue 3,pages 571-578,[検索日:2022年6月27日], <URL:https://www.sciencedirect.com/science/article/pii/S0002929716000549?via%3Dihub>
谷村直樹,Illumina Omniチップデータからの体細胞ゲノムコピー数異常予測ソフトウエアの調査,みずほ情報総研技報 [online],2015年10月,第7巻第1号,第1-18ページ,[検索日:2022年6月27日], <URL:https://www.mizho-rt.co.jp/solution/bioinfo/pdf/bioinfo04.pdf>

Also Published As

Publication number Publication date
EP3697946A2 (en) 2020-08-26
JP2020537527A (ja) 2020-12-24
WO2019079493A3 (en) 2020-04-02
US20200303036A1 (en) 2020-09-24
CN111587302A (zh) 2020-08-25
CN111587302B (zh) 2023-09-01
CA3079190A1 (en) 2019-04-25
JP2023071770A (ja) 2023-05-23
WO2019079493A2 (en) 2019-04-25
EP3697946A4 (en) 2021-07-14

Similar Documents

Publication Publication Date Title
Loh et al. Insights into clonal haematopoiesis from 8,342 mosaic chromosomal alterations
Barbitoff et al. Systematic dissection of biases in whole-exome and whole-genome sequencing reveals major determinants of coding sequence coverage
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
Oliva et al. DNA methylation QTL mapping across diverse human tissues provides molecular links between genetic variation and complex traits
US11978535B2 (en) Methods of detecting somatic and germline variants in impure tumors
Carmi et al. Sequencing an Ashkenazi reference panel supports population-targeted personal genomics and illuminates Jewish and European origins
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
Kanchi et al. Integrated analysis of germline and somatic variants in ovarian cancer
JP6561046B2 (ja) 遺伝子の変動の非侵襲性評価のための方法および処理
Olshen et al. Parent-specific copy number in paired tumor–normal studies using circular binary segmentation
Boca et al. Patient-oriented gene set analysis for cancer mutation data
Stupnikov et al. Robustness of differential gene expression analysis of RNA-seq
Jiang et al. FetalQuant: deducing fractional fetal DNA concentration from massively parallel sequencing of DNA in maternal plasma
Gudmundsson et al. A common variant at 8q24. 21 is associated with renal cell cancer
JP2023071770A (ja) 体細胞構造変異の検出のための方法、及び、システム
Villani et al. The clinical utility of integrative genomics in childhood cancer extends beyond targetable mutations
Halperin et al. A method to reduce ancestry related germline false positives in tumor only somatic variant calling
US20160160294A1 (en) Methods and materials for predicting response to niraparib
JP2020506689A (ja) 遺伝子片の評価のための方法およびプロセス
Truong et al. Germline variants identified in patients with early-onset renal cell carcinoma referred for germline genetic testing
Davila et al. Frequent POLE-driven hypermutation in ovarian endometrioid cancer revealed by mutational signatures in RNA sequencing
Vanderstichele et al. Nucleosome footprinting in plasma cell-free DNA for the pre-surgical diagnosis of ovarian cancer
Ptashkin et al. Enhanced clinical assessment of hematologic malignancies through routine paired tumor and normal sequencing
Romdhane et al. A map of copy number variations in the Tunisian population: a valuable tool for medical genomics in North Africa
Vidal et al. Comprehensive analysis of germline mutations in northern Brazil: a panel of 16 genes for hereditary cancer-predisposing syndrome investigation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220930

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230217

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230217

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230308

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230328

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R150 Certificate of patent or registration of utility model

Ref document number: 7277450

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150