JP6411995B2 - 非侵襲的出生前診断のために大量並列シークエンシング・データを分析する方法 - Google Patents

非侵襲的出生前診断のために大量並列シークエンシング・データを分析する方法 Download PDF

Info

Publication number
JP6411995B2
JP6411995B2 JP2015500578A JP2015500578A JP6411995B2 JP 6411995 B2 JP6411995 B2 JP 6411995B2 JP 2015500578 A JP2015500578 A JP 2015500578A JP 2015500578 A JP2015500578 A JP 2015500578A JP 6411995 B2 JP6411995 B2 JP 6411995B2
Authority
JP
Japan
Prior art keywords
chromosome
trisomy
chromosomal region
content
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015500578A
Other languages
English (en)
Other versions
JP2015515266A (ja
JP2015515266A5 (ja
Inventor
ジャーン チェン
ジャーン チェン
ユク ミン デニス ロー
ユク ミン デニス ロー
クワン チー チャン
クワン チー チャン
ウェンリ ジュヨン
ウェンリ ジュヨン
ハオ スン
ハオ スン
ワイ クン ロッサ チウ
ワイ クン ロッサ チウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong CUHK
Original Assignee
Chinese University of Hong Kong CUHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong CUHK filed Critical Chinese University of Hong Kong CUHK
Publication of JP2015515266A publication Critical patent/JP2015515266A/ja
Publication of JP2015515266A5 publication Critical patent/JP2015515266A5/ja
Application granted granted Critical
Publication of JP6411995B2 publication Critical patent/JP6411995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Description

関連する出願の相互参照
本出願は、2012年3月13日に出願されたアメリカ合衆国出願第61/610,422号の優先権を主張する。
この優先権出願は、あらゆる目的で、参考としてその全体がこの明細書に組み込まれている。2007年7月23日に出願されたアメリカ合衆国特許出願第60/951,438号(005200US)と、2008年7月23日に出願されたアメリカ合衆国特許出願第12/178,116号(005210US)(係属中)も、あらゆる目的で、参考としてその全体がこの明細書に組み込まれている。
背景
胎児の循環している核酸の大量並列シークエンシング・データが非侵襲的出生前診断に利用されてきた。シークエンシングされた読み取り結果を表示する際の定量的バイアスは、多くの因子(例えばシークエンシングされた鋳型DNAのGC含量)と関連付けることができよう。
概要
本明細書では、観察される定量的バイアスの程度を小さくする(すなわち最小にする)いくつかの方法を記述する。そのようにする結果として、シークエンシング・データは、元のサンプルに含まれる鋳型DNA分子間の真の相対的分布をより正確に反映することができ、したがってより正確な臨床診断が可能になる。
本発明の実施態様は、以下に記載する方法に関連するシステムとコンピュータ可読媒体に関する。
母親の血漿から得られた配列と人工染色体のアラインメントを作ってGCバイアスを小さくする方法を示すフロー・チャートである。 分析基準を変えたとき一意的なアラインメントになる読み取りの数。シークエンシングされた全サンプルについて、分析基準を変えたときに一意的なアラインメントになる読み取りのボックスプロット。Mは、反復配列がマスクされたヒト参照ゲノム。Uは、非反復配列がマスクされたヒト参照ゲノム。 アラインメント・パラメータを変えたときの常染色体の定量化の精度。染色体は、左から右へとGC含量が増えるように並べた。95%信頼区間はエラー棒で示した。Iは、インデックス配列中で許容できるミスマッチの数。Rは、読まれたアラインメント中で許容されるミスマッチの数。Mは、反復配列がマスクされたヒト参照ゲノム。Uは、非反復分がマスクされたヒト参照ゲノム。 アラインメントが改善されたT21バイオインフォマティクス分析パイプラインによるトリソミー13の検出。(A)トリソミー13、非トリソミー13、対照サンプルに関する染色体13のゲノム表現。(B)トリソミー13、非トリソミー13、対照サンプルに関する染色体13のzスコア。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 アラインメントが改善されたT21バイオインフォマティクス分析パイプラインによるトリソミー13の検出。(A)トリソミー13、非トリソミー13、対照サンプルに関する染色体13のゲノム表現。(B)トリソミー13、非トリソミー13、対照サンプルに関する染色体13のzスコア。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 アラインメントが改善されたT21バイオインフォマティクス分析パイプラインによるトリソミー18の検出。(A)トリソミー18、非トリソミー18、対照サンプルに関する染色体18のゲノム表現。(B)トリソミー18、非トリソミー18、対照サンプルに関する染色体18のzスコア。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 アラインメントが改善されたT21バイオインフォマティクス分析パイプラインによるトリソミー18の検出。(A)トリソミー18、非トリソミー18、対照サンプルに関する染色体18のゲノム表現。(B)トリソミー18、非トリソミー18、対照サンプルに関する染色体18のzスコア。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 GC補正前の血漿DNAシークエンシング・データ中のGC含量と読み取り数の間の相関。正倍数体サンプルからの血漿DNAシークエンシング・データをGC補正する前の50kbビンごとのGC含量と読み取り数の間の散乱プロット。スピアマンの順位相関係数を示してある。異常値はプロットしなかった。 線形回帰によるGC補正後の血漿DNAシークエンシング・データ中のGC含量と読み取り数の間の相関。正倍数体サンプルからの血漿DNAシークエンシング・データを線形回帰によってGC補正した後の50kbビンごとのGC含量と読み取り数の間の散乱プロット。スピアマンの順位相関係数を示してある。異常値はプロットしなかった。 線形回帰によるGC補正後のトリソミー13の検出。線形回帰によるGC補正を実施した。(A)線形回帰によるGC補正後の染色体13のゲノム表現を、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。(B)染色体13のzスコアを、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 線形回帰によるGC補正後のトリソミー13の検出。線形回帰によるGC補正を実施した。(A)線形回帰によるGC補正後の染色体13のゲノム表現を、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。(B)染色体13のzスコアを、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 線形回帰によるGC補正後のトリソミー18の検出。線形回帰によるGC補正を実施した。(A)線形回帰によるGC補正後の染色体18のゲノム表現を、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。(B)染色体18のzスコアを、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 線形回帰によるGC補正後のトリソミー18の検出。線形回帰によるGC補正を実施した。(A)線形回帰によるGC補正後の染色体18のゲノム表現を、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。(B)染色体18のzスコアを、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 LOESS回帰によるGC補正後の血漿DNAシークエンシング・データ中のGC含量と読み取り数の間の相関。正倍数体サンプルからの血漿DNAシークエンシング・データをLOESS回帰によってGC補正した後の50kbビンごとのGC含量と読み取り数の間の散乱プロット。スピアマンの順位相関係数を示してある。異常値はプロットしなかった。 GC補正ありとGC補正なしの場合の常染色体の定量化の精度。対照サンプル間での常染色体の定量化に関するCVをプロットした。GC補正あり、またはGC補正なしで計算したCVは、異なる色でプロットした。染色体は、左から右へとGC含量が増えるように並べた。 LOESS回帰によるGC補正後のトリソミー13の検出。LOESS回帰によるGC補正を実施した。(A)LOESS回帰によるGC補正後の染色体13のゲノム表現を、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。(B)染色体13のzスコアを、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 LOESS回帰によるGC補正後のトリソミー13の検出。LOESS回帰によるGC補正を実施した。(A)LOESS回帰によるGC補正後の染色体13のゲノム表現を、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。(B)染色体13のzスコアを、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 LOESS回帰によるGC補正後のトリソミー18の検出。LOESS回帰によるGC補正を実施した。(A)LOESS回帰によるGC補正後の染色体18のゲノム表現を、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。(B)染色体18のzスコアを、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 LOESS回帰によるGC補正後のトリソミー18の検出。LOESS回帰によるGC補正を実施した。(A)LOESS回帰によるGC補正後の染色体18のゲノム表現を、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。(B)染色体18のzスコアを、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 ビンのサイズが異なるGC補正によって染色体13と18を測定した場合のCV。GC補正を実行するのに異なるサイズのビンを使用した。Mは、メガ塩基。Kは、キロ塩基。GC補正の後、対照サンプル間での染色体13と染色体18の定量化に関するCVを計算した。表5.3は、ビンのサイズが異なるGC補正によって対照サンプル間で染色体13と染色体18を定量化した場合のCV。Mは、メガ塩基。Kは、キロ塩基。GRは、ゲノム表現。 異なる参照染色体を用いて染色体13と染色体18を定量化した場合のCV。(A)染色体13と(B)染色体18について異なる参照染色体を用いた修正GRのCV。合計は、全染色体(ゲノム全体)。 異なる参照染色体を用いて染色体13と染色体18を定量化した場合のCV。(A)染色体13と(B)染色体18について異なる参照染色体を用いた修正GRのCV。合計は、全染色体(ゲノム全体)。 修正ゲノム表現計算を利用したトリソミー13の検出。(A)染色体13の修正ゲノム表現を、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。染色体13のGRを計算するのに参照染色体として染色体4を用いた。(B)修正ゲノム表現を用いた染色体13のzスコアを、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 修正ゲノム表現計算を利用したトリソミー13の検出。(A)染色体13の修正ゲノム表現を、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。染色体13のGRを計算するのに参照染色体として染色体4を用いた。(B)修正ゲノム表現を用いた染色体13のzスコアを、トリソミー13、非トリソミー13、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T13は、トリソミー13。GRは、ゲノム表現。 修正ゲノム表現計算を利用したトリソミー18の検出。(A)染色体18の修正ゲノム表現を、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。染色体18のGRを計算するのに参照染色体として染色体8を用いた。(B)修正ゲノム表現を用いた染色体18のzスコアを、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 修正ゲノム表現計算を利用したトリソミー18の検出。(A)染色体18の修正ゲノム表現を、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。染色体18のGRを計算するのに参照染色体として染色体8を用いた。(B)修正ゲノム表現を用いた染色体18のzスコアを、トリソミー18、非トリソミー18、参照対照サンプルについて計算した。点線は、zスコアの値が3という診断カットオフを示している。T18は、トリソミー18。GRは、ゲノム表現。 異なるGCバイアス低減法による染色体13と染色体18の定量化の精度。GC補正、または修正ゲノム表現、またはこれら2つの方法の組み合わせによって染色体13と染色体18を定量化した場合のCV。表6.2は、異なるGCバイアス低減法によって染色体13と染色体18を定量化した場合のCV。 染色体13と染色体18を他の染色体と比較することによるトリソミー13とトリソミー18の検出。ゲノム全体を500kbのビンに分割し、各ビンについて読み取り数を計算した。ウィルコクソンの順位和検定により、染色体13と染色体18からの読み取り数を他の染色体からの読み取り数と比較した。(A)トリソミー13と(B)トリソミー18の検出についてp値をプロットした。対照サンプルは不要であったため、以前の分析における対照サンプルは、この分析では試験サンプルであった。点線は、p値が0.05の診断カットオフを示す。T13は、トリソミー13。T18は、トリソミー18。 染色体13と染色体18を他の染色体と比較することによるトリソミー13とトリソミー18の検出。ゲノム全体を500kbのビンに分割し、各ビンについて読み取り数を計算した。ウィルコクソンの順位和検定により、染色体13と染色体18からの読み取り数を他の染色体からの読み取り数と比較した。(A)トリソミー13と(B)トリソミー18の検出についてp値をプロットした。対照サンプルは不要であったため、以前の分析における対照サンプルは、この分析では試験サンプルであった。点線は、p値が0.05の診断カットオフを示す。T13は、トリソミー13。T18は、トリソミー18。 GC補正後の、染色体13、染色体18、他の常染色体(染色体21は除く)に関する500kbごとの読み取り数の分布。正倍数体サンプルからの500kbごとの読み取りのボックスプロット。染色体13と染色体18からのビンごとの読み取り数の中央値は、他の染色体(染色体21は除く)からの読み取り数の中央値よりも大きい。この傾向は、他の正倍数体サンプルでも観察された。点線は、他の染色体(染色体21は除く)のビンごとの読み取り数の中央値を示す。 染色体13と染色体18を人工染色体と比較することによるトリソミー13とトリソミー18の検出。染色体13および染色体18とGC含量およびマッピング可能性が似た2つの人工染色体をそれぞれ構成した。ウィルコクソンの順位和検定により、染色体13と染色体18からの読み取り数を人工染色体からの読み取り数と比較した。(A)トリソミー13と(B)トリソミー18の検出についてp値をプロットした。対照サンプルは不要であったため、以前の分析における対照サンプルは、この分析では試験サンプルであった。点線は、p値が0.05の診断カットオフを示す。T13は、トリソミー13。T18は、トリソミー18。 染色体13と染色体18を人工染色体と比較することによるトリソミー13とトリソミー18の検出。染色体13および染色体18とGC含量およびマッピング可能性が似た2つの人工染色体をそれぞれ構成した。ウィルコクソンの順位和検定により、染色体13と染色体18からの読み取り数を人工染色体からの読み取り数と比較した。(A)トリソミー13と(B)トリソミー18の検出についてp値をプロットした。対照サンプルは不要であったため、以前の分析における対照サンプルは、この分析では試験サンプルであった。点線は、p値が0.05の診断カットオフを示す。T13は、トリソミー13。T18は、トリソミー18。 染色体13の概略。 データ分析ステップの概略。 zスコアの比較。 本発明の実施態様によるシステムと方法で使用できるコンピュータ・システムの一例のブロック・ダイヤグラムである。
定義
“生物サンプル”という用語は、この明細書では、対象(例えば、妊娠中の女性などのヒト)から採取したあらゆるサンプルを意味し、興味の対象である1種類以上の核酸分子を含んでいる。
“核酸”または“ポリヌクレオチド”という用語は、一本鎖または二本鎖の形になったジオキシリボ核酸(DNA)またはリボ核酸(RNA)と、そのポリマーを意味する。特に断わらない限り、この用語には、参照する核酸と似た結合特性を持っていて、天然のヌクレオチドと同様に代謝される天然のヌクレオチドの既知の類似体を含有する核酸が含まれる。特に断わらない限り、特定の核酸配列には、その保存的に改変されたバリアント(例えば縮重コドン置換)、アレル、オルトログ、SNP、相補的配列のほか、明示的に示された配列も暗示的に含まれる。具体的には、縮重コドン置換は、選択された1つ以上(またはすべて)のコドンの第3位が、混合された塩基および/またはデオキシイノシン残基で置換された配列を生成させることによって実現できる(Batzer他、Nucleic Acid Res.、第19巻:5081ページ(1991年);Ohtsuka他、J. Biol. Chem.、第260巻:2605〜2608ページ(1985年);Rossolini他、Mol. Cell. Probes、第8巻:91〜98ページ(1994年))。核酸という用語は、1つの遺伝子または遺伝子座によってコードされている遺伝子、cDNA、mRNA、小さな非コードRNA、マイクロRNA(miRNA)、Piwi相互作用RNA、短鎖ヘアピンRNA(shRNA)と同じ意味で使用される。
“遺伝子”という用語は、DNAのうちでポリペプチド鎖の産生に関与する区画を意味する。その中には、コード領域の前後の領域のほか、個々のコード区画(エキソン)の間にある介在配列(イントロン)が含まれていてもよい。
“反応”という用語は、この明細書では、興味の対象である特定のポリヌクレオチド配列の存在または不在を示す化学作用、酵素作用、物理作用を含むあらゆるプロセスを意味する。“反応”の一例は、ポリメラーゼ連鎖反応(PCR)などの増幅反応である。“反応”の別の一例は、合成または連結によるシークエンシング反応である。“情報を与える反応”は、興味の対象である1つ以上の特定のポリヌクレオチドの存在を示す反応であり、1つのケースでは、興味の対象である1つの配列だけが存在する。“ウエル”という用語は、この明細書では、限定された構造内の所定の場所(例えば、PCRアレイ内のウエル形のバイアル、セル、チェンバー)での反応を意味する。
“臨床的に重要な核酸配列”という用語は、この明細書では、潜在的な不均衡を調べているより大きなゲノム配列のある区画、またはより大きなそのゲノム配列そのものに対応するポリヌクレオチド配列を意味する。一例は、染色体21の配列である。別の例として、染色体18、13、X、Yが挙げられる。さらに別の例として、胎児が両親の一方または両方から受け継ぐ可能性のある突然変異した遺伝子配列、または遺伝的多型、またはコピー数のバリエーションが挙げられる。さらに別の例として、悪性腫瘍に含まれる突然変異した配列、欠失した配列、増幅された配列(例えばヘテロ接合性の喪失または遺伝子の重複が起こっている配列)が挙げられる。いくつかの実施態様では、複数の臨床的に重要な核酸配列、またはそれと同等な臨床的に重要な核酸配列の複数のマーカーを用い、不均衡を検出するためのデータを提供することができる。例えば染色体21上の連続していない5つの配列からのデータを足し合わせて用いて染色体21の可能な不均衡を明らかにすることで、必要とされるサンプルの体積が効率よく1/5に減少する。
“背景核酸配列”という用語は、この明細書では、臨床的に重要な核酸配列に対する正常な比(例えば1対1の比)がわかっている核酸配列を意味する。一例として、背景核酸配列と臨床的に重要な核酸配列は、同じ染色体からの2つのアレルだが、その2つのアレルはヘテロ接合性が原因で互いに異なっている。別の一例では、背景核酸配列は、臨床的に重要な核酸配列である1つのアレルに対してヘテロ接合性である別のアレルである。さらに、各背景核酸配列のいくつかと臨床的に重要な核酸配列は、異なる個人からのものが可能である。
“参照核酸配列”という用語は、この明細書では、反応ごとの平均濃度が既知であるか測定されている核酸配列を意味する。
“過剰出現核酸配列”という用語は、この明細書では、興味の対象である2つの配列(例えば臨床的に重要な核酸配列と背景核酸配列)のうちで生物サンプル中に他方の配列よりも豊富にある核酸配列を意味する。
“〜に基づく”という用語は、この明細書では、“少なくとも一部が〜に基づく”を意味し、1つの値(または結果)が別の値を決定するのに使用されることを指しており、例えばある方法の入力とその方法の出力の関係において生じる。“導出する”という用語も、この明細書では、ある方法の入力とその方法の出力の関係を意味し、例えば導出が公式の計算であるときそのような関係が生じる。
“定量的データ”という用語は、この明細書では、1つ以上の反応から得られて1つ以上の数値を提供するデータを意味する。例えば特定の配列のための蛍光マーカーを示すウエルの数は、定量的データであると考えられる。
“パラメータ”という用語は、この明細書では、1つの定量的データ・セットを特徴づける数値、および/または定量的データ・セット相互間の数的関係を特徴づける数値を意味する。例えば第1の核酸配列の第1の量と第2の核酸配列の第2の量の間の比(または比の関数)は、1つのパラメータである。
“カットオフ値”という用語は、この明細書では、生物サンプルについて分類の2つ以上の状態(例えば疾患状態と非疾患状態)を区別するのに用いる数値を意味する。例えばあるパラメータがカットオフ値よりも大きい場合、定量的データの第1の分類がなされる(例えば疾患状態)。あるいはそのパラメータがカットオフ値よりも小さい場合には、定量的データの別の分類がなされる(例えば非疾患状態)。
“不均衡”という用語は、この明細書では、任意の有意な偏差を意味し、臨床的に重要な核酸配列のある量において参照量からカットオフ値少なくとも1つ分だけ離れた量と定義される。例えば参照量として3/5という比が可能であり、その場合には測定された比が1:1だと不均衡が起こることになる。
“染色体異数性”という用語は、この明細書では、1つの染色体の量が二倍体ゲノムの量から変化していることを意味する。この変化として、利得または損失が可能である。この用語には、1つの染色体の全体、または1つの染色体の1つの領域が含まれていてよい。
“ランダムなシークエンシング”という用語は、この明細書では、シークエンシング操作の前にはシークエンシングされる核酸断片が特定されていないか明確にされていないシークエンシングを意味する。特定の遺伝子座を標的とする配列特異的プライマは必要とされない。シークエンシングされた核酸の集団はサンプルごとに異なっており、同じサンプルでも分析ごとに異なってさえいる。シークエンシングされた核酸が何であるかは、生成したシークエンシング出力から初めて明らかになる。本発明のいくつかの実施態様では、ランダムなシークエンシングは、生物サンプルにおいて所定の共通する特徴を共有する核酸分子の特定の集団を豊富にする手続きの後に実施することができる。一実施態様では、生物サンプル中の各断片は、シークエンシングされる確率が等しい。
“ヒト・ゲノムの部分”または“ヒト・ゲノムの一部”という用語は、この明細書では、約30億塩基対のヌクレオチドを含むヒト・ゲノム中のヌクレオチド配列の100%未満を意味する。シークエンシングの文脈では、この用語は、ヒト・ゲノム中のヌクレオチド配列を1回未満カバーすることを意味する。この用語は、ヌクレオチド/塩基対の割合または絶対数で表現することができる。一使用例として、この用語は、実施されたシークエンシングの実際の量を表わすのに使用できる。正確な診断を得る上で、ヒト・ゲノムのシークエンシングされる一部として必要な最小値は、さまざまな実施態様によって決めることができる。別の使用例として、この用語は、シークエンシングされて疾患分類のためのパラメータまたは量の導出に用いられるデータの量を意味することができる。
“シークエンシングされたタグ”という用語は、この明細書では、核酸分子の任意の一部または全体からシークエンシングされたヌクレオチドの鎖を意味する。例えばシークエンシングされたタグとして、核酸断片からシークエンシングされたヌクレオチドの短い鎖、または核酸断片の両端にあるヌクレオチドの短い鎖、または生物サンプル中に存在する1つの核酸断片の全体をシークエンシングしたものが可能である。核酸断片は、より大きな核酸分子の任意の部分である。断片(例えば遺伝子)は、そのより大きな核酸分子の他の部分とは独立に(すなわち接続されていない状態で)存在することができる。
I.アラインメントの改善
検出精度を向上させる1つの方法は、バイオインフォマティクス分析手続きにおけるアラインメントを改善し、アラインメントがなされた読み取りがより多く得られるようにするというものである。この目的を実現するには、いくつかの可能な解決法を考えることができよう。
インデックス配列においてミスマッチを許容する
シークエンシングのエラーと、サンプル調製プロセスで起こりうる他の問題が原因で、シークエンシングされたインデックス配列は、元々設計された配列と正確に同じではない可能性がある。その結果として、一致していないインデックス配列がある読み取り結果を対応するサンプルに再び割り当てることができない可能性がある。
多重シークエンシングのため、合計で12個のインデックス配列がIllumina社によって提供された。これらインデックス配列を、この研究における二重シークエンシング戦略の血漿DNAシークエンシングで使用した。2つのサンプルを同じシークエンシング・レーンでシークエンシングし、そのそれぞれをインデックス配列の一方に割り当てた。シークエンシング中、インデックス配列もシークエンシングすることが考えられる。シークエンシングの後、同じレーン内の2つのサンプルからの読み取り結果を混合し、インデックス配列に従って対応するサンプルに再び割り当てることにした。
インデックス配列のミスマッチは、シークエンシングされたヌクレオチドと元々設計されたヌクレオチドの間のヌクレオチドの違いと定義した。インデックス配列中のミスマッチの最大数は、1つのインデックス配列が許容可能なヌクレオチドを含んでいても、やはり他のすべてのインデックス配列と異なっているような、許容可能な異なるヌクレオチドの最大数として定義した。1つのインデックス配列で許容できるミスマッチの最大数を見いだすため、ミスマッチの数が0個、1個、2個、…、n個の可能なすべての配列を列挙し、可能な配列の1つが他のインデックス配列のうちの1つと同じになるまで、他のすべてのインデックス配列と比較した。
一意的なアラインメントになる読み取り数を増やすために可能な1つの方法は、読み取り結果を対応するサンプルに再び割り当てるとき、インデックス配列中にミスマッチを許容することであった。1つのインデックス配列中にミスマッチがあっても識別が相変わらず可能となる許容可能なミスマッチの最大数(表4.1)。すべてのインデックス配列について、少なくとも2つのミスマッチを許容できよう。以下の分析では、ミスマッチが1つしか許されないという、より厳しい基準を用いた。
Figure 0006411995
インデックス配列中のミスマッチの最大数は、1つのインデックス配列が許容可能なヌクレオチドを含んでいても、やはり他のすべてのインデックス配列と異なっているような、配列中で許容できる異なるヌクレオチドの最大数として定義した。インデックス配列中に許容できるミスマッチがない場合には、一意的なアラインメントになる読み取り数は、サンプル1つ当たり平均で230万(標準偏差517,888)であった(図4.1と表4.4)。3つのサンプルは、一意的なアラインメントになる読み取り数が比較的少なかった(100万未満)。シークエンシングのカバー率の平均値は、サンプル1つ当たり2.7%(標準偏差0.61%)であった。
次に、インデックス配列中に1つのミスマッチを許容してシークエンシング・データを再度分析した。各サンプルで一意的なアラインメントになる読み取り数の平均値は240万(標準偏差508,842)であった。平均増加率は、インデックス配列中にミスマッチを許容しない場合の分析と比べて6.0%(標準偏差21.7%)であった。インデックス配列中にミスマッチを1つ許容すると、12個のサンプルの読み取り数は50%超増加した。これらのサンプルのうちで、以前の分析においてアラインメントの読み取り数が100万未満の3つのサンプルは、ミスマッチを1つ許容すると読み取り数が200万超になった。
次に、常染色体の定量化に関するCVを、インデックス配列中にミスマッチを1つ許容した分析に基づいて計算した(図4.2と表4.5)。染色体13では、CVは15.2%から15.3%へとわずかに増加した。染色体18では、CVはやはり8.31%から8.60%へと増加した。常染色体の定量化に関するCVはわずかに悪化したが、特にシークエンシングされたインデックス配列中に可能なエラーがあるサンプルで読み取り数が増加したことを考慮し、以下の分析では、インデックス配列中に1つのミスマッチが許されることにした。
アラインメントのためにマスクされていない参照ゲノムを用いることによる読み取り数の増加
第2に、参照アラインメントとして、マスクされていないヒト参照ゲノムを、反復配列がマスクされた参照ゲノムの代わりに使用できよう。反復配列がマスクされた参照ゲノムでは、反復配列をマスクしたため、それらの領域をアラインメントでは除外した。多数のアラインメントが可能な反復領域からの読み取りを除外するため、T21分析パイプラインでは、反復配列がマスクされたゲノムを参照アラインメントとして採用した。
ヒト参照ゲノムの反復領域からの読み取りにおいて一意的なアラインメントが可能かどうかを調べるため、非反復配列がマスクされていないヒト参照ゲノム(Hg18 NCBI.36)についてシミュレーションを実行した。非反復配列がマスクされていないヒト参照ゲノムを、1塩基対のシフトがあるN塩基対シミュレーション読み取り部に分割した。Nは、Illuminaシークエンシング・プラットフォームから生成する最も一般的な読み取り長である36、50、75のいずれかであった。次に、SOAP2により、これらのシミュレーション読み取り結果を、許容可能なミスマッチがなくて非反復配列がマスクされていないヒト参照ゲノムと再びアラインメントさせた。シミュレーション読み取り結果と参照ゲノムの間で再び一意的なアラインメントが可能である場合には、それを保持し、シミュレーション読み取り結果の出発位置をマッピング可能と定義することが考えられる。次に、特定の領域のマッピング可能性を、この領域の全ヌクレオチドの中でマッピング可能なヌクレオチドの割合として定義した。非反復配列がマスクされていないヒト参照ゲノム中の“N”ヌクレオチドは、分析から除外した。
非反復配列がマスクされた参照ゲノムに関するアラインメントを調べる前に、反復領域からの読み取りの一意的なアラインメントがシミュレーション研究によって可能であるかどうかを調べた。表4.2に示してあるように、ヒト参照ゲノムの約48.8%が反復配列であった。反復配列がマスクされた参照ゲノムでは、これらの配列をマスクした。反復配列がマスクされたゲノムを参照アラインメントとして用いる場合には、これら領域からの読み取り結果を再びアラインメントさせることはできないため、以後の分析では除外することになる。しかし36塩基対でのシミュレーション読み取りによるコンピュータ・シミュレーションの結果によれば、反復領域の77.4%で実際に一意的なアラインメントが可能であった。反復領域の一意的なアラインメントの割合は、それぞれ50塩基対と75塩基対でのシミュレーション読み取りにおいて86.7%と93.4%に増加した(表4.3)。非反復領域では、それぞれ36塩基対、50塩基対、75塩基対の場合のシミュレーション読み取りにおいて、約96.3%、96.8%、97.4%で一意的なアラインメントが可能であった。これは、シークエンシングされる読み取り長の増加が、特に反復領域について一意的なアラインメントの割合の増加を助けることを示していた。
次に、全サンプルからの生のシークエンシング読み取り結果を、非反復配列がマスクされたヒト参照ゲノムに再びアラインメントさせた。読み取り結果を、許容可能なミスマッチが1個の対応するサンプルに再び割り当てると、サンプル1つ当たりの一意的なアラインメントの読み取り数の平均値として460万(標準偏差964,095)が得られた(図4.1と表4.4)。一意的なアラインメントの読み取り数は、反復配列がマスクされたゲノムでのアラインメントと比べて89%増加した。図4.2と表4.5に示してあるように、常染色体の測定の精度が向上した。特に染色体13について、CVが1.53%から1.12%へと低下した。同様に、染色体18に関するCVも0.86%から0.67%へと低下した。これは、非反復配列がマスクされたヒト参照ゲノムを参照アラインメントとして用いると染色体13と染色体18の測定の精度が向上することを示していた。したがってこの参照アラインメントを以下の分析で採用することにした。
Figure 0006411995
ゲノム配列中の“N”は分析から除外した。
Figure 0006411995
非反復配列がマスクされたヒト参照ゲノムへの読み取り結果のアラインメント
これまでの分析では、アラインメントが完全な読み取り結果だけを保持した。同様に、シークエンシングのエラーとヒト・ゲノム中の多型の存在が原因で、シークエンシングされた読み取り結果は、対応する参照ゲノム配列と正確に同じではない可能性がある。したがって読み取り結果のアラインメントにおいてミスマッチを許容することが、アラインメントがなされる読み取り数を増やすための可能な1つの方法であった。
参照アラインメントとして、非反復配列がマスクされたヒト参照ゲノム(Hg18 NCBI.36)を、反復配列がマスクされたヒト参照ゲノムの代わりに調べた。SOAP2によって読み取り結果のアラインメントを作った。読み取り結果のアラインメントにおいて許容可能なミスマッチの最大数が0個、1個、2個の場合も調べた。
非反復配列がマスクされたゲノムに基づき、ミスマッチを1個または2個許すことによってアラインメントを調べた。許されるミスマッチがないアラインメントと比べると、一意的なアラインメントになる読み取り数は、ミスマッチがそれぞれ1個と2個の場合に9.06%と10.95%増加した(図4.1と表4.4)。
図4.2と表4.5に示してあるように、染色体13の測定に関するCVは、許されるミスマッチがそれぞれ0個、1個、2個の場合に1.12%、1.13%、1.13%であった。染色体18では、CVは、許されるミスマッチがそれぞれ0個、1個、2個の場合に0.67%、0.69%、0.73%であった。染色体13と染色体18の測定に関するCVは、アラインメントにおいて許されるミスマッチがより多い場合に増加した。したがって染色体13と染色体18の測定精度は、より多くのミスマッチを許容すると悪化した。したがって以下の分析では、ミスマッチを許容しなかった。
結果
Figure 0006411995
Figure 0006411995
トリソミー13とトリソミー18
T21バイオインフォマティクス分析パイプラインにおいてアラインメント・ステップを改良した後、zスコアを計算することによってトリソミー13とトリソミー18の性能を調べた。トリソミー13では、25件のトリソミー13のうちの11件と、264件の非トリソミー13のうちの247件が正確に同定された。これは、感度と特異性の向上がそれぞれ44.0%と93.6%に対応する(図4.3)。トリソミー18では、37件のトリソミー18のうちの31件と、252件の非トリソミー18のうちの247件が正確に同定された。これは、感度と特異性の向上がそれぞれ83.8%と98.0%に対応する(図4.4)。これらの結果は、T21バイオインフォマティクス分析パイプラインにおいてアラインメント・ステップを改良すると、NGSによってトリソミー13とトリソミー18を検出する性能が改善されたことを示していた。しかしトリソミー21の検出と比べると、トリソミー13とトリソミー18の検出率はまだ最適ではなかった。
アラインメント・ステップを改良するため、アラインメント・ステップにおける3つの側面を検討した。その中には、非反復配列がマスクされたヒト参照ゲノムを、反復配列がマスクされたヒト参照ゲノムの代わりに使用し、インデックス配列と読み取られたアラインメントにおいてミスマッチを可能にすることが含まれる。
非反復配列がマスクされたゲノムを参照アラインメントとして用いると、アラインメントされる読み取り数の平均値が220万だけ増加した。これは、反復配列がマスクされたヒト参照ゲノムを用いた場合の1.9倍であった。増加したこれらの読み取り数はすべて、反復配列がマスクされたゲノム中のマスクされた反復領域からのものであった。シミュレーション分析から、36塩基対のシミュレーション読み取りでは、反復領域(ヒト・ゲノムの48.8%を占める)の77.4%で一意的なアラインメントが可能であることがわかった。これは、おそらく、ヒト・ゲノム中の反復領域のより大きな割合がある程度の類似性を共有しているが正確に同じではないという事実に起因しているのであろう。これらの反復エレメントはヒト・ゲノム中に多数のコピーを有するが、そのそれぞれは、正確に同じ反復単位を持つ単純な反復とは違って正確に同じではない。したがってこのような反復領域からのこれらの読み取り結果を再び一意的にアラインメントさせることが可能であった。したがって参照アラインメントとして非反復配列がマスクされたヒト・ゲノムを用いるほうが、反復配列がマスクされたヒト・ゲノムを用いるよりも優れていた。
シミュレーションの読み取り長をより長くすると、反復領域と非反復領域の一意的なアラインメントの比率が増加した。36塩基対のシミュレーション読み取りによるシミュレーション結果と比べると、一意的なアラインメントの領域の割合は、非反復配列で0.5%(50塩基対)、1.1%(75塩基対)増加し、反復配列で9.3%(50塩基対)、16.0%(75塩基対)増加した。これは、シミュレーションの読み取り長をより長くすると、読み取り結果のアラインメントが非反復領域よりも反復領域においてより大きく改善されることを示していた。しかし読み取り長をより長くすると、シークエンシングのコストが増える可能性がある。したがってシークエンシングされる読み取り長とシークエンシングの必要性の間のバランスを考える必要がある。
インデックス配列と読み取られたアラインメントにおいてミスマッチを許容することにより、アラインメントされる読み取り数の平均値は、インデックス配列中に許されるミスマッチが1個だと9万8千増加し、読み取られたアラインメント中に許容されるミスマッチがそれぞれ1個と2個だと47万、10万増加した。しかし染色体13と染色体18の測定に関するCVは、インデックス配列または読み取られたアラインメントにより多くのミスマッチを許容するとわずかに悪化した。これは、読み取り結果をサンプルに再び割り当てるときと、読み取り結果を参照ゲノムにアラインメントするときに導入されるエラーに起因していた。しかしインデックス配列にミスマッチを許容すると、読み取られたアラインメントにミスマッチを許容する場合とは異なり、アラインメントされる読み取り数が極めて少ないいくつかのサンプルで、アラインメントされる読み取り数が増加した。これはおそらく、インデックス配列の読み取りのエラーに起因しているのであろう。したがってインデックス配列中にはミスマッチを許容するが、読み取られたアラインメントにはミスマッチを許容しないことが合理的であった。
アラインメントを改善すると、トリソミー13とトリソミー18の検出率は、44.0%と83.8%になった。検出率は、T21バイオインフォマティクス分析パイプラインに基づく場合よりも優れていたが、それでもNGSによるトリソミー21の検出率と同等ではなかった。その一方で、常染色体の平均GC含量と常染色体を定量化する精度の間に相関があることが観察された。平均GC含量が多いか少ない常染色体は、CVが比較的大きかった。これは、GC含量が、常染色体を定量化する精度に影響を与える因子であることを示していた。これについては以下のセクションで議論する。
II.読み取り数の補正によるGCバイアスの低減
バイオインフォマティクス分析パイプラインの第2のステップは、シークエンシング・データ中でアラインメントされる読み取り数を数えることによって染色体を定量化するというものである。
理論的には、NGSプラットフォームにバイアスが存在しない場合、NGSプラットフォームからシークエンシングされた読み取り結果はゲノム全体に一様に分布すると予想される。しかし異なる領域からシークエンシングされた読み取り結果は一様に分布していないことが報告されている。シークエンシングされた核酸のグアニンとシトシン(GC)の含量が一様でない分布に寄与することが報告されている。例えば、GC含量と、Illuminaシークエンシング・プラットフォームでゲノム全体についてシークエンシングされた読み取り結果との間に正の相関が存在することが見いだされている。GCが少ない領域におけるシークエンシングのカバー率は比較的低く、GCが豊富な領域におけるシークエンシングのカバー率は高かった。この“GCバイアス”は、おそらく、シークエンシング手続きのPCRステップにおいて導入されたのであろう。しかしこのGCバイアスが血漿DNAシークエンシング・データに存在するかどうかはさらに検証する必要がある。
このGCバイアスは、NGSによる染色体13と染色体18の定量化に2つの面で影響を与える可能性が大きい。第1に、GCバイアスがあるため、各染色体からの読み取り数は、対応する染色体に由来するシークエンシングされたDNA分子の量と相関していただけでなく、その染色体のGC含量とも相関していた。したがって各染色体からのDNA分子の数をシークエンシング・データからの読み取り数によって正確に測定することはできなかった。第2に、個々の染色体とゲノム全体の間でGC含量が異なるため、GCバイアスの程度が個々の染色体とゲノム全体で異なっていた。したがって、ゲノム全体(この染色体のゲノム表現)からの全読み取り結果に対する所定の染色体に由来する読み取り結果の比率を正確に計算することはできなかった。これら2つの面でGCバイアスを低減させることのできるアルゴリズムがあれば、NGSによるトリソミー13とトリソミー18の検出性能を向上させることができよう。
このセクションでは、血漿シークエンシング・データの中にGCバイアスが存在するかどうかと、このGCバイアスが、染色体13と染色体18を定量化する精度に影響を与えるかどうかを明らかにする。GCバイアスを減らすため、読み取り数におけるGCバイアスと直接相関するアルゴリズムを開発した。次に、GCバイアスを減らした後、NGSによるトリソミー13とトリソミー18の検出性能を評価した。ゲノム表現の計算においてGCバイアスの効果を減らす別のアルゴリズムについて、次のセクションで議論する。
シークエンシングされた読み取り結果を、ミスマッチを許容せずに、非反復配列がマスクされたヒト参照ゲノムにアラインメントした。アラインメントの後、読み取り結果を、インデックス配列中にミスマッチが1個許される対応するサンプルに再び割り当てた。
最初にゲノム全体の配列(Hg18 NCBI.36)を連続した50キロ塩基(kb)の区画に分割し、それらをビンと名付けた。A+T+C+Gヌクレオチドのカウント数に対するG+Cヌクレオチドのカウント数の割合を計算することによって各ビンのGC含量を計算した。ゲノム配列中の“N”は考慮しなかった。各ビンに入る読み取り数を数えた。スピアマンの順位相関係数Rにより、ビンの中のGC含量と読み取り数の間の相関を計算した。
GCバイアスを減らすため、読み取り数のそのようなバイアスを補正するアルゴリズムを実現した。各サンプルについて、最初にゲノム全体の配列を50kbのビンに分割した。50kbというビンのサイズは任意に選択したが、これについてはあとで議論する。次に、アラインメントされた読み取り数と各ビンの中のGC含量(0.1%に丸める)を計算した。読み取りがないビンと、配列中に“N”があるビンは除外した。次に、各ビンの中のアラインメントされた読み取り数を、対応するビンのGC含量に対し、線形回帰または局所的重み付け散乱プロット平滑化(locally weighted scattered smoothing:LOESS)回帰によってフィットさせた。各ビンについての回帰フィットの予想値(P)は、回帰関数と各ビンのGC含量を用いることによって回帰後に計算することができた。各ビンについて、GC補正した読み取り数(RCGC)を、生の読み取り数に基づき、相関因子(F)を用いて計算した。すべてのビンのカウントの中央値(M)を補正基準として使用した。GC補正した読み取り数は、以下の式:
Figure 0006411995
によって計算した。次に、アラインメントされた読み取り数を直接用いる代わりに、GC補正した読み取り数を用いてゲノム表現を計算した。
GCバイアス
最初に、血漿DNAシークエンシング・データにGCバイアスが存在するかどうかを調べた。50kbのビンでのGC含量と読み取り数の間の相関を計算することにより、正の相関が観察された(全サンプルでの平均相関係数は0.56である、標準偏差=0.13)(図5.1)。したがって血漿DNAシークエンシング・データにはGCバイアスが実際に存在していた。
上記の分析(図4.2)によれば、GC含量が少ないか多い染色体は、GC含量が中程度の染色体よりも分散が大きい傾向がある。例えば平均GC含量が38.52%、39.79%、40.88%である染色体13、染色体18、染色体21は、CVが、アラインメントが改善された状態で、それぞれ1.12%、0.67%、0.55%であった。これらの結果は、染色体21よりもGC含量が相対的に少ない染色体13と染色体18は測定精度がより低いことを示していた。これらの結果は、GCバイアスが、染色体、特に平均GC含量が多いか少ない染色体のGRを測定する精度に影響を与えることを示していた。したがってNGSによるトリソミー13とトリソミー18の検出精度を向上させるにはGCバイアスを減らす必要があった。
線形回帰によって読み取り数のGCバイアスを補正する
GCバイアスを減らすための可能な解決法の1つは、読み取り数のそのようなバイアスを直接補正するというものである。GC含量と読み取り数の間には相関があるため、この相関をなくすとGCバイアスが減り、トリソミー13とトリソミー18の検出性能が向上する可能性がある。それを調べるため、線形回帰によるGC補正アルゴリズムを実現してその相関をなくした。線形回帰を利用して50kbのビンの中のGC含量と読み取り数の間の相関を特徴づけた。理論的には、そのような相関がない場合には、ビンごとの読み取り数がすべてのビンのカウントの中央値に近づくことが予想される。そこですべてのビンのカウントの中央値を補正基準として使用し、各ビンの中の読み取り数をその補正基準で規格化した。
GC補正の後、全サンプルに関する平均相関係数は0.14(標準偏差=0.018)であった(図5.2)。これは、各ビンの中のGC補正した読み取り数とGC含量の間の相関が、線形回帰によるGC補正の後に大きく減ることを示していたが、わずかな相関が相変わらず存在していた。表5.1に示してあるように、染色体13と染色体18の測定に関するCVは、GC補正の後に、それぞれ1.124%から0.426%へと、0.647%から0.331%へと減少した。これらの結果は、NGSによる染色体13と染色体18の定量化の精度が、線形回帰によるGC補正によって改善されたことを示していた。
Figure 0006411995
次に、線形回帰によるGC補正の後のトリソミー13とトリソミー18の検出性能を評価した。診断用zスコアの値3をカットオフ値として用いると、25件のトリソミー13のうちの22件、264件の非トリソミー13のうちの259件がうまく同定された(図5.3)。したがって感度と特異性は88.0%と98.1%であった。トリソミー18では、37件のトリソミー18のうちの34件、252件の非トリソミー18のうちの247件が正しく同定された。これは、感度と特異性が91.9%と98.0%に対応する(図5.4)。これらの結果は、トリソミー13とトリソミー18の検出がGC補正アルゴリズムによって改善されたことを示していた。
非線形回帰によって読み取り数のGCバイアスを補正する
上記の分析では、GC含量と読み取り数の間の相関が線形関係であると見なし、線形回帰を利用してこの相関にフィットさせた。しかし線形回帰の後に、GC含量と読み取り数の間にわずかな小さい相関が相変わらず存在していた(平均相関係数は0.14、標準偏差=0.018)。線形回帰はそのような相関にフィットさせるのに十分ではない可能性がある。したがって非線形回帰であるLOESS回帰をGC補正アルゴリズムで使用してこの相関にフィットさせた。
LOESS回帰によるGC補正の後、すべてのサンプルについての平均相関係数は0.02(標準偏差=0.004)である(図5.5)。線形回帰による結果と比べると、LOESS回帰によるGC補正の後には相関がより少なくなり、GC含量と読み取り数の間の相関はほとんど存在していなかった。さらに、染色体13を測定に関するCVは0.31%まで減少した。LOESS回帰によるGC補正の後のCVは、線形回帰の場合よりも小さかった(図5.6と表5.2)。この結果は、染色体13の定量化の精度が、LOESS回帰によるGC補正によってさらに改善されたことを示していた。染色体18の精密測定では、CVがわずかに0.003%だけ増加して0.334%になった。
Figure 0006411995
LOESS回帰によるGC補正後にトリソミー13とトリソミー18の検出性能を評価した。診断用zスコアの値3をカットオフ値として用いると、トリソミー13の全ケース(25件のうちの25件)と264件の非トリソミー13のうちの261件がうまく同定された。したがって感度と特異性は100%と98.9%であった。トリソミー13の検出性能は、LOESS回帰によるGC補正の後に、線形回帰によるGC補正と比べて改善された。トリソミー18では、37件のトリソミー18のうちの34件、252件の非トリソミー18のうちの247件で正しく同定された。これは、感度と特異性が91.9%と98.0%に対応する。2つの異なる回帰モデルによるGC補正法を比較すると、トリソミー18の検出性能に顕著な改善はなかった。
ビンのサイズ
GC補正アルゴリズムにおけるビンのサイズの効果を評価するため、1Mb、500kb、100kb、50kbという一連のビンのサイズを調べた。結果から、ビンのサイズが異なってもCVに顕著な違いは存在しないことがわかった(図5.9と表5.4)。しかしビンのサイズがより小さくなると、LOESS回帰の計算時間が劇的に増加した。例えばビンのサイズが50kbのとき、1つのサンプルでGC補正を実行するための平均時間は、Intel(登録商標)Xeon(登録商標)CPU X5570 2.93GHzと36Gのメモリを有する計算サーバーで5時間超かかった。計算時間を短くするため、以下の分析ではビンのサイズを500kbにした。
このセクションでは、GCバイアスが血漿DNAシークエンシング・データに存在することが確認され、GCバイアスが、NGSによる染色体13と染色体18の定量化の不正確さに寄与していた。このようなバイアスを減らすため、線形回帰または非線形(LOESS)回帰によるGC補正アルゴリズムを実現して読み取り数のこのようなバイアスを補正した。GC補正の後、トリソミー13とトリソミー18の検出性能が改善された。
GC補正をすることで、NGSによる染色体13と染色体18の定量化の精度が向上した。GC補正なしの以前の結果と比べると、染色体13と染色体18の定量化に関するCVは、GC補正後にそれぞれ72.4%と50.9%まで減少した。検出率も、トリソミー13では44%から100%まで、トリソミー18では83.8%から91.9%まで増加した。トリソミー13での改善は、トリソミー18での改善よりも顕著であった。これはおそらく、ゲノム全体の平均GC含量(41.7%)と比べて染色体13の平均GC含量(38.5%)が染色体18の平均GC含量(39.8%)よりもずれが大きいことに起因していた。これらの結果は、染色体13と染色体18とゲノム全体ではGCバイアスの程度が異なっていることを示していた。さらに、ゲノム全体を基準として用いることにより、染色体13と染色体18のゲノム表現を計算した。基準として染色体13または染色体18とGC含量が似た染色体をゲノム全体の代わりに使用して染色体13または染色体18のGRを計算すると、GCバイアスを相殺することが可能であった。これについて以下のセクションでさらに議論する。
GC補正において非線形(LOESS)回帰を利用すると、線形回帰と比較して、染色体13の定量化に関するCVは27%減少し、トリソミー13の検出率は88.0%から100%に増加した。染色体18の定量化またはトリソミー18の検出では、GC補正における2つの異なる回帰モデルで顕著な差はなかった。しかしGC補正におけるLOESS回帰の全体的性能は、線形回帰よりも優れていた。そこで以下の分析では、LOESS回帰によるGC補正を採用する。
このセクションでは、GC補正アルゴリズムで用いるビンのサイズというパラメータについて議論した。染色体13と染色体18の定量化に関するCVを計算することにより、現在のシークエンシング深度だと、このパラメータはGC補正アルゴリズムの性能にほとんど影響しないことがわかった。これらの結果から、このGC補正が現在のシークエンシング深度では極めてロバストであることが証明された。なぜなら性能はパラメータが異なっても有意に変化しなかったからである。しかし現在のシークエンシング深度では、染色体13と染色体18の定量化に関するCVは、GC補正後にすでに極めて小さかった。したがってGC補正アルゴリズムで用いるパラメータを変更しても、そのアルゴリズムの性能に顕著に影響することはなかろう。そのためGC補正アルゴリズムを適用するとき、十分なシークエンシング深度(例えばサンプルごとに400万回超の読み取り)のGC補正ではパラメータに特別な注意を払う必要がなかった。
シークエンシング・プラットフォームと反応試薬が異なると、GCバイアスのパターンが変化する可能性がある。例えばIllumina社は、GCバイアスを減らすため、同社のシークエンシング・プラットフォームを更新するとともに、シークエンシング試薬も改善した。したがってGC補正アルゴリズムで用いるパラメータは、シークエンシング・プラットフォームと試薬が異なると変えねばならない可能性がある。
III.ゲノム表現計算を変えることによるGCバイアスの低減
バイオインフォマティクス分析パイプラインの第2のステップでは、染色体を定量化する別の部分として、各染色体について読み取り数を数えた後にゲノム表現を計算することが可能である。これはさらに改善できる可能性がある。
前のセクションでは、GCバイアスがトリソミー13とトリソミー18に2つの面で影響を与える可能性があることを議論した。その一方の面は読み取り数であり、他方の面はゲノム表現である。染色体13と染色体18とゲノム全体におけるGCバイアスの程度は、それぞれの平均GC含量の違いが原因で異なっていることがわかった。ゲノム全体を基準として用いて染色体13と染色体18のGRを計算すると、GC効果の違いが原因で正確にならない可能性があることも考えられた。染色体13および染色体18とGC含量が似た他の参照染色体を用いてこれら2つの染色体のGC含量を計算すると、GC効果を相殺できる可能性がある。これは、読み取り数のGC補正とは独立に、GCバイアス効果を減らす別の方法になる可能性がある。
ゲノム表現計算を変えることによってGCバイアスを低減させる
GCバイアスは染色体13と染色体18のゲノム表現を測定する精度に影響を与えるため、GCバイアスを減らす可能な1つの方法は、染色体13と染色体18のゲノム表現の計算を変えるというものである。染色体13または染色体18の元のゲノム表現は、全染色体(ゲノム全体)からの読み取り数全体に対する染色体13または染色体18からの読み取り数によって計算した。しかし染色体13または染色体18の平均GC含量とゲノム全体の平均GC含量は異なっている。この違いが、GRを計算する際の不正確さにつながる可能性がある。
この仮説を検証するため、参照基準として他の染色体を用いて染色体13と染色体18のGRを計算した。染色体13と染色体18の元のGRのCVは、それぞれ1.124%と0.674%であった。参照基準として染色体4と染色体8を用いて染色体13と染色体18に関する修正GRをそれぞれ計算すると、CVは、0.468%と0.393%まで増加した。染色体13と染色体18の平均GC含量は38.5%と39.8%であった。染色体4(GC%=38.2%)と染色体8(GC%=40.2%)は、それぞれ染色体13と染色体18と非常によく似た平均GC含量を持っていた。
染色体13と染色体18の修正ゲノム表現を計算した後、標準的なzスコア法を利用してトリソミーのサンプルを分類した。25件のトリソミー13のうちの25件と、264件の非トリソミー13のうちの261件が正しく同定された。これは、感度と特異性がそれぞれ100%と98.9%に対応する。トリソミー18では、37件のトリソミー18のうちの35件と、252件の非トリソミー18のうちの247件が正しく同定された。これは、感度と特異性がそれぞれ94.6%と98.0%に対応する。
Figure 0006411995
GC補正と修正ゲノム表現を組み合わせる
2つの独立な方法、すなわちGC補正と修正ゲノム表現を開発し、シークエンシング・データのGCバイアスを減らした。これら2つの方法の両方とも、トリソミー13とトリソミー18の検出精度を大きく向上させた。上記の説明では、これら2つの方法を分析パイプラインで独立に使用した。ここではこれらの方法を組み合わせる。
セクション5に記載したLOESS回帰によるGC補正によって読み取り数を補正した。ビンのサイズは500kbであった。GC補正の後、補正された読み取り数を用いて修正ゲノム表現を計算した。染色体13と染色体18では、染色体4と染色体8をそれぞれ参照染色体として用いた。次に、染色体13と染色体18の定量化に関するCVを評価した。
2つのGCバイアス低減法を組み合わせると、染色体13と染色体18の定量化に関するCVは、それぞれ0.371%と0.384%であった。これら2つの方法の組み合わせによって染色体13と染色体18を定量化する精度は、GC補正による場合よりも悪かったが、修正ゲノム表現による場合よりも優れていた。これらの結果は、これら2つの方法の組み合わせの性能が、GC補正単独の場合よりも優れてはいないことを示していた。
このセクションでは、ゲノム表現の計算におけるGCバイアスを減らすため、GC補正以外の別の独立な方法を開発した。染色体4と染色体8をそれぞれ染色体13と染色体18のための参照染色体として使用し、修正ゲノム表現を計算した。元のゲノム表現計算を用いた結果と比べると、染色体13と染色体18の定量化に関するCVは、それぞれ1.12%から0.47%へ、0.67%から0.39%へと低下した。染色体13と染色体18の定量化に関するCVは、それぞれ58.2%と41.3%だけ改善された。検出率は、トリソミー13では44.0%から100%へ、トリソミー18では83.8%から98.0%へと増加した。**
GC補正法と修正GR法を比較すると、染色体13の定量化に関するCVは、それぞれ0.310%と0.468%であった。染色体18では、CVは0.334%と0.393%であった。これらの結果は、GC補正法が修正GR法よりも優れていることを示していた。しかしこれら2つのGCバイアス低減法に基づくトリソミー13とトリソミー18の検出性能は、現在のシークエンシング深度では同等であった。どちらの方法も、染色体13と染色体18を測定する精度を大きく向上させるとともに、トリソミー13とトリソミー18の検出性能も向上させた。しかしシークエンシング深度が小さいときには、GC補正法が修正GR法よりも優れた性能を持つことが予想される。
GC補正法と修正GR法を独立に用いてGCバイアスを減らした。これら2つの方法を組み合わせたときにGCバイアスが減るかどうかははっきりしない。したがって2つの独立なGCバイアス低減法を組み合わせて試験した。その結果から、これら2つの方法の組み合わせによって染色体13と染色体18を定量化する精度は、GC補正単独の場合よりも悪いが、修正ゲノム表現単独の場合よりも優れていることがわかった。これら2つの方法によって2つの異なる面(一方は読み取り数、他方はゲノム表現計算)で独立にGCバイアスが減ったとはいえ、これら2つの方法を組み合わせた性能は、最適ではなかった。それはおそらく、GC補正の後、GCバイアスのパターンが、染色体13と染色体4で、または染色体18と染色体8で異なっていたことが理由であろう。したがって染色体4と染色体8を参照基準として用いて染色体13と染色体18のための修正ゲノム表現を計算するのは適切ではなかった。GC補正がGCバイアスを減らす最良の方法であったため、以下の分析ではそれを採用する。
IV.トリソミー検出のための統計の改善
分析パイプラインにおける改善のための第3の部分は、トリソミー(例えば13と18の検出)のための統計である。1つの分析では、試験サンプルを対照サンプル(正倍数体サンプル)と比較することにより、zスコア法を利用してトリソミーの状態を明らかにした。したがってこの統計的方法では、シークエンシングされるいくつかの対照サンプルを用いる。この研究では、4つの正倍数体サンプルを各シークエンシング・ランにおいてシークエンシングし、合計で103個の正倍数体を対照サンプルとしてシークエンシングした(そのうちの13個は、異なるシークエンシング・ランで2回シークエンシングした)。この方法により、トリソミー13とトリソミー18を診断するためのコストが顕著に増加した。
しかしトリソミーの染色体を除く残りの染色体は、トリソミーの胎児のゲノム中で正常である。したがって試験サンプルを正常サンプルと比べる代わりに、1つのサンプル中で試験染色体を正常染色体と比較することで、試験サンプルのトリソミーの状態を明らかにすることができよう。
染色体13と染色体18をサンプル中の他の染色体と比較する
zスコア法によって試験サンプルを対照サンプルと比較する代わりに、サンプル中の試験染色体(例えば染色体13または染色体18)を他の染色体と比較することによってトリソミーの状態を明らかにする。これを実現するため、シークエンシングされた読み取り結果を上に記載したようにして分析した。ゲノムを500kbの連続したビンに分割した。LOESS回帰によるGC補正を利用して読み取り数のGCバイアスを減らした。LOESS回帰によるGC補正の後、ウィルコクソンの順位和検定により、染色体13または染色体18からのGC補正済読み取り数を他の染色体と比較した。染色体21、染色体X、染色体Yは、比較から除外した。p値カットオフを0.05にしてトリソミーの状態を明らかにした。この分析では対照サンプルが不要であったため、以前の分析におけるすべての対照サンプルを試験サンプルとして使用した。
サンプル間で染色体13と染色体18をzスコア法によって比べる代わりに、染色体13または染色体18をサンプル中の他の染色体と比べることによってトリソミー13とトリソミー18の状態を明らかにした。GC補正の後、ウィルコクソンの順位和検定によって各サンプルのp値を計算した(図7.1)。p値カットオフを0.05にすることで、25件のトリソミー13のうちの25件と、264件の非トリソミー13のうちの246件が正しく同定された。これは、感度と特異性がそれぞれ100%と93.2%に対応する。トリソミー18では、37件のトリソミー18のうちの37件が正しく同定されたが、どの非トリソミー18も正しく同定されなかった。これは、感度と特異性がそれぞれ100%と0%に対応する。
図7.1には、トリソミーだと、非トリソミーよりもp値が小さいことが示されている。これらの結果は、サンプル中の染色体を比較してトリソミーの状態を明らかにできることを示していた。しかし固定カットオフ(p値=0.05)を用いると、トリソミー13とトリソミー18の検出性能は顕著に異なっていた。
その理由を調べるため、正倍数体サンプルからの染色体13と染色体18と他の常染色体(染色体21は除く)について読み取り数の分布をGC補正後にプロットした(図7.2)。正倍数体サンプル中の染色体13と染色体18の500kbのビンごとの読み取り数の中央値は、常染色体(染色体21は除く)の読み取り数の中央値よりも大きいことが観察された。したがって染色体13と染色体18を常染色体(染色体21は除く)と比較してトリソミー13とトリソミー18の状態を判断する場合には、比較的大きな偽の陽性率になる可能性がある。
染色体13と染色体18を人工染色体と比較する
比較基準として2つの人工染色体を構成した。一方は染色体13に関するもので人工染色体13と名づけ、他方は染色体18に関するもので人工染色体18と名づけた。人工染色体は、以下のようにして構成した。ゲノム全体を500kbのビンに分割した。染色体13内の各ビンについて、他の染色体(染色体13、染色体18、染色体21を除く常染色体)から3つのビンを選択した。これら3つのビンは、一般に、染色体13内の対応するビンと同じGC含量とマッピング可能性を有する。したがって染色体13内の各ビンは、人工染色体13内の3つのビンに対応していた。人工染色体13は、染色体13内のビンと同じGC含量とマッピング可能性を持つすべてのビンを組み合わせることによって構成した。人工染色体18も同様にして構成した。LOESS回帰によるGC補正を利用して読み取り数のGCバイアスを減らした。GC補正の後、ウィルコクソンの順位和検定により、染色体13または染色体18からのGC補正済読み取り数を人工染色体13または人工染色体18からの読み取り数と比較した。p値カットオフを0.05にしてトリソミーの状態を明らかにした。この分析では対照サンプルが不要であったため、以前の分析におけるすべての対照サンプルを試験サンプルとして使用した。
理論的には、NGSデータにバイアスがない場合、読み取り数の分布は、正倍数体サンプル中の異なる染色体で似たものになるはずである。しかしそうではないことが観察された。それはおそらく、2つの因子が原因であり、その結果として染色体の間で読み取り数が異なることになる。1つの主要因子は、異なる染色体のマッピング可能性である。分析では一意的なアラインメントになる読み取り数だけを保持したため、マッピング可能性が異なる領域は、一意的なアラインメントになる読み取り数が異なる可能性がある。読み取り数とマッピング可能性の間に弱い相関が観察された(スピアマンの順位相関係数=0.257)。他方の因子は、GC補正後の読み取り数に残るGCバイアスである。比較基準として染色体13および染色体18と似たGCとマッピング可能性を持つ“染色体”を用いると、この効果が相殺されることが予想される。
この問題に対処するため、染色体13および染色体18と似たGCとマッピング可能性を持つ2つの人工染色体を構成し、それぞれ人工染色体13、人工染色体18と名づけた。これら人工染色体を比較基準として用い、固定p値カットオフを0.05にすることにより、25件のトリソミー13のうちの25件と、264件の非トリソミー13のうちの260件が正しく同定された。これは、感度と特異性がそれぞれ100%と98.5%に対応する。この分析では対照サンプルが不要であったため、zスコア法で用いた以前の正倍数体対照サンプルも試験サンプルと見なした。すべての正倍数体“対照”サンプルが正しく同定されたため、最終的な特異性は98.9%であった。トリソミー18では、37件のトリソミー18のうちの35件と、252件の非トリソミー18のうちの251件が正しく同定された。これは、感度と特異性がそれぞれ94.6%と99.6%に対応する。すべての正倍数体“対照”サンプルが正しく同定されたため、最終的な特異性は99.7%であった。
このセクションでは、バイオインフォマティクス分析パイプラインの第3のステップ、すなわちトリソミー(例えば13と18)検出のための統計を改善した。染色体13または染色体18を人工染色体13または人工染色体18と比較する新たな統計を開発した。この新たなトリソミー検出法では、対照サンプルは不要であった。したがってトリソミー13とトリソミー18を検出するためのシークエンシング・コストを減らすことができた。zスコア法と比べると、トリソミー13とトリソミー18の検出性能が新たな統計によってさらに向上した。
GC補正の後、異なる染色体について読み取り数のバイアスが相変わらず存在していた。染色体21と比べると、染色体18と染色体13は、GC補正済読み取り数の計算によって正倍数体サンプルでさえ過剰に表現されていた。これらの結果は、バイアスが相変わらず存在しているため、異なる染色体からの読み取り数を直接比較することはできないことを示していた。人工染色体を構成してバイアスを補正したが、最も重要なのは、対照サンプルが不要だったことである。
バイオインフォマティクス分析パイプラインの第3のステップを改善すると、トリソミー13とトリソミー18の検出性能が大きく改善され、トリソミー21の検出性能と同等になった。最も重要なのは、あらゆる改善が、バイオインフォマティクスの面でだけなされたことであった。したがって分析パイプラインに対するこれらの変更がNGSによるトリソミー13とトリソミー18の検出コストを増加させることはなかろう。
V.領域選択法
図1は、生物サンプル(例えば母親の血漿)から得られた配列と人工染色体のアラインメントによってGCバイアスを減らす方法を示すフロー・チャートである。この方法を利用してゲノム領域の増幅または欠失を明らかにすることができる。サンプルとして、胎児からの無細胞DNAと、その胎児を妊娠している女性からの無細胞DNAを含む混合物が可能である。別の一例では、サンプルとして、腫瘍からの無細胞DNAと患者からの無細胞DNAを含む混合物が可能である。
ステップ11では、興味の対象である染色体領域(第1の染色体領域)のGC含量を明らかにする。GC含量は、さまざまな方法(例えばこの明細書に記載した方法)で求めることができる。GC含量は、参照ゲノムから測定することができる。
ステップ12では、興味の対象である染色体領域とGC含量がほぼ同じ離散領域群を同定することによって参照人工染色体を同定することができる。離散領域群は、全体として同じGC含量を持っていてもよいし、それぞれの離散領域が個別にほぼ同じGC含量を持っていてもよい。したがって、領域として、すべての領域での平均GC含量をほぼ同じGC含量にできるような領域を選択することができる。
離散領域群は、さまざまな染色体から、または1つの染色体だけから選択することができる。離散領域群と興味の対象である染色体領域は、基準のための1つの区画が正常なコピー数(例えば常染色体では2つ)を持っていること、すなわち増幅または欠失がないことがわかっている場合には、同じ染色体から選択することさえできる。
ステップ13では、配列タグが、参照人工染色体と興味の対象である染色体領域を持つ生物サンプル(例えば母親の血漿)のシークエンシングから得られる。配列タグは、コンピュータ・システムで受け取ることができる。
ステップ14では、第1の染色体領域とアラインメントされる配列タグの第1の量を明らかにする。この第1の量として、タグの数、タグの長さ、DNA断片の長さ(例えば端部をペアにしたシークエンシングを実行する場合)が可能である。
ステップ15では、参照人工染色体とアラインメントされる配列タグの第2の量(基準量)を明らかにすることができる。一実施態様では、アラインメントは、第1の染色体領域に対応する領域と参照人工染色体に対してだけ可能である。
ステップ16では、第1の量と基準量からパラメータを決める。、パラメータの例として、比または差が可能である。パラメータは、比および/または差の関数から求めることができる。
ステップ17では、パラメータをカットオフ値と比較することによって興味の対象である染色体領域を特徴づける。カットオフは、パラメータが基準値と統計的に異なっているかどうかを示すことができ、基準値は、健康な人から決めること、または理論的に決めることができる。カットオフは、第1の染色体領域と参照人工染色体の長さに依存する可能性がある。例えばパラメータが量の比である場合、カットオフ値と基準値は、ほぼ長さの違いに関するものになろう。例えば第1の染色体領域が参照人工染色体の2倍の長さである場合には、基準値は0.5になり、カットオフは(例えば基準値からの標準偏差によって決まる)0.5よりも所定の量だけ大きいか小さい値になろう。逆も真である場合には、基準値を2にできよう。
いくつかの実施態様では、第1の染色体領域を複数の下位離散領域に分割することができる。これらの下位離散領域は、参照人工染色体の領域と同様にして選択することができる。下位離散領域は、第1の染色体領域と参照人工染色体がほぼ同じGC含量となるように選択することができる。GC含量が同じである範囲は、ユーザーが指定すること、または数値をデフォルトとして用いることができる。例えばGC含量は、具体的に互いに数パーセントの違いとなるようにできる。GC含量が許容可能な範囲に入るまで、他の領域を追加することができる。
さまざまな領域と下位離散領域は、長さが同じでも異なっていてもよい。離散領域群の平均GC含量を求め、その平均GC含量によって異なる長さを説明することができる。
VI.実施例
トリソミー13(T13)としても知られるパトー症候群は、減数分裂1の間に染色体が分離しないことが原因で患者が1つの余分な染色体13を有する症候群である。したがって染色体13も、胎児染色体異常の非侵襲性出生前診断における重要な標的である。
ヒト染色体13のDNA配列分析により、この染色体には37.8Mbの中央“遺伝子砂漠”領域が含まれていることがわかる。その領域では、遺伝子密度が1Mbにつきわずかに遺伝子3.1個へと低下し、全GC含量は33%に低下する4。これを図Aでは領域2と名づける。逆に、遺伝子が最も豊富な領域は、この染色体の長腕のいずれかの端部、すなわち図Aに示した領域1と領域3である。領域1と領域3の両方とも、GC含量は39%である。
したがって領域選択法を利用して、シークエンシングによって得られた染色体ゲノム表現の再現性に関してGC含量の変動によって生じる効果を最少にした。染色体13の長腕を3つの領域に分割した。すなわち領域1(16〜52.9Mb)と、領域2(52.9〜90.7Mb)と、領域3(90.7〜114.1Mb)である。廃棄したのは、基準ヒトゲノムに完全にマッピングされたユニークな読み取り数(U0-1-0-0配列の読み取り数と名づけた)と、領域2にマッピングされたユニークな読み取り数であり、保持したのは、領域1と領域3のU0-1-0-0配列という読み取り数であった。染色体13のゲノム表現の新たな割合は、染色体13からの残っているU0-1-0-0のカウント数を、ゲノム全体からのU0-1-0-0配列読み取り数の更新された和で分割することによって計算した。なお更新された和は、シークエンシング・ランから得られたU0-1-0-0配列読み取りの以前の総数から領域2のU0-1-0-0のカウント数を差し引くことによって求めた。データ分析ステップの概略を図Bに示す。染色体13の割合の平均値と標準偏差を同じ正倍数体サンプルを用いて再計算した後、変動係数(CV=(標準偏差/平均値)×100%)を計算した。これらの新しい基準値を用い、それぞれのケースについて染色体13のzスコアを得た。
以前のデータセットにこの領域選択法を適用すると、染色体13のCVが3.41%から0.97%へと低下することが観察できた。また、T13のケースのzスコアは1.22から5.76へと増加し、3超というzスコアがカットオフであるT13胎児が正確に同定された(図C)。
したがってこの領域選択法により、大量並列シークエンシング法を利用するとき、異数性の検出感度を大きくし、T13の非侵襲性出生前診断の精度を向上させることができる。
VII.コンピュータ・システム
この明細書で言及したどのコンピュータ・システムも、適切な任意の数のサブシステムを利用することができる。そのようなサブシステムの例を、図8のコンピュータ装置800の中に示す。いくつかの実施態様では、コンピュータ・システムは単一のコンピュータ装置を備えており、その中のサブシステムとして、そのコンピュータ装置の構成要素が可能である。別の実施態様では、コンピュータ・システムは複数のコンピュータ装置を備えることができ、それぞれのコンピュータ装置が、内部構成要素を有するサブシステムである。
図8に示した複数のサブシステムは、システム・バス875を介して互いに接続されている。追加のサブシステムとして、例えばプリンタ874、キーボード878、固定式ディスク879、モニタ876(ディスプレイ・アダプタ882に接続される)などが示されている。周辺機器と入出力(I/O)装置(I/O制御装置871に接続される)は、従来から知られている任意の数の手段(例えばシリアル・ポート877)によってコンピュータ・システムに接続することができる。例えばシリアル・ポート877または外部インターフェイス881(例えばイーサネット、ワイファイなど)を利用してコンピュータ・システム800を広域ネットワーク(例えばインターネット)、マウス入力装置、スキャナに接続することができる。システム・バス875を介した相互接続により、中央プロセッサ873が各サブシステムと通信し、システム・メモリ872または固定式ディスク879からの指示の実行の制御を可能にするとともに、サブシステム間の情報交換を可能にする。システム・メモリ872および/または固定式ディスク879は、コンピュータ可読媒体を実現することができる。この明細書で言及した任意の値を1つの構成要素から別の構成要素へと出力することと、ユーザーに出力することができる。
コンピュータ・システムは、例えば外部インターフェイス881または内部インターフェイスによって互いに接続された複数の同じ構成要素またはサブシステムを含むことができる。いくつかの実施態様では、コンピュータ・システム、またはサブシステム、または装置は、ネットワーク全体で通信することができる。そのような場合、1つのコンピュータをクライアントと見なし、別のコンピュータをサーバーと見なすことができる。その場合、各コンピュータは同じコンピュータ・システムの一部にすることができる。クライアントとサーバーは、それぞれが複数のシステム、サブシステム、構成要素を含むことができる。
本発明の実施態様のどれも、ハードウエア(例えばアプリケーション専用集積回路またはフィールド・プログラム可能なゲート・アレイ)を用いた制御論理、および/または一般にモジュールまたは集積回路の形のプログラム可能なプロセッサを備えるコンピュータ・ソフトウエアを用いた制御論理の形で実現できることを理解されたい。当業者は、この明細書の開示内容と教示内容に基づけば、ハードウエアと、ハードウエアとソフトウエアの組み合わせを用いて本発明の実施態様を実現する適切な別のやり方および/または方法がわかるであろう。
この明細書に記載したソフトウエア構成要素またはソフトウエア機能のどれも、例えば従来の技術またはオブジェクト指向の技術を利用した適切な任意のコンピュータ言語(例えばJava、C++、Perl)を用いるプロセッサによって実行されるソフトウエア・コードとして実現することができる。ソフトウエア・コードは、記憶用および/または送信用のコンピュータ可読媒体上に一連の指示または命令として記憶させることができる。適切な媒体として、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、磁気媒体(例えばハード-ドライブ、フロッピー・ディスク)、光媒体(例えばコンパクト・ディスク(CD)、DVD(ディジタル垂直ディスク))、フラッシュ・メモリなどが挙げられる。コンピュータ可読媒体として、このような記憶装置または送信装置の任意の組み合わせが可能である。
このようなプログラムは、コード化した後、多彩なプロトコルに合致する有線網、および/または光ネットワーク、および/または無線網(インターネットを含む)を通じて送信するのに適した搬送信号を用いて送信することもできる。そのため本発明の一実施態様によるコンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を用いて作ることができる。そのプログラム・コードでコード化されたコンピュータ可読媒体は、互換性のある装置と合わせてパッケージにすること、または他の装置とは別に(例えばインターネットからのダウンロードを通じて)提供することができる。このようなコンピュータ可読媒体はどれも、単一のコンピュータ・プログラム製品(例えばハード-ドライブ、CD、1つのコンピュータ/システム全体)の上または中に収容し、システムまたはネットワーク内の異なるコンピュータ・プログラム製品の上または中に提示することができる。コンピュータ・システムは、この明細書で言及したあらゆる結果をユーザーに提供するため、モニタ、プリンタや、他の適切なディスプレイを備えることができる。
この明細書に記載したどの方法も、全体または一部を、1つ以上のプロセッサを有するコンピュータ・システムで実行することができる。そのプロセッサは、複数のステップを実行する構成にできる。例えば、この明細書に記載した任意の方法のステップを実行する構成にされていて、個々のステップまたは個々の一群のステップを実行するさまざまな要素を備えることのできるコンピュータ・システムに実施態様を指示することができる。この明細書の方法のステップは、順序付きのステップとして提示したが、同時に実行すること、または異なる順番で実行することができる。それに加え、これらステップの一部は、他の方法からの他のステップの一部とともに用いることができる。また、1つのステップの全体または一部はオプションである。それに加え、任意の方法の任意のステップをモジュールや回路で実行すること、またはこれらのステップを実行するための他の手段で実行することができる。
特定の実施態様の具体的な詳細は、本発明の実施態様の精神と範囲を逸脱することなく、適切な任意のやり方で組み合わせることができる。しかし本発明の他の実施態様は、個々の特徴と関係する特定の実施態様、またはこれらの個々の特徴の特定の組み合わせに関するものにすることができる。
本発明の実施態様に関する上記の説明は、例示と説明を目的として提示した。すべてを提示することや、本発明をここで説明した厳密な形態に制限することは想定しておらず、上記の教示内容に照らしてさまざまな改変やバリエーションが可能である。実施態様は、本発明の原理とその実際的な応用を最もよく説明するために選択して説明した。そのため当業者は、本発明をさまざまな実施態様で利用することや、想定する特定の用途に適したさまざまな改変をして利用することが可能になる。
特に断わらない限り、“1つの”または“その”は、“1つ以上”を意味するものとする。
上に言及したあらゆる特許、特許出願、刊行物、説明は、あらゆる目的で、その全体が参考としてこの明細書に含まれる。

Claims (17)

  1. 生物サンプル中の第1の染色体領域の増幅又は欠失を検出する方法であって、
    参照ゲノム中の第1の染色体領域を同定し、ここで、該第1の染色体領域は参照ゲノム中に第1のGC含量を有し;
    前記参照ゲノムの複数の離散領域を含むゲノム配列データから参照人工染色体を組み立て、ここで、該複数の離散領域は第1のGC含量とほぼ同じGC含量である第2のGC含量を有する;
    生物サンプル由来の複数の配列タグのそれぞれを、前記第1の染色体領域および前記参照人工染色体とコンピュータ装置によってアラインメントさせ、ここで、該配列タグは、第1の組織と第2の組織からの無細胞核酸を含む生物サンプル中の核酸のシークエンシングによって得られる;
    前記第1の染色体領域とアラインメントされる配列タグの第1の量をコンピュータ装置によって決定し;
    前記参照人工染色体とアラインメントされる配列タグの参照量をコンピュータ装置によって決定し;
    前記第1の量と前記参照量からパラメータを決定し;
    そのパラメータをカットオフ値と比較し、それによって、第1の組織の前記第1の染色体領域中の増幅または欠失の分類を決定すること、
    を含む、方法。
  2. 前記第1の組織が胎児に由来し、前記第2の組織が、その胎児を妊娠している女性に由来する、請求項1に記載の方法。
  3. 前記第1の組織が腫瘍に由来し、前記第2の組織が、その腫瘍を有する患者の健康な細胞に由来する、請求項1に記載の方法。
  4. 前記第1の染色体領域が同じ染色体または異なる染色体に由来する複数の離散領域を含む、請求項1に記載の方法。
  5. 離散領域のすべてが、特定の範囲内の第1のGC含量を有するか、または離散領域のそれぞれが、特定の範囲内の第1のGC含量を有する、請求項1に記載の方法。
  6. 前記生物サンプルが母親の血漿である、請求項1に記載の方法。
  7. 前記生物サンプルはヒトから得られたサンプルであり、前記第1の染色体領域が、染色体13、染色体18、および染色体21から成る群より選択された染色体の一部であり、前記分類が、その染色体のトリソミーである、請求項1に記載の方法。
  8. アラインメントする前に、前記第1の組織の無細胞核酸の少なくとも一部、および前記第2の組織の無細胞核酸の少なくとも一部の配列をシークエンシングすることをさらに含む、請求項1に記載の方法。
  9. 前記パラメータが、第1の量および参照量が統計的に異なる確率であり、前記カットオフ値が0.05である、請求項1に記載の方法。
  10. 前記第1の染色体領域を同定することが、遺伝子が豊富な領域を選択することを含む、請求項1に記載の方法。
  11. 前記第1の染色体領域を同定することが、染色体13の長腕のいずれかの端部の領域を選択し、その間の領域を除くことを含む、請求項1に記載の方法。
  12. 回帰分析によって前記第1の量および参照量でGCバイアスを補正することをさらに含む、請求項1に記載の方法。
  13. 前記第1の染色体領域が染色体13および染色体18から選択され、参照人工染色体が、選択された染色体領域とほぼ同じGC含量および選択された染色体領域とほぼ同じマッピング可能性を有する、請求項1に記載の方法。
  14. 前記参照人工染色体が第1の人工参照染色体であり、複数の配列タグが第1の複数の配列タグであり、配列タグの参照量が配列タグの第1の参照量であり、パラメータは第1のパラメータである、請求項1に記載の方法であって、
    当該方法は、更に、
    該参照ゲノム中の第2の染色体領域を同定し、該第2の染色体領域は該参照ゲノム中に第3のGC含量を有し、該第2の染色体領域は第1の染色体領域と同一ではなく、第3のGC含量は第1のGC含量とは異なる;
    前記参照ゲノムの複数の離散領域を含むゲノム配列データから第2の参照人工染色体を組み立て、ここで、該複数の離散領域は第3のGC含量とほぼ同じGC含量である第4のGC含量を有する;
    生物サンプル由来の第2の複数の配列タグのそれぞれを、前記第2の染色体領域および前記第2の参照人工染色体とコンピュータ装置によってアラインメントさせ、ここで、該配列タグは、第1の組織と第2の組織からの無細胞核酸を含む生物サンプル中の核酸のシークエンシングによって得られる;
    前記第2の染色体領域とアラインメントされる配列タグの第2の量をコンピュータ装置によって決定し;
    前記第2の参照人工染色体とアラインメントされる配列タグの第2の参照量をコンピュータ装置によって決定し;
    前記第2の量と前記第2の参照量から第2のパラメータを決定し;
    第2のパラメータをカットオフ値と比較し、それによって、第1の組織の前記第2の染色体領域中の増幅または欠失の分類を決定すること、
    を含む、方法。
  15. 前記人工染色体を組み立てることが、第1の染色体領域とほぼ同じGC含量および第1の染色体領域とほぼ同じマッピング可能性を有する離散領域を組み立てることを含み、特定の領域でのマッピング可能性は特定の領域の全ヌクレオチドの中でマッピング可能なヌクレオチドの割合である、請求項1に記載の方法。
  16. コンピュータに請求項1〜15のいずれか1項に記載の方法を実行させるための、生物サンプル中の第1の染色体領域の増幅又は欠失を検出すためのコンピュータプログラム。
  17. 請求項1〜15のいずれか1項に記載の方法を実行するための手段を備え、少なくともプロセッサおよびメモリをさらに含む、コンピュータシステム。
JP2015500578A 2012-03-13 2013-03-13 非侵襲的出生前診断のために大量並列シークエンシング・データを分析する方法 Active JP6411995B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261610422P 2012-03-13 2012-03-13
US61/610,422 2012-03-13
PCT/US2013/031082 WO2013138527A1 (en) 2012-03-13 2013-03-13 Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis

Publications (3)

Publication Number Publication Date
JP2015515266A JP2015515266A (ja) 2015-05-28
JP2015515266A5 JP2015515266A5 (ja) 2015-12-10
JP6411995B2 true JP6411995B2 (ja) 2018-10-24

Family

ID=49158429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015500578A Active JP6411995B2 (ja) 2012-03-13 2013-03-13 非侵襲的出生前診断のために大量並列シークエンシング・データを分析する方法

Country Status (7)

Country Link
US (1) US9218449B2 (ja)
EP (2) EP2825991B1 (ja)
JP (1) JP6411995B2 (ja)
AU (1) AU2013232123B2 (ja)
CA (1) CA2866324C (ja)
HK (1) HK1204377A1 (ja)
WO (1) WO2013138527A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012177792A2 (en) 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013052907A2 (en) 2011-10-06 2013-04-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) * 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2929923T3 (es) 2012-01-20 2022-12-02 Sequenom Inc Procesos de diagnóstico que condicionan las condiciones experimentales
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2939547T3 (es) 2013-04-03 2023-04-24 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
WO2014190286A2 (en) 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2721051T3 (es) 2013-06-21 2019-07-26 Sequenom Inc Método para la evaluación no invasiva de variaciones genéticas
BR112016007401B1 (pt) 2013-10-04 2023-04-11 Sequenom, Inc. Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra
US10438691B2 (en) 2013-10-07 2019-10-08 Sequenom, Inc. Non-invasive assessment of chromosome alterations using change in subsequence mappability
EP4227947A1 (en) 2013-10-21 2023-08-16 Verinata Health, Inc. Method for improving the sensitivity of detection in determining copy number variations
IL285106B (en) 2013-11-07 2022-09-01 Univ Leland Stanford Junior Clean nucleic acids are suitable for analyzing the human microbiome and its parts
WO2016015058A2 (en) 2014-07-25 2016-01-28 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US11783911B2 (en) 2014-07-30 2023-10-10 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
MA40939A (fr) 2014-12-12 2017-10-18 Verinata Health Inc Utilisation de la taille de fragments d'adn acellulaire pour déterminer les variations du nombre de copies
EP3298169A4 (en) 2015-05-18 2018-10-24 Karius Inc. Compositions and methods for enriching populations of nucleic acids
KR101678962B1 (ko) * 2015-08-21 2016-12-06 이승재 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
CA3014070C (en) 2016-03-25 2023-03-14 Karius, Inc. Synthetic nucleic acid spike-ins
WO2018009723A1 (en) * 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
WO2018022890A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Genetic copy number alteration classifications
CA3207879A1 (en) 2017-01-24 2018-08-02 Sequenom, Inc. Methods and processes for assessment of genetic variations
US10697008B2 (en) 2017-04-12 2020-06-30 Karius, Inc. Sample preparation methods, systems and compositions
US20200299677A1 (en) 2017-10-27 2020-09-24 Juno Diagnostics, Inc. Devices, systems and methods for ultra-low volume liquid biopsy
CN108733979A (zh) * 2017-10-30 2018-11-02 成都凡迪医疗器械有限公司 Nipt的gc含量校准方法、装置及计算机可读存储介质
CA3082601A1 (en) 2018-03-16 2019-09-19 Karius, Inc. Sample series to differentiate target nucleic acids from contaminant nucleic acids
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
AT412476B (de) 2002-09-24 2005-03-25 Forsch Krebskranke Kinder Verfahren zur herstellung eines virtuellen chromosoms
US7371525B2 (en) 2003-07-29 2008-05-13 The Chinese University Of Hong Kong Compositions and methods for diagnosing and treating severe acute respiratory syndrome (SARS)
EP2612928A3 (en) 2005-03-18 2013-09-11 The Chinese University Of Hong Kong Markers for prenatal diagnosis and monitoring
US7754428B2 (en) 2006-05-03 2010-07-13 The Chinese University Of Hong Kong Fetal methylation markers
US7901884B2 (en) 2006-05-03 2011-03-08 The Chinese University Of Hong Kong Markers for prenatal diagnosis and monitoring
US20100190777A1 (en) 2007-07-17 2010-07-29 Plexxikon Inc. Compounds and methods for kinase modulation, and indications therefor
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
SI2334812T1 (sl) 2008-09-20 2017-05-31 The Board of Trustees of the Leland Stanford Junior University Office of the General Counsel Building 170 Neinvazivna diagnoza fetalne anevploidije s sekvenciranjem
US8563242B2 (en) 2009-08-11 2013-10-22 The Chinese University Of Hong Kong Method for detecting chromosomal aneuploidy
RS63944B1 (sr) 2009-11-05 2023-02-28 Univ Hong Kong Chinese Analiza genoma fetusa iz biološkog uzorka majke
EP2496713B1 (en) 2009-11-06 2018-07-18 The Chinese University of Hong Kong Size-based genomic analysis
US8725422B2 (en) 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations

Also Published As

Publication number Publication date
WO2013138527A1 (en) 2013-09-19
EP3573066B1 (en) 2023-09-27
US20130245961A1 (en) 2013-09-19
HK1204377A1 (en) 2015-11-13
AU2013232123A1 (en) 2013-11-07
JP2015515266A (ja) 2015-05-28
CA2866324C (en) 2019-01-15
EP2825991A1 (en) 2015-01-21
US9218449B2 (en) 2015-12-22
EP3573066A1 (en) 2019-11-27
EP2825991B1 (en) 2019-05-15
EP2825991A4 (en) 2015-09-02
CA2866324A1 (en) 2013-09-19
AU2013232123B2 (en) 2014-10-30

Similar Documents

Publication Publication Date Title
JP6411995B2 (ja) 非侵襲的出生前診断のために大量並列シークエンシング・データを分析する方法
JP7197209B2 (ja) Dnaのサイズに基づく解析
US20220282332A1 (en) Size-based genomic analysis
JP6068598B2 (ja) 多胎妊娠の分子検査
US20190042693A1 (en) Noninvasive prenatal genotyping of fetal sex chromosomes
AU2015200462B2 (en) Size-based genomic analysis
AU2015227510B2 (en) Noninvasive prenatal genotyping of fetal sex chromosomes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160809

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180927

R150 Certificate of patent or registration of utility model

Ref document number: 6411995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250