JP5972448B2

JP5972448B2 - コピー数変異を検出する方法及びシステム

Info

Publication number: JP5972448B2
Application number: JP2015503724A
Authority: JP
Inventors: リー、シューチャオ; チェン、シェンペイ; チェン、ファン; シェ、ウェイウェイ; ワン、ジェン; ワン、ジュン; ヤン、ファンミン; ツァン、シューチン
Original assignee: BGI Diagnosis Co Ltd
Current assignee: BGI Genomics Co Ltd
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2016-08-17
Anticipated expiration: 2032-04-05
Also published as: US11371074B2; US20180148765A1; SG11201406250SA; EP2835752B8; AU2012376134B2; US20150056619A1; JP2015512264A; IL234875B; CN104221022A; EP2835752A1; WO2013149385A1; EP2835752A4; CN104221022B; KR101795124B1; AU2012376134A1; RU2014144349A; KR20140140122A; EP2835752B1

Description

本発明は、生命情報学分野に関し、特に、コピー数変異（Ｃopy Ｎumber Ｖariation、ＣＮＶ）を検出する方法、及びシステムに関する。

ＣＮＶはゲノムにおける構造的変異の一つである。一般的には、狭義的なＣＮＶは、染色体において、ＤＮＡ断片のコピー数が変化することを意味する。ゲノムにおける構造的変異の種類と原因は、１、欠失（末端欠失、中間部欠失）、２、転座（相互転座、ロバートソン転座）、３、逆位、４、環状染色体、５、二動原体染色体、６、挿入など、が含まれる。また、広義的なＣＮＶは、例えば染色体異数性と一部の染色体異数性との構造的変異が含まれる。

現在では、コピー数変異を検出する方法としては、例えば高分解能染色体核型分析、FISH解析（蛍光in situ ハイブリダイゼーション）、Ａrray CGH（アレイ比較ゲノムハイブリダイゼーション）、ＭＬＰＡ（多重ライゲーション依存性プローブ増幅法）、及びPCR（Polymerase Chain Reaction、ポリメラーゼ連鎖反応）などの方法が挙げられる。中でも、FISH解析を基準として、効果的に既知の染色体欠失、染色体重複をほとんど検出できる。しかしながら、これらの方法は一般に低効率という欠点がある。特に、全ゲノムにフルスキャンしている場合には、資源消費量が大きく、未知のＣＮＶなどを検出できない。

このため、既知のサイトを同定したり、未知のサイトを検討したりすることができる、新たなコピー数変異の検出方法を開発することが差し迫ってくる。

本発明が解決しようとする技術的課題は、微小欠失/微小重複を含むコピー数変異を正確に検出できる、コピー数変異の検出方法及びシステムを提供することである。

本発明の一態様によれば、検品中の核酸分子の少なくとも一部に配列情報を読み出すステップ、この配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断するステップ、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するステップ、各窓口におけるタグ配列の数を、ＧＣ含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるステップ、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補ＣＮＶ破過点として選定するステップ、各ＣＮＶ破過点と前のＣＮＶ破過点との間にある配列、及び、各ＣＮＶ破過点と次のＣＮＶ破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、候補ＣＮＶ破過点の有意性が全体で終了閾値に満たないまでに繰り返し、ＣＮＶ破過点を判断するステップを含むことを特徴とするコピー数変異を検出する方法を提供する。

また、検品中の核酸分子の少なくとも一部に配列情報を読み出すステップをさらに含んでもよい。

また、各窓口において、参照となるタグ配列の数（reference unique reＡds）が同じであってもよく、各窓口が同じ長さを有しもよい。

また、終了閾値は、正常なサンプルからなる対照試料群により得てもよい。

また、各窓口におけるタグ配列の数をＧＣ含有量について補正するのは、ＧＣ含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、ＧＣ含有量について補正されたタグ配列の数を求めるステップを含んでもよい。

また、対照試料群で補正された予期のタグ配列の数は、次の手順により求められる；対照群の各窓口におけるタグの総数に対するＧＣ含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出する。

また、ＣＮＶ破過点を判断した後に、さらに、ＣＮＶ破過点の間にある断片に対して、信頼水準を求めるステップを含んでもよい。上述した信頼水準を求めるのは、補正されたタグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求めるステップ、及び、断片にある補正されたタグ配列数の平均が信頼区間から逸脱する場合に、当該ＣＮＶ破過点にある断片は、確かに異常があると判断するステップ、を含む。

また、タグ配列の数が正規分布になり、前述信頼区間が９５％信頼区間である。

また、候補ＣＮＶ破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。

また、当該方法は、さらに、次のことを含んでもよい；前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの１種である。及び/又は、前述検品のゲノムＤＮＡは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びＳＤＳ法などのＤＮＡ抽出法により得られる。及び/又は、前述検品のゲノムＤＮＡを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。及び/又は、上述した検品のゲノムＤＮＡ断片の片端又は両端をシークエンシングして、ＤＮＡ断片の配列情報を読み出す。

また、当該方法は、さらに、異なる検品を区別するように、それぞれ、各試料のDNＡ断片に、異なるインデックスを付けるステップを含んでもよい。

本発明の別の態様によれば、検品中の核酸分子の少なくとも一部に配列情報を読み出す読み出しユニット、得られた配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断するタグ配列決定ユニット、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するタグ配列数算出ユニット、各窓口におけるタグ配列の数を、ＧＣ含有量について補正し、対照試料群で補正された予期のタグ配列の数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補ＣＮＶ破過点として選定する候補破過点選定ユニット、及び、各ＣＮＶ破過点と前のＣＮＶ破過点との間にある配列、及び、各ＣＮＶ破過点と次のＣＮＶ破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、候補ＣＮＶ破過点の有意性が全体で終了閾値に満たないまでに繰り返し、ＣＮＶ破過点を判断する破過点決定ユニットを含むことを特徴とするコピー数変異を検出するシステムを提供する。

また、タグ配列数補正ユニットは、
ＧＣ含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、ＧＣ含有量について補正されたタグ配列の数を求めるＧＣ補正ユニットと、
対照群の各窓口におけるタグの総数に対するＧＣ含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出し、ＧＣ補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求める窓口補正ユニットと
を含んでもよい。

また、当該システムは、さらに、破過点決定ユニットでＣＮＶ破過点を判断した後に、タグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平均が信頼区間から逸脱する場合に、当該ＣＮＶ破過点にある断片は、確かに異常があると判断する破過点濾過ユニットを含んでもよい。

また、補正されたタグ配列の数が正規分布になり、前述信頼区間が９５％信頼区間である。

また、候補破過点選定ユニットで候補ＣＮＶ破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。

また、前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの１種である。及び/又は、前述検品のゲノムＤＮＡは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びＳＤＳ法などのＤＮＡ抽出法により得られる。及び/又は、前述検品のゲノムＤＮＡを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。

及び/又は、上述した検品のゲノムＤＮＡ断片の片端又は両端をシークエンシングして、ＤＮＡ断片の配列情報を読み出す。

また、異なる検品を区別するように、それぞれ、各試料のDNＡ断片に、異なるインデックスを付ける。

本発明に係るコピー数変異を検出する方法及びシステムにより、臨床の実行可能性があり、微小欠失/微小重複を含むコピー数変異を正確に検出できる。

本発明に係るコピー数変異を検出する方法による一実施例のフローチャートである。本発明に係るコピー数変異を検出する方法による別の実施例のフローチャートである。本発明に係るコピー数変異を検出する方法によるさらに別の実施例のフローチャートである。本発明の一実施形態により染色体をＣＮＶ解析するのを概略的に示すフローチャートである。本発明に係るコピー数変異を検出するシステムによる一実施例のフローチャートである。本発明に係るコピー数変異を検出するシステムによる別の実施例のフローチャートである。本発明に係る一例において、８つのサンプルを検出した結果を示す模式図である。

以下、本発明で使用される用語を次のように説明する；
コピー数変異（copy number variation, ＣＮＶ）：検出対象サンプル由来の核酸配列を正常なサンプル由来の核酸配列と比べて、１kb以上の核酸分子のコピー数に変化が生じることを意味する。それは、欠失、例えば微小欠失、挿入、例えば微挿入、マイクロ重複、重複、逆位、転座、及び複雑なマルチサイト変異が含まれる。

異数性：正常なサンプルと比べて、遺伝物質に存在している染色体の数が不足あるいは過剰することを意味する。さらには、全体または一部の染色体が不足あるいは過剰するのを含む。また本発明に係るコピー数変異は、異数性の状況を含む。

シークエンシング：サンプルの核酸配列を決定することである。それは、様々な配列決定法により行われる。ジデオキシ・チェーン・ターミネータ法（dideoxy chain-termination method）を含んでいるがこれに限定されず、高スループットの配列決定法が好ましく、次世代法シークエンシング技術や単一分子シークエンシング技術を含んでいるが、これに限定されない。

次世代法シークエンシング技術（Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. ２０１０Jan;１１(１):３１-４６）としては、イルミナ-Solexa（GATM、HiSeq２０００TMなど）、ABI-Solid、及びRoche-４５４（パイロシーケンシング）配列決定装置を含んでいるが、これに限定されなく、単一分子シークエンシング技術としては、真の単一分子シークエンシング技術（Helicos社、True Single Molecule DNA sequencing）、単一分子リアルタイムシークエンシング（Pacific Biosciences社、single molecule real-time (SMRTTM)）、及びナノ細孔シークエンシング技術（Oxford Nanopore Technologies社）など（Rusk, Nicole (２００９-０４-０１). Cheap Third-Generation Sequencing. Nature Methods ６ (４): ２４４６（４）を含んでいるが、これに限定されない。

シークエンシングの種類は、片端（single-end）を読むこと、及び、両端（Pair-end）を読むことに分けれる。シーケンシングデータは長さが５０ｂｐ、９０ｂｐ、及び１００ｂｐでもよい。本発明に係る実施の形態においては、シークエンシング技術がイルミナ-Solexaであり、シークエンシングの種類が両端（Pair-end）を読むことであり、双方向の位置の関係を有する、長さが１００ｂｐのＤＮＡ配列を得る。

本発明に係る実施の形態において、シークエンシングの深さは、検品となる染色体に変異が生じる断片の長さにより決定しておいてもよい。シークエンシングの深さが高いほど、感度が高くなり、即ち、検出された欠失、重複がある断片は短くなる。シークエンシングの深さが０.１-３０×であってもよく、即ち、データの合計量がヒトゲノムの長さに対して０.１-３０倍になる。例えば、本発明に係る実施の形態においては、シークエンシングの深さが０.１×，（２.５×１０８ｂｐ）である。

読み出し（reads）：一定の長さを有する核酸配列（一般には２０ｂｐを越える）を、例えばシーケンサーにより配列決定して配列解析の結果を得る。配列対比法により、それの参照ゲノムにおける特定な領域や位置を知ることができる。

配列対比（対比）：一つまたは複数の核酸配列を、参照配列と比較することを意味する。具体的には、短い核酸配列の参照ゲノムにおける位置を決めるように、短い核酸配列（例えば、読み出し）を参照配列と比較する。コンピュータを利用して配列対比する場合に、配列対比は、ELＡND（efficient local alignment of nucleotide data）、SOＡP（Short Oligonucleotide analysis Package）、及びBWＡ（Burrows-Wheeler aligner）などの配列対比用プログラムから選ばれるいずれかの１種により行われる。対比の認定用基準は、また、ナンフォールトトレランス（１００％一致）及び部分的なフォールトトレランス（１００％未満の一致）に分ける。

タグ配列：参照配列（例えば参照ゲノム配列）における唯一の場所に位置決める読み出し（reads）を指す。

参照タグ配列（reference unique reads）：固定された長さを有する、参照配列（一般的に参照ゲノム）に唯一の位置を有する配列を指す。タグ配列を判断するプロセスは、例えば、固定された長さを有する配列に参照ゲノムを分割するステップ、これらの配列を参照ゲノムと対比させるステップ、及び、参照ゲノムに唯一に完全適合する配列を、唯一適合の配列として選定するステップを含む。固定された長さは、シーケンサーによる配列解析の結果により決定してもよく、具体的に、平均の長さを参照してもよい。配列解析の結果は、シーケンサーにより異なる。詳しく、配列決定のたびに、配列決定の結果の異なる可能性があるので、この長さは、主観、経験で選定されるかもしれない。

インデックス（index）：特定の長さを有する、識別の役割を果たす核酸配列。試験されるＤＮＡ分子が複数の検品から得られた場合には、配列解析において、異なる検品を区別するために、それぞれ、各試料に、異なるインデックスをつけてもよい(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, ２００８, March, Vol.５ No.３)。これにより、複数のサンプルを同時に配列決定できる。インデックスは、異なる検品を区別するためのであり、インデックスをつけたＤＮＡ分子の他の機能に、影響を与えることがない。

ＧＣ含有量についての補正：バッチ間または１つのバッチ内に、GCバイアスががあるため、ＧＣ含有量の高いまたはＧＣ含有量の低い領域にコピー数の偏りを引き起こす。対照試料群にＧＣ含有量について補正された、各窓口における、相対的なシーケンシング配列の数により、シーケンシングデータに当該偏りを削除し、コピー数変異の検出精度を向上させることができる。

平均値：本願でいう平均値が、一般的に算術平均或いは中央値である。

タグ配列の数：タグ配列の数は、最初の数を基にし計算されたのであってもよいし、タグ配列の数を補正係数により補正した補正値であってもよい。例えば、比率であって、「コピー率」と取り換え可能である場合がある。

検品：試験サンプルと呼ばれる場合がある。変異があると疑われる核酸分子を含むサンプルを意味する。核酸の種類としては、特に制限がないが、デオキシリボ核酸（ＤＮＡ）であってもよいし、リボ核酸であってもよく、ＤＮＡが好ましい。ＲＮＡとしては、対応配列を有するＤＮＡに、常法により変換し、続く検出及び解析を行うことができる。

対照試料：検品と相対的なのであって、正常、一般的に表現型の正常であると考えられるサンプルである。

対照試料群（対照群）：対照試料からなるグループを意味する。本発明に係る実施の形態において、このグループに含まれる対照試料の数が３０を越える必要がある。

以下、図面を参照して本発明、さらに、例示用の実施例を詳しく説明する。

高スループット配列解読技術が進む、シーケンシングのコストを削減するにつれて、配列解読技術は、染色体異常の検出に広く応用する。

臨床試験においてコピー数変異の検出用技術を改善するために、高スループット配列解読技術を基にして、全ゲノムに対してコピー数変異をスクリーニングする、高スループット、高特異性、正確な位置決めの利点を有しているが開示されている。被験体からサンプルを得ることにより、ＤＮＡを抽出して高スループット配列解読したあと、得られたデータを解析して、試験結果を得る。

図１は、本発明に係るコピー数変異を検出する方法による一実施例のフローチャートである。

ステップ１０２では、図１のように、検品から核酸分子の少なくとも一部に関する読み出し（reads）を得る。読み出しを得るように、検品中の核酸分子を少なくとも一部又は全部で配列決定してもよい。検品中の核酸分子の少なくとも一部に関する読み出しを得てもよいし、検品中の全ての核酸分子に関する読み出しを得てもよい。例えば、検品からのゲノムＤＮＡ分子をランダムに断片化したＤＮＡ断片を、配列決定して、読み出しを得る。読み出しの長さが一定の範囲にあるが、固定された長さを有する読み出しを、短縮化により、得ることができる。ＤＮＡ断片の長さが５０ｂｐ〜１５００ｂｐにあるが、例えば、５０ｂｐ〜１５０ｂｐ、１５０ｂｐ〜３５０ｂｐ、３５０ｂｐ〜５００ｂｐ、５００ｂｐ〜７００ｂｐ、７００ｂｐ〜１０００ｂｐ、及び１０００ｂｐ〜１５００ｂｐであってもよい。例えば、５０ｂｐ、９０ｂｐ、１００ｂｐ、１５０ｂｐ、３００ｂｐ、３５０ｂｐ、５００ｂｐ、７００ｂｐ、１０００ｂｐ、１５００ｂｐから選ばれであってもよい。実施例では、３００ｂｐ〜７００ｂｐにあることが好ましく、３５０ｂｐ〜５００ｂにあることがより好ましい。読み出しの長さはシーケンサーにより大きく異なる。例えばイルミナ-Solexa、ライフテクノロジーズ-solidによる読み出しの長さは、３００ｂｐの範囲内であるが、roche-４５４、従来のサンガー配列決定法、最先端の単一分子の配列決定用システムによる読み出しの長さは、約１０００ｂｐを超える。唯一の対比用の必要条件を満たすために、一般的に、タグ配列を読み出しにより選定する時に、２０ｂｐ以上、好ましく、２６ｂｐ以上の配列を選定して、対比させる。

ステップ１０４では、配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。例えば、読み出しの少なくとも一部又は全部を、（ゲノム）参照配列と対比させて、読み出しのゲノムへのサイト情報を取得し、読み出しの染色体へのサイト情報を得る。ヒト由来の検品としては、参照ゲノムの配列が、NCBIデータベースからの標準ヒトゲノムの参照配列である。本発明に係る実施例において、ヒトゲノムの配列にNCBIデータベース（例えば、hg１８（NCBI Build ３６）でもよい）からのヒトゲノムの参照配列を、対比用ソフトウェアにSOＡPaligner/soap２を適用する。ゲノムの参照配列に唯一に完全適合するＤＮＡ断片を読み取む。即ち、前の読み出しのみを、ヒトゲノムの参照配列と対比させる。つまり、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。

ステップ１０８では、各窓口におけるタグ配列の数を、ＧＣ含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求める。実施例において、各窓口におけるタグ配列の数をＧＣ含有量について補正するのは、ＧＣ含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、ＧＣ含有量について補正されたタグ配列の数を求めるステップ、を含む。対照試料群で補正された予期のタグ配列の数は、次の手順により求められる；対照群の各窓口におけるタグの総数に対するＧＣ含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出する。

ステップ１１０では、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい（即ち、大幅に大きな差がある）分界点を候補ＣＮＶ破過点として選定する。例えば、全ゲノムにおいては、各窓口の両側にコピー数変異があるのを示す有意差であるp値により、所定の数の窓口を候補ＣＮＶ破過点として選定し、候補ＣＮＶ破過点の有意差をp値として算出する。

ステップ１１２では、各ＣＮＶ破過点と次のＣＮＶ破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、候補ＣＮＶ破過点の有意性が全体で終了閾値に満たないまでに繰り返し、ＣＮＶ破過点を判断する。一般的に、終了閾値は、予め設定されておく。例えば、正常なサンプルからなる対照試料群を分析することにより、この終了閾値を得ることができる。

前述実施例において、得られた読み出しをゲノムの参照配列と対比させ、唯一の完全適合する読み出しを選定して、それに対して、各窓口に入る配列数を計算し、各窓口に入るタグ配列の数をＧＣ補正及び対照群補正したあと、有意性を繰り返して計算する。それにより、CNV検出を実現でき、微小欠失/微小重複を含める小さなコピー数変異を、正確に検出できる。

ヒト由来のサンプルとしては、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの１種を、抽出したゲノムＤＮＡである。これは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びＳＤＳ法などのＤＮＡ抽出法により得られる。カラムクロマトグラフィーは、血液、組織及び細胞を、細胞溶解液とプロテイナーゼＫとにより、露出したDNA分子に変えて、高塩分でこれがシリコーン膜に結合してから、低塩分、高pHでＤＮＡ分子をシリコーン膜から溶出するのであるので、実施例において、カラムクロマトグラフィーが好ましい。詳細方法及び原理は、Tiangen TIＡNamp Micro ＤＮＡ Kit （DP３１６）のマニュアルを参照できる。

試験されるＤＮＡ分子が複数の検品から得られた場合には、異なる検品を区別するために、それぞれ、各試料に、長さが４ｂｐ〜１２ｂｐの範囲にある異なるインデックス（index）をつけてもよい(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, ２００８, March, Vol.５ No.３)。これにより、複数の検品を同時に検出でき、効率を向上させ、検出のコストを削減させることができる。

図２は、本発明に係るコピー数変異を検出する方法による別の実施例のフローチャートである。

ステップ２０２では、検品からのゲノムＤＮＡ分子をランダムに断片化して、ＤＮＡ断片を得る。前述検品のゲノムＤＮＡを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。好ましく、超音波法、例えばコバリス社製S-series（ＡＦＡの技術に基づいて、センサーから放出される音響エネルギー/力学的エネルギーがDNAサンプルを通ると、ガスを溶解させて、気泡になる。エネルギーが除去された後、気泡が破裂して、ＤＮＡ分子を断片化するための能力を生成する。エネルギー強度および時間間隔などを設定することにより、ＤＮＡ分子を断片化して、長さが特定範囲にあるＤＮＡ分子にすることができる。詳細原理及び方法は、コバリス社製S-seriesのマニュアルを参照できる。）により、ＤＮＡ分子を断片化して、長さが集中している断片にする。

ステップ２０４では、ＤＮＡ断片を配列決定して、ＤＮＡ断片による配列解析の結果を得、つまり、読み出しのことである。配列決定した読み出しは、長さが一定の範囲にあってもよいが、ＤＮＡ断片による配列解析の結果より、固定された長さを有する読み出しを、短縮化により、得ることができる。配列決定用方法としては、イルミナ/Hiseq２０００、ＡBI/SOLiD、Roche/４５４が挙げられる。シークエンシングの種類としては、single-end（片端）を読むこと、及び、Pair-end（両端）を読むことに分けれる。シーケンシングデータは長さが５０ｂｐ〜１５００ｂｐでもよい。本発明に係る実施例においては、シークエンシング技術がイルミナ/Hiseq２０００であり、シークエンシングの種類が、Pair-endを読むことであり、双方向の位置の関係を有する、長さが１００ｂｐのＤＮＡ配列を得る。シークエンシングの深さは、検品となる染色体に変異が生じる断片の長さにより決定しておいてもよい。シークエンシングの深さが高いほど、感度が高くなり、即ち、検出された欠失、重複がある断片は短くなる。本発明に係る実施例においては、ヒト由来の検品の読み出しが２〜９００×１０^８にある。

ステップ２０６では、読み出しを、ゲノムの参照配列と対比させて、読み出しのゲノムへのサイト情報を取得する。

ステップ２０６では、ゲノムの参照配列に唯一に完全適合する読み出しを、タグ配列としてを選定する。

ステップ２１０では、窓口の補正係数を求めるように、ゲノムにおける各窓口に対して、平均のＧＣ含有量を算出し、この補正係数により、各窓口の補正されたタグ配列の数を計算する。このステップは、主に各窓口のＧＣ含有量に従って、各窓口に対して、タグ配列の数を補正するのであり、バッチ補正又はＧＣ補正とも言われることがある。

ステップ２１２では、各窓口の補正されたタグ配列数を、該窓口の予期された個数で、割ると、コピー率である各窓口に補正したタグ配列数になる。なお、窓口の予期された個数は、正常なサンプルからなる対照群(control set)により得られた。このステップは、正常なサンプルからのデータにより、各窓口のタグ配列数を補正するのであり、窓口補正とも言うことがある。

対照群の選定において、ライブラリーの構築方法、配列決定用試薬、及びシークエンシングの種類は、検出対象サンプルの場合と一致させる。これにより、対照試料の検出対象サンプルに対する補正効果を向上させることができる。なお、対照群の中のサンプルが正常なサンプルであり、サンプル数が３０を超える。

ステップ２１４では、全ゲノムにおいては、各窓口の両側にコピー数変異があるのを示す有意差であるp値により、所定の数の窓口を候補ＣＮＶ破過点として選定し、各候補ＣＮＶ破過点の有意差をp値として算出する。

１）候補ＣＮＶ破過点の選定：全ゲノムの全ての窓口において、各窓口の両側にあるいくつかの窓口（検出モデルが有意差にするように、一般的にサンプル数が３０を超えるか、検出モデルにおける最低サンプル数の制限を満たす）に対して、コピー数変異の差を計算し、各窓口の両側にコピー数変異があるのを示す有意差により（小さい値から大きな値へのp値）、いくつか（例えば窓口総数の１％）の（窓口に対応する）点を候補ＣＮＶ破過点（Breakpoint、即ちＣＮＶ断片の各分界点）として選定する。

ステップ２１６では、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、候補ＣＮＶ破過点のp値が全体で終了p値（即ち、終了閾値）に満たないまでに繰り返す。なお、終了p値は、対照試料群を分析することにより求められる。

反復と合併：有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、すべてのp値が終了p値よりも小さいまでに繰り返して反復する。

終了p値の算出：例えば、対照試料に前述工程を繰り返して反復し、反復及び合併された最大のp値を記録し、一つの断片に合併させるまでに繰り返して反復することができる。ここで、最大のp値の変化傾向により、最も劇的な変化を示す最大のp値（即ち、p値の変化曲線で、曲線の傾きの最も顕著な変化を示す点（最大の曲率を有する点）である。）又は前の合併における最大のp値を終了閾値とする。実施例において、繰り返して反復しなる断片数が所定の断片数になる場合を、反復と合併の終了として設定。例えば、全ゲノムの解析において、対照試料に前述工程を繰り返して反復しなる断片数が２４になるまでに解析する。この時の終了p値の平均を計算することにより、終了p値を効果的に求めることができる。

上述したステップ２１４及びステップ２１６は断片化とも呼ばれてもよい。ステップ２１４における１）と２）で、窓口及び破過点を選定する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。単染色体の環化反応は以下の通りである：染色体に対して、出発点の近傍にある窓口を計算する場合には、左側にある効果的な窓口数は、統計的検定には不十分であると、当該染色体の終点から逆方向で、計算する。同様に、右側にある効果的な窓口数は、統計的検定には不十分であると、当該染色体の出発点から計算する。この工程は、染色体の出発点及び終点に位置している窓口を算出することを可能にする。全ゲノムの環化反応は以下の通りである：各染色体の前端に位置している効果的な窓口数は、統計的検定には不十分であると、前の染色体の末端に索引を付けるに対して、各染色体の末端に位置している効果的な窓口数は、統計的検定には不十分であると、次の染色体の前端に索引を付け、第１染色体とY染色体が接続される。

閾値の選定：中心極限定理に従って、各対照試料の窓口のコピー率の分布を算出する。この中心極限定理で、窓口に読み込むことがランダムであるので、コピー率が正規分布に適合するが、有意水準が０.０５になる分位点を選択する。それぞれ、対照群にその平均を、コピー率の変異をスクリーニングするための閾値の最低限及び最高限として計算する。

前述実施例において、バッチ補正と窓口補正により、試験結果の精度を向上させることができる。対照群を導入することにより、精度を、対照群を大きくすることにより向上させ、最初のDNA量に対する要求を減らすことができる。

図３は、本発明に係るコピー数変異を検出する方法によるさらに別の実施例のフローチャートである。図３では、正常なサンプルからなる対照群を処理するプロセス（３Ａ）と、検品を処理するプロセス（３B）と、を含む。対照群は、主に、検品補正用のデータ、及び、検品の処理における反復と合併を終了させる要件とする終了閾値を取得するために使用される。

図３のように、プロセス３Ａは、
対照試料からＤＮＡ分子を抽出するステップ３１０Ａ、
対照試料から抽出されたＤＮＡ分子をランダムに断片化してから、配列決定し、対照試料のＤＮＡ断片の配列決定配列データ（即ち、読み出し）を取得するステップ３１１Ａ、
対照試料の読み出しを参照ゲノムと対比させるステップ３１２Ａ、
参照配列に唯一に完全適合する読み出しの数（即ち、タグ配列数）を計算するステップ３１３Ａ、
対照試料をバッチ補正するステップ３１４Ａ、
検品を窓口補正するように、対照試料により、予期の窓口数を求めるステップ３１５Ａ、
候補ＣＮＶ破過点を選定し、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点とのp値を再計算し、残りの断片数が所定の数（例えば、２４）になるまでに繰り返する（即ち、候補ＣＮＶ破過点の選定及び断片化）ステップ３１６Ａ、及び、
この場合、終了p値の平均を計算することにより、検品の処理における反復と合併を終了させる要件とする終了閾値として、終了p値を効果的に算出することができるステップ３１７Ａ
を含む。

プロセス３Bは、
検品からＤＮＡ分子を抽出するステップ３１０B、
検品から抽出されたＤＮＡ分子をランダムに断片化してから、配列決定し、対照試料のＤＮＡ断片の読み出しを取得するステップ３１１B、
検品のＤＮＡ断片の読み出しを参照ゲノムと対比させるステップ３１２B、
参照配列に唯一に完全適合する読み出しの数（即ち、タグ配列数）を計算するステップ３１３B、
検品をバッチ補正するステップ３１４B、
検品を窓口補正するように、対照試料により、予期の窓口数を求めるステップ３１５B、
候補ＣＮＶ破過点の選定及び断片化をするステップ３１６B、及び、
得られた結果を濾過するステップ３１７B
を含む。

図４は、本発明の一実施形態により染色体をＣＮＶ解析するのを概略的に示すフローチャートである。

図４のように、ステップ４０１は、ＤＮＡの抽出及び配列決定である：Tiangen DP３２７-０２の取扱説明書によりゲノムＤＮＡを抽出したあと、イルミナ/Hiseq２０００標準に基づいて、ライブラリーを構築する。このステップで、５００ｂｐに集中したＤＮＡ分子の両端に対して、配列決定用アダプターをつけ、サンプルに対して、異なるインデックス（index）をつける。これにより、１回の配列決定の結果から、異なる検品を区別できる。

ステップ４０２は、配列の対比である：イルミナ/Hiseq２０００の配列決定用方法（ほかの配列決定用方法、例えばＡBI/SOLiDにより、同一または類似の効果を達成できる）により、各サンプルから得られた、特定の長さを有するＤＮＡ断片を、読み出し、それをNCBIデータベースからの標準ヒトゲノムの参照配列とSOAP２対比させ、シーケンシング配列の参照ゲノムにおける位置を知る。重複の配列が解析の妨害になるのを避けるために、続く解析を行うための有効データとして、標準ヒトゲノムの参照配列から選ばれる唯一適合のシーケンシング配列（つまり、唯一の参照配列に完全適合する読み出しの数、即ち、タグ配列数）のみを選択する。

ステップ４０３は、PSCC分析である：本開示の発明者によって開発された、全ゲノムにコピー数変異を検出する一連の生命情報学方法（以下、PSCC）に従って、検品をバッチ補正し、対照群（control set）により、検品に対して、窓口補正（correction）、標準化（Normalization）、及び断片化（segmentation）を行う。

図５は、本発明に係るコピー数変異を検出するシステムによる一実施例のフローチャートである。図５のように、当該システムは、検品中の核酸分子の少なくとも一部に配列情報を読み出す読み出しユニット５１と、ゲノム参照配列に唯一に完全適合する参照配列をタグ配列として判断するタグ配列決定ユニット５２と、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するタグ配列数算出ユニット５３と、各窓口におけるタグ配列の数を、ＧＣ含有量について補正し、対照試料群で補正された予期のタグ配列数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット５４と、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい（即ち、大幅に大きな差がある）分界点を候補ＣＮＶ破過点として選定する候補破過点選定ユニット５５と、各ＣＮＶ破過点と前のＣＮＶ破過点との間にある配列、及び、各ＣＮＶ破過点と次のＣＮＶ破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点に位置している前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、候補ＣＮＶ破過点の有意性が全体で終了閾値に満たないまでに繰り返し、ＣＮＶ破過点を判断する破過点決定ユニット５６と、を含む。この終了閾値は、正常なサンプルからなる対照試料群により得てもよい。タグ配列数算出ユニット５３により窓口にゲノムの参照配列を分割する場合には、参照となるタグ配列の数（reference unique reads）を同じくしてもよく、各窓口を同じ長さにしてもよい。実施例において、候補破過点選定ユニット５５で候補ＣＮＶ破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行う。

前述実施例において、タグ配列決定ユニットでは、読み出しにより、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。配列数補正ユニットでは、各窓口におけるタグ配列の数を補正する。候補破過点選定ユニットと破過点決定ユニットでは、有意性を繰り返して計算し、ＣＮＶ破過点を判断する。それにより、CNV検出を実現でき、微小欠失/微小重複を含める小さなコピー数変異を、正確に検出できる。

図６は、本発明に係るコピー数変異を検出するシステムによる別の実施例のフローチャートである。図６のように、当該システムは、読み出しユニット５１、タグ配列決定ユニット５２、タグ配列数算出ユニット５３、タグ配列数補正ユニット６４、候補破過点選定ユニット５５、及び破過点決定ユニット５６、を含む。読み出しユニット５１、タグ配列決定ユニット５２、タグ配列数算出ユニット５３、候補破過点選定ユニット５５、及び破過点決定ユニット５６の詳細は、図５の具体的な説明を参照する。簡潔にするために詳しい説明を省略する。タグ配列数補正ユニット６４は、ＧＣ含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、ＧＣ含有量について補正されたタグ配列の数を求めるＧＣ補正ユニット６４１と、対照群の各窓口におけるタグの総数に対するＧＣ含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口におけるタグ配列の数の予期値を算出し、ＧＣ補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数（コピー率とも呼ばれる）を求める窓口補正ユニット６４２と、を含む。

本発明の一実施例によれば、当該システムは、さらに、破過点決定ユニットでＣＮＶ破過点を判断した後に、タグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平均が信頼区間から逸脱する場合に、当該ＣＮＶ破過点にある断片は、確かに異常があると判断する破過点濾過ユニット６７、を含む。一実施例において、タグ配列の数が正規分布になり、前述信頼区間が９５%信頼区間である。

一実施例において、前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの１種である。前述検品のゲノムＤＮＡは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びＳＤＳ法などのＤＮＡ抽出法により得られる。前述検品のゲノムＤＮＡを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。検品のゲノムＤＮＡ断片の片端又は両端をシークエンシングして、ＤＮＡ断片の配列情報を読み出す。異なる検品を区別するように、それぞれ、各試料のDNＡ断片に、異なるインデックスを付ける。

図５および図６に示すような各ユニットの機能について、上述した本発明の実施例に対応する説明の一部を参照する。簡潔にするために詳しい説明を省略する。

これらの場合には、各特定な機能の応用をできるだけ、達成するように、ハードウェア、ファームウェア、及びソフトウェアの構成は互換性があることは、当業者にとって自明なことである。

以下、実施例により本発明を詳しく説明する。なお、これらの実施例は単に説明のためのもので、本発明を限定するものではないのが理解されるべきであることは、当業者にとって自明なことである。実施例において特定の条件を明記されていない場合には、先行方法や、製造会社からの方法に従って、各ステップを実行できる。試薬や機器の製造業者は、明記されていない場合、市販されることにより入手できる。以下の括弧内の記述は、それぞれ各種試薬とキットとの製造業者のカタログ番号を示す。配列決定用アダプターや、インデックスindexは、イルミナ社の製造したMultiplexing Sample Preparation Oligonutide Kitからのものである。

実施例１：染色体数の変異を持つ２サンプルと微小欠失をを持つ６サンプルとの検出
１、ＤＮＡの抽出：Tiangen社の製造したTIＡNamp Micro ＤＮＡKit（DP３１６）からの操作マニュアルに従い、８サンプル（以下、Sample１、Sample２、Sample３…Sample８と呼ばれる）からＤＮＡを抽出し、得られたＤＮＡを利用して、訂正されたイルミナ/Hiseq２０００からの明細書に従って、ライブラリーを構築し、５００ｂｐに集中したＤＮＡ分子の両端に配列決定用アダプターをつけ、サンプルに対して、異なるインデックス（index）をつけ、次に、フローセル（flow cell）の界面にある相補のアダプターをハイブリッドし、核酸分子を特定の条件下でクラスタにし、そして、両端を読んでシークエンシングし、１００ｂｐの長さを有するＤＮＡ断片の配列を得た。

具体的に、羊水から得られたＤＮＡ１００ng（Quant-IT dsＤＮＡ HS Ａssay kit）を利用して、訂正されたイルミナ/Hiseq２０００からの明細書に従って、ライブラリーを構築した。なお、詳細は、先行技術（http://www.イルミナ.com/から入手できるイルミナ/Solexaのライブラリー構築用明細書）を参照する。２１００Bioanalyzer (Ａgilent)により、ＤＮＡライブラリー及び挿入断片のサイズが５００ｂｐであると決定し、Q-PCR法で定量して、配列決定した。

２、配列決定：本実施例では、イルミナ/SolexaからのClusterStation、Hiseq２０００（PEsequencing）明細書に従って、各サンプルがデータの数を約５G得るように、８サンプル由来のＤＮＡを配列決定した。なお、各検品は、結合したindexによって区別されるのである。対比用ソフトウェアSOＡP２を利用して、配列決定されたＤＮＡ配列を、NCBIデータベース（hg１８（NCBI Build ３６））からの標準ヒトゲノムの参照配列と対比させ、シーケンシング配列の参照ゲノムにおける位置を知る。

f）結果の視覚化

４、結果の統計
８サンプルを検出及び検証した結果は、表１に示す。

なお、検証した結果は、CGHチップ（比較ゲノムハイブリダイゼーション）によって得られた。製造業者からのマニュアルを参照して、Human Genome CGH Microarray Kit（Ａgilent Technologies Inc.）を実験に用いた。

なお、chrが染色体を、T７が７番染色体のトリソミーを、トリソミーである性染色体変異を、表す。

図７Ａ-Ｈは、８つのサンプルを検出した結果を示す模式図である。

表１及び図７Ａ-７Hよりみれば、本発明は、０.４Mの微小欠失を有する断片とも、全体染色体数の変異ともを正確に検出し、所在位置を確認することができる。それにより、それらの検出効率と精度は、両方に優れる。

これまでに報告されるコピー数変異の検出方法と比較して、本開示は、主に次の利点を含む；
（１）精度：５０Mのデータにより、０.４５の微小欠失を有する断片を、正確に検出できる。
（２）拡張可能性：最初のＤＮＡ量に対する要求を減らすために、配列決定されたデータの数を多くするほか、対照群を大きくすることにより、精度を向上させることができる。
（３）安定、広範囲：これまでに報告される方法においては、操作自体を詳細に説明しないが、本発明は、データによるバッチ補正、グループ補正、及び、断片化用条件の選定などに関する。

本発明は、対象患者にコピー数変異を検出することにより、臨床決定のための遺伝カウンセリングおよび根拠を提供するのに有益であり、微小欠失症候群に罹患している患者に対して、病理判定を正確に行うことができる。本発明は、全ての微小欠失症候群に罹患している患者や、微小欠失症候群に罹患しているおそれがある患者に適用する。対象患者は単に説明のためのもので、本発明を限定するものではないのが理解されるべきである。

本明細書において、本発明の具体的な実施態様を例示および説明したが、上記の開示は、本開示を限定するものであると解釈することはできない。前記開示により、種々の変形および改変をすることができ、これらの変形および改変は、すべて、添付の請求の範囲に含まれていることは、当業者によって認識される。本発明の範囲は、添付の請求の範囲およびその均等構成を基準にする。

Claims

検品中の核酸分子の少なくとも一部の配列情報を読み取るステップ、
該配列情報により、ゲノムの参照配列に唯一に完全適合するタグ配列を判断するステッ
プ、
ウィンドウにゲノムの参照配列を分割して、各ウィンドウに入るタグ配列の数を計算するステップ、
各ウィンドウにおけるタグ配列の数を、ＧＣ含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるステップ、
ウィンドウの出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補ＣＮＶ破過点として選定するステップ、及び、
各ＣＮＶ破過点とその前のＣＮＶ破過点との間にある配列、及び、各ＣＮＶ破過点とそ
の次のＣＮＶ破過点との間にある配列に対して、該二つの配列に含まれるウィンドウにおける補正されたタグ配列の数からなる数値群の有意性をそれぞれ計算した後、有意差の最も小さい候補ＣＮＶ破過点を削除して、削除された候補ＣＮＶ破過点の前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、すべての候補ＣＮＶ破過点の有意性が終了閾値に満たないまでに繰り返すことにより、ＣＮＶ破過点を判断するステップ
を含み、
ＣＮＶ破過点を判断した後に、さらに、ＣＮＶ破過点の間にある断片に対して、信頼水
準を求めるステップをさらに含み、
前述の信頼水準を求めるステップは、補正されたタグ配列数の分布により、対照群を利
用して、補正されたタグ配列数の正常な信頼区間を求めるステップ、及び、断片にある補
正されたタグ配列数の平均が信頼区間から逸脱する場合に、当該ＣＮＶ破過点の間にある
断片は異常があると判断するステップ、を含み、
前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水
、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、
及びヒト末梢血から選ばれるいずれかの１種である
ことを特徴とするコピー数変異を検出する方法。
検品中の核酸分子の少なくとも一部を配列決定することにより配列情報を読み取るステップをさらに含むことを特徴とする請求項１に記載の方法。
各ウィンドウは、参照となるタグ配列の数が同じであり、又は同じ長さを有することを特徴とする請求項１に記載の方法。
終了閾値は、正常なサンプルからなる対照試料群により得られることを特徴とする請求
項１又は２に記載の方法。
前述の各ウィンドウにおけるタグ配列の数をＧＣ含有量について補正するのは、
ＧＣ含有量に基づいて群にウィンドウを分け、各群のタグ配列数の平均及び全てのウィンドウにおけるタグ配列数の平均に応じて補正係数を算出し、ウィンドウにおけるタグ配列の数を補正して、ＧＣ含有量について補正されたタグ配列の数を求めるステップを含み、
及び/又は
対照試料群の補正された予期のタグ配列数は、対照群の各ウィンドウ毎にＧＣ含有量について補正されたタグ配列数とタグの総数の比を算出し、該比に基づいて、各対照試料の対応のウィンドウの当該比の平均を求め、該平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各ウィンドウにおけるタグ配列の数の予期値を算出することにより求められる
ことを特徴とする請求項１に記載の方法。
候補ＣＮＶ破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行うことを
特徴とする請求項５に記載の方法。
補正されたタグ配列の数が正規分布になり、前述信頼区間が９５%信頼区間であること
を特徴とする請求項１に記載の方法。
異なる検品を区別するように、それぞれ、各試料のＤＮＡ断片に、異なるインデックスを追加するステップをさらに含むことを特徴とする請求項１に記載の方法。
検品中の核酸分子の少なくとも一部の配列情報を読み取る読み取りユニット、
該配列情報により、ゲノムの参照配列に唯一に完全適合するタグ配列を判断するタグ配列決定ユニット、
ウィンドウにゲノムの参照配列を分割して、各ウィンドウに入るタグ配列の数を計算するタグ配列数算出ユニット、
各ウィンドウにおけるタグ配列の数を、ＧＣ含有量について補正し、対照試料群の補正された予期のタグ配列数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット、
ウィンドウの出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補ＣＮＶ破過点として選定する候補破過点選定ユニット、及び、
各ＣＮＶ破過点とその前のＣＮＶ破過点との間にある配列、及び、各ＣＮＶ破過点とそ
の次のＣＮＶ破過点との間にある配列に対して、該二つの配列に含まれるウィンドウにおける補正されたタグ配列の数からなる数値群の有意性をそれぞれ計算した後、有意差の最も小さい候補ＣＮＶ破過点を削除し、削除された候補ＣＮＶ破過点の前の候補ＣＮＶ破過点と次の候補ＣＮＶ破過点との有意性を再計算し、すべての候補ＣＮＶ破過点の有意性が終了閾値に満たないまでに繰り返すことにより、ＣＮＶ破過点を判断する破過点決定ユニットを含み、
破過点決定ユニットでＣＮＶ破過点を判断した後に、タグ配列数の分布により、対照群
を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平
均が信頼区間から逸脱する場合に、当該ＣＮＶ破過点の間にある断片は異常があると判断
する破過点濾過ユニットをさらに含み、
前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水
、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、
及びヒト末梢血から選ばれるいずれかの１種である
ことを特徴とするコピー数変異を検出するシステム。
各ウィンドウは、参照となるタグ配列の数が同じであり、又は同じ長さを有することを特徴とする請求項９に記載のシステム。
終了閾値は、正常なサンプルからなる対照試料群により得られることを特徴とする請求
項９に記載のシステム。
前記タグ配列数補正ユニットは、
ＧＣ含有量に基づいて群にウィンドウを分け、各群のタグ配列数の平均及び全てのウィンドウにおけるタグ配列数の平均に応じて補正係数を算出し、ウィンドウにおけるタグ配列の数を補正して、ＧＣ含有量について補正されたタグ配列の数を求めるＧＣ補正ユニットと、
対照群の各ウィンドウ毎にＧＣ含有量について補正されたタグ配列数とタグの総数の比を算出し、該比に基づいて、各対照試料の対応のウィンドウの当該比の平均を求め、該平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各ウィンドウにおけるタグ配列の数の予期値を算出することにより対照試料群の補正された予期のタグ配列数を求め、ＧＣ補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるウィンドウ補正ユニットと
を含むことを特徴とする請求項９に記載のシステム。
前述タグ配列の数が正規分布になり、前述信頼区間が９５%信頼区間であることを特徴
とする請求項９に記載のシステム。
異なる検品を区別するように、それぞれ、各試料のＤＮＡ断片に、異なるインデックスを追加することを特徴とする請求項９に記載のシステム。
候補破過点選定ユニットで候補ＣＮＶ破過点を選択する場合には、単染色体又は全ゲノ
ムに環化反応を行うことを特徴とする請求項９に記載のシステム。