JP5972448B2 - コピー数変異を検出する方法及びシステム - Google Patents

コピー数変異を検出する方法及びシステム Download PDF

Info

Publication number
JP5972448B2
JP5972448B2 JP2015503724A JP2015503724A JP5972448B2 JP 5972448 B2 JP5972448 B2 JP 5972448B2 JP 2015503724 A JP2015503724 A JP 2015503724A JP 2015503724 A JP2015503724 A JP 2015503724A JP 5972448 B2 JP5972448 B2 JP 5972448B2
Authority
JP
Japan
Prior art keywords
cnv
tag sequences
window
corrected
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015503724A
Other languages
English (en)
Other versions
JP2015512264A (ja
Inventor
リー、シューチャオ
チェン、シェンペイ
チェン、ファン
シェ、ウェイウェイ
ワン、ジェン
ワン、ジュン
ヤン、ファンミン
ツァン、シューチン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Genomics Co Ltd
Original Assignee
BGI Diagnosis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Diagnosis Co Ltd filed Critical BGI Diagnosis Co Ltd
Publication of JP2015512264A publication Critical patent/JP2015512264A/ja
Application granted granted Critical
Publication of JP5972448B2 publication Critical patent/JP5972448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

本発明は、生命情報学分野に関し、特に、コピー数変異(Copy Number Variation、CNV)を検出する方法、及びシステムに関する。
CNVはゲノムにおける構造的変異の一つである。一般的には、狭義的なCNVは、染色体において、DNA断片のコピー数が変化することを意味する。ゲノムにおける構造的変異の種類と原因は、1、欠失(末端欠失、中間部欠失)、2、転座(相互転座、ロバートソン転座)、3、逆位、4、環状染色体、5、二動原体染色体、6、挿入など、が含まれる。また、広義的なCNVは、例えば染色体異数性と一部の染色体異数性との構造的変異が含まれる。
現在では、コピー数変異を検出する方法としては、例えば高分解能染色体核型分析、FISH解析(蛍光in situ ハイブリダイゼーション)、Array CGH(アレイ比較ゲノムハイブリダイゼーション)、MLPA(多重ライゲーション依存性プローブ増幅法)、及びPCR(Polymerase Chain Reaction、ポリメラーゼ連鎖反応)などの方法が挙げられる。中でも、FISH解析を基準として、効果的に既知の染色体欠失、染色体重複をほとんど検出できる。しかしながら、これらの方法は一般に低効率という欠点がある。特に、全ゲノムにフルスキャンしている場合には、資源消費量が大きく、未知のCNVなどを検出できない。
このため、既知のサイトを同定したり、未知のサイトを検討したりすることができる、新たなコピー数変異の検出方法を開発することが差し迫ってくる。
本発明が解決しようとする技術的課題は、微小欠失/微小重複を含むコピー数変異を正確に検出できる、コピー数変異の検出方法及びシステムを提供することである。
本発明の一態様によれば、検品中の核酸分子の少なくとも一部に配列情報を読み出すステップ、この配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断するステップ、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するステップ、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるステップ、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補CNV破過点として選定するステップ、各CNV破過点と前のCNV破過点との間にある配列、及び、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断するステップを含むことを特徴とするコピー数変異を検出する方法を提供する。
また、検品中の核酸分子の少なくとも一部に配列情報を読み出すステップをさらに含んでもよい。
また、各窓口において、参照となるタグ配列の数(reference unique reAds)が同じであってもよく、各窓口が同じ長さを有しもよい。
また、終了閾値は、正常なサンプルからなる対照試料群により得てもよい。
また、各窓口におけるタグ配列の数をGC含有量について補正するのは、GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるステップを含んでもよい。
また、対照試料群で補正された予期のタグ配列の数は、次の手順により求められる;対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出する。
また、CNV破過点を判断した後に、さらに、CNV破過点の間にある断片に対して、信頼水準を求めるステップを含んでもよい。上述した信頼水準を求めるのは、補正されたタグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求めるステップ、及び、断片にある補正されたタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点にある断片は、確かに異常があると判断するステップ、を含む。
また、タグ配列の数が正規分布になり、前述信頼区間が95%信頼区間である。
また、候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。
また、当該方法は、さらに、次のことを含んでもよい;前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種である。及び/又は、前述検品のゲノムDNAは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。及び/又は、前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。及び/又は、上述した検品のゲノムDNA断片の片端又は両端をシークエンシングして、DNA断片の配列情報を読み出す。
また、当該方法は、さらに、異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを付けるステップを含んでもよい。
本発明の別の態様によれば、検品中の核酸分子の少なくとも一部に配列情報を読み出す読み出しユニット、得られた配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断するタグ配列決定ユニット、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するタグ配列数算出ユニット、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群で補正された予期のタグ配列の数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補CNV破過点として選定する候補破過点選定ユニット、及び、各CNV破過点と前のCNV破過点との間にある配列、及び、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断する破過点決定ユニットを含むことを特徴とするコピー数変異を検出するシステムを提供する。
また、各窓口において、参照となるタグ配列の数(reference unique reAds)が同じであってもよく、各窓口が同じ長さを有しもよい。
また、終了閾値は、正常なサンプルからなる対照試料群により得てもよい。
また、タグ配列数補正ユニットは、
GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるGC補正ユニットと、
対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出し、GC補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求める窓口補正ユニットと
を含んでもよい。
また、当該システムは、さらに、破過点決定ユニットでCNV破過点を判断した後に、タグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点にある断片は、確かに異常があると判断する破過点濾過ユニットを含んでもよい。
また、補正されたタグ配列の数が正規分布になり、前述信頼区間が95%信頼区間である。
また、候補破過点選定ユニットで候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。
また、前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種である。及び/又は、前述検品のゲノムDNAは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。及び/又は、前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。
及び/又は、上述した検品のゲノムDNA断片の片端又は両端をシークエンシングして、DNA断片の配列情報を読み出す。
また、異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを付ける。
本発明に係るコピー数変異を検出する方法及びシステムにより、臨床の実行可能性があり、微小欠失/微小重複を含むコピー数変異を正確に検出できる。
本発明に係るコピー数変異を検出する方法による一実施例のフローチャートである。 本発明に係るコピー数変異を検出する方法による別の実施例のフローチャートである。 本発明に係るコピー数変異を検出する方法によるさらに別の実施例のフローチャートである。 本発明の一実施形態により染色体をCNV解析するのを概略的に示すフローチャートである。 本発明に係るコピー数変異を検出するシステムによる一実施例のフローチャートである。 本発明に係るコピー数変異を検出するシステムによる別の実施例のフローチャートである。 本発明に係る一例において、8つのサンプルを検出した結果を示す模式図である。
以下、本発明で使用される用語を次のように説明する;
コピー数変異(copy number variation, CNV):検出対象サンプル由来の核酸配列を正常なサンプル由来の核酸配列と比べて、1kb以上の核酸分子のコピー数に変化が生じることを意味する。それは、欠失、例えば微小欠失、挿入、例えば微挿入、マイクロ重複、重複、逆位、転座、及び複雑なマルチサイト変異が含まれる。
異数性:正常なサンプルと比べて、遺伝物質に存在している染色体の数が不足あるいは過剰することを意味する。さらには、全体または一部の染色体が不足あるいは過剰するのを含む。また本発明に係るコピー数変異は、異数性の状況を含む。
シークエンシング:サンプルの核酸配列を決定することである。それは、様々な配列決定法により行われる。ジデオキシ・チェーン・ターミネータ法(dideoxy chain-termination method)を含んでいるがこれに限定されず、高スループットの配列決定法が好ましく、次世代法シークエンシング技術や単一分子シークエンシング技術を含んでいるが、これに限定されない。
次世代法シークエンシング技術(Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010Jan;11(1):31-46)としては、イルミナ-Solexa(GATM、HiSeq2000TMなど)、ABI-Solid、及びRoche-454(パイロシーケンシング)配列決定装置を含んでいるが、これに限定されなく、単一分子シークエンシング技術としては、真の単一分子シークエンシング技術(Helicos社、True Single Molecule DNA sequencing)、単一分子リアルタイムシークエンシング(Pacific Biosciences社、single molecule real-time (SMRTTM))、及びナノ細孔シークエンシング技術(Oxford Nanopore Technologies社)など(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446(4)を含んでいるが、これに限定されない。
シークエンシングの種類は、片端(single-end)を読むこと、及び、両端(Pair-end)を読むことに分けれる。シーケンシングデータは長さが50bp、90bp、及び100bpでもよい。本発明に係る実施の形態においては、シークエンシング技術がイルミナ-Solexaであり、シークエンシングの種類が両端(Pair-end)を読むことであり、双方向の位置の関係を有する、長さが100bpのDNA配列を得る。
本発明に係る実施の形態において、シークエンシングの深さは、検品となる染色体に変異が生じる断片の長さにより決定しておいてもよい。シークエンシングの深さが高いほど、感度が高くなり、即ち、検出された欠失、重複がある断片は短くなる。シークエンシングの深さが0.1-30×であってもよく、即ち、データの合計量がヒトゲノムの長さに対して0.1-30倍になる。例えば、本発明に係る実施の形態においては、シークエンシングの深さが0.1×,(2.5×108bp)である。
読み出し(reads):一定の長さを有する核酸配列(一般には20bpを越える)を、例えばシーケンサーにより配列決定して配列解析の結果を得る。配列対比法により、それの参照ゲノムにおける特定な領域や位置を知ることができる。
配列対比(対比):一つまたは複数の核酸配列を、参照配列と比較することを意味する。具体的には、短い核酸配列の参照ゲノムにおける位置を決めるように、短い核酸配列(例えば、読み出し)を参照配列と比較する。コンピュータを利用して配列対比する場合に、配列対比は、ELAND(efficient local alignment of nucleotide data)、SOAP(Short Oligonucleotide analysis Package)、及びBWA(Burrows-Wheeler aligner)などの配列対比用プログラムから選ばれるいずれかの1種により行われる。対比の認定用基準は、また、ナンフォールトトレランス(100%一致)及び部分的なフォールトトレランス(100%未満の一致)に分ける。
タグ配列:参照配列(例えば参照ゲノム配列)における唯一の場所に位置決める読み出し(reads)を指す。
参照タグ配列(reference unique reads):固定された長さを有する、参照配列(一般的に参照ゲノム)に唯一の位置を有する配列を指す。タグ配列を判断するプロセスは、例えば、固定された長さを有する配列に参照ゲノムを分割するステップ、これらの配列を参照ゲノムと対比させるステップ、及び、参照ゲノムに唯一に完全適合する配列を、唯一適合の配列として選定するステップを含む。固定された長さは、シーケンサーによる配列解析の結果により決定してもよく、具体的に、平均の長さを参照してもよい。配列解析の結果は、シーケンサーにより異なる。詳しく、配列決定のたびに、配列決定の結果の異なる可能性があるので、この長さは、主観、経験で選定されるかもしれない。
インデックス(index):特定の長さを有する、識別の役割を果たす核酸配列。試験されるDNA分子が複数の検品から得られた場合には、配列解析において、異なる検品を区別するために、それぞれ、各試料に、異なるインデックスをつけてもよい(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3)。これにより、複数のサンプルを同時に配列決定できる。インデックスは、異なる検品を区別するためのであり、インデックスをつけたDNA分子の他の機能に、影響を与えることがない。
GC含有量についての補正:バッチ間または1つのバッチ内に、GCバイアスががあるため、GC含有量の高いまたはGC含有量の低い領域にコピー数の偏りを引き起こす。対照試料群にGC含有量について補正された、各窓口における、相対的なシーケンシング配列の数により、シーケンシングデータに当該偏りを削除し、コピー数変異の検出精度を向上させることができる。
平均値:本願でいう平均値が、一般的に算術平均或いは中央値である。
タグ配列の数:タグ配列の数は、最初の数を基にし計算されたのであってもよいし、タグ配列の数を補正係数により補正した補正値であってもよい。例えば、比率であって、「コピー率」と取り換え可能である場合がある。
検品:試験サンプルと呼ばれる場合がある。変異があると疑われる核酸分子を含むサンプルを意味する。核酸の種類としては、特に制限がないが、デオキシリボ核酸(DNA)であってもよいし、リボ核酸であってもよく、DNAが好ましい。RNAとしては、対応配列を有するDNAに、常法により変換し、続く検出及び解析を行うことができる。
対照試料:検品と相対的なのであって、正常、一般的に表現型の正常であると考えられるサンプルである。
対照試料群(対照群):対照試料からなるグループを意味する。本発明に係る実施の形態において、このグループに含まれる対照試料の数が30を越える必要がある。
以下、図面を参照して本発明、さらに、例示用の実施例を詳しく説明する。
高スループット配列解読技術が進む、シーケンシングのコストを削減するにつれて、配列解読技術は、染色体異常の検出に広く応用する。
臨床試験においてコピー数変異の検出用技術を改善するために、高スループット配列解読技術を基にして、全ゲノムに対してコピー数変異をスクリーニングする、高スループット、高特異性、正確な位置決めの利点を有しているが開示されている。被験体からサンプルを得ることにより、DNAを抽出して高スループット配列解読したあと、得られたデータを解析して、試験結果を得る。
図1は、本発明に係るコピー数変異を検出する方法による一実施例のフローチャートである。
ステップ102では、図1のように、検品から核酸分子の少なくとも一部に関する読み出し(reads)を得る。読み出しを得るように、検品中の核酸分子を少なくとも一部又は全部で配列決定してもよい。検品中の核酸分子の少なくとも一部に関する読み出しを得てもよいし、検品中の全ての核酸分子に関する読み出しを得てもよい。例えば、検品からのゲノムDNA分子をランダムに断片化したDNA断片を、配列決定して、読み出しを得る。読み出しの長さが一定の範囲にあるが、固定された長さを有する読み出しを、短縮化により、得ることができる。DNA断片の長さが50bp〜1500bpにあるが、例えば、50bp〜150bp、150bp〜350bp、350bp〜500bp、500bp〜700bp、700bp〜1000bp、及び1000bp〜1500bpであってもよい。例えば、50bp、90bp、100bp、150bp、300bp、350bp、500bp、700bp、1000bp、1500bpから選ばれであってもよい。実施例では、300bp〜700bpにあることが好ましく、350bp〜500bにあることがより好ましい。読み出しの長さはシーケンサーにより大きく異なる。例えばイルミナ-Solexa、ライフテクノロジーズ-solidによる読み出しの長さは、300bpの範囲内であるが、roche-454、従来のサンガー配列決定法、最先端の単一分子の配列決定用システムによる読み出しの長さは、約1000bpを超える。唯一の対比用の必要条件を満たすために、一般的に、タグ配列を読み出しにより選定する時に、20bp以上、好ましく、26bp以上の配列を選定して、対比させる。
ステップ104では、配列情報により、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。例えば、読み出しの少なくとも一部又は全部を、(ゲノム)参照配列と対比させて、読み出しのゲノムへのサイト情報を取得し、読み出しの染色体へのサイト情報を得る。ヒト由来の検品としては、参照ゲノムの配列が、NCBIデータベースからの標準ヒトゲノムの参照配列である。本発明に係る実施例において、ヒトゲノムの配列にNCBIデータベース(例えば、hg18(NCBI Build 36)でもよい)からのヒトゲノムの参照配列を、対比用ソフトウェアにSOAPaligner/soap2を適用する。ゲノムの参照配列に唯一に完全適合するDNA断片を読み取む。即ち、前の読み出しのみを、ヒトゲノムの参照配列と対比させる。つまり、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。
Figure 0005972448
ステップ108では、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求める。実施例において、各窓口におけるタグ配列の数をGC含有量について補正するのは、GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるステップ、を含む。対照試料群で補正された予期のタグ配列の数は、次の手順により求められる;対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口における予期のタグ配列の数を算出する。
ステップ110では、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい(即ち、大幅に大きな差がある)分界点を候補CNV破過点として選定する。例えば、全ゲノムにおいては、各窓口の両側にコピー数変異があるのを示す有意差であるp値により、所定の数の窓口を候補CNV破過点として選定し、候補CNV破過点の有意差をp値として算出する。
ステップ112では、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断する。一般的に、終了閾値は、予め設定されておく。例えば、正常なサンプルからなる対照試料群を分析することにより、この終了閾値を得ることができる。
前述実施例において、得られた読み出しをゲノムの参照配列と対比させ、唯一の完全適合する読み出しを選定して、それに対して、各窓口に入る配列数を計算し、各窓口に入るタグ配列の数をGC補正及び対照群補正したあと、有意性を繰り返して計算する。それにより、CNV検出を実現でき、微小欠失/微小重複を含める小さなコピー数変異を、正確に検出できる。
ヒト由来のサンプルとしては、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種を、抽出したゲノムDNAである。これは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。カラムクロマトグラフィーは、血液、組織及び細胞を、細胞溶解液とプロテイナーゼKとにより、露出したDNA分子に変えて、高塩分でこれがシリコーン膜に結合してから、低塩分、高pHでDNA分子をシリコーン膜から溶出するのであるので、実施例において、カラムクロマトグラフィーが好ましい。詳細方法及び原理は、Tiangen TIANamp Micro DNA Kit (DP316)のマニュアルを参照できる。
試験されるDNA分子が複数の検品から得られた場合には、異なる検品を区別するために、それぞれ、各試料に、長さが4bp〜12bpの範囲にある異なるインデックス(index)をつけてもよい(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3)。これにより、複数の検品を同時に検出でき、効率を向上させ、検出のコストを削減させることができる。
図2は、本発明に係るコピー数変異を検出する方法による別の実施例のフローチャートである。
ステップ202では、検品からのゲノムDNA分子をランダムに断片化して、DNA断片を得る。前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。好ましく、超音波法、例えばコバリス社製S-series(AFAの技術に基づいて、センサーから放出される音響エネルギー/力学的エネルギーがDNAサンプルを通ると、ガスを溶解させて、気泡になる。エネルギーが除去された後、気泡が破裂して、DNA分子を断片化するための能力を生成する。エネルギー強度および時間間隔などを設定することにより、DNA分子を断片化して、長さが特定範囲にあるDNA分子にすることができる。詳細原理及び方法は、コバリス社製S-seriesのマニュアルを参照できる。)により、DNA分子を断片化して、長さが集中している断片にする。
ステップ204では、DNA断片を配列決定して、DNA断片による配列解析の結果を得、つまり、読み出しのことである。配列決定した読み出しは、長さが一定の範囲にあってもよいが、DNA断片による配列解析の結果より、固定された長さを有する読み出しを、短縮化により、得ることができる。配列決定用方法としては、イルミナ/Hiseq2000、ABI/SOLiD、Roche/454が挙げられる。シークエンシングの種類としては、single-end(片端)を読むこと、及び、Pair-end(両端)を読むことに分けれる。シーケンシングデータは長さが50bp〜1500bpでもよい。本発明に係る実施例においては、シークエンシング技術がイルミナ/Hiseq2000であり、シークエンシングの種類が、Pair-endを読むことであり、双方向の位置の関係を有する、長さが100bpのDNA配列を得る。シークエンシングの深さは、検品となる染色体に変異が生じる断片の長さにより決定しておいてもよい。シークエンシングの深さが高いほど、感度が高くなり、即ち、検出された欠失、重複がある断片は短くなる。本発明に係る実施例においては、ヒト由来の検品の読み出しが2〜900×10にある。
ステップ206では、読み出しを、ゲノムの参照配列と対比させて、読み出しのゲノムへのサイト情報を取得する。
ステップ206では、ゲノムの参照配列に唯一に完全適合する読み出しを、タグ配列としてを選定する。
Figure 0005972448
ステップ210では、窓口の補正係数を求めるように、ゲノムにおける各窓口に対して、平均のGC含有量を算出し、この補正係数により、各窓口の補正されたタグ配列の数を計算する。このステップは、主に各窓口のGC含有量に従って、各窓口に対して、タグ配列の数を補正するのであり、バッチ補正又はGC補正とも言われることがある。
Figure 0005972448
Figure 0005972448
ステップ212では、各窓口の補正されたタグ配列数を、該窓口の予期された個数で、割ると、コピー率である各窓口に補正したタグ配列数になる。なお、窓口の予期された個数は、正常なサンプルからなる対照群(control set)により得られた。このステップは、正常なサンプルからのデータにより、各窓口のタグ配列数を補正するのであり、窓口補正とも言うことがある。
Figure 0005972448
対照群の選定において、ライブラリーの構築方法、配列決定用試薬、及びシークエンシングの種類は、検出対象サンプルの場合と一致させる。これにより、対照試料の検出対象サンプルに対する補正効果を向上させることができる。なお、対照群の中のサンプルが正常なサンプルであり、サンプル数が30を超える。
ステップ214では、全ゲノムにおいては、各窓口の両側にコピー数変異があるのを示す有意差であるp値により、所定の数の窓口を候補CNV破過点として選定し、各候補CNV破過点の有意差をp値として算出する。
1)候補CNV破過点の選定:全ゲノムの全ての窓口において、各窓口の両側にあるいくつかの窓口(検出モデルが有意差にするように、一般的にサンプル数が30を超えるか、検出モデルにおける最低サンプル数の制限を満たす)に対して、コピー数変異の差を計算し、各窓口の両側にコピー数変異があるのを示す有意差により(小さい値から大きな値へのp値)、いくつか(例えば窓口総数の1%)の(窓口に対応する)点を候補CNV破過点(Breakpoint、即ちCNV断片の各分界点)として選定する。
Figure 0005972448
ステップ216では、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点のp値が全体で終了p値(即ち、終了閾値)に満たないまでに繰り返す。なお、終了p値は、対照試料群を分析することにより求められる。
反復と合併:有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、すべてのp値が終了p値よりも小さいまでに繰り返して反復する。
終了p値の算出:例えば、対照試料に前述工程を繰り返して反復し、反復及び合併された最大のp値を記録し、一つの断片に合併させるまでに繰り返して反復することができる。ここで、最大のp値の変化傾向により、最も劇的な変化を示す最大のp値(即ち、p値の変化曲線で、曲線の傾きの最も顕著な変化を示す点(最大の曲率を有する点)である。)又は前の合併における最大のp値を終了閾値とする。実施例において、繰り返して反復しなる断片数が所定の断片数になる場合を、反復と合併の終了として設定。例えば、全ゲノムの解析において、対照試料に前述工程を繰り返して反復しなる断片数が24になるまでに解析する。この時の終了p値の平均を計算することにより、終了p値を効果的に求めることができる。
上述したステップ214及びステップ216は断片化とも呼ばれてもよい。ステップ214における1)と2)で、窓口及び破過点を選定する場合には、単染色体又は全ゲノムに環化反応を行ってもよい。単染色体の環化反応は以下の通りである:染色体に対して、出発点の近傍にある窓口を計算する場合には、左側にある効果的な窓口数は、統計的検定には不十分であると、当該染色体の終点から逆方向で、計算する。同様に、右側にある効果的な窓口数は、統計的検定には不十分であると、当該染色体の出発点から計算する。この工程は、染色体の出発点及び終点に位置している窓口を算出することを可能にする。全ゲノムの環化反応は以下の通りである:各染色体の前端に位置している効果的な窓口数は、統計的検定には不十分であると、前の染色体の末端に索引を付けるに対して、各染色体の末端に位置している効果的な窓口数は、統計的検定には不十分であると、次の染色体の前端に索引を付け、第1染色体とY染色体が接続される。
Figure 0005972448
閾値の選定:中心極限定理に従って、各対照試料の窓口のコピー率の分布を算出する。この中心極限定理で、窓口に読み込むことがランダムであるので、コピー率が正規分布に適合するが、有意水準が0.05になる分位点を選択する。それぞれ、対照群にその平均を、コピー率の変異をスクリーニングするための閾値の最低限及び最高限として計算する。
前述実施例において、バッチ補正と窓口補正により、試験結果の精度を向上させることができる。対照群を導入することにより、精度を、対照群を大きくすることにより向上させ、最初のDNA量に対する要求を減らすことができる。
図3は、本発明に係るコピー数変異を検出する方法によるさらに別の実施例のフローチャートである。図3では、正常なサンプルからなる対照群を処理するプロセス(3A)と、検品を処理するプロセス(3B)と、を含む。対照群は、主に、検品補正用のデータ、及び、検品の処理における反復と合併を終了させる要件とする終了閾値を取得するために使用される。
図3のように、プロセス3Aは、
対照試料からDNA分子を抽出するステップ310A、
対照試料から抽出されたDNA分子をランダムに断片化してから、配列決定し、対照試料のDNA断片の配列決定配列データ(即ち、読み出し)を取得するステップ311A、
対照試料の読み出しを参照ゲノムと対比させるステップ312A、
参照配列に唯一に完全適合する読み出しの数(即ち、タグ配列数)を計算するステップ313A、
対照試料をバッチ補正するステップ314A、
検品を窓口補正するように、対照試料により、予期の窓口数を求めるステップ315A、
候補CNV破過点を選定し、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点とのp値を再計算し、残りの断片数が所定の数(例えば、24)になるまでに繰り返する(即ち、候補CNV破過点の選定及び断片化)ステップ316A、及び、
この場合、終了p値の平均を計算することにより、検品の処理における反復と合併を終了させる要件とする終了閾値として、終了p値を効果的に算出することができるステップ317A
を含む。
プロセス3Bは、
検品からDNA分子を抽出するステップ310B、
検品から抽出されたDNA分子をランダムに断片化してから、配列決定し、対照試料のDNA断片の読み出しを取得するステップ311B、
検品のDNA断片の読み出しを参照ゲノムと対比させるステップ312B、
参照配列に唯一に完全適合する読み出しの数(即ち、タグ配列数)を計算するステップ313B、
検品をバッチ補正するステップ314B、
検品を窓口補正するように、対照試料により、予期の窓口数を求めるステップ315B、
候補CNV破過点の選定及び断片化をするステップ316B、及び、
得られた結果を濾過するステップ317B
を含む。
対照群の選定において、ライブラリーの構築方法、配列決定用試薬、及びシークエンシングの種類は、検出対象サンプルの場合と一致させる。これにより、対照試料の検出対象サンプルに対する補正効果を向上させることができる。なお、対照群の中のサンプルが正常なサンプルであり、サンプル数が30を超える。
図4は、本発明の一実施形態により染色体をCNV解析するのを概略的に示すフローチャートである。
図4のように、ステップ401は、DNAの抽出及び配列決定である:Tiangen DP327-02の取扱説明書によりゲノムDNAを抽出したあと、イルミナ/Hiseq2000標準に基づいて、ライブラリーを構築する。このステップで、500bpに集中したDNA分子の両端に対して、配列決定用アダプターをつけ、サンプルに対して、異なるインデックス(index)をつける。これにより、1回の配列決定の結果から、異なる検品を区別できる。
ステップ402は、配列の対比である:イルミナ/Hiseq2000の配列決定用方法(ほかの配列決定用方法、例えばABI/SOLiDにより、同一または類似の効果を達成できる)により、各サンプルから得られた、特定の長さを有するDNA断片を、読み出し、それをNCBIデータベースからの標準ヒトゲノムの参照配列とSOAP2対比させ、シーケンシング配列の参照ゲノムにおける位置を知る。重複の配列が解析の妨害になるのを避けるために、続く解析を行うための有効データとして、標準ヒトゲノムの参照配列から選ばれる唯一適合のシーケンシング配列(つまり、唯一の参照配列に完全適合する読み出しの数、即ち、タグ配列数)のみを選択する。
ステップ403は、PSCC分析である:本開示の発明者によって開発された、全ゲノムにコピー数変異を検出する一連の生命情報学方法(以下、PSCC)に従って、検品をバッチ補正し、対照群(control set)により、検品に対して、窓口補正(correction)、標準化(Normalization)、及び断片化(segmentation)を行う。
Figure 0005972448
Figure 0005972448
図5は、本発明に係るコピー数変異を検出するシステムによる一実施例のフローチャートである。図5のように、当該システムは、検品中の核酸分子の少なくとも一部に配列情報を読み出す読み出しユニット51と、ゲノム参照配列に唯一に完全適合する参照配列をタグ配列として判断するタグ配列決定ユニット52と、窓口にゲノムの参照配列を分割して、各窓口に入るタグ配列の数を計算するタグ配列数算出ユニット53と、各窓口におけるタグ配列の数を、GC含有量について補正し、対照試料群で補正された予期のタグ配列数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット54と、窓口の出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい(即ち、大幅に大きな差がある)分界点を候補CNV破過点として選定する候補破過点選定ユニット55と、各CNV破過点と前のCNV破過点との間にある配列、及び、各CNV破過点と次のCNV破過点との間にある配列に対して、二つの配列に含まれる窓口における補正されたタグ配列の数からなる数値群の有意性を両側ともに計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点に位置している前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、候補CNV破過点の有意性が全体で終了閾値に満たないまでに繰り返し、CNV破過点を判断する破過点決定ユニット56と、を含む。この終了閾値は、正常なサンプルからなる対照試料群により得てもよい。タグ配列数算出ユニット53により窓口にゲノムの参照配列を分割する場合には、参照となるタグ配列の数(reference unique reads)を同じくしてもよく、各窓口を同じ長さにしてもよい。実施例において、候補破過点選定ユニット55で候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行う。
前述実施例において、タグ配列決定ユニットでは、読み出しにより、ゲノム参照配列に唯一に完全適合するタグ配列を判断する。配列数補正ユニットでは、各窓口におけるタグ配列の数を補正する。候補破過点選定ユニットと破過点決定ユニットでは、有意性を繰り返して計算し、CNV破過点を判断する。それにより、CNV検出を実現でき、微小欠失/微小重複を含める小さなコピー数変異を、正確に検出できる。
図6は、本発明に係るコピー数変異を検出するシステムによる別の実施例のフローチャートである。図6のように、当該システムは、読み出しユニット51、タグ配列決定ユニット52、タグ配列数算出ユニット53、タグ配列数補正ユニット64、候補破過点選定ユニット55、及び破過点決定ユニット56、を含む。読み出しユニット51、タグ配列決定ユニット52、タグ配列数算出ユニット53、候補破過点選定ユニット55、及び破過点決定ユニット56の詳細は、図5の具体的な説明を参照する。簡潔にするために詳しい説明を省略する。タグ配列数補正ユニット64は、GC含有量により、いくつの群に窓口を分け、各群にあるタグ配列数の平均及び全ての窓口における配列数の平均に基づいて、補正係数を算出し、窓口におけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるGC補正ユニット641と、対照群の各窓口におけるタグの総数に対するGC含有量について補正されたタグ配列数の数値を算出し、この数値に基づいて、各対照試料に応じる各窓口の当該数値の平均を求め、上述平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各窓口におけるタグ配列の数の予期値を算出し、GC補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数(コピー率とも呼ばれる)を求める窓口補正ユニット642と、を含む。
本発明の一実施例によれば、当該システムは、さらに、破過点決定ユニットでCNV破過点を判断した後に、タグ配列数の分布により、対照群を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点にある断片は、確かに異常があると判断する破過点濾過ユニット67、を含む。一実施例において、タグ配列の数が正規分布になり、前述信頼区間が95%信頼区間である。
一実施例において、前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、及びヒト末梢血から選ばれるいずれかの1種である。前述検品のゲノムDNAは、塩析法、カラムクロマトグラフィー、磁気ビーズ法、及びSDS法などのDNA抽出法により得られる。前述検品のゲノムDNAを、酵素消化、超音波、細粉化及びHydroShear法によりランダムに断片化する。検品のゲノムDNA断片の片端又は両端をシークエンシングして、DNA断片の配列情報を読み出す。異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを付ける。
図5および図6に示すような各ユニットの機能について、上述した本発明の実施例に対応する説明の一部を参照する。簡潔にするために詳しい説明を省略する。
これらの場合には、各特定な機能の応用をできるだけ、達成するように、ハードウェア、ファームウェア、及びソフトウェアの構成は互換性があることは、当業者にとって自明なことである。
以下、実施例により本発明を詳しく説明する。なお、これらの実施例は単に説明のためのもので、本発明を限定するものではないのが理解されるべきであることは、当業者にとって自明なことである。実施例において特定の条件を明記されていない場合には、先行方法や、製造会社からの方法に従って、各ステップを実行できる。試薬や機器の製造業者は、明記されていない場合、市販されることにより入手できる。以下の括弧内の記述は、それぞれ各種試薬とキットとの製造業者のカタログ番号を示す。配列決定用アダプターや、インデックスindexは、イルミナ社の製造したMultiplexing Sample Preparation Oligonutide Kitからのものである。
実施例1:染色体数の変異を持つ2サンプルと微小欠失をを持つ6サンプルとの検出
1、DNAの抽出:Tiangen社の製造したTIANamp Micro DNAKit(DP316)からの操作マニュアルに従い、8サンプル(以下、Sample1、Sample2、Sample3…Sample8と呼ばれる)からDNAを抽出し、得られたDNAを利用して、訂正されたイルミナ/Hiseq2000からの明細書に従って、ライブラリーを構築し、500bpに集中したDNA分子の両端に配列決定用アダプターをつけ、サンプルに対して、異なるインデックス(index)をつけ、次に、フローセル(flow cell)の界面にある相補のアダプターをハイブリッドし、核酸分子を特定の条件下でクラスタにし、そして、両端を読んでシークエンシングし、100bpの長さを有するDNA断片の配列を得た。
具体的に、羊水から得られたDNA100ng(Quant-IT dsDNA HS Assay kit)を利用して、訂正されたイルミナ/Hiseq2000からの明細書に従って、ライブラリーを構築した。なお、詳細は、先行技術(http://www.イルミナ.com/から入手できるイルミナ/Solexaのライブラリー構築用明細書)を参照する。2100Bioanalyzer (Agilent)により、DNAライブラリー及び挿入断片のサイズが500bpであると決定し、Q-PCR法で定量して、配列決定した。
2、配列決定:本実施例では、イルミナ/SolexaからのClusterStation、Hiseq2000(PEsequencing)明細書に従って、各サンプルがデータの数を約5G得るように、8サンプル由来のDNAを配列決定した。なお、各検品は、結合したindexによって区別されるのである。対比用ソフトウェアSOAP2を利用して、配列決定されたDNA配列を、NCBIデータベース(hg18(NCBI Build 36))からの標準ヒトゲノムの参照配列と対比させ、シーケンシング配列の参照ゲノムにおける位置を知る。
Figure 0005972448
Figure 0005972448
Figure 0005972448
Figure 0005972448
Figure 0005972448
Figure 0005972448
Figure 0005972448
Figure 0005972448
f)結果の視覚化
4、結果の統計
8サンプルを検出及び検証した結果は、表1に示す。
なお、検証した結果は、CGHチップ(比較ゲノムハイブリダイゼーション)によって得られた。製造業者からのマニュアルを参照して、Human Genome CGH Microarray Kit(Agilent Technologies Inc.)を実験に用いた。
Figure 0005972448
なお、chrが染色体を、T7が7番染色体のトリソミーを、トリソミーである性染色体変異を、表す。
図7A-Hは、8つのサンプルを検出した結果を示す模式図である。
表1及び図7A-7Hよりみれば、本発明は、0.4Mの微小欠失を有する断片とも、全体染色体数の変異ともを正確に検出し、所在位置を確認することができる。それにより、それらの検出効率と精度は、両方に優れる。
これまでに報告されるコピー数変異の検出方法と比較して、本開示は、主に次の利点を含む;
(1)精度:50Mのデータにより、0.45の微小欠失を有する断片を、正確に検出できる。
(2)拡張可能性:最初のDNA量に対する要求を減らすために、配列決定されたデータの数を多くするほか、対照群を大きくすることにより、精度を向上させることができる。
(3)安定、広範囲:これまでに報告される方法においては、操作自体を詳細に説明しないが、本発明は、データによるバッチ補正、グループ補正、及び、断片化用条件の選定などに関する。
本発明は、対象患者にコピー数変異を検出することにより、臨床決定のための遺伝カウンセリングおよび根拠を提供するのに有益であり、微小欠失症候群に罹患している患者に対して、病理判定を正確に行うことができる。本発明は、全ての微小欠失症候群に罹患している患者や、微小欠失症候群に罹患しているおそれがある患者に適用する。対象患者は単に説明のためのもので、本発明を限定するものではないのが理解されるべきである。
本明細書において、本発明の具体的な実施態様を例示および説明したが、上記の開示は、本開示を限定するものであると解釈することはできない。前記開示により、種々の変形および改変をすることができ、これらの変形および改変は、すべて、添付の請求の範囲に含まれていることは、当業者によって認識される。本発明の範囲は、添付の請求の範囲およびその均等構成を基準にする。





Claims (15)

  1. 検品中の核酸分子の少なくとも一部配列情報を読み取るステップ、
    該配列情報により、ゲノムの参照配列に唯一に完全適合するタグ配列を判断するステッ
    プ、
    ウィンドウにゲノムの参照配列を分割して、各ウィンドウに入るタグ配列の数を計算するステップ、
    ウィンドウにおけるタグ配列の数を、GC含有量について補正し、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるステップ、
    ウィンドウの出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補CNV破過点として選定するステップ、及び、
    各CNV破過点とその前のCNV破過点との間にある配列、及び、各CNV破過点とそ
    の次のCNV破過点との間にある配列に対して、該二つの配列に含まれるウィンドウにおける補正されたタグ配列の数からなる数値群の有意性をそれぞれ計算した後、有意差の最も小さい候補CNV破過点を削除して、削除された候補CNV破過点の前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、すべての候補CNV破過点の有意性が終了閾値に満たないまでに繰り返すことにより、CNV破過点を判断するステップ
    を含み、
    CNV破過点を判断した後に、さらに、CNV破過点の間にある断片に対して、信頼水
    準を求めるステップをさらに含み、
    前述の信頼水準を求めるステップは、補正されたタグ配列数の分布により、対照群を利
    用して、補正されたタグ配列数の正常な信頼区間を求めるステップ、及び、断片にある補
    正されたタグ配列数の平均が信頼区間から逸脱する場合に、当該CNV破過点の間にある
    断片は異常があると判断するステップ、を含み、
    前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水
    、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、
    及びヒト末梢血から選ばれるいずれかの1種である
    ことを特徴とするコピー数変異を検出する方法。
  2. 検品中の核酸分子の少なくとも一部を配列決定することにより配列情報を読み取るステップをさらに含むことを特徴とする請求項1に記載の方法。
  3. ウィンドウは、参照となるタグ配列の数が同じであり、又は同じ長さを有することを特徴とする請求項1に記載の方法。
  4. 終了閾値は、正常なサンプルからなる対照試料群により得られることを特徴とする請求
    項1又は2に記載の方法。
  5. 前述の各ウィンドウにおけるタグ配列の数をGC含有量について補正するのは、
    GC含有量に基づいて群にウィンドウを分け、各群のタグ配列数の平均及び全てのウィンドウにおけるタグ配列数の平均に応じて補正係数を算出し、ウィンドウにおけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるステップを含み、
    及び/又は
    対照試料群の補正された予期のタグ配列数は、対照群の各ウィンドウ毎にGC含有量について補正されたタグ配列数とタグの総数の比を算出し、該比に基づいて、各対照試料の対応のウィンドウの当該比の平均を求め、該平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各ウィンドウにおけるタグ配列の数の予期値を算出することにより求められる
    ことを特徴とする請求項1に記載の方法。
  6. 候補CNV破過点を選択する場合には、単染色体又は全ゲノムに環化反応を行うことを
    特徴とする請求項5に記載の方法。
  7. 補正されたタグ配列の数が正規分布になり、前述信頼区間が95%信頼区間であること
    を特徴とする請求項1に記載の方法。
  8. 異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを追加するステップをさらに含むことを特徴とする請求項1に記載の方法。
  9. 検品中の核酸分子の少なくとも一部配列情報を読み取る読み取りユニット、
    該配列情報により、ゲノムの参照配列に唯一に完全適合するタグ配列を判断するタグ配列決定ユニット、
    ウィンドウにゲノムの参照配列を分割して、各ウィンドウに入るタグ配列の数を計算するタグ配列数算出ユニット、
    ウィンドウにおけるタグ配列の数を、GC含有量について補正し、対照試料群の補正された予期のタグ配列数に基づいて補正し、補正されたタグ配列の数を求めるタグ配列数補正ユニット、
    ウィンドウの出発点又は終点を分界点として、補正されたタグ配列の数からなる数値群の有意性を両側ともに計算し、有意差の小さい分界点を候補CNV破過点として選定する候補破過点選定ユニット、及び、
    各CNV破過点とその前のCNV破過点との間にある配列、及び、各CNV破過点とそ
    の次のCNV破過点との間にある配列に対して、該二つの配列に含まれるウィンドウにおける補正されたタグ配列の数からなる数値群の有意性をそれぞれ計算した後、有意差の最も小さい候補CNV破過点を削除し、削除された候補CNV破過点の前の候補CNV破過点と次の候補CNV破過点との有意性を再計算し、すべての候補CNV破過点の有意性が終了閾値に満たないまでに繰り返すことにより、CNV破過点を判断する破過点決定ユニットを含み、
    破過点決定ユニットでCNV破過点を判断した後に、タグ配列数の分布により、対照群
    を利用して、補正されたタグ配列数の正常な信頼区間を求め、断片にあるタグ配列数の平
    均が信頼区間から逸脱する場合に、当該CNV破過点の間にある断片は異常があると判断
    する破過点濾過ユニットをさらに含み、
    前述検品としては、ヒト由来のサンプルであり、羊膜腔内に穿刺して吸引採取した羊水
    、絨毛採取した絨毛、経皮的臍帯血採取した臍帯血、自発的に流産した胎児からの組織、
    及びヒト末梢血から選ばれるいずれかの1種である
    ことを特徴とするコピー数変異を検出するシステム。
  10. ウィンドウは、参照となるタグ配列の数が同じであり、又は同じ長さを有することを特徴とする請求項9に記載のシステム。
  11. 終了閾値は、正常なサンプルからなる対照試料群により得られることを特徴とする請求
    項9に記載のシステム。
  12. 前記タグ配列数補正ユニットは、
    GC含有量に基づいて群にウィンドウを分け、各群のタグ配列数の平均及び全てのウィンドウにおけるタグ配列数の平均に応じて補正係数を算出し、ウィンドウにおけるタグ配列の数を補正して、GC含有量について補正されたタグ配列の数を求めるGC補正ユニットと、
    対照群の各ウィンドウ毎にGC含有量について補正されたタグ配列数とタグの総数の比を算出し、該比に基づいて、各対照試料の対応のウィンドウの当該比の平均を求め、該平均及び試験サンプルのタグ配列の総数に基づいて、試験サンプルの各ウィンドウにおけるタグ配列の数の予期値を算出することにより対照試料群の補正された予期のタグ配列数を求め、GC補正されたタグ配列の数を、対照試料群の補正された予期のタグ配列数により補正し、補正されたタグ配列の数を求めるウィンドウ補正ユニットと
    を含むことを特徴とする請求項9に記載のシステム。
  13. 前述タグ配列の数が正規分布になり、前述信頼区間が95%信頼区間であることを特徴
    とする請求項9に記載のシステム。
  14. 異なる検品を区別するように、それぞれ、各試料のDNA断片に、異なるインデックスを追加することを特徴とする請求項9に記載のシステム。
  15. 候補破過点選定ユニットで候補CNV破過点を選択する場合には、単染色体又は全ゲノ
    ムに環化反応を行うことを特徴とする請求項9に記載のシステム。
JP2015503724A 2012-04-05 2012-04-05 コピー数変異を検出する方法及びシステム Active JP5972448B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/073545 WO2013149385A1 (zh) 2012-04-05 2012-04-05 一种拷贝数变异检测方法和系统

Publications (2)

Publication Number Publication Date
JP2015512264A JP2015512264A (ja) 2015-04-27
JP5972448B2 true JP5972448B2 (ja) 2016-08-17

Family

ID=49299922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015503724A Active JP5972448B2 (ja) 2012-04-05 2012-04-05 コピー数変異を検出する方法及びシステム

Country Status (10)

Country Link
US (2) US20150056619A1 (ja)
EP (1) EP2835752B8 (ja)
JP (1) JP5972448B2 (ja)
KR (1) KR101795124B1 (ja)
CN (1) CN104221022B (ja)
AU (1) AU2012376134B2 (ja)
IL (1) IL234875B (ja)
RU (1) RU2014144349A (ja)
SG (1) SG11201406250SA (ja)
WO (1) WO2013149385A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224543A (zh) * 2014-05-30 2016-01-06 国际商业机器公司 用于处理时间序列的方法和装置
CN113362891A (zh) * 2014-09-12 2021-09-07 伊鲁米纳剑桥有限公司 用短读测序数据检测重复扩增
CN106795551B (zh) * 2014-09-26 2020-11-20 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
US11242559B2 (en) * 2015-01-13 2022-02-08 The Chinese University Of Hong Kong Method of nuclear DNA and mitochondrial DNA analysis
CN104560697A (zh) * 2015-01-26 2015-04-29 上海美吉生物医药科技有限公司 一种基因组拷贝数不稳定性的检测装置
CN104694384B (zh) * 2015-03-20 2017-02-08 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN104745718B (zh) * 2015-04-23 2018-02-16 北京中仪康卫医疗器械有限公司 一种检测人类胚胎染色体微缺失和微重复的方法
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN105243299B (zh) * 2015-09-30 2018-03-06 深圳华大基因科技服务有限公司 一种检测cnv的精确断点及断点周围特征的方法及装置
KR101848438B1 (ko) 2015-10-29 2018-04-13 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
CA3005791A1 (en) * 2015-11-18 2017-05-26 Sophia Genetics S.A. Methods for detecting copy-number variations in next-generation sequencing
CN105760712B (zh) * 2016-03-01 2019-03-26 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
IL264203B1 (en) 2016-07-20 2024-04-01 Biontech Rna Pharmaceuticals Gmbh Selection of neoepitopes as disease-specific targets for therapy with increased efficacy
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
TWI607332B (zh) * 2016-12-21 2017-12-01 國立臺灣師範大學 Correlation between persistent organic pollutants and microRNAs station
WO2018161245A1 (zh) * 2017-03-07 2018-09-13 深圳华大基因研究院 一种染色体变异的检测方法及装置
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
MX2020006251A (es) * 2017-12-14 2020-12-09 Ancestry Com Dna Llc Deteccion de deleciones y variaciones en el numero de copias en secuencias de adn.
CN109979529B (zh) * 2017-12-28 2021-01-08 北京安诺优达医学检验实验室有限公司 Cnv检测装置
CN109979535B (zh) * 2017-12-28 2021-03-02 浙江安诺优达生物科技有限公司 一种胚胎植入前遗传学筛查装置
CN108256289B (zh) * 2018-01-17 2020-10-16 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
KR102036609B1 (ko) * 2018-02-12 2019-10-28 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
CN108427864B (zh) * 2018-02-14 2019-01-29 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN108415886B (zh) * 2018-03-07 2019-04-05 清华大学 一种基于生产工序的数据标签纠错方法及装置
CN108664766B (zh) * 2018-05-18 2020-01-31 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
WO2021114139A1 (zh) * 2019-12-11 2021-06-17 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN111261225B (zh) * 2020-02-06 2022-08-16 西安交通大学 一种基于二代测序数据的反转相关复杂变异检测方法
CN113496761B (zh) * 2020-04-03 2023-09-19 深圳华大生命科学研究院 确定核酸样本中cnv的方法、装置及应用
DE102020116178A1 (de) * 2020-06-18 2021-12-23 Analytik Jena Gmbh Verfahren zum Erkennen einer Amplifikationsphase in einer Amplifikation
CN111968701B (zh) * 2020-08-27 2022-10-04 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN114220481B (zh) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN114999573B (zh) * 2022-04-14 2023-07-07 哈尔滨因极科技有限公司 一种基因组变异检测方法及检测系统
CN114758720B (zh) * 2022-06-14 2022-09-02 北京贝瑞和康生物技术有限公司 用于检测拷贝数变异的方法、设备和介质
CN114864000B (zh) * 2022-07-05 2022-09-09 北京大学第三医院(北京大学第三临床医学院) 一种动态鉴定人类单细胞染色体拷贝数的方法
CN115132271B (zh) * 2022-09-01 2023-07-04 北京中仪康卫医疗器械有限公司 一种基于批次内校正的cnv检测方法
CN116386718B (zh) * 2023-05-30 2023-08-01 北京华宇亿康生物工程技术有限公司 检测拷贝数变异的方法、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003291481A1 (en) * 2002-11-11 2004-06-03 Affymetrix, Inc. Methods for identifying dna copy number changes
US7702468B2 (en) * 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
US7979215B2 (en) * 2007-07-30 2011-07-12 Agilent Technologies, Inc. Methods and systems for evaluating CGH candidate probe nucleic acid sequences
US20120178635A1 (en) * 2009-08-06 2012-07-12 University Of Virginia Patent Foundation Compositions and methods for identifying and detecting sites of translocation and dna fusion junctions
WO2011030838A1 (ja) * 2009-09-10 2011-03-17 富士フイルム株式会社 アレイ比較ゲノムハイブリダイゼーション法による核酸変異解析法

Also Published As

Publication number Publication date
KR20140140122A (ko) 2014-12-08
EP2835752B8 (en) 2018-12-26
US11371074B2 (en) 2022-06-28
EP2835752A1 (en) 2015-02-11
AU2012376134B2 (en) 2016-03-03
SG11201406250SA (en) 2014-11-27
WO2013149385A1 (zh) 2013-10-10
JP2015512264A (ja) 2015-04-27
RU2014144349A (ru) 2016-05-27
AU2012376134A1 (en) 2014-11-06
EP2835752B1 (en) 2018-09-19
IL234875B (en) 2019-03-31
EP2835752A4 (en) 2015-11-18
US20150056619A1 (en) 2015-02-26
CN104221022A (zh) 2014-12-17
CN104221022B (zh) 2017-11-21
US20180148765A1 (en) 2018-05-31
KR101795124B1 (ko) 2017-12-01

Similar Documents

Publication Publication Date Title
JP5972448B2 (ja) コピー数変異を検出する方法及びシステム
AU2019204917B2 (en) Size-based analysis of fetal dna fraction in maternal plasma
US20180371539A1 (en) Method of detecting a pre-determined event in a nucleic acid sample and system thereof
CN107077537B (zh) 用短读测序数据检测重复扩增
KR102112438B1 (ko) 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
CN106715711B (zh) 确定探针序列的方法和基因组结构变异的检测方法
KR20180020137A (ko) 고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제
JP2017176181A (ja) 胎児の染色体異数性の診断
CN105555970B (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
KR20210138556A (ko) 짧은 탠덤 반복 영역에서의 변이를 결정하기 위한 서열-그래프 기반 툴
CN115989544A (zh) 用于在基因组的重复区域中可视化短读段的方法和系统
CN110993024B (zh) 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160712

R150 Certificate of patent or registration of utility model

Ref document number: 5972448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250