JP6045686B2 - 胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体 - Google Patents

胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体 Download PDF

Info

Publication number
JP6045686B2
JP6045686B2 JP2015511887A JP2015511887A JP6045686B2 JP 6045686 B2 JP6045686 B2 JP 6045686B2 JP 2015511887 A JP2015511887 A JP 2015511887A JP 2015511887 A JP2015511887 A JP 2015511887A JP 6045686 B2 JP6045686 B2 JP 6045686B2
Authority
JP
Japan
Prior art keywords
fetal
sequencing
predetermined region
sequence
recording medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015511887A
Other languages
English (en)
Other versions
JP2015525062A (ja
Inventor
盛培 ▲陳▼
盛培 ▲陳▼
会娟 葛
会娟 葛
旭超 李
旭超 李
▲賞▼ 易
▲賞▼ 易
建 汪
建 汪
俊 王
俊 王
煥明 ▲楊▼
煥明 ▲楊▼
秀清 ▲張▼
秀清 ▲張▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Genomics Co Ltd
Original Assignee
BGI Diagnosis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Diagnosis Co Ltd filed Critical BGI Diagnosis Co Ltd
Publication of JP2015525062A publication Critical patent/JP2015525062A/ja
Application granted granted Critical
Publication of JP6045686B2 publication Critical patent/JP6045686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

本発明は胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体に関する。
遺伝性疾患は遺伝物質の変化により引き起こす疾患であり、先天性、家族性、終身性と遺伝性の特徴を有する。遺伝性疾患は大きく三つの種類、即ち、単一遺伝病、多因子遺伝病、染色体異常に分けることができる。そのうち、単一遺伝病の大部分は単一病原遺伝子の優勢又は劣性遺伝により引き起こす遺伝子機能の異常である。一方、多因子遺伝病は複数の遺伝子変化の影響により引き起こす疾患で、外部環境要素の影響をある程度受けている。染色体異常は数的異常と構造異常を含むが、最もよく見られるのは21トリソミーにより引き起こすダウン症で、小児患者は先天痴呆と肢体形状異常等の他の先天性特徴として現れている。目下、遺伝性疾患に対しまだ有効な治療法がないため、適確にサポート治療又は薬物緩和を行うだけであるが、費用が高く、社会と家庭に大きな経済的、精神的負担をもたらしている。このため、子供が生まれる前に、子供の病気状態に対し検査を行い、予防作業をしっかり行うことで“優生優育”の目的を実現することは非常に必要である。
しかし、現在の関連検査手段は依然として改善の余地がある。
本発明の目的は、従来技術に存在する技術課題を解決することにある。
本発明の一つの実施例において、胎児ゲノムにおける所定領域の塩基情報を確定する方法を提出している。本発明の実施例に基づき、当該方法は下記のステップ、即ち、胎児ゲノムDNAサンプルに対し、シーケンスライブラリを構築するステップと、前記シーケンスライブラリに対しシーケンシングを行うことで、胎児のシーケンシング結果を得るようにし、前記胎児のシーケンシング結果は複数のシーケンシングデータからなるステップと、前記胎児のシーケンシング結果に基づき、遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに従って、前記所定領域の塩基情報を確定するステップと、を含む。子世代のゲノム形成過程は、親ゲノムの一回のランダム組み換え(即ち、連鎖交換ハプロタイプ及び配偶子のランダムな組み合わせ)に相当する。母体血漿に対し、もし、我々が胎児のハプロタイプ(両親ハプロタイプの組み替え型)を隠れ状態(hidden states)とすれば、血漿のシーケンシングデータを観測配列(observations)と見なし、プライヤデータに頼って状態遷移確率(transition probabilities)、観測配列の確率分布(observation symbol probabilities)と初期状態確率分布(initial state distribution)を推計することができ、我々は例えば、ビタビアルゴリズム(Viterbi algorithm)により、隠れマルコフモデルに基づき、最も可能性のある胎児のハプロタイプ組み合わせを推計することで、胎児のより多い情報を獲得する。そのため、本発明の実施例に基づき、隠れマルコフモデルに頼り、例えば、ビタビアルゴリズム(Viterbi algorithm)を利用することにより、胎児の遺伝相関個体の遺伝情報を参考して胎児ゲノムにおける特定領域の核酸配列を確定することができることから、胎児ゲノムの遺伝情報に対する出産前診断を有効に行うことができる。
本発明のもう一つの側面において、本発明は胎児ゲノムにおける所定領域の塩基情報を確定するシステムを提出している。本発明の実施例に基づき、当該システムはライブラリ構築装置、シーケンシング装置、分析装置を備え、そのうち、前記ライブラリ構築装置は胎児ゲノムDNAサンプルに対し、シーケンスライブラリの構築に適し、前記シーケンシング装置は前記ライブラリ構築装置に連結され、且つ前記シーケンスライブラリに対しシーケンシングを行うことにより、胎児のシーケンシング結果を獲得するのに適し、前記胎児のシーケンシング結果は複数のシーケンシングデータからなり、前記分析装置は胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに従って、所定領域の塩基情報を確定する。当該システムを利用すれば、前記胎児ゲノムにおける所定領域の塩基情報を確定する方法を有効に実施することができ、隠れマルコフモデルに頼り、例えば、ビタビアルゴリズム(Viterbi algorithm)を利用することにより、胎児の遺伝相関個体の遺伝情報を参考して胎児ゲノムにおける特定領域の核酸配列を確定することができることから、胎児ゲノムの遺伝情報に対する出産前診断を有効に行うことができ、出産前に胎児ゲノムの遺伝情報を有効に確定することができる。
本発明のもう一つの側面において、本発明はコンピューター読み取り可能な記録媒体を提出している。本発明の実施例に基づき、当該コンピューター読み取り可能な記録媒体には指令が格納され、前記指令はプロセッサーに実行されることにより、胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに従って、所定領域の塩基情報を確定するのに適する。本発明に係わるコンピューター読み取り可能な記録媒体を利用すれば、格納された指令はプロセッサーにより有効に実行されることができ、隠れマルコフモデルに頼り、例えば、ビタビアルゴリズム(Viterbi algorithm)を利用することにより、胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報を参考して胎児ゲノムにおける特定領域の核酸配列を確定することができることから、胎児ゲノムの遺伝情報に対する出産前診断を有効に行うことができる。
本発明の付加方面と利点の一部は以下で説明し、もう一部は下記の説明から明らかになるか、又は本発明の実践により把握することができる。
本発明の前記と/又は付加方面と利点は、図面を参照しながら実施例について説明する過程でより明らかになり、容易に理解することができる。図中:
は本発明の一つの実施例に基づき、隠れマルコフモデルを利用して分析を行うフローチャートである。 は本発明の一つの実施例に基づき、胎児ゲノムにおける所定領域の核酸配列を確定するためのシステムの構造概略図である。
以下、図面を参照しながら本発明に係わる実施例について詳しく説明する。そのうち、一貫して同じ又は類似の符号で同じ又は類似のユニット、又は同じ又は類似する機能を有するユニットを表示する。以下、図面を参照して記載した内容は実施例の例示的なもののみで、本発明の解釈に用いるだけで、本発明を制限するものと理解してはいけない。
説明すべきものは、用語“第一”、“第二”は記載の目的で用いるもののみで、相対的な重要性を暗示又は潜在的に技術特徴の数を指すことであると理解してはいけない。そのため、“第一”、“第二”を限定した特徴は一つ又はより多い当該特徴を明示又は潜在的に含むことができる。さらに、本発明の記載において、別の説明がなければ、“複数”の意味は二つ又は二つ以上である。
<胎児ゲノムにおける所定領域の塩基情報を確定する方法>
本発明の第一側面において、本発明は胎児ゲノムにおける所定領域の塩基情報を確定する方法を提出している。本発明の実施例に基づき、当該方法は下記のステップを含む。
先ず、胎児ゲノムDNAサンプルに対し、シーケンスライブラリを構築する。本発明の実施例に基づき、胎児ゲノムDNAサンプルのソースは特別な制限を受けていない。本発明の幾つかの実施例に基づき、如何なる胎児核酸を含有する妊婦サンプルを採用することができる。例えば、本発明の実施例に基づき、採用可能な妊婦サンプルは妊婦の乳液、尿液と末梢血がある。そのうち、好ましくは妊婦の末梢血である。妊婦の末梢血を採用して胎児ゲノムDNAサンプルのソースにすると、非侵襲的な標本採取方式により胎児ゲノムDNAを有効に獲得することができ、これにより、胎児の正常な発育に影響を与えない前提下、胎児のゲノムに対し有効な観測を行うことができる。核酸サンプルに対し、シーケンスライブラリを構築する方法とプロセスに関し、本分野の技術者は異なるシーケンシング技術に基づき適当に選択を行うことができるが、プロセスの詳細に関してはシーケンシング装置のメーカー、例えばイルミナ(Illumina)会社が提供した規定を参照し、例えばイルミナ会社のMultiplexing Sample Preparation Guide( Part#1005361; Feb 2010 )又はPaired-End SamplePrep Guide ( Part#1005063;Feb 2010 )を参照されたい。本発明の実施例に基づき、生物サンプルから核酸サンプルを抽出する方法と設備も特別な制限を受けず、商品化された核酸抽出キットを採用して行えばよい。
シーケンスライブラリを構築した後、シーケンシング装置を応用してシーケンスライブラリに対しシーケンシングを行うことにより、対応するシーケンシング結果が得られるが、当該シーケンシング結果は複数のシーケンシングデータから構成される。本発明の実施例に基づき、シーケンシングを行うのに用いる方法と設備は特別な制限を受けず、ジデオキシチェーンターミネーション法を含むが、それに限らない。好ましくは、ハイスループットのシーケンシング方法で、これらのシーケンシング装置のハイスループット、ディープシーケンシングの特徴を利用することにより、シーケンシング効率をさらに向上させる。これにより、後続のシーケンシングデータに対する分析、特に、統計・検査分析を行う時の精確性と正確度を向上させる。前記ハイスループットのシーケンシング方法は次世代シーケンシング技術又は単一分子シーケンシング技術を含むが、これに限らない。前記次世代シーケンシングプラットホーム (Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46 )はIllumina-Solexa ( GATM,HiSeq2000TM等)、ABI-SolidとRoche-454(ピロリン酸シーケンシング)シーケンシングプラットホームを含むが、これに限らない。単一分子シーケンシングプラットホーム(技術)はHelicos公司のtSMS技術(True Single Molecule DNA sequencing ) 、PacificBiosciences公司の1分子リアルタイムシーケンシング(singlemolecule real-time (SMRTTM) )、及びOxford NanoporeTechnologies公司のナノボアシーケンシング技術等(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245 )を含むが、これに限らない。シーケンシング技術の絶えない進化にしたがって、本分野の技術者として理解できるのは、さらに他のシーケンシング方法と装置を採用して全ゲノムのシーケンシングを行うことができる。本発明の具体的な実施例に基づき、Illumina-Solexa、ABI-SOLiD、 Roche-454と単一分子シーケンシング装置から選択した少なくとも一種類を利用して前記全ゲノムシーケンスライブラリに対しシーケンシングを行うことができる。
随意に、シーケンシング結果を得た後、前記シーケンシング結果を参照配列と比較することにより、前記所定領域に対応するシーケンシングデータを確定する。本文で記載の用語“所定領域”について広義的に理解すべく、予定事件が発生可能な遺伝子座を含む如何なる核酸分子の領域を指す。SNPに対する解析にとって、SNP遺伝子座を含む領域を指すことができる。染色体異数性の解析について、所定領域は分析しようとする染色体の全長又は一部を指し、即ち、当該染色体からの全てのシーケンシングデータを選択する。シーケンシング結果から相応領域からのシーケンシングデータを選択する方法は特別な制限を受けない。本発明の実施例に基づき、得られた全てのシーケンシングデータを既存の核酸参照配列と比較することで所定領域からのシーケンシングデータを得ることができる。このほか、本発明の実施例に基づき、所定領域はゲノム上で非連続的な複数の分散ポイントであっても良い。本発明の実施例に基づき、使用可能な参照配列の類型は特別な制限を受けず、如何なる興味を持つ領域の既知配列であっても良い。本発明の実施例に基づき、既知のヒトレファレンスゲノムを採用して参照配列にすることができる。例えば、本発明の実施例に基づき、採用された人類の参考ゲノムはNCBI36.3、HG18である。このほか、本発明の実施例に基づき、比較する方法は特別な制限を受けない。本発明の具体的な実施例に基づき、SOAPを採用して比較することができる。
続いて、所定領域に対応するシーケンシングデータに基づき、所定領域における一部の核酸配列を確定すると同時に、確定された所定領域における一部の核酸配列に基づき、ビタビアルゴリズムに従って所定領域における他の核酸配列を確定することにより、所定領域の核酸配列を獲得するようにする。本発明の実施例に基づき、前記胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに従って、前記所定領域の塩基情報を確定する。本発明の実施例に基づき、ビタビアルゴリズム(Viterbi algorithm)を利用し、隠れマルコフモデルに頼り、胎児ゲノムにおける特定領域の塩基情報を確定することができる。これにより、胎児ゲノムの遺伝情報に対する出産前診断を有効に行うことができる。
以下、図1を参照しながらビタビアルゴリズムを利用し、隠れマルコフモデルに頼って解析を行う原理に対し詳しく説明する。
本文で記載の用語“胎児の遺伝相関個体”は遺伝学上、胎児との間で親縁関係を有する個体を指し、例えば、本発明の実施例に基づき、採用可能な“胎児の遺伝相関個体”は胎児の親世代、例えば両親である。これにより、子世代のゲノム形成過程は、親ゲノムの一回のランダム組み換え(即ち、連鎖交換ハプロタイプ及び配偶子のランダムな組み合わせ)に相当する。母体血漿に対し、もし、我々が胎児のハプロタイプ(両親ハプロタイプの組み替え型)を隠れ状態(hidden states)とすれば、血漿のシーケンシングデータを観測配列(observations)と見なし、プライヤデータに頼って状態遷移確率(transition probabilities)、観測配列の確率分布(observation symbol probabilities)と初期状態確率分布(initial state distribution)を推計することができ、我々は、ビタビアルゴリズム(Viterbi algorithm)により、最も可能性のある胎児のハプロタイプ組み合わせを推計することで、胎児のより多い情報を獲得する。
詳細な解析ステップは下記の通りである。
符号:
I.測定すべき遺伝子座の数はN。
II.両親のハプロタイプをそれぞれFH= {fh0,fh1}とMH= {mh0,mh1}
と記し、そのうち、
である。
III.未知の胎児ハプロタイプをH={h0,h1}と記し、特に、h0とh1はそれぞれ母親と父親からの遺伝である。

で、
そのうち、


下付xiとyiが配列対を構成し、qi={xi,i}は我々がデコードすべき隠れ状態を構成し、全て出現可能な隠れ状態が集合Qを構成する。
IV.シーケンシングデータをS={s1,...,si,...,s}と記し、
そのうち、
は当該遺伝子座のシーケンシング情報を代表し、ACGT四種類の塩基の数を含む。
V.平均胎児濃度と平均シーケンシング誤差率をそれぞれε及びeと記す。
(第一ステップ、初期状態の確率分布ベクトル及びハプロイド組み換え遷移マトリックスを構築する。)
I.初期状態の確率分布ベクトルをπ={πj}(j∈Q)と記す、
本発明の実施例に基づき、参考データのない情況下、

即ち、各種の隠れ状態が第一の遺伝子座で現れる可能性は等しい。
II.本発明の実施例に基づき、ハプロイド組み換え確率をpr = re/Nと記し、reは人類配偶子ゲノム再配列の平均回数を代表し、プライヤデータは25と30の間にある。
III.本発明の実施例に基づき、ハプロイド組み換え伝送マトリックスをA={ajk}(j,k∈Q)と記し、そのうち、ajkは隠れ状態遷移の確率で、即ち、


胎児ハプロタイプ

の下付xiとyiが配列対を構成し、qi={xi,i}は我々がデコードすべき隠れ状態を構成する。例として、хi=0は“母系染色体上、対応遺伝子座でのアレロタイプはmi,0”であることを代表している。
(第二ステップ、観測配列確率マトリックスを構築する。)
本発明の実施例に基づき、観測配列確率マトリックスを
と記し、そのうち、
は“遺伝子座iで母親ハプロタイプと胎児ハプロタイプ(状態j、j={xi yi})を考慮する時、このようなシーケンシング情報を観測する可能性”を代表し、即ち、

そのうち、Pi,baseは“遺伝子座iで母親ハプロタイプと胎児ハプロタイプ(状態j, j={xi yi})を考慮する時、当該塩基の出現可能性”を代表し、即ち、

そのうち、指示関数は

である。
当該ステップはHMMパラメータで各遺伝子座の観測配列確率分布
を計算し、即ち、各遺伝子座上の異なる胎児ハプロタイプ(隠れ状態)下、血漿で現在の観測データ(観測配列)の出現可能性を計算する。
(第三ステップ、局部確率マトリックスと逆方向ポインタを構築する(以下、一次元局部確率マトリックスの構築を例にする)。)
定義 局部確率

定義 逆方向ポインタ
ここで使用される用語局部確率δi(qi)と逆方向ポインタψi(qi)は、Viterbi計算法を踏襲する古典的定義である。当該パラメータの定義に対する詳細はLawrence R. Rabiner, PROCEEDINGS OF THE IEEE, Vol.77, No.2, 1989年2月を参照されたい。
(第四ステップ、最終状態を確定し、且つ最適なルートにバックトラックする。)
最終状態を確定、
逆方向ポインタにしたがって最適なルートにバックトラックし、即ち、最も可能性のある胎児の単一遺伝子型は、
(第五ステップ、結果を出力する。)
これにより、胎児ゲノムの配列に対し有効に分析を行うことができる。他の既存の出産前診断の技術方法に比べ、本方法は下記の技術的な利点があり、主に正確性と取得可能な遺伝情報量で現れている。
1)本発明の実施例に基づき、検出の遺伝子座を父親由来の遺伝子座だけではなく、母親由来の遺伝子座、即ち、母親のヘテロ接合遺伝座に対しても胎児が母親の疾患遺伝子座を遺伝されたか否かを検出することができ、検出の正確率は95%以上に達することができ、且つ複種類の変異タイプを検出することができ、疾患検出の範囲を拡大した。
2)本発明の実施例に基づき、一回のシーケンシングにより複数の遺伝子座、複種類の疾患情報を獲得できるのみならず、一部の妊婦血漿において被度がやや低く、単純にシーケンシング深度を向上するだけでは依然として正確に判定できない遺伝子配列についても、本方法を通じて推定により獲得することができ、結果は正確且つ確実である。
3)本発明の実施例に基づき、遺伝疾患の図を作成することができ、一部の連鎖関連疾患に対し、他の遺伝子座の情報を通じて直接的に推定することができ、一回で獲得可能な情報量が大きく、臨床検出にとってさらに指導的意義がある。
このほか、本発明の実施例に基づき、本発明に係わる胎児ゲノムにおける所定領域の塩基情報を確定する方法は、SNP又はSTR等ある一種の遺伝多型部位に限らず、全ての遺伝多型部位にも適応可能で、且つ同時に複種類の遺伝子座で使用することで、互いに検証するようにすることができる。出産前に非侵襲的に胎児ゲノム情報を検査することで、疾患検査の目的を達成するだけではなく、さらに非侵襲的な出産前の親子鑑定も行うことができる。子供が出産前に子供の父の身分を判定することは、扶養責任と義務、財産紛糾、性的暴行事件等の解決に役立つ。
<胎児ゲノムにおける所定領域の塩基情報を確定するためのシステム>
本発明のもう一つの側面において、本発明は胎児ゲノムにおける所定領域の核酸配列を確定するためのシステムを提出している。本発明の実施例に基づき、当該システム1000はライブラリ構築装置100、シーケンシング装置200及び分析装置400を備えることができるが、図2を参照されたい。
本発明の実施例に基づき、ライブラリ構築装置100は胎児ゲノムのDNAサンプルに対し、シーケンスライブラリの構築に適する。本発明の実施例に基づき、シーケンシング装置200はライブラリ構築装置100に連結され、且つ、構築したシーケンスライブラリに対しシーケンシングを行うことでシーケンシングデータを獲得するのに適し、得られたシーケンシングデータは複数のシーケンシングデータから構成される。本発明の実施例に基づき、さらにDNAサンプル分離装置を備えることができ、当該DNAサンプル分離装置は妊婦の末梢血から胎児ゲノムのDNAサンプルの抽出に適する。このため、当該システムは非侵襲的な出産前の検査に適する。
本発明の実施例に基づき、任意に、さらに比較装置300を備えることができる。本発明の実施例に基づき、比較装置300はシーケンシング装置200に連結され、且つ得られたシーケンシング結果を参照配列と比較することで所定領域に対応するシーケンシングデータを確定するのに適する。本発明の実施例に基づき、シーケンシングを行うことに用いる方法と設備は特別な制限を受けず、ジデオキシチェーンターミネーション法を含むが、それに限らない。好ましくは、ハイスループットのシーケンシング方法で、これらのシーケンシング装置のハイスループット、ディープシーケンシングの特徴を利用することにより、シーケンシング効率をさらに向上させた。これにより、後続のシーケンシングデータに対する分析、特に、統計・検査分析を行う時の精確性と正確度を向上させる。前記ハイスループットのシーケンシング方法は次世代シーケンシング技術又は単一分子シーケンシング技術を含むが、これに限らない。次世代シーケンシングプラットホーム (Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46 )はIllumina-Solexa ( GATM,HiSeq2000TM等)、ABI-SolidとRoche-454 (ピロリン酸シーケンシング)を含むが、これに限らない。単一分子シーケンシングプラットホーム(技術)はHelicos公司のtSMS技術(True Single Molecule DNA sequencing ) 、PacificBiosciences公司の1分子リアルタイムシーケンシング(singlemolecule real-time (SMRTTM) )、及びOxford NanoporeTechnologies公司のナノボアシーケンシング技術等(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245 )を含むが、これに限らない。シーケンシング技術の絶えない進化にしたがって、本分野の技術として理解できるのは、さらに他のシーケンシング方法と装置を採用して全ゲノムのシーケンシングを行うことができる。本発明の具体的な実施例に基づき、Illumina-Solexa、ABI-SOLiD、 Roche-454と単一分子シーケンシング装置から選択した少なくとも一種類を利用して前記全ゲノムシーケンスライブラリに対しシーケンシングを行うことができる。本発明の実施例に基づき、使用可能な参照配列の類型は特別な制限を受けず、如何なる興味を持つ領域の既知配列であっても良い。本発明の実施例に基づき、既知のヒトレファレンスゲノムを採用して参照配列にすることができる。例えば、本発明の実施例に基づき、採用された人類の参考ゲノムはNCBI36.3、HG18である。このほか、本発明の実施例に基づき、比較する方法は特別な制限を受けない。本発明の具体的な実施例に基づき、SOAPを採用して比較することができる。
本発明の実施例に基づき、分析装置400は前記胎児のシーケンシング結果に従って、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルにより、前記所定領域の塩基情報を確定するのに適する。
本発明の実施例に基づき、ビタビアルゴリズムでは0.25を採用して初期状態確率分布とし、re/Nを採用して再結合確率とし、そのうち、re=25〜30で、好ましくは25で、Nは前記所定領域の長さである。
を採用して組み替え遷移マトリックスとし、 PΓ= re/Nである。
本発明の実施例に基づき、前記シーケンシング結果を参照配列と比較することにより、前記所定領域に対応するシーケンシングデータを確定するが、さらに、下記の式にしたがって確率が最も高い塩基を含む。
そのうち、
データの解析部分について、既に前で詳細に説明しており、当然ながら胎児ゲノムにおける所定領域の核酸配列を確定するシステムにも適し、くどくどと述べない。
このため、当該システムを利用すれば、前記胎児ゲノムにおける所定領域の核酸配列を確定する方法を有効に実施することができ、例えば、ビタビアルゴリズム(Viterbi algorithm)を利用することにより、隠れマルコフモデルに頼り、胎児ゲノムにおける特定領域の塩基情報を確定することができることから、胎児ゲノムの遺伝情報に対する出産前診断を有効に行うことができる。
このほか、本発明の実施例に基づき、所定領域は遺伝的多型の存在が知られている遺伝子座で、遺伝的多型は単一ヌクレオチド多型とSTRから選ばれた少なくとも一種類である。
本文で記載の用語“連結”について広義的に理解すべく、直接的に連結されてもよく、間接的に連結されても良く、上述した機能を実現可能な連結であればよい。
説明すべきものは、本分野の技術者として、前記胎児ゲノムにおける所定領域の核酸配列を確定する方法の特徴と利点は、胎児ゲノムにおける所定領域の核酸配列を確定するシステムにも適していると理解することができ、説明の便宜上、ここでは詳しく述べない。
<コンピューター読み取り可能な記録媒体>
本発明のもう一つの側面において、本発明はコンピューター読み取り可能な記録媒体を提出している。本発明の実施例に基づき、当該コンピューター読み取り可能な記録媒体には指令が格納され、前記指令はプロセッサーに実行されることにより、胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに従って、所定領域の塩基情報を確定するのに適する。このため、当該コンピューター読み取り可能な記録媒体を利用すれば、前記方法を有効に実施することができ、例えば、ビタビアルゴリズム(Viterbi algorithm)を利用することにより、隠れマルコフモデルに頼り、胎児ゲノムにおける特定領域の核酸配列を確定することができることから、胎児ゲノムの遺伝情報に対する出産前診断を有効に行うことができる。
本発明の実施例に基づき、指令はビタビアルゴリズムに適し、隠れマルコフモデルに基づき、所定領域の塩基情報を確定する。本発明の実施例に基づき、ビタビアルゴリズムでは0.25を採用して初期状態確率分布とし、re/Nを採用して再結合確率とし、そのうち、re=25〜30で、好ましくは25で、Nは前記所定領域の長さである。
を採用して組み替え遷移マトリックスとし、 PΓ= re/Nである。
本発明の実施例に基づき、前記指令は前記シーケンシング結果を参照配列と比較することにより、前記所定領域に対応するシーケンシングデータを確定するようにするが、さらに、下記の式にしたがって確率が最も高い塩基を含む。
そのうち、

データの解析部分について、既に前で詳細に説明しており、当然ながら胎児ゲノムにおける所定領域の核酸配列を確定するシステムにも適し、くどくどと述べない。
このほか、本発明の実施例に基づき、所定領域は遺伝的多型の存在が知られている遺伝子座で、遺伝的多型は単一ヌクレオチド多型とSTRから選ばれた少なくとも一種類である。
本説明書にとって、“コンピューター読み取り可能な記録媒体”はプログラムを格納、通信、伝播又は伝送することにより、指令実行システム、装置又は設備もしくはこれらの指令実行システム、装置又は設備を結合して使用される如何なる装置を含むことができる。コンピューター読み取り可能な記録媒体の更なる具体的な事例(包括的でないリスト)として、一つ又は複数に配線された電気的接続部(電子装置)、ポータブルコンピューターカートリッジディスク(磁気装置)、ランダムアクセスメモリ(RAM)、リードオンメモリ(ROM)、消去可能ROM(EPROM又はフラッシュメモリ)、光ファイバー素子、コンパクトディスクリードオンメモリ(CDROM)を含む。このほか、例えば紙又はその他の媒体に対しオプティカルスキャニングし、続いて編集、解釈又は必要な時に他の適当な方式を通じて処理することにより、電子方式で前記プログラムを獲得し、その後コンピューターメモリに格納することができるから、コンピューター読み取り可能な記録媒体は、さらにはその上で前記プログラムをプリンタ可能な紙又は他の適当な媒体であっても良い。
理解すべきことは、本発明の各部分はハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせを用いて実現することができる。前記実施例において、複数のステップ又は方法はメモリに格納され、且つ適当な指令実行システムを用いて実行可能なソフトウェア又はファームウェアで実現されることができる。例えば、もし、ハードウェアで実現すると、もう一つの実施例と同様に、本分野で公知の下記技術の如何なるアイテム又これらの組み合わせを用いて実現することができる。データ信号に対しロジック機能を実現するのに用いるロジックゲート回路の離散ロジック回路を有し、適切なロジックゲート回路を組み合わせる専用集積回路、プログラムマブルゲートアレイ(PGA)、フィールドプログラムマブルゲートアレイ(FPGA)等を有する。
本技術分野の一般技術者として、前記実施例に含まれる全部又は一部のステップはプログラムを通じて関連のハードウェアを指令することで完成し、前記プログラムは一種類のコンピューターの可読メモリ媒体に格納することができ、当該プログラムを実行する時に含んだ方法は実施例における一つのステップ又はその組み合わせであると理解することができる。
このほか、本発明に各実施例における各機能ユニットは一つの処理モジュールに集積することができるだけではなく、各ユニットが単独的に物理的に存在するか、又は二つ又は二つ以上のユニットが一つのモジュールに集積することもできる。前記集積されたモジュールはハードウェアを採用することで実現することができ、ソフトウェア機能モジュールの形式を採用することで実現することもできる。前記集積されたモジュールがソフトウェアモジュールの形式で実現され、且つ独立した製品として販売又は使用される時、一種類のコンピューターの可読メモリ媒体に格納することができる。
以下、実施例に合わせて本発明に対する解釈を行う。本分野に属する技術者は、以下の実施例は本発明の説明に用いるものだけで、本発明の範囲を限定するものと見なさないと理解すべきである。実施例で明記していない具体的な技術と条件は、本分野内の文献で記載した技術又は条件(例えば、J.サムブルック(J. Sambrook)ら著作、黄培堂らが訳した《分子クローニング実験マニュアル》、第三版、科学出版社)又は製品説明書に従って行う。使用される試薬又は装置については生産メーカーを明記していないが、何れも市場から購入可能な通常の製品で、例えばイルミナ会社から購入することができる。
一般的な方法:
本発明に係わる実施例は主に下記のステップ、
1)非侵襲的に胎児の遺伝物質を含む妊婦サンプルを採集し、その中に含まれた遺伝物質を抽出するステップと、
2)胎児の家人、例えば、両親と祖父母等のゲノムDNAを抽出と純化するステップと、
3)各遺伝物質に対し、異なるシーケンシングプラットホームに基づきライブラリを構築するステップと、
4)シーケンシングにより獲得されたデータに対し濾過し、濾過条件は品質値、ジョイント汚染等により設定されるステップと、
5)獲得された高品質の配列に対し必要に応じて組立処理を行い、組立結果を人類ゲノム参考配列と比較を行うステップ、を含む。
獲得された唯一の比較配列をモデルに代入して分析を行う。
分析モデル:
符号:
I.測定すべき遺伝子座の数はN。
II.両親のハプロタイプをそれぞれFH= {fh0,fh1}とMH= {mh0,mh1}と記し、そのうち、
である。
III.未知の胎児ハプロタイプをH={h0,h1}と記し、特に、h0とh1はそれぞれ母親と父親からの遺伝である。

そのうち、


下付xiとyiが配列対を構成し、qi={xi、i}が我々がデコードすべき隠れ状態を構成し、全て出現可能な隠れ状態が集合Qを構成する。
IV.シーケンシングデータをS={s1,...,si,...,s}と記し、
そのうち、
は当該遺伝子座のシーケンシング情報を代表し、ACGT四種類の塩基の数を含む。
V.平均胎児濃度と平均シーケンシング誤差率をそれぞれε及びeと記す。
(第一ステップ、初期状態の確率分布ベクトル及びハプロイド組み換え遷移マトリックスを構築する。)
I.初期状態の確率分布ベクトルをπ={πj}(j∈Q)と記す、
本発明の実施例に基づき、参考データのない情況下、

即ち、各種の隠れ状態が第一の遺伝子座で現れる可能性は等しい。
II.本発明の実施例に基づき、ハプロイド組み換え確率をpr = re/Nと記し、reは人類配偶子ゲノム再配列の平均回数を代表し、プライヤデータは25と30の間にある。
III.本発明の実施例に基づき、ハプロイド組み換え伝送マトリックスをA={ajk}(j,k∈Q)と記し、そのうち、ajkは隠れ状態遷移の確率で、即ち、
(第二ステップ、観測配列確率マトリックスを構築する。)
本発明の実施例に基づき、観測配列確率マトリックスを
と記し、そのうち、
は“遺伝子座iで母親ハプロタイプと胎児ハプロタイプ(状態j)を考慮する時、このようなシーケンシング情報を観測する可能性”を代表し、即ち、

そのうち、Pi,baseは“遺伝子座iで母親ハプロタイプと胎児ハプロタイプ(状態j)を考慮する時、当該塩基の出現可能性”を代表し、即ち、
そのうち、指示関数は

である。
(第三ステップ、局部確率マトリックスと逆方向ポインタを構築する(以下、一次元局部確率マトリックスの構築を例にする)。)
定義 局部確率

定義 逆方向ポインタ

(第四ステップ、最終状態を確定し、且つ最適なルートにバックトラックする。)
最終状態を確定、

逆方向ポインタにしたがって最適なルートにバックトラックし、、即ち、最も可能性のある胎児の単一遺伝子型は、

(第五ステップ、結果を出力する。)
サンプルの収集及び処理:
(1)採集したサンプルは一つの家庭における父親と母親の妊娠期間の末梢血で、胎児が出産した後は臍帯血を採集するが、EDTA抗凝血剤管でOragene(登録商標)DNA唾液を採集し、DNA浄化キットOG−250で祖父母と外祖父母の唾液を採集する。
(2)祖父母と外祖父母の唾液DANを抽出した後、Infinium(登録商標)HD Human610-Quad BeadChipのジーンチップでタイピングを行う。
(3)母親の妊娠期間の末梢血を1600g採集し、4℃で10分間遠心することで、血球と血漿を分離させ、16000g血漿を4℃で10分間遠心することで、残留した白血球をさらに除去する。妊婦血漿に対してはTIANamp Micro DNA Kit ( TIANGEN )を用いてDNAを抽出することで、母親と胎児ゲノムDNA混合物を獲得し、且つ全血から血漿を分離した後、残りの白血球から母親ゲノムDNAを抽出する。Illumia(登録商標)会社HiSeq2000TM のシーケンシング装置の要求に基づき、獲得した血漿DNAに対しライブラリを構築し、構築されたライブラリはAgilent(登録商標)Bioanalyzer 2100の検査によりフラグメント分布範囲が要求に符合し、さらにQ−PCR方法を通じて二つのライブラリに対し定量を行い、合格した後、Illumina(登録商標)HiSeq2000TMシーケンシング装置でシーケンシングを行う、シーケンシング循環数はPElOlindex(即ち、双方向lOlbp indexシーケンシング)で、装置のパラメータの設置及び操作方法は何れもIllumina(登録商標)の操作マニュアルに従う。(http://www.illumina.com/support/documentation.ilmnから得られる)。
(4)父親の末梢血、母親の末梢血白血球と胎児の臍帯血は直接的にTIANamp Micro DNA Kit ( TIANGEN )抽出キットを用いてゲノムDNAを抽出する。
血漿DNAサンプルのほか、得られた全てのDNAサンプルはCovarisTMインタラプトインストルメントで500bp大きさのフラグメントにインタラプトする。獲得したDNAフラグメント及び血漿DNAサンプルをIllumia(登録商標)会社HiSeq2000TM のシーケンシング装置の要求に基づいてライブラリを構築するが、具体的なステップは下記の通りである。
末端修復反応システム:
10 x T4ポリヌクレオチド・キナーゼ・バッファー 10μ1
dNTPs(10mM) 4μ1
T4 DNAポリメラーゼ 5μ1
Klenowフラグメント 1μ1
T4ポリヌクレオチド・キナーゼ 5μ1
DNAフラグメント 30μ1
ddH20を100μ1まで補充する。
20℃で30分間反応した後、PCR Purification Kit(QIAGEN)を使用して末端修復産物を回収する。回収したサンプルを最後に34μ1のEBバッファーに溶ける。
末端で塩基Aを添加する反応システム:
10 x Klenowバッファー 5μ1
dATP(lmM) 10μ1
Klenow (3 '-5' exo") 3μ1
DNA 32μ1
37℃で30分間培養した後MinElute(登録商標). PCR Purification Kit(QIAGEN)純化を経て、且つ12μ1のEBに溶ける。
コネクタ反応システム:
2x Rapid DNAライゲーションバッファー 25μ1
PEI Adapter oligomix(20uM) 10μ1
Τ4 DNAリガーゼ 5μ1
添加塩基A の産物 10μ1
20℃で15分間反応した後、PCR Purification Kit(QIAGEN)を使用してライゲーション産物を回収する。最後に得られた産物を32μ1のEBバッファーに溶ける。
PCR反応システム:
ジョイントライゲーション産物 10μ1
Phusion DNA Polymerase Mix 25μ1
PCR プライマー(10 pmol/μ1) 1μ1
Index N(10 pmol/μ1) 1μ1
超純水 13μ1

反応手順は下記の通りである。

PCR Purification Kit(QIAGEN)を使用してPCR産物を回収する。最後にサンプルを50μ1のEBバッファーに溶ける。
構築されたライブラリはAgilent(登録商標)Bioanalyzer 2100の検査によりフラグメント分布範囲が要求に符合し、さらにQ−PCR方法を通じて二つのライブラリに対し定量を行い、合格した後、Illumina(登録商標)HiSeq2000TMシーケンシング装置でシーケンシングを行う、シーケンシング循環数はPElOlindex(即ち、双方向lOlbp indexシーケンシング)で、装置のパラメータの設置及び操作方法は何れもIllumina(登録商標)の操作マニュアルに従う。(http://www.illumina.com/support/documentation.ilmnから得られる)。
(5)親ゲノムのシーケンスベースタイピング
a.SOAP2を使用してシーケンシングデータをヒトレファレンスゲノム(NCBI 36.3 、HG18)と比較する。
b.SOAPsnp(南漢(CHS)ファミリーデータについて使用されているのは千人計画データである)を使用してデータに対し、コンセンサス配列(consensus sequence、CNS )を構築する。
c.標識座の遺伝子型を抽出する。
(6)両親のハプロタイプを推測:
a.祖先及び両親ハプロタイプの集団遺伝子型マトリックスを構築、即ち、両親、祖先と南漢ファミリーの標識座の遺伝子型を抽出する。
b.BEAGLEを使用して両親のハプロタイプを推測する。
(7)胎児のハプロタイプを推測:
a.SOAP2を使用して血漿のシーケンシングデータをヒトレファレンスゲノム(NCBI 36.3 、 HG18)と比較する。
b.初期状態確率ベクトル及びハプロイド組み換え伝送マトリックスを構築する。
初期状態確率ベクトルの構築:参考データ無しのモデルを採用し、即ち、各初期状態確率は等しく、何れも0.25である。
ハプロイド組み換え伝送マトリックス:保守的に、我々はre=25を取る(その他は一般の方法に従う)。
c.各遺伝子座のシーケンシング情報を統計し、且つ観測配列確率マトリクス(その他は一般の方法に従う)を構築する。
d.局部確率マトリックスと逆方向ポインタ(その他は一般の方法に従う)を構築する。
e.最終状態を確定し、最適なルートにバックトラックする。
f.出力。
胎児出産後の臍帯血の遺伝子タイピング結果に基づき、我々が分類して正確に統計した結果は下記の通りである。

<工業上の利用可能性>
本発明に係わる胎児ゲノムにおける所定領域の塩基情報を確定する方法、胎児ゲノムにおける所定領域の塩基情報を確定するのに用いるシステムとコンピューター読み取り可能な記録媒体は、胎児ゲノムにおける所定領域の核酸配列に対する分析に有効に応用することができる。
本発明の実施方式について既に詳細に記載したが、当分野の技術者は本発明の啓蒙下、本発明の精神や趣旨、特許請求を逸脱しない範囲で本発明に対して種々の改変や変形を実施することができるが、これらは、何れも本発明の保護範囲に属すると理解すべきである。本発明の全ての範囲は添付した請求の範囲及び如何なる同等物から提出する。
本明細書で記載した用語“一つの実施例に”、“幾つかの実施例”、“例示性実施例”、“例示”、“具体的な事例”、又は“幾つかの事例”等は当該実施例又は事例に合わせて説明した具体的な特徴、構造、材料又は特点で、本発明の少なくとも一つの実施例又は事例に含まれている。本明細書において、前記用語の例示的な説明は同じ実施例又は事例を指すとは限らず、それに、説明した具体的な特徴、構造、材料又は特点は如何なる一つ又は複数の実施例又は事例で適当な方式で合わせることができる。

Claims (25)

  1. 胎児ゲノムにおける所定領域の塩基情報を確定する方法であって、
    胎児ゲノムDNAサンプルに対し、シーケンスライブラリを構築するステップと、
    前記シーケンスライブラリに対しシーケンシングを行うことで、複数のシーケンシングデータからなる胎児のシーケンシング結果を得るステップと、
    前記胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報をコンバインし、隠れマルコフモデルを用いて、胎児のハプロタイプを含む前記所定領域の塩基情報を確定するステップと、を含
    前記胎児のハプロタイプを隠れ状態とし、前記胎児のシーケンシングデータを観測配列と見なし、プライヤデータに頼って組換確率、観測配列の確率分布と初期状態確率分布を推計し、ビタビアルゴリズムに基づいて、最も可能性のある胎児のハプロタイプを推計する、
    ことを特徴とする胎児ゲノムにおける所定領域の塩基情報を確定する方法。
  2. 前記胎児ゲノムDNAサンプルは妊婦の末梢血から抽出している、
    ことを特徴とする請求項1に記載の方法。
  3. 前記シーケンシングはIllumina-Solexa、ABI-Solid、Roche-454、単一分子シーケンシング装置から選択した少なくとも一種類を利用して前記シーケンスライブラリに対しシーケンシングを行う、
    ことを特徴とする請求項1に記載の方法。
  4. 前記胎児のシーケンシング結果を参照配列と比較することにより、前記所定領域からのシーケンシング結果を確定するステップをさらに含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記参照配列はヒトレファレンスゲノムである、
    ことを特徴とする請求項4に記載の方法。
  6. 前記胎児の遺伝相関個体は胎児の両親である、
    ことを特徴とする請求項1に記載の方法。
  7. 前記ビタビアルゴリズムでは0.25を採用して初期状態確率分布とし、re/Nを採用して再結合確率とし、そのうち、re=25〜30で、Nは前記所定領域の長さであり

    を採用して組み替え遷移マトリックスとし、 PΓ= re/Nである、
    ことを特徴とする請求項に記載の方法。
  8. re=25である、
    ことを特徴とする請求項7に記載の方法。
  9. 前記胎児のシーケンシング結果を参照配列と比較することにより、前記所定領域からのシーケンシング結果がさらに下記の式にしたがって確定した確率が最も高い塩基を含むことを確定するステップを含み、

    そのうち、


    である、
    ことを特徴とする請求項4に記載の方法。
  10. 前記所定領域は遺伝的多型の存在が知られている遺伝子座である、
    ことを特徴とする請求項1に記載の方法。
  11. 前記遺伝的多型は単一ヌクレオチド多型とSTRから選ばれた少なくとも一種類である、
    ことを特徴とする請求項10に記載の方法。
  12. 胎児ゲノムにおける所定領域の塩基情報を確定するシステムであって、ライブラリ構築装置、シーケンシング装置、分析装置を備え、そのうち、
    前記ライブラリ構築装置は胎児ゲノムDNAサンプルに対し、シーケンスライブラリの構築に用いられ
    前記シーケンシング装置は前記ライブラリ構築装置に連結され、且つ前記シーケンスライブラリに対しシーケンシングを行うことにより、胎児のシーケンシング結果を獲得するのに用いられ、前記胎児のシーケンシング結果は複数のシーケンシングデータからなり、
    前記分析装置は胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに基づき、胎児のハプロタイプを含む所定領域の塩基情報を確定
    前記胎児のハプロタイプを隠れ状態とし、前記胎児のシーケンシングデータを観測配列と見なし、プライヤデータに頼って組換確率、観測配列の確率分布と初期状態確率分布を推計し、ビタビアルゴリズムに基づいて、最も可能性のある胎児のハプロタイプを推計する、
    ことを特徴とする胎児ゲノムにおける所定領域の塩基情報を確定するシステム。
  13. さらにDNAサンプル分離装置を備え、当該DNAサンプル分離装置は妊婦の末梢血から胎児ゲノムのDNAサンプルの抽出に用いられる
    ことを特徴とする請求項12に記載のシステム。
  14. 前記シーケンシング装置はIllumina-Solexa、ABI-Solid、Roche-454、単一分子シーケンシング装置から選択した少なくとも一種類である、
    ことを特徴とする請求項12に記載のシステム。
  15. さらに比較装置を備え、比較装置はシーケンシング装置に連結され、前記胎児のシーケンシング結果を参照配列と比較することで所定領域からのシーケンシング結果を確定するのに用いる、
    ことを特徴とする請求項12に記載のシステム。
  16. 前記ビタビアルゴリズムでは0.25を採用して初期状態確率分布とし、re/Nを採用して再結合確率とし、そのうち、re=25〜30で、Nは前記所定領域の長さであり

    を採用して組み替え遷移マトリックスとし、 PΓ= re/Nである、
    ことを特徴とする請求項1に記載のシステム。
  17. re=25である、
    ことを特徴とする請求項16に記載のシステム。
  18. 前記胎児のシーケンシング結果を参照配列と比較することにより、前記所定領域からのシーケンシング結果を確定するが、さらに、下記の式にしたがって確率が最も高い塩基を確定するステップを含み、

    そのうち、


    である、
    ことを特徴とする請求項15に記載のシステム。
  19. コンピューター読み取り可能な記録媒体であって、当該コンピューター読み取り可能な記録媒体には指令が格納され、前記指令はプロセッサーに実行されることにより、胎児のシーケンシング結果に基づき、胎児の遺伝相関個体の遺伝情報に合わせ、隠れマルコフモデルに基づき、胎児のハプロタイプを含む所定領域の塩基情報を確定するのに用いられ
    前記胎児のハプロタイプを隠れ状態とし、前記胎児のシーケンシングデータを観測配列と見なし、プライヤデータに頼って組換確率、観測配列の確率分布と初期状態確率分布を推計し、ビタビアルゴリズムに基づいて、最も可能性のある胎児のハプロタイプを推計する、
    ことを特徴とするコンピューター読み取り可能な記録媒体。
  20. 前記ビタビアルゴリズムでは0.25を採用して初期状態確率分布とし、re/Nを採用して再結合確率とし、そのうち、re=25〜30で、Nは前記所定領域の長さで、


    を組み替え遷移マトリックスとし、そのうち、 PΓ= re/Nである、
    ことを特徴とする請求項19に記載のコンピューター読み取り可能な記録媒体。
  21. re=25である、
    ことを特徴とする請求項20に記載のコンピューター読み取り可能な記録媒体。
  22. 前記指令は前記胎児のシーケンシング結果を参照配列と比較することにより、前記所定領域からのシーケンシング結果を確定する、
    ことを特徴とする請求項19に記載のコンピューター読み取り可能な記録媒体。
  23. 前記指令は前記胎児のシーケンシング結果を参照配列と比較することにより、前記所定領域からのシーケンシング結果が下記の式にしたがって確定した確率が最も高い塩基を含むことを確定し、

    そのうち、


    である、
    ことを特徴とする請求項22に記載のコンピューター読み取り可能な記録媒体。
  24. 前記所定領域はさらに遺伝的多型の存在が知られている遺伝子座である、
    ことを特徴とする請求項19に記載のコンピューター読み取り可能な記録媒体。
  25. 前記遺伝的多型は単一ヌクレオチド多型とSTRから選ばれた少なくとも一種類である、
    ことを特徴とする請求項24に記載のコンピューター読み取り可能な記録媒体。
JP2015511887A 2012-05-14 2012-05-14 胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体 Active JP6045686B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/075478 WO2013170429A1 (zh) 2012-05-14 2012-05-14 确定胎儿基因组中预定区域碱基信息的方法、系统和计算机可读介质

Publications (2)

Publication Number Publication Date
JP2015525062A JP2015525062A (ja) 2015-09-03
JP6045686B2 true JP6045686B2 (ja) 2016-12-14

Family

ID=49582977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015511887A Active JP6045686B2 (ja) 2012-05-14 2012-05-14 胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体

Country Status (12)

Country Link
US (2) US20150094210A1 (ja)
EP (1) EP2851431B1 (ja)
JP (1) JP6045686B2 (ja)
KR (1) KR101770460B1 (ja)
CN (1) CN104053789B (ja)
AU (1) AU2012380221B2 (ja)
ES (1) ES2656023T3 (ja)
HK (1) HK1196401A1 (ja)
PL (1) PL2851431T3 (ja)
RU (1) RU2597981C2 (ja)
SG (1) SG11201407515RA (ja)
WO (1) WO2013170429A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160026759A1 (en) * 2014-07-22 2016-01-28 Yourgene Bioscience Detecting Chromosomal Aneuploidy
WO2017004612A1 (en) 2015-07-02 2017-01-05 Arima Genomics, Inc. Accurate molecular deconvolution of mixtures samples
CN106011244B (zh) * 2016-05-31 2019-07-16 中国人民解放军军事医学科学院放射与辐射医学研究所 检测7q21.13区域SNP试剂的应用
US20230207048A1 (en) * 2016-09-22 2023-06-29 Illumina, Inc. Somatic copy number variation detection
IL266346B1 (en) * 2016-11-18 2024-03-01 Univ Hong Kong Chinese A universal haplotype-based non-invasive prenatal test for single-gene diseases
CN108048541B (zh) * 2018-01-25 2020-11-20 广州精科医学检验所有限公司 确定胎儿alpha地中海贫血基因单体型的系统
CN110349631B (zh) * 2019-07-30 2021-10-29 苏州亿康医学检验有限公司 确定子代对象的单体型的分析方法和装置
CN116694746A (zh) * 2019-08-16 2023-09-05 香港中文大学 测定核酸的碱基修饰
EP4068291A4 (en) * 2019-11-29 2023-12-20 GC Genome Corporation METHOD FOR DETECTING CHROMOSOMAL ANOMALIES USING ARTIFICIAL INTELLIGENCE
CN113308548B (zh) * 2021-01-26 2023-03-28 天津华大医学检验所有限公司 一种检测胎儿基因单倍体型的方法、装置和存储介质
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
WO2023225951A1 (zh) * 2022-05-26 2023-11-30 深圳华大生命科学研究院 基于单体型的胎儿基因型检测方法
CN117392673B (zh) * 2023-12-12 2024-02-13 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130071837A1 (en) * 2004-10-06 2013-03-21 Stephen N. Winters-Hilt Method and System for Characterizing or Identifying Molecules and Molecular Mixtures
DK3002338T3 (da) * 2006-02-02 2019-08-05 Univ Leland Stanford Junior Ikke-invasiv føtal genetisk screening ved digital analyse
US8003326B2 (en) * 2008-01-02 2011-08-23 Children's Medical Center Corporation Method for diagnosing autism spectrum disorder
EP2370598B1 (en) * 2008-12-11 2017-02-15 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
PL3241914T3 (pl) 2009-11-05 2019-08-30 The Chinese University Of Hong Kong Analiza genomowa płodu z matczynej próbki biologicznej
US8725422B2 (en) * 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
CN102127818A (zh) * 2010-12-15 2011-07-20 张康 利用孕妇外周血建立胎儿dna文库的方法

Also Published As

Publication number Publication date
RU2014150655A (ru) 2016-07-10
PL2851431T3 (pl) 2018-04-30
KR20140146193A (ko) 2014-12-24
EP2851431B1 (en) 2017-12-13
HK1196401A1 (zh) 2014-12-12
AU2012380221A1 (en) 2014-11-06
WO2013170429A1 (zh) 2013-11-21
CN104053789A (zh) 2014-09-17
JP2015525062A (ja) 2015-09-03
CN104053789B (zh) 2016-02-10
KR101770460B1 (ko) 2017-08-22
RU2597981C2 (ru) 2016-09-20
ES2656023T3 (es) 2018-02-22
US20150094210A1 (en) 2015-04-02
AU2012380221B2 (en) 2016-09-29
US20180320235A1 (en) 2018-11-08
EP2851431A4 (en) 2016-01-27
EP2851431A1 (en) 2015-03-25
SG11201407515RA (en) 2014-12-30

Similar Documents

Publication Publication Date Title
JP6045686B2 (ja) 胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体
JP6328934B2 (ja) 非侵襲性出生前親子鑑定法
JP6585117B2 (ja) 胎児の染色体異数性の診断
US20180371539A1 (en) Method of detecting a pre-determined event in a nucleic acid sample and system thereof
JP2014507141A5 (ja)
JP6073461B2 (ja) 標的大規模並列配列決定法を使用した対立遺伝子比分析による胎児トリソミーの非侵襲的出生前診断
AU2011255641A1 (en) Methods for non-invasive prenatal ploidy calling
EA033752B1 (ru) Способ определения по меньшей мере части генома плода на основе анализа материнского биологического образца
WO2013086744A1 (zh) 确定基因组是否存在异常的方法及系统
CN112126677B (zh) 耳聋单倍型基因突变无创检测方法
WO2018121468A1 (zh) 检测胎儿基因突变的方法、装置和试剂盒
WO2014153757A1 (zh) 确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质
WO2015042980A1 (zh) 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
CA3107359A1 (en) Cell-free dna damage analysis and its clinical applications
TWI675918B (zh) 基於單倍型之通用非侵入性單基因疾病產前檢測
CN111321210B (zh) 一种无创产前检测胎儿是否患有遗传疾病的方法
JP2015517317A (ja) 双子の類型を鑑定する方法とシステム
AU2015252046A1 (en) Methods for Non-Invasive Prenatal Ploidy Calling

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161115

R150 Certificate of patent or registration of utility model

Ref document number: 6045686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250