JP2023550242A - シーケンシングによるジェノタイピング - Google Patents
シーケンシングによるジェノタイピング Download PDFInfo
- Publication number
- JP2023550242A JP2023550242A JP2023520266A JP2023520266A JP2023550242A JP 2023550242 A JP2023550242 A JP 2023550242A JP 2023520266 A JP2023520266 A JP 2023520266A JP 2023520266 A JP2023520266 A JP 2023520266A JP 2023550242 A JP2023550242 A JP 2023550242A
- Authority
- JP
- Japan
- Prior art keywords
- variants
- genomic dna
- regions
- directly observed
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 121
- 238000003205 genotyping method Methods 0.000 title claims abstract description 44
- 239000000523 sample Substances 0.000 claims abstract description 221
- 238000000034 method Methods 0.000 claims abstract description 189
- 108020004711 Nucleic Acid Probes Proteins 0.000 claims abstract description 72
- 239000002853 nucleic acid probe Substances 0.000 claims abstract description 72
- 108020004414 DNA Proteins 0.000 claims description 433
- 230000002068 genetic effect Effects 0.000 claims description 177
- 238000012217 deletion Methods 0.000 claims description 34
- 210000000349 chromosome Anatomy 0.000 claims description 25
- 230000035772 mutation Effects 0.000 claims description 24
- 108700028369 Alleles Proteins 0.000 claims description 22
- 238000002493 microarray Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 14
- 230000000295 complement effect Effects 0.000 claims description 12
- 238000009396 hybridization Methods 0.000 claims description 10
- 230000002974 pharmacogenomic effect Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000002438 mitochondrial effect Effects 0.000 claims description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 6
- 210000002593 Y chromosome Anatomy 0.000 claims description 6
- 101150097844 F2r gene Proteins 0.000 claims description 5
- 101150095928 F2rl1 gene Proteins 0.000 claims description 5
- 102000054766 genetic haplotypes Human genes 0.000 claims description 5
- 150000007523 nucleic acids Chemical group 0.000 claims description 5
- 206010028980 Neoplasm Diseases 0.000 claims description 4
- 210000001766 X chromosome Anatomy 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 2
- 238000001712 DNA sequencing Methods 0.000 claims 1
- 108091034117 Oligonucleotide Proteins 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 238000003491 array Methods 0.000 description 15
- 238000012070 whole genome sequencing analysis Methods 0.000 description 15
- 238000013461 design Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- NOIRDLRUNWIUMX-UHFFFAOYSA-N 2-amino-3,7-dihydropurin-6-one;6-amino-1h-pyrimidin-2-one Chemical compound NC=1C=CNC(=O)N=1.O=C1NC(N)=NC2=C1NC=N2 NOIRDLRUNWIUMX-UHFFFAOYSA-N 0.000 description 10
- 230000007614 genetic variation Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 239000000047 product Substances 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 230000008685 targeting Effects 0.000 description 7
- 238000000018 DNA microarray Methods 0.000 description 5
- 238000003556 assay Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 108700024394 Exon Proteins 0.000 description 4
- 102000002698 KIR Receptors Human genes 0.000 description 4
- 108010043610 KIR Receptors Proteins 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005562 fading Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007482 whole exome sequencing Methods 0.000 description 4
- 238000000137 annealing Methods 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 102000054765 polymorphisms of proteins Human genes 0.000 description 3
- 241000579895 Chlorostilbon Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 229910052876 emerald Inorganic materials 0.000 description 2
- 239000010976 emerald Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- -1 Y chromosome Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 230000003234 polygenic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000010809 targeting technique Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6811—Selection methods for production or design of target specific oligonucleotides or binding molecules
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Saccharide Compounds (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本開示は、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法、核酸プローブのセットを使用したシーケンシングによりDNAサンプルのジェノタイピングを行う方法、及びそのような方法を行うためのシステムを提供する。
Description
本開示は、部分的には、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法、核酸プローブのセットを使用したシーケンシングによりDNAサンプルのジェノタイピングを行う方法、及びそのような方法を行うためのシステムを対象とする。
全ゲノムシーケンシングでは、個体のゲノム全体のシーケンシングを行う。全ゲノムシーケンシングのコストは減少しているが、依然として相当のコストである。シーケンシングの深度が高くなるほど、コストが高くなる。ゲノムの部分が異なれば注目または関心のレベルが異なるため、ディープシーケンシングの要件は様々である。
全ゲノムにわたって予想される一定の深度でシーケンシングを行うのではなく、シーケンシングのためのゲノムの領域を事前に選択する(したがって、これらの領域でシーケンシングのほとんどを実施する)ことが可能である。エクソームシーケンシングは、遺伝子のエクソンと重複するDNAの短鎖を捕捉し、次いでDNAの短鎖をシーケンシングすることによる、遺伝子のエクソンのシーケンシングをターゲットとする。エクソンは、機能性及び臨床的意義の点から大きく注目されている。エクソンを直接シーケンシングすることで、他のサンプルを参照することなく、特定の個々のサンプルの遺伝的変異を観察することができる。エクソームシーケンシングは、ゲノムの約1%のみをターゲットとするが、全ゲノムシーケンシングと比較して大幅に低いコストで、偏りのない機能的かつアクショナブルな遺伝的変異を返す。
シーケンシングストラテジーに代わる手段は、シーケンシングよりも早く大規模に開発されたDNAマイクロアレイ技術を使用して遺伝的変異を観察することである。DNAマイクロアレイ技術は、DNAチップにより、例えば、数十万の特異的バリアントを一度にアッセイすることを可能にする。これらの遺伝的バリアントは、通常、全ゲノムにわたる遺伝的変異を表す。DNAにおける数十万から数百万の可変部位で遺伝的変異を測定するジェノタイピングアレイは、現代のヒト遺伝学を牽引している。各アレイによって測定される可変部位は、典型的に、1つまたは複数の関心集団における一般的な遺伝的変異を表すように選択される。このストラテジーは、直接的な全ゲノムシーケンシングに代わる安価かつ効果的な手段を提供し、現在、毎年数百万のDNAサンプルのジェノタイピングのために使用されている。得られるデータにより、一般利用者向け遺伝学企業は、個人の祖先を推定し、個人をそのDNA血縁者と照合することができる。これはまた、ゲノムワイド関連研究(GWAS)、ゲノムリスクスコア、及びメンデルランダム化解析を促進し、これらは、循環器疾患及び代謝疾患から精神障害へ、そしてヒトの挙動から老化関連障害及びがんへと多岐にわたる、ヒトの健康及び挙動に関する多様な複合形質の生態に関する多くの知見をもたらしている。
アレイ設計のための従来のストラテジーは、既知の一般的な遺伝的バリアントのセットに焦点を当て、これらのバリアントのうち、マルチプレックスジェノタイピング実験において良好に機能することが予想され、かつ他の既知の一般的なバリアントを十分に表すサブセットの識別を試みる。典型的に、各バリアントには、アレイプラットフォームでの期待性能を測定するプローブスコアが割り当てられる。このスコアは、近傍にある他のバリアントの存在、反復性、プローブDNA配列におけるグアニン-シトシン(GC)塩基の割合、及び以前のジェノタイピングアレイにおける同様のプローブの性能などの因子を要約するものである。これらの因子の各々が、バリアントをターゲティングするジェノタイピングプローブの性能に影響し得る。プローブの期待性能を要約するこのプローブスコアに加えて、バリアントはまた、それらが表し得る他の一般的なバリアントのリストにマッピングされるのが一般的である。近傍にある他の一般的なバリアントにおける変異を表すバリアントは、これらの追加のバリアントの「プロキシ」または「サロゲート」である。これらのプロキシ関係は、連鎖不均衡として知られるプロセスにより、ヒトゲノムにおける近傍のバリアントの間によく見られる。連鎖不均衡は、遺伝的バリアントが突然変異または移入によって集団に入り、その後、遺伝ならびに組換え及び遺伝子変換によって徐々に広がる結果である。突然変異、移入、遺伝、組換え、及び遺伝子変換は、共に、近傍の遺伝的バリアントを予測可能な組み合わせで生じさせることが多く、この組み合わせは通常、各バリアントが最初に集団に入った祖先染色体を反映する。
DNAマイクロアレイなどのジェノタイピングアレイは、個々のサンプルにおけるバリアントの小さなサブセットのみを観察する。バリアントが直接観察されるジェノタイピングアレイに含めるバリアントのセットを選択することは、最終的には、すべての既知の遺伝的バリアントの大部分の「プロキシ」として機能し得る高い「プローブスコア」を持つ直接観察されるバリアントのセットを選択することを伴う。直接観察されるバリアントからバリアントを間接的に観察する(補完する)ことが可能である。このプロセスは補完と呼ばれる。補完が成功する理由は、同じ染色体上で複数のバリアントが互いに近ければ近いほど、それらが同じ祖先から遺伝した確率が高くなるように、我々の遺伝的変異が遺伝するからである。補完法は、DNAのセグメントが遺伝する様式の推量を考慮し、直接観察されないバリアントを補完するためにクオリティの高い結果をもたらすことが示されている。このストラテジーは、ヒトにおける一般的な遺伝的変異を良く表すバリアントのリストをもたらすが、複数の遺伝的バリアントを単一のプローブで測定する技術では非効率的でもある。DNAマイクロアレイアッセイに関するもう1つの問題は、これらが実験室では全く別のプロセスであり、多くのプロセスの複製を必要とするため、実験が非効率になることである。必要とされているのは、全ゲノムにわたってバリアントを補完する能力を保持しながら所望のターゲット領域の直接的なシーケンシングを可能にする、費用対効果の良い実験ストラテジーである。
ジェノタイピング技術は、ほぼ20年間にわたってほとんど変化していない。アレイは、クオリティの高いデータ及び一貫した結果を低コストで生成するが、労働集約的である。アレイには、全エクソームシーケンシングに使用されるものとは異なる、追加の処理及び機器が必要である。アレイの拡張可能性及びカスタマイズ可能性は限られている。数百万のサンプルの効率的な処理が必要とされている。
本開示は、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法であって、a)核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、b)複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、c)フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、d)フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、1つまたは複数のプロキシバリアントの存在または非存在を識別すること、e)フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムDNAの複数の候補領域を選択することであって、ゲノムDNAの各候補領域が、約25~約150の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む、選択すること、f)ゲノムDNAの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、g)ゲノムDNAの各候補領域について、ゲノムDNAの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することにより、プローブスコアを算出することであって、ゲノムDNAの候補領域によって捕捉されるバリアントの数が、ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である、算出すること、h)ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること、i)ゲノムDNAの領域の最終セットに含めるために、選択されていないゲノムDNAの候補領域に対してステップg)及びh)を繰り返すことであって、選択されていないゲノムDNAの候補領域におけるバリアントの数が、1)選択済みのゲノムDNAの領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムDNAの候補領域における直接観察されるバリアントの数と、2)選択済みのゲノムDNAの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムDNAの領域が選択されるまでステップg)及びh)が繰り返される、繰り返すこと、及びj)ゲノムDNAの領域の最終セットの中の各ゲノム領域の核酸配列に相補的な核酸プローブのセットを生成することを含む方法を提供する。
本開示は、シーケンシングによりDNAサンプルのジェノタイピングを行う方法であって、a)上述のように製造された核酸プローブのセットをDNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成すること、b)プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成すること、c)複数のシーケンシングリードを参照ゲノムにマッピングすること、d)マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びe)ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルDNAの遺伝子型を確立することを含む方法も提供する。
本開示は、核酸プローブのセットを使用したシーケンシングによりDNAサンプルのジェノタイピングを行う方法であって、a)複数の直接観察される遺伝的バリアントを含むDNAサンプルからゲノムDNAの複数の領域を選択すること、b)選択されたゲノムDNAの複数の領域へのハイブリダイゼーションのための核酸プローブのセットを識別すること、c)核酸プローブのセットをDNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成すること、d)プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成すること、e)複数のシーケンシングリードを参照ゲノムにマッピングすること、f)マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びg)ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルDNAの遺伝子型を確立することを含む方法も提供する。
本特許または出願書類は、カラーで作成された少なくとも1つの図面を含む。カラー図面(複数可)を含む本特許または特許出願公報の複写は、要請及び必要な料金の支払いに応じて特許庁より提供される。
本明細書で提供されるのは、各プローブが、例えば捕捉に基づく「シーケンシングによるジェノタイピング」方法に使用するための複数の遺伝的バリアントをターゲティングすることができる、核酸プローブのセットを効率的に設計するために使用され得る、概略的なストラテジーである。こうした捕捉に基づく「シーケンシングによるジェノタイピング」方法は、ゲノムのうち、複数の既知の遺伝的バリアントを各々が含み得る、複数の短いセグメント(「ターゲット領域」、各々は通常10から数百の塩基対の長さである)をターゲティングする。個別にターゲティングするバリアントを選択することは、これらの実験では非効率的である。例えば、最悪のシナリオにおいて、各々が独立して選択された100,000のバリアントをターゲティングするには、100,000の短いターゲット領域が必要であり得る。より望ましいシナリオでは、これら100,000のバリアントは一緒にクラスター化され、大幅に少ない数のプローブで捕捉され得る。例えば、より望ましい方法は、25,000の短いターゲット領域(各ターゲット領域が平均4つのバリアントを含む場合)または50,000の短いターゲット領域(各ターゲット領域が平均2つのバリアントを含む場合)のみを捕捉するとともに、ジェノタイピングされ得る100,000のバリアントのセットを識別する。あるいは、プローブのセットは、200,000~400,000のバリアントを捕捉する、100,000の短いターゲット領域を識別し得る(したがって、100,000のバリアントを独立して選択した後に選択される100,000のターゲット領域よりも大幅に性能が優れている可能性が高い)。
本明細書に記載される方法は、大幅に削減されたコスト及び労力で全ゲノムシーケンシングの網羅性に近づくことを目的とする、シーケンシングのためのゲノム領域の小さなセットを識別する。これらの領域は、ターゲットを絞った捕捉実験で良好に機能することが予想されるように選択される。さらに、これらの領域は、合わせて考慮すると、GWAS、祖先の推定、遺伝的血縁者の識別、多遺伝子リスクスコアの推定、及び現在ジェノタイピングアレイに依拠している他の用途のために、ゲノム内の変異を正確に要約する一般的な遺伝的バリアントのセットを含む。
本明細書に記載される方法は、ジェノタイピングアレイに代わるシーケンシングに基づく手段を提供する。本明細書に記載される方法は、複数の祖先にわたる、標準的なアレイよりも良好なゲノムのカバー率を提供する。約1.4Mなどの多数の一般的なバリアントを選択することで、複数の祖先間での精度の高い補完を可能にすることができる。本明細書に記載される方法は、1以上のシーケンシングリードでサンプル当たり約4.5M~5.0Mの一般的なバリアントをカバーすることもできる。本明細書に記載される試薬は、多様な祖先のサンプルに適用することにより、反復的に洗練されている。本明細書に記載される方法の特徴は、各サンプルの全エクソームシーケンシングと並行してデータを生成すること、1.4Mの一般的なバリアントの大部分を選択してゲノム全体の変異の補完を可能にすること、ならびに追加のバリアントが既知のゲノムワイド関連性研究のピーク、ミトコンドリアDNA、Y染色体、及びMHCをターゲティングすることを含むが、これらに限定されない。本明細書に記載される方法は、サンプル当たり約1.4Mのバリアントについて高忠実度の遺伝子型を作成する。これら1.4Mのバリアントは、高深度全ゲノムシーケンシングデータと比較して約98.9%のコール率及び約99.7%の精度を有する。これら1.4Mのバリアントは、ほとんどの用途でアレイ遺伝子型に代わる代替として使用できる。本明細書に記載される方法は、生物情報学的に効率的であり、典型的なエクソーム処理手続きに追加されるCPU時間は約10時間未満である。各サンプルを独立して処理し、取り扱うことができる。
本明細書に記載されるジェノタイピングのためのシーケンシングに基づく手法は、本明細書に記載されるハイスループットDNA捕捉技術に基づいて成り立っている。本明細書に記載されるDNA捕捉方法論は、高度に自動化されており、年間数百万のサンプルを処理するようにスケーリングされている。クオリティの高いエクソームデータ及びジェノタイピングを同時に実行することができるため、結果の統合が容易になる。本明細書に記載される方法には、時間と共に進化し、関心の高い領域またはバリアントのカバー率を改善させることができるという利点もある。本明細書に記載される方法は、価値の高いバリアントにおいて異なる配列カバー率及び精度を実現する。本明細書に記載される方法は、タギングを最大にし、かつ捕捉ターゲットの数を最小にする。本明細書に記載されるプローブセットは、種々のサンプルに対して使用して不良なターゲットを除去/置換することによって検証及び改善されている。プローブは、複数の祖先にわたる遺伝的変異を表すように選択され、実験的に検証されている。プローブセットは、サンプル当たり約1.5Mのバリアント部位をターゲティングし、ターゲティングされる部位はゲノムの約2.6%をカバーする。
本明細書で使用される用語は、特定の実施形態のみを説明することを目的としており、限定を意図するものではない。
本明細書に記載される方法は、各プローブが、プローブと重複するDNAの短鎖を効率的に捕捉し、同様にアラインされ得るシーケンシングリードを作成し得るような、核酸プローブのセットの選択及び製造を提供する。さらに、本明細書に記載される方法は、近傍の観察されていない遺伝的変異(すなわち、補完されるバリアント)の良好な補完及び/または重要な変異の直接的観察を可能にする遺伝的変異を有するゲノムDNAの領域に焦点を当てる。
本明細書に記載される方法は、各プローブが、プローブと重複するDNAの短鎖を効率的に捕捉し、同様にアラインされ得るシーケンシングリードを作成し得るような、核酸プローブのセットの選択及び製造を提供する。さらに、本明細書に記載される方法は、近傍の観察されていない遺伝的変異(すなわち、補完されるバリアント)の良好な補完及び/または重要な変異の直接的観察を可能にする遺伝的変異を有するゲノムDNAの領域に焦点を当てる。
本開示は、シーケンシングによるジェノタイピングのための核酸プローブを製造する方法であって、a)核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、b)複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、c)フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、d)フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、1つまたは複数のプロキシバリアントの存在または非存在を識別すること、e)フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムDNAの複数の候補領域を選択することであって、ゲノムDNAの各候補領域が、約25~約150の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む、選択すること、f)ゲノムDNAの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、g)ゲノムDNAの各候補領域について、ゲノムDNAの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することにより、プローブスコアを算出することであって、ゲノムDNAの候補領域によって捕捉されるバリアントの数が、ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である、算出すること、h)ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること、i)ゲノムDNAの領域の最終セットに含めるために、選択されていないゲノムDNAの候補領域に対してステップg)及びh)を繰り返すことであって、選択されていないゲノムDNAの候補領域におけるバリアントの数が、1)選択済みのゲノムDNAの領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムDNAの候補領域における直接観察されるバリアントの数と、2)選択済みのゲノムDNAの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムDNAの領域が選択されるまでステップg)及びh)が繰り返される、繰り返すこと、及びj)ゲノムDNAの領域の最終セットの中の各ゲノム領域の核酸配列に相補的な核酸プローブのセットを生成することを含む方法を提供する。
本開示は、シーケンシングによるジェノタイピングのための核酸プローブを設計する方法であって、a)核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、b)複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、c)フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、d)フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、1つまたは複数のプロキシバリアントの存在または非存在を識別すること、e)フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムDNAの複数の候補領域を選択することであって、ゲノムDNAの各候補領域が、約25~約150の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む、選択すること、f)ゲノムDNAの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、g)ゲノムDNAの各候補領域について、ゲノムDNAの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することにより、プローブスコアを算出することであって、ゲノムDNAの候補領域によって捕捉されるバリアントの数が、ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である、算出すること、h)ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること、及びi)ゲノムDNAの領域の最終セットに含めるために、選択されていないゲノムDNAの候補領域に対してステップg)及びh)を繰り返すことであって、選択されていないゲノムDNAの候補領域におけるバリアントの数が、1)選択済みのゲノムDNAの領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムDNAの候補領域における直接観察されるバリアントの数と、2)選択済みのゲノムDNAの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムDNAの領域が選択されるまでステップg)及びh)が繰り返される、繰り返すことを含む方法も提供する。
本件の方法は、核酸プローブによって捕捉するための複数の遺伝的バリアントを選択することを含む。これらの選択されたバリアントは、所望の「直接観察される遺伝的バリアント」のセットを構成する。「直接観察される遺伝的バリアント」または「直接観察されるバリアント」は、少なくとも1つのプローブのハイブリダイゼーションによって捕捉され、後にシーケンシングされる、ゲノムDNAに存在するバリアントである。直接観察されるバリアントは、補完されるバリアントを含む残りの遺伝的バリアントとは異なる。補完されるバリアントはいずれも、同じゲノムDNAに存在する可能性が高いが、少なくとも1つのプローブのハイブリダイゼーションによって捕捉されず、したがって、補完されるバリアントは、後にシーケンシングされない。ゲノムDNA及びその後のシーケンシングにおける直接観察されるバリアントの存在が、補完されるバリアントの補完を可能にする。
核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントは、任意の所望の数の既知の一般的なバリアントを含み得る。例えば、M個の既知の遺伝的バリアントのセットは、V1、V2、V3…VMと考えることができる。指数m及びnは、1からMの間で変化し、個々のバリアントを指定するために使用される。各バリアントVmは、既知の染色体位置Pm及びアレルAmのセットを有し、各バリアントVnは、既知の染色体位置Pn及びアレルAnのセットを有する。いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、ありとあらゆる既知の一般的なバリアントを含む。いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、遺伝的バリアントのゲノムワイド関連性のデータベース、遺伝的バリアントの遺伝薬理学的関連性のデータベース、全ミトコンドリア染色体内の遺伝的バリアントを含むデータベース、及び/またはマイクロアレイ内の遺伝的バリアントのデータベース、あるいはそれらのいずれかの組み合わせから選択される。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、遺伝的バリアントのゲノムワイド関連性の1つまたは複数のデータベースから選択される。遺伝的バリアントのゲノムワイド関連性のデータベースのいずれも、含めるための1つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベースは、既知のゲノムワイド関連性ヒットのカタログである(例えば、「ebi.ac.uk/gwas/」のワールドワイドウェブを参照のこと)。いくつかの実施形態では、ソースファイルは「gwas_catalog_v1.0.2-associations_e96_r2019-07-30.tsv.」であった。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース内のすべてのバリアントが選択されるわけではない。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントは、形質とのバリアントの関連性がp値≦10-9を有する場合、複数の直接観察される遺伝的バリアントに入るように選択される。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントは、形質との関連性がp値>10-9を有する場合、複数の直接観察される遺伝的バリアントから除外される。いくつかの実施形態では、このP値解析は、Y染色体及びミトコンドリア染色体に存在するバリアントを除外する。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース(複数可)から選択されるバリアントの数は、約30,000~約45,000である。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連性のデータベース(複数可)から選択されるバリアントの数は、約35,000~約40,000である。いくつかの実施形態では、遺伝的バリアントのゲノムワイド関連のデータベースから選択されるバリアントの数は、約38,000である。遺伝的バリアントのゲノムワイド関連性のデータベース(複数可)から選択されるバリアントの数は、時間と共に変化すると予想される。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、遺伝的バリアントの遺伝薬理学的関連性の1つまたは複数のデータベースから選択される。遺伝的バリアントの遺伝薬理学的関連性のデータベースのいずれも、含めるための1つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベースは、PharmGKBによって遺伝薬理学的関連性について発表されたデータである。いくつかの実施形態では、dbSNP内にあり、薬理遺伝学的に関心のある遺伝子と重複する一塩基多型(SNP)として観察されるすべての部位が含まれる。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベース(複数可)から選択されるバリアントの数は、約2,000~約10,000である。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベース(複数可)から選択されるバリアントの数は、約4,000~約6,000である。いくつかの実施形態では、遺伝的バリアントの遺伝薬理学的関連性のデータベース(複数可)から選択されるバリアントの数は、約5,000である。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、全ミトコンドリア染色体内の遺伝的バリアントを含む1つまたは複数のデータベースから選択される。全ミトコンドリア染色体内の遺伝的バリアントを含むデータベースのいずれも、含めるための1つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。いくつかの実施形態では、全ミトコンドリア染色体は、端から端までタイル状に並べられる。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントは、1つまたは複数のマイクロアレイ内の遺伝的バリアントの1つまたは複数のデータベースから選択される。マイクロアレイ内の遺伝的バリアントのデータベースのいずれも、含めるための1つまたは複数の直接観察される遺伝的バリアントの識別のために使用され得る。例示的なデータベースは、UK Biobankによって使用されているマイクロアレイ上のバリアントである。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、6番染色体のHLA領域、Y染色体、19番染色体上の2つのキラー細胞免疫グロブリン様受容体(KIR)領域、ならびにX染色体上の偽常染色体領域1及び2(Par1及びPar2)における遺伝的バリアントを含む。
いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、6番染色体のHLA領域における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Chr6:28011410-33978119として定義される、6番染色体のHLA領域における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。
いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Y染色体における遺伝的バリアントを含む。
いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、19番染色体上の2つのKIR領域における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Chr19:53961144-55367153及びChr19:110783-760809として定義される、19番染色体上の2つのKIR領域における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。
いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、19番染色体上の2つのKIR領域における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、Chr19:53961144-55367153及びChr19:110783-760809として定義される、19番染色体上の2つのKIR領域における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。
いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、X染色体上のPar1及びPar2における遺伝的バリアントを含む。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベースは、ChrX:10425-2774669及びChrX:155704030-156003450として定義される、X染色体上のPar1及びPar2における遺伝的バリアントを含む。当然ながら、代替のヒトゲノムアセンブリにおける均等な座標も本明細書に含まれる。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベース(複数可)から選択されるバリアントの数は、約700,000~約900,000である。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベース(複数可)から選択されるバリアントの数は、約800,000~約850,000である。いくつかの実施形態では、マイクロアレイ内の遺伝的バリアントのデータベース(複数可)から選択されるバリアントの数は、約830,000である。
いくつかの実施形態では、マルチアレルバリアントが、バイアレルバリアントの1つまたは複数のセットに変換される。変換には2つのステップがあり、1つのステップでは抄録のバリアントの変換が行われ、別のステップでは個々の遺伝子型の変換が行われる。いくつかの実施形態では、元のマルチアレルバリアントのマルチアレル遺伝子型が、分解された遺伝的バリアントの各々のバイアレル遺伝子型に変換されて、遺伝的バリアント間の連鎖不平衡係数及びプロキシ関係の推定が可能になる。本明細書に記載される方法は、マルチアレルバリアントの各々を、すべてに同じ染色体位置が割り当てられているが異なるアレルが割り当てられている一連のバイアレルバリアントに分解することにより、マルチアレルバリアントに対応することができる。例えば、特定のマルチアレルバリアントが1つの参照アレル及び3つの代替アレルを有する場合、マルチアレルバリアントは、3セットのバイアレルバリアント(すなわち、参照アレル及び第1の代替アレル、参照アレル及び第2の代替アレル、ならびに参照アレル及び第3の代替アレル)に変換される。
いくつかの実施形態では、起こり得る補完の成功についてのメトリックを算出するために、1000人ゲノムプロジェクト(1KGと表記される)の全ゲノムシーケンシングデータセットを調達した。26の異なる集団からの2,504サンプルの高カバー率(30x)シーケンシングは、New York Genome Centerによって2019年5月に商用利用のために発表された(「internationalgenome.org/data-portal/data-collection/30x-grch38」のワールドワイドウェブを参照のこと)。
本件の方法は、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成することも含む。複数の直接観察される遺伝的バリアントからの低信頼度バリアントの排除は、選択されるバリアントを信頼度の高いバリアントに限定するためのクオリティ管理として役立つ。いくつかの実施形態では、複数の潜在的な直接観察される遺伝的バリアントから低信頼度バリアントを排除すると、約1500万のバリアントが保持される。複数の直接観察される遺伝的バリアントからの低信頼度バリアントの排除には、以下のいずれか1つまたは複数が含まれ得る。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することは、所望の閾値未満のマイナーアレル頻度(MAF)を有するすべてのバリアントを排除することを含む。例えば、アレル頻度範囲は、fminからfmaxと考えることができる。Vにおけるバリアントは、fmin以上fmax以下のマイナーアレル頻度を有するバリアントに制限され得る。例えば、fmaxは、0.50とすることができる。さらに、fminは、1%(0.01)または5%(0.05)とすることができる。いくつかの実施形態では、所望の閾値は1%(0.01)である。いくつかの実施形態では、このMAF閾値を0.1%(0.001)まで下げることができる。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することは、所望の閾値を超える欠測があるすべてのバリアントを排除することを含む。いくつかの実施形態では、所望の閾値は2%である。
いくつかの実施形態では、複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することは、サンプル集団のいずれかにおいてHardy-Weinberg検定でP値<10-8の関連性を有するバリアントを除外することを含む。
本件の方法は、フィルタリングされた複数の潜在的な直接観察される遺伝的バリアントをフェージングすることも含む。いくつかの実施形態では、本件の方法は、1000ゲノムサンプルまたは別の参照パネルで観察されるすべてのバリアントをフェージングすることを含む。これらのバリアントのフェージングは、方法及びアルゴリズムが、より良好に機能する「直接観察されるバリアント」及び「プローブ」を選択するために役立つ。フェージングは、サンプルごとに2つの染色体の各々におけるバリアントの配列の最良の推定値を作成する。1000ゲノム参照パネル(または参照個体の別のパネル)におけるバリアントをフェージングすると、欠測データの取り扱いならびにバリアント間の連鎖不均衡及びプロキシ関係の推定値が改善される。これに対し、ジェノタイピングには、両染色体の組み合わせにおける特定のアレルのカウントに関する情報しかない。例えば、アレルカウント0,1,2,2,1,1の配列は、各染色体上の2つの配列を表す2つのバイナリ配列0,1,1,1,1,1及び0,0,1,1,0,0としてフェージングされ得る。遺伝子型コールのフェージングは、SHAPEIT4(「odelaneau.github.io/shapeit4/」のワールドワイドウェブを参照のこと)などの市販のソフトウェアにより、すべての通常のデフォルトを使用して実施することができる。
本件の方法は、フィルタリングされた複数の直接観察される遺伝的バリアントのうちの直接観察されるバリアントの各々について、1つまたは複数のプロキシバリアントの存在または非存在を識別することも含む。フィルタリングされた複数の直接観察される遺伝的バリアントのうちのバリアントの各々は、潜在的に、プローブされもシーケンシングされもしない他のバリアントのプロキシ(すなわち、プロキシバリアント)である可能性がある(すなわち、プロキシバリアントは、直接観察されるバリアントの存在に基づいて、サンプルDNAゲノムへと補完される)。これらのプロキシ関係は、連鎖不均衡により、ヒトゲノムにおける近傍のバリアントの間によく見られる。例えば、2つのバリアント間のプロキシ関係を記述するために、バリアントVmとVnとの間の連鎖不均衡関係を記述するエントリRmnを含む行列Rを使用することができる。バリアント間の連鎖不均衡の好適な尺度はいくつも存在し、本明細書に記載される方法において使用することができる。いくつかの実施形態では、直接観察される遺伝的バリアント及びプロキシバリアントが互いから1MB以内にあるとき、また、2つのバリアント間の連鎖不均衡が、連鎖不均衡のr2尺度を使用して所望の閾値(t)を超える相関の二乗を有する場合に、フィルタリングされた複数の直接観察される遺伝的バリアントにおけるバリアントは、ゲノムDNAの別の領域内に対応するプロキシバリアントを有する。調整可能なパラメータtは、2つのバリアントが互いのプロキシとみなされ得る前に必要とされる連鎖不均衡の最小量を表す。いくつかの実施形態では、2つのバリアント間の連鎖不均衡は、連鎖不均衡のr2尺度を使用して少なくとも0.2の相関の二乗(t)を有する。いくつかの実施形態では、2つのバリアント間の連鎖不均衡は、連鎖不均衡のr2尺度を使用して少なくとも0.5の相関の二乗(t)を有する。いくつかの実施形態では、2つのバリアント間の連鎖不均衡は、連鎖不均衡のr2尺度を使用して少なくとも0.8の相関の二乗(t)を有する。いくつかの実施形態では、2つのバリアント間の連鎖不均衡は、連鎖不均衡のr2尺度を使用して少なくとも0.9の相関の二乗(t)を有する。いくつかの実施形態では、2つのバリアント間の連鎖不均衡は、連鎖不均衡のr2尺度を使用して少なくとも1.0の相関の二乗(t)を有する。いくつかの実施形態では、プロキシバリアントは、それに対応する直接観察されるバリアントと比較して、ゲノムDNAの別の候補領域に存在する。したがって、Rmnの値がtより大きいとき、2つのバリアントVm及びVnは互いのプロキシである。
典型的に、既知の遺伝的バリアントのセットV及びそれらの連鎖不均衡関係Rは、個体の小さなセットのシーケンシングまたはジェノタイピングによって推定することができる。シーケンシングのために選択される領域のクオリティは、このセット内の個体の数が増加するにつれて改善する。さらに、このセットの個体は多様な祖先をもつべきであるか、または、少なくとも、選択されるターゲット領域を使用して研究される個体の祖先構成と一致することが望ましい。
いくつかの実施形態では、直接観察されるバリアントの各々について、1つまたは複数のプロキシバリアントの存在または非存在を識別することは、連鎖不均衡に関するソフトウェアによって行うことができる。そのような例の1つは、通常のデフォルトを使用するemeraLDである(「github.com/statgen/emeraLD」のワールドワイドウェブを参照のこと)。このようなソフトウェアを使用することで、互いの1Mb以内にあり、所望の閾値tを超える相関の二乗を有するバリアントのペアのリストを生成することができる。
本件の方法は、核酸プローブによって捕捉するためのゲノムDNAの複数の候補領域(すなわち、ターゲット領域)を選択することも含む。1つの目標は、ゲノムDNAのK個の候補領域のセット、T=T1、T2、T3、…TKを識別することである。指数kは、1からKの間で変化し、ゲノムDNAの個々の候補領域を指定するために使用することができる。ゲノムDNAの各候補領域Tkは、開始位置のStart(Tk)と、終了位置のEnd(Tk)と、対応するプローブスコアのScore(Tk)とを有し、プローブスコアは、ターゲットを絞った実験におけるゲノムDNAの候補領域の期待性能を表す。ゲノムDNAの候補領域は、フィルタリングされた複数の直接観察される遺伝的バリアントを含む。
調整可能なパラメータLは、ゲノムDNAの各候補領域の最大許容長を定義し、これは、ゲノムDNAの候補領域の開始位置Start(Tk)と終了位置End(Tk)との間の塩基の距離である。L=1に設定すると、標準的なアレイを設計するために使用されることの多いペアワイズタギングアルゴリズムに類似したストラテジーがもたらされる。これに対し、本明細書に記載される本件の方法では、25~150の範囲のLを使用することができる。いくつかの実施形態では、ゲノムDNAの各候補領域は、約25~約150の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約35~約140の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約45~約130の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約55~約125の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約65~約125の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約75~約125の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約85~約125の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約95~約125の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約105~約125の塩基を含み、フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む。いくつかの実施形態では、ゲノムDNAの各候補領域は、約120~約125の塩基を含む。
いくつかの実施形態では、ゲノムDNAの複数の候補領域は、約500万~約5000万のバリアントを含む。いくつかの実施形態では、ゲノムDNAの複数の候補領域は、約1000万~約4000万のバリアントを含む。いくつかの実施形態では、ゲノムDNAの複数の候補領域は、約2000万~約3000万のバリアントを含む。
いくつかの実施形態では、ゲノムDNAの複数の候補領域の全体は、約100万~約1億の塩基対を含む。いくつかの実施形態では、ゲノムDNAの複数の候補領域の全体は、約500万~約7500万の塩基対を含む。いくつかの実施形態では、ゲノムDNAの複数の候補領域の全体は、約1000万~約5000万の塩基対を含む。いくつかの実施形態では、ゲノムDNAの複数の候補領域の全体は、約2000万~約4000万の塩基対を含む。
いくつかの実施形態では、ゲノムDNAの複数の候補領域は、別個の解析群に分割される。いくつかの実施形態では、ゲノムDNAの複数の候補領域は、別個の染色体解析群に分割される。
いくつかの実施形態では、ゲノムDNAの複数の候補領域は、フィルタリングされた複数の直接観察される遺伝的バリアントの中の2つ以上の直接観察されるバリアントを含む。例えば、120塩基を含むゲノムDNAの候補領域は、4つの直接観察されるバリアント(すなわち、V1、V2、V3、及びV4)を含むことがある。このシナリオでは、4つの直接観察されるバリアントの各々が、核酸プローブセットでプローブされるDNAの領域に存在する。ゲノムDNAの120塩基の候補領域は、最初のバリアントの位置で開始し得る(すなわち、V1…V2…V3…V4…)。ゲノムDNAの120塩基の候補領域は、最後のバリアントの位置で終了し得る(すなわち、…V1…V2…V3…V4)。あるいは、ゲノムDNAの120塩基の候補領域は、これらのバリアント位置以外の位置で開始及び終了してもよい(すなわち、…V1…V2…V3…V4…)。120塩基を含み、直接観察されるバリアントを含むゲノムDNAの候補領域は、多数の異なるものが存在し得る(すなわち、候補領域の開始位置をシフトすることによる)。したがって、120塩基を含む、ゲノムDNAの複数の異なる候補領域が、同じ直接観察されるバリアント(複数可)を含むことができる。
本件の方法は、ゲノムDNAの各候補領域について、それにハイブリダイズするプローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出することも含む。クオリティスコアは、どのプローブ(及びゲノムDNAの対応する候補領域)を避けるべきかを決定するために使用することができる。上述のように、120塩基を含むゲノムDNAの複数の異なる候補領域が、同じ直接観察されるバリアント(複数可)を含むことができ、したがって、クオリティスコアは、同じ直接観察されるバリアント(複数可)を含むゲノムDNAのこれらの候補領域の各々について算出される。さらに、異なる直接観察されるバリアント(複数可)を含むゲノムDNAの他の候補領域の各々について、クオリティスコアが算出される。いくつかの実施形態では、クオリティスコアを算出することは、ゲノムDNAの候補領域のマッピング可能性メトリック、挿入-欠失メトリック、及び分類メトリックの各々についての成分スコアを決定することを含む。クオリティスコアは、これら3種の情報を組み合わせることで、DNAの適切な鎖の捕捉において良好に機能するプローブ及び後のシーケンシングリードの逆マッピングを可能にし、挿入-欠失多型または変異を含む領域を避け、また、配列組成及び一意性の関数として推定することができるDNAへのプローブハイブリダイゼーションの期待性能に従って良好に機能する領域を優先的に選択することを目標とする。ゲノムDNAの各候補領域のクオリティスコアは、ゲノムDNAのその候補領域についての成分スコアの各々の乗算の積である。最終結果は、プローブ成功の確率と相関する0~1のクオリティスコアである。成分スコアのいずれかがゼロであれば、総合的クオリティスコアもゼロになる。
いくつかの実施形態では、マッピング可能性メトリック(またはマルチリードマッピング可能性メトリック)は、所与の領域における長さkのランダムに選択されたリードが一意にマッピング可能である確率である。いくつかの実施形態では、マッピング可能性メトリックは、UMAPメトリックである。いくつかの実施形態では、マッピング可能性メトリックの成分スコアは、マルチリードマッピング可能性メトリック(位置iについてUmapMRMiと表記される)の10倍の指数関数である。いくつかの実施形態では、マッピング可能性メトリックの成分スコアは、exp(10×UmapMRMi-9)であり、ここで、UmapMRMiは、ゲノムDNAの候補領域内のバリアント位置iのマルチリードマッピング可能性メトリックである。いくつかの実施形態では、UMAPマッピングメトリック、特に100bpマルチリードマッピング可能性メトリックは、ゲノム全体で事前に算出され、ダウンロード可能な表にまとめられている(「bismap.hoffmanlab.org/」のワールドワイドウェブを参照のこと)。
いくつかの実施形態では、挿入-欠失メトリックは、ゲノムDNAの候補領域内の塩基の挿入または欠失(例えば、挿入-欠失多型または変異)の存在または非存在の尺度である。挿入-欠失は、位置iが挿入-欠失変異に連結されているかのように含まれ、次いでこの位置がダウンウェイトされる。いくつかの実施形態では、挿入-欠失変異の成分スコアは、exp(SV scorei)である。いくつかの実施形態では、バリアント位置iが挿入-欠失変異に連結していない場合、または5塩基未満の挿入-欠失変異に連結している場合、SV scoreiは2である。いくつかの実施形態では、バリアント位置iが5塩基以上10塩基以下の挿入-欠失変異(例えば、中サイズの挿入-欠失バリアント)に連結している場合、SV scoreiは1である。いくつかの実施形態では、バリアント位置iが10塩基を超える挿入-欠失変異(例えば、大サイズの挿入-欠失)に連結している場合、SV scoreiは0である。いくつかの実施形態では、バリアント位置が挿入-欠失バリアントの近くにない場合、SV scoreiは2であり、バリアント位置が≧5かつ<10塩基の挿入-欠失バリアントの近くにある場合、SV scoreiは1であり、バリアント位置が≧10塩基の挿入-欠失バリアントの近くにある場合、SV scoreiは0である。調整可能なパラメータは、ゲノムDNAの候補領域に含まれる挿入-欠失多型の最大長を定義することができる。この調整可能なパラメータは、ターゲティングに使用されるプローブと、調査される各サンプルに存在する配列との間のミスマッチに対する許容度に依存し得る。
いくつかの実施形態では、ゲノムDNAの候補領域の分類メトリックは、第1のカテゴリ(例えば、性能が最も不良なカテゴリ)、第2のカテゴリ(例えば、性能が不良なカテゴリ)、第3のカテゴリ(例えば、性能が不十分なカテゴリ)、及び第4のカテゴリ(例えば、性能が良好なカテゴリ)を含む。最も良好な性能から最も不良な性能への順序は、第4のカテゴリ、第3のカテゴリ、第2のカテゴリ、及び第1のカテゴリである。いくつかの実施形態では、分類メトリックの第1の成分スコアは、exp(Region_scorei)である位置によるスコアであり、これにより、第1のカテゴリのバリアント位置iは0としてスコア付けされ、第2のカテゴリのバリアント位置iは1としてスコア付けされ、第3のカテゴリのバリアント位置iは1.6としてスコア付けされ、第4のカテゴリのバリアント位置iは2としてスコア付けされる。いくつかの実施形態では、分類メトリックの最小絶対距離スコアである第2の成分スコアは、
であり、ここで、dist2category1iは、第1のカテゴリのバリアント位置iから領域までの最小絶対距離である。いくつかの実施形態では、分類メトリックの第3の成分スコアは、
であり、ここで、dist2category2iは、第2のカテゴリのバリアント位置iから領域までの最小絶対距離である。これら2つの成分スコアは、プローブから作成されるリードが不良なアラインメントを有し得るように、カテゴリ1またはカテゴリ2(すなわち、不良な領域または最も不良な領域)ではないが非常に近いプローブをダウンウェイトする。
いくつかの実施形態では、ゲノムDNAの特定の候補領域を特定のカテゴリに入れるために使用される形質は、対応する相補的プローブ/プライマーの%GC含量であり得る。例えば、プローブ/プライマーの%GC含量は、約40%~約55%であることが望ましい。したがって、いくつかの実施形態では、第1のカテゴリは、%GC含量が約40%未満の対応するプローブ/プライマーを有し得、第2のカテゴリは、%GC含量が55%超の対応するプローブ/プライマーを有し得、第3のカテゴリは、%GC含量が約50%~約55%の対応するプローブ/プライマーを有し得、第4のカテゴリは、%GC含量が約40%~約55%の対応するプローブ/プライマーを有し得る。ゲノムDNAの特定の候補領域をカテゴリ分けするために使用できる追加の形質は、プライマー/プローブの融解温度、プライマー/プローブのアニーリング温度、GCクランプの存在または非存在、3’末端の安定性などを含むが、これらに限定されない。これらの形質の各々は、ユーザの所望の優先傾向に基づいて4つのカテゴリに分割され得る。
総合的クオリティスコアは、5つの成分スコアの乗算の積である。いくつかの実施形態では、ゲノムDNAの各候補領域のクオリティスコアは、最大スコア(exp(5)×1.22;またはおよそ213.7149である)で除算することによって0~1にスケーリングされ、それにより、ゲノムDNAの各候補領域のクオリティスコアが作成される。
総合的クオリティスコアに関して、ゲノムDNAの特定の候補領域に対してどのプローブを選択するかについて下される決断は相対的であり得る。したがって、多くの近傍のプローブのスコアを下げる領域的特性(GC含量など)は、必ずしもその領域を考慮から除外するとは限らない。むしろ、我々の方法は、そのような領域で利用可能な最適なプローブの選択を試みる。さらに、クオリティスコアは、ゲノム全体で均等に分布しているプローブを優先するメトリックを含むこともできる。
本件の方法は、ゲノムDNAの各候補領域についてプローブスコアを算出することも含む。いくつかの実施形態では、プローブスコアは、ゲノムDNAの候補領域によって捕捉されるバリアントの数をクオリティスコアに乗算することによって算出される。例えば、ゲノムDNAの各候補領域Tkは、遺伝的バリアントのセットと重複する可能性があり、これはOverlapSet(Tk)と呼ぶことができ、Start(Tk)とEnd(Tk)との間に位置するすべての遺伝的バリアントを含む。ゲノムDNAの各候補領域Tkは、それが直接重複するバリアントに加えて、OverlapSet(Tk)にプロキシを有するバリアントも捕捉する。このセットを領域Tkのプロキシセットと呼ぶことができ、これはProxySet(Tk)と呼ぶことができ、OverlapSet(Tk)におけるすべてのバリアントだけでなく、Rmn>tとなるようにOverlapSet(Tk)内に対応するバリアントnが存在する他のバリアントmのすべてを含む。したがって、いくつかの実施形態では、ゲノムDNAの候補領域によって捕捉されるバリアントの数は、ゲノムDNAの候補領域によって捕捉される直接観察される(すなわち、プローブにハイブリダイズされる候補領域内の)バリアントの数と、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である。
例えば、ゲノムDNAの特定の候補領域が、3つの直接観察されるバリアント(すなわち、V1、V2、及びV3)を含み、V1が、2つの対応するプロキシバリアントPVa及びPVbをゲノムDNAの異なる候補領域内に有し、V2が、4つの対応するプロキシバリアントPVc、PVd、PVe、及びPVfをゲノムDNAの異なる候補領域内に有し、V3が、5つの対応するプロキシバリアントPVg、PVh、PVi、PVj、及びPVkをゲノムDNAの異なる候補領域に有すると仮定すると、ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数は3(すなわち、V1、V2、及びV3)であり、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数は11(すなわち、PVa、PVb、PVc、PVd、PVe、PVf、PVg、PVh、PVi、PVj、及びPVk)である。したがって、ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和は、14である。したがって、ゲノムDNAのこの特定の候補領域のプローブスコアは、クオリティスコアと14との乗算の積である。
本件の方法は、ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択することも含む。いくつかの実施形態では、最も高いプローブスコアを有するゲノムDNAの単一の候補領域が、ゲノムDNAの領域の最終セットに含めるために選択される。いくつかの実施形態では、最も高いプローブスコアを有するゲノムDNAの2つ以上の候補領域が、ゲノムDNAの領域の最終セットに含めるために選択される。いくつかの実施形態では、最も高いプローブスコアを持つゲノムDNAの候補領域が複数存在する場合、ゲノム全体でより均等な間隔をおいたゲノムDNAの候補領域(複数可)が選択される。
実験的に測定するゲノムDNAの候補領域のセットを選択する際、1つの目標は、T内の領域の数を最小にして、総合的プローブスコアScore(Tk)によって要約されるこれらの領域の総合的クオリティを最大にし、ゲノムDNAの候補領域のProxySet(Tk)の和集合で捕捉されるバリアントの数を最大にすることである。同様に機能するゲノムDNAの候補領域のセットが複数存在する場合、ゲノム全体で均等な間隔をおいたゲノムDNAの候補領域のセットは、実際には代替よりも性能が優れていると思われるため、これらの均等な間隔をおいたゲノムDNAの候補領域のセットを優先することができる。
本明細書に記載されるように、本明細書に記載される方法における一ステップは、評価されるゲノムDNAの候補領域のセットの識別である。ヒトゲノムはおよそ30億塩基対の長さであるため、長さLのゲノムDNAの潜在的な候補領域が3×109個ほど存在する可能性がある(Lがゲノムサイズに比して小さい場合)。潜在的に選択される候補バリアントの数は大幅に小さく、典型的にはバリアント5~5000万個ほどである(バリアントのアレル頻度範囲に依存する)。ゲノムDNAの候補領域のリストには、各バリアントについてのゲノムDNAの推奨候補領域がシードされる。このゲノムDNAの推奨候補領域には、このバリアントと、その右側の塩基対L個以内にあるすべてのバリアントとが含まれる。この基準を満たすゲノムDNAのすべての可能な候補領域の中で、最も高いプローブスコアScore(Tk)を有するゲノムDNAの推奨候補領域に焦点が当てられる。塩基対L個分右側にあるが、より高い領域プローブスコアを有するバリアントのサブセットのみを含む領域も考慮することにより、性能の改善が可能である。例えば、バリアントVmならびに3つの追加のバリアントVm+1、Vm+2、及びVm+3がすべて、その右側の塩基対L個分以内にある場合。普遍性を失うことなく、3つのバリアントを座標に従って左から右にソートすることができる。Vm、Vm+1、Vm+2、及びVm+3を含み、最も高い可能なスコアを有する候補領域を識別することができる。Vm、Vm+1、及びVm+2のみ、またはVm及びVm+1のみを含む最高スコアの候補領域を識別することもできる。これらの追加の領域は、それらのプローブスコアが、Vm、Vm+1、Vm+2、及びVm+3を含む最高スコアの領域のプローブスコアよりも高い場合にのみ、ゲノムDNAの潜在的な候補領域のリストに追加される。これらの追加の領域が低い領域プローブスコアを有する場合、それらがプロキシとして機能するバリアントのリストは常に、よりスコアの高い領域がプロキシできる領域のリストよりも小さいかそれと等しくなるため、それらは決して選択されず、安全に無視することができる。この任意選択のステップにより、各反復で考慮する必要があるゲノムDNAの候補領域の数が数十億から数百万に低減し、計算時間が大幅に節約される。
いくつかの実施形態では、追加の調整可能なパラメータを使用して、ゲノムDNAの候補領域ごとに許容されるバリアントの最大数を定義することができる。いくつかの実施形態では、ゲノムDNAの候補領域が、所望の閾値よりも多くの直接観察されるバリアントを含む場合、ゲノムDNAの候補領域は、ゲノムDNAの領域の最終セットから削除される。いくつかの実施形態では、所望の閾値は、直接観察されるバリアント5つである。
本件の方法は、ゲノムDNAの領域の最終セットに含めるために、選択されていないゲノムDNAの候補領域に対してステップg)(すなわち、ゲノムDNAの各候補領域についてプローブスコアを算出すること)及びh)(すなわち、ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること)を繰り返すことも含む。したがって、ゲノムDNAの候補領域のセットを識別するために、本明細書に記載される方法は、一連のステップを反復して進行する。各反復において、ゲノムDNAの1つまたは複数の候補領域が、ゲノムDNAの候補領域の最終セット内に含めるために選択され、ゲノムDNAの他の候補領域のスコアが更新される。ゲノムDNAの候補領域の最終セットに含めるためのゲノムDNAの候補領域の選択は、最大数のゲノムDNAの候補領域が選択されるまで、または関心対象の全バリアントが、選択されたゲノムDNAの候補領域内にある、もしくは選択されたゲノムDNAの候補領域内にプロキシを有するまで継続する。
例えば、前のステップで説明したゲノムDNAの単一または複数の候補領域の第1の選択の後、未だ選択されていない残りのゲノムDNAの候補領域が、プローブスコアの再算出、及びゲノムDNAの領域の最終セットに含めるための選択のために利用可能になる。このようなステップの繰り返しにおいて、特定の選択されていないゲノムDNAの候補領域におけるバリアントの数は、1)選択済みのゲノムDNAの候補領域内のすべての直接観察されるバリアントを除外した、選択されていないゲノムDNAの候補領域における直接観察されるバリアントの数と、2)選択済みのゲノムDNAの候補領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である。
例えば、選択済みのゲノムDNAの候補領域(すなわち、ステップh)からの候補領域1)が、2つの直接観察されるバリアント(すなわち、V1及びV2)を含むと仮定する。また、V1が、2つの対応するプロキシバリアントPVa及びPVbをゲノムDNAの異なる候補領域に有し、V2が、2つの対応するプロキシバリアントPVc及びPVdをゲノムDNAの異なる候補領域に有すると仮定する。また、選択のために考慮されている候補領域2が、2つの直接観察されるバリアント(すなわち、V2及びV3)を有し、ここで、V2が、2つの対応するプロキシバリアントPVc及びPVdをゲノムDNAの異なる候補領域に有し、V3が、2つの対応するプロキシバリアントPVe及びPVfをゲノムDNAの異なる候補領域に有すると仮定する。候補領域2が選択のために考慮される場合、選択されていない候補領域2における直接観察されるバリアントの数は、選択済みのゲノムDNAの候補領域内のすべての直接観察されるバリアント(すなわち、候補領域1からのV2)を除外し、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数は、選択済みのゲノムDNAの候補領域内の直接観察されるバリアントに対応するすべてのプロキシバリアント(すなわち、候補領域1からのV2に関連するプロキシバリアントPVc及びPVd)を除外する。したがって、本明細書に記載されるシナリオでは、候補領域2は2つの直接観察されるバリアント(すなわち、V2及びV3)を含むが、それらのうちの1つだけ(すなわち、V3)が、プローブスコアを決定するための直接観察されるバリアントの数の数に対してカウントされる。さらに、候補領域2は4つのプロキシバリアント(すなわち、PVc、PVd、PVe、及びPVf)を含むが、それらのうちの2つだけ(すなわち、PVe及びPVf)が、プローブスコアを決定するための対応するプロキシバリアントの数の数に対してカウントされる。したがって、現在のシナリオでは、候補領域2のプローブスコアを、候補領域2及び6のクオリティスコアの乗算の積(すなわち、2つの直接観察されるバリアント及び4つの対応するプロキシバリアントの和)とするのではなく、候補領域2のプローブスコアは、候補領域2及び3のクオリティスコアの乗算の積(すなわち、単一の直接観察されるバリアントと、選択済みのDNAの候補領域のいずれにも未だ存在しない2つの対応するプロキシバリアントとの和)である。
いくつかの実施形態では、ステップg)すなわち、ゲノムDNAの各候補領域についてプローブスコアを算出すること)及びh)(すなわち、ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること)が繰り返された後、残りの選択されていないゲノムDNAの候補領域のプローブスコアが更新される。
いくつかの実施形態では、更新は、ゲノムDNAの領域の最終セットに含めるゲノムDNAの候補領域を選択した後、選択済みのゲノムDNAの候補領域に存在した直接観察されるバリアントのプロキシを含む残りの選択されていないゲノムDNAの候補領域のすべてのプローブスコアを再算出することを含む。いくつかの実施形態では、更新は、以前のラウンドの選択でゲノムDNAの領域の最終セットに含めるために既に選択された、直接観察されるバリアント及び/または対応するプロキシバリアントのみを含む選択されていないゲノムDNAの候補領域のすべてを排除することを含む。いくつかの実施形態では、更新は、上述の更新の両方を含む。
いくつかの実施形態では、最大数のゲノムDNAの領域が選択されるまでステップg)及びh)が繰り返される。いくつかの実施形態では、すべての直接観察されるバリアント及びプロキシバリアントがゲノムDNAの領域の最終セット内に含まれるまでステップg)及びh)が繰り返される。
ゲノムDNAの潜在的な候補領域のすべてが、各反復で繰り返される。各領域TkのプローブスコアScore(Tk)の積としての増分値と、選択済みの領域のプロキシセット内にないプロキシセットProxySet(Tk)内のバリアントの数とが測定される。1つの目標は、最も高い増分値を持つゲノムDNAの候補領域を識別し、それを選択することである。同点がある場合、最大の積をもつ同点のゲノムDNAの候補領域と、選択済みのゲノムDNAの候補領域のすべてと同点との間の距離が、選択済みのゲノムDNAの候補領域から最も離れているゲノムDNAの候補領域を選択することによって解消される。この同点解消ストラテジーは、ゲノム全体にわたる選択されたゲノムDNAの候補領域の均等な間隔を促進し、得られるゲノムDNAの候補領域及びデータの解析を現代のハプロタイピング及び補完方法論と組み合わせると方法論の性能を改善する。
最も高い増分値を持つゲノムDNAの候補領域を選択し、必要に応じて同点を解消した後、残りのゲノムDNAの候補領域に関する情報が更新され得る。例えば、2つの任意選択の更新が考慮され得る。第1に、選択済みのゲノムDNAの候補領域のプロキシセット内にはない、ゲノムDNAの各候補領域のプロキシセット内のバリアントの数をキャッシュすることができる。このキャッシングは必須ではないが、計算効率を大幅に改善する。キャッシングが有効化されている場合、ゲノムDNAの特定の候補領域Tkを選択した後、プロキシセットがProxySet(Tk)と重複するすべての領域にアクセスすることができ、選択済みのゲノムDNAの候補領域内にないプロキシセット内のバリアントの数のキャッシュされたカウントが更新されて、プロキシセット内にあるバリアントのうちのいくつかが、選択されたゲノムDNAの候補領域Tkによって捕捉されるようになっていることが反映される。第2に、ゲノムDNAの各候補領域のプローブスコアが、ゲノムDNAの他の選択された候補領域のプローブスコアに依存する場合(例えば、使用されているターゲティング技術が領域の重複を許容しないため、またはターゲティングされているゲノムDNAの候補領域間の配列相補性を考慮しなければならないため)、ゲノムDNAの他の候補領域のプローブスコアは、ゲノムDNAの候補領域Tkが選択されたことを反映するように更新され得る。
次の反復を開始する前に、プロキシセットが空であるか、または現在選択されているゲノムDNAの候補領域のプロキシセットの和集合に完全に含まれている、ゲノムDNAの候補領域のすべてが、評価されるゲノムDNAの候補領域のリストから除去され得る。キャッシングが実装される場合、これらの領域はゼロのキャッシュスコアを有する。これらの領域は、設計を改善しないため決して選択され得ず、計算効率を改善し、将来の反復の速度を上げるために、評価されるゲノムDNAの候補領域のリストから安全に除去することができる。さらに、キャッシュスコアが1である(すなわち、単一の増分バリアントのみを捕捉する)ゲノムDNAの候補領域は、捕捉されるバリアントがゲノムDNAの他のいずれの候補領域によっても捕捉されない場合、最終的なカスタム反復における評価のために安全に確保しておくことができる。この方法論は、ターゲティングのために選択されたゲノムDNAの1つの候補領域のプロキシセットにすべてのバリアントが含まれるまで、または最大数のゲノムDNAの候補領域がターゲティングされるまで、一度に1つのゲノムDNAの候補領域を選択しながら、反復的に進行し得る。
本明細書に記載される方法は、アルゴリズムに組み込むことができる。追加の情報を使用して、アルゴリズムの計算効率を高めることもできる。例えば、そのようなアルゴリズムの難しい態様は、行列Rの格納であり得る。考慮されるバリアントの数Mが大きい場合、M×Mに比例するこの行列のエントリの数は非常に大きくなり、ほとんどの現代のコンピュータのランダムアクセスメモリ(RAM)の容量を超える可能性がある。このような状況では、RAMにロードされるプロキシ関係を確立するユーザ定義の閾値tを超える値をもつエントリのみを用いて、行列のスパース表現を使用することができる。典型的なヒトのデータでは、大きな連鎖不平衡係数は少数のバリアントペアに制限されており、行列のこのスパース表現はメモリに容易に格納でき、必要な計算に使用できる。
さらに、アルゴリズムはゲノム全体に直接適用するのに十分に効率的であり得るが、ターゲティングのためにゲノムDNAの候補領域を選択することが、考慮されているゲノムDNAの他の遠い候補領域のプローブスコアに影響を与えない状況では特に、いくつかの効率が向上する可能性があり、また考慮され得る。これらの効率のうちの1つは、ゲノムDNAの候補領域が独立して選択され得る一連の領域にゲノムを分割することである。最も単純なケースでは、これらの領域は個々の染色体であり得る。より洗練されたケースでは、m及びnが異なる領域内のバリアントをインデックスする場合にRmnが<tであることが保証されるように、ゲノム全体を一連の重複しない領域へとパーティションすることができる。このパーティショニングは、グラフ内の連結成分を識別するように、標準的なアルゴリズムを使用して行うことができる。パーティショニングにより、計算効率が改善され、アルゴリズムが、反復ごとに1つのゲノムDNAの候補領域ではなく、反復ごとにゲノムDNAの候補領域のペア、トリプル、または他の小さなタプルを考慮することが可能になる。
反復アルゴリズムは、既知の連鎖不均衡関係を考慮し、塩基対L個以下の連続したウィンドウに収まるため一緒にターゲティング可能なクラスター化されたバリアントの群を優先し、ゲノムDNAの候補領域のプローブスコアを許容し、プローブをゲノム全体に均等に分布させる、非常にクオリティの高い解を提供することができ、これは、これらすべてを計算効率の高い様式で達成することができる。ゲノムDNAの候補領域の数が適度である場合(または独立して考慮され得るブロックにゲノムを分割するアルゴリズムが使用される場合)、ゲノムDNAの候補領域の可能な組み合わせをすべて網羅的に列挙して評価することが可能である。この場合、グローバルスコアリングスキームを使用して、列挙されたすべての可能性の中からゲノムDNAの候補領域の最適な組み合わせを選択することができる。これを行うために、グローバルスコアリングスキームは、ゲノムDNAの候補領域内のプロキシがあるバリアントの数、ゲノムDNAの候補領域の総合的プローブスコア、及びゲノムDNAの候補領域の均等な間隔を要約することができる。ゲノムDNAの候補領域のセットTを所与として、多くの好適なスコアリングスキームを考案することができる。関心対象の各バリアントには、プロキシセット内のバリアントを含む選択されたゲノムDNAの候補領域の中でスコアが最も高いゲノムDNAの候補領域のプローブスコアが割り当てられ得る。いずれのプロキシセットにも含まれていないバリアントには、ゼロのスコアが割り当てられ得る。すると、各構成についての総合的グローバルスコアは、これらのバリアントごとに割り当てられたスコア(全バリアントでの和)と、連続する選択されたプローブ間の距離の分布の尖度のようなゲノムDNAの候補領域の間隔の均等性の尺度と、ターゲットの数が小さい構成を優先するためのペナルティとの加重和であり得る。このグローバルスコアリングスキームを疑似アニーリングまたは別のモンテカルロアルゴリズムと一緒に使用して、アルゴリズムによって推奨される反復解を洗練することもできる。この洗練は、ゲノムDNAの候補領域のすべての可能な組み合わせのセットが大きすぎて列挙できない状況においても可能であり得る。他のモンテカルロスキームと同様に、疑似アニーリングは、現在の解の近傍にある解を探索し、現在の解の近傍にある新しい解を(例えば、現在選択されているセットにおいてゲノムDNAの候補領域を追加する、除去する、または置換することによって)推奨するための提案スキームと、提案された更新を確率論的に(例えば、グローバルスコアを改善する解を常に受け入れ、グローバルスコアを減少させる解を場合により受け入れて、極小値に縛られることを避けることによって)受け入れるまたは拒否するためのスキームと、プロセスが徐々によりストリンジェントになるようにプロセスの確率論的成分を管理し、いつ収束が達成されたかを判断するためのスキームとを必要とする。
本件の方法は、任意選択で、核酸プローブのセットを生成することも含む。核酸プローブのセット内の個々のプローブの各々は、選択されたゲノムDNAの領域の最終セットの中のゲノム領域の核酸配列に相補的である。したがって、核酸プローブのセットの全体は、選択されたゲノムDNAの領域の最終セットのヌクレオチド配列の全体に相補的である。いくつかの実施形態では、核酸プローブのセットは、約200,000~約700,000のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約200,000~約600,000のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約200,000~約500,000のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約200,000~約400,000のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約500,000~約700,000のプローブを含む。いくつかの実施形態では、核酸プローブのセットは、約600,000~約650,000のプローブを含む。いくつかの実施形態では、核酸プローブのセット内の個々のプローブの各々は、約25~約150の塩基を含み、少なくとも1つの直接観察されるバリアントを含むゲノムDNAの特定の候補領域にハイブリダイズ可能である。いくつかの実施形態では、核酸プローブのセット内の個々のプローブの各々は、約120~約125の塩基を含む。いくつかの実施形態では、核酸プローブのセット内の1つまたは複数の個々のプローブは、それがハイブリダイズするように設計されているゲノムDNAの対応する候補領域と同じ数の塩基を含む。いくつかの実施形態では、核酸プローブのセット内の1つまたは複数の個々のプローブは、それがハイブリダイズするように設計されているゲノムDNAの対応する候補領域よりも大きい数の塩基を含む。
本開示は、シーケンシングによりDNAサンプルのジェノタイピングを行う方法であって、a)本明細書に記載のように製造された核酸プローブのセットをDNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成すること、b)プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成すること、c)複数のシーケンシングリードを参照ゲノムにマッピングすること、d)マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びe)ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルDNAの遺伝子型を確立することを含む方法も提供する。
DNAサンプルは、ジェノタイピングのためのDNA源である任意のDNAサンプルであり得る。いくつかの実施形態では、DNAサンプルは、疾患または状態を有する対象から取得される。いくつかの実施形態では、DNAサンプルは、対象の腫瘍から取得される。
本件の方法は、本明細書に記載されるように製造された核酸プローブのセットをDNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成することを含む。核酸プローブのセットは、ハイブリダイゼーションが起こる典型的な条件下でDNAサンプルに接触させる。いくつかの実施形態では、平均プローブがXのカバー率をもたらす場合、カバー率<0.33Xのプローブは除去され得る。したがって、例えば、複数のシーケンシングリードのうちの直接観察されるバリアントの8X未満のカバー率をもたらすプローブはすべて(平均プローブが24Xのカバー率を有する場合)、核酸プローブのセットから除去される。いくつかの実施形態では、サンプルDNAの非効率的な捕捉をもたらすプローブはすべて、核酸プローブのセットから除去される。いくつかの実施形態では、低い平均カバー率をもたらすが、価値の高いバリアント(ゲノムのうちの既知の機能的領域にマッピングするため、または多くの他のバリアントのプロキシとして機能するため)をターゲティングするプローブは、切り捨てられるのではなく、捕捉試薬中に追加のコピーが補充され得る。この補充は、それらが提供するカバー率を改善し、正確なジェノタイピングを促進するのに役立ち得る。
本件の方法は、プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成することも含む。いくつかの実施形態では、複数のシーケンシングリードは、約3000万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約2500万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約2000万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約1500万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約1000万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約500万のシーケンシングリードを含む。いくつかの実施形態では、複数のシーケンシングリードは、約100万のシーケンシングリードを含む。
本件の方法は、複数のシーケンシングリードを参照ゲノムにマッピングすることも含む。
本件の方法は、マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすることも含む。いくつかの実施形態では、カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される。いくつかの実施形態では、8X未満のカバー率のリードに起因する低信頼度のコールされたバリアントが排除される。いくつかの実施形態では、低信頼度のコールされたバリアントを排除することは、同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む。
本件の方法は、マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすることも含む。いくつかの実施形態では、カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される。いくつかの実施形態では、8X未満のカバー率のリードに起因する低信頼度のコールされたバリアントが排除される。いくつかの実施形態では、低信頼度のコールされたバリアントを排除することは、同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む。
いくつかの実施形態では、本件の方法は、コールされた直接観察されるバリアントを既知のハプロタイプのセットへとフェージングすることをさらに含む。フェージングの例は、例えば、米国特許出願公開第2019/0205502号に見出すことができる。
いくつかの実施形態では、ソフトウェアGLIMPSE(「odelaneau.github.io/GLIMPSE/」のワールドワイドウェブを参照のこと)、または同じ機能性を提供するソフトウェアを使用して、近傍のバリアントからの情報を含めた後に洗練されたバリアントコールを返すことができる。GLIMPSEは、各サンプルについての近傍のバリアントコールを所与として、カバー率の低いリードからのバリアントコールの不確実性を大幅に減らすことができる。GLIMPSEの第2のステップは、これらの洗練されたバリアントコールを取得し、遺伝子型コールを染色体ごとのバリアントコールへとフェージングすることである。GLIMPSEは、デフォルトのパラメータを使用して実行することができる。
いくつかの実施形態では、10Xを超えるカバー率を有するコールされたバリアントのパーセンテージが決定される。そのような実施形態では、10Xを超えるカバー率を有するコールされたバリアントのパーセンテージが約95%未満である場合、核酸プローブのセットがDNAサンプルに再ハイブリダイズされる。この実施形態は、本明細書に記載されるハイブリダイゼーション及びシーケンシングステップの内部対照として機能する。
いくつかの実施形態では、コールされた直接観察されるバリアントが、核酸プローブのセットから排除されたプローブにハイブリダイズ可能なゲノムDNAの領域に近いまたはその中にあるとき、このような直接観察されるバリアントは、コールされた直接観察されるバリアントの最終セットから削除される。
本件の方法は、ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルDNAの遺伝子型を確立することも含む。いくつかの実施形態では、観察されていないバリアントは、DNAサンプル中のコールされた直接観察されるバリアントの存在に基づいて、バリアントの参照パネルから補完される。
いくつかの実施形態では、ソフトウェアMinimac3(「genome.sph.umich.edu/wiki/Minimac3」のワールドワイドウェブを参照のこと)が、各ハプロタイプのバリアントコールからのバリアント補完(観察されておらずシーケンシングされていないバリアントについて)のために使用され得る。Minimac3は、デフォルトのパラメータを使用して実施することができる。
本開示は、核酸プローブのセットを使用したシーケンシングによりDNAサンプルのジェノタイピングを行う方法であって、a)複数の直接観察される遺伝的バリアントを含むDNAサンプルからゲノムDNAの複数の領域を選択すること、b)選択されたゲノムDNAの複数の領域へのハイブリダイゼーションのための核酸プローブのセットを識別すること、c)核酸プローブのセットをDNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成すること、d)プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成すること、e)複数のシーケンシングリードを参照ゲノムにマッピングすること、f)マッピングされたシーケンシングリードに存在する直接観察されるバリアントをコールすること、及びg)ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、サンプルDNAの遺伝子型を確立することを含む方法も提供する。ステップa)からg)は、本明細書の開示に従って行うことができる。
本開示は、本明細書に記載される方法を行うためのシステム及びコンピュータ可読媒体も提供する。
いくつかの実施形態では、本明細書に記載される方法のいずれかを行うためのエンコードされた命令を含むコンピュータ可読媒体を備える、コンピュータプログラム製品が提供される。いくつかの実施形態では、コンピュータプログラム製品は、プロセッサを有するコンピュータに、本明細書に記載される方法のいずれかを行わせることができる。いくつかの実施形態では、コンピュータプログラム製品は、プログラムが、好適なコンピュータまたはシステムによって実装されたとき、本明細書に記載される方法のいずれかを行うために必要なすべてのパラメータを受信し得るようにエンコードされている。いくつかの実施形態では、本明細書に記載される方法のいずれかを行うためのコンピュータシステムが提供され、このシステムは、プロセッサと、プロセッサに接続されたメモリとを備え、メモリは、プロセッサに本明細書に記載される方法のいずれかを行わせる1つまたは複数のコンピュータプログラムをエンコードする。
いくつかの実施形態では、本明細書に記載される方法のいずれかを行うためのエンコードされた命令を含むコンピュータ可読媒体を備える、コンピュータプログラム製品が提供される。いくつかの実施形態では、コンピュータプログラム製品は、プロセッサを有するコンピュータに、本明細書に記載される方法のいずれかを行わせることができる。いくつかの実施形態では、コンピュータプログラム製品は、プログラムが、好適なコンピュータまたはシステムによって実装されたとき、本明細書に記載される方法のいずれかを行うために必要なすべてのパラメータを受信し得るようにエンコードされている。いくつかの実施形態では、本明細書に記載される方法のいずれかを行うためのコンピュータシステムが提供され、このシステムは、プロセッサと、プロセッサに接続されたメモリとを備え、メモリは、プロセッサに本明細書に記載される方法のいずれかを行わせる1つまたは複数のコンピュータプログラムをエンコードする。
コンピュータソフトウェア製品は、当技術分野で公知である任意の好適なプログラミング言語を使用して作成することができる。システムコンポーネントは、当技術分野で公知である任意の好適なハードウェアを含み得る。好適なプログラミング言語及び好適なハードウェアシステムコンポーネントは、米国特許第7,197,400号明細書(例えば、第8~9欄参照)、米国特許第6,691,042号明細書(例えば、第12~25欄参照);米国特許第8,245,517号明細書(例えば、第16~17欄参照);米国特許第7,272,584号明細書(例えば、第4欄、26行~第5欄、18行参照);米国特許第8,203,987号明細書(例えば、第19~20欄参照);米国特許第7,386,523号明細書(例えば、第2欄、26行~第3欄、3行参照;また、第8欄、21行~第9欄、52行参照);米国特許第7,353,116号明細書(例えば、第5欄、50行~第8欄、5行参照)、米国特許第5,985,352号明細書(例えば、第31欄、37行~第32欄、21行参照)に記載されているものを含む。
いくつかの実施形態では、本明細書におけるコンピュータ実装方法を実行することができるコンピュータシステムは、プロセッサと、固定記憶媒体(すなわち、ハードドライブ)と、システムメモリ(例えば、RAM及び/またはROM)と、キーボードと、ディスプレイ(例えば、モニタ)と、データ入力デバイス(例えば、生または変換後のマイクロアレイデータをシステムに提供することができるデバイス)と、任意選択で、コンピュータ可読媒体(すなわち、リムーバブル記憶装置、例えば、CDまたはDVDドライブ)の読み取り及び/または書き込みが可能なドライブと、を備える。このシステムは、任意選択で、ネットワーク入力/出力デバイスと、インターネットへの接続を可能にするデバイスとも備える。
いくつかの実施形態では、システムが本明細書に記載される方法のいずれかを行うことを可能にするコンピュータ可読命令(例えば、コンピュータソフトウェア製品)(すなわち、本明細書に記載される方法ステップのいずれかを行うためのソフトウェア)は、固定記憶媒体にエンコードされており、システムがユーザに結果を表示すること、または結果をコンピュータ可読命令の第2のセット(すなわち、第2のプログラム)に提供すること、または、固定記憶媒体に存在するデータ構造に、もしくは別のネットワークコンピュータに、もしくはインターネットを介して遠隔地に、結果を送信することを可能にする。
本明細書で開示される主題がより効率的に理解され得るように、以下に実施例を提供する。これらの実施例は例示のみを目的としており、いかなるかたちでも特許請求される主題を限定するものと解釈されてはならないことを理解されたい。
実施例1:パイロット研究
直接観察されるバリアントを選択し、選択された直接観察されるバリアントを含むゲノムDNAの候補領域を選択し、本明細書に記載されるようにプローブセットを選択した後、パイロット研究を実施した。
直接観察されるバリアントを選択し、選択された直接観察されるバリアントを含むゲノムDNAの候補領域を選択し、本明細書に記載されるようにプローブセットを選択した後、パイロット研究を実施した。
1KGサンプルセットから48のサンプルを選択し、CoriellからのこれらのDNAのサンプルにアクセスした(「coriell.org/1/NHGRI/Collections/1000-Genomes-Collections/1000-Genomes-Project」のワールドワイドウェブを参照のこと)。この実施例では、48のサンプルを完全に新しいものであるかのようにみなし、本明細書に記載されるシーケンシングによるジェノタイピングプローブセットによって処理した。48のサンプルのシーケンシングによるジェノタイピングの結果を、30Xのカバー率(フィルタリング後)で全ゲノムシーケンシングから取得された対照結果と比較した。参照パネルは、48のサンプルを除いた1KG WGSデータとみなした。
サンプルのパイロットセットは、多様であるように選択した。1つのサンプルはシーケンシングするために十分なDNAを有しなかったため排除され、したがって47のサンプルが試験用に残った。サンプルについて表1にまとめる。
第1の目的は、プローブが実際にどの程度良好に機能するか(すなわち、プローブセットがゲノム内の目的の位置に特異的な配列を捕捉するかどうか)を決定することであった。最初のプローブセットから特定のプローブを排除する理由として、次の2つを考慮した。1)いくつかのDNAサンプルがシグナルを発生しないようにバリアントのカバー率が低すぎたこと、及び2)多くのリードがそのプローブによって捕捉された箇所でゲノムに容易にマッピングしないことが示されたこと。全体的な目標は、非効率的な捕捉をもたらすプローブを排除し、所望のバリアントについて十分なシグナルを提供しないプローブを排除することであった。多くのプローブが両方のカテゴリに分類された。その結果、達成されるカバー率が低すぎる約14,000のプローブが識別された。
計算実験を実施したところ、排除されたプローブが全体的な補完の性能に大きな違いをもたらさないことが示され、このデータは、観察され得るものを表すためにWGS実験をフィルタリングすることによって観察された。
別の目的は、シーケンシングリードから取り出された情報が、直接観察されるバリアントを補助し、他のバリアントの補完を可能にすることができるかどうかを決定することであった。補完の精度を評価するために、次の2つのプロセスを実施した。1)コールされたバリアントから、排除されたプローブに近いまたはその中にあるバリアントを排除した。そして、2)残りのコールされたバリアントを処理して、補完されたバリアントを(推定1500万のバリアントすべてについて)返した。
データ準備方法-補完のためのバリアントコール
パイロットサンプルに対する補完を実施するために、ハプロタイプの新しい参照セットを使用した。参照は、パイロットサンプルを除去した1KG WGSデータセットであった。この新しい参照データを、1)バリアントのコーリング及びフェージングを改善するためにプログラムGLIMPSEにより、そして2)バリアント補完のためにプログラムMinimac3により、2回使用した。次に、補完されたバリアントコールを、全ゲノムシーケンシングから直接観察されたバリアントコールと比較した。
パイロットサンプルに対する補完を実施するために、ハプロタイプの新しい参照セットを使用した。参照は、パイロットサンプルを除去した1KG WGSデータセットであった。この新しい参照データを、1)バリアントのコーリング及びフェージングを改善するためにプログラムGLIMPSEにより、そして2)バリアント補完のためにプログラムMinimac3により、2回使用した。次に、補完されたバリアントコールを、全ゲノムシーケンシングから直接観察されたバリアントコールと比較した。
補完クオリティの評価
補完クオリティを評価するために、直接観察された遺伝子型と補完された遺伝子型との間の相関の二乗を評価した。このメトリックは、一般に「補完Rsq」または「r2尺度」または「r二乗」と呼ばれ、補完から推定される、真の遺伝子型と実験的に導出された対応物との間の相関係数の二乗である。r2が1.0であるとき、これら2つは同一である。これが0.0に近いとき、実験的に導出された対応物は、ブラインド推定値と同然である。具体的には、全ゲノムシーケンシングデータから、遺伝子型が2つの参照アレルに対するものであれば0としてエンコードされ、遺伝子型が1つの参照及び1つの代替アレルに対するものであれば1としてエンコードされ、遺伝子型が2つの参照アレルに対するものであれば2としてエンコードされる、直接観察される遺伝子型の遺伝子型ベクトルを作成した。補完された遺伝子型のベクトルについては、3つの状態の各々が確率を有するため、これは異なっていた。例えば、0である確率が80%、1である確率が20%、2である確率が0%であり得る。補完された遺伝子型のベクトルについては、0.8*0+0.2*1+0*2から、0.2である遺伝子型の予想が返された。
補完クオリティを評価するために、直接観察された遺伝子型と補完された遺伝子型との間の相関の二乗を評価した。このメトリックは、一般に「補完Rsq」または「r2尺度」または「r二乗」と呼ばれ、補完から推定される、真の遺伝子型と実験的に導出された対応物との間の相関係数の二乗である。r2が1.0であるとき、これら2つは同一である。これが0.0に近いとき、実験的に導出された対応物は、ブラインド推定値と同然である。具体的には、全ゲノムシーケンシングデータから、遺伝子型が2つの参照アレルに対するものであれば0としてエンコードされ、遺伝子型が1つの参照及び1つの代替アレルに対するものであれば1としてエンコードされ、遺伝子型が2つの参照アレルに対するものであれば2としてエンコードされる、直接観察される遺伝子型の遺伝子型ベクトルを作成した。補完された遺伝子型のベクトルについては、3つの状態の各々が確率を有するため、これは異なっていた。例えば、0である確率が80%、1である確率が20%、2である確率が0%であり得る。補完された遺伝子型のベクトルについては、0.8*0+0.2*1+0*2から、0.2である遺伝子型の予想が返された。
ピアソンの相関係数を2つのベクトルで用いた。遺伝子型ごとに47のサンプルしかないということに留意した。バリアント全体での測定を向上させるため、バリアントをアレル頻度によって一緒にプールし(すべてが同じ予想される遺伝子型を有するようにするため)、サンプル及びバリアント間のベクトルの相関付けを実施した。この補完Rsqプロセスは、標準的手法に従った。
図1は、異なる観測データからの補完による差周波数ビンの補完Rsqを示す。最も高い相関(及び最も良好な補完)は、選択されたプローブ領域内のバリアントだけを観察するように全ゲノムシーケンシングをフィルタリングしたときに起こった。このようにして形成された線が、求められる最良の性能を表していた。青い線は、これらのサンプルで直接アッセイされたグローバルスクリーニングアレイを表す(通常のプロトコール下でインハウスで実行した)。パイロット研究からの補完は、少なくともグローバルスクリーニングアレイと同程度に良好であることが所望された。緑の線は、本明細書に記載される処理の後の、直接観察されるシーケンシングによるジェノタイピング設計の補完クオリティを表す。シーケンシングによるジェノタイピング設計は、グローバルスクリーニングアレイよりも大幅に優れた性能を示し、選択したプローブを所与とすると、求められる最良の性能に近かった。このパイロット研究は、シーケンシングによるジェノタイピング設計が、合理的なコストで、グローバルスクリーニングアレイよりも優れた性能を示し得ることを示している。パイロット研究は、単なるシミュレーション研究ではなく、DNAサンプルから補完比較までの2つのアッセイの性能を直接比較するものであった。最後に、シーケンシングによるジェノタイピング設計を、グローバルスクリーニングアレイの3倍のバリアントを有する、MEGAアレイ(Multi-Ethnic Genotyping Array)と呼ばれる非常に大きなアレイと比較した。アレイがパイロットデータの全ゲノムシーケンシングバージョンからアッセイするすべてのバリアントを完全に観察することによってアレイをシミュレートしたとき、シーケンシングによるジェノタイピング設計は、MEGAアレイで考えられる最良の性能と同様の性能を示した。実際には、MEGAアレイはより低い性能を有する。シーケンシングによるジェノタイピング設計は、グローバルスクリーニングアレイに匹敵する(MEGAアレイの3分の1である)コストで、MEGAアレイと同様の性能を有していた。したがって、シーケンシングによるジェノタイピング設計は、遺伝情報をアッセイする非常に費用対効果の良いストラテジーを提供し、クオリティの高い補完を行うように良好に機能した。
実施例2:シーケンシングによるジェノタイピング
各々が設計サイトでカバー率について評価された223,266のサンプルについて、シーケンシングによるジェノタイピングアッセイの実行に成功した。コール率は、アクショナブル遺伝子型を有する部位のパーセンテージである。図2は、98.9%の平均コール率、及び95%以上のコール率を有する99.3%のサンプルを示す。
各々が設計サイトでカバー率について評価された223,266のサンプルについて、シーケンシングによるジェノタイピングアッセイの実行に成功した。コール率は、アクショナブル遺伝子型を有する部位のパーセンテージである。図2は、98.9%の平均コール率、及び95%以上のコール率を有する99.3%のサンプルを示す。
本明細書に記載されるものに加えて、記載されている主題の様々な改変形態が、前述の説明から当業者には明らかとなろう。かかる改変形態も、添付の特許請求の範囲に含まれることが意図されている。本願で引用される各参考文献(学術誌記事、米国及び米国以外の特許、特許出願公報、国際特許出願公報、遺伝子バンク受入番号などを含むが、これらに限定されない)は、その全体が参照により本明細書に組み込まれている。
Claims (98)
- シーケンシングによるジェノタイピングのための核酸プローブを製造する方法であって、
a)前記核酸プローブによって捕捉するための複数の直接観察される遺伝的バリアントを選択すること、
b)前記複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除し、それにより、フィルタリングされた複数の直接観察される遺伝的バリアントを作成すること、
c)前記フィルタリングされた複数の直接観察される遺伝的バリアントをフェージングすること、
d)前記フィルタリングされた複数の直接観察される遺伝的バリアントのうちの各バリアントについて、1つまたは複数のプロキシバリアントの存在または非存在を識別すること、
e)前記フィルタリングされた複数の直接観察される遺伝的バリアントを含むゲノムDNAの複数の候補領域を選択することであって、ゲノムDNAの各候補領域が、約25~約150の塩基を含み、前記フィルタリングされた複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む、前記選択すること、
f)ゲノムDNAの各候補領域について、プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、
g)ゲノムDNAの各候補領域について、前記ゲノムDNAの候補領域によって捕捉されるバリアントの数を前記クオリティスコアに乗算することにより、プローブスコアを算出することであって、前記ゲノムDNAの候補領域によって捕捉される前記バリアントの数が、前記ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数と、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である、前記算出すること、
h)ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること、
i)前記ゲノムDNAの領域の最終セットに含めるために、選択されていないゲノムDNAの候補領域に対してステップg)及びh)を繰り返すことであって、前記選択されていないゲノムDNAの候補領域におけるバリアントの数が、1)選択済みのゲノムDNAの領域内のすべての直接観察されるバリアントを除外した、前記選択されていないゲノムDNAの候補領域における直接観察されるバリアントの数と、2)選択済みのゲノムDNAの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和であり、最大数のゲノムDNAの領域が選択されるまでステップg)及びh)が繰り返される、前記繰り返すこと、及び
j)前記ゲノムDNAの領域の最終セットの中の各前記ゲノム領域の前記核酸配列に相補的な核酸プローブのセットを生成すること
を含む前記方法。 - 前記複数の直接観察される遺伝的バリアントが、遺伝的バリアントのゲノムワイド関連性のデータベース、遺伝的バリアントの遺伝薬理学的関連性のデータベース、全ミトコンドリア染色体内の遺伝的バリアントを含むデータベース、及び/またはマイクロアレイ内の遺伝的バリアントのデータベース、あるいはそれらのいずれかの組み合わせから選択される、請求項1に記載の方法。
- 形質との関連性の二乗がp値≦10-9を有する場合、前記遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントが、前記複数の直接観察される遺伝的バリアントに保持され、形質との関連性の二乗がp値>10-9を有する場合、前記遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントが、前記複数の直接観察される遺伝的バリアントから除外される、請求項2に記載の方法。
- 前記マイクロアレイ内の遺伝的バリアントのデータベースが、6番染色体のHLA領域、Y染色体、19番染色体上の2つのKIR領域、ならびにX染色体上の偽常染色体領域1及び2(Par1及びPar2)における遺伝的バリアントを含む、請求項2に記載の方法。
- マルチアレルバリアントが、バイアレルバリアントの1つまたは複数のセットに変換される、請求項1~4のいずれか1項に記載の方法。
- 前記複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することが、所望の閾値未満のマイナーアレル頻度(MAF)を有するすべてのバリアントを排除することを含む、請求項1~5のいずれか1項に記載の方法。
- 前記所望の閾値が1%である、請求項6に記載の方法。
- 前記複数の直接観察される遺伝的バリアントから低信頼度バリアントを排除することが、所望の閾値を超える欠測があるすべてのバリアントを排除することを含む、請求項1~7のいずれか1項に記載の方法。
- 前記所望の閾値が2%である、請求項8に記載の方法。
- 前記直接観察される遺伝的バリアント及びプロキシバリアントが互いから1MB以内にあるとき、また、前記2つのバリアントの間の連鎖不均衡が、前記連鎖不均衡のr2尺度を使用して少なくとも0.2、少なくとも0.5、少なくとも0.8、少なくとも0.9、または少なくとも1.0の相関の二乗を有する場合に、前記フィルタリングされた複数の直接観察される遺伝的バリアントのうちのバリアントが、ゲノムDNAの別の候補領域内に対応するプロキシバリアントを有する、請求項1~9のいずれか1項に記載の方法。
- 前記ゲノムDNAの複数の候補領域が別個の解析群に分割され、これにより、各染色体が別個の解析群である、請求項1~10のいずれか1項に記載の方法。
- ゲノムDNAの各候補領域が、約120~約125の塩基を含む、請求項1~11のいずれか1項に記載の方法。
- 前記ゲノムDNAの複数の候補領域が、約500万~約5000万のバリアントを含む、請求項1~12のいずれか1項に記載の方法。
- 前記ゲノムDNAの複数の候補領域の全体が、約100万~約1億の塩基対、約500万~約7500万の塩基対、約1000万~約5000万の塩基対、または約2000万~約4000万の塩基対を含む、請求項1~13のいずれか1項に記載の方法。
- ゲノムDNAの複数の候補領域が、前記フィルタリングされた複数の直接観察される遺伝的バリアントの中の2つ以上のバリアントを含む、請求項1~14のいずれか1項に記載の方法。
- 前記クオリティスコアを算出することが、前記ゲノムDNAの候補領域のマッピング可能性メトリック、挿入-欠失変異メトリック、及び分類メトリックの各々についての成分スコアを決定することを含み、前記クオリティスコアが、前記成分スコアの各々の乗算の積である、請求項1~15のいずれか1項に記載の方法。
- 前記マッピング可能性メトリックの前記成分スコアが、exp(10×UmapMRMi-9)であり、ここで、UmapMRMiは、前記ゲノムDNAの候補領域内のバリアント位置iのマルチリードマッピング可能性メトリックである、請求項16に記載の方法。
- 前記挿入-欠失変異メトリックが、前記ゲノムDNAの候補領域内の塩基の挿入または欠失の存在または非存在の尺度であり、前記挿入-欠失変異の成分スコアが、exp(SV scorei)であり、ここで、前記バリアント位置iが挿入-欠失変異に連結していない場合、または5塩基未満の挿入-欠失変異に連結している場合、前記SV scoreiは2であり、前記バリアント位置iが5塩基以上10塩基以下の挿入-欠失変異に連結している場合、前記SV scoreiは1であり、前記バリアント位置iが10塩基を超える挿入-欠失変異に連結している場合、前記SV scoreiは0である、請求項16に記載の方法。
- 前記ゲノムDNAの候補領域の前記分類メトリックが、第1のカテゴリ、第2のカテゴリ、第3のカテゴリ、及び第4のカテゴリを含み、前記分類メトリックの第1の成分スコアは、exp(Region_scorei)であり、これにより、前記第1のカテゴリのバリアント位置iは0としてスコア付けされ、前記第2のカテゴリのバリアント位置iは1としてスコア付けされ、前記第3のカテゴリのバリアント位置iは1.6としてスコア付けされ、前記第4のカテゴリのバリアント位置iは2としてスコア付けされ、前記分類メトリックの第2の成分スコアは、(1+1.2(min(dist2category1i,60)/60))であり、ここで、dist2category1iは、前記第1のカテゴリの前記バリアント位置iから領域までの最小絶対距離であり、前記分類メトリックの第3の成分スコアは、(1+1.2(min(dist2category2i,60)/60))であり、ここで、dist2category2iは、前記第2のカテゴリの前記バリアント位置iから領域までの最小絶対距離である、請求項16に記載の方法。
- ゲノムDNAの各候補領域の前記クオリティスコアが、最大スコアで除算することによって0~1にスケーリングされ、それにより、ゲノムDNAの各候補領域の前記クオリティスコアが作成される、請求項16~19のいずれか1項に記載の方法。
- 最も高いプローブスコアを持つゲノムDNAの候補領域が複数存在する場合、ゲノム全体でより均等な間隔をおいた前記ゲノムDNAの候補領域が選択される、請求項1~20のいずれか1項に記載の方法。
- 最も高いプローブスコアを持つ前記ゲノムDNAの1つまたは複数の候補領域の選択が、
3つ以上のバリアントを有し、最も高いプローブスコアを有する前記候補領域を識別すること、
最も高いプローブスコアを有し、3つ以上のバリアントを持つ前記領域のサブセットのみを含む前記候補領域を識別すること、
をさらに含み、前記3つ以上のバリアントを有する前記候補領域の最も高いプローブスコアよりも低いプローブスコアを有する3つ以上のバリアントを持つ前記領域のサブセットのみを含むすべての候補領域が、前記ゲノムDNAの複数の候補領域から除外される、請求項1~20のいずれか1項に記載の方法。 - ゲノムDNAの候補領域が、所望の閾値よりも多くのバリアントを含む場合、前記ゲノムDNAの候補領域が、前記ゲノムDNAの領域の最終セットから削除される、請求項1~20のいずれか1項に記載の方法。
- 前記所望の閾値がバリアント5つである、請求項23に記載の方法。
- ステップg)及びh)が繰り返された後、前記残りの選択されていないゲノムDNAの候補領域についての前記プローブスコアが更新される、請求項1~24のいずれか1項に記載の方法。
- 前記更新が、
前記ゲノムDNAの領域の最終セットに含めるゲノムDNAの候補領域を選択した後、選択済みのゲノムDNAの候補領域に存在したバリアントのプロキシを含む残りの選択されていないゲノムDNAの候補領域の前記すべてのプローブスコアを再算出すること、及び/または
前記ゲノムDNAの領域の最終セットに含めるために選択されたバリアントのみを含む選択されていないゲノムDNAの候補領域のすべてを排除すること
を含む、請求項25に記載の方法。 - すべての直接観察されるバリアント及びプロキシバリアントが前記ゲノムDNAの領域の最終セット内に含まれるまでステップg)及びh)が繰り返される、請求項1~26のいずれか1項に記載の方法。
- 前記核酸プローブのセットが、約500,000~約700,000のプローブを含む、請求項1~27のいずれか1項に記載の方法。
- 前記核酸プローブのセットが、約600,000~約650,000のプローブを含む、請求項1~27のいずれか1項に記載の方法。
- シーケンシングによりDNAサンプルのジェノタイピングを行う方法であって、
a)請求項1~29のいずれか1項に従って製造された核酸プローブのセットを前記DNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成すること、
b)前記プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成すること、
c)前記複数のシーケンシングリードを参照ゲノムにマッピングすること、
d)前記マッピングされたシーケンシングリードに存在する前記直接観察されるバリアントをコールすること、及び
e)ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、前記サンプルDNAの遺伝子型を確立すること
を含む前記方法。 - 前記DNAサンプルが、疾患または状態を有する対象から取得される、請求項30に記載の方法。
- 前記DNAサンプルが、対象の腫瘍から取得される、請求項30に記載の方法。
- 前記複数のシーケンシングリードのうちの前記直接観察されるバリアントの8X未満のカバー率をもたらすプローブが、前記核酸プローブのセットから除去される、請求項30~32のいずれか1項に記載の方法。
- 前記サンプルDNAの非効率的な捕捉をもたらすプローブが、前記核酸プローブのセットから除去される、請求項30~33のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約3000万のシーケンシングリードを含む、請求項30~34のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約2500万のシーケンシングリードを含む、請求項30~34のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約2000万のシーケンシングリードを含む、請求項30~34のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約1500万のシーケンシングリードを含む、請求項30~34のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約1000万のシーケンシングリードを含む、請求項30~34のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約500万のシーケンシングリードを含む、請求項30~34のいずれか1項に記載の方法。
- カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される、請求項30~40のいずれか1項に記載の方法。
- 低信頼度のコールされたバリアントを排除することが、前記同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む、請求項41に記載の方法。
- 前記コールされた直接観察されるバリアントを既知のハプロタイプのセットへとフェージングすることをさらに含む、請求項41または請求項42に記載の方法。
- 10Xを超えるカバー率を有するコールされたバリアントのパーセンテージが決定され、10Xを超えるカバー率を有するコールされたバリアントの前記パーセンテージが約95%未満である場合、前記核酸プローブのセットを前記DNAサンプルに再ハイブリダイズする、請求項41~43のいずれか1項に記載の方法。
- 前記核酸プローブのセットから排除されたプローブに近いまたはその中にある、コールされた直接観察されるバリアントが、前記コールされた直接観察されるバリアントの最終セットから削除される、請求項41~44のいずれか1項に記載の方法。
- 前記観察されていないバリアントが、前記DNAサンプル中のコールされた直接観察されるバリアントの存在に基づいて、バリアントの参照パネルから補完される、請求項30~45のいずれか1項に記載の方法。
- 核酸プローブのセットを使用したシーケンシングによりDNAサンプルのジェノタイピングを行う方法であって、
a)複数の直接観察される遺伝的バリアントを含む前記DNAサンプルからゲノムDNAの複数の領域を選択すること、
b)前記選択されたゲノムDNAの複数の領域へのハイブリダイゼーションのための前記核酸プローブのセットを識別すること、
c)前記核酸プローブのセットを前記DNAサンプルにハイブリダイズさせて、プローブにハイブリダイズしたゲノムDNAを生成すること、
d)前記プローブにハイブリダイズしたゲノムDNAをシーケンシングして、複数のシーケンシングリードを作成すること、
e)前記複数のシーケンシングリードを参照ゲノムにマッピングすること、
f)前記マッピングされたシーケンシングリードに存在する前記直接観察されるバリアントをコールすること、及び
g)ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、前記サンプルDNAの遺伝子型を確立すること
を含む前記方法。 - 前記DNAサンプルが、疾患または状態を有する対象から取得される、請求項47に記載の方法。
- 前記DNAサンプルが、対象の腫瘍から取得される、請求項47に記載の方法。
- 前記選択されたゲノムDNAの複数の領域内の前記複数の直接観察される遺伝的バリアントが、低信頼度の直接観察される遺伝的バリアントを欠いており、フェージングされた直接観察される遺伝的バリアントを含む、請求項47~49のいずれか1項に記載の方法。
- 前記複数の直接観察される遺伝的バリアントが、少なくとも1つの直接観察されるバリアントに関する1つまたは複数のプロキシバリアントを含む、請求項47~50のいずれか1項に記載の方法。
- 前記複数の直接観察される遺伝的バリアントが、遺伝的バリアントのゲノムワイド関連性のデータベース、遺伝的バリアントの遺伝薬理学的関連性のデータベース、全ミトコンドリア染色体内の遺伝的バリアントを含むデータベース、及び/またはマイクロアレイ内の遺伝的バリアントのデータベース、あるいはそれらのいずれかの組み合わせから選択される、請求項47~51のいずれか1項に記載の方法。
- 形質との関連性の二乗がp値≦10-9を有する場合、前記遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントが、前記複数の直接観察される遺伝的バリアントに保持され、形質との関連性の二乗がp値>10-9を有する場合、前記遺伝的バリアントのゲノムワイド関連性のデータベース内のバリアントが、前記複数の直接観察される遺伝的バリアントから除外される、請求項52に記載の方法。
- 前記マイクロアレイ内の遺伝的バリアントのデータベースが、前記6番染色体のHLA領域、前記Y染色体、前記19番染色体上の2つのKIR領域、ならびに前記X染色体上の偽常染色体領域1及び2(Par1及びPar2)における遺伝的バリアントを含む、請求項52に記載の方法。
- マルチアレルバリアントが、バイアレルバリアントの1つまたは複数のセットに変換される、請求項47~54のいずれか1項に記載の方法。
- 低信頼度バリアントが、所望の閾値未満のマイナーアレル頻度(MAF)を有するすべてのバリアントを排除することにより、前記複数の直接観察される遺伝的バリアントから排除される、請求項47~55のいずれか1項に記載の方法。
- 前記所望の閾値が1%である、請求項56に記載の方法。
- 低信頼度バリアントが、所望の閾値を超える欠測があるすべてのバリアントを排除することにより、前記複数の直接観察される遺伝的バリアントから排除される、請求項47~57のいずれか1項に記載の方法。
- 前記所望の閾値が2%である、請求項58に記載の方法。
- 前記直接観察される遺伝的バリアント及びプロキシバリアントが互いから1MB以内にあるとき、また、前記2つのバリアントの間の前記連鎖不均衡が、前記連鎖不均衡のr2尺度を使用して少なくとも0.2、少なくとも0.5、少なくとも0.8、少なくとも0.9、または少なくとも1.0の相関の二乗を有する場合に、前記複数の直接観察される遺伝的バリアントのうちのバリアントが、ゲノムDNAの別の候補領域内に対応するプロキシバリアントを有する、請求項47~59のいずれか1項に記載の方法。
- 前記ゲノムDNAの複数の候補領域が別個の解析群に分割され、これにより、各染色体が別個の解析群である、請求項47~60のいずれか1項に記載の方法。
- 前記核酸プローブのセットが、前記直接観察される遺伝的バリアントを含むゲノムDNAの複数の候補領域を選択することによって識別され、ゲノムDNAの各候補領域が、約25~約150の塩基を含み、前記複数の直接観察される遺伝的バリアントの中の少なくとも1つのバリアントを含む、請求項47~61のいずれか1項に記載の方法。
- ゲノムDNAの複数の候補領域を選択することが、
i)ゲノムDNAの各候補領域について、前記プローブの捕捉効率及びアラインメント成功を推定するクオリティスコアを算出すること、
ii)ゲノムDNAの各候補領域について、前記ゲノムDNAの候補領域によって捕捉されるバリアントの数を前記クオリティスコアに乗算することにより、プローブスコアを算出することであって、前記ゲノムDNAの候補領域によって捕捉される前記バリアントの数が、前記ゲノムDNAの候補領域によって捕捉される直接観察されるバリアントの数と、前記ゲノムDNAの異なる候補領域における対応するプロキシバリアントの数との和である、前記算出すること、及び
iii)ゲノムDNAの領域の最終セットに含めるために、最も高いプローブスコアを有するゲノムDNAの1つまたは複数の候補領域を選択すること
を含む、請求項62に記載の方法。 - 前記ゲノムDNAの領域の最終セットに含めるために、選択されていないゲノムDNAの候補領域に対してステップii)及びiii)を繰り返すことであって、前記選択されていないゲノムDNAの候補領域におけるバリアントの数が、1)選択済みのゲノムDNAの領域内のすべての直接観察されるバリアントを除外した、前記選択されていないゲノムDNAの候補領域における直接観察されるバリアントの数と、2)選択済みのゲノムDNAの領域内の直接観察されるバリアントに対応するすべてのプロキシバリアントを除外した、ゲノムDNAの異なる候補領域における対応する前記プロキシバリアントの数との和であり、最大数のゲノムDNAの領域が選択されるまでステップii)及びiii)が繰り返される、前記繰り返すことをさらに含む、請求項63に記載の方法。
- 前記ゲノムDNAの領域の最終セットの中の各ゲノム領域の前記核酸配列に相補的な前記核酸プローブのセットを生成することをさらに含む、請求項64に記載の方法。
- ゲノムDNAの各候補領域が、約120~約125の塩基を含む、請求項47~65のいずれか1項に記載の方法。
- 前記ゲノムDNAの複数の候補領域が、約500万~約5000万のバリアントを含む、請求項47~66のいずれか1項に記載の方法。
- 前記ゲノムDNAの複数の候補領域の全体が、約100万~約1億の塩基対、約500万~約7500万の塩基対、約1000万~約5000万の塩基対、または約2000万~約4000万の塩基対を含む、請求項47~67のいずれか1項に記載の方法。
- ゲノムDNAの複数の候補領域が、前記フィルタリングされた複数の直接観察される遺伝的バリアントの中の2つ以上のバリアントを含む、請求項47~68のいずれか1項に記載の方法。
- 前記クオリティスコアを算出することが、前記ゲノムDNAの候補領域のマッピング可能性メトリック、挿入-欠失変異メトリック、及び分類メトリックの各々についての成分スコアを決定することを含み、前記クオリティスコアが、前記成分スコアの各々の乗算の積である、請求項63~69のいずれか1項に記載の方法。
- 前記マッピング可能性メトリックの前記成分スコアが、exp(10×UmapMRMi-9)であり、ここで、UmapMRMiは、前記ゲノムDNAの候補領域内の前記バリアント位置iの前記マルチリードマッピング可能性メトリックである、請求項70に記載の方法。
- 前記挿入-欠失変異メトリックが、前記ゲノムDNAの候補領域内の塩基の挿入または欠失の存在または非存在の尺度であり、前記挿入-欠失変異の成分スコアが、exp(SV scorei)であり、ここで、前記バリアント位置iが挿入-欠失変異に連結していない場合、または5塩基未満の挿入-欠失変異に連結している場合、または5塩基未満の挿入-欠失変異に連結している場合、前記SV scoreiは1であり、前記バリアント位置iが5塩基以上10塩基以下の挿入-欠失変異に連結している場合、前記SV scoreiは1であり、前記バリアント位置iが10塩基を超える挿入-欠失変異に連結している場合、前記SV scoreiは0である、請求項70に記載の方法。
- 前記ゲノムDNAの候補領域の前記分類メトリックが、第1のカテゴリ、第2のカテゴリ、第3のカテゴリ、及び第4のカテゴリを含み、前記分類メトリックの第1の成分スコアは、exp(Region_scorei)であり、これにより、前記第1のカテゴリのバリアント位置iは0としてスコア付けされ、前記第2のカテゴリのバリアント位置iは1としてスコア付けされ、前記第3のカテゴリのバリアント位置iは1.6としてスコア付けされ、前記第4のカテゴリのバリアント位置iは2としてスコア付けされ、前記分類メトリックの第2の成分スコアは、(1+1.2(min(dist2category1i,60)/60))であり、ここで、dist2category1iは、前記第1のカテゴリの前記バリアント位置iから領域までの最小絶対距離であり、前記分類メトリックの第3の成分スコアは、(1+1.2(min(dist2category2i,60)/60))であり、ここで、dist2category2iは、前記第2のカテゴリの前記バリアント位置iから領域までの最小絶対距離である、請求項70に記載の方法。
- ゲノムDNAの各候補領域の前記クオリティスコアが、最大スコアで除算することによって0~1にスケーリングされ、それにより、ゲノムDNAの各候補領域の前記クオリティスコアが作成される、請求項70~73のいずれか1項に記載の方法。
- 最も高いプローブスコアを持つゲノムDNAの候補領域が複数存在する場合、ゲノム全体でより均等な間隔をおいた前記ゲノムDNAの候補領域が選択される、請求項63~74のいずれか1項に記載の方法。
- 最も高いプローブスコアを持つ前記ゲノムDNAの1つまたは複数の候補領域の選択が、
3つ以上のバリアントを有し、最も高いプローブスコアを有する前記候補領域を識別すること、
最も高いプローブスコアを有し、3つ以上のバリアントを持つ前記領域のサブセットのみを含む前記候補領域を識別すること
をさらに含み、前記3つ以上のバリアントを有する前記候補領域の最も高いプローブスコアよりも低いプローブスコアを有する3つ以上のバリアントを持つ領域のサブセットのみを含むすべての候補領域が、前記ゲノムDNAの複数の候補領域から除外される、請求項63~75のいずれか1項に記載の方法。 - ゲノムDNAの候補領域が、所望の閾値よりも多くのバリアントを含む場合、前記ゲノムDNAの候補領域が、前記ゲノムDNAの領域の最終セットから削除される、請求項63~76のいずれか1項に記載の方法。
- 前記所望の閾値がバリアント5つである、請求項77に記載の方法。
- ステップii)及びiii)が繰り返された後、残りの選択されていないゲノムDNAの候補領域についての前記プローブスコアが更新される、請求項63~78のいずれか1項に記載の方法。
- 前記更新が、
前記ゲノムDNAの領域の最終セットに含めるゲノムDNAの候補領域を選択した後、選択済みのゲノムDNAの候補領域に存在したバリアントのプロキシを含む残りの選択されていないゲノムDNAの候補領域の前記すべてのプローブスコアを再算出すること、及び/または
前記ゲノムDNAの領域の最終セットに含めるために選択されたバリアントのみを含む選択されていないゲノムDNAの候補領域のすべてを排除すること
を含む、請求項79に記載の方法。 - すべての直接観察されるバリアント及びプロキシバリアントが前記ゲノムDNAの領域の最終セット内に含まれるまでステップii)及びiii)が繰り返される、請求項63~80のいずれか1項に記載の方法。
- 前記核酸プローブのセットが、約500,000~約700,000のプローブを含む、請求項47~81のいずれか1項に記載の方法。
- 前記核酸プローブのセットが、約600,000~約650,000のプローブを含む、請求項47~82のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードのうちの前記直接観察されるバリアントの8X未満のカバー率をもたらすプローブが、前記核酸プローブのセットから除去される、請求項47~83のいずれか1項に記載の方法。
- 前記サンプルDNAの非効率的な捕捉をもたらすプローブが、前記核酸プローブのセットから除去される、請求項47~84のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約3000万のシーケンシングリードを含む、請求項47~85のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約2500万のシーケンシングリードを含む、請求項47~85のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約2000万のシーケンシングリードを含む、請求項47~85のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約1500万のシーケンシングリードを含む、請求項47~85のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約1000万のシーケンシングリードを含む、請求項47~85のいずれか1項に記載の方法。
- 前記複数のシーケンシングリードが、約500万のシーケンシングリードを含む、請求項47~85のいずれか1項に記載の方法。
- カバー率の低いリードに起因する低信頼度のコールされたバリアントが排除されて、コールされた直接観察されるバリアントの最終セットが作成される、請求項47~91のいずれか1項に記載の方法。
- 低信頼度のコールされたバリアントを排除することが、前記同じコールされた直接観察されるバリアントをバリアントの参照パネルから補完することを含む、請求項92に記載の方法。
- 前記コールされた直接観察されるバリアントを既知のハプロタイプのセットへとフェージングすることをさらに含む、請求項92または請求項93に記載の方法。
- 10Xを超えるカバー率を有するコールされたバリアントの前記パーセンテージが決定され、10Xを超えるカバー率を有するコールされたバリアントの前記パーセンテージが約95%未満である場合、前記核酸プローブのセットを前記DNAサンプルに再ハイブリダイズする、請求項92~94のいずれか1項に記載の方法。
- 前記核酸プローブのセットから排除されたプローブに近いまたはその中にある、コールされた直接観察されるバリアントが、前記コールされた直接観察されるバリアントの最終セットから削除される、請求項92~95のいずれか1項に記載の方法。
- 前記観察されていないバリアントが、前記DNAサンプル中のコールされた直接観察されるバリアントの存在に基づいて、バリアントの参照パネルから補完される、請求項47~96のいずれか1項に記載の方法。
- メモリが接続されているデータプロセッサを備えるシステムであって、前記メモリが、
複数の直接観察される遺伝的バリアントを含むDNAサンプルからゲノムDNAの複数の領域を選択すること、
前記選択されたゲノムDNAの複数の領域へのハイブリダイゼーションのための核酸プローブのセットを識別し、前記核酸プローブの前記セットの合成のためにオリゴヌクレオチドシンセサイザに命令を送信すること、
DNAサンプルへの前記核酸プローブの前記セットのハイブリダイゼーションの際に、前記プローブにハイブリダイズしたゲノムDNAの生成物をシーケンシングすることから作成されたDNAシーケンシング装置からの複数のシーケンシングリードを受信すること、
前記複数のシーケンシングリードを参照ゲノムにマッピングすること、
前記マッピングされたシーケンシングリードに存在する前記直接観察されるバリアントをコールすること、及び
ゲノムDNAのシーケンシングされていない領域から観察されていないバリアントを補完し、それにより、前記サンプルDNAの遺伝子型を確立すること
の命令を含むプログラムを含む、前記システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063116085P | 2020-11-19 | 2020-11-19 | |
US63/116,085 | 2020-11-19 | ||
PCT/US2021/060085 WO2022109267A2 (en) | 2020-11-19 | 2021-11-19 | Genotyping by sequencing |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023550242A true JP2023550242A (ja) | 2023-12-01 |
Family
ID=78918559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023520266A Pending JP2023550242A (ja) | 2020-11-19 | 2021-11-19 | シーケンシングによるジェノタイピング |
Country Status (10)
Country | Link |
---|---|
US (1) | US20220154256A1 (ja) |
EP (1) | EP4248445A2 (ja) |
JP (1) | JP2023550242A (ja) |
KR (1) | KR20230109614A (ja) |
CN (1) | CN116323966A (ja) |
AU (1) | AU2021381395A1 (ja) |
CA (1) | CA3193770A1 (ja) |
IL (1) | IL301646A (ja) |
MX (1) | MX2023005748A (ja) |
WO (1) | WO2022109267A2 (ja) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5985345A (en) | 1997-12-12 | 1999-11-16 | Kalamazoo Holdings, Inc. | High temperature extraction of spices and herbs |
US7197400B2 (en) | 2000-12-12 | 2007-03-27 | Affymetrix, Inc. | System and computer software products for comparative gene expression analysis |
US6691042B2 (en) | 2001-07-02 | 2004-02-10 | Rosetta Inpharmatics Llc | Methods for generating differential profiles by combining data obtained in separate measurements |
US7353116B2 (en) | 2003-07-31 | 2008-04-01 | Agilent Technologies, Inc. | Chemical array with test dependent signal reading or processing |
US7272584B2 (en) | 2004-03-04 | 2007-09-18 | International Business Machines Corporation | Use of dominance to improve performance or increase search space in genetic algorithms |
US7386523B2 (en) | 2004-09-29 | 2008-06-10 | Intel Corporation | K-means clustering using t-test computation |
BRPI0809339A2 (pt) | 2007-03-30 | 2014-10-07 | Ntt Docomo Inc | Sistema de comunicação móvel, aparelho de estação de base, aparelho do usuário, e método |
US8245517B2 (en) | 2009-05-19 | 2012-08-21 | Hamilton Sundstrand Corporation | Gas turbine starting with stepping speed control |
TWI769970B (zh) * | 2014-02-08 | 2022-07-11 | 美商建南德克公司 | 治療阿茲海默症之方法 |
US20170286594A1 (en) * | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic Variant-Phenotype Analysis System And Methods Of Use |
EP3679576A1 (en) | 2017-09-07 | 2020-07-15 | Regeneron Pharmaceuticals, Inc. | System and method for predicting relatedness in a human population |
-
2021
- 2021-11-19 CN CN202180067478.4A patent/CN116323966A/zh active Pending
- 2021-11-19 MX MX2023005748A patent/MX2023005748A/es unknown
- 2021-11-19 WO PCT/US2021/060085 patent/WO2022109267A2/en active Application Filing
- 2021-11-19 KR KR1020237010959A patent/KR20230109614A/ko unknown
- 2021-11-19 US US17/531,013 patent/US20220154256A1/en active Pending
- 2021-11-19 EP EP21827472.8A patent/EP4248445A2/en active Pending
- 2021-11-19 JP JP2023520266A patent/JP2023550242A/ja active Pending
- 2021-11-19 AU AU2021381395A patent/AU2021381395A1/en active Pending
- 2021-11-19 IL IL301646A patent/IL301646A/en unknown
- 2021-11-19 CA CA3193770A patent/CA3193770A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022109267A2 (en) | 2022-05-27 |
CN116323966A (zh) | 2023-06-23 |
KR20230109614A (ko) | 2023-07-20 |
AU2021381395A9 (en) | 2024-10-10 |
EP4248445A2 (en) | 2023-09-27 |
AU2021381395A1 (en) | 2023-06-22 |
US20220154256A1 (en) | 2022-05-19 |
MX2023005748A (es) | 2023-05-26 |
WO2022109267A3 (en) | 2022-06-30 |
IL301646A (en) | 2023-05-01 |
CA3193770A1 (en) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220325344A1 (en) | Identifying a de novo fetal mutation from a maternal biological sample | |
Zhang et al. | Haplotype block partitioning and tag SNP selection using genotype data and their applications to association studies | |
US9193992B2 (en) | Method for determining ploidy of a cell | |
Bahl et al. | A novel multifunctional oligonucleotide microarray for Toxoplasma gondii | |
US20110301854A1 (en) | Method of Determining Allele-Specific Copy Number of a SNP | |
AU2013312355A1 (en) | Using haplotypes to infer ancestral origins for recently admixed individuals | |
JP2007523600A (ja) | 多重配列変異体解析を用いる遺伝子診断 | |
Kingsley | Identification of causal sequence variants of disease in the next generation sequencing era | |
Huang et al. | Sequencing strategies and characterization of 721 vervet monkey genomes for future genetic analyses of medically relevant traits | |
US20220020449A1 (en) | Vector-based haplotype identification | |
JP2023550242A (ja) | シーケンシングによるジェノタイピング | |
Collins | The Landscape and Consequences of Structural Variation in the Human Genome | |
AU2013203448B2 (en) | Determining fraction of fetal dna in maternal biological sample | |
Jadamba et al. | A SNP Prioritization Method Using Linkage Disequilibrium Network for Disease Association Study | |
Kim et al. | Mining the HapMap to dissect complex traits |