JP2018513445A - 構造変異の特定及びバリアントコールデータを用いたフェージングのためのシステム及び方法 - Google Patents
構造変異の特定及びバリアントコールデータを用いたフェージングのためのシステム及び方法 Download PDFInfo
- Publication number
- JP2018513445A JP2018513445A JP2017541686A JP2017541686A JP2018513445A JP 2018513445 A JP2018513445 A JP 2018513445A JP 2017541686 A JP2017541686 A JP 2017541686A JP 2017541686 A JP2017541686 A JP 2017541686A JP 2018513445 A JP2018513445 A JP 2018513445A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- nucleic acid
- test nucleic
- bin
- barcode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- NYXKQECWFRVUOC-UHFFFAOYSA-N CCC(C)C1(C)NC1 Chemical compound CCC(C)C1(C)NC1 NYXKQECWFRVUOC-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6834—Enzymatic or biochemical coupling of nucleic acids to a solid phase
- C12Q1/6837—Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P3/00—Drugs for disorders of the metabolism
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P43/00—Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Wood Science & Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Zoology (AREA)
- Medicinal Chemistry (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- General Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Veterinary Medicine (AREA)
- Diabetes (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Hematology (AREA)
- Obesity (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
構造変異の特定及び生体試料の核酸から取得されるバリアントコールデータを用いるフェージングのためのシステム及び方法が提供される。配列リードが取得され、各配列リードは、試験用核酸のサブセットに対応する部分と、配列データに依存しないバーコードを符号化する部分とを含む。ビン情報が取得される。各ビンは、試料核酸の異なる部分を表す。各ビンは、配列リードで形成される複数の配列リードセット内の配列リードセットに対応するため、各配列リードセット内の各配列リードは、各セットに対応するビンにより表される用核酸のサブセットに対応する。2項検定により、共通の同一バーコードを有する配列リードを、偶然に見込まれるよりも多く有するビン対が特定される。確率モデルにより、これらのビン対の配列リードの構造変異尤度が決定される。【選択図】図1
Description
関連出願の相互参照
本出願は、2015年10月6日に出願された“Systems and Methods for Determining Structural Variation Using Probabilistic Models”と題する米国仮特許出願第62/238,077号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。
本出願は、2015年10月6日に出願された“Systems and Methods for Determining Structural Variation Using Probabilistic Models”と題する米国仮特許出願第62/238,077号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。
本出願はまた、2015年2月9日に出願された“Systems and Methods for Determining Structural Variation”と題する米国仮特許出願第62/113,693号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。
本出願はまた、2015年2月24日に出願された“Systems and Methods for Implementing Linked Read Algorithms for Haplotype Phasing and Structural Variant Detection”と題する米国仮特許出願第62/120,247号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。
本出願はまた、2015年2月24日に出願された“Detecting Structural Variants and Phasing Haplotypes from Cancer Exome Sequencing Using 1ng Dna Input”と題する米国仮特許出願第62/120,330号に対する優先権を主張し、その全体が参照により本明細書に組み込まれるものとする。
本明細書は、核酸配列データを用いたハプロタイプフェージング及び構造バリアント検出に関する技術を説明する。
超並列配列決定方法論を使用して配列されたヒトゲノムから取得される実験データのハプロタイプアセンブリは、有力な遺伝子データ源となっている。このようなデータは、遺伝子を基にした診断、並びにヒトの疾病の研究、検知、及び患者個人に合わせた治療に関し、費用対効果の高い実行方法として役立つ。
“Analysis of Nucleic Acid Sequences”と題する2014年10月29日に出願された米国特許出願第62/072,214号において開示されるようなプラットフォームにより提供される長範囲情報により、転座、大欠失、または遺伝子融合といったゲノムの大規模構造変異の検出は大いに簡易化された。他の例には、sequencing−by−synthesis(合成による配列)プラットフォーム(ILLUMINA)、Bentley et al.、2008、“Accurate whole human genome sequencing using reversible terminator chemistry”、Nature 456:53−59;sequencing−by−litigation(連結による配列)プラットフォーム(POLONATOR、ABI SOLiD)、Shendure et al.、2005、“Accurate Multiplex Polony Sequencing of an Evolved bacterial Genome”、Science 309:1728−1732;pyrosequencing(ピロシーケンス)プラットフォーム(ROCHE 454)、Margulies et al.、2005、“Genome sequencing in microfabricated high−density picoliter reactors”、Nature 437:376−380;及びsingle−molecule sequencing(単一分子配列)プラットフォーム(HELICOS HELISCAPE)、Pushkarev et al.、2009、“Single−molecule sequencing of an individual human genome”、Nature biotech 17:847−850、(PACIFIC BIOSCIENCES) Eid et al.、“Real−time sequencing form single polymerase molecules”、Science 323:133−138、以上が非限定的に含まれ、ぞれぞれの全体が参照により本明細書に組み込まれるものとする。
全ゲノム配列(WGS)データからこのようなイベントを検出するために、いくつかのアルゴリズムが開発された。例えば、Chen et al.、2009、“BreakDancer:an algorithm for high−resolution mapping of genomic structural variation” Nature Methods 6(9)、pp、677−681、及びLayer et al.、2014、“LUMPY:A probabilistic framework for structural variant discovery”、Genome Biology 15(6):R84を参照されたい。これらのアルゴリズムの目標は、構造バリアントのエンドポイント(例えば欠失または遺伝子融合のエンドポイント)を検出することである。これらのエンドポイントは「ブレークポイント」とも称され、用語エンドポイントとブレークポイントは同じ意味で使用される。ブレークポイントを検出するにあたって、既存のアルゴリズムは、お互いに対して予期しない向き、または予期しない距離(挿入サイズに関してお互いに離れすぎている、またはお互いに近すぎる)でゲノムにマッピングされたリード対の検出に依拠する。これは、従来のアルゴリズムによりブレークポイントが検出されるためには、ブレークポイントにリード対が及んでいなければならないことを意味する。この制限により、既存のアルゴリズムは、全エクソーム配列(WES)データといった標的配列データには適用不可能である。なぜならブレークポイントが対象領域に非常に近い場合にのみ、リード対はブレークポイントに及び得るからである。これは通常、事実と異なる。例えば、癌における数多くの遺伝子融合は、遺伝子エクソンではなくイントロン上で起こるため、WESでは検出不可能であり得る。
ヒトゲノムの大部分にわたるハプロタイプデータの可用性に伴い、上述の診断、発見、及び治療の目標を前進させるため、特に個人ゲノムの全ゲノム配列解析費用が1000ドル未満に落ちるように、当データに効率的に取り組む方法が必要となった。このようなデータからハプロタイプを計算的にアセンブルするために、試料内に存在する2個のハプロタイプのリードを解き、両ハプロタイプのコンセンサス配列を推測する必要がある。このような問題は、NP困難として示されている。Lippert et al.、2002、“Algorithmic strategies for the single nucleotide polymorphism haplotype assmbly problem”、Brief.Bionform 3:23−31を参照されたい。参照により当文献は本明細書に組み込まれるものとする。
前述の背景を考慮すると、当技術分野において必要なものは、並列配列決定方法論による配列データを用いたハプロタイプフェージング及び構造バリアント検出のための改良されたシステム及び方法である。
構造変異の特定及びハプロタイプフェージングのための技術的解決策(例えばコンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体)が提供される。“Analysis of Nucleic Acid Sequences”と題する2014年10月29日に出願された米国仮特許出願第62/072,214号、または2015年2月9日に出願された“Systems and Methods for Determining Structural Variation”と題する米国仮特許出願第62/113,693号は、それぞれ参照により本明細書に組み込まれるが、当文献に開示されるようなプラットフォームにより、対象特定の前にゲノムは断片化され、パーティション化され、バーコード化される。従って、バーコード情報の整合性が、ゲノム全体で保持される。著しいバーコードオーバーラップを示すゲノムの領域を検出することにより、潜在的な構造変異ブレークポイントを特定するために、バーコード情報が使用される。これらはフェージング情報の取得にも使用される。
以下は、発明の態様のうちのいくつかに関する基本的理解を提供するために、発明の概要を提示する。当概要は、発明の広範な要旨ではない。当概要は、発明の重要/決定的な要素を特定する、または発明の範囲を線引きすることを意図していない。その唯一の目的は、後で提示されるより詳細な説明への前置きとして、発明の概念のうちのいくつかを簡潔な形態で提示することにある。
添付の特許請求の範囲に含まれるシステム、方法、及び装置の様々な実施形態はそれぞれいくつかの態様を有し、それらのうちどれ1つも本明細書において説明される所望属性の責任を単一では負わない。添付の特許請求の範囲を制限することなく、いくつかの顕著な特徴が本明細書において説明される。当考察を検討した後、特に「発明を実施するための形態」と題する節を読んだ後に、様々な実施形態の特徴がどのように使用されるかが理解されるだろう。
パートA、構造変異
いくつかの実施態様において、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法が提供される。方法は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、ある動作を実行することを含む。複数の配列リードが取得される。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。本明細書において使用される用語「sequence read」と「sequencing read」は、同じ意味(配列リード)で使用される。バーコードは、試験用核酸の配列データに依存しない。いくつかの実施形態において、複数の配列リード内の第1配列リードは、10キロ塩基対(kbp)、20kbp、30kbp、40kbp、50kbp、60kbp、70kbp、80kbp、90kbp、または100kbpより大きい試験用核酸のサブセットに由来する。いくつかの実施形態において、複数の配列リード内の第1配列リードは、2×36bp、2×50bp、2×76bp、2×100bp、2×150bp、または2×250bpであり、用語2×Nbpは、配列リードが、不特定の長さに切り離された1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の長さN塩基対の2つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、200〜1200塩基対である。いくつかの実施形態において、複数の配列リード内の第1配列リードは、1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の少なくとも25bp、少なくとも30bp、少なくとも50bp、少なくとも100bp、少なくとも200bp、少なくとも250bp、少なくとも500bp、500bp未満、400bp未満、または300bp未満を表す。
いくつかの実施態様において、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法が提供される。方法は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、ある動作を実行することを含む。複数の配列リードが取得される。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。本明細書において使用される用語「sequence read」と「sequencing read」は、同じ意味(配列リード)で使用される。バーコードは、試験用核酸の配列データに依存しない。いくつかの実施形態において、複数の配列リード内の第1配列リードは、10キロ塩基対(kbp)、20kbp、30kbp、40kbp、50kbp、60kbp、70kbp、80kbp、90kbp、または100kbpより大きい試験用核酸のサブセットに由来する。いくつかの実施形態において、複数の配列リード内の第1配列リードは、2×36bp、2×50bp、2×76bp、2×100bp、2×150bp、または2×250bpであり、用語2×Nbpは、配列リードが、不特定の長さに切り離された1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の長さN塩基対の2つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、200〜1200塩基対である。いくつかの実施形態において、複数の配列リード内の第1配列リードは、1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の少なくとも25bp、少なくとも30bp、少なくとも50bp、少なくとも100bp、少なくとも200bp、少なくとも250bp、少なくとも500bp、500bp未満、400bp未満、または300bp未満を表す。
複数のビンに関するビン情報も取得される。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、複数の配列リードに含まれる。さらに、複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第1部分を有し、各第1部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。
複数の配列リードのうち、複数のビン内の第1ビンに属する配列リード第1セットにおいて存在し、かつ複数の配列リードのうち、複数のビン内の第2ビンに属する配列リード第2セットにおいても存在する一意的バーコードの数に関して特定が行われる。この点から、当特定数が偶然に起因している可能性または見込みが、(a)特定数に基づくメトリクと(b)閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。いくつかの実施形態において、当メトリクは以下のように計算される。
{b1、b2、・・・、bn}は、配列リード第1及び第2セットの両方に存在するn個の一意的バーコードのセットであり、iはnに対する整数指数であり、
は、配列リードbiの第1部分が現れる複数のビンの分率である。いくつかのこのような実施形態において、pが10−2以下、10−3以下、10−4以下、10−5以下、10−6以下、または10−7以下である時、メトリクは閾値基準を満たすとみなされる。
{b1、b2、・・・、bn}は、配列リード第1及び第2セットの両方に存在するn個の一意的バーコードのセットであり、iはnに対する整数指数であり、
は、配列リードbiの第1部分が現れる複数のビンの分率である。いくつかのこのような実施形態において、pが10−2以下、10−3以下、10−4以下、10−5以下、10−6以下、または10−7以下である時、メトリクは閾値基準を満たすとみなされる。
いくつかの実施形態において、構造変異は、配列リード第1セットにより表される試験用核酸の異なる部分に対する、50連続塩基以上、500連続塩基以上、5000連続塩基以上、または10000連続塩基以上の挿入または欠失である。いくつかの実施形態において、構造変異は、一塩基多型である。
いくつかの実施形態において、メトリクが閾値基準を満たすとみなされると、方法はさらに、特定数の配列リード内の各配列リードを、(i)配列リード第1セットに対応する試験用核酸のサブセットと、(ii)配列リード第2セットに対応する試験用核酸のサブセットとに、アラインすることを含む。このようなアライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第1セットに対応する試験用核酸のサブセットに対する第1アライメント品質が決定される。その後、当アライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第2セットに対応する試験用核酸のサブセットに対する第2アライメント品質が決定される。類似する第1アライメント品質及び第2アライメント品質を有する各配列リードは、特定数の配列リードから除かれる。この新たな配列リードの特定数を伴い、(A)新たに削減された特定数に基づくメトリクと(B)閾値基準との比較により、当特定数が偶然に起因している可能性または見込みを決定する動作が再計算される。再計算されたメトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。
いくつかの実施形態において、ブラックアウトリストが保持される。当ブラックアウトリストは、試験用核酸の複数のブラックアウト領域を含む。このような実施形態において、配列リードの第1部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、閾値基準に対する評価を行うために使用される特定数の配列リードから、当配列リードは除かれる。
いくつかの実施形態において、複数のビン内の各ビンは、少なくとも20kbp、少なくとも50kbp、少なくとも100kbp、少なくとも250kbp、または少なくとも500kbpを表す。
いくつかの実施形態において、第1ビンにより表される試験用核酸の異なる部分は、第2ビンにより表される試験用核酸の異なる部分とオーバーラップする。いくつかのこのような実施形態において、第1ビンにより表される試験用核酸の異なる部分の少なくとも50パーセント、少なくとも80パーセント、または少なくとも95パーセントが、第2ビンにより表される試験用核酸の異なる部分とオーバーラップする。
いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分は、オーバーラップしない。
いくつかの実施形態において、複数の配列リード内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第1部分を有し、各第1部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と完全にオーバーラップする。
いくつかの実施形態において、複数のビンは、10,000個以上のビン、100,000個以上のビン、または1,000,000個以上のビンを含む。いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸は、複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む。
いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分におけるバーコードは、セット{1、・・・、1024}、セット{1、・・・、4096}、セット{1、・・・、16384}、セット{1、・・・、65536}、セット{1、・・・、262144}、セット{1、・・・、1048576}、セット{1、・・・、4194304}、セット{1、・・・、16777216}、セット{1、・・・、67108864}、またはセット{1、・・・、1×1012}から選択される一意的な所定値を符号化する。
いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、オリゴヌクレオチド連続セットに局所化される。いくつかのこのような実施形態において、オリゴヌクレオチド連続セットはN塩基長であり、Nはセット{4、・・・、20}から選択される整数である。
いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。例えば、非連続セットは、様々な実施形態において、配列リードの2非連続部分、3非連続部分、4非連続部分、5非連続部分、またはそれ以上に局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nはセット{4、・・・、20}内の整数である。
いくつかの実施形態において、第1配列リードは、20kbp、30kbp、40kbp、50kbp、60kbp、70kbp、または80kbpより大きい試験用核酸のサブセットに対応する。いくつかの実施形態において、複数の配列リード内の第1配列リードは、2×36bp、2×50bp、2×76bp、2×100bp、2×150bp、または2×250bpであり、用語2×Nbpは、配列リードが、不特定の長さに切り離された1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の長さN塩基対の2つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、200〜1200塩基対である。いくつかの実施形態において、複数の配列リード内の第1配列リードは、1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の少なくとも25bp、少なくとも30bp、少なくとも50bp、少なくとも100bp、少なくとも200bp、少なくとも250bp、少なくとも500bp、500bp未満、400bp未満、または300bp未満を表す。
いくつかの実施形態において、構造変異は、配列リード第2セットにより表される試験用核酸の異なる部分から、配列リード第1セットにより表される試験用核酸の異なる部分への50連続塩基以上の転座である。
いくつかの実施形態において、配列リード第1セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第1染色体に由来し、配列リード第2セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第2染色体に由来し、第2染色体は第1染色体とは異なる。いくつかのこのような実施形態において、第1染色体は父系染色体であり、第2染色体は母系染色体である。いくつかのこのような実施形態において、生体試料はヒトであり、第1染色体は染色体21、18、または13である。
いくつかの実施形態において、構造変異が起こったとみなされると、方法はさらに、構造変異に応じる治療方式で生体試料の由来する対象者を治療することを含む。いくつかの実施形態において、治療方式は、食事改善を含む。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む。
本開示の別の態様は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを備えるコンピューティングシステムである。1つまたは複数のプログラムは、複数の配列リードを取得する命令を含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。バーコードは、試験用核酸の配列データに依存しない。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、複数の配列リードに含まれる。さらに、複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第1部分を有し、各第1部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。複数の配列リードのうち、複数のビン内の第1ビンに属する配列リード第1セットにおいて存在し、かつ複数の配列リードのうち、複数のビン内の第2ビンに属する配列リード第2セットにおいても存在する一意的バーコードの数に関して特定が行われる。当特定数が偶然に起因している可能性または見込みが、当特定数に基づくメトリクと閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。
本開示の別の態様は、コンピュータにより実行されるように構成された1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。1つまたは複数のプログラムは、複数の配列リードを取得する命令を含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。バーコードは、試験用核酸の配列データに依存しない。複数のビンに関するビン情報が取得される。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、複数の配列リードに含まれる。さらに、複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第1部分を有し、各第1部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。複数の配列リードのうち、複数のビン内の第1ビンに属する配列リード第1セットにおいて存在し、かつ複数の配列リードのうち、複数のビン内の第2ビンに属する配列リード第2セットにおいても存在する一意的バーコードの数に関して特定が行われる。当特定数が偶然に起因している可能性または見込みが、当特定数に基づくメトリクと閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。
パートB、構造変異に対する追加実施形態
本開示の別の態様は、一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法を提供する。方法は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得することを含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。バーコードは、試験用核酸の配列データに依存しない。
本開示の別の態様は、一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法を提供する。方法は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得することを含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。バーコードは、試験用核酸の配列データに依存しない。
方法はさらに、複数のビンに関するビン情報を取得することを含む。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードの各第1部分は、試験用核酸のサブセットに対応し、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。
方法はさらに、複数のビンの中から、試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンを特定することを含む。第1ビンは複数の配列リード内の配列リード第1セットにより表され、第2ビンは複数の配列リード内の配列リード第2セットにより表される。
方法はさらに、第1セット及び第2セットに共通するバーコードの数が偶然に起因している数値的可能性または見込みを表す第1値を決定することを含む。
方法はさらに、第1値が所定のカットオフ値を満たすという判定に応じて、第1ビン及び第2ビンに共通のバーコードごとに断片対を取得することにより、1つまたは複数の断片対を取得することを含む。1つまたは複数の断片対内の各断片対は、(i)第1ビン及び第2ビンに共通の異なるバーコードに対応し、(ii)異なる第1計算断片と異なる第2計算断片とで構成される。1つまたは複数の断片対内の各断片対に関して、異なる第1計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第1サブセットで構成され、各配列リード第1サブセット内の各配列リードは、各配列リード第1サブセット内の別の配列リードの定義済み遺伝距離内にあり、各断片対の異なる第1計算断片は、第1ビン内の各断片対に対応するバーコードを有する第1配列リードに起因し、各配列リード第1サブセット内の各配列リードは第1ビンに由来する。異なる第2計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第2サブセットで構成され、各配列リード第2サブセット内の各配列リードは、各配列リード第2サブセット内の別の配列リードの定義済み遺伝距離内にあり、各断片対の異なる第2計算断片は、第2ビン内の各断片対に対応するバーコードを有する第2配列リードに起因し、各配列リード第2サブセット内の各配列リードは第2ビンに由来する。
方法はさらに、1つまたは複数の断片対に関して、第1モデルの発生確率及び第2モデルの発生確率に基づいて各尤度を計算することで、試験用核酸における構造変異の尤度を提供することを含む。ここで、第1モデルは、1つまたは複数の断片対の各第1計算断片及び各第2計算断片が、対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示する。さらに、第2モデルは、1つまたは複数の断片対の各第1計算断片及び各第2計算断片が、対象核酸配列内に構造変異があると観察されることを明示する。
いくつかの実施形態において、計算される尤度の表現は、第1モデルの発生確率と第2モデルの発生確率との比率スコアである。
いくつかの実施形態において、第1ビン及び第2ビンは、試験用核酸上で少なくとも所定数のキロ塩基分、離れている。
いくつかの実施形態において、第1ビン及び第2ビンは、試験用核酸上で少なくとも50キロ塩基分、離れている。
いくつかの実施形態において、2項検定を使用して第1値が計算される。いくつかの実施形態において、この2項検定は以下の形式を有する。
pはp値と表される第1値であり、nは配列リード第1及び第2セット両方において存在する一意的バーコードの数であり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、Bは複数のビンにわたる一意的バーコードの総数である。
pはp値と表される第1値であり、nは配列リード第1及び第2セット両方において存在する一意的バーコードの数であり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、Bは複数のビンにわたる一意的バーコードの総数である。
いくつかの実施形態において、一生体試料はヒトであり、試験用核酸は生体試料のゲノムであり、第1値が10−14以下である場合に第1値は所定のカットオフ値を満たす。いくつかの実施形態において、一生体試料はヒトであり、試験用核酸は生体試料のゲノムであり、第1値が10−15以下である場合に第1値は所定のカットオフ値を満たす。
いくつかの実施形態において、構造変異は、配列リード第1セットにより表される試験用核酸の異なる部分に対する、50連続塩基以上の挿入または欠失である。いくつかの実施形態において、構造変異は、配列リード第1セットにより表される試験用核酸の異なる部分に対する、500連続塩基以上の挿入または欠失である。いくつかの実施形態において、構造変異は、配列リード第1セットにより表される試験用核酸の異なる部分に対する、5000連続塩基以上の挿入または欠失である。
いくつかの実施形態において、構造変異は、遺伝子疾患に関連する。いくつかの実施形態において、複数のビン内の各ビンは、試験用核酸の少なくとも20キロ塩基、試験用核酸の少なくとも50キロ塩基、試験用核酸の少なくとも100キロ塩基、試験用核酸の少なくとも250キロ塩基、または試験用核酸の少なくとも500キロ塩基を表す。いくつかの実施形態において、複数の配列リード内の各配列リードセットに含まれる各配列リードは、試験用核酸のサブセットに対応する各第1部分を有し、各第1部分は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と完全にオーバーラップする。
いくつかの実施形態において、複数のビンは、10,000個以上のビン、100,000個以上のビン、または1,000,000個以上のビンを含む。
いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸は、複数染色体生物種内の複数の染色体を集合的に表す複数の核酸を含む。
いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分におけるバーコードは、セット{1、・・・、1024}から選択される、セット{1、・・・、4096}から選択される、セット{1、・・・、16384}から選択される、セット{1、・・・、65536}から選択される、セット{1、・・・、262144}から選択される、セット{1、・・・、1048576}から選択される、セット{1、・・・、4194304}から選択される、セット{1、・・・、16777216}から選択される、セット{1、・・・、67108864}から選択される、またはセット{1、・・・、1×1012}から選択される一意的な所定値を符号化する。
いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。
いくつかの実施形態において、オリゴヌクレオチド連続セットはN塩基長であり、Nはセット{4、・・・、20}から選択される整数である。
いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nはセット{4、・・・、20}内の整数である。
いくつかの実施形態において、第1配列リードは、10キロ塩基より大きい試験用核酸の第1サブセットに対応する。いくつかの実施形態において、第1配列リードは、20キロ塩基より大きい試験用核酸の第1サブセットに対応する。
いくつかの実施形態において、構造変異が起こったとみなされると、方法はさらに、構造変異に応じる治療方式で生体試料の由来する対象者を治療することを含む。
いくつかの実施形態において、治療方式は、食事改善を含む。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む。
いくつかの実施形態において、第1及び第2ビンの識別は、疎行列乗算を使用して決定される。いくつかの実施形態において、疎行列乗算は以下の形式を有する。
A1は第1ビンを含む第1B×N1バーコード行列であり、A2は第2ビンを含む第2B×N2バーコード行列であり、Bは複数のビンにわたる一意的バーコードの数であり、N1はA1内のビンの数であり、N2はA2内のビンの数であり、
は行列A1の転置行列である。
A1は第1ビンを含む第1B×N1バーコード行列であり、A2は第2ビンを含む第2B×N2バーコード行列であり、Bは複数のビンにわたる一意的バーコードの数であり、N1はA1内のビンの数であり、N2はA2内のビンの数であり、
は行列A1の転置行列である。
いくつかの実施形態において、第1ビンは生体試料の第1染色体に対応付けられ、第2ビンは生体試料の第2染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2は第2染色体に対応付けられたビンの数である。
いくつかの実施形態において、第1及び第2ビンは両方とも生体試料の第1染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2はN1と等しい。
いくつかの実施形態において、試験用核酸の複数のブラックアウト領域を含むブラックアウトリストが保持され、方法はさらに、配列リードの第1部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合に、複数の配列リードから当配列リードを除くことを含む。
いくつかの実施形態において、計算において計算尤度は、以下のように計算される。
LRは複数の項の積に等しく、複数の項内の各項は(i)1つまたは複数の断片対内の各断片対を表し、(ii)以下の形式を有する。
r1は各断片対の第1計算断片における各配列リード第1サブセット内の配列リードの数であり、l1は各断片対の配列リード第1サブセットにより決定される第1計算断片の長さであり、r2は各断片対の第2計算断片における各配列リード第2サブセット内のリードの数であり、l2は各断片対の配列リード第2サブセットにより決定される第2計算断片の長さであり、dは試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離であり、abは複数の配列リードにわたる第1バーコードのリードレートであり、SVは第1モデルに従って第1計算断片及び第2計算断片が観察されたことを示し、no SVは第2モデルに従って第1計算断片及び第2計算断片が観察されたことを示す。
LRは複数の項の積に等しく、複数の項内の各項は(i)1つまたは複数の断片対内の各断片対を表し、(ii)以下の形式を有する。
r1は各断片対の第1計算断片における各配列リード第1サブセット内の配列リードの数であり、l1は各断片対の配列リード第1サブセットにより決定される第1計算断片の長さであり、r2は各断片対の第2計算断片における各配列リード第2サブセット内のリードの数であり、l2は各断片対の配列リード第2サブセットにより決定される第2計算断片の長さであり、dは試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離であり、abは複数の配列リードにわたる第1バーコードのリードレートであり、SVは第1モデルに従って第1計算断片及び第2計算断片が観察されたことを示し、no SVは第2モデルに従って第1計算断片及び第2計算断片が観察されたことを示す。
いくつかの実施形態において、
であり、SMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の同一断片に由来しているという仮定であり、DMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の異なる断片に由来しているという仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する確率である。
であり、SMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の同一断片に由来しているという仮定であり、DMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の異なる断片に由来しているという仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する確率である。
いくつかの実施形態において、
及び
は、それぞれ以下のように計算される。
はパラメータbによるポアソン分布の確率質量関数であり、
は各分子の実分子長がmである(予測)確率である。
及び
は、それぞれ以下のように計算される。
はパラメータbによるポアソン分布の確率質量関数であり、
は各分子の実分子長がmである(予測)確率である。
いくつかの実施形態において、
は、以下のように計算される。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は実の共通分子長がmである予測確率である。
は、以下のように計算される。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は実の共通分子長がmである予測確率である。
いくつかの実施形態において、
であり、SMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の同一断片に由来しているという仮定であり、DMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の異なる断片に由来しているという仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する確率であり、そして2d’=は、第1計算分子及び第2計算分子に対応付けられた構造変異のブレークポイントの推定を考慮した、試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離である。いくつかのこのような実施形態において、
及び
は、それぞれ以下のように計算される。
はパラメータbによるポアソン分布の確率質量関数であり、
は各分子の実分子長がmである(予測)確率である。いくつかのこのような実施形態において、
は、以下のように計算される。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は実の共通分子長がmである予測確率である。いくつかのこのような実施形態において、2d’は、
となる最大限d’を計算することにより推定される。
であり、SMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の同一断片に由来しているという仮定であり、DMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の異なる断片に由来しているという仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する確率であり、そして2d’=は、第1計算分子及び第2計算分子に対応付けられた構造変異のブレークポイントの推定を考慮した、試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離である。いくつかのこのような実施形態において、
及び
は、それぞれ以下のように計算される。
はパラメータbによるポアソン分布の確率質量関数であり、
は各分子の実分子長がmである(予測)確率である。いくつかのこのような実施形態において、
は、以下のように計算される。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は実の共通分子長がmである予測確率である。いくつかのこのような実施形態において、2d’は、
となる最大限d’を計算することにより推定される。
いくつかの実施形態において、複数の配列リードは、全ゲノム配列データを表す。いくつかの実施形態において、複数の配列リードは、ゲノムのサブセットの標的配列を表し、複数の配列リードの第1サブセットは、ゲノムのサブセット内に由来し、
の第1リードレートを有し、複数の配列リードの第2サブセットはゲノムのサブセット外に由来し、
の第1リードレートを有し、
は
とは異なり、計算(F)の尤度により、複数の配列リードのそれぞれの第1及び第2サブセットの異なるリードレートは補正される。
の第1リードレートを有し、複数の配列リードの第2サブセットはゲノムのサブセット外に由来し、
の第1リードレートを有し、
は
とは異なり、計算(F)の尤度により、複数の配列リードのそれぞれの第1及び第2サブセットの異なるリードレートは補正される。
本開示の別の態様は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを備えるコンピューティングシステムを提供する。1つまたは複数のプログラムは、試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得する命令を含む。複数の配列リード内の各配列リードは、試験用核酸のサブセットに対応する第1部分と、各配列リードのバーコードを符号化する第2部分とを備える。バーコードは、試験用核酸の配列データに依存しない。
1つまたは複数のプログラムはさらに、複数のビンに関するビン情報を取得する命令を含む。複数のビン内の各ビンは、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定する。複数の配列リードセット内の各配列リードセットに含まれる各配列リードの各第1部分は、試験用核酸のサブセットに対応し、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする。1つまたは複数のプログラムはさらに、複数のビンの中から、試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンを特定する命令を含み、第1ビンは複数の配列リード内の配列リード第1セットにより表され、第2ビンは複数の配列リード内の配列リード第2セットにより表される。
1つまたは複数のプログラムはさらに、第1セット及び第2セットに共通するバーコードの数が偶然に起因している数値的可能性または見込みを表す第1値を決定する命令を含む。
1つまたは複数のプログラムはさらに、第1値が所定のカットオフ値を満たすという判定に応じて、第1ビン及び第2ビンに共通のバーコードごとに断片対を取得することにより、1つまたは複数の断片対を取得すること命令を含む。1つまたは複数の断片対内の各断片対は、(i)第1ビン及び第2ビンに共通の異なるバーコードに対応し、(ii)異なる第1計算断片と異なる第2計算断片とで構成され、1つまたは複数の断片対内の断片対ごとに、以下のことが言える。異なる第1計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第1サブセットで構成される。各配列リード第1サブセット内の各配列リードは、各配列リード第1サブセット内の別の配列リードの定義済み遺伝距離内にある。各断片対の異なる第1計算断片は、第1ビン内の各断片対に対応するバーコードを有する第1配列リードに起因する。各配列リード第1サブセット内の各配列リードは第1ビンに由来する。異なる第2計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第2サブセットで構成される。各配列リード第2サブセット内の各配列リードは、各配列リード第2サブセット内の別の配列リードの定義済み遺伝距離内にある。各断片対の異なる第2計算断片は、第2ビン内の各断片対に対応するバーコードを有する第2配列リードに起因する。各配列リード第2サブセット内の各配列リードは第2ビンに由来する。1つまたは複数のプログラムは、1つまたは複数の断片対に関して、第1モデルの発生確率及び第2モデルの発生確率に基づいて各尤度を計算することで、試験用核酸における構造変異の尤度を提供する命令を含む。ここで、第1モデルは、1つまたは複数の断片対の各第1計算断片及び各第2計算断片が、対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示する。さらに、第2モデルは、1つまたは複数の断片対の各第1計算断片及び各第2計算断片が、対象核酸配列内に構造変異があると観察されることを明示する。
パートC、フェージング方法
本開示の別の態様は、試験用核酸試料の配列データをフェージングする方法を提供する。いくつかの実施形態において、試験用核酸試料は、生物種の一有機体の一生体試料から取得される。いくつかの実施形態において、試験用核酸試料は、一生体試料から取得されるが、一生物種より多くを表し得る。このような状況は、例えば、ホストが例えばレトロウイルスにより感染した場合に起こる。
本開示の別の態様は、試験用核酸試料の配列データをフェージングする方法を提供する。いくつかの実施形態において、試験用核酸試料は、生物種の一有機体の一生体試料から取得される。いくつかの実施形態において、試験用核酸試料は、一生体試料から取得されるが、一生物種より多くを表し得る。このような状況は、例えば、ホストが例えばレトロウイルスにより感染した場合に起こる。
試験用核酸試料は、ハプロタイプ第1セット(H0)及びハプロタイプ第2セット(H1)を含む。言い換えると、生体試料は2倍体であり、母系及び父系ハプロタイプを遺伝的に受け継ぐ。例えば、生体試料のゲノムのいくつかの部分は父系的に受け継いでおり、一方当ゲノムの他の部分は母系的に受け継いでいる。母系的に引き継いだ部分が任意でハプロタイプH0に指定される場合、父系的に引き継いだ部分はH1に指定される。
代表的な実施形態において、方法は、1つまたは複数のプロセッサと、方法の1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される。開示される方法において、生物種のゲノムの全部または一部に関する参照コンセンサス配列が取得される。いくつかの実施形態において、参照コンセンサス配列は、部分的すなわち不完全である。いくつかの実施形態において、参照コンセンサス配列は、生物種の一有機体のみの配列である。いくつかの実施形態において、参照コンセンサス配列は、生物種の複数の有機体のコンセンサス配列である。
方法において、複数のバリアントコールAi;pが取得される。ここで、iは参照コンセンサス配列内の位置に対する指数である。いくつかの実施形態において、
であり、ラベル「0」はAi;p内の各バリアントコールをH0に割り当て、ラベル「1」は各バリアントコールをH1に割り当て、そしてnはAi;p内のバリアントコールの数である。例えば、nが5である場合、Ai;p内に5個の位置iがあり、このような位置はそれぞれ、独立的に0(第1ハプロタイプを示す)または1(第2ハプロタイプを示す)にラベル分類される。
であり、ラベル「0」はAi;p内の各バリアントコールをH0に割り当て、ラベル「1」は各バリアントコールをH1に割り当て、そしてnはAi;p内のバリアントコールの数である。例えば、nが5である場合、Ai;p内に5個の位置iがあり、このような位置はそれぞれ、独立的に0(第1ハプロタイプを示す)または1(第2ハプロタイプを示す)にラベル分類される。
いくつかの代替実施形態において、
であり、ラベル「0」はAi;p内の各バリアントコールをH0に割り当て、ラベル「1」は各バリアントコールをH1に割り当て、そしてラベル「−1」はバリアントコールのハプロタイプへの割り当てにおけるエラー状態を示す有利な可能性を提供する。当代替実施形態は、位置におけるコールAi;pをH0またはH1で提供するために依存する標準バリアントコールアルゴリズムが、実際には時折このような位置を不正確にコールし得ることを考慮する。例えば、同一配列の核酸断片fに由来する20個の配列リードが、それぞれ同一バーコード132を有し、断片fの位置iに存在する事例を検討し、さらに、従来のバリアントコールアルゴリズムが位置iを、位置iにてH0とコールされる17個の配列リードと、位置iにてH1とコールされる残り3個の配列リードとを有する異型接合とコールすると仮定する。さらに、断片fの位置iのグラウンドトルースは、実際には同型接合H0であり、すなわち標準バリアントコールアルゴリズムは、全20個の配列リードに関して位置iをH0とコールすべきであったと仮定する。故に、従来のハプロタイプ割り当ては、配列リードのうち3個の配列リードを誤ってコールした。開示される代替フェージング実施形態
は、この形態のエラーの可能性を有利に考慮する。位置iにて20個の配列リードのうち3個の配列リードが誤ってコールされた前述の20個の配列リードの実施例において、開示されるフェージングアルゴリズムにより位置iにおけるこのようなエラーがサンプリングされると(より良いフェージング解を提供しているかを確かめるために)、全20個の配列リードにおける当位置iは−1(H−1)、エラーステートに割り当てられる。このエラーステートに関して選択的にサンプリングする能力は、例えば配列決定エラー、弱い配列信号等によって起こる入力データのエラーから、フェージングアルゴリズムを有利に守る。
であり、ラベル「0」はAi;p内の各バリアントコールをH0に割り当て、ラベル「1」は各バリアントコールをH1に割り当て、そしてラベル「−1」はバリアントコールのハプロタイプへの割り当てにおけるエラー状態を示す有利な可能性を提供する。当代替実施形態は、位置におけるコールAi;pをH0またはH1で提供するために依存する標準バリアントコールアルゴリズムが、実際には時折このような位置を不正確にコールし得ることを考慮する。例えば、同一配列の核酸断片fに由来する20個の配列リードが、それぞれ同一バーコード132を有し、断片fの位置iに存在する事例を検討し、さらに、従来のバリアントコールアルゴリズムが位置iを、位置iにてH0とコールされる17個の配列リードと、位置iにてH1とコールされる残り3個の配列リードとを有する異型接合とコールすると仮定する。さらに、断片fの位置iのグラウンドトルースは、実際には同型接合H0であり、すなわち標準バリアントコールアルゴリズムは、全20個の配列リードに関して位置iをH0とコールすべきであったと仮定する。故に、従来のハプロタイプ割り当ては、配列リードのうち3個の配列リードを誤ってコールした。開示される代替フェージング実施形態
は、この形態のエラーの可能性を有利に考慮する。位置iにて20個の配列リードのうち3個の配列リードが誤ってコールされた前述の20個の配列リードの実施例において、開示されるフェージングアルゴリズムにより位置iにおけるこのようなエラーがサンプリングされると(より良いフェージング解を提供しているかを確かめるために)、全20個の配列リードにおける当位置iは−1(H−1)、エラーステートに割り当てられる。このエラーステートに関して選択的にサンプリングする能力は、例えば配列決定エラー、弱い配列信号等によって起こる入力データのエラーから、フェージングアルゴリズムを有利に守る。
方法において、複数のバーコード化配列リード
が取得される。いくつかの実施形態において、複数の配列リード内の各配列リード
は、qが
に対する整数指数であり、参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第2部分とを備える。
が取得される。いくつかの実施形態において、複数の配列リード内の各配列リード
は、qが
に対する整数指数であり、参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第2部分とを備える。
いくつかの実施形態において、複数の配列リード
内の各配列リード
は、
であり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。例えば、
がAi;p内の10個のバリアントコールのうち5個のバリアントコールを含む事例を検討する。当実施例において、
は、値「−」を有する5個のバリアントコールを含む。これらのバリアントコールは各配列リードに存在せず、
はAi;p内の他の5個のバリアントコールの値を含むからである。これらの5個の値における各値は、配列リード内の各バリアントコールに割り当てられたハプロタイプに応じて、0または1となる。いくつかの実施形態において、このようなハプロタイプ割り当ては、従来のハプロタイプ割り当てアルゴリズムを使用して、個々の配列リードにおけるバリアントコールに対し取得される。
内の各配列リード
は、
であり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。例えば、
がAi;p内の10個のバリアントコールのうち5個のバリアントコールを含む事例を検討する。当実施例において、
は、値「−」を有する5個のバリアントコールを含む。これらのバリアントコールは各配列リードに存在せず、
はAi;p内の他の5個のバリアントコールの値を含むからである。これらの5個の値における各値は、配列リード内の各バリアントコールに割り当てられたハプロタイプに応じて、0または1となる。いくつかの実施形態において、このようなハプロタイプ割り当ては、従来のハプロタイプ割り当てアルゴリズムを使用して、個々の配列リードにおけるバリアントコールに対し取得される。
いくつかの実施形態において、前述のようなバリアントコールの接合状態における可能性のあるエラーを考慮するために、複数の配列リード
内の各配列リード
は
となり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−1」は、Ai;p内の対応バリアントコールを接合エラー状態(存在するがH0でもH1でもない)に割り当て、(iv)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。
内の各配列リード
は
となり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−1」は、Ai;p内の対応バリアントコールを接合エラー状態(存在するがH0でもH1でもない)に割り当て、(iv)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。
開示される方法において、フェージング結果
は、Ai;p内の個々の位置iにおけるハプロタイプ割り当ての最適化により取得される。複数の配列リード
内の各配列リード
が
である実施形態において、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1である。位置iの接合状態における可能性のあるエラーがフェージングアルゴリズムで追加サンプリングされる代替実施形態において、複数の配列リード内の各配列リード
は
であり、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1またはH−1であり、H−1は前述の接合エラー状態を示す。
は、Ai;p内の個々の位置iにおけるハプロタイプ割り当ての最適化により取得される。複数の配列リード
内の各配列リード
が
である実施形態において、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1である。位置iの接合状態における可能性のあるエラーがフェージングアルゴリズムで追加サンプリングされる代替実施形態において、複数の配列リード内の各配列リード
は
であり、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1またはH−1であり、H−1は前述の接合エラー状態を示す。
配列リードは、参照ゲノムにアラインされる。さらに、同一バーコードを有する配列リードは、一緒にグループ化される。このように、共通バーコードを有する配列リードは、単一ゲノム投入断片fに由来している見込みのあるグループにパーティション化され、従って当配列リードに含まれるアレルが同一ハプロタイプに由来するという証拠を提供する。
複数の配列リード
内の各配列リード
が
である実施形態において、観察配列リードが断片fのバリアントiを含む確率は以下のように計算される。
rは断片fの全配列リードの合計であり、
は、断片fのr番目の配列リードSrがAi,pと一致する場合に値「1」となり、そうでない場合は「0」となる指示関数であり、
は、断片fのr番目の配列リードSrがAi,pと一致しない場合に値「1」となり、そうでない場合は「0」となる指示関数であり、Qrは、r番目の配列リードに対応付けられた関連品質値である。
内の各配列リード
が
である実施形態において、観察配列リードが断片fのバリアントiを含む確率は以下のように計算される。
rは断片fの全配列リードの合計であり、
は、断片fのr番目の配列リードSrがAi,pと一致する場合に値「1」となり、そうでない場合は「0」となる指示関数であり、
は、断片fのr番目の配列リードSrがAi,pと一致しない場合に値「1」となり、そうでない場合は「0」となる指示関数であり、Qrは、r番目の配列リードに対応付けられた関連品質値である。
複数の配列リード
内の各配列リード
が
である実施形態において、位置iにおける接合エラーは追加でサンプリング可能であり、観察配列リードが断片fのバリアントiを含む確率は以下のように計算される。
X−はH−1であり、
は、Ai,pが−1(H−1)に等しい場合に値「1」となり、そうでない場合は「0」となる指示関数である。
内の各配列リード
が
である実施形態において、位置iにおける接合エラーは追加でサンプリング可能であり、観察配列リードが断片fのバリアントiを含む確率は以下のように計算される。
X−はH−1であり、
は、Ai,pが−1(H−1)に等しい場合に値「1」となり、そうでない場合は「0」となる指示関数である。
が
である実施形態において、フェージング結果は、以下のように最大尤度フェージングパリティベクトルとして表現される目的関数を最適化することにより取得可能である。
ここで
は精製されたフェージングベクトルであり、一方
は推測されるフェージングベクトル結果であり、以下の通りである。
である実施形態において、フェージング結果は、以下のように最大尤度フェージングパリティベクトルとして表現される目的関数を最適化することにより取得可能である。
ここで
は精製されたフェージングベクトルであり、一方
は推測されるフェージングベクトル結果であり、以下の通りである。
が
である実施形態において、フェージングベクトルは、以下のように全体目的関数を最適化することにより発見可能である。
であり、H−1は位置iにおける接合エラーの状態であり、
は位置iにおいて当形態のエラーを生じる推定であり、
である。
である実施形態において、フェージングベクトルは、以下のように全体目的関数を最適化することにより発見可能である。
であり、H−1は位置iにおける接合エラーの状態であり、
は位置iにおいて当形態のエラーを生じる推定であり、
である。
いくつかの実施形態において、
は、位置iにおけるバリアントの種類の関数である。例えば、
は、遺伝子挿入または欠失を通して位置iにおけるバリアントが生じた場合には第1値が与えられ、他の手段(例えば一塩基多型)により位置iにおけるバリアントが生じた場合には別の値が与えられる。
は、位置iにおけるバリアントの種類の関数である。例えば、
は、遺伝子挿入または欠失を通して位置iにおけるバリアントが生じた場合には第1値が与えられ、他の手段(例えば一塩基多型)により位置iにおけるバリアントが生じた場合には別の値が与えられる。
(O1,f、・・・、ON,f)内の各Oi,fは、断片fのバーコード化配列リードの各サブセットである(例えば同一バーコード配列を含む)。さらに、
である。ここで、Mは断片fのHf=0とHf=1の混合を示す。言い換えると、Hf=0はH0にマッピングする断片fを表し、Hf=1はH1にマッピングする断片fを表す。前述の3つの等式は、共通バーコードを有する配列リードの3つの可能性を規定する。配列リードはハプロタイプ0(第1ハプロタイプセットに由来する)、またはハプロタイプ1(第2ハプロタイプセットに由来する)である。あるいは配列リードはMであり、これは、配列バーコードfに対応付けられたパーティション内に含まれる参考配列の領域の両母系及び父系ゲノム物質が、配列リードOq,fを生じるパーティションに存在するという珍しい事例において起こる。
である。ここで、Mは断片fのHf=0とHf=1の混合を示す。言い換えると、Hf=0はH0にマッピングする断片fを表し、Hf=1はH1にマッピングする断片fを表す。前述の3つの等式は、共通バーコードを有する配列リードの3つの可能性を規定する。配列リードはハプロタイプ0(第1ハプロタイプセットに由来する)、またはハプロタイプ1(第2ハプロタイプセットに由来する)である。あるいは配列リードはMであり、これは、配列バーコードfに対応付けられたパーティション内に含まれる参考配列の領域の両母系及び父系ゲノム物質が、配列リードOq,fを生じるパーティションに存在するという珍しい事例において起こる。
いくつかの実施形態において、10個以上の配列リードが同一バーコードを有し、20個以上の配列リードが同一バーコードを有し、30個以上の配列リードが同一バーコードを有し、100個以上の配列リードが同一バーコードを有し、または1000個以上の配列リードが同一バーコードを有する。
いくつかの実施形態において、(O1,f、・・・、ON,f)内の各Oq,fに対する3つの可能なハプロタイプ割り当ては、以下のように採点される。
ここで、
は、Hf=Mが起こる尤度または確率(Hf=Mの事前確率)を表す所定の分率値であり、
は、
が
である実施形態、または
が
である実施形態に対し、前述のように定義される。
ここで、
は、Hf=Mが起こる尤度または確率(Hf=Mの事前確率)を表す所定の分率値であり、
は、
が
である実施形態、または
が
である実施形態に対し、前述のように定義される。
いくつかの実施形態において、バリアントコールセットは、試験用核酸における複数の異型接合一塩基多型、異型接合挿入、または異型接合欠失を含む。
いくつかの実施形態において、ハプロタイプ第1セット(H=0)は一有機体の母系ハプロタイプで構成され、ハプロタイプ第2セット(H=1)は一有機体の父系ハプロタイプで構成される。
いくつかの実施形態において、複数のバーコードは、1000個以上のバーコード、10,000個以上のバーコード、100,000個以上のバーコード、または1×106個以上のバーコードを含む。いくつかの実施形態において、生物種はヒトである。
いくつかの実施形態において、複数のバリアントコールAi;pは、1000個以上のバリアントコール、または10,000個以上のバリアントコールを含む。いくつかの実施形態において、複数の配列リードは、10,000個以上の配列リード、100,000個以上の配列リード、または1×106個以上の配列リードを含む。
いくつかの実施形態において、Xは(x)であり、xは長さnの2進列であり、xにおける各値「0」は対応バリアントコールがハプロタイプ第1セット(H=0)に由来することを示し、xにおける各値「1」は対応バリアントコールがハプロタイプ第2セット(H=1)に由来することを示す。
いくつかの実施形態において、ハプロタイプ第1セット(H=0)は単一母系ハプロタイプで構成され、ハプロタイプ第2セット(H=1)は単一父系ハプロタイプで構成される。いくつかの実施形態において、ハプロタイプ第1セット(H=0)は5個以上の母系染色体に対応する5個以上の母系ハプロタイプを含み、ハプロタイプ第2セット(H=1)は5個以上の父系染色体に対応する5個以上の父系ハプロタイプを含む。
いくつかの実施形態において、同一断片fに由来する(かつ同一のそれぞれの配列バーコードを含む)配列リードサブセットは、10個以上の配列リード、30個以上の配列リード、または100個以上の配列リードを含む。
いくつかの実施形態において、同一のそれぞれの配列リードを含む配列リードサブセットは、少なくとも長さ30キロ塩基、少なくとも長さ40キロ塩基、または長さ20キロ塩基と60キロ塩基の間である参照コンセンサス配列の断片fを表す。いくつかのこのような実施形態において、配列リードサブセット内のこのような配列リードはそれぞれ、2×36bp、2×50bp、2×76bp、2×100bp、2×150bp、または2×250bpであり、用語2×Nbpは、配列リードが、不特定の長さに切り離された参照コンセンサス配列の長さN塩基対の2つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、200〜1200塩基対である。いくつかの実施形態において、配列リードサブセット内の各配列リードは、参照コンセンサス配列の少なくとも25bp、少なくとも30bp、少なくとも50bp、少なくとも100bp、少なくとも200bp、少なくとも250bp、少なくとも500bp、500bp未満、400bp未満、または300bp未満を表す。
いくつかの実施形態において、全体目的関数のうちの1つが最適化される。いくつかの実施形態において、全体目的関数が最適化される。いくつかの実施形態において、階層的探索は、参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおけるXk、Xk+1、・・・、Xk+jの割り当てに対しビーム探索法を使用することを含み、kはバリアントコールの各局所ブロックにおける第1バリアントであり、jはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Xk、Xk+1、・・・、Xk+jの割り当てに関する目的関数の各計算における目的関数のフェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前述の目的関数のうちの1つを計算することにより、Xk、Xk+1、・・・、Xk+jの割り当てが発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される。さらに、いくつかの実施形態において、Ai;p内のバリアントコールの隣接局所ブロックは、バリアントコールの局所ブロックごとの最適フェージング解を使用して積極的に接合され、これにより最適フェージング構成
の推定が取得される。いくつかの実施形態において、Ai;p内のバリアントコールの隣接局所ブロックは、モンテカルロアルゴリズム、またはバリアントコールの局所ブロックごとの最適フェージング解を使用するシミュレートアニーリングもしくはボルツマン学習等の他の確率的探索を使用して接合される。例えばDuda et al.、2001、Pattern Classification、第2版、John Wiley&Sons,Inc.、New Yorkを参照されたい。例えば確率的探索法を開示する目的で、当文献は参照により本明細書に組み込まれるものとする。
の推定が取得される。いくつかの実施形態において、Ai;p内のバリアントコールの隣接局所ブロックは、モンテカルロアルゴリズム、またはバリアントコールの局所ブロックごとの最適フェージング解を使用するシミュレートアニーリングもしくはボルツマン学習等の他の確率的探索を使用して接合される。例えばDuda et al.、2001、Pattern Classification、第2版、John Wiley&Sons,Inc.、New Yorkを参照されたい。例えば確率的探索法を開示する目的で、当文献は参照により本明細書に組み込まれるものとする。
いくつかの実施形態において、フェーズ結果の精製にはさらに、最適フェージング構成
の推定における個別xiのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することが含まれる。
の推定における個別xiのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することが含まれる。
いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の20〜60個のバリアントで構成される。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の30〜80個のバリアントで構成される。いくつかの実施形態において、Xk、Xk+1、・・・、Xk+jのうちの1つの割り当てに対するビーム探索の繰り返しは、
の所定数の解以外を全て捨てる。いくつかの実施形態において、
の所定数の解は1000個以下である。いくつかの実施形態において、
の所定数の解は5000個以下である。
の所定数の解以外を全て捨てる。いくつかの実施形態において、
の所定数の解は1000個以下である。いくつかの実施形態において、
の所定数の解は5000個以下である。
いくつかの実施形態において、生物種はヒトであり、試験用核酸試料は生体試料のゲノムを含む。いくつかの実施形態において、生物種は複数染色体生物種であり、試験用核酸試料は、複数染色体生物種内の複数の染色体を集合的に表す複数の核酸を含む。
いくつかの実施形態において、複数の配列リード
内の各配列リードの第2部分におけるバーコードは、セット{1、・・・、1024}から選択される、セット{1、・・・、4096}から選択される、セット{1、・・・、16384}から選択される、セット{1、・・・、65536}から選択される、セット{1、・・・、262144}から選択される、セット{1、・・・、1048576}から選択される、セット{1、・・・、4194304}から選択される、セット{1、・・・、16777216}から選択される、セット{1、・・・、67108864}から選択される、またはセット{1、・・・、1×1012}から選択される一意的な所定値を符号化する。いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。いくつかの実施形態において、オリゴヌクレオチド連続セットはN塩基長であり、Nはセット{4、・・・、20}から選択される整数である。いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nはセット{4、・・・、20}内の整数である。
内の各配列リードの第2部分におけるバーコードは、セット{1、・・・、1024}から選択される、セット{1、・・・、4096}から選択される、セット{1、・・・、16384}から選択される、セット{1、・・・、65536}から選択される、セット{1、・・・、262144}から選択される、セット{1、・・・、1048576}から選択される、セット{1、・・・、4194304}から選択される、セット{1、・・・、16777216}から選択される、セット{1、・・・、67108864}から選択される、またはセット{1、・・・、1×1012}から選択される一意的な所定値を符号化する。いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。いくつかの実施形態において、オリゴヌクレオチド連続セットはN塩基長であり、Nはセット{4、・・・、20}から選択される整数である。いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nはセット{4、・・・、20}内の整数である。
いくつかの実施形態において、複数の配列リード内の同一バーコードを有する配列リードサブセットは、10キロ塩基より大きい参照コンセンサス配列部分に対応する。いくつかの実施形態において、同一バーコードを有する配列リードサブセットは、20キロ塩基より大きい参照コンセンサス配列部分に対応する。
本開示の別の態様は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを備えるコンピューティングシステムを提供する。1つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含む。試験用核酸試料は、ハプロタイプ第1セット(H=0)及びハプロタイプ第2セット(H=1)を含む。1つまたは複数のプログラムは、本開示において開示されるフェージング方法を実行する。
本開示の別の態様は、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法を提供する。試験用核酸試料は、ハプロタイプ第1セット(H=0)及びハプロタイプ第2セット(H=1)を含む。方法は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、複数のバリアントコールAi;pを取得することを含み、iは、生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH=0に割り当て、ラベル1は各バリアントコールをH=1に割り当てる。参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jのハプロタイプ割り当てに対し、ビーム探索法または同等の探索技術が使用され、kはバリアントコールの各局所ブロックにおける第1バリアントであり、jはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数のフェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される目的関数を計算することにより発見され、目的関数は、試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される。Ai;p内のバリアントコールの局所ブロックごとにビーム探索が完了すると、Ai;p内のバリアントコールの隣接局所ブロックは、バリアントコールの局所ブロックごとのフェージング解を使用して積極的に接合され、これにより生物種の一有機体のフェージング構成
が取得される。いくつかの実施形態において、方法はさらに、
における個別xiのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することを含む。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の20〜60個のバリアントで構成される。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の30〜80個のバリアントで構成される。いくつかの実施形態において、Xk、Xk+1、・・・、Xk+jのうちの1つの割り当てに対するビーム探索の繰り返しは、
の所定数の解(例えば1000個以下、5000個以下等)以外を全て捨てる。
であり、ラベル0はAi;p内の各バリアントコールをH=0に割り当て、ラベル1は各バリアントコールをH=1に割り当てる。参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jのハプロタイプ割り当てに対し、ビーム探索法または同等の探索技術が使用され、kはバリアントコールの各局所ブロックにおける第1バリアントであり、jはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数のフェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される目的関数を計算することにより発見され、目的関数は、試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される。Ai;p内のバリアントコールの局所ブロックごとにビーム探索が完了すると、Ai;p内のバリアントコールの隣接局所ブロックは、バリアントコールの局所ブロックごとのフェージング解を使用して積極的に接合され、これにより生物種の一有機体のフェージング構成
が取得される。いくつかの実施形態において、方法はさらに、
における個別xiのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することを含む。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の20〜60個のバリアントで構成される。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の30〜80個のバリアントで構成される。いくつかの実施形態において、Xk、Xk+1、・・・、Xk+jのうちの1つの割り当てに対するビーム探索の繰り返しは、
の所定数の解(例えば1000個以下、5000個以下等)以外を全て捨てる。
本開示の別の態様は、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの接合状態におけるエラーに対処する方法を提供する。試験用核酸試料は、ハプロタイプ第1セット(H0)及びハプロタイプ第2セット(H1)を含む。方法は、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得し、生体試料の複数のバリアントコールAi;pを取得することを含む。ここで、iは参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は各バリアントコールをH1に割り当て、ラベル−1は各バリアントコールを接合エラー状態H−1に割り当てる。方法において、生体試料の複数の配列リード
が取得される。複数の配列リード内の各配列リード
は、参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第2部分とを備える。複数の配列リード内の各配列リード
は
である。ここで、(i)nはAi;p内のバリアントコールの数であり、(ii)各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)各配列リード
に対する各ラベル−1は、Ai;p内の対応バリアントコールをH−1に割り当て、(v)各配列リード
に対する各ラベル−は、Ai;p内の対応バリアントコールが対象外であることを示す。方法において、フェージングベクトル結果
は、以下の全体目的関数を使用して、複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1、H−1間のハプロタイプ割り当ての最適化により精製される。
であり、
は位置iにおいてH−1を生じる推定であり、
であり、
は精製されたフェージングベクトル結果であり、Cは定数であり、
は推測されるフェージングベクトル結果であり、(O1,f、・・・、ON,f)は、複数のバーコード内の同一のそれぞれのバーコードを含む配列リードサブセットにおいて観察される複数のバリアントコールAi;p内のN個のバリアントコールの各サブセットである。
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は各バリアントコールをH1に割り当て、ラベル−1は各バリアントコールを接合エラー状態H−1に割り当てる。方法において、生体試料の複数の配列リード
が取得される。複数の配列リード内の各配列リード
は、参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第2部分とを備える。複数の配列リード内の各配列リード
は
である。ここで、(i)nはAi;p内のバリアントコールの数であり、(ii)各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)各配列リード
に対する各ラベル−1は、Ai;p内の対応バリアントコールをH−1に割り当て、(v)各配列リード
に対する各ラベル−は、Ai;p内の対応バリアントコールが対象外であることを示す。方法において、フェージングベクトル結果
は、以下の全体目的関数を使用して、複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1、H−1間のハプロタイプ割り当ての最適化により精製される。
であり、
は位置iにおいてH−1を生じる推定であり、
であり、
は精製されたフェージングベクトル結果であり、Cは定数であり、
は推測されるフェージングベクトル結果であり、(O1,f、・・・、ON,f)は、複数のバーコード内の同一のそれぞれのバーコードを含む配列リードサブセットにおいて観察される複数のバリアントコールAi;p内のN個のバリアントコールの各サブセットである。
いくつかの実施形態において、
であり、Mは、各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、iは同一のそれぞれのバーコードを含む配列リードサブセットの観察されるN個のバリアントコールの各サブセットにおけるi番目のバリアントであり、rは同一のそれぞれのバーコードを含む配列リードサブセットの合計であり、
は同一のそれぞれのバーコードを含む配列リードサブセットのr番目の配列リードSr内の位置iにおける塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は同一のそれぞれのバーコードを含む配列リードサブセットのr番目の配列リードSr内の位置iにおける塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
はAi,pがH−1に等しい場合に値1となり、そうでない場合は値0となる指示関数であり、Qrは参照コンセンサス配列内のiの位置におけるリード塩基のSrに関する品質値である。
であり、Mは、各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、iは同一のそれぞれのバーコードを含む配列リードサブセットの観察されるN個のバリアントコールの各サブセットにおけるi番目のバリアントであり、rは同一のそれぞれのバーコードを含む配列リードサブセットの合計であり、
は同一のそれぞれのバーコードを含む配列リードサブセットのr番目の配列リードSr内の位置iにおける塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は同一のそれぞれのバーコードを含む配列リードサブセットのr番目の配列リードSr内の位置iにおける塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
はAi,pがH−1に等しい場合に値1となり、そうでない場合は値0となる指示関数であり、Qrは参照コンセンサス配列内のiの位置におけるリード塩基のSrに関する品質値である。
いくつかの実施形態において、複数のバリアントコールは、試験用核酸における複数の異型接合一塩基多型、異型接合挿入、または異型接合欠失を含む。いくつかの実施形態において、ハプロタイプ第1セット(H0)は一有機体の母系ハプロタイプで構成され、ハプロタイプ第2セット(H1)は一有機体の父系ハプロタイプで構成される。
いくつかの実施形態において、複数のバーコードは、1000個以上のバーコードを備える。いくつかの実施形態において、複数のバーコードは、10,000個以上のバーコードを備える。いくつかの実施形態において、複数のバーコードは、100,000個以上のバーコードを備える。いくつかの実施形態において、複数のバーコードは、1×106個以上のバーコードを備える。いくつかの実施形態において、生物種はヒトである。いくつかの実施形態において、複数のバリアントコールAi;pは、1000個以上のバリアントコール、または10,000個以上のバリアントコールを含む。いくつかの実施形態において、複数の配列リードは、10,000個以上の配列リード、100,000個以上の配列リード、または1×106個以上の配列リードを含む。
いくつかの実施形態において、
は(x)であり、xは長さnの2進列であり、xにおける各値0は対応バリアントコールがハプロタイプ第1セット(H0)に由来することを示し、xにおける各値1は対応バリアントコールがハプロタイプ第2セット(H1)に由来することを示す。
は(x)であり、xは長さnの2進列であり、xにおける各値0は対応バリアントコールがハプロタイプ第1セット(H0)に由来することを示し、xにおける各値1は対応バリアントコールがハプロタイプ第2セット(H1)に由来することを示す。
いくつかの実施形態において、ハプロタイプ第1セット(H0)は単一母系ハプロタイプで構成され、ハプロタイプ第2セット(H1)は単一父系ハプロタイプで構成される。
いくつかの実施形態において、ハプロタイプ第1セット(H0)は5個以上の母系染色体に対応する5個以上の母系ハプロタイプを含み、ハプロタイプ第2セット(H1)は5個以上の父系染色体に対応する5個以上の父系ハプロタイプを含む。
いくつかの実施形態において、同一のそれぞれのバーコードfを含む配列リードサブセットは、10個以上の配列リードを有する。いくつかの実施形態において、同一のそれぞれのバーコードfを含む配列リードサブセットは、30個以上の配列リードを有する。いくつかの実施形態において、同一のそれぞれのバーコードfを含む配列リードサブセットは、100個以上の配列リードを有する。いくつかの実施形態において、同一のそれぞれのバーコードfを含む配列リードサブセットは、参照コンセンサス配列の少なくとも30キロ塩基、または参照コンセンサス配列の少なくとも40キロ塩基を表す。
いくつかの実施形態において、精製は
に対する階層的探索を使用して全体目的関数を最適化する。いくつかの実施形態において、階層的探索は、参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおけるXk、Xk+1、・・・、Xk+jの割り当てに対しビーム探索法を使用することであって、kはバリアントコールの各局所ブロックにおける第1バリアントであり、jはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数のフェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される目的関数を計算することにより発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される、バリアントコールの各局所ブロックにおけるXk、Xk+1、・・・、Xk+jの割り当てに対しビーム探索法を使用することと、Ai;p内のバリアントコールの隣接局所ブロックを、バリアントコールの局所ブロックごとの最適フェージング解を使用して積極的に接合し、これにより最適フェージング構成
の推定を取得することとを含む。いくつかの実施形態において、フェーズ結果の精製にはさらに、最適フェージング構成
の推定における個別xiのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することが含まれる。
に対する階層的探索を使用して全体目的関数を最適化する。いくつかの実施形態において、階層的探索は、参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの各局所ブロックにおけるXk、Xk+1、・・・、Xk+jの割り当てに対しビーム探索法を使用することであって、kはバリアントコールの各局所ブロックにおける第1バリアントであり、jはバリアントコールの各局所ブロックにおけるバリアントコールの数であり、Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数のフェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される目的関数を計算することにより発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される、バリアントコールの各局所ブロックにおけるXk、Xk+1、・・・、Xk+jの割り当てに対しビーム探索法を使用することと、Ai;p内のバリアントコールの隣接局所ブロックを、バリアントコールの局所ブロックごとの最適フェージング解を使用して積極的に接合し、これにより最適フェージング構成
の推定を取得することとを含む。いくつかの実施形態において、フェーズ結果の精製にはさらに、最適フェージング構成
の推定における個別xiのフェーズ結果を繰り返し取り替え、目的関数を再計算することにより、
を取得することが含まれる。
いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の20〜60個のバリアントで構成される。いくつかの実施形態において、バリアントコールの各局所ブロックは、Ai;p内の30〜80個のバリアントで構成される。いくつかの実施形態において、Xk、Xk+1、・・・、Xk+jのうちの1つの割り当てに対するビーム探索の繰り返しは、
の所定数の解以外を全て捨てる。いくつかの実施形態において、
の所定数の解は1000個以下である。いくつかの実施形態において、
の所定数の解は5000個以下である。
の所定数の解以外を全て捨てる。いくつかの実施形態において、
の所定数の解は1000個以下である。いくつかの実施形態において、
の所定数の解は5000個以下である。
いくつかの実施形態において、生物種はヒトであり、試験用核酸試料は生体試料のゲノムを含む。いくつかの実施形態において、生物種は複数染色体生物種であり、試験用核酸試料は、複数染色体生物種内の複数の染色体を集合的に表す複数の核酸を含む。
いくつかの実施形態において、複数の配列リード
内の各配列リードの第2部分におけるバーコードは、セット{1、・・・、1024}から選択される、セット{1、・・・、4096}から選択される、セット{1、・・・、16384}から選択される、セット{1、・・・、65536}から選択される、セット{1、・・・、262144}から選択される、セット{1、・・・、1048576}から選択される、セット{1、・・・、4194304}から選択される、セット{1、・・・、16777216}から選択される、セット{1、・・・、67108864}から選択される、またはセット{1、・・・、1×1012}から選択される一意的な所定値を符号化する。
内の各配列リードの第2部分におけるバーコードは、セット{1、・・・、1024}から選択される、セット{1、・・・、4096}から選択される、セット{1、・・・、16384}から選択される、セット{1、・・・、65536}から選択される、セット{1、・・・、262144}から選択される、セット{1、・・・、1048576}から選択される、セット{1、・・・、4194304}から選択される、セット{1、・・・、16777216}から選択される、セット{1、・・・、67108864}から選択される、またはセット{1、・・・、1×1012}から選択される一意的な所定値を符号化する。
いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分におけるバーコードは、各配列リード内のオリゴヌクレオチド連続セットに局所化される。いくつかの実施形態において、オリゴヌクレオチド連続セットはN塩基長であり、Nはセット{4、・・・、20}から選択される整数である。
いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、配列リード内の所定のヌクレオチド非連続セットに局所化される。いくつかの実施形態において、所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nはセット{4、・・・、20}内の整数である。
いくつかの実施形態において、複数の配列リード内の配列リードは、10キロ塩基より大きい、または20キロ塩基より大きい参照コンセンサス配列の部分に対応する。
いくつかの実施形態において、複数のバリアントコールは、複数の配列リードから取得される。いくつかの実施形態において、複数の配列リードは、複数のバーコード化オリゴ被覆ゲルビーズから取得され、試験用核酸試料は50ng以下である。いくつかの実施形態において、複数のバーコード化オリゴ被覆ゲルビーズは、10,000個のビーズを含む。いくつかの実施形態において、複数のバーコード化オリゴ被覆ゲルビーズは、50,000個のビーズを含む。いくつかの実施形態において、試験用核酸試料は25ng以下、10ng以下、5ng以下、または2.5ng以下である。
いくつかの実施形態において、複数の配列リード
は、10分以内の複数のバーコードの割り当てにより取得される。いくつかの実施形態において、複数の配列リード
は、20分以内の複数のバーコードの割り当てにより取得される。
は、10分以内の複数のバーコードの割り当てにより取得される。いくつかの実施形態において、複数の配列リード
は、20分以内の複数のバーコードの割り当てにより取得される。
本開示はさらに、コンピュータにより実行されるように構成され、かつ開示される方法のうちのいずれかを実行する命令を含む1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体を提供する。従って、これらの方法、システム、及び非一時的コンピュータ可読記憶媒体は、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出するための改善された方法を提供する。
従って、これらの方法、システム、及び非一時的コンピュータ可読記憶媒体は、生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出し、このようなデータをフェージングするための改善された方法を提供する。
文献の援用
当明細書において挙げられる全ての刊行物、特許、及び特許出願は、個々の刊行物、特許、または特許出願が参照により組み込まれるよう具体的かつ個別に示されるのと同程度に、その全体が参照により本明細書に組み込まれるものとする。
当明細書において挙げられる全ての刊行物、特許、及び特許出願は、個々の刊行物、特許、または特許出願が参照により組み込まれるよう具体的かつ個別に示されるのと同程度に、その全体が参照により本明細書に組み込まれるものとする。
本明細書において開示される実施態様は、限定のためではなく実施例として、添付図面の図で例示される。同様の参照番号は、図面を通して対応部分に言及する。方法フローチャートを含む図において、破線のボックスは、例示的実施形態を示す。
本開示は一般に、遺伝子配列データの分析に使用するための、特に生体試料から取得される試験用核酸の配列データにおける構造変異検出(例えば欠失、重複、コピー数バリアント、挿入、逆位、転座、長末端反復(LTR)、短末端反復(STR)、及び様々な他の有用特性)並びにハプロタイプフェージングのための、方法、プロセス、特にコンピュータ実施プロセス及び非一時的コンピュータプログラム製品を提供する。
ここで実施態様の詳細が図に関連して説明される。
ここで実施態様の詳細が図に関連して説明される。
図1は、いくつかの実施態様による、構造バリアント検出及びフェージングシステム100を例示するブロック図である。いくつかの実施態様における装置100は、1つまたは複数の処理装置CPU102(複数可)(プロセッサとも称される)と、1つまたは複数のネットワークインタフェース104と、ユーザインタフェース106と、メモリ112と、これらのコンポーネントを相互接続する1つまたは複数の通信バス114とを含む。通信バス114は任意で、システムコンポーネント間を相互接続し、通信を制御する回路(時にチップセットと呼ばれる)を含む。メモリ112は通常、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリ、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、他のランダムアクセスソリッドステートメモリ装置、または所望の情報を記憶するのに使用可能なその他の媒体等の高速ランダムアクセスメモリを含み、そして任意で、1つまたは複数の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性ソリッドステート記憶装置等の不揮発性メモリを含む。メモリ112は任意で、CPU(複数可)102から遠隔に配置された1つまたは複数の記憶装置を含む。メモリ112、あるいはメモリ112内の不揮発性メモリ装置(複数可)は、非一時的コンピュータ可読記憶媒体を備える。いくつかの実施態様において、メモリ112、あるいは非一時的コンピュータ可読記憶媒体は、下記のプログラム、モジュール、及びデータ構造、またはそれらのサブセットを記憶する。すなわち、様々な基本システムサービスを処理するため、及びハードウェア依存タスクを実行するためのプロシージャを含む任意のオペレーティングシステム116と、装置100と他の装置または通信ネットワークとを接続するための任意のネットワーク通信モジュール118(または命令)と、生物種の一有機体に由来する遺伝子試料における構造変異を特定するための構造変異特定サブモジュール122と、遺伝子試料の各配列リードのハプロタイプを特定するためのフェージングサブモジュール124とを含む、配列リードを処理するための任意の配列リード処理モジュール120と、各データセットが生物種の一有機体に由来する遺伝子試料を使用して取得される1つまたは複数の核酸配列データセット126と、複数の配列リード内の各配列リードが試験用核酸602のサブセットに対応する少なくとも第1部分130と、各配列リードのバーコードを符号化する第2部分132とを備える、複数の配列リード128と、複数のビン内の各ビン140が試験用核酸602の異なる部分142を表し、さらに試験用核酸の配列リードセット144に対応付けられる、複数のビンと、要約モジュール150と、フェーズ可視化モジュール152と、構造バリアント(可視化)モジュール154と、リード可視化モジュール156とを含む、核酸配列データにおける構造変異及びフェージング情報を可視化するためのハプロタイプ可視化ツール148である。
いくつかの実施態様において、ユーザインタフェース106は、ユーザがシステム100及びディスプレイ108と対話するための入力装置(例えばキーボード、マウス、タッチパッド、トラックパッド、及び/またはタッチスクリーン)100を含む。
いくつかの実施態様において、上記の特定された構成要素のうちの1つまたは複数は、前に挙げられたメモリ装置のうちの1つまたは複数に記憶され、かつ前述の機能を実行するための命令セットに対応する。上記の特定されたモジュールまたはプログラム(例えば命令セット)は、別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要はなく、従ってこれらのモジュールの様々なサブセットは、様々な実施態様において組み合わせあるいは再編成され得る。いくつかの実施態様において、メモリ112は任意で、上記に特定されたモジュール及びデータ構造のサブセットを記憶する。さらにいくつかの実施形態において、メモリは、前述されていない追加モジュール及びデータ構造を記憶する。いくつかの実施形態において、上記の特定された構成要素のうちの1つまたは複数は、システム100が必要に応じてそのようなデータの全てまたは一部を取得可能であるようにシステム100によりアドレス可能な、システム100のもの以外のコンピュータシステムに記憶される。
図1は「構造変異検出及びフェージングシステム100」を示すが、当図は、本明細書において説明される実施態様の構造概要よりも、コンピュータシステムに存在し得る様々な特徴の機能的説明を意図する。実際に、当業者により認識されるように、別個に示されるアイテムは結合可能であり、いくつかのアイテムは分離可能である。
パートA、構造変異
図2は、一生体試料から取得される試験用核酸において起こる構造変異を特定する方法(202)を示すフローチャートである。いくつかの実施形態において、方法は、いくつかの実施形態による、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される(204)。
図2は、一生体試料から取得される試験用核酸において起こる構造変異を特定する方法(202)を示すフローチャートである。いくつかの実施形態において、方法は、いくつかの実施形態による、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される(204)。
複数の配列リードの取得
開示されるシステム及び方法によれば、複数の配列リード128が試験用核酸602を使用して取得される(206)。このような配列リードは最終的に、核酸配列データセット126の基礎を形成する。複数の配列リード内の各配列リード128は、試験用核酸のサブセットに対応する第1部分130と、各配列リードのバーコードを符号化する第2部分132とを備える。バーコードは、試験用核酸の配列データに依存しない。言い換えると、バーコードは、試験用核酸の配列データに由来しない、または試験用核酸の配列データの機能ではない。いくつかの事例において、配列リードは本明細書において、次世代配列(NGS)リード対と称される。
開示されるシステム及び方法によれば、複数の配列リード128が試験用核酸602を使用して取得される(206)。このような配列リードは最終的に、核酸配列データセット126の基礎を形成する。複数の配列リード内の各配列リード128は、試験用核酸のサブセットに対応する第1部分130と、各配列リードのバーコードを符号化する第2部分132とを備える。バーコードは、試験用核酸の配列データに依存しない。言い換えると、バーコードは、試験用核酸の配列データに由来しない、または試験用核酸の配列データの機能ではない。いくつかの事例において、配列リードは本明細書において、次世代配列(NGS)リード対と称される。
いくつかの実施形態において、複数の配列リード内の第1配列リードは、2×36bp、2×50bp、2×76bp、2×100bp、2×150bp、または2×250bpである試験用核酸のサブセットに対応し、用語2×Nbpは、配列リードが、不特定の長さに切り離された1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の長さN塩基対の2つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、200〜1200塩基対である。いくつかの実施形態において、複数の配列リード内の第1配列リードは、1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の少なくとも25bp、少なくとも30bp、少なくとも50bp、少なくとも100bp、少なくとも200bp、少なくとも250bp、少なくとも500bp、500bp未満、400bp未満、または300bp未満を表す。より一般的に、いくつかの実施形態において取得される配列リード128は、少なくとも約10kbp、少なくとも約20kbp、または少なくとも約50kbpのN50によるコンティグにアセンブリされる。配列リードは、より好ましい態様において少なくとも約100kbp、少なくとも約150kbp、少なくとも約200kbpのコンティグに、多くの事例において少なくとも約250kbp、少なくとも約300kbp、少なくとも約350kbp、少なくとも約400kbpのコンティグに、いくつかの事例において少なくとも約500kbp以上のコンティグにアセンブリされる。さらに別の実施形態において、200kbpを超す、300kbpを超す、400kbpを超す、500kbpを超す、1Mbを超す、または2Mbさえも超すN50によるコンティグにフェーズ化された配列リードが、本開示に従って取得される。Miller et al.、2010、“Assemby algorithms for next generation sequencing data”Genomics 95、pp.315‐327を参照されたい。N50及び従来のコンティグアセンブリアルゴリズムの定義に関して、当文献は参照により本明細書に組み込まれるものとする。
いくつかの実施形態において、図6に示されるように、複数の配列リード128を取得するために、より大きな連続核酸602(試験用核酸、例えば染色体DNA)が断片306を形成するように断片化され、そしてこれらの断片は、個別の区画またはパーティションに区画化またはパーティション化される(パーティションとして本明細書において互換的に称される)。いくつかの実施形態において、試験用核酸602は、ヒト等の複数染色体有機体のゲノムである。いくつかの実施形態において、10個を超える、100個を超える、1000個を超える、10,000個を超える、100,000個を超える、1×106個を超える、または5×106個を超えるパーティションに対応する、10個を超える、100個を超える、1000個を超える、10,000個を超える、100,000個を超える、1×106個を超える、または5×106個を超える配列リードセットが取得される。従って図6は、より大きい連続核酸602と、より大きい連続核酸の異なる断片306と、断片の配列リード128との関係性を示す。通常、1〜250個の断片604、5〜500個の断片604、または10〜1000個の断片604が、それぞれ別個のパーティションにパーティション化される。任意のイベントにおいて、単一パーティションにおける断片804が任意の明らかなオーバーラップ配列を有することがあまりないように、十分少ない数の断片804が同一パーティションにパーティション化される。各断片804の配列リード728が構成される。典型的実施形態において、配列リード128は、自動配列決定装置において配列決定可能なように、その長さが短い(例えば1000塩基未満)。パーティション内の各配列リード128は、より大きい連続核酸602の配列に依存しないバーコードを形成し、かつ複数のパーティションのうち各配列リードが形成されたパーティションを特定する、共通第2部分132を含む。
いくつかの実施形態において、試験用核酸は、ヒト等の複数染色体有機体のゲノムである。いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸は、複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む(208)。
各パーティションは、他のパーティションのコンテンツから自身のコンテンツが分離された状態を維持する。本明細書において使用されるように、パーティションは、例えばウェル、チューブ、マイクロもしくはナノウェル、スルーホール等の様々な異なる形態を含み得るコンテナまたはベッセルを指す。しかしながら、好ましい態様において、パーティションは流体流内で流動性を有する。いくつかの実施形態において、これらのベッセルは、例えば内部流体中心もしくは中核を囲む外防壁を有する、あるいはその母材内に物質を搭載及び/または保持することが可能な多孔質母材を有するマイクロカプセルまたはマイクロベシクルで構成される。しかしながら、好ましい態様において、これらのパーティションは、例えば油相といった非水性連続相内に、水性流体の液滴を含む。様々な異なる好適なベッセルが、例えば2013年8月13日に出願された米国特許出願第13/966,150号において説明され、その全体は参照により本明細書に組み込まれるものとする。同様に、非水性または油性連続相における安定した液滴を作るためのエマルジョンシステムが、例えば公開米国特許出願第2010−0105112において詳しく説明され、その全体は参照により本明細書に組み込まれるものとする。特定の実施形態において、マイクロ流体チャネルネットワークが特にパーティションを生成するのに適している。このようなマイクロ流体装置の実施例には、2014年4月4日に出願された米国特許仮出願第61/977,804号において詳しく説明されるものが含まれ、当仮出願の開示内容全体は、全ての目的で参照により本明細書に組み込まれるものとする。細胞の水溶液混合物が非水性流体へ押し通し出される多孔膜を含む個々の細胞のパーティション化に、代替機構も採用され得る。このようなシステムは一般に、例えばNanomi,Incから入手可能である。
エマルジョンにおける液滴の事例において、試験用核酸断片の個別のパーティションへのパーティション化は一般に、試料物質を含む水性液滴が流動パーティション化流体内で作られるように、水性の試料含有流を、例えばフッ素油といったパーティション化流体の非水性流も流れる合流点へ流し込むことにより達成され得る。後述されるように、例えば液滴といったパーティションは通常、共同パーティション化されたバーコードオリゴヌクレオチドも含む。
任意の特定パーティション内の試料物質の相対量は、例えば水性流内の試験用核酸断片の濃度、水性流及び/または非水性流の流量等を含むシステムの様々な異なるパラメータを制御することにより調節され得る。本明細書において説明されるパーティションは多くの場合、1000pL未満、900pL未満、800pL未満、700pL未満、600pL未満、500pL未満、400pL未満、300pL未満、200pL未満、100pL未満、50pL未満、20pL未満、10pL未満、または1pL未満ですらある全体体積を有する特性を持つ。ビーズと共に共同パーティション化された場合、パーティション内の試料流体体積は、前述の体積の90%未満、80%未満、70%未満、60%未満、50%未満、40%未満、30%未満、20%未満、または前述の体積の10%未満ですらあり得ることが理解されよう。いくつかの事例において、低反応体積のパーティションの使用は、少量の開始反応物、例えば投入試験用核酸断片で、反応を実行する際、特に有利である。低投入量核酸を有する試料を分析する方法及びシステムが、2014年6月26日に出願された米国特許仮出願第62/017,580号において紹介され、当仮出願の開示内容全体は、参照により本明細書に組み込まれるものとする。
一度試験用核酸断片306がそれぞれのパーティションに取り入れられると、これらの試験用核酸断片306の特性評価の際、それらがそれぞれのパーティションに由来するものとして属性付けられ得るように、パーティション内の試験用核酸断片306に一意的バーコードが一般に提供される。いくつかの実施形態において、特定の区画内に含まれる試料核酸に対して、特にパーティションに元より預託され得る比較的長く伸びた連続試料核酸に対して、例えば核酸配列情報といった特性の後からの属性付けを可能にするために、区画化またはパーティション化された試験用核酸断片を保持するパーティションに対し、このような一意的バーコードが、事前に、後に、または同時に給付される。
従って、断片604は通常、一意的バーコード(例えばバーコード配列)で共同パーティション化される。特に好ましい態様において、一意的バーコードは、核酸バーコード配列を含み、かつパーティション内の試験用核酸断片に結合されるオリゴヌクレオチドの形態で提供される。所定のパーティション内のオリゴヌクレオチド間では、そこに含まれる核酸バーコード配列は同じであるが、異なるパーティション間では、オリゴヌクレオチドは異なるバーコード配列を有することが可能であり、それが望ましくあるように、オリゴヌクレオチドはパーティション化される。いくつかの実施形態において、2つ以上の異なるバーコード配列が所定のパーティションに存在するが、好ましい実施形態においては、1つの核酸バーコード配列のみが所定のパーティションに対応付けられる。
核酸バーコード配列は通常、オリゴヌクレオチドの配列内に6個〜約20個以上のヌクレオチドを含む。いくつかの実施形態において、これらのヌクレオチドは、完全に連続する、すなわち単一に伸びた隣接ヌクレオチドである。代替実施形態において、これらは、1個または複数のヌクレオチドに分離された2個以上の別々のサブ配列に分離される。通常、分離されたサブ配列は、約4個〜約16個の中間ヌクレオチドに分離される。
試験用核酸602は、元の試験用核酸602の連続核酸分子306の比較的長い断片もしくは伸長に含まれるパーティション内に核酸が存在するように、通常パーティション化される。図6に示されるように、これらの断片306は通常、例えば全染色体、エクソーム、または他の大ゲノム断片といった分析対象となる試験用核酸全体のいくつかのオーバーラップ断片を表す。いくつかの実施形態において、試験用核酸602は、全ゲノム、個々の染色体、エクソーム、アンプリコン、または様々な異なる関心核酸のうちのいずれかを含む。通常、パーティション化された試験用核酸602の断片306は、1kbpより長く、5kbpより長く、10kbpより長く、15kbpより長く、20kbpより長く、30kbpより長く、40kbpより長く、50kbpより長く、60kbpより長く、70kbpより長く、80kbpより長く、90kbpより長く、または100kbpさえより長い。
試験用核酸602はまた通常、所定のパーティションが非常に低い確率で開始試験用核酸602のオーバーラップ断片306を2個含むレベルでパーティション化される。これは通常、パーティション化プロセス中に低投入量及び/または低濃度の試験用核酸602を提供することにより達成される。その結果、好ましい事例において、所定のパーティションは、開始試験用核酸602の長いがオーバーラップしていない断片306をいくつか含む。異なるパーティション内の核酸断片306はその後、一意的バーコードに対応付けられ、いずれかの所定のパーティションに含まれる核酸は同一の一意的バーコードを保有するが、異なるパーティションは異なる一意的バーコードを含む。さらに、パーティション化ステップにおいて試料成分は非常に小さい体積のパーティションまたは液滴に割り当てられることから、上述のような所望する割り当てを達成するためには、より大きい体積のプロセスで求められるように、例えばチューブ、またはマルチウェルプレートのウェルにおいて、試料の実質的希釈を行う必要がないことが理解されよう。さらに、本明細書において説明されるシステムはこのようなハイレベルなバーコード多様性を採用するため、前に提示されたように、たくさんの数のゲノム等価物に多様なバーコードを割り当てることが可能である。いくつかの実施形態において、ゲノム:(バーコード種)の比がおよそ1:50以下、1:100以下、1:1000以下、またはさらに小さい比となるように、同時にたくさんの数のゲノム(例えばおよそ1アッセイあたり100個を超えるゲノム、1アッセイあたり500個を超えるゲノム、または1アッセイあたり1000個以上のゲノム)をロード可能なように、同時にさらにゲノムごとにはるかに向上したバーコード多様性を提供するように、10,000、100,000、500,000個等を超える多様なバーコードの種類が使用される。ここで、このようなゲノムはそれぞれ、試験用核酸の実施例である。
図3AのパネルBを参照すると、前述のパーティション化は多くの場合、試験用核酸を含む試料を、パーティション化ステップの前にビーズ308に遊離可能に結合されたオリゴヌクレオチドタグ302(バーコード132を含む)のセットと組み合わせることで、実行される。オリゴヌクレオチド302は、少なくともプライマー領域316とバーコード132領域とを有し得る。所定のパーティション内のオリゴヌクレオチド302間では、バーコード領域132は実質的に同一のバーコード配列であるが、異なるパーティション間では、バーコード領域は大抵の場合異なるバーコード配列である。いくつかの実施形態において、プライマー領域316は、パーティションに含まれる試料内の断片306をプライム化するために使用されるN塩基長(ランダムなN塩基長、または特定の配列を対象とするように設計されたN塩基長)である。いくつかの事例において、N塩基長が特定の配列を対象とするように設計される場合、プライマー領域316は、特定の染色体(例えばヒト染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X、またはY)、または例えばエクソームもしくは他の標的領域といった染色体の領域を対象とするように設計される。いくつかの事例において、N塩基は、疾患または異常(例えば癌)に対応付けられる遺伝子または領域等、特定の遺伝子または遺伝子領域を対象とするように設計される。いくつかの事例において、N塩基長は、特定の構造変異を対象とするように設計される。パーティション内で、試験用核酸断片306を断片の長さに沿った異なる場所でプライム化するために、プライマー配列316(例えばN塩基長)を使用して増幅反応が行われる。増幅の結果、各パーティションは、同一または略同一バーコードに属し、かつ各パーティション内の核酸のより小さいオーバーラップ断片を表す、核酸602の増幅産物を含む。そのためバーコード132は、核酸セットが同一のパーティションに由来する、従って同一の試験用核酸断片306に由来する可能性もあることを示すマーカーとして機能する。いずれかの所定のパーティション内には、通常いくつかの断片306が存在することが理解されよう。それにもかかわらず、典型的実施形態において、同一のパーティション内に存在する断片306は通常いずれの顕著なオーバーラップも有さないため、増幅した配列リードをいずれかの所定のパーティション内の正しい断片304に局所化することが可能である。増幅に続いて、増幅された核酸は、プールされ、配列リードを形成するために配列決定され、配列アルゴリズムを使用してアラインされる。より短い配列リードは、それらの対応付けられたバーコード配列のおかげで、試験用核酸602の単一の長い由来断片にアラインかつ属性付けが行われ得るため、その配列上の特定されたバリアントは全て、試験用核酸602の単一由来断片306及び単一由来染色体に属性付けが可能である。その上、複数の長い断片306にわたる複数の共同配置バリアントをアラインすることにより、染色体寄与を特徴付けることがさらに可能である。従って、特定の遺伝子バリアントのフェージングに関する結論が描かれ得る。このような情報は、通常同一の核酸ストランドまたは異なる核酸ストランドに属する遺伝子バリアントの特定セットであるハプロタイプを特定するために有用であり得る。さらに、追加または代替の構造バリアントが特定される。
いくつかの実施形態において、図3Aを参照すると、共同パーティション化オリゴヌクレオチドタグ302は、バーコード配列132及びプライマー領域配列316に加えて、機能配列も含む。例えば、いくつかの実施形態において、共同パーティション化オリゴヌクレオチドタグ302は、例えば配列の存在の特定のため、もしくはバーコード化核酸をプルダウンするために、対応バーコード配列、配列プライマー、ハイブリダイゼーションもしくはプローブ配列を結合させる一方、パーティション304内の試験用核酸断片306を増幅する、標的もしくはランダム/汎用増幅プライマー配列といった、パーティション化核酸の処理において有用な他の機能配列、あるいは多数の他の可能性のある機能配列のうちのいずれかも含む。例えば2014年2月7日に出願された米国特許出願第61/940,318号、2014年5月9日に出願された米国特許出願第61/991,018号、及び2014年6月26日に出願された米国特許出願第14/316,383号(代理人整理番号43487−708.201)、並びに2014年2月7日に出願された米国特許出願第14/175,935号において説明される、例えば試料物質を伴う、オリゴヌクレオチドと、対応バーコードと、他の機能配列との共同パーティション化に関する開示を参照されたい。当出願の開示内容全体は、参照により本明細書に組み込まれるものとする。
1つの例示的プロセスにおいて、ビーズが提供され、このようなビーズはそれぞれ、ビーズに遊離可能に結合された前述のオリゴヌクレオチドを多数含む。このような実施形態において、特定のビーズに結合されたオリゴヌクレオチドの全ては同一の核酸バーコード配列を含むが、使用されるビーズの集団にわたって、数々の多様なバーコード配列が表される。通常、ビーズの集団は、少なくとも1000個の異なるバーコード配列、少なくとも10,000個の異なるバーコード配列、少なくとも100,000個の異なるバーコード配列、またはいくつかの事例において少なくとも1,000,000個の異なるバーコード配列を含む多様バーコード配列ライブラリを提供する。さらに、各ビーズには通常、多数の結合オリゴヌクレオチド分子が提供される。特に、単一のビーズ上でバーコード配列を含むオリゴヌクレオチドの分子の数は、少なくとも約10,000個のオリゴヌクレオチド、少なくとも100,000個のオリゴヌクレオチド分子、少なくとも1,000,000個のオリゴヌクレオチド分子、少なくとも100,000,000個のオリゴヌクレオチド分子、並びにいくつかの事例においては少なくとも10億個のオリゴヌクレオチド分子であり得る。
いくつかの実施形態において、オリゴヌクレオチドは、ビーズに対する特定の刺激の適用により、遊離可能である。いくつかの事例において、刺激は、例えば感光性結合の開裂によりオリゴヌクレオチドを遊離させ得る光刺激である。いくつかの事例においては、熱刺激が使用され、ビーズ環境の温度の上昇により、ビーズからオリゴヌクレオチドの結合開裂もしくは他の遊離がもたらされる。いくつかの事例においては、ビーズに対するオリゴヌクレオチドの結合を開裂する、あるいはビーズからオリゴヌクレオチドの遊離をもたらす、化学的刺激が使用される。
いくつかの実施形態において、単一ビーズ及び単一試料が個別のパーティション内に含まれるように、結合オリゴヌクレオチドタグ302を含むビーズは、個別の試料と共に共同パーティション化される。いくつかの事例において、単一ビーズパーティションが所望される場合、占有済パーティションが主に単一のビーズで占有されていることを確実にするために、パーティションは平均して各パーティションに1個未満のビーズを含むように流体の相対流量を制御することが望ましくあり得る。同様に、いくつかの実施形態において、流量を制御して、高い割合のパーティションが占有済みになるようにし、例えば僅かな割合の非占有パーティションのみを許容する。より好ましい態様において、単一占有済パーティションの所望数が、非占有パーティションの特定レベル未満であり、複数占有済パーティションの特定レベル未満であることを確実にするために、流動及びチャネルアーキテクチャが制御される。
参照により本明細書に組み込まれる“Analysis of Nucleic Acid Sequences”と題する2014年10月29日に出願された米国特許出願第62/072,214号の図3、並びに図3を説明する明細書の部分は、本開示の一実施形態による、試験用核酸(参考文献においては「試料核酸」と称される)をバーコード化し、その後配列決定する1つの方法の詳しい実施例を提供する。上記のように、単一ビーズ占有が最も望ましい状態であり得るが、複数占有パーティションまたは非占有パーティションがよく存在し得ることが理解されよう。参照により本明細書に組み込まれる“Analysis of Nucleic Acid Sequences”と題する2014年10月29日に出願された米国特許出願第62/072,214号の図4、並びに図4を説明する明細書の部分は、本開示の一実施形態による、試料とバーコードオリゴヌクレオチドを含むビーズとを共同パーティション化するマイクロ流体チャネル構造の詳しい実施例を提供する。
一旦共同パーティション化されると、ビーズ上に配置されたオリゴヌクレオチドタグ302は、バーコードとして使用され、パーティション化された試料を増幅する。試料の増幅及びバーコード化においてこれらのバーコードオリゴヌクレオチドを使用するための1つのプロセスが、2014年2月7日に出願された米国特許出願第61/940,318号、2014年5月9日に出願された米国特許出願第61/991,018号、及び2014年6月26日に出願された米国特許出願第14/316,383号(代理人整理番号43487−708.201)において詳しく説明され、当出願の開示内容全体は、参照により本明細書に組み込まれるものとする。簡潔に言うと、一態様において、試料と共に共同パーティション化され、ビーズ上に存在するオリゴヌクレオチドは、それらのビーズから遊離し、試料を有するパーティション内へ放出される。オリゴヌクレオチドは通常、バーコード配列132と共に、その5’末端316にプライマー配列を含む。いくつかの実施形態において、当プライマー配列は、試料の多数の異なる領域をランダムにプライム化するためのランダムオリゴヌクレオチド配列である。いくつかの実施形態において、プライマー配列316は、試料の特定標的領域の上流をプライム化することを目的とする特定プライマー配列である。
一旦遊離すると、オリゴヌクレオチドのプライマー部分は、パーティション内の試験用核酸断片306の相補性領域に対しアニールされる。例えばDNAポリメラーゼ、ヌクレオシド3リン酸、補助因子(例えばMg2+またはMn2+等)といった、断片306及びビーズ304と共に同様に共同パーティション化される伸長反応試薬は、断片306をテンプレートとして使用してプライマー配列を伸長して、プライマーがアニールされた試験用核酸断片306のストランドに対する相補配列を生成し、そしてこの相補配列は、オリゴヌクレオチド302とその対応付けられたバーコード配列132とを含む。パーティション304内の断片306の異なる部分に対する複数のプライマーのアニール及び伸長により、試験用核酸断片306のオーバーラップ相補部分の大きなプールが生じ、オーバーラップ相補部分はそれぞれ、それ自体が作成されたパーティション304を示す自身のバーコード配列132を保有する。いくつかの事例において、これらの相補断片自体は、パーティション304内に存在するオリゴヌクレオチドによりプライム化されるテンプレートとして使用され、バーコード配列132を同様に含む相補体の相補体が生成される。いくつかの事例において、この複製プロセスは、分子がさらなる反復コピーを生成するための基礎となる能力を低減するヘアピン構造または部分的ヘアピン構造の形成を可能にするために、第1相補体が複製されると、この第1相補体がその末端またはその付近で2個の相補配列を生成するように構成される。この一実施例の略図が、図3Fに示される。
図3Aが示すように、バーコード配列132を含むオリゴヌクレオチド302は、例えばエマルジョン内の液滴304内に、試料試験用核酸断片306と共に共同パーティション化される。いくつかの実施形態において、オリゴヌクレオチド302は、試験用核酸断片306と共に共同パーティション化されるビーズ308上に提供される。図3Aのパネル(A)に示されるように、オリゴヌクレオチド302は、ビーズ308から遊離可能であることが好ましい。図3Aのパネル(B)に示されるように、オリゴヌクレオチド302は、例えば配列312、132、316といった1つまたは複数の機能配列に加えて、バーコード配列132を含む。例えば、オリゴヌクレオチド302は、例えばILLUMINA、HISEQ、またはMISEQシステムのフローセルにおける結合に使用されるP5配列といった、所定の配列決定システムのための結合または固定化配列として機能し得る結合配列312をさらに含むように示される。言い換えると、結合配列312は、いくつかの実施形態において、オリゴヌクレオチド302をビーズ308に可逆的に結合させるのに使用される。図3Aのパネル(B)に示されるように、オリゴヌクレオチド302はまた、試料試験用核酸断片306の部分の複製をプライム化するためのランダムまたは標的N塩基長(前に論じられた)を含み得るプライマー配列316も含む。図3Aのパネル(B)の例示的オリゴヌクレオチド302内には、配列決定システムにおける合成反応によりポリメラーゼ媒介のテンプレート向け配列をプライム化するのに使用される「リード1」またはR1プライム化領域といった配列プライム化領域を提供し得る配列310も含まれる。数多くの事例において、バーコード配列132、固定化配列312、及び例示的R1配列310は、所定のビーズに結合される全てのオリゴヌクレオチド302に共通し得る。プライマー配列316は、ランダムなN塩基長プライマーによって異なり得る、あるいは特定の標的適用のための所定のビーズ上のオリゴヌクレオチドに共通し得る。
図3Bを参照すると、オリゴヌクレオチド302a、302bは、プライマー配列316の存在に基づき試験用核酸断片306をプライム化することが可能であり、これにより、ビーズ304及び試料試験用核酸断片306と共に同様に共同分割されるポリメラーゼ酵素及び他の伸長試薬を使用して、オリゴヌクレオチド302a、302bの伸長が可能となる。
図3Cに示されるように、続いてのオリゴヌクレオチドの伸長において、ランダムなN塩基長プライマーに関して、試料試験用核酸断片306の複数の異なる領域に対するアニールが行われ、例えば断片130‐1、130‐2といった試験用核酸断片306の複数のオーバーラップ相補体もしくは断片が作成される。従って、図3Cは(A)複数の配列リードの取得を示し、複数の配列リード内の各配列リード128は、試験用核酸602のサブセットに対応する第1部分130と、より大きい連続核酸602の配列に依存せず、かつ複数のパーティションのうち各配列リードが形成された(例えばバーコード配列132)パーティション304を特定するバーコードを形成する共通第2部分132とを備える。
これらの構成概念は、例えば配列306‐1、306‐2といった試験用核酸の部分に相補的な配列部分を含むが、本明細書において通常、結合バーコード配列を有する試料試験用核酸602の断片を含むとみなされる。前述のテンプレート配列の複製部分は、本明細書において、そのテンプレート配列の「断片」と多くの場合称されることが理解されよう。しかしながら、前述にもかかわらず、用語「断片」は、例えばテンプレートもしくは試料核酸といった由来試験用核酸配列の部分に対するいかなる表現も含み、これには、例えば酵素的、化学的、または機械的断片化による、所定の配列分子の実際の断片化等、テンプレート配列の部分を提供する他の機構により作成されたものも含まれる。しかしながら、好ましい態様において、試験用核酸配列の断片は、内在配列の複製部分またはその相補体を示す。
図3Bのバーコード化核酸断片はそれから、例えば配列分析を通して、特性評価を受け得る、あるいは、それらはさらに図3Dにおいて示されるように、プロセスにおいて増幅され得る。例えば、同様にビーズ308から遊離した例えばオリゴヌクレオチド302cといった追加オリゴヌクレオチドは、断片302bをプライム化し得る。特に、同様にオリゴヌクレオチド302c内のランダムなN塩基長プライマー316の存在に基づき(数多くの事例において所定のパーティションにおける他のランダムなN塩基長とは異なる)、オリゴヌクレオチドは、断片302bとアニールし、試験用核酸配列の部分の重複を含む断片302bの少なくとも一部に対する相補体130‐3を作成するために伸長される。オリゴヌクレオチド302bの伸長は、断片302bのオリゴヌクレオチド部分130を全て複製し終えるまで続く。本明細書における別の箇所で言及されるように、そして図3Dにおいて例示されるように、オリゴヌクレオチドは、例えば断片に含まれるオリゴヌクレオチド302bの配列316、310を全て複製した後といった所望する時点に、ポリメラーゼにより複製を即座に終了するように構成され得る。本明細書において説明されるように、これは、例えば使用ポリメラーゼ酵素により処理不可能な異なるヌクレオチドの結合及び/またはヌクレオチドアナログを含む別の方法でも達成され得る。例えば、これは、非ウラシル耐性ポリメラーゼが配列領域310の複製を終わらすことを防ぐために、配列領域310内にウラシル含有ヌクレオチドを包含することを含み得る。その結果、図3Eを参照すると、バーコード配列132と、結合配列312と、R1プライマー領域310と、ランダムなN塩基長配列316とが含まれるオリゴヌクレオチド302b全長を一端に含む配列リード128‐3が作成される。配列のもう一端には、第1オリゴヌクレオチド302のランダムなN塩基長に対する相補体316’、並びに配列310’と示されるR1配列の全てまたは一部に対する相補体が含まれる。R1配列310及びその相補体310’はそれから、共にハイブリダイズして部分的ヘアピン構造360を形成することが可能である。理解されるように、様々なオリゴヌクレオチドによりランダムなN塩基長は異なるため、これらの配列及びこれらの相補体がヘアピン構成に加わるとは見込まれず、例えばランダムなN塩基長316の相補体である配列316’は、ランダムなN塩基長配列316bに対し相補的になるとは見込めない。例えば所定のパーティション内のオリゴヌクレオチド間でN塩基長が共通である標的プライマーといった別の適用に関しては、これは該当しない。
これらの部分的ヘアピンを形成することにより、試料配列の第1レベル重複をさらなる複製から取り除くことが可能となり、例えばコピーの反復コピーが防止される。部分的ヘアピン構造はまた、例えば断片130‐3といった作成された断片の後続処理に有用な構造を提供する。
複数の異なるパーティションの全ての配列リード128はその後、本明細書において説明されるように、高処理配列決定装置による配列決定のためにプールされ得る。各配列リード128はその由来パーティションに応じて符号化されるため、その配列リードの配列は、バーコード132の存在に基づいてその由来源に戻れるよう属性付けられ得る。このような配列リード、及びこのような配列リードの分析は、開示される核酸配列データセット126の基礎を形成する。
図4に概略的に示される内容に関する。一実施例において示されるように、試験用核酸断片306‐1と試験用核酸断片306‐2はそれぞれ、本明細書において説明されるように、自身のバーコードオリゴヌクレオチド132のセットと共にパーティション化される。各パーティション内で、それから各断片(306‐1、306‐2)は、断片306‐1、306‐2のオーバーラップ配列リード128を別々に提供して各配列リードセット414、416を形成するように処理される。当処理はバーコード配列132を有する配列リード414を提供し、当バーコード配列132は、特定の第1断片306‐1に由来するそれぞれの配列リード414に関して同一である。表されるように、配列リードセット414は「1」と示され、一方配列リードセット416は「2」と示される。多様なバーコードライブラリが、多数の異なる断片リードセットを異なるようにバーコード化するために、使用され得る。しかしながら、所定のパーティション内の全ての配列リードは、異なるバーコード配列でバーコード化される必要はない。実際には、数多くの事例において、複数の異なる第1断片は、同一バーコード配列を含むように同時に処理され得る。多様なバーコードライブラリについては、本明細書における別の箇所で詳しく説明される。
配列リードセットはそれから、例えばIlluminaまたはIon Torrent division of Thermo Fisher,Inc.にて入手可能である合成技術による配列を用いる配列決定のためにプールされ得る。一度配列決定されると、例えば集約リードに示されるように、含まれるバーコードに少なくとも部分的に基づいて、並びに任意で好ましくは断片自体の配列に部分的に基づいて、配列リード128はそれぞれの断片セットに属性付けられ得る。各断片セットに属性付けられた配列リードはそれからアセンブルされ、例えば配列418、420といった各試料断片のアセンブル配列が提供され、これらは今度はそれぞれの元の断片(306‐1、306‐2)戻れるようにさらに属性付けられ得る。ゲノム配列をアセンブルする方法及びシステムが、例えば2014年6月26日に出願された米国特許仮出願第62/017,580号(代理人整理番号43487−729.101)において説明され、当仮出願の開示内容全体は、参照により本明細書に組み込まれるものとする。
いくつかの実施形態において、生体試料は複数染色体生物種に由来し、試験用核酸602は、複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む(208)。いくつかの実施形態において、複数の配列リード内の各配列リードの第2部分132におけるバーコードは、セット{1、・・・、1024}、{1、・・・、4096}、{1、・・・、16384}、{1、・・・、65536}、{1、・・・、262144}、{1、・・・、1048576}、{1、・・・、4194304}、{1、・・・、16777216}、{1、・・・、67108864}、または{1、・・・、1×1012}から選択される一意的な所定値を符号化する(210)。例えば、バーコード配列132が5つのヌクレオチド位置のセットにより表される事例を検討する。当事例において、各ヌクレオチド位置は4つの可能性(A、T、C、またはG)を提供し、5つの位置全てが考慮される場合、4×4×4×4×4=1024の可能性が生じる。従って、5つのヌクレオチド位置は、セット{1、・・・、1024}の基礎を成す。言い換えると、バーコード配列132が5塩基長である場合、各配列リード128の第2部分132は、セット{1、・・・、1024}から選択される一意的な所定値を符号化する。同様に、バーコード配列132が6つのヌクレオチド位置のセットにより表される場合、6つのヌクレオチド位置は、4×4×4×4×4×4=4096の可能性を合わせて提供する。従って、6つのヌクレオチド位置は、セット{1、・・・、4096}の基礎を成す。言い換えると、バーコード配列132が6塩基長である場合、各配列リード128の第2部分132は、セット{1、・・・、4096}から選択される一意的な所定値を符号化する。
いくつかの実施形態において、複数の配列リード内の配列リードの第2部分132におけるバーコードは、配列リード内のオリゴヌクレオチド連続セットに局所化される(212)。このような一例示的実施形態において、オリゴヌクレオチド連続セットはN塩基長であり、Nはセット{4、・・・、20}から選択される整数である(214)。言い換えると、いくつかの実施形態において、例えば図3BのパネルBにおけるバーコード132は、試験用核酸の転写にあたり最終的に第2部分132となる、オリゴヌクレオチドタグ302内のヌクレオチド位置の連続セット(例えば4連続ヌクレオチド位置、5連続ヌクレオチド位置、6連続ヌクレオチド位置、7連続ヌクレオチド位置、8連続ヌクレオチド位置、9連続ヌクレオチド位置、10連続ヌクレオチド位置、11連続ヌクレオチド位置、12連続ヌクレオチド位置、13連続ヌクレオチド位置、14連続ヌクレオチド位置、15連続ヌクレオチド位置、16連続ヌクレオチド位置、17連続ヌクレオチド位置、18連続ヌクレオチド位置、19連続ヌクレオチド位置、または20連続ヌクレオチド位置)である。
対照的に、いくつかの実施形態において、複数の配列リード内の配列リードの第2部分におけるバーコードは、配列リード内のオリゴヌクレオチド非連続セットに局所化される(216)。このような一例示的実施形態において、所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nはセット{4、・・・、20}内の整数である(218)。いくつかの実施形態において、実施例として、図3AのパネルBを参照すると、バーコード配列132は、オリゴヌクレオチドタグ302内の第1位置にある連続ヌクレオチド位置第1セットと、スペーサにより連続ヌクレオチド位置第1セットから変位された、オリゴヌクレオチドタグ302内の第2位置にある連続ヌクレオチド位置第2セットとを含む。一具体的実施例において、バーコード配列132は(X1)nYz(X2)mを含み、X1はn個の連続ヌクレオチド位置であり、Yはz個の連続ヌクレオチド位置の恒常的所定セットであり、X2はm個の連続ヌクレオチド位置である。当実施例において、この例示的バーコードをもたらすスキーマにより生成される配列リード128の第2部分におけるバーコードは、オリゴヌクレオチド非連続セット、すなわち(X1)n及び(X2)mに局所化される。これは、バーコード配列132の非連続形式の数多くある実施例のうちの1つにすぎない。
いくつかの実施形態において、複数の配列リード内の第1配列リードは、2×36bp、2×50bp、2×76bp、2×100bp、2×150bp、または2×250bpである試験用核酸のサブセットに対応し、用語2×Nbpは、配列リードが、不特定の長さに切り離された1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の長さN塩基対の2つのリードを有することを意味する。いくつかの実施形態において、この不特定の長さは、200〜1200塩基対である。いくつかの実施形態において、複数の配列リード内の第1配列リードは、1個の核酸(例えば生体試料から取得される試験用核酸に由来する)の少なくとも25bp、少なくとも30bp、少なくとも50bp、少なくとも100bp、少なくとも200bp、少なくとも250bp、少なくとも500bp、500bp未満、400bp未満、または300bp未満を表す(220)。
ビン情報の取得
開示されるシステム及び方法により、複数のビンのビン情報が取得される(222)。複数のビン内の各ビン140は、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。図5が例示される。図5において、試験用核酸602が描かれる。図5においてさらに示されるように、複数のビン内の各ビン140は、試験用核酸602の異なる部分142を表す。さらに、ビン情報は、複数のビン内の各ビン140に関して、各ビンに対応する配列リード128のセット144を特定する。
開示されるシステム及び方法により、複数のビンのビン情報が取得される(222)。複数のビン内の各ビン140は、試験用核酸の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定する。図5が例示される。図5において、試験用核酸602が描かれる。図5においてさらに示されるように、複数のビン内の各ビン140は、試験用核酸602の異なる部分142を表す。さらに、ビン情報は、複数のビン内の各ビン140に関して、各ビンに対応する配列リード128のセット144を特定する。
図5を引き続き参照すると、複数の配列リードセット内の各配列リードセット144に含まれる各配列リード128は、複数の配列リードに含まれる。すなわち、各配列リード128は、ビン化された試験用核酸602の部分142に対応する。
複数の配列リードセット内の各配列リードセット144に含まれる各配列リード128は、試験用核酸のサブセットに対応する各第1部分130を有し、各第1部分130は、各配列リードセットに対応するビン140により表される試験用核酸602の異なる部分142と少なくとも部分的にオーバーラップする。例えば、図5に示されるセット144‐1を参照すると、各配列リード128‐1‐1、・・・、128‐1‐Kは、ビン140‐1に対応する試験用核酸140‐1の領域142‐1の少なくともサブセットに対応する第1部分130を含む。図3のスキーマ及び構成概念から、典型的実施形態において、セット144‐1の配列リード128‐1‐1、・・・、128‐1‐Kの第1部分130は、異なる長さから成り、お互いに変位されるがオーバーラップすることが理解されよう。いくつかの実施形態において、このような第1部分130は、試験用核酸602の隣接領域142のいくつかのヌクレオチド位置を含み得る。いくつかの実施形態において、第1部分130は、ビン140の試験用核酸602の領域142のサブセットのみを表す。
いくつかの実施形態において、ビン140‐に対応する試験用核酸の領域142は、実質的には、ビン内の配列リード128のセット144に含まれるいずれかの所定の第1部分130よりも長い。さらに、いくつかの実施形態において、配列リード128の所定のセット144は、5個以上の異なるバーコード配列132、10個以上の異なるバーコード配列132、15個以上の異なるバーコード配列132、20個以上の異なるバーコード配列132、25個以上の異なるバーコード配列132、30個以上の異なるバーコード配列132、35個以上の異なるバーコード配列132、40個以上の異なるバーコード配列132、45個以上の異なるバーコード配列132、または50個以上の異なるバーコード配列132を含む。
いくつかの実施形態において、ビン144内の2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、10個以上、または11個以上の配列リード128が、同一のバーコード配列132を有する。いくつかの実施形態において、ビン144内の各配列リード128は、異なるバーコード配列132を有する。
いくつかの実施形態において、複数のビン内の各ビン140は、試験用核酸の少なくとも20kbp、少なくとも50kbp、少なくとも100kbp、少なくとも250kbp、または少なくとも500kbpを表す(224)。言い換えると、図5を参照すると、いくつかの実施形態において、ビン140‐1により表される試験用核酸602の部分142‐1は、少なくとも20kbp、少なくとも50kbp、少なくとも100kbp、少なくとも250kbp、または少なくとも500kbpである。
いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分406は、オーバーラップしない(226)。このような実施形態が、図5に示される。このような実施形態において、配列リード128の第1部分130が、対応ビン144内において隣接領域142とオーバーラップすることもあり得る。いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分406は、オーバーラップしない(226)が、対応ビン144内の配列リード128の第1部分130は隣接部分406と一部オーバーラップする。
いくつかの実施形態において、複数の配列リード内の各配列リードセット144に含まれる各配列リード128は、試験用核酸602のサブセットに対応する各第1部分130を有し、各第1部分130は、各配列リードセット144に対応するビン144により表される試験用核酸602の異なる部分142と完全にオーバーラップする。言い換えると、図5のビン144‐1を実施例として使用すると、いくつかの実施形態において、各配列リード128‐1‐1、・・・、128‐1‐kの各第1部分130は、領域142‐1の完全コピーを含む。
いくつかの実施形態において、複数のビンは、10,000個以上のビン、100,000個以上のビン、または1,000,000個以上のビンを含む(230)。
配列リードの2つのセットに共通する一意的バーコードの数の特定
方法は、複数の配列リード内の配列リード第1及び第2セットの両方に存在する一意的バーコードの数の特定に進む(232)。このような特定の実施例として、セット144‐1のうちどれだけの数の配列リード128‐1‐Xが、セット144‐2内の配列リード128‐2‐Yにおけるバーコード配列132と同一のバーコード配列132を有するかを特定することが挙げられる。当特定は、一意的配列バーコードの数につながる。例えば、セット144‐1内の配列リード128‐1‐X並びにセット144‐2内の配列リード128‐1‐Yに存在する一意的バーコードが、5個ある事例を検討する。当事例において、別個の共通バーコードの数は5個である。
方法は、複数の配列リード内の配列リード第1及び第2セットの両方に存在する一意的バーコードの数の特定に進む(232)。このような特定の実施例として、セット144‐1のうちどれだけの数の配列リード128‐1‐Xが、セット144‐2内の配列リード128‐2‐Yにおけるバーコード配列132と同一のバーコード配列132を有するかを特定することが挙げられる。当特定は、一意的配列バーコードの数につながる。例えば、セット144‐1内の配列リード128‐1‐X並びにセット144‐2内の配列リード128‐1‐Yに存在する一意的バーコードが、5個ある事例を検討する。当事例において、別個の共通バーコードの数は5個である。
特定数が偶然に起因している可能性または見込みの決定
方法は、(232)にて決定された前特定数が偶然に起因している可能性または見込みの決定に進む。これは、当特定数に基づくメトリクと閾値基準との比較により行われる(234)。メトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。
方法は、(232)にて決定された前特定数が偶然に起因している可能性または見込みの決定に進む。これは、当特定数に基づくメトリクと閾値基準との比較により行われる(234)。メトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。
例えば、引き続き前述の図5のセット144‐1と144‐2との比較の実施例を使用して、(232)にて特定された数が偶然に起因している可能性または見込みが決定される。これは、(i)セット144‐1及びセット144‐2に共通する5個の一意的バーコード(バーコード配列132)に基づくメトリクと、(ii)閾値基準との比較により行われる(234)。メトリクが閾値基準を満たす場合、構造変異は、(i)試験用核酸602の部分142‐1、及び/または(ii)試験用核酸の異なる部分144‐2において起こったとみなされる。
いくつかの実施形態において、メトリクは以下のように計算される。
{b1、b2、・・・、bn}は、複数の配列リード内の配列リード第1及び第2セットの両方に存在するn個の一意的バーコード(例えばバーコード配列132)のセットであり、iはnに対する整数指数であり、
は、バーコードbiの第1部分が現れる複数のビンの分率である(236)。言い換えると、式Aの積は、共通リードではなく、別個の共通バーコードに対し適用される。
{b1、b2、・・・、bn}は、複数の配列リード内の配列リード第1及び第2セットの両方に存在するn個の一意的バーコード(例えばバーコード配列132)のセットであり、iはnに対する整数指数であり、
は、バーコードbiの第1部分が現れる複数のビンの分率である(236)。言い換えると、式Aの積は、共通リードではなく、別個の共通バーコードに対し適用される。
例えば、セット144‐1と144‐2との比較において、メトリクは以下のように計算される。
{b1、b2、・・・、bn}は、セット144‐2にも存在する一意的な(すなわちセット{b1、b2、・・・、bn}にわたって一意的な)バーコード配列132を有する、セット144‐1内のn個のバーコードのセットであり、iはnに対する整数指数であり、
は、バーコードbiが現れる複数のビンの分率である(236)。より具体的には、配列リード128の第1部分が各バーコード配列132を含む実施形態において、
は、各バーコード配列132が現れる複数のビンの分率である。
{b1、b2、・・・、bn}は、セット144‐2にも存在する一意的な(すなわちセット{b1、b2、・・・、bn}にわたって一意的な)バーコード配列132を有する、セット144‐1内のn個のバーコードのセットであり、iはnに対する整数指数であり、
は、バーコードbiが現れる複数のビンの分率である(236)。より具体的には、配列リード128の第1部分が各バーコード配列132を含む実施形態において、
は、各バーコード配列132が現れる複数のビンの分率である。
(1)における確率は、n個のバーコードがお互いに独立して発生すると仮定して、n個のバーコード全てを同時に観察する確率である。この確率が小さい場合、第1ビンと第2ビン間のオーバーラップはランダムであると仮定される。
いくつかの実施形態において、メトリクは以下のように計算される。
{b1、b2、・・・、bn}は、配列リード第1及び第2セットの両方に存在するn個の一意的バーコードのセットであり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、iはnに対する整数指数であり、
は、バーコードbiが現れる複数のビンの分率であり、
は、2項分布の累積分布関数である。max(n1、n2)のバーコードがそれぞれバーコードbiを保持する
確率を有すると仮定すると、
は、{b1、b2、・・・、bn}において少なくとも1度のbiの発生が達成される確率に相当する。これにより、配列リードがバーコードbiを有する確率は、複数のバーコードにおける当バーコードの出現頻度と等しいことが推測される。
{b1、b2、・・・、bn}は、配列リード第1及び第2セットの両方に存在するn個の一意的バーコードのセットであり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、iはnに対する整数指数であり、
は、バーコードbiが現れる複数のビンの分率であり、
は、2項分布の累積分布関数である。max(n1、n2)のバーコードがそれぞれバーコードbiを保持する
確率を有すると仮定すると、
は、{b1、b2、・・・、bn}において少なくとも1度のbiの発生が達成される確率に相当する。これにより、配列リードがバーコードbiを有する確率は、複数のバーコードにおける当バーコードの出現頻度と等しいことが推測される。
(2)または(1)における確率の計算は、各対のビン間の全共通バーコードに対する反復を要する。典型的な事例において大抵のビン対は顕著な配列バーコードオーバーラップを有さないため、候補ビン対初期セットは、全てのバーコードが同一の出現頻度を有すると仮定する計算負荷の多少軽い試験を行ことにより取得され得る。いくつかのこのような実施形態において、メトリクは以下のように計算される。
nは配列リード第1及び第2セット両方において存在する一意的バーコードの数であり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、Bは複数のビンにわたる一意的バーコードの総数である。等式(3)は、全てのバーコードが複数のビンにおいて同一の出現頻度を有し、かつランダムに選ばれることを仮定して、n個を超えるオーバーラップバーコードを観察する確率である。
nは配列リード第1及び第2セット両方において存在する一意的バーコードの数であり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、Bは複数のビンにわたる一意的バーコードの総数である。等式(3)は、全てのバーコードが複数のビンにおいて同一の出現頻度を有し、かつランダムに選ばれることを仮定して、n個を超えるオーバーラップバーコードを観察する確率である。
ゲノム全域にわたる全ビン対(例えば複数のビンにわたる)に対する反復は時間がかかり得る。例えば、ヒトゲノム(おおよそ3×109塩基対長)がサイズ10kbの非オーバーラップウィンドウにビン化される場合、これにより3×105個のビンがもたらされる。言い換えると、複数のビンに3×105個のビンが存在し得る。当事例において、比較ビン対の数は、約1010となり得る。いくつかの実施形態において、当比較を効率的に行うことを可能にするために、行列演算が使用される。特に、染色体ごとに、B×N行列であるAが定義され、Bは実験において存在する一意的バーコードの数であり、Nは該当染色体内のビンの数である。いずれの所定のビンにもバーコードの小サブセットのみが現れるため、当行列は非常に疎な行列となる傾向にある。2個の染色体間(または染色体とそれ自体)でオーバーラップするビンを発見するために、バーコード行列A1、A2(前にAと定義される)に関して、積
が計算され、Tは行列A1の転置行列を示す。N1、N2はそれぞれ、A1、A2内のビンの数であり、そしてVはN1×N2行列である。Vijは、A1のi番目のビンと、A2のj番目のビンとにバーコードオーバーラップがある場合にのみ、ゼロ以外となる。当疎行列乗算を実行するために必要となる時間とメモリは、行列の全サイズではなく、結果行列内の非ゼロ要素の数による。従って、好都合なことに、バーコードを共有する全てのビンを検出するのに要する時間は、ビンの総数ではなく、このようなビンの数により増加する。
が計算され、Tは行列A1の転置行列を示す。N1、N2はそれぞれ、A1、A2内のビンの数であり、そしてVはN1×N2行列である。Vijは、A1のi番目のビンと、A2のj番目のビンとにバーコードオーバーラップがある場合にのみ、ゼロ以外となる。当疎行列乗算を実行するために必要となる時間とメモリは、行列の全サイズではなく、結果行列内の非ゼロ要素の数による。従って、好都合なことに、バーコードを共有する全てのビンを検出するのに要する時間は、ビンの総数ではなく、このようなビンの数により増加する。
従って、いくつかの実施形態において、第1及び第2ビンの識別は、疎行列乗算を使用して決定される。いくつかの実施形態において、疎行列乗算は以下の計算を含む。
A1は第1ビンのバーコードを含む第1B×N1バーコード行列であり、A2は第2ビンのバーコードを含む第2B×N2バーコード行列であり、Bは複数のビンにおける一意的バーコードの数であり、N1はA1内のビンの数であり、N2はA2内のビンの数であり、
は行列A1の転置行列である。
A1は第1ビンのバーコードを含む第1B×N1バーコード行列であり、A2は第2ビンのバーコードを含む第2B×N2バーコード行列であり、Bは複数のビンにおける一意的バーコードの数であり、N1はA1内のビンの数であり、N2はA2内のビンの数であり、
は行列A1の転置行列である。
いくつかの実施形態において、第1及び第2ビンは、異なる染色体内に存在する。従って、いくつかのこのような実施形態において、第1ビンは生体試料の第1染色体に対応付けられ、第2ビンは生体試料の第2染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2は第2染色体に対応付けられたビンの数である。
代替実施形態において、第1及び第2ビンは、同一の染色体内に存在する。従って、いくつかのこのような実施形態において、第1及び第2ビンは生体試料の第1染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2はN1と等しい。
本開示の計算の実施例のように、図6を参照して、肺癌細胞株NCI‐H2228において一般に見られる遺伝子融合、EML4‐ALK融合を検討する。当細胞株において、EML4のエクソン6、7間のイントロンは、ALKのエクソン20、21間のイントロンと融合する。これにより、EML4とALKの両方の部分から成る新規融合遺伝子が作られる。融合を有する試料において、EML4とALKの融合部分に及ぶ断片が存在する。従って、EML4とALKにマッピングされる配列リード128は、共通のバーコード132を有する傾向にある。通常EML4とALKは、同一断片が及ぶには離れすぎているため(1000万塩基対を超える)、融合がない場合、このようなバーコード共有は起こり得ない。NCI‐H2228細胞株に由来する試料において、EML4とALK間に共通する12個のバーコード132が特定され、これにより融合領域に及ぶ断片が少なくとも12個存在することが示唆される。複数のビンにわたるこれらのバーコードの実証的出現頻度を考えると、前述のメトリク(1)を使用して計算されるこのようなオーバーラップがまったく偶然に起こる確率は、10−8未満である。
いくつかの実施形態において、pが10−2以下、10−3以下、10−4以下、または10−5以下である時、メトリク(例えば前述のメトリク(1)、(2)、または(3))は閾値基準を満たすとみなされる(238)。
いくつかの実施形態において、構造変異は、配列リード第1セットにより表される試験用核酸の異なる部分に対する、50連続塩基以上、500連続塩基以上、または5000連続塩基以上の挿入または欠失である(240)。
いくつかの実施形態において、第1ビンにより表される試験用核酸の異なる部分は、第2ビンにより表される試験用核酸の異なる部分とオーバーラップする(242)。言い換えると、図5を参照すると、いくつかの実施形態において、区画142は、描かれるようにお互いに隣接するのではなく、お互いにオーバーラップする。いくつかのこのような実施形態において、第1ビンにより表される試験用核酸602の異なる部分(例えばビン144‐1に対応する部分142‐1)の少なくとも50パーセント、少なくとも80パーセント、または少なくとも95パーセントが、第2ビンにより表される試験用核酸602の異なる部分(例えばビン144‐2に対応する部分142‐2)とオーバーラップする(244)。
いくつかの実施形態において、構造変異は、配列リード第2セット(例えばセット144‐2)により表される試験用核酸の異なる部分から、配列リード第1セット(例えばセット144‐1)により表される試験用核酸602の異なる部分への、50連続塩基以上の、100連続塩基以上の、250連続塩基以上の、500連続塩基以上の、1000連続塩基以上の、10,000連続塩基以上の、20,000連続塩基以上の、40kb連続塩基以上の、100kb連続塩基以上の、または250kb連続塩基以上の転座である(246)。
いくつかの実施形態において、配列リード第1セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第1染色体に由来し、配列リード第2セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第2染色体に由来し、第2染色体は第1染色体とは異なる(248)。いくつかのこのような実施形態において、第1染色体は父系染色体であり、第2染色体は母系染色体である(250)。いくつかのこのような実施形態において、生体試料はヒトであり、第1染色体は染色体21、18、または13である(252)。
構造変異が起こったとみなされるいくつかの実施形態において、方法はさらに、特定された構造変異に応じる治療方式で、生体試料の由来する対象者を治療することを含む(254)。いくつかの実施形態において、この治療方式は、食事改善を含む(256)。例えば、いくつかの実施形態において、構造変異は癌に関連し、食事改善はデザート及び他の高糖度食品を回避することを含む。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む(258)。このような生物学的経路の非限定的実施例が、KEGGデータベースにおいて見つかる。Kanehisa及びGoto、2000、“KEGG:Kyoto Encyclopedia of Genes and Genomes”、Nucleic Acids Research 28、27‐30を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。
構造変異の精密な検出は、リードをゲノムに一意的かつ確信的にマップする配列アライナーの機能に依存する。いくつかの事例においては、BWA等の最先端のアライナーを使用しても上記は当てはまらない。Heng及びDurbin、2010、“Fast and accurate long−read alignment with Burrows−Wheeler transform”、Bioinformatics、26(5):589‐95を参照されたい。BWAの開示に関して当文献は参照によりは本明細書に組み込まれるものとする。例えば、試験用核酸602の高い相同性を有する2つの領域、すなわち高い配列類似度を有する2つの領域を検討する。いずれかの領域に由来する配列リード128は、試験用核酸602の両領域に適度によくアラインし得る。自然の配列変異と相まった配列決定エラーは、このような領域に由来する配列リード128を、その相同領域に由来するように見せ得る。これは、相同領域間での偽バーコード132共有を引き起こす。リード対情報に依存するアルゴリズムは、同一問題に悩まされる。このような誤判定の構造バリアントを検出できるように、いくつかの実施形態において、検出したブレークポイントの周りに配列リード128を局所的に再アラインするステップが行われる。コールされた構造バリアントの両ブレークポイントに対して同様の品質でアラインする配列リード128は、偽物として破棄される。
従って、メトリクが閾値基準を満たすとみなされるいくつかの実施形態において、方法はさらに、BWA等のアルゴリズムによるゲノム全域アライメントよりもより精密な局所的再アライメントプロシージャを使用して、特定数の配列リード内の各配列リード128を、配列リード第1セット(例えばセット144‐1)に対応する試験用核酸602のサブセット142(例えばサブセット142‐1)にアラインすることを含む。その後、当アライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第1セットに対応する試験用核酸のサブセット(例えばサブセット142‐1)に対する第1アライメント品質が決定される。このような実施形態において、方法はさらに、特定数の配列リード内の各配列リード128を、配列リード第2セットに対応する試験用核酸のサブセット142(例えばサブセット142‐2)にアラインすることを含む。さらに、当アライメントに基づいて、特定数の配列リード内の配列リードごとに、配列リード第2セットに対応する試験用核酸のサブセット(例えばサブセット142‐2)に対する第2アライメント品質が決定される。このようなアライメントの目的は、第1サブセット(例えばサブセット141‐1)と第2サブセット(例えばサブセット142‐2)とを判別しないアライメントスコアを有する配列リードを、特定数の配列リードから除くことである。言い換えると、第1アライメント品質と第2アライメントが類似する配列リードは除かれ、よって削減された配列リードの数となる。この削減された配列リードの特定数により、プロセス234が繰り返される(260)。配列数の当特定数(この時点では削減された数)が偶然に起因している可能性または見込みが、配列数の当特定数に基づくメトリクと閾値基準との比較により決定される。メトリクが閾値基準を満たす場合、構造変異は、(i)配列リード第1セットにより表される試験用核酸の異なる部分、及び/または(ii)配列リード第2セットにより表される試験用核酸の異なる部分において起こったとみなされる。いくつかの実施形態において、当メトリクは前述の等式(1)で定義される。
いくつかの実施形態において、ブラックアウトリストが保持される。ブラックアウトリストは、試験用核酸602の複数のブラックアウト領域を含む。いくつかのこのような実施形態において、決定プロセス234はさらに、配列リードの第1部分130が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、特定数の配列リードから当配列リード128を除くことを含む(262)。いくつかのこのような実施形態において、決定プロセス234はさらに、配列リードの第1部分130が複数のブラックアウト領域内のブラックアウト領域内に完全に含まれる場合にのみ、特定数の配列リードから当配列リード128を除くことを含む。
いくつかの実施形態において、ホワイトリストが保持される。ホワイトリストは、試験用核酸602の複数の領域を含む。いくつかのこのような実施形態において、決定プロセス234はさらに、配列リードの第1部分130が複数のホワイトリスト領域内のホワイトリスト領域とオーバーラップしない場合、特定数の配列リードから当配列リード128を除くことを含む。いくつかのこのような実施形態において、決定プロセス234はさらに、配列リードの第1部分130が複数のホワイトリスト領域内のどのホワイトリスト領域にも全く含まれない場合にのみ、特定数の配列リードから当配列リード128を除くことを含む。
パートB、構造変異に対する追加実施形態
図7を参照すると、一生体試料から取得される配列データにおいて構造変異を検出する追加方法が開示される。配列リードが取得され、各配列リードは、試験用核酸のサブセットに対応する部分と、配列データに依存しないバーコードを符号化する部分とを含む。ビン情報が取得される。各ビンは、試料核酸の異なる部分を表す。各ビンは、取得された配列リードで形成される複数の配列リードセット内の配列リードセットに対応するため、各配列リードセット内の各配列リードは、各セットに対応するビンにより表される試験用核酸のサブセットに対応する。2項検定により、共通の同一バーコードを有する配列リードを、偶然に見込まれるよりも多く有するビン対が特定される。確率モデルにより、これらのビン対の配列リードの構造変異尤度が決定される。
図7を参照すると、一生体試料から取得される配列データにおいて構造変異を検出する追加方法が開示される。配列リードが取得され、各配列リードは、試験用核酸のサブセットに対応する部分と、配列データに依存しないバーコードを符号化する部分とを含む。ビン情報が取得される。各ビンは、試料核酸の異なる部分を表す。各ビンは、取得された配列リードで形成される複数の配列リードセット内の配列リードセットに対応するため、各配列リードセット内の各配列リードは、各セットに対応するビンにより表される試験用核酸のサブセットに対応する。2項検定により、共通の同一バーコードを有する配列リードを、偶然に見込まれるよりも多く有するビン対が特定される。確率モデルにより、これらのビン対の配列リードの構造変異尤度が決定される。
図7は、一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法(702)を示すフローチャートである。いくつかの実施形態において、方法は、いくつかの実施形態による、1つまたは複数のプロセッサと、1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにて実行される(704)。
複数の配列リードの取得
開示されるシステム及び方法によれば、複数の配列リード128が取得される(706)。配列リードを取得する方法は、図7の構成要素706〜720にて開示される。
さらに、前述のパートA、構造変異において開示される配列リードの取得方法のうちのいずれか(例えば図2の構成要素206〜220)が使用され得、簡潔性ために本明細書において説明は繰り返さない。
開示されるシステム及び方法によれば、複数の配列リード128が取得される(706)。配列リードを取得する方法は、図7の構成要素706〜720にて開示される。
さらに、前述のパートA、構造変異において開示される配列リードの取得方法のうちのいずれか(例えば図2の構成要素206〜220)が使用され得、簡潔性ために本明細書において説明は繰り返さない。
ビン情報の取得
開示されるシステム及び方法によれば、複数のビン140が取得される(722)。ビンを取得する方法は、図7の構成要素722〜730にて開示される。さらに、前述のパートA、構造変異において開示されるビンの取得方法のうちのいずれか(例えば図2の構成要素222〜230)が使用され得、簡潔性ために本明細書において説明は繰り返さない。
開示されるシステム及び方法によれば、複数のビン140が取得される(722)。ビンを取得する方法は、図7の構成要素722〜730にて開示される。さらに、前述のパートA、構造変異において開示されるビンの取得方法のうちのいずれか(例えば図2の構成要素222〜230)が使用され得、簡潔性ために本明細書において説明は繰り返さない。
いくつかの実施形態において、大規模な構造バリアントをコールするために、試験用核酸(例えばゲノム)は10kbウィンドウにビン化され(以下ビン140と称する)、各ビン140内のQ60リードの一意的バーコード132が数えられる。いくつかの実施形態において、大規模な構造バリアントをコールするために、試験用核酸(例えばゲノム)は所定サイズ(例えば5kb、10kb、20kb、40kb)のビン140にビン化され、各ビン140内のQ40リード、Q50リード、Q60リード、またはQ70リードの一意的バーコード132が数えられる。
いくつかの実施形態において、複数のビン内の各ビン140は、試験用核酸602の異なる部分を表す。ビン情報は、複数のビン内のビンごとに、複数の配列リードセット内の配列リード128のセットを特定する。図5が例示される。図5において、試験用核酸602が描かれる。図5においてさらに示されるように、複数のビン内の各ビン140は、試験用核酸602の異なる部分142を表す。さらに、ビン情報は、複数のビン内の各ビン140に関して、各ビンに対応する配列リード128のセット144を特定する。
図5を引き続き参照すると、複数の配列リードセット内の各配列リードセット144に含まれる各配列リード128は、複数の配列リードに含まれる。すなわち、各配列リード128は、ビン化された試験用核酸602の部分142に対応する。
複数の配列リードセット内の各配列リードセット144に含まれる各配列リードは、試験用核酸のサブセットに対応する各第1部分130を有し、各第1部分130は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と少なくとも部分的にオーバーラップする(722)。例えば、図5に示されるセット144‐1を参照すると、各配列リード128‐1‐1、・・・、128‐1‐Kは、ビン140‐1に対応する試験用核酸140‐1の領域142‐1の少なくともサブセットに対応する第1部分130を含む。図3のスキーマ及び構成概念から、典型的実施形態において、セット144‐1の配列リード128‐1‐1、・・・、128‐1‐Kの第1部分130は、異なる長さから成り、お互いに変位されるがオーバーラップすることが理解されよう。いくつかの実施形態において、このような第1部分130は、試験用核酸602の隣接領域142のいくつかのヌクレオチド位置を含み得る。いくつかの実施形態において、第1部分130は、ビン140の試験用核酸602の領域142のサブセットのみを表す。
いくつかの実施形態において、ビン140‐に対応する試験用核酸の領域142は、実質的には、ビン内の配列リード128のセット144に含まれるいずれかの所定の第1部分130よりも長い。さらに、いくつかの実施形態において、配列リード128の所定のセット144は、5個以上の異なるバーコード配列132、10個以上の異なるバーコード配列132、15個以上の異なるバーコード配列132、20個以上の異なるバーコード配列132、25個以上の異なるバーコード配列132、30個以上の異なるバーコード配列132、35個以上の異なるバーコード配列132、40個以上の異なるバーコード配列132、45個以上の異なるバーコード配列132、または50個以上の異なるバーコード配列132を含む。
いくつかの実施形態において、ビン144内の2個以上、3個以上、4個以上、5個以上、6個以上、7個以上、8個以上、9個以上、10個以上、または11個以上の配列リード128が、同一のバーコード配列132を有する。いくつかの実施形態において、ビン144内の各配列リード128は、異なるバーコード配列132を有する。
いくつかの実施形態において、複数のビン内の各ビン140は、試験用核酸の少なくとも20kbp、少なくとも50kbp、少なくとも100kbp、少なくとも250kbp、または少なくとも500kbpを表す(724)。言い換えると、図5を参照すると、いくつかの実施形態において、ビン140‐1により表される試験用核酸602の部分142‐1は、少なくとも20kbp、少なくとも50kbp、少なくとも100kbp、少なくとも250kbp、または少なくとも500kbpである。
いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分は、オーバーラップしない(726)。このような実施形態が、図5に示される。このような実施形態において、配列リード128の第1部分130が、対応ビン144内において隣接領域142とオーバーラップすることもあり得る。いくつかの実施形態において、複数のビン内のそれぞれのビンにより表される試験用核酸のそれぞれの異なる部分406は、オーバーラップしない(726)が、対応ビン144内の配列リード128の第1部分130は隣接部分406と一部オーバーラップする。
いくつかの実施形態において、複数の配列リード内の各配列リードセットに含まれる各配列リードは、試験用核酸602のサブセットに対応する各第1部分130を有し、各第1部分130は、各配列リードセットに対応するビンにより表される試験用核酸の異なる部分と完全にオーバーラップする(728)。言い換えると、図5のビン144‐1を実施例として使用すると、いくつかの実施形態において、各配列リード128‐1‐1、・・・、128‐1‐kの各第1部分130は、領域142‐1の完全コピーを含む。
いくつかの実施形態において、複数のビンは、20個以上のビン、100個以上のビン、1000個以上のビン、10,000個以上のビン、100,000個以上のビン、または1,000,000個以上のビンを含む(730)。
共通バーコードを有するビンの特定
開示されるシステム及び方法において、複数のビン140の中から、試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンが特定される。第1ビンは複数の配列リード内の配列リード第1セット144により表され、第2ビンは複数の配列リード内の配列リード第2セット144により表される(732)。いくつかの実施形態において、このような配列リードセット144はそれぞれ、10個以上の配列リード128、20個以上の配列リード128、30個以上の配列リード128、または100個以上の配列リード128を含む。
開示されるシステム及び方法において、複数のビン140の中から、試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンが特定される。第1ビンは複数の配列リード内の配列リード第1セット144により表され、第2ビンは複数の配列リード内の配列リード第2セット144により表される(732)。いくつかの実施形態において、このような配列リードセット144はそれぞれ、10個以上の配列リード128、20個以上の配列リード128、30個以上の配列リード128、または100個以上の配列リード128を含む。
いくつかの実施形態において、第1ビン(140)及び第2ビン(140)は、試験用核酸上で少なくとも所定数のキロ塩基分、離れている(734)。いくつかの実施形態において、第1ビン及び第2ビンは、試験用核酸上で少なくとも5キロ塩基、少なくとも25キロ塩基、少なくとも50キロ塩基、または少なくとも100キロ塩基、離れている(736)。
いくつかの実施形態において、第1セット144及び第2セット144に共通するバーコード132の数が偶然に起因している数値的可能性または見込みを表す第1値が計算される(738)。いくつかの実施形態において、2項検定を使用して第1値が計算される(740)。例えば、いくつかの実施形態において、少なくとも所定距離(例えば50kb分または異なる染色体上に)離れており、かつ偶然により見込まれるよりも多くのバーコード132を共有する全てのビン対を見つけるために、2項検定が使用される(例えばいかなる多重仮説訂正なしに10−15のp値カットオフを使用して)。好都合にも、このようなカットオフは、可能性のある構造変異の全関心領域を含むように十分緩いことがわかっている。いくつかの実施形態において、2項検定は以下の形式を有する。
pはp値と表される第1値であり、nは配列リード第1及び第2セット両方において存在する一意的バーコードの数であり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、Bは複数のビンにわたる一意的バーコードの総数である(742)。いくつかの実施形態において、一生体試料はヒトであり、試験用核酸602は生体試料のゲノムであり、そして第1値が10−12以下の時、第1値が10−13以下の時、第1値が10−14以下の時、または第1値が10−15以下の時に、第1値は所定のカットオフ値を満たす(746)。
pはp値と表される第1値であり、nは配列リード第1及び第2セット両方において存在する一意的バーコードの数であり、n1は配列リード第1セット内の一意的バーコードの数であり、n2は配列リード第2セット内の一意的バーコードの数であり、Bは複数のビンにわたる一意的バーコードの総数である(742)。いくつかの実施形態において、一生体試料はヒトであり、試験用核酸602は生体試料のゲノムであり、そして第1値が10−12以下の時、第1値が10−13以下の時、第1値が10−14以下の時、または第1値が10−15以下の時に、第1値は所定のカットオフ値を満たす(746)。
いくつかの実施形態において、ここで比較されるビン対の数は、ざっと約1010である。これらの比較を効率的に行うために、いくつかの実施形態において、各ビン140内のバーコード132のセットは、(非常に疎な)行列における非ゼロエントリとして符号化され、疎行列乗算がオーバーラップする領域を特定するために使用される(748)。これにより、更なる構造変異研究のための候補ビン140の迅速な識別が可能となる。しかしながら、開示される2項検定は、試験用核酸断片306の長さ分布、及びGEMにわたる増幅率の変動等、システムの多数の態様を考慮していないため、いくつかの事例において非常に多数の誤判定を生み出す。いくつかの実施形態において、第1及び第2ビンの識別は、以下の形式の疎行列乗算を使用して決定される。
A1は第1ビンを含む第1B×N1バーコード行列であり、A2は第2ビンを含む第2B×N2バーコード行列であり、Bは複数のビンにわたる一意的バーコードの数であり、N1はA1内のビンの数であり、N2はA2内のビンの数であり、
は行列A1の転置行列である(750)。いくつかの実施形態において、第1ビンは生体試料の第1染色体に対応付けられ、第2ビンは生体試料の第2染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2は第2染色体に対応付けられたビンの数である(752)。いくつかの実施形態において、第1ビン及び第2ビンはそれぞれ生体試料の第1染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2はN1と等しい(754)。
は行列A1の転置行列である(750)。いくつかの実施形態において、第1ビンは生体試料の第1染色体に対応付けられ、第2ビンは生体試料の第2染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2は第2染色体に対応付けられたビンの数である(752)。いくつかの実施形態において、第1ビン及び第2ビンはそれぞれ生体試料の第1染色体に対応付けられ、N1は第1染色体に対応付けられたビンの数であり、N2はN1と等しい(754)。
2巡目において、ビン140の初期候補リストを精製するために、確率論的アプローチが使われる(744)。いくつかの実施形態において、同一バーコード132を有する近くの配列リード128(例えば30kbより近い)を接合することで、ライブラリ分子セットの推定が取得される。以下の論述において、同一バーコード132を有する近くの配列リード128の全範囲を指すのに、用語「断片」が使用される。断片はいくつかの非観察分子に由来する(観察断片よりも長くあり得る)。断片セットに基づいて、個別GEMのリード生成レート(bp毎の配列リード)等の量、各パーティション304内の分子の数、及び分子長さ分布が推定される。
候補ビン対W1、W2を前提として、それらをオーバーラップする断片セットが特定され、そして同一バーコード132を有するビンW1、W2内の断片対が特定される。このようなビン対は、同一分子がゲノムの2つの比較的離れた遺伝子座に及び得たことを示唆することから、構造変異の証拠となる可能性がある。従って、いくつかの実施形態において、第1値(前述)が所定のカットオフ値を満たすという判定に応じて、第1ビン及び第2ビン140に共通のバーコードごとに断片対を取得することにより、1つまたは複数の断片対を取得する。1つまたは複数の断片対内の各断片対は、(i)第1ビン及び第2ビンに共通の異なるバーコードに対応し、(ii)異なる第1計算断片と異なる第2計算断片とで構成される。いくつかの実施形態において、1つまたは複数の断片対は、単一断片対である。いくつかの実施形態において、1つまたは複数の断片対は、2個以上の断片対、5個以上の断片対、10個以上の断片対、または100個以上の断片対である。
1つまたは複数の断片対内の各断片対に関して、異なる第1計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の配列リード128の各第1サブセットで構成される。各配列リード第1サブセット内の各配列リード128は、各配列リード第1サブセット内の別の配列リード128の定義済み遺伝距離(例えば30kb)内にある。各断片対の異なる第1計算断片は、第1ビン内の各断片対に対応するバーコードを有する第1配列リードに起因する。各配列リード第1サブセット内の各配列リードは第1ビンに由来する。異なる第2計算断片は、各断片対に対応するバーコードを有する、複数の配列リード内の各配列リード第2サブセットで構成される。各配列リード第2サブセット内の各配列リードは、各配列リード第2サブセット内の別の配列リードの定義済み遺伝距離(例えば30kb)内にある。各断片対の異なる第2計算断片は、第2ビン内の各断片対に対応するバーコードを有する第2配列リードに起因し、各配列リード第2サブセット内の各配列リードは第2ビンに由来する(744)。
ビン対が構造変異を示すという前述の特定された証拠を定量化するために、いくつかの実施形態において、尤度比スコアが計算される(756)。いくつかの実施形態において、1つまたは複数の断片対に関して、第1モデルの発生確率及び第2モデルの発生確率に基づいて各尤度が計算されることにより、試験用核酸602における構造変異の尤度が提供される。第1モデルは、1つまたは複数の断片対の各第1計算断片及び各第2計算断片が、対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示する。第2モデルは、1つまたは複数の断片対の各第1計算断片及び各第2計算断片が、対象核酸配列内に構造変異があると観察されることを明示する(756)。
いくつかの実施形態において、計算尤度は、第1モデルの発生確率と第2モデルの発生確率との比率スコアとして計算される(758)。図7Fの構成要素760を参照すると、いくつかの実施形態において、計算尤度は以下のように計算される。
異なるバーコードを有する断片は依存関係にないため、当スコアは、同一バーコードbを有する断片対ごとの1項を伴う項の積に分解される。
r1、r2は、2個の断片それぞれの配列リード(128)の数であり、l1、l2は、2個の断片の観測された長さであり、dは、2個の断片間の距離であり、abは、GEM/バーコードbのレート(リード/bp)である。
r1、r2は、2個の断片それぞれの配列リード(128)の数であり、l1、l2は、2個の断片の観測された長さであり、dは、2個の断片間の距離であり、abは、GEM/バーコードbのレート(リード/bp)である。
言い換えると、LRは1つまたは複数の項(例えば複数の項)の積に等しく、各項は(i)1つまたは複数の断片対内の各断片対を表し、(ii)以下の形式を有する。
r1は各断片対の第1計算断片における各配列リード第1サブセット内の配列リードの数であり、l1は各断片対の配列リード第1サブセットにより決定される第1計算断片の長さであり、r2は各断片対の第2計算断片における各配列リード第2サブセット内のリードの数であり、l2は各断片対の配列リード第2サブセットにより決定される第2計算断片の長さであり、dは試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離であり、abは複数の配列リードにわたる第1バーコードのリードレートであり、SVは第1モデルに従って第1計算断片及び第2計算断片が観察されたことを示し、no SVは第2モデルに従って第1計算断片及び第2計算断片が観察されたことを示す(760)。
r1は各断片対の第1計算断片における各配列リード第1サブセット内の配列リードの数であり、l1は各断片対の配列リード第1サブセットにより決定される第1計算断片の長さであり、r2は各断片対の第2計算断片における各配列リード第2サブセット内のリードの数であり、l2は各断片対の配列リード第2サブセットにより決定される第2計算断片の長さであり、dは試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離であり、abは複数の配列リードにわたる第1バーコードのリードレートであり、SVは第1モデルに従って第1計算断片及び第2計算断片が観察されたことを示し、no SVは第2モデルに従って第1計算断片及び第2計算断片が観察されたことを示す(760)。
図7Gの構成要素762を参照すると、いくつかの実施形態において、2個の候補断片は、同一分子または異なる分子に由来している可能性があるため、以下のように表される。
断片が異なる分子に由来していると仮定すると、確率は以下の通りである。
は、長さが不明の分子から、観察された長さlに及ぶr個の配列リード128を観察する確率である。図7Gの構成要素764を参照して、配列リード128はゲノムにわたる一定レートでポアソンプロセスから生成されたと仮定すると、以下が得られる。
はパラメータbによるポアソン分布の確率質量関数であり、
は実分子長がmである(予測)確率である。
は、長さが不明の分子から、観察された長さlに及ぶr個の配列リード128を観察する確率である。図7Gの構成要素764を参照して、配列リード128はゲノムにわたる一定レートでポアソンプロセスから生成されたと仮定すると、以下が得られる。
はパラメータbによるポアソン分布の確率質量関数であり、
は実分子長がmである(予測)確率である。
図7Gの構成要素766を参照して、断片が同一分子に由来していると仮定すると、確率は同様に以下のように計算され得る。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の各確率質量関数であり、
は実の共通分子長がmである予測確率である。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の各確率質量関数であり、
は実の共通分子長がmである予測確率である。
構造変異が存在に関して、尤度は等式(2)に類似する。しかしながら、この場合、さらなる不明点、すなわち観察された断片に関する正確なブレークポイント位置が存在する。例えば、chr1の位置100,000〜200,000の間に欠失があり、しかも観察断片は領域85,000〜90,000及び210,000〜230,000に及ぶと仮定する。正確なブレークポイントがわかるならば、前の計算は、dを10kb+10kb=20kbに設定して、使用可能である。いくつかの実施形態において、実のブレークポイントの位置(よって観察断片間の実の距離)が不明なため、当計算は全てを集積化する。いくつかのこのような実施形態において、逆に計算を簡潔にするために、
となる最大限d’を計算することによりdの推定が取得される。それから
を計算するために、前述の等式においてdは2d’に設定される。言い換えると、いくつかの実施形態において、
であり、SMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の同一断片に由来しているという仮定であり、DMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の異なる断片に由来しているという仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する確率であり、2d’=は、第1計算分子及び第2計算分子に対応付けられた構造変異のブレークポイントの推定を考慮した、試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離である。ここにおいて、
及び
は、それぞれ以下のように計算される。
はパラメータbによるポアソン分布の確率質量関数であり、
は各分子の実分子長がmである(予測)確率である。さらに、
は、以下のように計算される。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は実の共通分子長がmである予測確率である。
となる最大限d’を計算することによりdの推定が取得される。それから
を計算するために、前述の等式においてdは2d’に設定される。言い換えると、いくつかの実施形態において、
であり、SMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の同一断片に由来しているという仮定であり、DMは、複数の配列決定反応において第1計算分子及び第2計算分子が試験用核酸の異なる断片に由来しているという仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する確率であり、2d’=は、第1計算分子及び第2計算分子に対応付けられた構造変異のブレークポイントの推定を考慮した、試験用核酸内の各断片対の第1計算断片と第2計算断片との間の距離である。ここにおいて、
及び
は、それぞれ以下のように計算される。
はパラメータbによるポアソン分布の確率質量関数であり、
は各分子の実分子長がmである(予測)確率である。さらに、
は、以下のように計算される。
mは実分子長の長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は実の共通分子長がmである予測確率である。
いくつかの実施形態において、前述の等式(2)における事前確率を得るために、ゲノムのいずれかの所定位置に第2分子を有する確率はM/Gであると仮定され、Mは投入分子の総数であり、Gはゲノムのサイズである。これらの事前確率は、構造変異があるか否かに実際は無関係であるため、P(同一分子j、noSV)=P(同一分子)であり、P(異なる分子)=1−P(同一分子)である。
等式(1)及び(2)に関する前の論述は、全ゲノム配列データを推測する。標的配列の場合、対象セットの構成が考慮される。いくつかの実施形態において、非対象領域は、対象領域と同様のポアソンプロセスに従って異なるレートでリードを生成すると、仮定される。特に、btは対象上のリードの分率であり、gtは対象領域に含まれるゲノムの分率とされる。abが対象領域のポアソンレートであるとすると、非対象領域のレートは、以下の通りである。
ltbpの対象領域及びlnbpの非対象領域を含む領域からr個のリードを観察する確率は、以下の通りである。
長さが不明の分子から、観察された長さl=lt+lnに及ぶr個のリードを観察する確率は、以下の通りである。
観察断片に関して、非観察分子の全m−lオフセットに対し内部合計が適用され、
及び
は、対応オフセットに関する対象上塩基及び対象外塩基である。計算を簡潔化するために、所定値のmに関して、対象上塩基及び対象外塩基の平均分率が全オフセットにわたり計算され、いくつかの実施形態において、全オフセットは同一対象構成を有すると仮定される。(1)を計算するために必要な残りの確率は、WGS事例と同様の方法で調停される。
観察断片に関して、非観察分子の全m−lオフセットに対し内部合計が適用され、
及び
は、対応オフセットに関する対象上塩基及び対象外塩基である。計算を簡潔化するために、所定値のmに関して、対象上塩基及び対象外塩基の平均分率が全オフセットにわたり計算され、いくつかの実施形態において、全オフセットは同一対象構成を有すると仮定される。(1)を計算するために必要な残りの確率は、WGS事例と同様の方法で調停される。
いくつかの実施形態において、下位桁あふれを避けるために、全確率は対数空間において計算される。いくつかの実施形態において、対数尤度比カットオフ値に200が使用される。当カットオフは、経験的に発見されたものであり、(後述のフィルタリングステップ後に)非常に低い誤判定レートの高品質のコールをもたらす。
いくつかの実施形態において、構造変異は、配列リード第1セットにより表される試験用核酸の異なる部分に対する、50連続塩基以上、500連続塩基以上、または5000連続塩基以上の挿入または欠失である(768)。いくつかの実施形態において、第1ビンの試験用核酸の異なる部分は、第2ビンにより表される試験用核酸の異なる部分とオーバーラップする(770)。いくつかの実施形態において、第1ビンの試験用核酸の異なる部分の少なくとも50、80パーセント、または95パーセントは、第2ビンの試験用核酸の異なる部分とオーバーラップする(772)。いくつかの実施形態において、構造変異は、配列リード第2セットにより表される試験用核酸の異なる部分から、配列リード第1セットにより表される試験用核酸の異なる部分への50連続塩基以上の転座である(774)。
いくつかの実施形態において、配列リード第1セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第1染色体に由来し、配列リード第2セットに対応するビンにより表される試験用核酸の異なる部分は、生体試料の第2染色体に由来し、第2染色体は第1染色体とは異なる(776)。いくつかの実施形態において、第1染色体は父系染色体であり、第2染色体は母系染色体である(778)。いくつかの実施形態において、生体試料はヒトであり、第1染色体は染色体1〜21のうちのいずれかである(780)。
いくつかの実施形態において、構造変異が起こったとみなされると、方法はさらに、構造変異に応じる治療方式で生体試料の由来する対象者を治療することを含む(782)。いくつかの実施形態において、治療方式は、食事改善を含む(784)。いくつかの実施形態において、治療方式は、構造変異に関連する生物学的経路を抑制する医薬組成物の適用を含む(786)。
短リード情報を使用したブレークポイントの精製
いくつかの実施形態において、前述の手法を使用してブレークポイントウィンドウを取得した後、さらにブレークポイント位置を精製するために、リード対及び分裂リードからの当情報が使用される。コールされた構造バリアントごとに、コールされたブレークポイントビン内の全てのリード対及び分裂リードが選択される。全ての選択されたリード対及び分裂リードの組み合わされた証拠に基づいてブレークポイント遺伝子座を推測するために、Layer et al.、2014、“LUMPY:A probabilistic framework for structural variant discovery”、Genome Biology 15(6),R84、doi:10.1186/gb‐2014‐15‐6‐r84に類似する確率論的手法が使用され、当文献全体は参照により本明細書に組み込まれるものとする。誤判定を避けるために、コールに対応する少なくとも4個のリード対及び分裂リードが存在する時にのみ、正確なブレークポイント遺伝子座の推測が試みられる。
いくつかの実施形態において、前述の手法を使用してブレークポイントウィンドウを取得した後、さらにブレークポイント位置を精製するために、リード対及び分裂リードからの当情報が使用される。コールされた構造バリアントごとに、コールされたブレークポイントビン内の全てのリード対及び分裂リードが選択される。全ての選択されたリード対及び分裂リードの組み合わされた証拠に基づいてブレークポイント遺伝子座を推測するために、Layer et al.、2014、“LUMPY:A probabilistic framework for structural variant discovery”、Genome Biology 15(6),R84、doi:10.1186/gb‐2014‐15‐6‐r84に類似する確率論的手法が使用され、当文献全体は参照により本明細書に組み込まれるものとする。誤判定を避けるために、コールに対応する少なくとも4個のリード対及び分裂リードが存在する時にのみ、正確なブレークポイント遺伝子座の推測が試みられる。
ギャップ及び部分重複に基づくコールのフィルタリング
いくつかの実施形態において、試験用核酸の複数のブラックアウト領域を含むブラックアウトリストが保持され(788)、方法はさらに、特定する前に、配列リードの第1部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合に、特定数の配列リードから当配列リードを除くことを含む(788)。例えば、いくつかの実施形態において、ブレークポイントが同一部分重複の異なるコピーとオーバーラップする構造バリアントコール(UCSCブラウザの部分重複トラックを使用)は除外される。構造変異はこのような領域に非常に多く(参照により全体が本明細書に組み込まれるMills et al.、2011、“Mapping copy number variation by population−scale genome sequencing”、Nature、470(7332)、59‐65、doi:10.1038/nature09708)、そのためこれらのコールのうちのいくつかは本当のイベントを表し得る。しかしながら、部分重複のどちらか一方のコピーに対し一意的でありかつ高いマッピング品質のリードマップを作るには、少量の変異で足りるため、構造変異の領域内の大分率のコールは、アライナーが反復領域を適切に解消できなかった結果として観察される。ギャップ(UCSCブラウザのギャップトラックを使用)から、またはhg38に導入される新たな配列(UCSCブラウザのhg19 diffトラックを使用)から、所定距離(例えば10kb)内の構造バリアントコールも除外される。このようなコールは、おそらくhg19内のミスアセンブリを表すため、関心の対象とならないというのが論理的根拠である。
いくつかの実施形態において、試験用核酸の複数のブラックアウト領域を含むブラックアウトリストが保持され(788)、方法はさらに、特定する前に、配列リードの第1部分が複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合に、特定数の配列リードから当配列リードを除くことを含む(788)。例えば、いくつかの実施形態において、ブレークポイントが同一部分重複の異なるコピーとオーバーラップする構造バリアントコール(UCSCブラウザの部分重複トラックを使用)は除外される。構造変異はこのような領域に非常に多く(参照により全体が本明細書に組み込まれるMills et al.、2011、“Mapping copy number variation by population−scale genome sequencing”、Nature、470(7332)、59‐65、doi:10.1038/nature09708)、そのためこれらのコールのうちのいくつかは本当のイベントを表し得る。しかしながら、部分重複のどちらか一方のコピーに対し一意的でありかつ高いマッピング品質のリードマップを作るには、少量の変異で足りるため、構造変異の領域内の大分率のコールは、アライナーが反復領域を適切に解消できなかった結果として観察される。ギャップ(UCSCブラウザのギャップトラックを使用)から、またはhg38に導入される新たな配列(UCSCブラウザのhg19 diffトラックを使用)から、所定距離(例えば10kb)内の構造バリアントコールも除外される。このようなコールは、おそらくhg19内のミスアセンブリを表すため、関心の対象とならないというのが論理的根拠である。
パートC、フェージング
本節において、フェージングサブモジュール124のいくつかの実施形態により実施される例示的方法が開示される。配列リード128を親ハプロタイプにフェージングする動機が示される。フェーズ化されたバリアントは、2倍体ゲノムの状態のより完全な表現である。フェーズ化バリアントにより観察表現型のより良い理解が可能になることが、様々な研究によりわかっている。例えば、Tewhey et al.、2011、“The importance of phase information for human genomics”、Nat rev Genet、12:215‐223を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。
例えば、複合ヘテロ接合体が存在する場合、遺伝子の1つまたは両方のコピーの喪失という曖昧性を解消するために、フェージングが必要とされる。図11を参照すると、例えば、シスにおける2つの機能喪失変異は遺伝子の機能コピーを残すが、トランスにおける2つの機能喪失変異は両コピーを不活性状態で残す。従って、2倍体ゲノムの状態を明瞭にするために、配列リードを適切にフェーズ化する必要がある。
本節において、フェージングサブモジュール124のいくつかの実施形態により実施される例示的方法が開示される。配列リード128を親ハプロタイプにフェージングする動機が示される。フェーズ化されたバリアントは、2倍体ゲノムの状態のより完全な表現である。フェーズ化バリアントにより観察表現型のより良い理解が可能になることが、様々な研究によりわかっている。例えば、Tewhey et al.、2011、“The importance of phase information for human genomics”、Nat rev Genet、12:215‐223を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。
例えば、複合ヘテロ接合体が存在する場合、遺伝子の1つまたは両方のコピーの喪失という曖昧性を解消するために、フェージングが必要とされる。図11を参照すると、例えば、シスにおける2つの機能喪失変異は遺伝子の機能コピーを残すが、トランスにおける2つの機能喪失変異は両コピーを不活性状態で残す。従って、2倍体ゲノムの状態を明瞭にするために、配列リードを適切にフェーズ化する必要がある。
フェージングのアルゴリズム
バリアント(例えば前述のパートAまたはパートBにおいてコールされたバリアント)をフェーズ化するために、フェージング構成を考慮した、各アレルに対する配列リード及びバーコード対応尤度がモデル化される。例えば、Bansal et al.、2008、“An MCMC algorithm for haplotype assembly from whole‐genome sequence data”、Genome Res、18:1336‐1346を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。そして最大尤度フェージング構成の調査が行われる。当アルゴリズムはまず、隣接バリアントのブロックに対するビーム探索により、概最適局所ハプロタイプ構成を発見する。いくつかの実施形態において、隣接バリアントのブロックは、約40個のバリアントを有する。いくつかの実施形態において、隣接バリアントのブロックは、10〜30個のバリアント、20〜50個のバリアント、30〜60個のバリアント、または60個を超えるバリアントで構成される。隣接ブロックは、収束するまで反復的に精製される大域解を形成するために積極的に接合される。各フェージング判定の信用度は、最適解と次善解との尤度比である。
バリアント(例えば前述のパートAまたはパートBにおいてコールされたバリアント)をフェーズ化するために、フェージング構成を考慮した、各アレルに対する配列リード及びバーコード対応尤度がモデル化される。例えば、Bansal et al.、2008、“An MCMC algorithm for haplotype assembly from whole‐genome sequence data”、Genome Res、18:1336‐1346を参照されたい。参照により当文献全体は本明細書に組み込まれるものとする。そして最大尤度フェージング構成の調査が行われる。当アルゴリズムはまず、隣接バリアントのブロックに対するビーム探索により、概最適局所ハプロタイプ構成を発見する。いくつかの実施形態において、隣接バリアントのブロックは、約40個のバリアントを有する。いくつかの実施形態において、隣接バリアントのブロックは、10〜30個のバリアント、20〜50個のバリアント、30〜60個のバリアント、または60個を超えるバリアントで構成される。隣接ブロックは、収束するまで反復的に精製される大域解を形成するために積極的に接合される。各フェージング判定の信用度は、最適解と次善解との尤度比である。
特に、所定のバリアントコールセットが取得される(例えば前述のパートAまたはパートBから、他のソースに由来する複数の一塩基多型等)。アレルAi;pはラベル化され、
はバリアントを指数化する。いくつかの実施形態において、
は、バリアントの2つのアレルに対する任意のラベルである。同一の親染色体に由来するアレルセットは、ハプロタイプと称され、H0及びH1に任意にラベル化される。フェージングアルゴリズムの目的は、各バリアントのどのアレルが各親染色体に由来するかを決定することである。いくつかの実施形態において、フェージング結果は、バリアントごとの2値変数
で記述され得る。
は
かつ
を示し、
は
かつ
を示す。
はバリアントを指数化する。いくつかの実施形態において、
は、バリアントの2つのアレルに対する任意のラベルである。同一の親染色体に由来するアレルセットは、ハプロタイプと称され、H0及びH1に任意にラベル化される。フェージングアルゴリズムの目的は、各バリアントのどのアレルが各親染色体に由来するかを決定することである。いくつかの実施形態において、フェージング結果は、バリアントごとの2値変数
で記述され得る。
は
かつ
を示し、
は
かつ
を示す。
いくつかの代替実施形態において、
であり、ラベル「0」はAi;p内の各バリアントコールをH0に割り当て、ラベル「1」は各バリアントコールをH1に割り当て、そしてラベル「−1」はバリアントコールのハプロタイプへの割り当てにおけるエラー状態を示す有利な可能性を提供する。当エラー状態は、内在バリアントの接合エラーを表す。当代替実施形態は、位置におけるバリアントコールAi;pをH0またはH1で提供するために依存する標準バリアントコールアルゴリズムが、実際には時折このような位置の接合を不正確にコールし得ることを考慮する。開示される代替フェージング実施形態
により、フェージング中の当形態の接合エラーの調査が好都合にも可能となる。このエラーステートに関して選択的にサンプリングする能力は、例えば配列決定エラー、弱い配列信号等によって起こる入力データのエラーから、フェージングアルゴリズムを有利に守る。
であり、ラベル「0」はAi;p内の各バリアントコールをH0に割り当て、ラベル「1」は各バリアントコールをH1に割り当て、そしてラベル「−1」はバリアントコールのハプロタイプへの割り当てにおけるエラー状態を示す有利な可能性を提供する。当エラー状態は、内在バリアントの接合エラーを表す。当代替実施形態は、位置におけるバリアントコールAi;pをH0またはH1で提供するために依存する標準バリアントコールアルゴリズムが、実際には時折このような位置の接合を不正確にコールし得ることを考慮する。開示される代替フェージング実施形態
により、フェージング中の当形態の接合エラーの調査が好都合にも可能となる。このエラーステートに関して選択的にサンプリングする能力は、例えば配列決定エラー、弱い配列信号等によって起こる入力データのエラーから、フェージングアルゴリズムを有利に守る。
試験用核酸602(例えばゲノム)上の隣接バリアントは多くの場合、リード対の長さ(例えば配列リード128の長さ)よりも長い距離で離れ、非常に短いフェーズブロックを生じる。前に開示されるように、試験用核酸配列602(例えばゲノム)の小分率(0:01〜0:001)を含む長い試験用核酸断片306(例えば投入断片)は、各バーコード132に割り当てられるため、バーコード132が両ハプロタイプの配列リード128を含む確率は低い。
いくつかの実施形態において、配列リード128は、対象有機体のゲノムにアラインされる。配列リード128は、結合バーコード132配列によりグループ化される。共通バーコード配列132を有する配列リード128は、単一試験用核酸断片306(例えばゲノム投入断片)に由来している見込みのあるグループにパーティション化され、従って当配列リード128に含まれるアレルが同一ハプロタイプに由来するという証拠を提供する。いくつかの実施形態において、複数のバーコード化配列リードは
と示される。いくつかの実施形態において、複数の配列リード内の各配列リード
は、qが
に対する整数指数であり、参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第2部分とを備える。
と示される。いくつかの実施形態において、複数の配列リード内の各配列リード
は、qが
に対する整数指数であり、参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、各配列リードの各バーコードを参照配列とは無関係に符号化する第2部分とを備える。
いくつかの実施形態において、複数の配列リード
内の各配列リード
は
であり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。例えば、
がAi;p内の10個のバリアントコールのうち5個のバリアントコールを含む事例を検討する。当実施例において、
は、値「−」を有する5個のバリアントコールを含む。これらのバリアントコールは各配列リードに存在せず、
はAi;p内の他の5個のバリアントコールの値を含むからである。これらの5個の値における各値は、配列リード内の各バリアントコールに割り当てられたハプロタイプに応じて、0または1となる。いくつかの実施形態において、このようなハプロタイプ割り当ては、従来のハプロタイプ割り当てアルゴリズムを使用して、個々の配列リードにおけるバリアントコールに対し取得される。
内の各配列リード
は
であり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。例えば、
がAi;p内の10個のバリアントコールのうち5個のバリアントコールを含む事例を検討する。当実施例において、
は、値「−」を有する5個のバリアントコールを含む。これらのバリアントコールは各配列リードに存在せず、
はAi;p内の他の5個のバリアントコールの値を含むからである。これらの5個の値における各値は、配列リード内の各バリアントコールに割り当てられたハプロタイプに応じて、0または1となる。いくつかの実施形態において、このようなハプロタイプ割り当ては、従来のハプロタイプ割り当てアルゴリズムを使用して、個々の配列リードにおけるバリアントコールに対し取得される。
いくつかの実施形態において、前述のようなバリアントコールの接合状態における可能性のあるエラーを考慮するために、複数の配列リード
内の各配列リード
は
となり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−1」は、Ai;p内の対応バリアントコールを接合エラー状態(存在するがH0でもH1でもない)に割り当て、(iv)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。
内の各配列リード
は
となり、(i)各配列リード
に対する各ラベル「0」は、Ai;p内の対応バリアントコールをH0に割り当て、(ii)各配列リード
に対する各ラベル「1」は、Ai;p内の対応バリアントコールをH1に割り当て、(iii)各配列リード
に対する各ラベル「−1」は、Ai;p内の対応バリアントコールを接合エラー状態(存在するがH0でもH1でもない)に割り当て、(iv)各配列リード
に対する各ラベル「−」は、Ai;p内の対応バリアントコールが対象外であることを示す。
開示される方法において、フェージング結果
は、Ai;p内の個々の位置iにおけるハプロタイプ割り当ての最適化により取得される。複数の配列リード
内の各配列リード
が
である実施形態において、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1である。位置iの接合状態における可能性のあるエラーがフェージングアルゴリズムで追加サンプリングされる代替実施形態において、複数の配列リード
内の各配列リード
は
であり、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1またはH−1であり、H−1は前述の接合エラー状態を示す。
は、Ai;p内の個々の位置iにおけるハプロタイプ割り当ての最適化により取得される。複数の配列リード
内の各配列リード
が
である実施形態において、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1である。位置iの接合状態における可能性のあるエラーがフェージングアルゴリズムで追加サンプリングされる代替実施形態において、複数の配列リード
内の各配列リード
は
であり、複数の配列リードの個々の位置iにおけるこれらのハプロタイプ割り当てはそれぞれH0またはH1またはH−1であり、H−1は前述の接合エラー状態を示す。
配列リードは、参照ゲノムにアラインされる。さらに、同一バーコードを有する配列リードは、一緒にグループ化される。このように、共通バーコードを有する配列リードは、単一ゲノム投入断片fに由来している見込みのあるグループにパーティション化され、従って当配列リードに含まれるアレルが同一ハプロタイプに由来するという証拠を提供する。
複数の配列リード
内の各配列リード
が
であるいくつかの実施形態において、観察配列リード128が試験用核酸断片306fのバリアントiを含む確率は以下のように計算される。
rはリードの合計であり、
はr番目の配列リード128SrがアレルAi,pに一致するか否かを調べる指示関数である。r番目の配列リード128SrがアレルAi,pに一致する場合、指示関数は第1値(例えば「1」)を有し、そうでない場合は第2値(例えば「0」)となる。表現
は、断片fのr番目の配列リードSrがAi,pと一致しない場合に第1値(例えば「1」)となり、そうでない場合は第2値(例えば「0」)となる指示関数である。いくつかの実施形態において、割り当てられる確率は、関連リード塩基Qrの逆フレッド変換品質値に由来する。
内の各配列リード
が
であるいくつかの実施形態において、観察配列リード128が試験用核酸断片306fのバリアントiを含む確率は以下のように計算される。
rはリードの合計であり、
はr番目の配列リード128SrがアレルAi,pに一致するか否かを調べる指示関数である。r番目の配列リード128SrがアレルAi,pに一致する場合、指示関数は第1値(例えば「1」)を有し、そうでない場合は第2値(例えば「0」)となる。表現
は、断片fのr番目の配列リードSrがAi,pと一致しない場合に第1値(例えば「1」)となり、そうでない場合は第2値(例えば「0」)となる指示関数である。いくつかの実施形態において、割り当てられる確率は、関連リード塩基Qrの逆フレッド変換品質値に由来する。
複数の配列リード
内の各配列リード
が
である実施形態において、位置iにおける接合エラーは追加でサンプリング可能であり、観察配列リードが断片fのバリアントiを含む確率は以下のように計算される。
X−はH−1であり、
は、Ai,pが−1(H−1)に等しい場合に第1値(例えば「1」)となり、そうでない場合は第2値(例えば「0」)となる指示関数である。
内の各配列リード
が
である実施形態において、位置iにおける接合エラーは追加でサンプリング可能であり、観察配列リードが断片fのバリアントiを含む確率は以下のように計算される。
X−はH−1であり、
は、Ai,pが−1(H−1)に等しい場合に第1値(例えば「1」)となり、そうでない場合は第2値(例えば「0」)となる指示関数である。
が
である実施形態において、フェージング結果は、以下のように最大尤度フェージングパリティベクトルとして表現される目的関数を最適化することにより取得可能である。
ここで
は精製されたフェージングベクトルであり、一方
は推測されるフェージングベクトル結果であり、以下の通りである。
が
である実施形態において、フェージングベクトルは、以下のように全体目的関数を最適化することにより発見可能である。
であり、H−1は位置iにおける接合エラーの状態であり、
は位置iにおいて当形態のエラーを生じる推定であり、
である。
いくつかの実施形態において、
は、位置iにおけるバリアントの種類の関数である。例えば、
は、遺伝子挿入または欠失を通して位置iにおけるバリアントが生じた場合には第1値が与えられ、他の手段(例えば一塩基多型)により位置iにおけるバリアントが生じた場合には別の値が与えられる。
は、位置iにおけるバリアントの種類の関数である。例えば、
は、遺伝子挿入または欠失を通して位置iにおけるバリアントが生じた場合には第1値が与えられ、他の手段(例えば一塩基多型)により位置iにおけるバリアントが生じた場合には別の値が与えられる。
試験用核酸断片306fのデータは、3つの事例のうちの1つに由来する。最初の2つは、H0のみまたはH1のみのアレルが存在する事例である。これらの事例は典型的な事例であり、各パーティション304に存在する試験用核酸断片306(例えばゲノム)の分率に影響される高い事前確率を有する。3つ目は、両ハプロタイプの投入DNAが遺伝子座に存在するため、どのアレルも等しく観察される見込みのある事例である。
前の3つの等式は、バリアント位置iにおける断片306fの観察配列リード128の確率Xi、及び断片ハプロタイプHfを提供する。バリアントの集まり及び断片ハプロタイプを前提に、観察は独立している。第3事例の事前確率は、
、すなわちパーティションが遺伝子座に両ハプロタイプを含む確率である。全体尤度は、以下のように3つの事例を合計することにより計算可能である。
異型接合バリアントを有する試験用核酸602(例えばゲノム)内の各位置に、バリアント指数
が与えられ、2つのアレルのうちそれぞれは、指数
が任意で割り当てられる。
、すなわちパーティションが遺伝子座に両ハプロタイプを含む確率である。全体尤度は、以下のように3つの事例を合計することにより計算可能である。
異型接合バリアントを有する試験用核酸602(例えばゲノム)内の各位置に、バリアント指数
が与えられ、2つのアレルのうちそれぞれは、指数
が任意で割り当てられる。
最適化
いくつかの実施形態において、前に紹介された全体目的関数のうちの1つは、フェージングベクトル
に対する階層的探索を使用して最適化される。
の実施形態の目的関数が、図12に示される。いくつかの実施形態において、
は、
個のバリアントの局所チャンクに分割され、ブロックの関連フェージングは、Xk、Xk+1、・・・、Xk+nの割り当てに対するビーム探索を使用して決定され、kは局所ブロックにおける第1バリアントである。いくつかの実施形態において、局所チャンクは、10〜20個のバリアント、20〜30個のバリアント、30〜40個のバリアント、35〜45個のバリアント、40〜50個のバリアント、または50個を超えるバリアントで構成される。ビーム探索は、例えば、en.wikipedia.org/wiki/Beam_searchにて説明されており、その内容全体は参照により本明細書に組み込まれるものとする。ビーム探索を示す図13も同様に参照されたい。図13では、ビーム探索の各段階にて、k個の高スコアの部分解のみが保持される。図13において、k=6である。図13において、赤いXで印されたノードは、上位kに含まれないため、さらに調査されない。
いくつかの実施形態において、前に紹介された全体目的関数のうちの1つは、フェージングベクトル
に対する階層的探索を使用して最適化される。
の実施形態の目的関数が、図12に示される。いくつかの実施形態において、
は、
個のバリアントの局所チャンクに分割され、ブロックの関連フェージングは、Xk、Xk+1、・・・、Xk+nの割り当てに対するビーム探索を使用して決定され、kは局所ブロックにおける第1バリアントである。いくつかの実施形態において、局所チャンクは、10〜20個のバリアント、20〜30個のバリアント、30〜40個のバリアント、35〜45個のバリアント、40〜50個のバリアント、または50個を超えるバリアントで構成される。ビーム探索は、例えば、en.wikipedia.org/wiki/Beam_searchにて説明されており、その内容全体は参照により本明細書に組み込まれるものとする。ビーム探索を示す図13も同様に参照されたい。図13では、ビーム探索の各段階にて、k個の高スコアの部分解のみが保持される。図13において、k=6である。図13において、赤いXで印されたノードは、上位kに含まれないため、さらに調査されない。
隣接ブロックの関連フェージングは、候補フェージングベクトル
を生み出すことにより積極的に見つけ出される。最終的に
は、個々のバリアントのフェーズを取り替えることにより繰り返し精製される。この精製の収束により、最適フェージング構成
の推定が生み出される。いくつかの実施形態において、各フェージング判定の信用度は、最適解と次善解との尤度比である。いくつかの実施形態において、フェージング構成の精度の推定は、仮説間の尤度比を計算することにより、最適構成
とある代替構成
との尤度比を計算することで決定される。いくつかの実施形態において、信用度は以下のように、その後フレッド計測品質値として報告される。
を生み出すことにより積極的に見つけ出される。最終的に
は、個々のバリアントのフェーズを取り替えることにより繰り返し精製される。この精製の収束により、最適フェージング構成
の推定が生み出される。いくつかの実施形態において、各フェージング判定の信用度は、最適解と次善解との尤度比である。いくつかの実施形態において、フェージング構成の精度の推定は、仮説間の尤度比を計算することにより、最適構成
とある代替構成
との尤度比を計算することで決定される。いくつかの実施形態において、信用度は以下のように、その後フレッド計測品質値として報告される。
いくつかの実施形態において、短スイッチエラーと長スイッチエラーの2種類のエラーが考慮される。短スイッチエラーは、他のバリアントは正しくフェーズ化された領域内でたった1つ誤ったフェージングが割り当てられたバリアントである。バリアントiの短スイッチ信頼度を計測するために、Xiは、Xaltを形成するように反転される。短スイッチ信頼度が低い場合、フェージングコールが誤っている見込みがあると報告するのではなく、出力結果においてバリアントは非フェーズ化と印される。
長スイッチエラーは、2個の隣接ブロックバリアント・・・、Xi−2、Xi−1、及びXi、Xi+1、・・・が正確に内部フェーズ化されているが、2個のブロック間で誤った相対フェージングを有する場合に起きる。この場合、長スイッチエラーは位置iにてコールされる。位置iにおける長スイッチ信頼度は、全てのi以下のjに関して、Xjのフェーズを反転させることにより調べられる。長スイッチ信頼度が閾値を下回る場合、新たなフェーズブロックが開始され、異なるフェーズブロック内のバリアントはお互いに関してフェーズ化されたものとしてコールされない。
試料準備
図8は、本開示の例示的実施形態による、試料準備の実施例を提供する。GemCode Platformは、DNAを大規模にパーティション化及びバーコード化し、100,000を超える一意的バーコードを有する配列リードライブラリを生成する。カスタムアルゴリズムは、当バーコード情報を使用して、リードを元の長いDNA分子にマップし戻し、数十キロ塩基に及ぶ連結リードを作成する。約1ngのgDNAに由来する長テンプレート分子は、100,000を超えるバーコード化パーティションにわたってランダムに分散され、パーティション毎に10fg未満(ゲノムの0.3%未満)にされる。各パーティションは、パーティション内では一定だがパーティションにより異なるバーコードを有するプライマーを保持する。増幅反応は、各パーティション内に、バーコード化短リードライブラリ断片を作成する。結果としてできたライブラリは、標準のエクソーム解析に適合し、同時に長範囲の連結情報を保存する。特に、結果としてできたライブラリは、試料指標化され、全ゲノム配列決定可能である、あるいは標的配列ライブラリを生成するために多数の市販のハイブリッドキャプチャプラットフォームのうちの1つへのインプットとして使用可能である。この新たな連結リードデータ種の有力な性質により、イントロン領域が選択または配列決定されていなくても、対象強化後に長範囲情報が保持されることが意味される。
図8は、本開示の例示的実施形態による、試料準備の実施例を提供する。GemCode Platformは、DNAを大規模にパーティション化及びバーコード化し、100,000を超える一意的バーコードを有する配列リードライブラリを生成する。カスタムアルゴリズムは、当バーコード情報を使用して、リードを元の長いDNA分子にマップし戻し、数十キロ塩基に及ぶ連結リードを作成する。約1ngのgDNAに由来する長テンプレート分子は、100,000を超えるバーコード化パーティションにわたってランダムに分散され、パーティション毎に10fg未満(ゲノムの0.3%未満)にされる。各パーティションは、パーティション内では一定だがパーティションにより異なるバーコードを有するプライマーを保持する。増幅反応は、各パーティション内に、バーコード化短リードライブラリ断片を作成する。結果としてできたライブラリは、標準のエクソーム解析に適合し、同時に長範囲の連結情報を保存する。特に、結果としてできたライブラリは、試料指標化され、全ゲノム配列決定可能である、あるいは標的配列ライブラリを生成するために多数の市販のハイブリッドキャプチャプラットフォームのうちの1つへのインプットとして使用可能である。この新たな連結リードデータ種の有力な性質により、イントロン領域が選択または配列決定されていなくても、対象強化後に長範囲情報が保持されることが意味される。
連結リード
図9を参照すると、マッピング後、同一バーコードを有する同一遺伝子座に由来するリードは、単一投入分子から生成された「連結リード」セットを形成する。エクソームデータにおいて連結リードは複数の対象領域に及ぶため、エクソームデータからのフェージング及び構成バリアントコールが可能となる。図9において、各点は、NGSリード対(例えば配列リード)を表す。図9において横線によりつながれるこのような配列リードのグループは、試験用核酸を配列決定するために使用される100,000を超えるバーコードのプール内の共通バーコードを共有する。さらに、横線はそれぞれのグループ902、904に配列され、このようなグループはそれぞれ、試験用核酸が取得された2倍体生物の2つの親ハプロタイプを表す。試験用核酸のゲノム内のエクソンの位置906が、図9においてさらに示される。このようなエクソンはそれぞれ、図内では縦線で示される。
図9を参照すると、マッピング後、同一バーコードを有する同一遺伝子座に由来するリードは、単一投入分子から生成された「連結リード」セットを形成する。エクソームデータにおいて連結リードは複数の対象領域に及ぶため、エクソームデータからのフェージング及び構成バリアントコールが可能となる。図9において、各点は、NGSリード対(例えば配列リード)を表す。図9において横線によりつながれるこのような配列リードのグループは、試験用核酸を配列決定するために使用される100,000を超えるバーコードのプール内の共通バーコードを共有する。さらに、横線はそれぞれのグループ902、904に配列され、このようなグループはそれぞれ、試験用核酸が取得された2倍体生物の2つの親ハプロタイプを表す。試験用核酸のゲノム内のエクソンの位置906が、図9においてさらに示される。このようなエクソンはそれぞれ、図内では縦線で示される。
配列結果
図10を参照すると、2つの異なる有機体(それぞれNA12878WGSとNA12878WESとラベル化される)から取得される対象核酸に由来する配列リードのライブラリは、投入材料を1ngのみ必要とするにもかかわらず、低PCR重複率かつ高マッピング済み分率を達成する。各投入分子は、数十個の連結リードのグループを生成する。
図10を参照すると、2つの異なる有機体(それぞれNA12878WGSとNA12878WESとラベル化される)から取得される対象核酸に由来する配列リードのライブラリは、投入材料を1ngのみ必要とするにもかかわらず、低PCR重複率かつ高マッピング済み分率を達成する。各投入分子は、数十個の連結リードのグループを生成する。
フェージング
開示されるフェージングシステム及び方法(列NA12878WES)は、既存のバリアントコールをフェージングすることにより、起源フェージング(Cleary et al.、2014、“Joint variant and de novo mutation identification on pedigrees from high‐throughput sequencing data”、J comput Biol、21:405‐419、参照によりその全体が本明細書に組み込まれるものとする)から生成されたフェーズ化ゲノム(NA12878WGS)と、精子直接ハプロタイピング(Kirkness et al.、2013、“Sequencing of isolated sperm cells for direct haplotyping of a human genome”、Genome Res、23:826‐832、参照によりその全体が本明細書に組み込まれるものとする)から生成されたフェーズ化ゲノム(HuRef1 WGS)と、フォスミドプーリング(Kitzman et al.、2011、“Haplotype‐resolved genome sequencing of a Gujarati Indian individual”、Nat Biotechnol、29:59‐63、参照によりその全体が本明細書に組み込まれるものとする)から生成されたフェーズ化ゲノム(NA20847WGS)と比較されている。これらの結果は、図14に要約される。前の結果との高い一致が認められ、少量のカバレッジレベルでMB規模のフェーズブロックが一貫して達成される。エクソーム配列決定では、本開示のシステム及び方法を用いて、100kbより短い遺伝子の96%が単一フェーズブロックに含まれる。
開示されるフェージングシステム及び方法(列NA12878WES)は、既存のバリアントコールをフェージングすることにより、起源フェージング(Cleary et al.、2014、“Joint variant and de novo mutation identification on pedigrees from high‐throughput sequencing data”、J comput Biol、21:405‐419、参照によりその全体が本明細書に組み込まれるものとする)から生成されたフェーズ化ゲノム(NA12878WGS)と、精子直接ハプロタイピング(Kirkness et al.、2013、“Sequencing of isolated sperm cells for direct haplotyping of a human genome”、Genome Res、23:826‐832、参照によりその全体が本明細書に組み込まれるものとする)から生成されたフェーズ化ゲノム(HuRef1 WGS)と、フォスミドプーリング(Kitzman et al.、2011、“Haplotype‐resolved genome sequencing of a Gujarati Indian individual”、Nat Biotechnol、29:59‐63、参照によりその全体が本明細書に組み込まれるものとする)から生成されたフェーズ化ゲノム(NA20847WGS)と比較されている。これらの結果は、図14に要約される。前の結果との高い一致が認められ、少量のカバレッジレベルでMB規模のフェーズブロックが一貫して達成される。エクソーム配列決定では、本開示のシステム及び方法を用いて、100kbより短い遺伝子の96%が単一フェーズブロックに含まれる。
構造バリアント特定−大規模構造バリアント検出結果−WGS事例研究CEPHトリオ
当実施例において、コールされた全欠失は、前の研究で発見されている。参照によりそれぞれ本明細書に組み込まれる3つの他の研究、Kidd et al.、2010、“A human genome structural variation sequencing resource reveals insights into mutational mechanisms”、Cell、143:837‐47と、Layer et al.、2014、“LUMPY:a probabilistic framework for structural variant discovery”、Genome Biol 15:R84と、Mills et al.、2011、“Mapping copy number variation by population−scale genome sequencing”、Nature、470:59‐65とにより前に報告された8つの欠失は、OS‐seq(Myllykangas et al.、2011、“Efficient targeted resequencing of human germline and cancer genomes by oligonucleotide−selective sequencing”、Nat Biotechnol、29:1024‐1027、参照により本明細書に組み込まれる)、フェージング情報、LOH、及びカバレッジの深さを使用するさらなる検証のために選択されている。
表1、2によりその結果が提供される。
当実施例において、コールされた全欠失は、前の研究で発見されている。参照によりそれぞれ本明細書に組み込まれる3つの他の研究、Kidd et al.、2010、“A human genome structural variation sequencing resource reveals insights into mutational mechanisms”、Cell、143:837‐47と、Layer et al.、2014、“LUMPY:a probabilistic framework for structural variant discovery”、Genome Biol 15:R84と、Mills et al.、2011、“Mapping copy number variation by population−scale genome sequencing”、Nature、470:59‐65とにより前に報告された8つの欠失は、OS‐seq(Myllykangas et al.、2011、“Efficient targeted resequencing of human germline and cancer genomes by oligonucleotide−selective sequencing”、Nat Biotechnol、29:1024‐1027、参照により本明細書に組み込まれる)、フェージング情報、LOH、及びカバレッジの深さを使用するさらなる検証のために選択されている。
表1、2によりその結果が提供される。
表1
子における全てのコールは、メンデル遺伝と一致している(構造バリアントフェージングの節を参照)。構造バリアントをフェージングするために、トリオ情報は使用されていない。
表2
構造バリアント特定−エクソーム事例研究:H2228
肺癌細胞株H2228は、長いイントロン内にブレークポイントを伴う2つの確認遺伝子融合を有する(Choi et al.、2008、“Identification of novel isoforms of the EML4‐ALK transforming gene in non‐small cell lung cancer”、Cancer Res、68:4971‐4976と、Jung et al.、2012、“Discovery of ALK‐PTPN3 gene fusion from human non‐small cell lung carcinoma cell line using next generation RNA sequencing”、Genes Chromosomes Cancer、51:590‐597、それぞれ参照により本明細書に組み込まれる)。これらのブレークポイントは、オーバーラップする捕捉対象がないにもかかわらず、連結リードにより検出され得る。表3によりその結果が提供される。
肺癌細胞株H2228は、長いイントロン内にブレークポイントを伴う2つの確認遺伝子融合を有する(Choi et al.、2008、“Identification of novel isoforms of the EML4‐ALK transforming gene in non‐small cell lung cancer”、Cancer Res、68:4971‐4976と、Jung et al.、2012、“Discovery of ALK‐PTPN3 gene fusion from human non‐small cell lung carcinoma cell line using next generation RNA sequencing”、Genes Chromosomes Cancer、51:590‐597、それぞれ参照により本明細書に組み込まれる)。これらのブレークポイントは、オーバーラップする捕捉対象がないにもかかわらず、連結リードにより検出され得る。表3によりその結果が提供される。
表3
構造バリアントフェージング−実施例1において取られた手法
フェージング中、各テンプレート分子のハプロタイプは、バリアントと同時に計算される。構造バリアントに対応する各バーコードを、由来するハプロタイプと対応付けることにより、構造バリアントはフェーズ化され得る。構造バリアントのフェージングは、誤判定の構造バリアントが1つのハプロタイプにフェーズ化される見込みのない、有力な確認方法を提供する。構造バリアントのハプロタイプへの対応付けに関するp値が、2項検定を使用して計算される。図15は、フェーズ化構造バリアントコールを示す。各投入分子のハプロタイプ割り当てによる連結リードの分割は、構造バリアントのフェーズ化構造を明らかにする。縦線1504は、構造バリアントコールのブレークポイントを示す。
フェージング中、各テンプレート分子のハプロタイプは、バリアントと同時に計算される。構造バリアントに対応する各バーコードを、由来するハプロタイプと対応付けることにより、構造バリアントはフェーズ化され得る。構造バリアントのフェージングは、誤判定の構造バリアントが1つのハプロタイプにフェーズ化される見込みのない、有力な確認方法を提供する。構造バリアントのハプロタイプへの対応付けに関するp値が、2項検定を使用して計算される。図15は、フェーズ化構造バリアントコールを示す。各投入分子のハプロタイプ割り当てによる連結リードの分割は、構造バリアントのフェーズ化構造を明らかにする。縦線1504は、構造バリアントコールのブレークポイントを示す。
図16は、NA12878内のコールされた欠失を示す。構造バリアントコールに対応するバーコードは、1つのハプロタイプにフェーズ化される。表の下部の3つの構造バリアントは、開示されるアルゴリズムにより正確にフィルタリングされた短リード誤判定コールを表す。誤判定コールは、独自にフェーズ化する、またはメンデル遺伝パターンに従うことはない。
当実施例は、癌エクソーム配列から構造バリアントの検出及びハプロタイプのフェージングに関する技術を説明する。具体的に、2015年2月24日に出願された“Detecting Structural Variants and Phasing Haplotypes from Cancer Exome Sequencing Using 1ng Dna Input”と題する米国仮特許出願第62/120,330号が実施例2に組み込まれ、当文献全体は参照により本明細書に組み込まれるものとする。
構造変化、特に遺伝子融合は、多数の癌における突然変異に至ることが知られている。数多くの事例において、これらは効果的な薬剤標的であると証明されている。しかしながら、既存の短リード配列決定技術において、特に異質癌試料において重要な突然変異を鋭敏に検出するのに必要となるウルトラディープカバレッジを達成するためにエクソン対象強化手法を用いる場合、融合検出は課題である。従って、当技術分野において求められるのは、異質癌試料において重要な突然変異を検出するための改良されたシステム及び方法である。
異質癌試料において重要な突然変異を検出するための技術的解決策(例えばコンピューティングシステム、方法、及び非一時的コンピュータ可読記憶媒体)が、当実施例において提供される。特に、癌配列決定における複数の課題に対処するために、10X Genomicsの新たなプラットフォームが使用される。当複数の課題には、(i)エクソーム配列データから遺伝子融合イベントの検出と、(ii)約1ngのDNA投入から複雑配列ライブラリの取得と、(iii)一塩基多型及び構造バリアントのフェージングと、(iv)複雑再配列の解明とがある。
実施例2において、試料準備及び連結リードの特定は、図8、9を参照して実施例1にて示された。癌細胞株及び対応正常DNAは、ATCCから取得され、そのサイズは、Sage ScienceのBluePippinを使用して20kb以上の断片用に選択されている。配列ライブラリは、GemCode Platformに投入した約1ngのgDNAを使用して準備されている。5mgのライブラリは、IDT xGen(登録商標)Universal Blocking Oligosと共に、AGILENT SURESELECT Human All Exon V5+UTRsを用いたエクソーム解析に使用されている。ライブラリは、対端部2×98実験を使用して、ILLUMINA HiSeq2500上で配列決定されている。配列結果は、GEMCode Software Suiteを使用して、分析及び可視化されている。図17は、PCR重複率を、開示されるシステム及び方法の方法論と、TruSeq+AGILENT SSデータの方法論とで、様々な投入量において比較する。図18は、バリアントコール性能を、10X方法論と、TruSeq/SSの方法論とで、様々な投入量において比較する。図19は、10X方法論を用いる様々な試料実験の配列メトリクスを提供する。図17〜19は、開示されるシステム及び方法(例えば10X GemCode Platform)が約1ngの範囲の投入を使用して複雑性の高い配列ライブラリを生成することを示す。この高い複雑性により、試料の量が限られている場合も、より深い標的配列決定及びより鋭敏なバリアントコールが可能となる。
図20を参照すると、エクソーム解析の標的領域の30kb内で起こった、前にアノテーションが付けられた再配列は、本開示のシステム及び方法(例えば全エクソーム配列解析を伴うGemCode Platform)を使用して検出された遺伝子融合と比較されている。前のアノテーションは、全ゲノム配列解析またはRNAベース解析を使用して発見されている。
図21は、本開示のシステム及び方法を用いた、HCC38三種陰性乳癌細胞株における腫瘍特異遺伝子融合の信頼性の高い検出を示す。
図22、23は、本開示のシステム及び方法を用いた複雑な再配列の解明を示す。特に、H2228肺癌細胞株においてEML4/ALK融合を探すことにより、格段に複雑なイベントが明らかとなる。全ゲノム配列BC及びリード総数により、ALKのエクソン2〜19内の欠失の存在が確認される。
図24は、本開示のいくつかの実施形態による、遺伝子融合イベントのハプロタイプフェージングを示す。
図25、26は、全ゲノム配列連結リード及びフェージングがHCC1143三種陰性乳癌における複雑欠失兼アレル喪失イベントを明らかにする方法を示す。線26A、26Bは、図25のX軸に関して、図26の相対位置を提供する。
図27は、長イントロンの特別ベイトが存在する全エクソーム配列でBCR−ABLを検出する概要を示す。図28、29を参照すると、10X GemCodeライブラリは、開示されるシステム及び方法を用いて、約1ngのKU812 gDNAの投入から生成されている。ハイブリッドキャプチャは、ABL1のエクソン1とエクソン2との間の100kbを超えるイントロン領域にマッピングする追加超塩基長DNAベイトを伴い(Exome+)、または伴わず(Exome)、標準IDT Exomeパネルにより行われている(平均ベイト間隔は2kb以下)。図30は、0.2fmolのイントロンベイトを伴う実験とイントロンベイトを伴わない実験の構造バリアント統計値を要約する。
結論
本明細書において単一インスタンスとして説明されるコンポーネント、動作、または構造に関して、複数のインスタンスが提供され得る。最終的には、様々なコンポーネント、動作、及びデータストアは多少任意に境界付けられ、特定の動作は具体的な例示構成に照らして示される。他の機能割り当ても想像され、実施態様(複数可)の範囲内に含まれ得る。一般に、例示的構成において個別のコンポーネントとして紹介される構造及び機能は、組み合わされた構造またはコンポーネントとして実装可能である。同様に、単一コンポーネントとして紹介される構造及び機能は、個別の複数のコンポーネントとして実装可能である。これら及び他の変形物、変更物、追加物、及び改良物は、実施態様(複数可)の範囲内に含まれる。
本明細書において単一インスタンスとして説明されるコンポーネント、動作、または構造に関して、複数のインスタンスが提供され得る。最終的には、様々なコンポーネント、動作、及びデータストアは多少任意に境界付けられ、特定の動作は具体的な例示構成に照らして示される。他の機能割り当ても想像され、実施態様(複数可)の範囲内に含まれ得る。一般に、例示的構成において個別のコンポーネントとして紹介される構造及び機能は、組み合わされた構造またはコンポーネントとして実装可能である。同様に、単一コンポーネントとして紹介される構造及び機能は、個別の複数のコンポーネントとして実装可能である。これら及び他の変形物、変更物、追加物、及び改良物は、実施態様(複数可)の範囲内に含まれる。
本明細書において様々な要素を説明するのに「第1」、「第2」等の用語が使用され得るが、これらの要素はこれらの用語に限定されるべきではないことも理解されよう。これらの用語は、1つの要素を別の要素と区別するためにのみ使用される。例えば、「第1オブジェクト」の全出現箇所を一貫して名前を変更し、「第2オブジェクト」の全出現箇所を一貫して名前を変更するのであれば、説明の意味を変えることなく、第1オブジェクトを第2オブジェクトと称することが可能であり、同様に第2オブジェクトを第1オブジェクトと称することが可能である。第1オブジェクト及び第2オブジェクトは両方ともオブジェクトであるが、それらは同一のオブジェクトではない。
本明細書において使用される用語は、特定の実施態様を説明する目的でのみ使用され、特許請求を限定する意図はない。実施態様の説明及び添付の請求項において使用される単数形「a」、「an」、及び「the」は、文脈が別に明示しない限り、複数形も含むことが意図される。本明細書において使用される用語「and/or(及び/または)」は、関連列挙項目のうちの1つまたは複数の任意または全ての可能な組合せを指し、包含することも理解されよう。用語「comprises(備える)」及び/または「comprising(備えている)」が本明細書において使用される場合、述べられる特徴、完全体、ステップ、動作、要素、及び/またはコンポーネントの存在を特定するが、1つまたは複数の他の特徴、完全体、ステップ、動作、要素、コンポーネント、及び/またはそれらの群の存在または追加を除外しないことがさらに理解されよう。
本明細書で使用される用語「if(場合)」は、文脈により、述べられる前提条件が真実である「when(時)」、「upon(際)」、「in response to determining(判定に応じて)」、「in accordance with a determination(判定により)」、または「in response to detecting(検出に応じて)」という意味に解釈され得る。同様に、表現「if it is determined (that a stated condition precedent is true)((述べられる前提条件が真実であることが)判定された場合)」、「if (a stated condition precedent is true)((述べられる前提条件が真実である)場合)」、または「when (a stated condition precedent is true)((述べられる前提条件が真実である)時)」は、文脈により、述べられる前提条件が真実である「upon determining(判定の際)」、「in response to determining(判定に応じて)」、「in accordance with a determination(判定により)」、「upon detecting(検出の際)」、または「in response to detecting(検出に応じて)」という意味に解釈され得る。
前述の説明は、例示実施態様を具現化する例示的システム、方法、技術、命令シーケンス、及びコンピューティングマシンプログラム製品を含んでいる。説明の目的上、発明主題の様々な実施態様の理解のために、多数の具体的な詳細が明らかにされる。しかしながら、発明主題の実施態様はこれらの具体的な詳細なしに実施可能であることが、当業者には明らかであろう。概して、よく知られている命令インスタンス、プロトコル、構造、及び技術は、詳細に示されていない。
前の記述は、説明のため、具体的な実施態様を参照して記述されている。しかしながら、前の例示論述に、実施態様を、開示される詳細な形態に精緻なものにする、または開示される詳細な形態に限定する意図はない。前の教えを考慮して、多数の変更及び変形が可能である。原理及びその実際的応用を最良に説明し、これにより他の当業者が、実施態様及び特定の計画的使用に合わせた様々な変更を伴う様々な実施態様を最良に使用できるように、実施態様は選ばれ説明されている。
Claims (254)
- 生体試料から取得される試験用核酸の配列データにおいて構造バリアントを検出する方法であって、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
(A)複数の配列リードを取得することであって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第1部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第2部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、取得することと、
(B)複数のビンに関するビン情報を取得することであって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定し、前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、前記複数の配列リードに含まれ、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第1部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、取得することと、
(C)前記複数の配列リードのうち、前記複数のビン内の第1ビンに属する配列リード第1セットにおいて存在し、かつ前記複数の配列リードのうち、前記複数のビン内の第2ビンに属する配列リード第2セットにおいても存在する一意的バーコードの数を特定することと、
(D)前記特定数が偶然に起因している可能性または見込みを、前記特定数に基づくメトリクと閾値基準との比較により決定することであって、
前記メトリクが前記閾値基準を満たす場合、構造変異は、(i)前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分、及び/または(ii)前記配列リード第2セットにより表される前記試験用核酸の前記異なる部分において起こったとみなされる、決定することと
を含む前記方法。 - 前記メトリクは以下のように計算され、
{b1、b2、・・・、bn}は、前記配列リード第1及び第2セットの両方に存在するn個の前記一意的バーコードのセットであり、
iはnに対する整数指数であり、
は、前記バーコードbiが現れる前記複数のビンの前記分率である、
請求項1に記載の方法。 - pが10−2以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項2に記載の方法。
- pが10−3以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項2に記載の方法。
- pが10−4以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項2に記載の方法。
- pが10−5以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項2に記載の方法。
- 前記メトリクは以下のように計算され、
{b1、b2、・・・、bn}は、前記配列リード第1及び第2セットの両方に存在するn個の前記一意的バーコードのセットであり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
iはnに対する整数指数であり、
は、前記バーコードbiが現れる前記複数のビンの前記分率である、
請求項1に記載の方法。 - pが10−2以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項7に記載の方法。
- pが10−3以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項7に記載の方法。
- pが10−4以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項7に記載の方法。
- pが10−5以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項7に記載の方法。
- 前記メトリクは以下のように計算され、
nは前記配列リード第1及び第2セットの両方に存在する前記一意的バーコードの数であり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
Bは前記複数のビンにわたる前記一意的バーコードの総数である、
請求項1に記載の方法。 - 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、50連続塩基以上の挿入または欠失である、請求項1〜12のいずれか1項に記載の方法。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、500連続塩基以上の挿入または欠失である、請求項1〜12のいずれか1項に記載の方法。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、5000連続塩基以上の挿入または欠失である、請求項1〜12のいずれか1項に記載の方法。
- 前記メトリクが前記閾値基準を満たすとみなされると、
(E)前記特定数の配列リード内の各配列リードを、(i)前記配列リード第1セットに対応する前記試験用核酸の前記サブセットと、(ii)前記配列リード第2セットに対応する前記試験用核酸の前記サブセットとに、アラインすることと、
(F)前記アライメント(E)に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第1セットに対応する前記試験用核酸の前記サブセットに対する第1アライメント品質を決定することと、
(G)前記アライメント(E)に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第2セットに対応する前記試験用核酸の前記サブセットに対する第2アライメント品質を決定することと、
(H)前記特定数の配列リードから、類似する第1アライメント品質及び第2アライメント品質を有する各配列リードを除くことと、
(I)前記決定(D)を繰り返すことと
をさらに含む請求項1〜15のいずれか1項に記載の方法。 - 前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持することをさらに含む前記方法であって、前記特定(C)はさらに、
配列リードの前記第1部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記特定数の配列リードから、前記配列リードを除くことを含む、
請求項1〜16のいずれか1項に記載の方法。 - 前記複数のビン内の各ビンは、前記試験用核酸の少なくとも20kbpを表す、請求項1〜17のいずれか1項に記載の方法。
- 前記複数のビン内の各ビンは、前記試験用核酸の少なくとも50kbpを表す、請求項1〜17のいずれか1項に記載の方法。
- 前記複数のビン内の各ビンは、前記試験用核酸の少なくとも100kbpを表す、請求項1〜17のいずれか1項に記載の方法。
- 前記複数のビン内の各ビンは、前記試験用核酸の少なくとも250kbpを表す、請求項1〜17のいずれか1項に記載の方法。
- 前記複数のビン内の各ビンは、前記試験用核酸の少なくとも500kbpを表す、請求項1〜17のいずれか1項に記載の方法。
- 前記第1ビンにより表される前記試験用核酸の前記異なる部分は、前記第2ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項1〜22のいずれか1項に記載の方法。
- 前記第1ビンにより表される前記試験用核酸の前記異なる部分の少なくとも50パーセントは、前記第2ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項23に記載の方法。
- 前記第1ビンにより表される前記試験用核酸の前記異なる部分の少なくとも80パーセントは、前記第2ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項23に記載の方法。
- 前記第1ビンにより表される前記試験用核酸の前記異なる部分の少なくとも95パーセントは、前記第2ビンにより表される前記試験用核酸の前記異なる部分とオーバーラップする、請求項23に記載の方法。
- 前記複数のビン内のそれぞれのビンにより表される前記試験用核酸のそれぞれの異なる部分はオーバーラップしない、請求項1〜22のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードセットに含まれる各配列リードは、前記試験用核酸のサブセットに対応する各第1部分を有し、前記各第1部分は、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と完全にオーバーラップする、請求項1〜22のいずれか1項に記載の方法。
- 前記複数のビンは、10,000個以上のビンを含む、請求項1〜28のいずれか1項に記載の方法。
- 前記複数のビンは、100,000個以上のビンを含む、請求項1〜28のいずれか1項に記載の方法。
- 前記複数のビンは、1,000,000個以上のビンを含む、請求項1〜28のいずれか1項に記載の方法。
- 前記生体試料は複数染色体生物種に由来し、前記試験用核酸は、前記複数染色体生物種の複数の染色体を集合的に表す複数の核酸を含む、請求項1〜31のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、1024}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、4096}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、16384}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、65536}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、262144}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、1048576}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、4194304}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、16777216}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、67108864}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、1×1012}から選択される一意的な所定値を符号化する、請求項1〜32のいずれか1項に記載の方法。
- 前記複数の配列リード内の配列リードの前記第2部分における前記バーコードは、前記配列リード内のオリゴヌクレオチド連続セットに局所化される、請求項1〜42のいずれか1項に記載の方法。
- 前記オリゴヌクレオチド連続セットはN塩基長であり、Nは前記セット{4、・・・、20}から選択される整数である、請求項43に記載の方法。
- 前記複数の配列リード内の配列リードの前記第2部分における前記バーコードは、前記配列リード内の所定のヌクレオチド非連続セットに局所化される、請求項1〜42のいずれか1項に記載の方法。
- 前記所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nは前記セット{4、・・・、20}内の整数である、請求項45に記載の方法。
- 前記複数の配列リード内の前記第1配列リードは、20kbpより大きい前記試験用核酸のサブセットに対応する、請求項1〜46のいずれか1項に記載の方法。
- 前記構造変異は、前記配列リード第2セットにより表される前記試験用核酸の前記異なる部分から、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分への50連続塩基以上の転座である、請求項1〜47のいずれか1項に記載の方法。
- 前記第1ビンにより表される前記試験用核酸の前記異なる部分は、前記生体試料の第1染色体に由来し、
前記第2ビンにより表される前記試験用核酸の前記異なる部分は、前記生体試料の第2染色体に由来し、前記第2染色体は前記第1染色体と異なる、
請求項1〜48のいずれか1項に記載の方法。 - 前記第1染色体は父系染色体であり、前記第2染色体は母系染色体である、請求項49に記載の方法。
- 前記生体試料はヒトであり、前記第1染色体は前記セット{1、・・・、23}内の染色体である、請求項1〜50のいずれか1項に記載の方法。
- 前記構造変異が起こったとみなされると、前記構造変異に応じる治療方式で前記生体試料の由来する対象者を治療することをさらに含む請求項1〜51のいずれか1項に記載の方法。
- 前記治療方式は、食事改善を含む、請求項52に記載の方法。
- 前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項52に記載の方法。
- 前記複数のバーコードは、1000個以上のバーコードを含む、請求項1〜54のいずれか1項に記載の方法。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項1〜54のいずれか1項に記載の方法。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項1〜54のいずれか1項に記載の方法。
- 前記複数のバーコードは、1×106個以上のバーコードを含む、請求項1〜54のいずれか1項に記載の方法。
- 前記第1及び第2ビンの識別は、疎行列乗算を使用して決定される、請求項1〜54のいずれか1項に記載の方法。
- 前記疎行列乗算は以下を計算することを含み
A1は前記第1ビンのバーコードを含む第1B×N1バーコード行列であり、
A2は前記第2ビンのバーコードを含む第2B×N2バーコード行列であり、
Bは前記複数のビンにおける前記一意的バーコードの数であり、
N1はA1内の前記ビンの数であり、
N2はA2内の前記ビンの数であり、
は前記行列A1の転置行列である、
請求項59に記載の方法。 - 前記第1ビンは前記生体試料の第1染色体に対応付けられ、
前記第2ビンは前記生体試料の第2染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2は前記第2染色体に対応付けられた前記ビンの数である、
請求項60に記載の方法。 - 前記第1及び第2ビンは両方とも、前記生体試料の第1染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2はN1と等しい、
請求項61に記載の方法。 - 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行される1つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記1つまたは複数のプログラムは、
(A)複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第1部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第2部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
(B)複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定し、前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、前記複数の配列リードに含まれ、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第1部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
(C)前記複数の配列リードのうち、前記複数のビン内の第1ビンに属する配列リード第1セットにおいて存在し、かつ前記複数の配列リードのうち、前記複数のビン内の第2ビンに属する配列リード第2セットにおいても存在する一意的バーコードの数を特定する命令と、
(D)前記特定数が偶然に起因している可能性または見込みを、前記特定数に基づくメトリクと閾値基準との比較により決定する命令であって、
前記メトリクが前記閾値基準を満たす場合、構造変異は、(i)前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分、及び/または(ii)前記配列リード第2セットにより表される前記試験用核酸の前記異なる部分において起こったとみなされる、命令と
を含む、前記コンピューティングシステム。 - 前記メトリクは以下のように計算され、
{b1、b2、・・・、bn}は、前記配列リード第1及び第2セットの両方に存在するn個の前記一意的バーコードのセットであり、
iはnに対する整数指数であり、
は、前記バーコードbiが現れる前記複数のビンの前記分率である、
請求項63に記載のコンピューティングシステム。 - pが10−4以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項64に記載のコンピューティングシステム。
- pが10−5以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項64に記載のコンピューティングシステム。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、50連続塩基以上の挿入または欠失である、請求項63〜66のいずれか1項に記載のコンピューティングシステム。
- 前記メトリクが前記閾値基準を満たすとみなされると、前記1つまたは複数のプログラムはさらに、
(E)前記特定数の配列リード内の各配列リードを、(i)前記配列リード第1セットに対応する前記試験用核酸の前記サブセットと、(ii)前記配列リード第2セットに対応する前記試験用核酸の前記サブセットとに、アラインする命令と、
(F)前記アライメント(E)に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第1セットに対応する前記試験用核酸の前記サブセットに対する第1アライメント品質を決定する命令と、
(G)前記アライメント(E)に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第2セットに対応する前記試験用核酸の前記サブセットに対する第2アライメント品質を決定する命令と、
(H)前記特定数の配列リードから、類似する第1アライメント品質及び第2アライメント品質を有する各配列リードを除く命令と、
(I)前記決定(D)を繰り返す命令と
をさらに含む、請求項63〜67のいずれか1項に記載のコンピューティングシステム。 - 前記1つまたは複数のプログラムはさらに、
前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持する命令をさらに含み、前記特定(C)はさらに、
配列リードの前記第1部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記特定数の配列リードから、前記配列リードを除くことを含む、
請求項63〜68のいずれか1項に記載のコンピューティングシステム。 - 前記複数の配列リード内の配列リードの前記第2部分における前記バーコードは、オリゴヌクレオチド連続セットに局所化される、請求項63〜69のいずれか1項に記載のコンピューティングシステム。
- 前記オリゴヌクレオチド連続セットはN塩基長であり、Nは前記セット{4、・・・、20}から選択される整数である、請求項70に記載のコンピューティングシステム。
- 前記複数の配列リード内の配列リードの前記第2部分における前記バーコードは、所定のヌクレオチド非連続セットに局所化される、請求項63〜69のいずれか1項に記載のコンピューティングシステム。
- 前記所定のヌクレオチド非連続セットはN個のヌクレオチドで構成され、Nは前記セット{4、・・・、20}内の整数である、請求項72に記載のコンピューティングシステム。
- 前記構造変異が起こったとみなされると、前記1つまたは複数のプログラムはさらに、前記生体試料の由来する対象者、または前記対象者の治療を担当する医療関係者に対し、前記構造変異に応じる治療方式を伝える命令を含む、請求項63〜73のいずれか1項に記載のコンピューティングシステム。
- 前記治療方式は、食事改善を含む、請求項74に記載のコンピューティングシステム。
- 前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項74に記載のコンピューティングシステム。
- 前記メトリクは以下のように計算され、
{b1、b2、・・・、bn}は、前記配列リード第1及び第2セットの両方に存在するn個の前記一意的バーコードのセットであり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
iはnに対する整数指数であり、
は、前記バーコードbiが現れる前記複数のビンの前記分率である、
請求項63に記載のコンピューティングシステム。 - 前記メトリクは以下のように計算され、
nは前記配列リード第1及び第2セットの両方に存在する前記一意的バーコードの数であり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
Bは前記複数のビンにわたる一意的バーコードの総数である、
請求項63に記載のコンピューティングシステム。 - 前記複数のバーコードは、1000個以上のバーコードを含む、請求項63〜78のいずれか1項に記載のコンピューティングシステム。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項63〜78のいずれか1項に記載のコンピューティングシステム。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項63〜78のいずれか1項に記載のコンピューティングシステム。
- 前記複数のバーコードは、1×106個のバーコードを含む、請求項63〜78のいずれか1項に記載のコンピューティングシステム。
- 前記第1及び第2ビンの識別は、疎行列乗算を使用して決定される、請求項63〜82のいずれか1項に記載のコンピューティングシステム。
- 前記疎行列乗算は以下を計算することを含み
A1は前記第1ビンのバーコードを含む第1B×N1バーコード行列であり、
A2は前記第2ビンのバーコードを含む第2B×N2バーコード行列であり、
Bは前記複数のビンにおける前記一意的バーコードの数であり、
N1はA1内の前記ビンの数であり、
N2はA2内の前記ビンの数であり、
は前記行列A1の転置行列である、
請求項83に記載のコンピューティングシステム。 - 前記第1ビンは前記生体試料の第1染色体に対応付けられ、
前記第2ビンは前記生体試料の第2染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2は前記第2染色体に対応付けられた前記ビンの数である、
請求項84に記載のコンピューティングシステム。 - 前記第1及び第2ビンは両方とも、前記生体試料の第1染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2はN1と等しい、
請求項84に記載のコンピューティングシステム。 - コンピュータにより実行されるように構成される1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つまたは複数のプログラムは、
(A)複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第1部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第2部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
(B)複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、複数の配列リードセット内の配列リードセットを特定し、前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードは、前記複数の配列リードに含まれ、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第1部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
(C)前記複数の配列リードのうち、前記複数のビン内の第1ビンに属する配列リード第1セットにおいて存在し、かつ前記複数の配列リードのうち、前記複数のビン内の第2ビンに属する配列リード第2セットにおいても存在する一意的バーコードの数を特定する命令と、
(D)前記特定数が偶然に起因している可能性または見込みを、前記特定数に基づくメトリクと閾値基準との比較により決定する命令であって、
前記メトリクが前記閾値基準を満たす場合、構造変異は、(i)前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分、及び/または(ii)前記配列リード第2セットにより表される前記試験用核酸の前記異なる部分において起こったとみなされる、命令と
を含む、前記非一時的コンピュータ可読記憶媒体。 - 前記メトリクは以下のように計算され、
{b1、b2、・・・、bn}は、前記配列リード第1及び第2セットの両方に存在するn個の前記一意的バーコードのセットであり、
iはnに対する整数指数であり、
は、前記バーコードbiが現れる前記複数のビンの前記分率である、
請求項87に記載の非一時的コンピュータ可読記憶媒体。 - pが10−4以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項88に記載の非一時的コンピュータ可読記憶媒体。
- pが10−5以下の時に、前記メトリクは前記閾値基準を満たすとみなされる、請求項88に記載の非一時的コンピュータ可読記憶媒体。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、50連続塩基以上の挿入または欠失である、請求項87〜90のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記メトリクが前記閾値基準を満たすとみなされると、前記1つまたは複数のプログラムはさらに、
(E)前記特定数の配列リード内の各配列リードを、(i)前記配列リード第1セットに対応する前記試験用核酸の前記サブセットと、(ii)前記配列リード第2セットに対応する前記試験用核酸の前記サブセットとに、アラインする命令と、
(F)前記アライメント(E)に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第1セットに対応する前記試験用核酸の前記サブセットに対する第1アライメント品質を決定する命令と、
(G)前記アライメント(E)に基づいて、前記特定数の配列リード内の配列リードごとに、前記配列リード第2セットに対応する前記試験用核酸の前記サブセットに対する第2アライメント品質を決定する命令と、
(H)前記特定数の配列リードから、類似する第1アライメント品質及び第2アライメント品質を有する各配列リードを除く命令と、
(I)前記決定(D)を繰り返す命令と
をさらに含む、請求項87〜91のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。 - 前記1つまたは複数のプログラムはさらに、
前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持する命令をさらに含み、前記特定(C)はさらに、
配列リードの前記第1部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記特定数の配列リードから、前記配列リードを除くことを含む、
請求項87〜92のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。 - 前記複数の配列リード内の配列リードの前記第1部分における前記バーコードは、オリゴヌクレオチド連続セットに局所化される、請求項87〜93のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記オリゴヌクレオチド連続セットはN塩基長であり、Nは前記セット{4、・・・、20}から選択される整数である、請求項94に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数の配列リード内の配列リードの前記第1部分における前記バーコードは、所定のヌクレオチド非連続セットに局所化される、請求項87〜93のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記所定のヌクレオチド非連続セットはN個のヌクレオチドで構成され、Nは前記セット{4、・・・、20}内の整数である、請求項96に記載の非一時的コンピュータ可読記憶媒体。
- 前記構造変異が起こったとみなされると、前記1つまたは複数のプログラムはさらに、前記生体試料の由来する対象者、または前記対象者の治療を担当する医療関係者に対し、前記構造変異に応じる治療方式を伝える命令を含む、請求項87〜97のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記治療方式は、食事改善を含む、請求項98に記載の非一時的コンピュータ可読記憶媒体。
- 前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項98に記載の非一時的コンピュータ可読記憶媒体。
- 前記メトリクは以下のように計算され、
{b1、b2、・・・、bn}は、前記配列リード第1及び第2セットの両方に存在するn個の前記一意的バーコードのセットであり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
iはnに対する整数指数であり、
は、前記バーコードbiが現れる前記複数のビンの前記分率である、
請求項87に記載の非一時的コンピュータ可読記憶媒体。 - 前記メトリクは以下のように計算され、
nは前記配列リード第1及び第2セットの両方に存在する前記一意的バーコードの数であり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
Bは前記複数のビンにわたる前記一意的バーコードの総数である、
請求項87に記載の非一時的コンピュータ可読記憶媒体。 - 前記複数のバーコードは、1000個以上のバーコードを含む、請求項87〜102のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項87〜102のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項87〜102のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数のバーコードは、1×106個以上のバーコードを含む、請求項87〜102のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記第1及び第2ビンの識別は、疎行列乗算を使用して決定される、請求項87〜106のいずれか1項に記載の非一時的コンピュータ可読記憶媒体。
- 前記疎行列乗算は以下を計算することを含み
A1は前記第1ビンのバーコードを含む第1B×N1バーコード行列であり、
A2は前記第2ビンのバーコードを含む第2B×N2バーコード行列であり、
Bは前記複数のビンにおける前記一意的バーコードの数であり、
N1はA1内の前記ビンの数であり、
N2はA2内の前記ビンの数であり、
は前記行列A1の転置行列である、
請求項107に記載の非一時的コンピュータ可読記憶媒体。 - 前記第1ビンは前記生体試料の第1染色体に対応付けられ、
前記第2ビンは前記生体試料の第2染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2は前記第2染色体に対応付けられた前記ビンの数である、
請求項108に記載の非一時的コンピュータ可読記憶媒体。 - 前記第1及び第2ビンは両方とも、前記生体試料の第1染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2はN1と等しい、
請求項108に記載の非一時的コンピュータ可読記憶媒体。 - 一生体試料から取得される試験用核酸において起こる構造変異の尤度を決定する方法であって、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
(A)前記試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得することであって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第1部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第2部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、取得することと、
(B)複数のビンに関するビン情報を取得することであって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、前記複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定し、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第1部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、取得することと、
(C)前記複数のビンの中から、前記試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンを特定することであって、
前記第1ビンは前記複数の配列リード内の配列リード第1セットにより表され、前記第2ビンは前記複数の配列リード内の配列リード第2セットにより表される、特定することと、
(D)前記第1セット及び前記第2セットに共通する前記バーコードの数が偶然に起因している数値的可能性または見込みを表す第1値を決定することと、
(E)前記第1値が所定のカットオフ値を満たすという判定に応じて、前記第1ビン及び前記第2ビンに共通のバーコードごとに断片対を取得することにより、1つまたは複数の断片対を取得することであって、
前記1つまたは複数の断片対内の各断片対は、(i)前記第1ビン及び前記第2ビンに共通の異なるバーコードに対応し、(ii)異なる第1計算断片と異なる第2計算断片とで構成され、
前記1つまたは複数の断片対内の断片対ごとに、
前記異なる第1計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第1サブセットで構成され、
前記各配列リード第1サブセット内の各配列リードは、前記各配列リード第1サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第1計算断片は、前記第1ビン内の前記各断片対に対応する前記バーコードを有する第1配列リードに起因し、
前記各配列リード第1サブセット内の各配列リードは 前記第1ビンに由来し、
前記異なる第2計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第2サブセットで構成され、
前記各配列リード第2サブセット内の各配列リードは、前記各配列リード第2サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第2計算断片は、前記第2ビン内の前記各断片対に対応する前記バーコードを有する第2配列リードに起因し、
前記各配列リード第2サブセット内の各配列リードは前記第2ビンに由来する、取得することと、
(F)前記1つまたは複数の断片対に関して、第1モデルの発生確率及び第2モデルの発生確率に基づいて各尤度を計算することにより、前記試験用核酸における構造変異の尤度を提供することであって、
(i)前記第1モデルは、前記1つまたは複数の断片対の前記各第1計算断片及び前記各第2計算断片が、前記対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示し、
(ii)前記第2モデルは、前記1つまたは複数の断片対の前記各第1計算断片及び前記各第2計算断片が、前記対象核酸配列内に構造変異があると観察されることを明示する、提供することと
を含む前記方法。 - 前記計算(F)において計算される前記尤度の表現は、前記第1モデルの前記発生確率と前記第2モデルの前記発生確率との比率スコアである、請求項111に記載の方法。
- 前記第1ビン及び前記第2ビンは、前記試験用核酸上で少なくとも所定数のキロ塩基分、離れている、請求項111または112に記載の方法。
- 前記第1ビン及び前記第2ビンは、前記試験用核酸上で少なくとも50キロ塩基分、離れている、請求項113に記載の方法。
- 前記決定(D)は2項検定を用いて前記第1値を計算する、請求項111〜114のいずれか1項に記載の方法。
- 前記決定(D)は2項検定を用いて、以下の形式の前記第1値を計算し
pはp値と表される前記第1値であり、
nは前記配列リード第1及び第2セットの両方に存在する前記一意的バーコードの数であり、
n1は、前記配列リード第1セット内の前記一意的バーコードの数であり、
n2は、前記配列リード第2セット内の前記一意的バーコードの数であり、
Bは前記複数のビンにわたる前記一意的バーコードの総数である、
請求項111〜114のいずれか1項に記載の方法。 - 前記一生体試料はヒトであり、前記試験用核酸は前記生体試料の前記ゲノムであり、前記第1値が10−14以下である時に前記第1値は前記所定のカットオフ値を満たす、請求項111〜116のいずれか1項に記載の方法。
- 前記一生体試料はヒトであり、前記試験用核酸は前記生体試料の前記ゲノムであり、前記第1値が10−15以下である時に前記第1値は前記所定のカットオフ値を満たす、請求項111〜116のいずれか1項に記載の方法。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、50連続塩基以上の挿入または欠失である、請求項111〜118のいずれか1項に記載の方法。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、500連続塩基以上の挿入または欠失である、請求項111〜118のいずれか1項に記載の方法。
- 前記構造変異は、前記配列リード第1セットにより表される前記試験用核酸の前記異なる部分に対する、5000連続塩基以上の挿入または欠失である、請求項111〜118のいずれか1項に記載の方法。
- 前記構造変異は、遺伝子疾患に関連する、請求項111〜121のいずれか1項に記載の方法。
- 前記複数のビン内の各ビンは、前記試験用核酸の少なくとも20キロ塩基、前記試験用核酸の少なくとも50キロ塩基、前記試験用核酸の少なくとも100キロ塩基、前記試験用核酸の少なくとも250キロ塩基、または前記試験用核酸の少なくとも500キロ塩基を表す、請求項111〜122のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードセットに含まれる各配列リードは、前記試験用核酸のサブセットに対応する各第1部分を有し、前記各第1部分は、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と完全にオーバーラップする、請求項111〜122のいずれか1項に記載の方法。
- 前記複数のビンは、10,000個以上のビンを含む、請求項111〜124のいずれか1項に記載の方法。
- 前記複数のビンは、100,000個以上のビンを含む、請求項111〜124のいずれか1項に記載の方法。
- 前記複数のビンは、1,000,000個以上のビンを含む、請求項111〜124のいずれか1項に記載の方法。
- 前記生体試料は複数染色体生物種に由来し、前記試験用核酸は、前記複数染色体生物種に含まれる複数の染色体を集合的に表す複数の核酸を含む、請求項111〜127のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、1024}から選択される、前記セット{1、・・・、4096}から選択される、前記セット{1、・・・、16384}から選択される、前記セット{1、・・・、65536}から選択される、前記セット{1、・・・、262144}から選択される、前記セット{1、・・・、1048576}から選択される、前記セット{1、・・・、4194304}から選択される、前記セット{1、・・・、16777216}から選択される、前記セット{1、・・・、67108864}から選択される、または前記セット{1、・・・、1×1012}から選択される一意的な所定値を符号化する、請求項111〜128のいずれか1項に記載の方法。
- 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記各配列リード内のオリゴヌクレオチド連続セットに局所化される、請求項111〜129のいずれか1項に記載の方法。
- 前記オリゴヌクレオチド連続セットはN塩基長であり、Nは前記セット{4、・・・、20}から選択される整数である、請求項130に記載の方法。
- 前記複数の配列リード内の配列リードの前記第2部分における前記バーコードは、前記配列リード内の所定のヌクレオチド非連続セットに局所化される、請求項111〜120のいずれか1項に記載の方法。
- 前記所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nは前記セット{4、・・・、20}内の整数である、請求項132に記載の方法。
- 前記第1配列リードは、10キロ塩基より大きい前記試験用核酸の第1サブセットに対応する、請求項111〜133のいずれか1項に記載の方法。
- 前記第1配列リードは、20キロ塩基より大きい前記試験用核酸の第1サブセットに対応する、請求項111〜133のいずれか1項に記載の方法。
- 前記構造変異が起こったとみなされると、前記構造変異に応じる治療方式で前記生体試料の由来する対象者を治療することをさらに含む請求項111〜135のいずれか1項に記載の方法。
- 前記治療方式は、食事改善を含む、請求項136に記載の方法。
- 前記治療方式は、前記構造変異に関連する生物学的経路を抑制または増強する医薬組成物の適用を含む、請求項137に記載の方法。
- 前記第1及び第2ビンの識別は、疎行列乗算を使用する前記特定(C)により決定される、請求項111〜138のいずれか1項に記載の方法。
- 前記第1及び第2ビンの識別は、以下の形式の疎行列乗算を使用する前記特定(C)により決定され、
A1は前記第1ビンを含む第1B×N1バーコード行列であり、
A2は前記第2ビンを含む第2B×N2バーコード行列であり、
Bは前記複数のビンにわたる前記一意的バーコードの数であり、
N1はA1内の前記ビンの数であり、
N2はA2内の前記ビンの数であり、
は前記行列A1の転置行列である、
請求項111〜138のいずれか1項に記載の方法。 - 前記第1ビンは前記生体試料の第1染色体に対応付けられ、
前記第2ビンは前記生体試料の第2染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2は前記第2染色体に対応付けられた前記ビンの数である、
請求項140に記載の方法。 - 前記第1及び第2ビンは両方とも、前記生体試料の第1染色体に対応付けられ、
N1は前記第1染色体に対応付けられた前記ビンの数であり、
N2はN1と等しい、
請求項140に記載の方法。 - 前記試験用核酸の複数のブラックアウト領域を含むブラックアウトリストを保持することをさらに含む前記方法であって、前記特定(C)の前に、
配列リードの前記第1部分が前記複数のブラックアウト領域内のブラックアウト領域とオーバーラップする場合、前記複数の配列リードから、前記配列リードを除くことをさらに含む請求項111〜142のいずれか1項に記載の方法。 - 前記計算(F)において前記計算尤度は、以下のように計算され
LRは複数の項の積に等しく、前記複数の項内の各項は(i)前記1つまたは複数の断片対内の各断片対を表し、(ii)以下の形式を有し
r1は、前記各断片対の前記第1計算断片における前記各配列リード第1サブセット内の配列リードの数であり、
l1は、前記各断片対の前記配列リード第1サブセットにより決定される前記第1計算断片の長さであり、
r2は、前記各断片対の前記第2計算断片における前記各配列リード第2サブセット内のリードの数であり、
l2は、前記各断片対の前記配列リード第2サブセットにより決定される前記第2計算断片の長さであり、
dは前記試験用核酸内の前記各断片対の前記第1計算断片と前記第2計算断片との間の距離であり、
abは前記複数の配列リードにわたる前記第1バーコードのリードレートであり、
SVは前記第1モデルに従って前記第1計算断片及び前記第2計算断片が観察されたことを示し、
no SVは前記第2モデルに従って前記第1計算断片及び前記第2計算断片が観察されたことを示す、
請求項111に記載の方法。 -
であり、
SMは、前記複数の配列決定反応において前記第1計算分子及び前記第2計算分子が前記試験用核酸の同一断片に由来しているという前記仮定であり、
DMは、前記複数の配列決定反応において前記第1計算分子及び前記第2計算分子が前記試験用核酸の異なる断片に由来しているという前記仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する前記確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する前記確率である、
請求項144に記載の方法。 -
及び
はそれぞれ以下のように計算され
はパラメータbによるポアソン分布の前記確率質量関数であり、
は前記各分子の前記実分子長がmである前記(予測)確率である、
請求項145に記載の方法。 -
は、以下のように計算され
mは前記実分子長の前記長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は前記実の共通分子長がmである予測確率である、
請求項145に記載の方法。 -
であり、
SMは、前記複数の配列決定反応において前記第1計算分子及び前記第2計算分子が前記試験用核酸の同一断片に由来しているという前記仮定であり、
DMは、前記複数の配列決定反応において前記第1計算分子及び前記第2計算分子が前記試験用核酸の異なる断片に由来しているという前記仮定であり、
であり、
は、長さが不明の第1分子から、観察された長さl1に及ぶr1個のリードを観察する前記確率であり、
は、長さが不明の第2分子から、観察された長さl2に及ぶr2個のリードを観察する前記確率であり、
2d’=は、前記第1計算分子及び前記第2計算分子に対応付けられた構造変異の前記ブレークポイントの推定を考慮した、前記試験用核酸内の前記各断片対の前記第1計算断片と前記第2計算断片との間の距離である、
請求項144に記載の方法。 -
及び
はそれぞれ以下のように計算され
はパラメータbによるポアソン分布の前記確率質量関数であり、
は前記各分子の前記実分子長がmである前記(予測)確率である、
請求項148に記載の方法。 -
は、以下のように計算され
mは前記実分子長の前記長さであり、
はr1に対するパラメータbによるポアソン分布の確率質量関数であり、
はr2に対するパラメータbによるポアソン分布の確率質量関数であり、
はパラメータbによるポアソン分布の確率質量関数であり、
は前記実の共通分子長がmである予測確率である、
請求項148に記載の方法。 - 2d’は、
となる前記最大限d’を計算することにより推定される、請求項148に記載の方法。 - 前記複数の配列リードは、全ゲノム配列データを表す、請求項111〜151のいずれか1項に記載の方法。
- 前記複数の配列リードは、ゲノムのサブセットの標的配列を表し、
前記複数の配列リードの第1サブセットは、前記ゲノムの前記サブセット内に由来し、
の第1リードレートを有し、
前記複数の配列リードの第2サブセットは、前記ゲノムの前記サブセット外に由来し、
の第1リードレートを有し、
は
とは異なり、前記計算(F)の前記尤度により前記複数の配列リードの前記それぞれの第1及び第2サブセットの前記異なるリードレートは補正される、
請求項111〜151のいずれか1項に記載の方法。 - 複数の第1及び第2ビンに関して前記(D)〜(F)が計算されることにより、前記試験用核酸内の1つまたは複数の構造変異がコールされ、前記方法はさらに、前記複数の配列リードと前記1つまたは複数の構造変異のコールを使用して、前記試験用核酸内のブレークポイント位置を精製することを含む、請求項111〜154のいずれか1項に記載の方法。
- 前記複数のバーコードは、1000個以上のバーコードを含む、請求項111〜154のいずれか1項に記載の方法。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項111〜154のいずれか1項に記載の方法。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項111〜154のいずれか1項に記載の方法。
- 前記複数のバーコードは、1×106個以上のバーコードを含む、請求項111〜154のいずれか1項に記載の方法。
- 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行される1つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記1つまたは複数のプログラムは、
(A)前記試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第1部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第2部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
(B)複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、前記複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定し、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第1部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
(C)前記複数のビンの中から、前記試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンを特定する命令であって、
前記第1ビンは前記複数の配列リード内の配列リード第1セットにより表され、前記第2ビンは前記複数の配列リード内の配列リード第2セットにより表される、命令と、
(D)前記第1セット及び前記第2セットに共通する前記バーコードの数が偶然に起因している数値的可能性または見込みを表す第1値を決定する命令と、
(E)前記第1値が所定のカットオフ値を満たすという判定に応じて、前記第1ビン及び前記第2ビンに共通のバーコードごとに断片対を取得することにより、1つまたは複数の断片対を取得する命令であって、
前記1つまたは複数の断片対内の各断片対は、(i)前記第1ビン及び前記第2ビンに共通の異なるバーコードに対応し、(ii)異なる第1計算断片と異なる第2計算断片とで構成され、
前記1つまたは複数の断片対内の断片対ごとに、
前記異なる第1計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第1サブセットで構成され、
前記各配列リード第1サブセット内の各配列リードは、前記各配列リード第1サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第1計算断片は、前記第1ビン内の前記各断片対に対応する前記バーコードを有する第1配列リードに起因し、
前記各配列リード第1サブセット内の各配列リードは 前記第1ビンに由来し、
前記異なる第2計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第2サブセットで構成され、
前記各配列リード第2サブセット内の各配列リードは、前記各配列リード第2サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第2計算断片は、前記第2ビン内の前記各断片対に対応する前記バーコードを有する第2配列リードに起因し、
前記各配列リード第2サブセット内の各配列リードは前記第2ビンに由来する、命令と、
(F)前記1つまたは複数の断片対に関して、第1モデルの発生確率及び第2モデルの発生確率に基づいて各尤度を計算することにより、前記試験用核酸における構造変異の尤度を提供する命令であって、
(i)前記第1モデルは、前記1つまたは複数の断片対の前記各第1計算断片及び前記各第2計算断片が、前記対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示し、
(ii)前記第2モデルは、前記1つまたは複数の断片対の前記各第1計算断片及び前記各第2計算断片が、前記対象核酸配列内に構造変異があると観察されることを明示する、命令と
を含む前記コンピューティングシステム。 - 前記複数のバーコードは、1000個以上のバーコードを含む、請求項159に記載のコンピューティングシステム。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項159に記載のコンピューティングシステム。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項159に記載のコンピューティングシステム。
- 前記複数のバーコードは、1×106個以上のバーコードを含む、請求項159に記載のコンピューティングシステム。
- コンピュータにより実行されるように構成される1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つまたは複数のプログラムは、
(A)前記試験用核酸が断片化される複数の配列決定反応から複数の配列リードを取得する命令であって、
前記複数の配列リード内の各配列リードは、前記試験用核酸のサブセットに対応する第1部分と、複数のバーコード内の前記各配列リードの各バーコードを符号化する第2部分とを備え、
各バーコードは、前記試験用核酸の前記配列データに依存せず、
前記複数の配列リードは、前記複数のバーコードを集合的に含む、命令と、
(B)複数のビンに関するビン情報を取得する命令であって、
前記複数のビン内の各ビンは、前記試験用核酸の異なる部分を表し、
前記ビン情報は、前記複数のビン内のビンごとに、前記複数の配列リードに含まれる複数の配列リードセット内の配列リードセットを特定し、
前記複数の配列リードセット内の各配列リードセットに含まれる各配列リードの前記各第1部分は、前記試験用核酸のサブセットに対応し、前記各配列リードセットに対応する前記ビンにより表される前記試験用核酸の前記異なる部分と少なくとも部分的にオーバーラップする、命令と、
(C)前記複数のビンの中から、前記試験用核酸の部分に対応し、かつオーバーラップしない第1ビン及び第2ビンを特定する命令であって、
前記第1ビンは前記複数の配列リード内の配列リード第1セットにより表され、前記第2ビンは前記複数の配列リード内の配列リード第2セットにより表される、命令と、
(D)前記第1セット及び前記第2セットに共通する前記バーコードの数が偶然に起因している数値的可能性または見込みを表す第1値を決定する命令と、
(E)前記第1値が所定のカットオフ値を満たすという判定に応じて、前記第1ビン及び前記第2ビンに共通のバーコードごとに断片対を取得することにより、1つまたは複数の断片対を取得する命令であって、
前記1つまたは複数の断片対内の各断片対は、(i)前記第1ビン及び前記第2ビンに共通の異なるバーコードに対応し、(ii)異なる第1計算断片と異なる第2計算断片とで構成され、
前記1つまたは複数の断片対内の断片対ごとに、
前記異なる第1計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第1サブセットで構成され、
前記各配列リード第1サブセット内の各配列リードは、前記各配列リード第1サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第1計算断片は、前記第1ビン内の前記各断片対に対応する前記バーコードを有する第1配列リードに起因し、
前記各配列リード第1サブセット内の各配列リードは 前記第1ビンに由来し、
前記異なる第2計算断片は、前記各断片対に対応する前記バーコードを有する、前記複数の配列リード内の各配列リード第2サブセットで構成され、
前記各配列リード第2サブセット内の各配列リードは、前記各配列リード第2サブセット内の別の配列リードの定義済み遺伝距離内にあり、
前記各断片対の前記異なる第2計算断片は、前記第2ビン内の前記各断片対に対応する前記バーコードを有する第2配列リードに起因し、
前記各配列リード第2サブセット内の各配列リードは前記第2ビンに由来する、命令と、
(F)前記1つまたは複数の断片対に関して、第1モデルの発生確率及び第2モデルの発生確率に基づいて各尤度を計算することにより、前記試験用核酸における構造変異の尤度を提供する命令であって、
(i)前記第1モデルは、前記1つまたは複数の断片対の前記各第1計算断片及び前記各第2計算断片が、前記対象核酸配列内に構造変異はないと観察され、かつ共通分子の一部であることを明示し、
(ii)前記第2モデルは、前記1つまたは複数の断片対の前記各第1計算断片及び前記各第2計算断片が、前記対象核酸配列内に構造変異があると観察されることを明示する、命令と
を含む、前記非一時的コンピュータ可読記憶媒体。 - 前記複数のバーコードは、1000個以上のバーコードを含む、請求項164に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項164に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項164に記載の非一時的コンピュータ可読記憶媒体。
- 前記複数のバーコードは、1×106個以上のバーコードを含む、請求項164に記載の非一時的コンピュータ可読記憶媒体。
- 生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法であって、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
(A)前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
(B)前記生体試料の複数のバリアントコールAi;pを取得することであって、
iは前記参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当てる、取得することと、
(C)前記生体試料の複数の配列リード
を取得することであって、
前記複数の配列リード内の各配列リード
は、前記参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第2部分とを備え、
前記複数の配列リード内の各配列リード
は
であり、(i)nはAi;p内の前記バリアントコールの数であり、(ii)前記各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)前記各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)前記各配列リード
に対する各ラベル−は、Ai;p内の前記対応バリアントコールが対象外であることを示す、取得することと、
(D)以下の関係式を使用して、前記複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1間のハプロタイプ割り当ての最適化により、フェージング結果
を精製することであって、
は前記精製されたフェージングベクトルであり、
は推測される前記フェージングベクトル結果であり、
全体目的関数である
は
と等しく、
(O1,f、・・・、ON,f)は、前記複数のバーコード内の同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールAi;p内の前記N個のバリアントコールの各サブセットであり、
であり、
Mは、前記各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、
iは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記N個のバリアントコールの各サブセットにおける前記i番目のバリアントであり、
rは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
Qrは前記参照コンセンサス配列内の前記iの位置における前記リード塩基のSrに関する品質値である、精製することと
を含む前記方法。 - 生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの前記接合状態におけるエラーに対処する方法であって、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
(A)前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
(B)前記生体試料の複数のバリアントコールAi;pを取得することであって、
iは前記参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当て、ラベル−1は前記各バリアントコールを前記接合エラー状態H−1に割り当てる、取得することと、
(C)前記生体試料の複数の配列リード
を取得することであって、
前記複数の配列リード内の各配列リード
は、前記参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第2部分とを備え、
前記複数の配列リード内の各配列リード
は
であり、(i)nはAi;p内の前記バリアントコールの数であり、(ii)前記各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)前記各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)前記各配列リード
に対する各ラベル−1は、Ai;p内の対応バリアントコールをH−1に割り当て、(v)前記各配列リード
に対する各ラベル−は、Ai;p内の前記対応バリアントコールが対象外であることを示す、取得することと、
(D)以下の全体目的関数を使用して、前記複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1、H−1間のハプロタイプ割り当ての最適化により、フェージングベクトル結果
を精製することであって、
であり、
は位置iにおいてH−1を生じる推定であり、
であり、
は前記精製されたフェージングベクトル結果であり、
Cは定数であり、
は推測される前記フェージングベクトル結果であり、
(O1,f、・・・、ON,f)は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールAi;p内の前記N個のバリアントコールの各サブセットである、精製することと
を含む前記方法。 -
であり、
Mは、前記各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、
iは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記N個のバリアントコールの各サブセットにおける前記i番目のバリアントであり、
rは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
はAi,pがH−1に等しい場合に値1となり、そうでない場合は値0となる指示関数であり、
Qrは前記参照コンセンサス配列内の前記iの位置における前記リード塩基のSrに関する品質値である、
請求項170に記載の方法。 - 前記複数のバリアントコールは、前記試験用核酸における複数の異型接合一塩基多型、異型接合挿入、または異型接合欠失を含む、請求項169〜171のいずれか1項に記載の方法。
- 前記ハプロタイプ第1セット(H0)は前記一有機体の母系ハプロタイプで構成され、
前記ハプロタイプ第2セット(H1)は前記一有機体の父系ハプロタイプで構成される、
請求項169〜172のいずれか1項に記載の方法。 - 前記複数のバーコードは、1000個以上のバーコードを含む、請求項169〜173のいずれか1項に記載の方法。
- 前記複数のバーコードは、10,000個以上のバーコードを含む、請求項169〜173のいずれか1項に記載の方法。
- 前記複数のバーコードは、100,000個以上のバーコードを含む、請求項169〜173のいずれか1項に記載の方法。
- 前記複数のバーコードは、1×106個以上のバーコードを含む、請求項169〜173のいずれか1項に記載の方法。
- 前記生物種はヒトである、請求項169〜177のいずれか1項に記載の方法。
- 前記複数のバリアントコールAi;pは、1000個以上のバリアントコールを含む、請求項169〜178のいずれか1項に記載の方法。
- 前記複数のバリアントコールAi;pは、10,000個以上のバリアントコールを含む、請求項169〜178のいずれか1項に記載の方法。
- 前記複数の配列リードは、10,000個以上の配列リードを含む、請求項169〜178のいずれか1項に記載の方法。
- 前記複数の配列リードは、100,000個以上の配列リードを含む、請求項169〜181のいずれか1項に記載の方法。
- 前記複数の配列リードは、1×106個以上の配列リードを含む、請求項169〜182のいずれか1項に記載の方法。
-
は(x)であり、
xは長さnの2進列であり、
xにおける各値0は前記対応バリアントコールが前記ハプロタイプ第1セット(H0)に由来することを示し、
xにおける各値1は前記対応バリアントコールが前記ハプロタイプ第2セット(H1)に由来することを示す、
請求項169〜183のいずれか1項に記載の方法。 - 前記ハプロタイプ第1セット(H0)は単一母系ハプロタイプで構成され、前記ハプロタイプ第2セット(H1)は単一父系ハプロタイプで構成される、請求項169〜184のいずれか1項に記載の方法。
- 前記ハプロタイプ第1セット(H0)は5個以上の母系染色体に対応する5個以上の母系ハプロタイプを含み、前記ハプロタイプ第2セット(H1)は5個以上の父系染色体に対応する5個以上の父系ハプロタイプを含む、請求項169〜184のいずれか1項に記載の方法。
- 前記同一のそれぞれのバーコードfを含む前記配列リードサブセットは、10個以上の配列リードを有する、請求項169〜186のいずれか1項に記載の方法。
- 前記同一のそれぞれのバーコードfを含む前記配列リードサブセットは、30個以上の配列リードを有する、請求項169〜186のいずれか1項に記載の方法。
- 前記同一のそれぞれのバーコードfを含む前記配列リードサブセットは、100個以上の配列リードを有する、請求項169〜186のいずれか1項に記載の方法。
- 前記同一のそれぞれのバーコードfを含む配列リードサブセットは、前記参照コンセンサス配列の少なくとも30キロ塩基を表す、請求項169〜189のいずれか1項に記載の方法。
- 前記同一のそれぞれのバーコードfを含む配列リードサブセットは、前記参照コンセンサス配列の少なくとも40キロ塩基を表す、請求項169〜189のいずれか1項に記載の方法。
- 前記精製(D)は、
に対する階層的探索を使用して前記全体目的関数を最適化する、請求項169〜191のいずれか1項に記載の方法。 - 前記階層的探索は、
前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおけるXk、Xk+1、・・・、Xk+jの前記割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における前記目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、これによりバリアントコールの局所ブロックごとの最適フェージング解が発見される、使用することと、
Ai;p内のバリアントコールの隣接局所ブロックを、バリアントコールの局所ブロックごとの前記最適フェージング解を使用して積極的に接合し、これにより前記最適フェージング構成
の推定を取得することとを含む、
請求項192に記載の方法。 - 前記フェーズ結果の前記精製はさらに、前記最適フェージング構成
の前記推定における個別xiの前記フェーズ結果を繰り返し取り替え、前記目的関数を再計算することにより、
を取得することを含む、請求項193に記載の方法。 - バリアントコールの各局所ブロックは、Ai;p内の20〜60個のバリアントで構成される、請求項193に記載の方法。
- バリアントコールの各局所ブロックは、Ai;p内の30〜80個のバリアントで構成される、請求項193に記載の方法。
- Xk、Xk+1、・・・、Xk+jのうちの1つの前記割り当てに対する前記ビーム探索の繰り返しは、
の所定数の解以外を全て捨てる、請求項193に記載の方法。 - の前記所定数の解は1000個以下である、請求項197に記載の方法。
- の前記所定数の解は5000個以下である、請求項197に記載の方法。
- 前記生物種はヒトであり、前記試験用核酸試料は前記生体試料の前記ゲノムを含む、請求項169〜199のいずれか1項に記載の方法。
- 前記生物種は複数染色体生物種であり、前記試験用核酸試料は、前記複数染色体生物種に含まれる複数の染色体を集合的に表す複数の核酸を含む、請求項169〜199のいずれか1項に記載の方法。
- 前記複数の配列リード
内の各配列リードの前記第2部分における前記バーコードは、前記セット{1、・・・、1024}から選択される、前記セット{1、・・・、4096}から選択される、前記セット{1、・・・、16384}から選択される、前記セット{1、・・・、65536}から選択される、前記セット{1、・・・、262144}から選択される、前記セット{1、・・・、1048576}から選択される、前記セット{1、・・・、4194304}から選択される、前記セット{1、・・・、16777216}から選択される、前記セット{1、・・・、67108864}から選択される、または前記セット{1、・・・、1×1012}から選択される一意的な所定値を符号化する、請求項169〜201のいずれか1項に記載の方法。 - 前記複数の配列リード内の各配列リードの前記第2部分における前記バーコードは、前記各配列リード内のオリゴヌクレオチド連続セットに局所化される、請求項169〜202のいずれか1項に記載の方法。
- 前記オリゴヌクレオチド連続セットはN塩基長であり、Nは前記セット{4、・・・、20}から選択される整数である、請求項203に記載の方法。
- 前記複数の配列リード内の配列リードの前記第2部分における前記バーコードは、前記配列リード内の所定のヌクレオチド非連続セットに局所化される、請求項169〜202のいずれか1項に記載の方法。
- 前記所定のヌクレオチド非連続セットは合わせてN個のヌクレオチドで構成され、Nは前記セット{4、・・・、20}内の整数である、請求項205に記載の方法。
- 前記複数の配列リード内の配列リードは、10キロ塩基より大きい前記参照コンセンサス配列の部分に対応する、請求項169〜206のいずれか1項に記載の方法。
- 前記複数の配列リード内の配列リードは、20キロ塩基より大きい前記参照コンセンサス配列の部分に対応する、請求項169〜206のいずれか1項に記載の方法。
- 前記複数のバリアントコールは、前記複数の配列リードから取得される、請求項169〜208のいずれか1項に記載の方法。
- 前記複数の配列リードは、複数のバーコード化オリゴ被覆ゲルビーズから取得され、前記試験用核酸試料は50ng以下である、請求項169〜209のいずれか1項に記載の方法。
- 前記複数のバーコード化オリゴ被覆ゲルビーズは、10,000個のビーズを含む、請求項210に記載の方法。
- 前記複数のバーコード化オリゴ被覆ゲルビーズは、50,000個のビーズを含む、請求項210に記載の方法。
- 前記試験用核酸試料は25ng以下である、請求項210に記載の方法。
- 前記試験用核酸試料は10ng以下である、請求項210に記載の方法。
- 前記試験用核酸試料は5ng以下である、請求項210に記載の方法。
- 前記試験用核酸試料は2.5ng以下である、請求項210に記載の方法。
- 前記複数の配列リード
は、10分以内の前記複数のバーコードの割り当てにより取得される、請求項169〜216のいずれか1項に記載の方法。 - 前記複数の配列リード
は、20分以内の前記複数のバーコードの割り当てにより取得される、請求項169〜216のいずれか1項に記載の方法。 - 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行される1つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記1つまたは複数のプログラムは、方法を実行することにより生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記方法は、
(A)前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
(B)前記生体試料の複数のバリアントコールAi;pを取得することであって、
iは前記参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当てる、取得することと、
(C)前記生体試料の複数の配列リード
を取得することであって、
前記複数の配列リード内の各配列リード
は、前記参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第2部分とを備え、
前記複数の配列リード内の各配列リード
は
であり、(i)nはAi;p内の前記バリアントコールの数であり、(ii)前記各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)前記各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)前記各配列リード
に対する各ラベル−は、Ai;p内の前記対応バリアントコールが対象外であることを示す、取得することと、
(D)以下の関係式を使用して、前記複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1間のハプロタイプ割り当ての最適化により、フェージング結果
を精製することであって、
は前記精製されたフェージングベクトルであり、
は推測される前記フェージングベクトル結果であり、
全体目的関数である
は
と等しく、
(O1,f、・・・、ON,f)は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールAi;p内の前記N個のバリアントコールの各サブセットであり、
であり、
Mは、前記各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、
iは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記N個のバリアントコールの各サブセットにおける前記i番目のバリアントであり、
rは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
Qrは前記参照コンセンサス配列内の前記iの位置における前記リード塩基のSrに関する品質値である、精製することと
を含む、前記コンピューティングシステム。 - 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行される1つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記1つまたは複数のプログラムは、方法を実行することにより生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの前記接合状態におけるエラーに対処する命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記方法は、
(A)前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
(B)前記生体試料の複数のバリアントコールAi;pを取得することであって、
iは前記参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当て、ラベル−1は前記各バリアントコールを前記接合エラー状態H−1に割り当てる、取得することと、
(C)前記生体試料の複数の配列リード
を取得することであって、
前記複数の配列リード内の各配列リード
は、前記参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第2部分とを備え、
前記複数の配列リード内の各配列リード
は
であり、(i)nはAi;p内の前記バリアントコールの数であり、(ii)前記各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)前記各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)前記各配列リード
に対する各ラベル−1は、Ai;p内の対応バリアントコールをH−1に割り当て、(v)前記各配列リード
に対する各ラベル−は、Ai;p内の前記対応バリアントコールが対象外であることを示す、取得することと、
(D)以下の全体目的関数を使用して、前記複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1、H−1間のハプロタイプ割り当ての最適化により、フェージングベクトル結果
を精製することであって、
であり、
は位置iにおいてH−1を生じる推定であり、
であり、
は前記精製されたフェージングベクトル結果であり、
Cは定数であり、
は推測される前記フェージングベクトル結果であり、
(O1,f、・・・、ON,f)は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールAi;p内の前記N個のバリアントコールの各サブセットである、精製することと
を含む、前記コンピューティングシステム。 -
であり、
Mは、前記各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、
iは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記N個のバリアントコールの各サブセットにおける前記i番目のバリアントであり、
rは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
はAi,pがH−1に等しい場合に値1となり、そうでない場合は値0となる指示関数であり、
Qrは前記参照コンセンサス配列内の前記iの位置における前記リード塩基のSrに関する品質値である、
請求項220に記載のコンピューティングシステム。 - コンピュータにより実行されるように構成される1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記1つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記1つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
(A)前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
(B)前記生体試料の複数のバリアントコールAi;pを取得することであって、
iは前記参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当てる、取得することと、
(C)前記生体試料の複数の配列リード
を取得することであって、
前記複数の配列リード内の各配列リード
は、前記参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第2部分とを備え、
前記複数の配列リード内の各配列リード
は
であり、(i)nはAi;p内の前記バリアントコールの数であり、(ii)前記各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)前記各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)前記各配列リード
に対する各ラベル−は、Ai;p内の前記対応バリアントコールが対象外であることを示す、取得することと、
(D)以下の関係式を使用して、前記複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1間のハプロタイプ割り当ての最適化により、フェージング結果
を精製することであって、
は前記精製されたフェージングベクトルであり、
は推測される前記フェージングベクトル結果であり、
全体目的関数である
は
と等しく、
(O1,f、・・・、ON,f)は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールAi;p内の前記N個のバリアントコールの各サブセットであり、
であり、
Mは、前記各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、
iは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記N個のバリアントコールの各サブセットにおける前記i番目のバリアントであり、
rは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
Qrは前記参照コンセンサス配列内の前記iの位置における前記リード塩基のSrに関する品質値である、精製することと
を含む、前記非一時的コンピュータ可読記憶媒体。 - コンピュータにより実行されるように構成される1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記1つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データのフェージングにおいてバリアントコールの前記接合状態におけるエラーに対処する命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記1つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
(A)前記生物種のゲノムの全部または一部に関する参照コンセンサス配列を取得することと、
(B)前記生体試料の複数のバリアントコールAi;pを取得することであって、
iは前記参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当て、ラベル−1は前記各バリアントコールを前記接合エラー状態H−1に割り当てる、取得することと、
(C)前記生体試料の複数の配列リード
を取得することであって、
前記複数の配列リード内の各配列リード
は、前記参照配列のサブセットに対応する第1部分と、複数のバーコードのうち、前記各配列リードの各バーコードを前記参照配列とは無関係に符号化する第2部分とを備え、
前記複数の配列リード内の各配列リード
は
であり、(i)nはAi;p内の前記バリアントコールの数であり、(ii)前記各配列リード
に対する各ラベル0は、Ai;p内の対応バリアントコールをH0に割り当て、(iii)前記各配列リード
に対する各ラベル1は、Ai;p内の対応バリアントコールをH0に割り当て、(iv)前記各配列リード
に対する各ラベル−1は、Ai;p内の対応バリアントコールをH−1に割り当て、(v)前記各配列リード
に対する各ラベル−は、Ai;p内の前記対応バリアントコールが対象外であることを示す、取得することと、
(D)以下の全体目的関数を使用して、前記複数の配列リードに関するAi;p内の個々の位置iにおけるH0、H1、H−1間のハプロタイプ割り当ての最適化により、フェージングベクトル結果
を精製することであって、
であり、
は位置iにおいてH−1を生じる推定であり、
であり、
は前記精製されたフェージングベクトル結果であり、
Cは定数であり、
は推測される前記フェージングベクトル結果であり、
(O1,f、・・・、ON,f)は、前記複数のバーコード内の前記同一のそれぞれのバーコードを含む前記配列リードサブセットにおいて観察される前記複数のバリアントコールAi;p内の前記N個のバリアントコールの各サブセットである、精製することと
を含む、前記非一時的コンピュータ可読記憶媒体。 -
であり、
Mは、前記各バーコードfのHf=0とHf=1の混合を示し、
であり、
はHf=Mが起こる尤度または確率を表す所定の分率値であり、
iは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの観察される前記N個のバリアントコールの各サブセットにおける前記i番目のバリアントであり、
rは前記同一のそれぞれのバーコードを含む前記配列リードサブセットの合計であり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致するかを調べる指示関数であり、それらが一致する場合
の値は1となり、それらが一致しない場合
の値は0となり、
は前記同一のそれぞれのバーコードを含む前記配列リードサブセットの前記r番目の配列リードSr内の位置iにおける前記塩基割り当てがAi,pに一致しないかを調べる指示関数であり、それらが一致しない場合
の値は1となり、それらが一致する場合
の値は0となり、
はAi,pがH−1に等しい場合に値1となり、そうでない場合は値0となる指示関数であり、
Qrは前記参照コンセンサス配列内の前記iの位置における前記リード塩基のSrに関する品質値である、
請求項223に記載の非一時的コンピュータ可読記憶媒体。 - 生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法であって、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
(A)前記試験用核酸試料の複数のバリアントコールAi;pを取得することであって、
iは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH=0に割り当て、ラベル1は前記各バリアントコールをH=1に割り当てる、取得することと、
(B)前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
(C)Ai;p内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ai;p内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む前記方法。 - バリアントコール接合状態におけるエラーを考慮しながら、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする方法であって、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、
1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサにより実行される1つまたは複数のプログラムを記憶するメモリとを有するコンピュータシステムにおいて、
(A)複数のバリアントコールAi;pを取得することであって、
iは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当て、ラベル−1は前記各バリアントコールを接合エラー状態H−1に割り当てる、取得することと、
(B)前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
(C)Ai;p内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ai;p内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む前記方法。 - における個別xiの前記フェーズ結果を繰り返し取り替え、前記目的関数を再計算することにより、
を取得することをさらに含む請求項225または226に記載の方法。 - バリアントコールの各局所ブロックは、Ai;p内の20〜60個のバリアントで構成される、請求項225〜227のいずれか1項に記載の方法。
- バリアントコールの各局所ブロックは、Ai;p内の30〜80個のバリアントで構成される、請求項225〜227のいずれか1項に記載の方法。
- Xk、Xk+1、・・・、Xk+jのうちの1つの前記割り当てに対する前記ビーム探索の繰り返しは、
の所定数の解以外を全て捨てる、請求項225〜229のいずれか1項に記載の方法。 - の前記所定数の解は1000個以下である、請求項225〜230のいずれか1項に記載の方法。
- の前記所定数の解は5000個以下である、請求項225〜230のいずれか1項に記載の方法。
- 前記試験用核酸試料は複数のバーコード化オリゴ被覆ゲルビーズ上に搭載され、前記複数のバリアントコールAi;pを得るためにここから複数の配列リードが取得され、前記試験用核酸試料は50ng以下である、請求項225〜232のいずれか1項に記載の方法。
- 前記複数のバーコード化オリゴ被覆ゲルビーズは、10,000個のビーズを含む、請求項233に記載の方法。
- 前記複数のバーコード化オリゴ被覆ゲルビーズは、50,000個のビーズを含む、請求項233に記載の方法。
- 前記試験用核酸試料は25ng以下である、請求項233に記載の方法。
- 前記試験用核酸試料は10ng以下である、請求項233に記載の方法。
- 前記試験用核酸試料は5ng以下である、請求項233に記載の方法。
- 前記試験用核酸試料は2.5ng以下である、請求項233に記載の方法。
- 前記複数の配列リードは、10分以内の前記複数のバーコードの割り当てにより取得される、請求項233に記載の方法。
- 前記複数の配列リードは、20分以内の前記複数のバーコードの割り当てにより取得される、請求項233に記載の方法。
- 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行される1つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記1つまたは複数のプログラムは、方法を実行することにより生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記方法は、
(A)複数のバリアントコールAi;pを取得することであって、
iは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当て、ラベル−1は前記各バリアントコールを接合エラー状態H−1に割り当てる、取得することと、
(B)前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
(C)Ai;p内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ai;p内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記コンピューティングシステム。 - 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサにより実行される1つまた複数のプログラムを記憶するメモリと
を備えるコンピューティングシステムであって、
前記1つまたは複数のプログラムは、バリアントコール接合状態におけるエラーを考慮しながら、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記1つまたは複数のプログラムは方法を実行し、前記方法は、
(A)複数のバリアントコールAi;pを取得することであって、
iは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当てる、取得することと、
(B)前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
(C)Ai;p内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ai;p内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記コンピューティングシステム。 - コンピュータにより実行されるように構成される1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記1つまたは複数のプログラムは、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記1つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
(A)複数のバリアントコールAi;pを取得することであって、
iは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH0に割り当て、ラベル1は前記各バリアントコールをH1に割り当てる、取得することと、
(B)前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
(C)Ai;p内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ai;p内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記非一時的コンピュータ可読記憶媒体。 - コンピュータにより実行されるように構成される1つまたは複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、
前記1つまたは複数のプログラムは、バリアントコール接合状態におけるエラーを考慮しながら、生物種の一有機体の生体試料から取得される試験用核酸試料の配列データをフェージングする命令を含み、前記試験用核酸試料はハプロタイプ第1セット(H0)とハプロタイプ第2セット(H1)とを含み、前記1つまたは複数のプログラムは集合的に方法を実行し、前記方法は、
(A)複数のバリアントコールAi;pを取得することであって、
iは、前記生物種のゲノムの全部または一部に関する参照コンセンサス配列内の位置に対する指数であり、
であり、ラベル0はAi;p内の各バリアントコールをH=0に割り当て、ラベル1は前記各バリアントコールをH=1に割り当てる、取得することと、
(B)前記参照コンセンサス配列の対応サブセットに局所化されるAi;p内のバリアントコールの局所ブロックごとに、バリアントコールの前記各局所ブロックにおける局所フェージングベクトルXk、Xk+1、・・・、Xk+jの前記ハプロタイプ割り当てに対しビーム探索法を使用することであって、
kはバリアントコールの前記各局所ブロックにおける前記第1バリアントであり、
jはバリアントコールの前記各局所ブロックにおけるバリアントコールの数であり、
Xk、Xk+1、・・・、Xk+jの割り当ては、各計算における目的関数の前記フェージングベクトルがXk、Xk+1、・・・、Xk+jに限定される前記目的関数を計算することにより発見され、
前記目的関数は、前記試験用核酸試料の観察配列リードを、Ai;p内のバリアントコールの前記各局所ブロックと照合することにより計算され、これによりAi;p内のバリアントコールの局所ブロックごとのフェージング解が発見される、使用することと、
(C)Ai;p内のバリアントコールの局所ブロックごとに前記ビーム探索が完了すると、バリアントコールの局所ブロックごとの前記フェージング解を使用して、Ai;p内のバリアントコールの隣接局所ブロックを積極的に接合し、これにより前記生物種の前記一有機体のフェージング構成
を取得することと
を含む、前記非一時的コンピュータ可読記憶媒体。 - 前記試験用核酸は複数のバーコード化オリゴ被覆ゲルビーズ上に搭載され、ここから前記複数の配列リードが取得され、前記試験用核酸は50ng以下である、請求項111〜158のいずれか1項に記載の方法。
- 前記複数のバーコード化オリゴ被覆ゲルビーズは、10,000個のビーズを含む、請求項246に記載の方法。
- 前記複数のバーコード化オリゴ被覆ゲルビーズは、50,000個のビーズを含む、請求項246に記載の方法。
- 前記試験用核酸は25ng以下である、請求項246に記載の方法。
- 前記試験用核酸は10ng以下である、請求項246に記載の方法。
- 前記試験用核酸は5ng以下である、請求項246に記載の方法。
- 前記試験用核酸は2.5ng以下である、請求項246に記載の方法。
- 前記複数の配列リードは、10分以内の複数のバーコードの割り当てにより取得される、請求項246に記載の方法。
- 前記複数の配列リードは、20分以内の複数のバーコードの割り当てにより取得される、請求項246に記載の方法。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562113693P | 2015-02-09 | 2015-02-09 | |
US62/113,693 | 2015-02-09 | ||
US201562120247P | 2015-02-24 | 2015-02-24 | |
US201562120330P | 2015-02-24 | 2015-02-24 | |
US62/120,247 | 2015-02-24 | ||
US62/120,330 | 2015-02-24 | ||
US201562238077P | 2015-10-06 | 2015-10-06 | |
US62/238,077 | 2015-10-06 | ||
PCT/US2016/017196 WO2016130578A1 (en) | 2015-02-09 | 2016-02-09 | Systems and methods for determining structural variation and phasing using variant call data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018513445A true JP2018513445A (ja) | 2018-05-24 |
JP2018513445A5 JP2018513445A5 (ja) | 2019-03-28 |
Family
ID=56614755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017541686A Pending JP2018513445A (ja) | 2015-02-09 | 2016-02-09 | 構造変異の特定及びバリアントコールデータを用いたフェージングのためのシステム及び方法 |
Country Status (10)
Country | Link |
---|---|
US (2) | US10854315B2 (ja) |
EP (1) | EP3256606B1 (ja) |
JP (1) | JP2018513445A (ja) |
CN (1) | CN107208156B (ja) |
AU (1) | AU2016219480B2 (ja) |
CA (1) | CA2975529A1 (ja) |
IL (1) | IL253517B (ja) |
MX (1) | MX2017010142A (ja) |
SG (1) | SG11201705996PA (ja) |
WO (1) | WO2016130578A1 (ja) |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
ES2663234T3 (es) | 2012-02-27 | 2018-04-11 | Cellular Research, Inc | Composiciones y kits para recuento molecular |
US10323279B2 (en) | 2012-08-14 | 2019-06-18 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US9951386B2 (en) | 2014-06-26 | 2018-04-24 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10400280B2 (en) | 2012-08-14 | 2019-09-03 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US9701998B2 (en) | 2012-12-14 | 2017-07-11 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10752949B2 (en) | 2012-08-14 | 2020-08-25 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US11591637B2 (en) | 2012-08-14 | 2023-02-28 | 10X Genomics, Inc. | Compositions and methods for sample processing |
US10533221B2 (en) | 2012-12-14 | 2020-01-14 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
WO2014124336A2 (en) | 2013-02-08 | 2014-08-14 | 10X Technologies, Inc. | Partitioning and processing of analytes and other species |
AU2014312208B2 (en) | 2013-08-28 | 2019-07-25 | Becton, Dickinson And Company | Massively parallel single cell analysis |
US10395758B2 (en) | 2013-08-30 | 2019-08-27 | 10X Genomics, Inc. | Sequencing methods |
US9824068B2 (en) | 2013-12-16 | 2017-11-21 | 10X Genomics, Inc. | Methods and apparatus for sorting data |
CN110548550B (zh) | 2014-04-10 | 2022-03-08 | 10X基因组学有限公司 | 用于封装和分割试剂的流体装置、系统和方法及其应用 |
WO2015200541A1 (en) | 2014-06-24 | 2015-12-30 | Bio-Rad Laboratories, Inc. | Digital pcr barcoding |
MX2016016713A (es) | 2014-06-26 | 2017-05-23 | 10X Genomics Inc | Procesos y sistemas para el montaje de secuencias de acido nucleico. |
CA2953374A1 (en) | 2014-06-26 | 2015-12-30 | 10X Genomics, Inc. | Methods of analyzing nucleic acids from individual cells or cell populations |
MX367432B (es) | 2015-01-12 | 2019-08-08 | 10X Genomics Inc | Procesos y sistemas para la preparación de bibliotecas de secuenciación de ácido nucleico y bibliotecas preparadas con estos. |
EP3245605B1 (en) | 2015-01-13 | 2022-04-20 | 10X Genomics, Inc. | Systems and methods for visualizing structural variation and phasing information |
EP3256606B1 (en) | 2015-02-09 | 2019-05-22 | 10X Genomics, Inc. | Systems and methods for determining structural variation |
US9727810B2 (en) | 2015-02-27 | 2017-08-08 | Cellular Research, Inc. | Spatially addressable molecular barcoding |
CN107406888A (zh) | 2015-03-30 | 2017-11-28 | 赛卢拉研究公司 | 用于组合条形编码的方法和组合物 |
CN107580632B (zh) | 2015-04-23 | 2021-12-28 | 贝克顿迪金森公司 | 用于全转录组扩增的方法和组合物 |
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
JP6940484B2 (ja) | 2015-09-11 | 2021-09-29 | セルラー リサーチ, インコーポレイテッド | ライブラリー正規化のための方法および組成物 |
US11371094B2 (en) | 2015-11-19 | 2022-06-28 | 10X Genomics, Inc. | Systems and methods for nucleic acid processing using degenerate nucleotides |
CN108779491B (zh) | 2016-02-11 | 2021-03-09 | 10X基因组学有限公司 | 用于全基因组序列数据的从头组装的系统、方法和介质 |
US10301677B2 (en) | 2016-05-25 | 2019-05-28 | Cellular Research, Inc. | Normalization of nucleic acid libraries |
US10202641B2 (en) | 2016-05-31 | 2019-02-12 | Cellular Research, Inc. | Error correction in amplification of samples |
US10640763B2 (en) | 2016-05-31 | 2020-05-05 | Cellular Research, Inc. | Molecular indexing of internal sequences |
US10600499B2 (en) | 2016-07-13 | 2020-03-24 | Seven Bridges Genomics Inc. | Systems and methods for reconciling variants in sequence data relative to reference sequence data |
KR102522023B1 (ko) | 2016-09-26 | 2023-04-17 | 셀룰러 리서치, 인크. | 바코딩된 올리고뉴클레오티드 서열을 갖는 시약을 이용한 단백질 발현의 측정 |
US10011872B1 (en) | 2016-12-22 | 2018-07-03 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10815525B2 (en) | 2016-12-22 | 2020-10-27 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10550429B2 (en) | 2016-12-22 | 2020-02-04 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
EP4310183A3 (en) | 2017-01-30 | 2024-02-21 | 10X Genomics, Inc. | Methods and systems for droplet-based single cell barcoding |
US11319583B2 (en) | 2017-02-01 | 2022-05-03 | Becton, Dickinson And Company | Selective amplification using blocking oligonucleotides |
US10995333B2 (en) | 2017-02-06 | 2021-05-04 | 10X Genomics, Inc. | Systems and methods for nucleic acid preparation |
US10544413B2 (en) | 2017-05-18 | 2020-01-28 | 10X Genomics, Inc. | Methods and systems for sorting droplets and beads |
WO2018213643A1 (en) | 2017-05-18 | 2018-11-22 | 10X Genomics, Inc. | Methods and systems for sorting droplets and beads |
EP3625715A4 (en) | 2017-05-19 | 2021-03-17 | 10X Genomics, Inc. | DATA SET ANALYSIS SYSTEMS AND METHODS |
WO2018226293A1 (en) | 2017-06-05 | 2018-12-13 | Becton, Dickinson And Company | Sample indexing for single cells |
CN107590362B (zh) * | 2017-08-21 | 2019-12-06 | 武汉菲沙基因信息有限公司 | 一种基于长读序测序判断重叠组装正误的方法 |
US20190064173A1 (en) | 2017-08-22 | 2019-02-28 | 10X Genomics, Inc. | Methods of producing droplets including a particle and an analyte |
US10590244B2 (en) | 2017-10-04 | 2020-03-17 | 10X Genomics, Inc. | Compositions, methods, and systems for bead formation using improved polymers |
US10837047B2 (en) | 2017-10-04 | 2020-11-17 | 10X Genomics, Inc. | Compositions, methods, and systems for bead formation using improved polymers |
JP2021502802A (ja) * | 2017-10-10 | 2021-02-04 | メモリアル スローン ケタリング キャンサー センター | プライマ抽出およびクローン性検出のためのシステムおよび方法 |
WO2019084043A1 (en) | 2017-10-26 | 2019-05-02 | 10X Genomics, Inc. | METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS |
WO2019083852A1 (en) | 2017-10-26 | 2019-05-02 | 10X Genomics, Inc. | MICROFLUIDIC CHANNEL NETWORKS FOR PARTITIONING |
CN111479631B (zh) | 2017-10-27 | 2022-02-22 | 10X基因组学有限公司 | 用于样品制备和分析的方法和系统 |
EP3625361A1 (en) | 2017-11-15 | 2020-03-25 | 10X Genomics, Inc. | Functionalized gel beads |
US10829815B2 (en) | 2017-11-17 | 2020-11-10 | 10X Genomics, Inc. | Methods and systems for associating physical and genetic properties of biological particles |
WO2019108851A1 (en) | 2017-11-30 | 2019-06-06 | 10X Genomics, Inc. | Systems and methods for nucleic acid preparation and analysis |
EP3752832A1 (en) | 2018-02-12 | 2020-12-23 | 10X Genomics, Inc. | Methods characterizing multiple analytes from individual cells or cell populations |
US11639928B2 (en) | 2018-02-22 | 2023-05-02 | 10X Genomics, Inc. | Methods and systems for characterizing analytes from individual cells or cell populations |
US20190295684A1 (en) * | 2018-03-22 | 2019-09-26 | The Regents Of The University Of Michigan | Method and apparatus for analysis of chromatin interaction data |
WO2019195166A1 (en) | 2018-04-06 | 2019-10-10 | 10X Genomics, Inc. | Systems and methods for quality control in single cell processing |
EP3788170A1 (en) | 2018-05-03 | 2021-03-10 | Becton, Dickinson and Company | Molecular barcoding on opposite transcript ends |
CN112272710A (zh) | 2018-05-03 | 2021-01-26 | 贝克顿迪金森公司 | 高通量多组学样品分析 |
US11932899B2 (en) | 2018-06-07 | 2024-03-19 | 10X Genomics, Inc. | Methods and systems for characterizing nucleic acid molecules |
US11703427B2 (en) | 2018-06-25 | 2023-07-18 | 10X Genomics, Inc. | Methods and systems for cell and bead processing |
US20200032335A1 (en) | 2018-07-27 | 2020-01-30 | 10X Genomics, Inc. | Systems and methods for metabolome analysis |
EP3844760A1 (en) * | 2018-08-31 | 2021-07-07 | Guardant Health, Inc. | Genetic variant detection based on merged and unmerged reads |
US20200105373A1 (en) * | 2018-09-28 | 2020-04-02 | 10X Genomics, Inc. | Systems and methods for cellular analysis using nucleic acid sequencing |
KR102215151B1 (ko) * | 2018-09-28 | 2021-02-10 | 한양대학교 산학협력단 | 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치 |
WO2020067603A1 (ko) * | 2018-09-28 | 2020-04-02 | 한양대학교 산학협력단 | 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치 |
CN112805389A (zh) | 2018-10-01 | 2021-05-14 | 贝克顿迪金森公司 | 确定5’转录物序列 |
CN112969789A (zh) | 2018-11-08 | 2021-06-15 | 贝克顿迪金森公司 | 使用随机引发的单细胞全转录组分析 |
CN111191784A (zh) * | 2018-11-14 | 2020-05-22 | 辉达公司 | 转置的稀疏矩阵乘以稠密矩阵用于神经网络训练 |
US11459607B1 (en) | 2018-12-10 | 2022-10-04 | 10X Genomics, Inc. | Systems and methods for processing-nucleic acid molecules from a single cell using sequential co-partitioning and composite barcodes |
WO2020123384A1 (en) | 2018-12-13 | 2020-06-18 | Cellular Research, Inc. | Selective extension in single cell whole transcriptome analysis |
US11845983B1 (en) | 2019-01-09 | 2023-12-19 | 10X Genomics, Inc. | Methods and systems for multiplexing of droplet based assays |
CN113574178A (zh) | 2019-01-23 | 2021-10-29 | 贝克顿迪金森公司 | 与抗体关联的寡核苷酸 |
US11467153B2 (en) | 2019-02-12 | 2022-10-11 | 10X Genomics, Inc. | Methods for processing nucleic acid molecules |
WO2020168013A1 (en) | 2019-02-12 | 2020-08-20 | 10X Genomics, Inc. | Methods for processing nucleic acid molecules |
US11851683B1 (en) | 2019-02-12 | 2023-12-26 | 10X Genomics, Inc. | Methods and systems for selective analysis of cellular samples |
US11655499B1 (en) | 2019-02-25 | 2023-05-23 | 10X Genomics, Inc. | Detection of sequence elements in nucleic acid molecules |
US11920183B2 (en) | 2019-03-11 | 2024-03-05 | 10X Genomics, Inc. | Systems and methods for processing optically tagged beads |
CN114051534A (zh) | 2019-07-22 | 2022-02-15 | 贝克顿迪金森公司 | 单细胞染色质免疫沉淀测序测定 |
US11625505B2 (en) * | 2019-08-19 | 2023-04-11 | Microsoft Technology Licensing, Llc | Processor with network stack domain and system domain using separate memory regions |
US11470118B2 (en) | 2019-11-01 | 2022-10-11 | Microsoft Technology Licensing, Llc | Processor with network processing stack having separate binary |
EP4055160B1 (en) | 2019-11-08 | 2024-04-10 | Becton Dickinson and Company | Using random priming to obtain full-length v(d)j information for immune repertoire sequencing |
CN111276184B (zh) * | 2020-01-07 | 2023-12-26 | 深圳市早知道科技有限公司 | 一种检测已知拷贝数变异的方法及检测装置 |
EP4090763A1 (en) | 2020-01-13 | 2022-11-23 | Becton Dickinson and Company | Methods and compositions for quantitation of proteins and rna |
EP3878972A1 (en) * | 2020-03-11 | 2021-09-15 | UMC Utrecht Holding B.V. | Barcoding technology for sequencing of nucleic acid molecules |
US11851700B1 (en) | 2020-05-13 | 2023-12-26 | 10X Genomics, Inc. | Methods, kits, and compositions for processing extracellular molecules |
CN115605614A (zh) | 2020-05-14 | 2023-01-13 | 贝克顿迪金森公司(Us) | 用于免疫组库谱分析的引物 |
US11932901B2 (en) | 2020-07-13 | 2024-03-19 | Becton, Dickinson And Company | Target enrichment using nucleic acid probes for scRNAseq |
CN112699052B (zh) * | 2020-08-03 | 2022-04-15 | 徐州工程学院 | 一种基于相关输入变量的软件测试用例进化生成方法 |
WO2022109343A1 (en) | 2020-11-20 | 2022-05-27 | Becton, Dickinson And Company | Profiling of highly expressed and lowly expressed proteins |
AU2022227563A1 (en) | 2021-02-23 | 2023-08-24 | 10X Genomics, Inc. | Probe-based analysis of nucleic acids and proteins |
CN112669902B (zh) * | 2021-03-16 | 2021-06-04 | 北京贝瑞和康生物技术有限公司 | 检测基因组结构变异的方法、计算设备和存储介质 |
JP2024519501A (ja) * | 2021-05-05 | 2024-05-14 | ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー | 核酸分子を分析するための方法およびシステム |
CN113990492B (zh) * | 2021-11-15 | 2022-08-26 | 至本医疗科技(上海)有限公司 | 确定关于实体瘤微小残留病灶的检测参数的方法、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330934A (ja) * | 2002-05-10 | 2003-11-21 | Celestar Lexico-Sciences Inc | 変異体配列解析装置、変異体配列解析方法、プログラム、および、記録媒体 |
US20140206554A1 (en) * | 2012-12-14 | 2014-07-24 | 10X Technologies, Inc. | Methods and Systems for Processing Polynucleotides |
WO2014132497A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社日立ハイテクノロジーズ | データ解析装置、及びその方法 |
Family Cites Families (267)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5949832B2 (ja) | 1978-07-18 | 1984-12-05 | ブラザー工業株式会社 | 電動ミシンにおける主軸定位置停止装置 |
US4916070A (en) | 1986-04-14 | 1990-04-10 | The General Hospital Corporation | Fibrin-specific antibodies and method of screening for the antibodies |
US5618711A (en) | 1986-08-22 | 1997-04-08 | Hoffmann-La Roche Inc. | Recombinant expression vectors and purification methods for Thermus thermophilus DNA polymerase |
US5525464A (en) | 1987-04-01 | 1996-06-11 | Hyseq, Inc. | Method of sequencing by hybridization of oligonucleotide probes |
US5202231A (en) | 1987-04-01 | 1993-04-13 | Drmanac Radoje T | Method of sequencing of genomes by hybridization of oligonucleotide probes |
US5149625A (en) | 1987-08-11 | 1992-09-22 | President And Fellows Of Harvard College | Multiplex analysis of DNA |
US5994056A (en) | 1991-05-02 | 1999-11-30 | Roche Molecular Systems, Inc. | Homogeneous methods for nucleic acid amplification and detection |
US5413924A (en) | 1992-02-13 | 1995-05-09 | Kosak; Kenneth M. | Preparation of wax beads containing a reagent for release by heating |
WO1993019205A1 (en) | 1992-03-19 | 1993-09-30 | The Regents Of The University Of California | Multiple tag labeling method for dna sequencing |
CA2134478C (en) | 1992-05-01 | 2001-12-18 | Peter Wilding | Microfabricated detection structures |
US5587128A (en) | 1992-05-01 | 1996-12-24 | The Trustees Of The University Of Pennsylvania | Mesoscale polynucleotide amplification devices |
US5512131A (en) | 1993-10-04 | 1996-04-30 | President And Fellows Of Harvard College | Formation of microstamped patterns on surfaces and derivative articles |
US20030044777A1 (en) | 1993-10-28 | 2003-03-06 | Kenneth L. Beattie | Flowthrough devices for multiple discrete binding reactions |
US5605793A (en) | 1994-02-17 | 1997-02-25 | Affymax Technologies N.V. | Methods for in vitro recombination |
DE69515675T2 (de) | 1994-05-11 | 2000-07-20 | Genera Technologies Ltd | Verfahren zum Einfangen von einem Ligand aus einer Flüssigkeit und Vorrichtung zur dessen Ausführung |
US6406848B1 (en) | 1997-05-23 | 2002-06-18 | Lynx Therapeutics, Inc. | Planar arrays of microparticle-bound polynucleotides |
US5846719A (en) | 1994-10-13 | 1998-12-08 | Lynx Therapeutics, Inc. | Oligonucleotide tags for sorting and identification |
WO1996029629A2 (en) | 1995-03-01 | 1996-09-26 | President And Fellows Of Harvard College | Microcontact printing on surfaces and derivative articles |
WO1996041011A1 (en) | 1995-06-07 | 1996-12-19 | Lynx Therapeutics, Inc. | Oligonucleotide tags for sorting and identification |
JP4293634B2 (ja) | 1995-06-07 | 2009-07-08 | ソレクサ・インコーポレイテッド | 分類および同定のためのオリゴヌクレオチドタグ |
US5856174A (en) | 1995-06-29 | 1999-01-05 | Affymetrix, Inc. | Integrated nucleic acid diagnostic device |
US5851769A (en) | 1995-09-27 | 1998-12-22 | The Regents Of The University Of California | Quantitative DNA fiber mapping |
US5736330A (en) | 1995-10-11 | 1998-04-07 | Luminex Corporation | Method and compositions for flow cytometric determination of DNA sequences |
US6051377A (en) | 1995-11-30 | 2000-04-18 | Pharmaseq, Inc. | Multiplex assay for nucleic acids employing transponders |
US5736332A (en) | 1995-11-30 | 1998-04-07 | Mandecki; Wlodek | Method of determining the sequence of nucleic acids employing solid-phase particles carrying transponders |
US6001571A (en) | 1995-11-30 | 1999-12-14 | Mandecki; Wlodek | Multiplex assay for nucleic acids employing transponders |
US6355198B1 (en) | 1996-03-15 | 2002-03-12 | President And Fellows Of Harvard College | Method of forming articles including waveguides via capillary micromolding and microtransfer molding |
US5958703A (en) | 1996-12-03 | 1999-09-28 | Glaxo Group Limited | Use of modified tethers in screening compound libraries |
US20050042625A1 (en) | 1997-01-15 | 2005-02-24 | Xzillion Gmbh & Co. | Mass label linked hybridisation probes |
US6297006B1 (en) | 1997-01-16 | 2001-10-02 | Hyseq, Inc. | Methods for sequencing repetitive sequences and for determining the order of sequence subfragments |
US20020034737A1 (en) | 1997-03-04 | 2002-03-21 | Hyseq, Inc. | Methods and compositions for detection or quantification of nucleic acid species |
US7622294B2 (en) | 1997-03-14 | 2009-11-24 | Trustees Of Tufts College | Methods for detecting target analytes and enzymatic reactions |
US6327410B1 (en) | 1997-03-14 | 2001-12-04 | The Trustees Of Tufts College | Target analyte sensors utilizing Microspheres |
US6391622B1 (en) | 1997-04-04 | 2002-05-21 | Caliper Technologies Corp. | Closed-loop biochemical analyzers |
US6143496A (en) | 1997-04-17 | 2000-11-07 | Cytonix Corporation | Method of sampling, amplifying and quantifying segment of nucleic acid, polymerase chain reaction assembly having nanoliter-sized sample chambers, and method of filling assembly |
US6969488B2 (en) | 1998-05-22 | 2005-11-29 | Solexa, Inc. | System and apparatus for sequential processing of analytes |
US20040241759A1 (en) | 1997-06-16 | 2004-12-02 | Eileen Tozer | High throughput screening of libraries |
EP1801214B1 (en) | 1997-07-07 | 2010-11-10 | Medical Research Council | In vitro sorting method |
GB9714716D0 (en) | 1997-07-11 | 1997-09-17 | Brax Genomics Ltd | Characterising nucleic acids |
US6974669B2 (en) | 2000-03-28 | 2005-12-13 | Nanosphere, Inc. | Bio-barcodes based on oligonucleotide-modified nanoparticles |
CN1273609A (zh) | 1997-08-15 | 2000-11-15 | 希斯克有限公司 | 检测或量化核酸物类的方法和组合物 |
US6207031B1 (en) | 1997-09-15 | 2001-03-27 | Whitehead Institute For Biomedical Research | Methods and apparatus for processing a sample of biomolecular analyte using a microfabricated device |
US20020092767A1 (en) | 1997-09-19 | 2002-07-18 | Aclara Biosciences, Inc. | Multiple array microfluidic device units |
AU9673198A (en) | 1997-10-02 | 1999-04-27 | Aclara Biosciences, Inc. | Capillary assays involving separation of free and bound species |
US6511803B1 (en) | 1997-10-10 | 2003-01-28 | President And Fellows Of Harvard College | Replica amplification of nucleic acid arrays |
US6432360B1 (en) | 1997-10-10 | 2002-08-13 | President And Fellows Of Harvard College | Replica amplification of nucleic acid arrays |
US6485944B1 (en) | 1997-10-10 | 2002-11-26 | President And Fellows Of Harvard College | Replica amplification of nucleic acid arrays |
JP4357112B2 (ja) | 1997-10-14 | 2009-11-04 | ルミネックス コーポレイション | 精密蛍光染色された粒子及びその製造及び使用方法 |
EP1036332B1 (en) | 1997-12-04 | 2005-07-13 | Amersham Biosciences UK Limited | Multiple assay method |
WO1999052708A1 (en) | 1998-04-13 | 1999-10-21 | Luminex Corporation | Liquid labeling with fluorescent microparticles |
US6780591B2 (en) | 1998-05-01 | 2004-08-24 | Arizona Board Of Regents | Method of determining the nucleotide sequence of oligonucleotides and DNA molecules |
ATE327345T1 (de) | 1998-08-07 | 2006-06-15 | Cellay Llc | Gel mikrotropfen für die genetische analyse |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
US6489096B1 (en) | 1998-10-15 | 2002-12-03 | Princeton University | Quantitative analysis of hybridization patterns and intensities in oligonucleotide arrays |
WO2000026412A1 (en) | 1998-11-02 | 2000-05-11 | Kenneth Loren Beattie | Nucleic acid analysis using sequence-targeted tandem hybridization |
GB9900298D0 (en) | 1999-01-07 | 1999-02-24 | Medical Res Council | Optical sorting method |
US6635419B1 (en) | 1999-02-16 | 2003-10-21 | Applera Corporation | Polynucleotide sequencing method |
ATE469699T1 (de) | 1999-02-23 | 2010-06-15 | Caliper Life Sciences Inc | Manipulation von mikroteilchen in mikrofluiden systemen |
US6908737B2 (en) | 1999-04-15 | 2005-06-21 | Vitra Bioscience, Inc. | Systems and methods of conducting multiplexed experiments |
EP1192447A2 (en) | 1999-05-12 | 2002-04-03 | Aclara BioSciences, Inc. | Multiplexed fluorescent detection in microfluidic devices |
US6372813B1 (en) | 1999-06-25 | 2002-04-16 | Motorola | Methods and compositions for attachment of biomolecules to solid supports, hydrogels, and hydrogel arrays |
US6524456B1 (en) | 1999-08-12 | 2003-02-25 | Ut-Battelle, Llc | Microfluidic devices for the controlled manipulation of small volumes |
WO2001014589A2 (en) | 1999-08-20 | 2001-03-01 | Luminex Corporation | Liquid array technology |
US6982146B1 (en) | 1999-08-30 | 2006-01-03 | The United States Of America As Represented By The Department Of Health And Human Services | High speed parallel molecular nucleic acid sequencing |
US6958225B2 (en) | 1999-10-27 | 2005-10-25 | Affymetrix, Inc. | Complexity management of genomic DNA |
US6800298B1 (en) | 2000-05-11 | 2004-10-05 | Clemson University | Biological lubricant composition and method of applying lubricant composition |
US6645432B1 (en) | 2000-05-25 | 2003-11-11 | President & Fellows Of Harvard College | Microfluidic systems including three-dimensionally arrayed channel networks |
US20060263888A1 (en) | 2000-06-02 | 2006-11-23 | Honeywell International Inc. | Differential white blood count on a disposable card |
US6632606B1 (en) | 2000-06-12 | 2003-10-14 | Aclara Biosciences, Inc. | Methods for single nucleotide polymorphism detection |
EP1311839B1 (en) | 2000-06-21 | 2006-03-01 | Bioarray Solutions Ltd | Multianalyte molecular analysis using application-specific random particle arrays |
EP2299256A3 (en) | 2000-09-15 | 2012-10-10 | California Institute Of Technology | Microfabricated crossflow devices and methods |
AU1164202A (en) | 2000-10-10 | 2002-04-22 | Diversa Corporation | High throughput or capillary-based screening for a bioactivity or biomolecule |
JP2002155305A (ja) | 2000-11-14 | 2002-05-31 | Akira Kawasaki | 単分散粒子の製造装置及び単分散粒子の製造方法及びその製造方法で製造された単分散粒子 |
DE60211857T2 (de) | 2001-02-23 | 2006-12-21 | Japan Science And Technology Agency, Kawaguchi | Verfahren zur herstellung einer emulsion und vorrichtung dafür |
US20030027221A1 (en) | 2001-04-06 | 2003-02-06 | Scott Melissa E. | High-throughput screening assays by encapsulation |
US7572642B2 (en) | 2001-04-18 | 2009-08-11 | Ambrigen, Llc | Assay based on particles, which specifically bind with targets in spatially distributed characteristic patterns |
AU2002314820B2 (en) | 2001-05-26 | 2008-01-24 | One Cell Systems, Inc. | Secretion of Molecules by Encapsulated Cells |
US6613523B2 (en) | 2001-06-29 | 2003-09-02 | Agilent Technologies, Inc. | Method of DNA sequencing using cleavable tags |
US6767731B2 (en) | 2001-08-27 | 2004-07-27 | Intel Corporation | Electron induced fluorescent method for nucleic acid sequencing |
US20030149307A1 (en) | 2001-10-24 | 2003-08-07 | Baxter International Inc. | Process for the preparation of polyethylene glycol bis amine |
WO2003038558A2 (en) | 2001-10-30 | 2003-05-08 | Nanomics Biosystems Pty, Ltd. | Device and methods for directed synthesis of chemical libraries |
GB0127564D0 (en) | 2001-11-16 | 2002-01-09 | Medical Res Council | Emulsion compositions |
US20030170698A1 (en) | 2002-01-04 | 2003-09-11 | Peter Gascoyne | Droplet-based microfluidic oligonucleotide synthesis engine |
DE60321325D1 (de) | 2002-03-20 | 2008-07-10 | Innovativebio Biz Kowloon | Mikrokapseln mit kontrollierter durchlässigkeit die ein nukleinsäureamplifizierungsreaktionsgemisch enthalten und deren benutzung als reaktionsgefäss für parallele reaktionen |
US7901939B2 (en) | 2002-05-09 | 2011-03-08 | University Of Chicago | Method for performing crystallization and reactions in pressure-driven fluid plugs |
ATE479899T1 (de) | 2002-05-09 | 2010-09-15 | Univ Chicago | Einrichtugn und verfahren für druckgesteuerten plug-transport und reaktion |
JP2006507921A (ja) | 2002-06-28 | 2006-03-09 | プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ | 流体分散のための方法および装置 |
WO2004010106A2 (en) | 2002-07-24 | 2004-01-29 | Ptc Therapeutics, Inc. | METHODS FOR IDENTIFYING SMALL MOLEDULES THAT MODULATE PREMATURE TRANSLATION TERMINATION AND NONSENSE MEDIATED mRNA DECAY |
IL151660A0 (en) | 2002-09-09 | 2003-04-10 | Univ Ben Gurion | Method for isolating and culturing unculturable microorganisms |
EP2159285B1 (en) | 2003-01-29 | 2012-09-26 | 454 Life Sciences Corporation | Methods of amplifying and sequencing nucleic acids |
US7041481B2 (en) | 2003-03-14 | 2006-05-09 | The Regents Of The University Of California | Chemical amplification based on fluid partitioning |
US20100022414A1 (en) | 2008-07-18 | 2010-01-28 | Raindance Technologies, Inc. | Droplet Libraries |
GB0307403D0 (en) | 2003-03-31 | 2003-05-07 | Medical Res Council | Selection by compartmentalised screening |
GB0307428D0 (en) | 2003-03-31 | 2003-05-07 | Medical Res Council | Compartmentalised combinatorial chemistry |
US20060078893A1 (en) | 2004-10-12 | 2006-04-13 | Medical Research Council | Compartmentalised combinatorial chemistry by microfluidic control |
KR100720213B1 (ko) | 2003-04-04 | 2007-05-21 | 화이자 프로덕츠 인코포레이티드 | 미세 유동화된 수중 유적형 유화액 및 백신 조성물 |
EP2266687A3 (en) | 2003-04-10 | 2011-06-29 | The President and Fellows of Harvard College | Formation and control of fluidic species |
US20060275915A1 (en) | 2003-05-16 | 2006-12-07 | Global Technologies (Nz) Ltd. | Method and apparatus for mixing sample and reagent in a suspension fluid |
WO2004103565A2 (de) | 2003-05-19 | 2004-12-02 | Hans-Knöll-Institut für Naturstoff-Forschung e.V. | Vorrichtung und verfahren zur strukturierung von flüssigkeiten und zum zudosieren von reaktionsflüssigkeiten zu in separationsmedium eingebetteten flüssigkeitskompartimenten |
WO2004105734A1 (en) | 2003-05-28 | 2004-12-09 | Valorisation Recherche, Societe En Commandite | Method of preparing microcapsules |
GB0315438D0 (en) | 2003-07-02 | 2003-08-06 | Univ Manchester | Analysis of mixed cell populations |
JP5183063B2 (ja) | 2003-07-05 | 2013-04-17 | ザ ジョンズ ホプキンス ユニバーシティ | 遺伝的変異の検出および列挙のための方法ならびに組成物 |
EP2662135A3 (en) | 2003-08-27 | 2013-12-25 | President and Fellows of Harvard College | Method for mixing droplets in a microchannel |
CA2542512A1 (en) | 2003-09-04 | 2005-03-17 | Nathan Ravi | Hydrogel nanocompsites for ophthalmic applications |
DK1691196T3 (da) | 2003-09-25 | 2013-04-15 | Vivalis | Chip med mikrobrøndsarray og fremgangsmåde til fremstilling heraf |
WO2005049787A2 (en) | 2003-11-24 | 2005-06-02 | Yeda Research And Development Co.Ltd. | Compositions and methods for in vitro sorting of molecular and cellular libraries |
US20050181379A1 (en) | 2004-02-18 | 2005-08-18 | Intel Corporation | Method and device for isolating and positioning single nucleic acid molecules |
JP2007526772A (ja) | 2004-02-27 | 2007-09-20 | プレジデント・アンド・フェロウズ・オブ・ハーバード・カレッジ | インサイチュー配列決定用ポロニー蛍光ビーズ |
US20100216153A1 (en) | 2004-02-27 | 2010-08-26 | Helicos Biosciences Corporation | Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities |
KR100552706B1 (ko) | 2004-03-12 | 2006-02-20 | 삼성전자주식회사 | 핵산 증폭 방법 및 장치 |
US20050221339A1 (en) | 2004-03-31 | 2005-10-06 | Medical Research Council Harvard University | Compartmentalised screening by microfluidic control |
EP1735668A2 (en) | 2004-04-13 | 2006-12-27 | President And Fellows Of Harvard College | Methods and apparatus for manipulation and/or detection of biological samples and other objects |
US7799553B2 (en) | 2004-06-01 | 2010-09-21 | The Regents Of The University Of California | Microfabricated integrated DNA analysis system |
CN1648671B (zh) | 2005-02-06 | 2012-09-26 | 成都夸常医学工业有限公司 | 多反应器分析芯片检测方法和分析芯片及检测装置 |
WO2006030993A1 (en) | 2004-09-14 | 2006-03-23 | Jin-Ho Choy | Information code system using dna sequences |
US7892731B2 (en) | 2004-10-01 | 2011-02-22 | Radix Biosolutions, Ltd. | System and method for inhibiting the decryption of a nucleic acid probe sequence used for the detection of a specific nucleic acid |
US7968287B2 (en) | 2004-10-08 | 2011-06-28 | Medical Research Council Harvard University | In vitro evolution in microfluidic systems |
US9492400B2 (en) | 2004-11-04 | 2016-11-15 | Massachusetts Institute Of Technology | Coated controlled release polymer particles as efficient oral delivery vehicles for biopharmaceuticals |
US20080004436A1 (en) | 2004-11-15 | 2008-01-03 | Yeda Research And Development Co. Ltd. At The Weizmann Institute Of Science | Directed Evolution and Selection Using in Vitro Compartmentalization |
WO2006078841A1 (en) | 2005-01-21 | 2006-07-27 | President And Fellows Of Harvard College | Systems and methods for forming fluidic droplets encapsulated in particles such as colloidal particles |
KR101544351B1 (ko) | 2005-02-18 | 2015-08-13 | 캐논 유.에스. 라이프 사이언시즈, 인크. | 유기체의 게놈 dna를 확인하기 위한 장치 및 방법 |
EP1867702B1 (en) | 2005-02-21 | 2011-09-28 | Kagoshima University | Method for purifying biodiesel fuel |
CA2599683A1 (en) | 2005-03-04 | 2006-09-14 | President And Fellows Of Harvard College | Method and apparatus for forming multiple emulsions |
US9040237B2 (en) | 2005-03-04 | 2015-05-26 | Intel Corporation | Sensor arrays and nucleic acid sequencing applications |
US20070054119A1 (en) | 2005-03-04 | 2007-03-08 | Piotr Garstecki | Systems and methods of forming particles |
JP2006289250A (ja) | 2005-04-08 | 2006-10-26 | Kao Corp | マイクロミキサー及びそれを用いた流体混合方法 |
DK2463386T3 (en) | 2005-06-15 | 2017-07-31 | Complete Genomics Inc | Nucleic acid analysis using random mixtures of non-overlapping fragments |
JP2006349060A (ja) | 2005-06-16 | 2006-12-28 | Ntn Corp | ボールねじ |
US8828209B2 (en) | 2005-06-22 | 2014-09-09 | The Research Foundation For The State University Of New York | Massively parallel 2-dimensional capillary electrophoresis |
US20070154903A1 (en) | 2005-06-23 | 2007-07-05 | Nanosphere, Inc. | Selective isolation and concentration of nucleic acids from complex samples |
DK1924704T3 (da) | 2005-08-02 | 2011-09-05 | Rubicon Genomics Inc | Sammensætninger og fremgangsmåder til bearbejdning og mangfoldiggørelse af DNA, herunder ved anvendelse af flere enzymer i en enkelt reaktion |
WO2007024840A2 (en) | 2005-08-22 | 2007-03-01 | Critical Therapeutics, Inc. | Method of quantitating nucleic acids by flow cytometry microparticle-based array |
US7960104B2 (en) | 2005-10-07 | 2011-06-14 | Callida Genomics, Inc. | Self-assembled single molecule arrays and uses thereof |
US20070111241A1 (en) | 2005-10-14 | 2007-05-17 | Nezih Cereb | System and method for accessing, tracking, and editing sequence analysis and software to accomplish the same |
EP1954838B1 (en) | 2005-11-14 | 2014-02-26 | Life Technologies Corporation | Coded molecules for detecting target analytes |
US7932037B2 (en) | 2007-12-05 | 2011-04-26 | Perkinelmer Health Sciences, Inc. | DNA assays using amplicon probes on encoded particles |
EP3913375A1 (en) | 2006-01-11 | 2021-11-24 | Bio-Rad Laboratories, Inc. | Microfluidic devices and methods of use in the formation and control of nanoreactors |
US7537897B2 (en) | 2006-01-23 | 2009-05-26 | Population Genetics Technologies, Ltd. | Molecular counting |
JP2009524825A (ja) | 2006-01-27 | 2009-07-02 | プレジデント アンド フェロウズ オブ ハーバード カレッジ | 流体ドロップレットの合体 |
SG170028A1 (en) | 2006-02-24 | 2011-04-29 | Callida Genomics Inc | High throughput genome sequencing on dna arrays |
CA2643700A1 (en) | 2006-02-24 | 2007-11-22 | Callida Genomics, Inc. | High throughput genome sequencing on dna arrays |
JP4921829B2 (ja) | 2006-03-30 | 2012-04-25 | 株式会社東芝 | 微粒子の製造装置、乳化剤保持部、微粒子の製造方法および分子膜の製造方法 |
WO2007114794A1 (en) | 2006-03-31 | 2007-10-11 | Nam Trung Nguyen | Active control for droplet-based microfluidics |
CA2649725A1 (en) | 2006-04-19 | 2007-10-25 | Applera Corporation | Reagents, methods, and libraries for gel-free bead-based sequencing |
US7811603B2 (en) | 2006-05-09 | 2010-10-12 | The Regents Of The University Of California | Microfluidic device for forming monodisperse lipoplexes |
EP2481815B1 (en) | 2006-05-11 | 2016-01-27 | Raindance Technologies, Inc. | Microfluidic devices |
AU2007268027B2 (en) | 2006-05-22 | 2012-08-09 | Nanostring Technologies, Inc. | Systems and methods for analyzing nanoreporters |
RU2321638C2 (ru) | 2006-05-23 | 2008-04-10 | Закрытое акционерное общество "Молекулярно-медицинские технологии" | Способ изготовления многофункционального мультичипа, мультичип для последовательного или параллельного скрининга биополимеров, способ анализа биополимеров и набор для осуществления способа |
WO2007140015A2 (en) | 2006-05-26 | 2007-12-06 | Althea Technologies, Inc | Biochemical analysis of partitioned cells |
FR2901717A1 (fr) | 2006-05-30 | 2007-12-07 | Centre Nat Rech Scient | Procede de traitement de gouttes dans un circuit microfluidique. |
CN101506378A (zh) | 2006-06-19 | 2009-08-12 | 约翰·霍普金斯大学 | 在油包水乳液中的微粒上的单分子pcr |
EP1878501A1 (en) | 2006-07-14 | 2008-01-16 | Roche Diagnostics GmbH | Instrument for heating and cooling |
WO2008021123A1 (en) | 2006-08-07 | 2008-02-21 | President And Fellows Of Harvard College | Fluorocarbon emulsion stabilizing surfactants |
US8841116B2 (en) | 2006-10-25 | 2014-09-23 | The Regents Of The University Of California | Inline-injection microdevice and microfabricated integrated DNA analysis system using same |
US7910354B2 (en) | 2006-10-27 | 2011-03-22 | Complete Genomics, Inc. | Efficient arrays of amplified polynucleotides |
ES2679996T3 (es) | 2006-11-15 | 2018-09-03 | Biospherex Llc | Secuenciación multi-etiqueta y análisis ecogenómico |
KR20090105921A (ko) * | 2006-11-30 | 2009-10-07 | 네이비제닉스 인크. | 유전자 분석 시스템 및 방법 |
US20080176768A1 (en) | 2007-01-23 | 2008-07-24 | Honeywell Honeywell International | Hydrogel microarray with embedded metal nanoparticles |
US8003312B2 (en) | 2007-02-16 | 2011-08-23 | The Board Of Trustees Of The Leland Stanford Junior University | Multiplex cellular assays using detectable cell barcodes |
FI20075124A0 (fi) | 2007-02-21 | 2007-02-21 | Valtion Teknillinen | Menetelmä ja testikitti nukleotidivariaatioiden toteamiseksi |
US9029085B2 (en) | 2007-03-07 | 2015-05-12 | President And Fellows Of Harvard College | Assays and other reactions involving droplets |
WO2008121342A2 (en) | 2007-03-28 | 2008-10-09 | President And Fellows Of Harvard College | Emulsions and techniques for formation |
WO2008134153A1 (en) | 2007-04-23 | 2008-11-06 | Advanced Liquid Logic, Inc. | Bead-based multiplexed analytical methods and instrumentation |
US20100255556A1 (en) | 2007-06-29 | 2010-10-07 | President And Fellows Of Harvard College | Methods and apparatus for manipulation of fluidic species |
US20090068170A1 (en) | 2007-07-13 | 2009-03-12 | President And Fellows Of Harvard College | Droplet-based selection |
WO2009023821A1 (en) | 2007-08-15 | 2009-02-19 | Opgen, Inc. | Method, system and software arrangement for comparative analysis and phylogeny with whole-genome optical maps |
US8563527B2 (en) | 2007-08-20 | 2013-10-22 | Pharmain Corporation | Oligonucleotide core carrier compositions for delivery of nucleic acid-containing therapeutic agents, methods of making and using the same |
US8268564B2 (en) | 2007-09-26 | 2012-09-18 | President And Fellows Of Harvard College | Methods and applications for stitched DNA barcodes |
WO2009061372A1 (en) | 2007-11-02 | 2009-05-14 | President And Fellows Of Harvard College | Systems and methods for creating multi-phase entities, including particles and/or fluids |
US8592150B2 (en) | 2007-12-05 | 2013-11-26 | Complete Genomics, Inc. | Methods and compositions for long fragment read sequencing |
US9797010B2 (en) | 2007-12-21 | 2017-10-24 | President And Fellows Of Harvard College | Systems and methods for nucleic acid sequencing |
EP3360972B1 (en) | 2008-01-17 | 2019-12-11 | Sequenom, Inc. | Single molecule nucleic acid sequence analysis processes |
JP5468271B2 (ja) | 2008-02-08 | 2014-04-09 | 花王株式会社 | 微粒子分散液の製造方法 |
US20090203531A1 (en) | 2008-02-12 | 2009-08-13 | Nurith Kurn | Method for Archiving and Clonal Expansion |
JP5683964B2 (ja) | 2008-03-11 | 2015-03-11 | ナショナル キャンサー センター | Snpアレイを用いた染色体、遺伝子または特定ヌクレオチド配列のコピー数測定方法 |
US9068181B2 (en) | 2008-05-23 | 2015-06-30 | The General Hospital Corporation | Microfluidic droplet encapsulation |
WO2009148598A1 (en) | 2008-06-05 | 2009-12-10 | President And Fellows Of Harvard College | Polymersomes, colloidosomes, liposomes, and other species associated with fluidic droplets |
WO2010003132A1 (en) | 2008-07-02 | 2010-01-07 | Illumina Cambridge Ltd. | Using populations of beads for the fabrication of arrays on surfaces |
EP2303245B1 (en) | 2008-07-11 | 2016-12-28 | ETH Zurich | Degradable microcapsules |
US8383345B2 (en) | 2008-09-12 | 2013-02-26 | University Of Washington | Sequence tag directed subassembly of short sequencing reads into long sequencing reads |
US20110218123A1 (en) | 2008-09-19 | 2011-09-08 | President And Fellows Of Harvard College | Creation of libraries of droplets and related species |
US9156010B2 (en) | 2008-09-23 | 2015-10-13 | Bio-Rad Laboratories, Inc. | Droplet-based assay system |
US8709762B2 (en) | 2010-03-02 | 2014-04-29 | Bio-Rad Laboratories, Inc. | System for hot-start amplification via a multiple emulsion |
WO2011120024A1 (en) | 2010-03-25 | 2011-09-29 | Quantalife, Inc. | Droplet generation for droplet-based assays |
US8748094B2 (en) | 2008-12-19 | 2014-06-10 | President And Fellows Of Harvard College | Particle-assisted nucleic acid sequencing |
US10839940B2 (en) | 2008-12-24 | 2020-11-17 | New York University | Method, computer-accessible medium and systems for score-driven whole-genome shotgun sequence assemble |
EP2406003A2 (en) | 2009-03-13 | 2012-01-18 | President and Fellows of Harvard College | Scale-up of flow-focusing microfluidic devices |
CN103952482A (zh) | 2009-04-02 | 2014-07-30 | 弗卢伊蒂格姆公司 | 用于对目标核酸进行条形码化的多引物扩增方法 |
EP2425240A4 (en) | 2009-04-30 | 2012-12-12 | Good Start Genetics Inc | METHOD AND COMPOSITION FOR EVALUATING GENETIC MARKERS |
EP2427572B1 (en) | 2009-05-01 | 2013-08-28 | Illumina, Inc. | Sequencing methods |
EP2443236B1 (en) | 2009-06-15 | 2015-05-13 | Complete Genomics, Inc. | Methods and compositions for long fragment read sequencing |
US9524369B2 (en) * | 2009-06-15 | 2016-12-20 | Complete Genomics, Inc. | Processing and analysis of complex nucleic acid sequence data |
AU2010266010B2 (en) | 2009-06-26 | 2015-08-20 | President And Fellows Of Harvard College | Fluid injection |
CA3021714C (en) | 2009-09-02 | 2021-03-09 | Bio-Rad Laboratories, Inc. | System for mixing fluids by coalescence of multiple emulsions |
JP5869482B2 (ja) | 2009-09-02 | 2016-02-24 | プレジデント アンド フェローズ オブ ハーバード カレッジ | ジェッティングおよび他の技術を使用して生成された多重エマルジョン |
GB0918564D0 (en) | 2009-10-22 | 2009-12-09 | Plasticell Ltd | Nested cell encapsulation |
EP3842150A1 (en) | 2009-10-27 | 2021-06-30 | President and Fellows of Harvard College | Droplet creation techniques |
WO2011056872A2 (en) | 2009-11-03 | 2011-05-12 | Gen9, Inc. | Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly |
WO2011066476A1 (en) | 2009-11-25 | 2011-06-03 | Quantalife, Inc. | Methods and compositions for detecting genetic material |
CN102985552B (zh) | 2009-11-25 | 2016-02-17 | 伯乐生命医学产品有限公司 | 用于检测遗传物质的方法和组合物 |
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
CN102656279A (zh) | 2009-12-17 | 2012-09-05 | 凯津公司 | 基于全基因组测序的限制性酶 |
WO2011079176A2 (en) | 2009-12-23 | 2011-06-30 | Raindance Technologies, Inc. | Microfluidic systems and methods for reducing the exchange of molecules between droplets |
US20110257889A1 (en) | 2010-02-24 | 2011-10-20 | Pacific Biosciences Of California, Inc. | Sequence assembly and consensus sequence determination |
WO2011149534A2 (en) * | 2010-05-25 | 2011-12-01 | The Regents Of The University Of California | Bambam: parallel comparative analysis of high-throughput sequencing data |
US20120000777A1 (en) | 2010-06-04 | 2012-01-05 | The Regents Of The University Of California | Devices and methods for forming double emulsion droplet compositions and polymer particles |
US20120238738A1 (en) | 2010-07-19 | 2012-09-20 | New England Biolabs, Inc. | Oligonucleotide Adapters: Compositions and Methods of Use |
ES2690753T3 (es) | 2010-09-21 | 2018-11-22 | Agilent Technologies, Inc. | Aumento de la confianza en las identificaciones de alelos con el recuento molecular |
US9999886B2 (en) | 2010-10-07 | 2018-06-19 | The Regents Of The University Of California | Methods and systems for on demand droplet generation and impedance based detection |
WO2012048341A1 (en) | 2010-10-08 | 2012-04-12 | President And Fellows Of Harvard College | High-throughput single cell barcoding |
US8725422B2 (en) * | 2010-10-13 | 2014-05-13 | Complete Genomics, Inc. | Methods for estimating genome-wide copy number variations |
WO2012055929A1 (en) | 2010-10-26 | 2012-05-03 | Illumina, Inc. | Sequencing methods |
EP2635679B1 (en) | 2010-11-05 | 2017-04-19 | Illumina, Inc. | Linking sequence reads using paired code tags |
EP2652155B1 (en) | 2010-12-16 | 2016-11-16 | Gigagen, Inc. | Methods for massively parallel analysis of nucleic acids in single cells |
US20120184449A1 (en) | 2010-12-23 | 2012-07-19 | Sequenom, Inc. | Fetal genetic variation detection |
US20120191366A1 (en) | 2011-01-20 | 2012-07-26 | Nathaniel Pearson | Methods and Apparatus for Assigning a Meaningful Numeric Value to Genomic Variants, and Searching and Assessing Same |
US8765455B2 (en) | 2011-01-27 | 2014-07-01 | Lawrence Livermore National Security, Llc | Chip-based droplet sorting |
EP2670894B1 (en) | 2011-02-02 | 2017-11-29 | University Of Washington Through Its Center For Commercialization | Massively parallel continguity mapping |
WO2012112804A1 (en) | 2011-02-18 | 2012-08-23 | Raindance Technoligies, Inc. | Compositions and methods for molecular labeling |
EP2678449A4 (en) | 2011-02-25 | 2015-06-24 | Illumina Inc | METHODS AND SYSTEMS FOR DETERMINING HAPLOTYPE |
WO2012122547A2 (en) | 2011-03-09 | 2012-09-13 | Lawrence Ganeshalingam | Biological data networks and methods therefor |
EP2754078A4 (en) | 2011-04-14 | 2015-12-02 | Complete Genomics Inc | PROCESSING AND ANALYSIS OF COMPLEX NUCLEIC ACID SEQUENCE DATA |
CA2834291A1 (en) | 2011-04-25 | 2012-11-01 | Biorad Laboratories, Inc. | Methods and compositions for nucleic acid analysis |
JP6100685B2 (ja) | 2011-05-16 | 2017-03-22 | 地方独立行政法人 大阪府立病院機構 | 血中dnaの定量的検出による悪性新生物の病勢の進行を評価する方法 |
US9238206B2 (en) | 2011-05-23 | 2016-01-19 | President And Fellows Of Harvard College | Control of emulsions, including multiple emulsions |
WO2012166425A2 (en) | 2011-05-27 | 2012-12-06 | President And Fellows Of Harvard College | Methods of amplifying whole genome of a single cell |
US8841071B2 (en) | 2011-06-02 | 2014-09-23 | Raindance Technologies, Inc. | Sample multiplexing |
WO2013009890A2 (en) | 2011-07-13 | 2013-01-17 | The Multiple Myeloma Research Foundation, Inc. | Methods for data collection and distribution |
US20130189700A1 (en) | 2011-07-25 | 2013-07-25 | Bio-Rad Laboratories, Inc. | Breakage of an emulsion containing nucleic acid |
WO2013035114A1 (en) | 2011-09-08 | 2013-03-14 | Decode Genetics Ehf | Tp53 genetic variants predictive of cancer |
WO2013036929A1 (en) | 2011-09-09 | 2013-03-14 | The Board Of Trustees Of The Leland Stanford Junior | Methods for obtaining a sequence |
CN104160391A (zh) * | 2011-09-16 | 2014-11-19 | 考利达基因组股份有限公司 | 确定异质样本的基因组中的变异 |
US9514272B2 (en) | 2011-10-12 | 2016-12-06 | Complete Genomics, Inc. | Identification of DNA fragments and structural variations |
US9469874B2 (en) | 2011-10-18 | 2016-10-18 | The Regents Of The University Of California | Long-range barcode labeling-sequencing |
WO2013123125A1 (en) | 2012-02-17 | 2013-08-22 | President And Fellows Of Harvard College | Assembly of nucleic acid sequences in emulsions |
US9176031B2 (en) | 2012-02-24 | 2015-11-03 | Raindance Technologies, Inc. | Labeling and sample preparation for sequencing |
US9552458B2 (en) | 2012-03-16 | 2017-01-24 | The Research Institute At Nationwide Children's Hospital | Comprehensive analysis pipeline for discovery of human genetic variation |
US8209130B1 (en) | 2012-04-04 | 2012-06-26 | Good Start Genetics, Inc. | Sequence assembly |
US20130317755A1 (en) | 2012-05-04 | 2013-11-28 | New York University | Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assembly |
CN109082462B (zh) | 2012-05-21 | 2022-10-28 | 斯克利普斯研究所 | 样品制备方法 |
BR112015003354A8 (pt) | 2012-08-14 | 2018-01-16 | 10X Genomics Inc | métodos e composições de microcápsula |
US20140378349A1 (en) | 2012-08-14 | 2014-12-25 | 10X Technologies, Inc. | Compositions and methods for sample processing |
US20150005199A1 (en) | 2012-08-14 | 2015-01-01 | 10X Technologies, Inc. | Compositions and methods for sample processing |
US20140378345A1 (en) | 2012-08-14 | 2014-12-25 | 10X Technologies, Inc. | Compositions and methods for sample processing |
US20140378322A1 (en) | 2012-08-14 | 2014-12-25 | 10X Technologies, Inc. | Compositions and methods for sample processing |
US20150005200A1 (en) | 2012-08-14 | 2015-01-01 | 10X Technologies, Inc. | Compositions and methods for sample processing |
US10221442B2 (en) | 2012-08-14 | 2019-03-05 | 10X Genomics, Inc. | Compositions and methods for sample processing |
US20150299772A1 (en) | 2012-12-03 | 2015-10-22 | Elim Biopharmaceuticals, Inc. | Single-stranded polynucleotide amplification methods |
EP2994749A4 (en) | 2013-01-17 | 2017-07-19 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10381106B2 (en) | 2013-01-28 | 2019-08-13 | Hasso-Plattner-Institut Fuer Softwaresystemtechnik Gmbh | Efficient genomic read alignment in an in-memory database |
WO2014124336A2 (en) | 2013-02-08 | 2014-08-14 | 10X Technologies, Inc. | Partitioning and processing of analytes and other species |
SG11201507087WA (en) | 2013-03-08 | 2015-10-29 | Bio Rad Laboratories | Compositions, methods and systems for polymerase chain reaction assays |
US9328382B2 (en) | 2013-03-15 | 2016-05-03 | Complete Genomics, Inc. | Multiple tagging of individual long DNA fragments |
US10395758B2 (en) | 2013-08-30 | 2019-08-27 | 10X Genomics, Inc. | Sequencing methods |
US9824068B2 (en) | 2013-12-16 | 2017-11-21 | 10X Genomics, Inc. | Methods and apparatus for sorting data |
CN110548550B (zh) | 2014-04-10 | 2022-03-08 | 10X基因组学有限公司 | 用于封装和分割试剂的流体装置、系统和方法及其应用 |
US20150298091A1 (en) | 2014-04-21 | 2015-10-22 | President And Fellows Of Harvard College | Systems and methods for barcoding nucleic acids |
CN104059966A (zh) * | 2014-05-20 | 2014-09-24 | 吴松 | Stag2基因突变序列、其检测方法以及stag2基因突变在检测膀胱癌中的应用 |
JP5949832B2 (ja) | 2014-05-30 | 2016-07-13 | ダイキン工業株式会社 | 空調システム |
CN106574298A (zh) | 2014-06-26 | 2017-04-19 | 10X基因组学有限公司 | 用于样品分析的方法和组合物 |
CA2953374A1 (en) | 2014-06-26 | 2015-12-30 | 10X Genomics, Inc. | Methods of analyzing nucleic acids from individual cells or cell populations |
MX2016016713A (es) | 2014-06-26 | 2017-05-23 | 10X Genomics Inc | Procesos y sistemas para el montaje de secuencias de acido nucleico. |
CA2953469A1 (en) | 2014-06-26 | 2015-12-30 | 10X Genomics, Inc. | Analysis of nucleic acid sequences |
DK3656875T3 (da) | 2014-07-18 | 2021-12-13 | Illumina Inc | Ikke-invasiv prænatal diagnostik |
EP3256606B1 (en) | 2015-02-09 | 2019-05-22 | 10X Genomics, Inc. | Systems and methods for determining structural variation |
CN107615283B (zh) | 2015-05-26 | 2022-07-05 | 加利福尼亚太平洋生物科学股份有限公司 | 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统 |
CN108779491B (zh) | 2016-02-11 | 2021-03-09 | 10X基因组学有限公司 | 用于全基因组序列数据的从头组装的系统、方法和介质 |
-
2016
- 2016-02-09 EP EP16749735.3A patent/EP3256606B1/en active Active
- 2016-02-09 CA CA2975529A patent/CA2975529A1/en not_active Abandoned
- 2016-02-09 SG SG11201705996PA patent/SG11201705996PA/en unknown
- 2016-02-09 US US15/019,928 patent/US10854315B2/en active Active
- 2016-02-09 JP JP2017541686A patent/JP2018513445A/ja active Pending
- 2016-02-09 CN CN201680007065.6A patent/CN107208156B/zh active Active
- 2016-02-09 MX MX2017010142A patent/MX2017010142A/es unknown
- 2016-02-09 AU AU2016219480A patent/AU2016219480B2/en active Active
- 2016-02-09 WO PCT/US2016/017196 patent/WO2016130578A1/en active Application Filing
-
2017
- 2017-07-17 IL IL253517A patent/IL253517B/en active IP Right Grant
-
2020
- 2020-11-13 US US17/098,139 patent/US20210295947A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003330934A (ja) * | 2002-05-10 | 2003-11-21 | Celestar Lexico-Sciences Inc | 変異体配列解析装置、変異体配列解析方法、プログラム、および、記録媒体 |
US20140206554A1 (en) * | 2012-12-14 | 2014-07-24 | 10X Technologies, Inc. | Methods and Systems for Processing Polynucleotides |
WO2014132497A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社日立ハイテクノロジーズ | データ解析装置、及びその方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107208156B (zh) | 2021-10-08 |
EP3256606B1 (en) | 2019-05-22 |
AU2016219480A1 (en) | 2017-08-10 |
WO2016130578A1 (en) | 2016-08-18 |
CN107208156A (zh) | 2017-09-26 |
MX2017010142A (es) | 2017-12-11 |
IL253517A0 (en) | 2017-09-28 |
US10854315B2 (en) | 2020-12-01 |
EP3256606A4 (en) | 2018-08-08 |
SG11201705996PA (en) | 2017-09-28 |
EP3256606A1 (en) | 2017-12-20 |
IL253517B (en) | 2019-08-29 |
US20210295947A1 (en) | 2021-09-23 |
CA2975529A1 (en) | 2016-08-18 |
AU2016219480B2 (en) | 2021-11-11 |
US20160232291A1 (en) | 2016-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210295947A1 (en) | Systems and methods for determining structural variation and phasing using variant call data | |
AU2019250200B2 (en) | Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs) | |
US11972841B2 (en) | Machine learning system and method for somatic mutation discovery | |
JP6297972B2 (ja) | 少量の複合核酸の配列決定 | |
JP2017184742A (ja) | 複合核酸配列データの処理および解析 | |
US20210375397A1 (en) | Methods and systems for determining fusion events | |
US20210134393A1 (en) | Systems and methods for determining the integrity of test strings with respect to a ground truth string | |
CN111542616A (zh) | 脱氨引起的序列错误的纠正 | |
Heinrich | Aspects of Quality Control for Next Generation Sequencing Data in Medical Genetics | |
Hosseinkhan | Ali Masoudi-Nejad Zahra Narimani |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200424 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201117 |