JP2023017894A - 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 - Google Patents
圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 Download PDFInfo
- Publication number
- JP2023017894A JP2023017894A JP2022176189A JP2022176189A JP2023017894A JP 2023017894 A JP2023017894 A JP 2023017894A JP 2022176189 A JP2022176189 A JP 2022176189A JP 2022176189 A JP2022176189 A JP 2022176189A JP 2023017894 A JP2023017894 A JP 2023017894A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- consensus
- sequence reads
- family
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 300
- 238000000034 method Methods 0.000 title claims abstract description 99
- 150000007523 nucleic acids Chemical group 0.000 title claims abstract description 84
- 108091028043 Nucleic acid sequence Proteins 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims description 34
- 108091035707 Consensus sequence Proteins 0.000 claims abstract description 309
- 238000002864 sequence alignment Methods 0.000 claims abstract description 105
- 238000005259 measurement Methods 0.000 claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 claims description 86
- 102000039446 nucleic acids Human genes 0.000 claims description 43
- 108020004707 nucleic acids Proteins 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 42
- 238000012163 sequencing technique Methods 0.000 claims description 29
- 230000002441 reversible effect Effects 0.000 claims description 26
- 102000040430 polynucleotide Human genes 0.000 claims description 22
- 108091033319 polynucleotide Proteins 0.000 claims description 22
- 239000002157 polynucleotide Substances 0.000 claims description 22
- 238000007906 compression Methods 0.000 claims description 16
- 230000006835 compression Effects 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 15
- 230000000295 complement effect Effects 0.000 claims description 14
- 238000004886 process control Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 108700024394 Exon Proteins 0.000 claims description 6
- 239000000523 sample Substances 0.000 description 41
- 239000002773 nucleotide Substances 0.000 description 32
- 125000003729 nucleotide group Chemical group 0.000 description 32
- 239000013615 primer Substances 0.000 description 28
- 239000012634 fragment Substances 0.000 description 25
- 239000013598 vector Substances 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 239000003153 chemical reaction reagent Substances 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 12
- 102000053602 DNA Human genes 0.000 description 12
- 238000010348 incorporation Methods 0.000 description 12
- 108091093088 Amplicon Proteins 0.000 description 11
- 108091034117 Oligonucleotide Proteins 0.000 description 10
- 230000003321 amplification Effects 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 7
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 6
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 6
- 238000003908 quality control method Methods 0.000 description 6
- 239000000758 substrate Substances 0.000 description 6
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 150000002500 ions Chemical class 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000012384 transportation and delivery Methods 0.000 description 5
- 229930024421 Adenine Natural products 0.000 description 4
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 4
- 229960000643 adenine Drugs 0.000 description 4
- 238000005056 compaction Methods 0.000 description 4
- 229920001519 homopolymer Polymers 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000006227 byproduct Substances 0.000 description 3
- 229940104302 cytosine Drugs 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 239000002777 nucleoside Substances 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 229940113082 thymine Drugs 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- 108700039887 Essential Genes Proteins 0.000 description 2
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 239000012491 analyte Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 108020001507 fusion proteins Proteins 0.000 description 2
- 102000037865 fusion proteins Human genes 0.000 description 2
- -1 hydrogen ions Chemical class 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000002887 multiple sequence alignment Methods 0.000 description 2
- 125000003835 nucleoside group Chemical group 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000037361 pathway Effects 0.000 description 2
- 238000012175 pyrosequencing Methods 0.000 description 2
- 239000000376 reactant Substances 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-ULQXZJNLSA-N 4-amino-1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-tritiopyrimidin-2-one Chemical compound O=C1N=C(N)C([3H])=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-ULQXZJNLSA-N 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- DWRXFEITVBNRMK-UHFFFAOYSA-N Beta-D-1-Arabinofuranosylthymine Natural products O=C1NC(=O)C(C)=CN1C1C(O)C(O)C(CO)O1 DWRXFEITVBNRMK-UHFFFAOYSA-N 0.000 description 1
- 108020001019 DNA Primers Proteins 0.000 description 1
- 239000003155 DNA primer Substances 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- ZYTPOUNUXRBYGW-YUMQZZPRSA-N Met-Met Chemical compound CSCC[C@H]([NH3+])C(=O)N[C@H](C([O-])=O)CCSC ZYTPOUNUXRBYGW-YUMQZZPRSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 102000004523 Sulfate Adenylyltransferase Human genes 0.000 description 1
- 108010022348 Sulfate adenylyltransferase Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- IRLPACMLTUPBCL-FCIPNVEPSA-N adenosine-5'-phosphosulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@@H](CO[P@](O)(=O)OS(O)(=O)=O)[C@H](O)[C@H]1O IRLPACMLTUPBCL-FCIPNVEPSA-N 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 239000005549 deoxyribonucleoside Substances 0.000 description 1
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 1
- 235000011180 diphosphates Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 108010087914 epidermal growth factor receptor VIII Proteins 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108010085203 methionylmethionine Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 150000003833 nucleoside derivatives Chemical class 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002342 ribonucleoside Substances 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 229940104230 thymidine Drugs 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Molecular Biology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
Description
本出願は、2017年9月20日出願の米国特許法第119条(e)項に基づく米国仮出願第62/560,745号の利益を主張する。上記出願の全内容は、参照により本明細書に組み込まれる。
A.各グループ化されたファミリーのフロースペース信号測定値のベクトルの算術平均値を計算して、各ファミリーについてのコンセンサスフロースペース信号測定値のベクトルを形成する。
B.各ファミリーのフロースペース信号測定値のベクトルの標準偏差を計算して、各ファミリーについての標準偏差のベクトルを形成する。
いくつかの実施形態では、フロースペースコンセンサス圧縮機304は、フロースペース信号測定値の各ベクトルに対応する少なくとも1つのモデルパラメータを受信し得る。フロースペースコンセンサス圧縮機304は、ファミリーのモデルパラメータの算術平均値を計算して、ファミリーについての少なくとも1つのコンセンサスモデルパラメータを形成し得る。以下で記載するように、モデルパラメータは、塩基呼び出しに使用され得る。いくつかの実施形態では、モデルパラメータは、フロースペース信号測定値の各ベクトルについて不完全拡張(IE)パラメータおよび繰り越し(CF)パラメータを含み得る。フロースペースコンセンサス圧縮機304は、各ファミリーのIEパラメータの算術平均値、およびCFパラメータの算術平均値を計算して、各ファミリーについてのコンセンサスIEパラメータおよびコンセンサスCFパラメータを形成し得る。
1.逆方向読み取りの接頭および接尾タグの逆補数を決定して、逆補数タグを形成し、
2.逆相数タグを順方向読み取りタグと一致させ、
3.順方向読み取りファミリーと一致するタグおよび逆方向読み取りファミリーを合わせて、1つのコンセンサス配列読み取りを含む1つのファミリーにする。
表2を参照すると、合わせたファミリーで表される読み取りの数は、順方向および逆方向読み取りファミリーにおける配列読み取りの数の合計である。マップされたコンセンサスBAMファイルを変更して、合わせたファミリー情報を含め、サブファミリー情報を削除し得る。合計値は、マップされたコンセンサスBAMファイルのZRフィールドに入力され得る。二次コンプレッサ208は、合わせたファミリーに対して単一のコンセンサス配列読み取りを提供する。合わせたファミリーごとに1つのサブファミリーのコンセンサス配列読み取りを排除することにより、二次コンプレッサ208は、追加のデータ圧縮を提供する。二次圧縮後、コンセンサス圧縮データは、融合呼び出し機210に提供され得る。
a.コンセンサス配列の読み取りと標的融合参照配列とのアラインメントの特徴を分析することにより、標的融合検出についてカウントするに適格であるコンセンサス配列読み取りを特定する。
b.適格な配列読み取りの場合、各標的融合参照配列と整列する適格なコンセンサス配列読み取りに対応するファミリーの数を計算して、ファミリー計算を与える。双方向配列の場合、鎖あたりのファミリーの数を計算して、鎖あたりのファミリー計算を与える。
c.各標的融合についてのファミリー計算に最小分子計算しきい値を適用する。例えば、最小分子計算しきい値は、3以上の値に設定することができる。双方向配列決定の場合、鎖あたりの最小分子計算しきい値を鎖あたりのファミリー計数に適用する。例えば、鎖あたりの最小分子計算しきい値は、1以上の値に設定することができる。
d.各標的融合参照配列と整列する適格なコンセンサス配列読み取りに対応するファミリーについての配列読み取りの数を合計して、各標的融合についての読み取り計算を与える。各ファミリーについての配列読み取りの数は、マップされたコンセンサスBAMファイルに含まれ得る。
e.各標的融合についての読み取り計算に最小読み取り計算しきい値を適用する。例えば、最小読み取り計数しきい値は、21以上の値に設定することができる。
f.プロセス制御に関連する試料品質管理(QC)パラメータを決定する。プロセス制御、または発現制御は、マッパー204によって決定され、マップされたコンセンサスBAMファイルに含まれる、コンセンサス配列読み取りと対照遺伝子参照配列とのアラインメントの結果を示す。いくつかの実施形態では、試料QCパラメータは、検証に必要な最小数のプロセス制御を含み得る。例えば、2つの対照遺伝子を使用する場合、プロセス対照の最小数を1に設定すると、2つの対照遺伝子の少なくとも1つについて、対照遺伝子参照配列と整列したコンセンサス配列読み取りが存在すべきである。例えば、6つの対照遺伝子を使用する双方向配列の場合、プロセス対照の最小数を3に設定すると、6つの対照遺伝子の少なくとも3つについて、対照遺伝子参照配列と整列したコンセンサス配列読み取りが存在すべきである。プロセス対照標的は、コンセンサス配列の読み取りが対照遺伝子参照配列に配列される場合、存在するとして呼び出しされ得、ファミリー計算は最小分子計算しきい値より大きく、読み取り計算は読み取り計算しきい値以上である。いくつかの実施形態では、試料QCパラメータは、融合パネルについてマッピングされた配列読み取りの最小合計を含み得る。例えば、マッピングされた配列読み取りの最小合計は、20,000の値を有する。いくつかの実施形態では、試料QCパラメータは、試料内の全ての配列読み取りについての最小平均配列読み取り長を含み得る。例えば、最小平均読み取り長は、50の値を有する。
g.標的融合の存在に対して呼び出しか、または呼び出し無しかの判定を決定する。標的融合ブレークポイントについて、最小分子計算しきい値、最小読み取り計算しきい値、および試料QCパラメータが満たされている場合、標的融合が存在するという呼び出し判定が行われ得る。標的融合ブレークポイントについて、最小分子計算しきい値および最小読み取り計算しきい値の1つ以上が満たされない場合、存在しないという決定が行われ得る。いくつかの実施形態では、試料が最小合計のマッピングされた配列読み取りよりも少ない場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。いくつかの実施形態では、全ての配列からの平均配列読み取り長が計算され、平均が最小平均配列読み取り長未満である場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。いくつかの実施形態では、検出されたプロセス制御の数がプロセス制御のしきい値の最小数未満である場合、パネル内の全ての標的融合は、呼び出し無しの判定が与えられる。
i.コンセンサス配列読み取りが、標的融合参照配列での融合ブレークポイントに及ぶかを決定する。
ii.各パートナー配列とコンセンサス配列読み取りとの相同性レベルを決定し、第1および第2の相同性レベルを与える。相同性は、コンセンサス配列読み取りおよび標的配列の間の重複における塩基の数である。パートナー配列は、融合ブレークポイントの片側での標的融合参照配列の部分である。各標的融合は、標的融合参照配列におけるブレークポイントの各側に1つ、第1および第2のパートナー配列を有する。
iii.第1および第2の相同性レベルを最小相同性しきい値と比較する。最小相同性しきい値は、所望される感度および厳密性に基づいて選択され得る。例えば、最小相同性しきい値は、高感度/低厳密性の場合は60%、デフォルト値の場合は70%、および高厳密性の場合は80%に設定され得る。最小相同性しきい値についての他の値がさらに使用され得る。これらの値は、50%~100%の範囲であり得る。
iv.各パートナー配列内での整列されたコンセンサス配列読み取りについてのマッピング品質値を決定して、第1および第2のマッピング品質値を生成する。マッピング品質値は、パートナー配列と一致する整列されたコンセンサス配列読み取りにおいて一致する塩基の数と、パートナー配列と重複する整列されたコンセンサス配列読み取りにおいて重複する塩基の数の比を計算することによって決定され得る。
v.第1および第2のマッピング品質値をマッピング品質しきい値と比較する。例えば、マッピング品質しきい値は、66.6%の値を有し得る。他のマッピング品質しきい値がさらに使用され得る。これらの値は、50%~100%の範囲であり得る。
vi.コンセンサス配列読み取りが融合ブレークポイントにかかる基準を満たす場合、少なくとも最小相同性しきい値である第1および第2の相同性レベルを有し、かつ少なくともマッピング品質しきい値である第1および第2のマッピング品質値を有し、それは上記のステップbについての適格なコンセンサス配列読み取りである。いくつかの実施形態では、コンセンサス配列読み取りがこれらの基準を満たさない場合、図7におけるステップ702に提供され得、非標的融合の存在を特定するか、またはフィルタリングして除去され得る。
a)部分的にマッピングされたコンセンサス配列読み取りを、マッピングされた部分およびマッピングされていない部分に分割し、部分的にマッピングされたコンセンサス配列の読み取りが2つの読み取りフラグメントを生成するようにする。
b)読み取りフラグメントを融合参照配列に独立して整列させる。例えば、部分的にマッピングされた読み取りの第1のフラグメントは、融合参照配列内の第1の遺伝子座にマッピングされ、部分的にマッピングされた読み取りの第2のフラグメントは、融合参照配列内の第2の遺伝子座にマッピングされるであろう。遺伝子座は、参照配列での読み取りフラグメントについてマッピングされた位置であり得る。例えば、2つの読み取りフラグメントは、2つの異なる融合参照配列に整列され得る。例えば、2つの読み取りフラグメントは、同じ融合参照配列に整列され得る。
c)それぞれの融合参照配列の第1のフラグメントが5’末端に整列し、第2のフラグメントが3’末端に整列しているかを決定する。
d)各パートナー配列内の整列された読み取りフラグメントについてのマッピング品質値が、マッピング品質しきい値以上であるかを決定する。マッピング品質値は、上記のステップivおよびvに記載される。例えば、マッピング品質しきい値は、66.6%の値を有し得る。
e)第1および第2の整列された読み取りフラグメントについての相同性レベルを決定する。相同性レベルは、上記のステップiiに記載される。相同性レベルを合計して、両方の読み取りフラグメントについて合わせた相同性レベルを与える。
f)合わせた相同性レベルが、合わせた相同性しきい値以上であるかを決定する。例えば、合わせた相同性しきい値は、150%であり得る。例えば、第1のフラグメントについては100%、第2のフラグメントについては50%の相同性レベルが許可される。例えば、第1のフラグメントについては90%、第2のフラグメントについては70%の相同性レベルが許可される。例えば、第1のフラグメントについての80%、および第2のフラグメントについての60%の相同性レベルは、合計が150%未満であるため十分ではない。
g)相同性レベルしきい値およびマッピング品質しきい値の組み合わせを満たす整列された読み取りラグメントについて、それぞれの融合参照配列と整列された読み取りフラグメントを生成したコンセンサス読み取り配列に対応するファミリーの数を計算して、ファミリー計算を与える。
h)ファミリー計算に最小分子計算しきい値を適用する。例えば、最小分子計算しきい値は、3以上の値に設定することができる。双方向配列決定の場合、鎖あたりの最小分子計算しきい値を鎖あたりのファミリー計数に適用する。例えば、鎖あたりの最小分子計算しきい値は、1以上の値に設定することができる。
i)コンセンサス配列読み取りに対応するファミリーについての配列読み取りの数を合計して、それぞれの融合参照配列と整列された読み取りフラグメントを生成し、読み取り計算を与える。
j)各標的融合についての読み取り計算に最小読み取り計算しきい値を適用する。例えば、最小読み取り計数しきい値は、21以上の値に設定することができる。
I.遺伝子内融合RNAExonVariant Viの野生型RNAExonVariantに対する比率:
比率=(Viの読み取りカウント)/(同じ遺伝子の全ての野生型RNAExonVariantの平均読み取りカウント)。
遺伝子内融合のViの読み取りカウントは、標的融合参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。野生型RNAExonVariantの読み取りカウントは、野生型参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。
II.遺伝子内融合RNAExonVariant Viの同じ遺伝子内の正規化されたカウント:
正規化されたカウント=(Viの読み取りカウント)/(同じ遺伝子の全てのRNAExonVariantの読み取りカウントの合計)。
全てのRNAExonVariantの読み取りカウントの合計は、野生型参照配列に対応する読み取りカウントと、同じ遺伝子の標的融合参照配列に対応する読み取りカウントとを加えることによって決定され得る。野生型参照配列に対応する読み取りカウントは、同じ遺伝子の野生型参照配列と整列したコンセンサス配列読み取りの一部分に対応するファミリーの配列読み取りの数を加えることによって決定され得る。標的融合参照配列に対応する読み取りカウントは、同じ遺伝子の標的融合参照配列と整列したコンセンサス配列読み取りに対応するファミリーの読み取りカウントを加えることによって決定され得る。
融合検出のために分子タグ付き核酸配列データを圧縮するための方法であって、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、方法。
[実施形態2]
前記配列読み取りが双方向配列決定から結果として生じ、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、第1の接頭タグおよび第1の接尾タグと関係する順方向ファミリーと、第2の接頭タグおよび第2の接尾タグと関係する逆方向のファミリーとを含む、別個のファミリーにあり、前記方法は、前記第2の接頭タグと前記第2の接尾タグの逆補数が前記第1の接頭タグと前記第1の接尾タグに一致して、前記圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、前記順方向ファミリーと逆方向ファミリーとを組み合わせることをさらに含む、実施形態1に記載の方法。
[実施形態3]
前記特徴が、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含む、実施形態1に記載の方法。
[実施形態4]
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列と整合した前記コンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含む、実施形態1に記載の方法。
[実施形態5]
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列の前記コンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含む、実施形態1に記載の方法。
[実施形態6]
前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列のそれぞれ第1および第2のパートナー配列内の前記コンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含む、実施形態1に記載の方法。
[実施形態7]
前記適格なコンセンサス配列読み取りを特定することは、前記パートナー配列と重複する前記コンセンサス配列読み取りにおいて前記パートナー配列をいくつかの重複塩基と一致させる前記コンセンサス配列において、いくつかの符合している塩基の比を計算することによって、前記マッピングの質の値を決定することをさらに含む、実施形態6に記載の方法。
[実施形態8]
前記融合を検出することは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み、前記読み取り計数が、前記標的融合参照配列と整合した前記適格なコンセンサス配列に対応する前記ファミリーについての配列読み取りの前記数の合計である、実施形態1に記載の方法。
[実施形態9]
前記配列アラインメントの第2の部分が、対照遺伝子参照配列へマッピングされた配列読み取りに対応しており、コンセンサス圧縮データが、前記対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む、実施形態1に記載の方法。
[実施形態10]
ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、前記対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み、前記ファミリー計数が、前記対照遺伝子参照配列と整合した前記コンセンサス配列読み取りに対応するファミリーの数であり、前記読み取り計数が、前記対応するファミリーについての配列読み取りの数の合計である、実施形態9に記載の方法。
[実施形態11]
前記融合が、遺伝子間融合を含み、前記標的融合参照配列が、融合ブレークポイントでの2つの遺伝子の前記融合のための参照配列を含む、実施形態1記載の方法。
[実施形態12]
前記融合が、遺伝子内融合を含み、前記標的融合参照配列が、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの前記融合のための参照配列を含む、実施形態1記載の方法。
[実施形態13]
前記コンセンサス配列アラインメントの第2の部分が、同じ遺伝子について1つ以上の野生型参照配列と整合したコンセンサス配列読み取りに対応する、実施形態12に記載の方法。
[実施形態14]
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整合した前記コンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含む、実施形態13に記載の方法。
[実施形態15]
前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整合した前記コンセンサス配列読み取り、および前記標的融合参照配列と整合した前記コンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含む、実施形態13に記載の方法。
[実施形態16]
前記コンセンサス配列読み取りの一部が、前記標的融合参照配列に部分的にマッピングし、融合を検出することが、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含む、実施形態1に記載の方法。
[実施形態17]
プロセッサによって実行されるとき、前記プロセッサに、融合検出のために分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、非一時的な機械可読記憶媒体。
[実施形態18]
融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、
機械可読メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサが、当該プロセッサによって実行されるとき、前記システムに、方法を実行させる機械可読命令を実行するように構成されている、前記プロセッサと、を含み、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが配列読み取りの数を有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、配列読み取りの前記ファミリーに対応する、最も高いマッピング特質を有する前記配列アラインメントを選択することを含み、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整合している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記圧縮データ構造からの前記コンセンサス配列読み取りと前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含み、
前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含み、
前記融合を検出することは、前記標的融合参照配列と整合した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、システム。
Claims (20)
- 融合検出のために分子タグ付き核酸配列データを圧縮するための方法であって、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、方法。 - 前記配列読み取りが双方向配列決定から結果として生じ、順方向コンセンサス配列読み取りおよび逆方向コンセンサス配列読み取りが、第1の接頭タグおよび第1の接尾タグと関係する順方向ファミリーと、第2の接頭タグおよび第2の接尾タグと関係する逆方向のファミリーとを含む、別個のファミリーにあり、前記方法は、前記第2の接頭タグと前記第2の接尾タグの逆補数が前記第1の接頭タグと前記第1の接尾タグに一致して、前記圧縮データ構造のために1つのコンセンサス配列読み取りを有する合わせたファミリーを形成するとき、前記順方向ファミリーと逆方向ファミリーとを組み合わせることをさらに含む、請求項1に記載の方法。
- 前記融合を検出することが、前記コンセンサス配列読み取りと前記標的融合参照配列とのコンセンサス配列アラインメントの特徴に基づいて適格なコンセンサス配列読み取りを特定することをさらに含む、請求項1に記載の方法。
- 前記特徴が、相同性特徴と、マッピング品質特徴と、ブレークポイントスパニング特徴とを含む、請求項3に記載の方法。
- 前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列と整列した前記コンセンサス配列読み取りが標的融合参照配列の融合ブレークポイントに及ぶかどうかを決定することをさらに含む、請求項3に記載の方法。
- 前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列の前記コンセンサス配列読み取りとそれぞれ第1および第2のパートナー配列との第1および第2の相同性レベルが最小相同性しきい値以上であるかどうかを判定することをさらに含む、請求項3に記載の方法。
- 前記適格なコンセンサス配列読み取りを特定することは、前記標的融合参照配列のそれぞれ第1および第2のパートナー配列内の前記コンセンサス配列読み取りについての第1および第2のマッピング品質値が、マッピング品質のしきい値以上であるかどうかを判定することをさらに含む、請求項3に記載の方法。
- 前記適格なコンセンサス配列読み取りを特定することは、前記パートナー配列と重複する前記コンセンサス配列読み取りにおいて前記パートナー配列をいくつかの重複塩基と一致させる前記コンセンサス配列において、いくつかの符合している塩基の比を計算することによって、前記マッピングの質の値を決定することをさらに含む、請求項7に記載の方法。
- 前記融合を検出することは、前記標的融合参照配列と整列した前記適格なコンセンサス配列読み取りに対応するファミリーの数が最小分子カウントしきい値以上であるかどうかを決定することをさらに含む、請求項3に記載の方法。
- 前記融合を検出することは、読み取り計数が最小読み取りしきい値以上であるかどうかを判定することをさらに含み、前記読み取り計数が、前記標的融合参照配列と整列した前記適格なコンセンサス配列に対応する前記ファミリーについての配列読み取りの前記数の合計である、請求項3に記載の方法。
- 前記配列アラインメントの第2の部分が、対照遺伝子参照配列へマッピングされた配列読み取りに対応しており、コンセンサス圧縮データが、前記対照遺伝子参照配列に対応するコンセンサス配列読み取りおよびコンセンサス配列アラインメントをさらに含む、請求項1に記載の方法。
- ファミリー計数が最小分子カウントしきい値よりも大きく、読み取り計数が読み取り計数しきい値よりも大きい場合、前記対照遺伝子参照配列に対応するプロセス制御標的の存在を決定することをさらに含み、前記ファミリー計数が、前記対照遺伝子参照配列と整列した前記コンセンサス配列読み取りに対応するファミリーの数であり、前記読み取り計数が、前記対応するファミリーについての配列読み取りの数の合計である、請求項11に記載の方法。
- 前記融合が、遺伝子間融合を含み、前記標的融合参照配列が、融合ブレークポイントでの2つの遺伝子の前記融合のための参照配列を含む、請求項1記載の方法。
- 前記融合が、遺伝子内融合を含み、前記標的融合参照配列が、同じ遺伝子内の融合ブレークポイントでの2つのエクソンの前記融合のための参照配列を含む、請求項1記載の方法。
- 前記コンセンサス配列アラインメントの第2の部分が、同じ遺伝子について1つ以上の野生型参照配列と整列したコンセンサス配列読み取りに対応する、請求項14に記載の方法。
- 前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整列した前記コンセンサス配列読み取りに対応する平均読み取り計数に対する比率を計算することをさらに含む、請求項15に記載の方法。
- 前記融合を検出することが、同じ遺伝子について、前記遺伝子内融合の読み取り計数の、前記野生型参照配列と整列した前記コンセンサス配列読み取り、および前記標的融合参照配列と整列した前記コンセンサス配列読み取りに対応する読み取り計数の合計に対する比率を計算することをさらに含む、請求項15に記載の方法。
- 前記コンセンサス配列読み取りの一部が、前記標的融合参照配列に部分的にマッピングし、融合を検出することが、部分的にマッピングされたコンセンサス配列読み取りに基づいて非標的融合を検出することをさらに含む、請求項1に記載の方法。
- プロセッサによって実行されるとき、前記プロセッサに、融合検出のために分子タグ付き核酸配列データを圧縮するための方法を実行させる命令を含む、非一時的な機械可読記憶媒体であって、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、非一時的な機械可読記憶媒体。 - 融合検出のために分子タグ付き核酸配列データを圧縮するためのシステムであって、
機械可読メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサが、当該プロセッサによって実行されるとき、前記システムに、方法を実行させる機械可読命令を実行するように構成されている、前記プロセッサと、を含み、
前記方法は、
複数の核酸配列読み取りおよび複数の配列読み取りファミリーの複数の配列アラインメントを受け取ることであって、各配列読み取りが分子タグ配列と関係しており、前記分子タグ配列が、核酸試料中の特定のポリヌクレオチド分子から結果として生じる配列読み取りのファミリーを特定し、各ファミリーが番号配列読み取りを有し、前記配列アラインメントの一部が、標的融合参照配列へマッピングされた配列読み取りに対応する、前記受け取ることと、
配列読み取りの各ファミリーについての配列読み取りに対応するフロースペースシグナル測定値に基づいて、前記ファミリーのコンセンサス配列読み取りを決定することと、
配列読み取りの各ファミリーについてのコンセンサス配列アラインメントを決定することであって、前記コンセンサス配列アラインメントの一部が、前記標的融合参照配列と整列している前記コンセンサス配列読み取りに対応する、前記決定することと、
コンセンサス圧縮データを含む圧縮データ構造を生成することであって、前記コンセンサス圧縮データが、前記コンセンサス配列読み取りと各ファミリーについての前記コンセンサス配列アラインメントとを含む、前記生成することと、
前記コンセンサス配列読み取りと前記圧縮データ構造からの前記コンセンサス配列アラインメントとを使用して融合を検出することと、を含む、システム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762560745P | 2017-09-20 | 2017-09-20 | |
US62/560,745 | 2017-09-20 | ||
JP2020516558A JP7171709B2 (ja) | 2017-09-20 | 2018-09-20 | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 |
PCT/US2018/051872 WO2019060494A1 (en) | 2017-09-20 | 2018-09-20 | METHODS OF DETECTING FUSIONS USING COMPRESSED MOLECULAR LABEL NUCLEIC ACID SEQUENCE DATA |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020516558A Division JP7171709B2 (ja) | 2017-09-20 | 2018-09-20 | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023017894A true JP2023017894A (ja) | 2023-02-07 |
JP7373047B2 JP7373047B2 (ja) | 2023-11-01 |
Family
ID=63794711
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020516558A Active JP7171709B2 (ja) | 2017-09-20 | 2018-09-20 | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 |
JP2022176189A Active JP7373047B2 (ja) | 2017-09-20 | 2022-11-02 | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020516558A Active JP7171709B2 (ja) | 2017-09-20 | 2018-09-20 | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11894105B2 (ja) |
EP (1) | EP3684947A1 (ja) |
JP (2) | JP7171709B2 (ja) |
KR (1) | KR20200058457A (ja) |
WO (1) | WO2019060494A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033829B (zh) * | 2019-04-11 | 2021-07-23 | 北京诺禾心康基因科技有限公司 | 基于差异snp标记物的同源基因的融合检测方法 |
JP2022544991A (ja) | 2019-08-20 | 2022-10-24 | ライフ テクノロジーズ コーポレーション | 配列決定デバイスの制御のための方法 |
WO2021034711A1 (en) | 2019-08-21 | 2021-02-25 | Life Technologies Corporation | System and method for sequencing |
CN117083394A (zh) | 2020-11-14 | 2023-11-17 | 生命技术公司 | 用于自动重复测序的系统和方法 |
US20220170093A1 (en) | 2020-11-16 | 2022-06-02 | Life Technologies Corporation | System and method for sequencing |
WO2022146708A1 (en) | 2020-12-31 | 2022-07-07 | Life Technologies Corporation | System and method for control of sequencing process |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2463389A1 (en) | 2006-10-20 | 2012-06-13 | Innogenetics N.V. | Methodology for analysis of sequence variations within the HCV NS5B genomic region |
EP2092322B1 (en) | 2006-12-14 | 2016-02-17 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale fet arrays |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
EP2633470B1 (en) | 2010-10-27 | 2016-10-26 | Life Technologies Corporation | Predictive model for use in sequencing-by-synthesis |
US20130090860A1 (en) | 2010-12-30 | 2013-04-11 | Life Technologies Corporation | Methods, systems, and computer readable media for making base calls in nucleic acid sequencing |
US8594951B2 (en) | 2011-02-01 | 2013-11-26 | Life Technologies Corporation | Methods and systems for nucleic acid sequence analysis |
GB201409282D0 (en) * | 2014-05-23 | 2014-07-09 | Univ Sydney Tech | Sequencing process |
EP3169806B1 (en) * | 2014-07-18 | 2019-05-01 | Life Technologies Corporation | Systems and methods for detecting structural variants |
WO2016114009A1 (ja) | 2015-01-16 | 2016-07-21 | 国立研究開発法人国立がん研究センター | 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム |
US10344336B2 (en) | 2015-06-09 | 2019-07-09 | Life Technologies Corporation | Methods, systems, compositions, kits, apparatus and computer-readable media for molecular tagging |
-
2018
- 2018-09-20 US US16/136,463 patent/US11894105B2/en active Active
- 2018-09-20 EP EP18783280.3A patent/EP3684947A1/en active Pending
- 2018-09-20 KR KR1020207011095A patent/KR20200058457A/ko not_active Application Discontinuation
- 2018-09-20 JP JP2020516558A patent/JP7171709B2/ja active Active
- 2018-09-20 WO PCT/US2018/051872 patent/WO2019060494A1/en unknown
-
2022
- 2022-11-02 JP JP2022176189A patent/JP7373047B2/ja active Active
-
2023
- 2023-12-07 US US18/531,920 patent/US20240203525A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7373047B2 (ja) | 2023-11-01 |
US20240203525A1 (en) | 2024-06-20 |
JP2020534011A (ja) | 2020-11-26 |
WO2019060494A1 (en) | 2019-03-28 |
CN111108218A (zh) | 2020-05-05 |
KR20200058457A (ko) | 2020-05-27 |
US11894105B2 (en) | 2024-02-06 |
JP7171709B2 (ja) | 2022-11-15 |
US20190087539A1 (en) | 2019-03-21 |
EP3684947A1 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984887B2 (en) | Systems and methods for detecting structural variants | |
JP7171709B2 (ja) | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 | |
US20240035094A1 (en) | Methods and systems to detect large rearrangements in brca1/2 | |
US11887699B2 (en) | Methods for compression of molecular tagged nucleic acid sequence data | |
US20220392574A1 (en) | Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads | |
US11866778B2 (en) | Methods and systems for evaluating microsatellite instability status | |
US20200318175A1 (en) | Methods for partner agnostic gene fusion detection | |
CN111108218B (zh) | 使用压缩的分子标记的核酸序列数据检测融合的方法 | |
WO2024073544A1 (en) | System and method for genotyping structural variants | |
WO2024059487A1 (en) | Methods for detecting allele dosages in polyploid organisms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221128 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230921 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7373047 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |