CN104160391A - 确定异质样本的基因组中的变异 - Google Patents
确定异质样本的基因组中的变异 Download PDFInfo
- Publication number
- CN104160391A CN104160391A CN201280056506.3A CN201280056506A CN104160391A CN 104160391 A CN104160391 A CN 104160391A CN 201280056506 A CN201280056506 A CN 201280056506A CN 104160391 A CN104160391 A CN 104160391A
- Authority
- CN
- China
- Prior art keywords
- variation
- hypothesis
- score
- genome
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108700028369 Alleles Proteins 0.000 claims abstract description 214
- 210000004027 cell Anatomy 0.000 claims abstract description 91
- 239000012634 fragment Substances 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 158
- 108090000623 proteins and genes Proteins 0.000 claims description 95
- 238000013507 mapping Methods 0.000 claims description 45
- 238000003780 insertion Methods 0.000 claims description 42
- 230000037431 insertion Effects 0.000 claims description 42
- 238000012217 deletion Methods 0.000 claims description 41
- 230000037430 deletion Effects 0.000 claims description 41
- 208000026487 Triploidy Diseases 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 17
- 150000007523 nucleic acids Chemical group 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 206010069754 Acquired gene mutation Diseases 0.000 claims description 12
- 230000037439 somatic mutation Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 210000004881 tumor cell Anatomy 0.000 claims description 7
- 210000000349 chromosome Anatomy 0.000 abstract description 17
- 238000005457 optimization Methods 0.000 abstract description 13
- 239000000523 sample Substances 0.000 description 138
- 206010028980 Neoplasm Diseases 0.000 description 57
- 230000008569 process Effects 0.000 description 41
- 239000000203 mixture Substances 0.000 description 33
- 238000010586 diagram Methods 0.000 description 28
- 108020004414 DNA Proteins 0.000 description 22
- 239000002773 nucleotide Substances 0.000 description 15
- 125000003729 nucleotide group Chemical group 0.000 description 15
- 201000011510 cancer Diseases 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 102000054766 genetic haplotypes Human genes 0.000 description 14
- 230000000392 somatic effect Effects 0.000 description 14
- 230000002759 chromosomal effect Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 108020004707 nucleic acids Proteins 0.000 description 7
- 102000039446 nucleic acids Human genes 0.000 description 7
- 108091033319 polynucleotide Proteins 0.000 description 7
- 102000040430 polynucleotide Human genes 0.000 description 7
- 239000002157 polynucleotide Substances 0.000 description 7
- 208000036878 aneuploidy Diseases 0.000 description 6
- 231100001075 aneuploidy Toxicity 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000005304 joining Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 239000000178 monomer Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- 210000002593 Y chromosome Anatomy 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 229920001519 homopolymer Polymers 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 108700019961 Neoplasm Genes Proteins 0.000 description 2
- 102000048850 Neoplasm Genes Human genes 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 108020004459 Small interfering RNA Proteins 0.000 description 1
- 208000037280 Trisomy Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 101150036080 at gene Proteins 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000003746 feather Anatomy 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- -1 rRNA Proteins 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
在DNA片段被测序并被映射至参考之后,可以对变异区域中的序列的各个假设进行评分以发现哪个/些序列假设更有可能。假设可以包括对于包括该区域中的序列假设的多个等位基因的特定可变分数。可以使用说明相应序列假设中指定的等位基因的分数的概率确定每个假设的似然性。因此,可以通过在优化中明确包括等位基因的可变分数作为参数,探索除了标准纯合和相等杂合(即,细胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。而且,可以相对于参考为变异确定变异得分。变异得分可以用于确定指示变异识别正确的似然性的变异校准得分。
Description
对相关申请的交叉引用
本申请主张于2011年9月16日提交的、题目为“Techniques For CallingSmall Variants In Polynucleotide Sequences”的美国临时申请No.61/535,926、以及于2012年3月2日提交的、题目为“Techniques For Small VariantAssembler”的临时申请No.61/606,306的优先权,并且是它们的非临时申请,为了所有的目的通过引用将它们的全部内容合并在此。
此申请与Carnevali等人于2012年4月29日提交的、题目为“Method AndSystem For Calling Variations In A Sample Polynucleotide Sequence With RespectTo A Reference Polynucleotide Sequence”的共同拥有的美国专利申请No.12/770,089(代理人案号为92171-002110US)相关,通过引用将其完整的公开内容合并。
技术领域
本公开一般涉及使用测序技术确定基因组,并且更具体地涉及确定基因组中相对于另一基因组的变异(variant)。
背景技术
非肿瘤生物样本主要是二倍体(diploid),其中变异可能发生在染色体的一个或两者中。传统地,在样本基因组中在特定基因的相对于参考基因组的变异被辨识(identify)为杂合(heterozygous)(1个突变等位基因(allele)和1个正常等位基因)或纯合(homozygous)(2个突变等位基因)。然而,在如癌症的肿瘤细胞内往往不是这样。在细胞分裂期间,突变可能发生,并且作为结果,某些肿瘤细胞的基因组可能不同于其它肿瘤细胞的基因组。由于对正常DNA的污染和/或肿瘤进化中的多个分支,样本经常展现出这种异质性(heterogeneity)。样本中的这种异质性可能导致确定样本的基因组中的所有突变上的困难。
因此,期望提供能更准确地确定展现出异质性的样本的基因组组成、特别是辨识样本中(例如肿瘤样本)相对于参考基因组或患者的正常基因组的变异的方法、系统和装置。
发明内容
本发明的实施方案提供了用于辨识基因组中的变异的技术。例如,在DNA片段已经被测序并映射(map)至参考基因组以及辨识变异区域(很可能包含变异的区域)之后,可以对针对变异区域中的序列的各种假设进行评分以发现哪些假设更有可能。针对区域的序列假设可以包括针对包括该序列假设的多个等位基因的特定可变分数(fraction)。可以使用说明(account for)相应序列假设中指定的等位基因的分数(例如,20%A:80%B)的概率来确定针对变异区域的每个序列假设的似然性(likelihood)。因此,可以通过明确地包括等位基因的可变分数作为优化中的参数来探索除了标准纯合和相等杂合(即,在细胞中具有A的一个染色体和具有B的一个染色体)之外的其它假设。以此方式,可以更准确地确定样本细胞的基因组之中展现出异质性的肿瘤样本的基因组组成。
另外,可以为变异确定相对于参考的变异得分。此外,可以使用变异得分来确定指示变异识别(call)正确的似然性的变异校准得分。可以通过从同一样本的两个测序运行确定变异、辨识在一个基因组上看到变异、而在第二个基因组上未看到变异的不一致(discordant)基因位点(loci),来确定这种变异校准得分。然后可以将变异得分分组,并将似然性分配至变异得分的范围(例如,通过使用涉及对基因组的参考得分分组的迭代过程)。可以通过比较肿瘤基因组与正常基因组以辨识不一致基因位点,来量化肿瘤中被辨识为真正的体细胞突变的变异的体细胞得分。可以使用肿瘤基因组为假阳性和正常基因组为假阴性的似然性来确定变异为真正的体细胞突变的似然性。
根据一个实施方案,计算机实施的方法确定参考基因组与来自二倍体生物体的生物样本的样本基因组之间的一个或多个变异。接收样本基因的读段(reads)以及所述读段至参考基因组的映射。从来自生物样本的多个基因组片段的测序获得读段。辨识样本基因组的第一区域,其具有包括相对于参考基因组中的对应区域的一个或多个变异的第一似然性,其中第一似然性在第一阈值之上。确定第一区域中的样本基因组的起始假设。基于起始假设生成第一区域中的样本基因组的一组假设。该组假设中的至少一个包括多个等位基因以及对应于所述多个等位基因的每个的相应等位基因分数。对于该组假设中的每个假设,使用概率函数为该假设计算概率得分。概率函数接收该假设的每个等位基因以及相应等位基因分数的输入。该组假设中的第一假设包括具有在最小阈值分数与0.5之间的相应等位基因分数的第一等位基因。基于概率得分选择顶级假设(top hypothesis)。基于顶级假设为第一区域识别参考基因组与样本基因组之间的一个或多个变异。
根据另一实施方案,计算机实施的方法确定样本的基因组中的变异识别的错误率。接收第一变异识别和对应的第一变异得分。为已经在第一测序操作中从样本测序的第一基因组识别第一变异识别。接收针对已经在不同于第一测序操作的第二测序操作中从同一样本测序的第二基因组的第二变异识别。至少基于第一变异识别和第二变异识别确定第一基因组与第二基因组之间存在不一致的不一致基因位点。基于第一变异得分将第一变异分组为组的第一集合。为第一集合的每组确定指示变异为假阳性的似然性的变异校准得分。为每组存储变异校准得分。
根据另一实施方案,计算机实施的方法确定样本的基因组中的变异识别的错误率。接收样本基因组的读段以及所述读段至参考基因组的映射。从来自生物样本的多个基因组片段的测序获得读段。辨识样本基因组的第一区域,其具有包括相对于参考基因组中的对应区域的一个或多个变异的第一似然性,其中第一似然性在第一阈值之上。基于第一区域中的多个假设的概率得分确定顶级假设。基于顶级假设和至少一个其它假设计算第一变异得分。使用第一变异得分以访问数据库表以获得指示顶级假设的错误率的校准得分。校准得分对应于包括第一变异得分的变异得分的范围。
根据另一实施方案,计算机实施的方法辨识第一样本中的体细胞突变。接收已经基于第一样本的测序为第一基因组识别的具有第一变异得分的变异的第一集合。接收已经基于第二样本的测序为第二基因组识别的具有第二变异得分的变异的第二集合。基于变异的第一集合和变异的第二集合确定第一变异存在于第一基因组而参考识别存在于第二基因组之处的一个或多个不一致基因位点。对于每个不一致基因位点,基于对应的第一变异得分确定第一变异为假阳性的第一似然性。基于对应的参考得分确定参考识别为假阴性的第二似然性。基于第一似然性和第二似然性确定表示第一基因组与第二基因组之间的不一致为与错误相反的体细胞突变的似然性的体细胞得分。
其它实施方案针对与与本文所述的方法关联的系统、便携式消费设备以及计算机可读介质。
可以参考以下详细描述和伴随附图获得对本发明的性质和优势的更好理解。
附图说明
图1是图示根据各个示例实施方案的、被配置为执行本文所述的技术的示例系统的框图。
图2是根据本发明的实施方案的、用于确定参考基因组与来自二倍体生物体的生物样本的样本基因组之间的一个或多个变异的方法200的流程图。
图3是图示根据一个实施方案的迭代假设评分的示例方法的框图。
图4是图示具有不同基因组的不同细胞的不同混合物(mixture)的图400。
图5示出三个不同样本501-503的基因组的图500。
图6A示出图示根据本发明的实施方案的、有40DNB支持参考且10DNB支持替代SNP的情形的图600。图6B示出图示根据本发明的实施方案的、有40DNB支持参考且5DNB支持替代SNP的情形的图650。
图7是根据本发明的实施方案的、使用可变等位基因分数以确定样本基因组中的可能变异的方法700的流程图。
图8是图示针对基于本文所述的技术确定的体细胞事件的ROC的示例的曲线图800。
图9是根据本发明的实施方案的、用于确定样本的基因组中的变异识别的错误率的方法900的流程图。
图10是图示根据本发明的实施方案的、用于确定校准得分的方法1000的流程图。
图11A是示出根据本发明的实施方案的、针对单个覆盖面元(coveragebin)的情况的预平滑收敛的图1100。
图11B是示出方法1000的准确性的曲线图1150。
图12A是示出根据本发明的实施方案的不同覆盖的校准得分的曲线图1200。
图12B是图示根据本发明的实施方案的、针对覆盖40-50、20%AF校准如何与50%AF校准比较的示例的图1250。
图13是图示根据一个实施方案的、计算体细胞得分的示例方法1300的流程图。
图14示出根据本发明的实施方案的、可用于系统和方法的示例计算机系统1400的框图。
定义
“基因组”是指表示存在在生物体的DNA中的整个、或基本上整个核苷酸碱基序列的数据值的序列;基因组通常包括表示DNA和/或RNA(核糖核酸)的基因和非编码区域两者的数据序列。
“参考多核苷酸序列”、或者简单地“参考”或“参考序列”是指表示参考生物体(例如,人类生物体)中的核苷酸碱基的数据值的已知序列。参考可以是参考生物体的整个或基本上整个基因组序列(也称为“参考基因组”)、参考基因组的一部分、多个参考生物体的共有序列、基于不同生物体的不同组成部分的汇编序列、从生物体的群体(population)提取的基因组序列的集合、或者任何其它合适序列。参考还可以包括关于从已知要在生物体的群体中发现的参考的变异的信息。
“样本多核苷酸序列”、或者简单地“样本序列”是指表示可涵盖基因、调节元件、基因组DNA、cDNA、RNA(包括mRNA、rRNA、siRNA、miRNA等)和/或其片段的生物样本的核酸序列的数据值的序列。样本核苷酸序列可以表示物理地存在在生物样本中的核酸、或者可以表示次级核酸,诸如在库构建过程期间获得的扩增反应的产物(例如多联体)。样本序列可以形成“样本基因组”。如果样本中的细胞具有不同基因组,那么所确定的样本基因组可以被认为是样本中的细胞的基因组的“复合(composite)基因组”。因为两个不同测序运行的读段可能不同,所以所得基因组(resultant genome)可能不同(即使仅仅相差一个碱基),尽管使用同一样本,还有如果使用来自同一生物体的两个不同样本的情况下,也是如此。
“基因位点”对应于基因组中辨识的位置,并且可以跨越单个碱基或多个碱基的顺序系列。通常,通过使用关于参考基因组和/或其染色体的标识符值或标识符值的范围来辨识基因位点;例如,“5100001”至“5800000”的标识符值的范围可以指在参考人类基因组中的染色体1上的特定位置。“杂合基因位点”(也称为“het”)是基因组中的染色体的两个拷贝不具有相同序列的基因位点。在基因位点处的这些不同序列称为“等位基因”。如果参考基因组位置具有通过单个碱基不同的两个等位基因,则het可以是单核苷酸多态性(SNP)。“het”还可以是存在一个或多个核苷酸、或者一个或多个串联重复序列(tandem repeats)的插入或删除(总称为“插入缺失(indel)”)的参考基因组位置。“纯合基因位点”是参考或基线基因组中染色体的两个拷贝具有相同等位基因的基因位点。染色体的“单体型(Haplotype)”是指染色体在基因组中出现一次还是两次;对于癌症或其它肿瘤细胞的基因组,染色体单体型可以是为非整数且/或大于2的值。基因组中的“区域”可以包括一个或多个基因位点。
“片段”是指从例如人类的目标生物体中提取的生物样本中所包括、或从该生物样本得到(例如,经由扩增)的核酸分子(例如,DNA)。片段可以具有不同长度(例如,短于200bp;200-500bp;500-1Kb,其中1Kb=1000bp;1Kb-10Kb,10Kb-50Kb,50Kb-100Kb,以及长于100Kb)。“测序”(也称为“序列测定”)确定辨识片段中的核苷酸的一个或多个序列(读段)的信息。这种信息可以包括片段的局部以及全部序列信息的辨识或确定。可以以不同的统计可靠性或置信的程度确定序列信息。
如本文所使用的,“读段”是指表示一个或多个核苷酸碱基的一个或多个数据值的集合。可以通过测序机器和/或已经执行对核酸片段的全部或部分的序列测定的关联逻辑生成读段。“配对(mate pair)”(也称为“配对读段(matedread)”或“双端读段(paired-end reads)”)是指已经从同一片段的相对端确定的至少两个读段(也称为“臂读段”)。两个臂读段可以统称为配对,其中在关于该配对被测序的片段的两个臂读段之间存在缺口(gap)。两个臂读段可以分别称为“左”臂读段和“右”臂读段;然而,应理解,任何“左”(或“右”)指定不限于严格地在左侧(或在右侧),因为可以关于各种参考点(诸如,观察者的方向、DNA链的方向性(例如,5’端至3’端或相反)、或者为参考基因组选择的基因组坐标系统)报告来自片段的臂读段的位置。读段可以存储有各种信息,例如,唯一读段标识符、片段的标识符、和作为配对的部分的读段的配对标识符。“DNB”是指一个或多个读段(例如,配对读段)已经被测序的核酸片段的序列。可以通过在臂读段之间具有缺口的配对读段表示DNB。
“映射”是指将臂读段(或配对)与参考中的零个、一个或多个位置关联(例如,通过将例示的臂读段或配对与对应于参考内的位置的索引内的一个或多个秘钥(key)匹配)的数据。例如,映射可以将读段的标识符与参考基因位点的标识符关联。
“等位基因分数”是指对于基因组中的给定基因位点而从生物样本中所包括的核酸片段测序的一个或多个等位基因的百分比。除了一些例外(例如,人类男性中的Y染色体),诸如人类的二倍体生物体通常具有每个染色体的两个拷贝。因此,通常,基因组中的基因位点可以是纯合(例如,在两个染色体拷贝上具有相同等位基因)或杂合(例如,在两个染色体拷贝上具有不同等位基因)。因此,“相等的等位基因分数”值是指1.0(例如,对于在纯合基因位点处的等位基因的100%等位基因分数)或0.5(例如,对于在杂合基因位点处的等位基因的50%等位基因分数)的数据值。
“可变等位基因分数”是指大于零但不同于0.5和1的数据值。可变等位基因分数值可用于针对如下情形:可以以不同于0%、50%和100%的分数,在生物样本的核酸片段中表示对于给定基因位点的等位基因。这样的情形可以包括、但不限于异质性、污染和非整倍性(aneuploidy)。例如,肿瘤样本(例如,癌症样本)由于样本内的正常/间质组织污染、或者由于同一肿瘤样本内的多个不同肿瘤群体而可以是异质的。在另一示例中,肿瘤样本可以是非整倍性的,使得染色体(或其区域)具有不同于二的拷贝数目,由此导致在存在三个拷贝时,等位基因分数从对于het的50%偏离至33%或66%。可变等位基因分数值的示例包括、但不限于以下范围和/或其组合中的值:0.005至0.10;0.10至0.20;0.20至0.30;0.30至0.40;0.40至0.49;0.51至0.60;0.60至0.70;0.70至0.80;0.80至0.90;0.90至0.99;以及更一般地,在0.005至0.49和0.51至0.99的范围中的任何值。
“假设”是指可包括一个或多个基因位点的基因组区域中可能出现的一个或多个等位基因的集合。假设通常是二倍体且包括两个等位基因;然而,在一些实例中,假设可以仅包括一个等位基因(例如,对于人类男性中的Y染色体中的区域)或多于两个等位基因(例如,可用在一些实施方案中的三倍体或更高假设)。“参考假设”是指包括对于给定基因组区域的来自参考基因组的等位基因的假设。“纯合假设”是指包括对于给定染色体的两个拷贝中的相同的对应基因组区域的相同等位基因的假设。“杂合假设”是指包括对于给定染色体的两个拷贝中的相同的对应基因组区域的两个不同等位基因的假设。“三倍体假设”是指包括对于给定染色体中的相同的对应基因组区域的三个或更多个不同等位基因的假设。
“变异”是指在生物样本序列中的给定基因位点处的、与位于参考序列中的对应基因位点处的等位基因通过一个或多个碱基不同的等位基因。“小变异”是指包括一个至几十个核苷酸碱基的变异;例如,小变异可以在如下范围中:1-10碱基对(或bp),1-20bp,1-30bp,1-40bp,1-50bp,1-60bp,1-70bp,1-80bp,1-90bp,1-100bp,1-110bp,1-120bp,1-130bp,1-140bp,1-150bp,1-160bp,1-170bp,1-180bp,1-190bp,1-200bp,1-300以及更一般地,在1-300bp或更大的范围的任何子范围中。不同类型的变异的示例包括、但不限于SNP、插入缺失、拷贝数目变异(“CNV”)、结构变异(“SV”)等。“参考识别”是从读段的集合确定基因位点为纯合且等于该参考。
“得分”是指定量表征例如假设、等位基因、变异等的值。得分可以以分贝(dB)度量并且可以基于用于表示概率、似然性和似然比的对数尺度。例如,以dB表示的两个概率P1与P2之间的似然比(例如,R=P1/P2)的值是10*log10R。在使用分贝来编码错误概率P(例如,如在碱基识别(basecall)质量得分或误映射概率中)的情况下,得分可以表示为(-10)*log10P。
“逻辑”是指当由一个或多个计算设备的一个或多个处理器(例如CPU)执行时可操作以执行一个或多个功能和/或返回以一个或多个结果的形式的数据或由其它逻辑元件使用的数据的指令的集合。在各个实施方案和实施方式中,任何给定逻辑可以被实施为可由一个或多个处理器(例如CPU)执行的一个或多个软件组件,被实施为诸如专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)的一个或多个硬件组件,或者被实施为一个或多个软件组件和一个或多个硬件组件的任意组合。任何特定逻辑的软件组件可以在无限制的情况下被实施为独立的或客户端-服务器软件应用,被实施为一个或多个软件模块,被实施为一个或多个功能库,以及被实施为一个或多个静态的和/或动态链接的库。在执行期间,任何特定逻辑的指令可以体现为一个或多个计算机进程、线程、光纤、以及可以在一个或多个计算设备的硬件中实例化且可被配备诸如存储器、CPU时间、存储空间和网络带宽的计算资源的任何其它合适的运行时实体。
具体实施方式
癌症样本是复杂的。例如,肿瘤样本的不同细胞可能具有不同的基因组。由于对正常DNA的污染和/或肿瘤进化中的多个分支,这些样本经常在基因组中展现出这种异质性。当在同一测序实验内分析这些不同细胞时,所测量的在特定基因座处的等位基因的拷贝数目可能变化。例如,具有特定等位基因的DNA的百分比(等位基因分数)可能具有在0%与100%之间的任何值。因此,在研究癌症基因组的重大挑战是能够检测癌症样本中的细胞的小分数中存在的变异。
为了解决此挑战,用于确定特定区域中的样本的基因组的过程可以明确地允许等位基因分数在值的范围之间变化(例如,在0%与100%之间的任意值)。样本的此确定的基因组可以有效地是正被测试的样本内的不同细胞的基因组的复合物。因此,可以使用实施方案确定肿瘤样本的基因组组成的更完整画面。
为了确定此复合基因组,对于区域的序列假设(即,对于该区域中的复合基因组的假设)可以包括对于包括该序列假设的多个等位基因的特定可变分数。可以使用说明相应序列假设中指定的等位基因的分数的概率函数,来确定对于变异区域的每个序列假设的似然性。例如,特定基因座处的特定等位基因可能出现在样本的DNA材料的20%中,而不出现在样本的DNA材料的其余80%中。概率函数可以接收等位基因分数作为输入,因此具有不同等位基因分数的假设将具有不同似然性。因此,本文所述的VAF(可变等位基因分数)模型的实施方案可以分配反映具有不是纯合(染色体相同)或杂合(两个不同等位基因的相等百分比)的等位基因的此可能性的得分。在一个实施方案中,可以要求等位基因分数在阈值之上,例如用以避免对测序错误计数。
I.流水线(pipeline)
当从生物体(例如,人类)获得生物样本时,可以对样本中的核酸测序以确定样本的基因组。通常,构建样本基因组的部分涉及将序列映射至参考基因组(将序列与参考基因组联配(align))、以及辨识序列与参考之间的变异。然而,确定序列的过程不是无错误的。因此,确定测序数据实际上是否指示真正的变异可能是困难的。当样本实际上是不同细胞(它们的基因组不同)的复合物时,此困难会更复杂。以下流水线提供可用于辨识样本中的仅一些细胞的基因组中的变异并确定出现变异的细胞的分数的方法的各个实施方案。流水线还可以用于确定肿瘤样本中相对于生物体的正常基因组的体细胞变异是否为真正的变异的似然性。
A.系统
图1是根据本发明的实施方案的、被配置为执行用于识别变异的技术的示例系统100的框图。在一些实施例中,系统100或其特定子系统可以用在本文所述的方法和技术的任何一个中。系统100可以包括多个子系统,例如,诸如测序机器110的一个或多个测序机器、诸如计算机系统130的一个或多个计算机系统、以及诸如数据存储库160的一个或多个数据存储库。各个子系统可以通过一个或多个网络120而通信地连接,所述一个或多个网络120可以包括分组交换或其它类型的网络基础架构(infrastructure)设备(例如,路由器、交换机等),其被配置为便利于远程系统之间的信息交换。美国专利申请No.12/770,089中描述了系统100的实施方式的特定方面,通过引用将其全部内容合并在此,如同完全在这里阐述其一样。
测序机器110被配置为且可操作以接收从生物样本中的分子得到的核酸片段105,并对片段执行测序。可以使用可以执行测序的任何合适的机器。在一些实施方案中,片段的测序可以导致不包括缺口的读段。在其它实施方案(诸如图1中图示的实施方案)中,目标核酸的测序可以导致获得配对读段162,其被传送至数据存储库160以用于永久存储。配对读段162包括来自片段的不同端的两个臂读段。
可以在一个或多个可以以诸如网格、存储集群、存储区域网络(SAN)和/或网络附加存储(NAS)的合适方式互联的存储设备(例如,硬盘驱动器、光盘、固态驱动器等)上实施数据存储库160。在各个实施方案中,数据存储库160可以被实施在存储设备上,作为将信息存储为文件的一个或多个文件系统、作为将信息存储在数据记录中的一个或多个数据库、以及/或者作为任何其它合适存储组织。在所示的实施方案中,数据存储库160被配置为存储参考基因组161、配对读段162、以及配对读段至参考基因组161的映射163的序列。数据存储库160还被配置为存储各种其它数据164,其包括、但不限于计算机系统130中的各个计算机逻辑生成的假设数据、变异评分数据、校准数据、以及各种其它中间数据和/或最终结果(例如,变异文件)。
计算机系统130可以包括一个或多个计算设备,其包括通用处理器(例如,中央处理单元或CPU)、存储器、以及与配置数据或软件一起可以执行本文所述的技术的逻辑。在一些实施方案中,计算机系统130可以是单个计算设备。在其它实施方案中,计算机系统可以包括可以在网格或集群中通信地和/或操作地互联的多个计算设备;可以以诸如计算节点、叶片(blade)或任何其它合适的硬件配置的不同外形因素配置这类多个计算设备。
在所示的实施方案中,计算机系统130包括组装(assembly)逻辑131(也称为“组装器”),其被配置为执行本文所述的用于识别变异的技术。映射逻辑132被配置为将配对读段162映射至参考基因组161并且生成并存储映射163。区间发现逻辑133被配置为确定(例如,至少基于配对读段162和映射163)可能似真地包含变异(包括小变异)的生物样本的样本基因组中的变异区间(也称为变异区域)。优化逻辑134被配置为搜索假设的空间以基于概率得分发现最优假设,例如用以确定每个变异区间的最大似然性假设。变异识别逻辑135被配置为识别变异并基于最优假设分配指示变异假设的似然性的变异得分。
假设重新评分逻辑136被配置为对变异的假设进行重新评分(潜在地改变变异得分)。相关性过滤逻辑137被配置为确定分段重复并且不识别对应基因组区域中的变异。注释逻辑137被配置为利用来自各个基因组数据库的信息注释所识别的变异,并将注释存储在变异文件或其它合适的存储结构中。逻辑132、133、134、135、136、137和138的功能可以实施在同一集成模块中(例如,在集成组装逻辑中),或者可以组合在可提供一些附加功能的两个或更多个模块中。
B.方法
图2是根据本发明的实施方案的、用于确定参考基因组与来自二倍体生物体的生物样本的样本基因组之间的一个或多个变异的方法200的流程图。方法200可以由系统100执行。至于其它方法,可以以与所呈现的不同的顺序执行各个步骤。
在块210,接收样本基因组的读段以及读段至参考基因组的映射。可以从对来自生物样本的多个基因组片段进行测序的测序机器110接收读段。读段(例如,配对读段162)可以被发送至计算机系统130以用于分析。读段至参考基因组的映射可以是精确的、或具有错配(例如,小于诸如2的阈值)。对于一些配对,配对的仅一个臂读段匹配。
在一个实施方案中,对于配对的每个臂,映射逻辑132可以发现所有完美匹配和所有1-不一致(k=1)匹配,发现多至k=5的一臂匹配的大(substantial)分数,以及发现所有k=2匹配。彼此几个碱基以内的映射可以被解重复。例如,克隆DNB可能不是独立生成的,但是每个独立地贡献于得分。可以通过序列相似性移除重复DNB。在本地解重复之后具有太多索引命中或太多匹配的臂读段可以被标记为“溢出”,并且省略臂读段的映射。可以过滤掉包括重复的基因组位置的读段。
在块220,辨识样本基因组的第一区域,其中该第一区域具有在第一阈值之上的、包括相对于参考基因组中的对应区域的一个或多个变异的第一似然性。例如,如果特定基因座具有参考基因组中的等位基因A,并且等位基因G的显著分数(即,大于阈值)在被映射至特定基因座的读段中出现,那么可以辨识包括该特定基因座的区域。作为另一示例,可以使用概率函数来测试是否存在一个或多个其他等位基因为任意分数的足够充分似然性(即,大于阈值的概率)。可以辨识多个这样的变异区域,并且可以将一些变异区域组合以创建更大区域(例如,当两个区域彼此靠近时)。
因此,区间发现逻辑133可以扫描由读段表示的样本基因组,寻找可能似真地包含SNP或短插入缺失的基因组的区域。结果可以提供(1)在优化阶段中被更详细调查的变异区间(也称为变异区域)的集合、以及(2)给出变异存在在任意给定碱基的似然性的指示的参考得分。在一个实施方案中,区间发现逻辑133可以尝试每个一碱基(one-base)SNP的假设。
区间发现逻辑133还可以运行本地从头(de novo)组装逻辑以发现插入缺失。在参考的本地从头逻辑指示插入缺失存在的甚至细微证据的每个位置,区间发现逻辑133可以尝试所有一碱基插入缺失。区间发现逻辑133还可以尝试低复杂度区域(例如,均聚物运行(run)、二核苷酸运行、以及多至10的重现周期的其它低复杂度序列)中的所有单拷贝插入或缺失。区间发现逻辑133可以另外尝试所有已知插入缺失以及短块替换,其是从变异的一个或多个数据库(例如,专有变异数据库和/或诸如dbSNP的公开可用数据库)取得的。
在块230,确定针对样本基因组的第一区域的序列假设的优化列表。在一个实施方案中,优化逻辑134可以接收本地从头组装的结果、已知插入缺失和块替换的集合、以及参考中的任意一个作为初始种子(起始假设)的输入用于优化。优化逻辑134可以使用起始假设以在急切的寻找最大似然性假设的优化过程中生成新假设。
每个序列假设具有概率得分,其用于确定优化列表。单个序列假设可以包括对应于第一区域的一个或多个序列。例如,一个假设可以是第一区域对于同一7nt为纯合,其有效地辨识针对第一区域中的样本基因组的两个相同序列。此假设将具有一个概率得分(例如,如使用贝叶斯框架和映射信息而确定的)。针对第一区域的另一假设可以是第一区域中的第三位置对于两个等位基因(例如,A和G)为杂合。然后,假设将是在第三位置不同的两个不同序列。又一假设可以是等位基因A存在80%且等位基因G存在20%,这将在样本中的细胞的60%对于A为纯合且40%对于A/G为杂合的情况下发生。计算将如下:0.6+0.4*0.5=0.8(即80%)以及0.4*0.5=0.2(即20%)。下面将更详细讨论等位基因分数的概念。
有时,仅一个假设具有可评估的(appreciable)概率得分(例如,在阈值之上)。其它时间,几个概率可能相对接近(即使大dB差异也可以被认为接近)。在这样的实例中,可能需要进一步的分析。当变异多于一个碱基(例如,10或20个碱基)时,通常将发生使得几个假设在概率得分上接近。在这样的复杂变异中,多个假设可能具有相似的概率。在任一情况下,顶级假设或所有假设以及它们相应的概率得分可以被提供至变异识别器以用于解析。
在块240,基于序列假设的优化列表辨识第一区域中的一个或多个变异识别的初始集合。如果仅一个假设作为可评估的概率,那么可以简单地选择该顶级假设。在此情况下,如果顶级假设不同于参考,那么可以识别变异。然而,当多个假设相对接近(例如,100dB)时,可以执行更复杂分析。
变异识别逻辑135可以从优化阶段期间生成的评分的假设的优化列表中确定最有可能的假设,以识别变异或不进行识别。例如,可以使用顶级假设的概率得分的相对值(变异得分)以确定指示顶级假设比第二高假设更有可能正确的可靠性的变异得分。在一个实施方案中,如果变异得分在阈值之上,那么进行变异识别。如果变异得分在阈值之下,那么可以不进行识别;假设和它们的概率得分可以被传递至进一步的阶段,因为重新评分可能改变识别,或者简单地被输出以用于分析。因此,在合适的永久或临时数据结构中,变异识别器将识别的集合与它们对应的变异得分和次佳假设一起存储和/或输出。
在块250,可以对一个或多个变异识别的初始集合的变异得分进行重新评分。例如,可以限制一个读段对变异得分的贡献。以此方式,可以通过确保单独的读段无法提供对假设的压倒性(overwhelming)支持来实现假阳性率的降低。
在块260,可以基于样品基因组的区域(例如,第一区域)与其它区域的相关性过滤特定变异。相关性过滤逻辑137可以辨识假设的概率得分很可能由于与基因组的其它区域的序列相似性而不可靠的区域。相关性过滤逻辑137可以将变异识别改变为不识别,以降低重复区域中的变异检测的假阳性率。例如,在前组装阶段内的逻辑孤立地考虑基因组的每个区域,并假定基因组的其余等于参考。结果,在分段重复和读段无法被唯一地映射的具有大规模相似性的其它区域内,变异识别器可以识别具有相似性的所有区域中的变异,其本应仅对于一个区域被识别。因为读段无法辨别这些变异真正存在于基因组的哪个区域,所以可以不识别这样的重复区域。
在块270,使用复制校准确定校准得分。来自块250的置信得分对于确定变异是否实际存在来说可能不准确。得分反映了在给定数据的情况下哪个假设更有可能,但是,由于数据中的错误,假设可能实际上不正确。复制评分提供创建变异多有可能实际上存在的得分的方式。还可以确定参考校准得分以测量参考识别为假阴性的似然性。可以通过比较从同一样本确定的基因组、并分析一个基因组具有变异且第二基因组具有参考识别的不一致基因座,确定这些校准得分。
在块280,可以为变异发生在肿瘤样本中、而非正常样本中的基因座确定体细胞得分。可以通过对肿瘤样本执行测序运行以确定肿瘤基因组中的第一变异、并对肿瘤样本执行测序运行以确定正常基因组中的第二变异,来确定这种不一致基因座。然后,可以使用肿瘤基因组的变异得分来确定假阳性的似然性,并且可以使用正常基因组的参考得分来确定假阴性的似然性(例如,使用块270中的校准得分),它们可以被组合以确定体细胞突变是否为真的似然性。
C.区间发现
在各个实施方案中,区间发现过程可以包括针对以下中的一个或多个尝试假设:(1)针对任何等位基因分数的SNP的所有可能的一碱基变异;(2)所有可能的一碱基插入和删除,其中本地从头组装指示插入缺失存在在纯合和杂合形式中的甚至细微证据;(3)在纯合和杂合形式中的多至10个碱基的串联重复循环中的所有单拷贝插入或删除,其中本地从头组装产生插入缺失的证据;(4)从已知变异的一个或多个数据库取得的已知插入缺失和短块替换;以及/或者(5)由本地从头组装的快速版本发现的(几个核苷酸的)短插入缺失。
对于每个假设G,逻辑可以计算该假设为正确的似然性L(G)。在大多数位置,L(G)被计算为负,指示参考比任何其它变异更有可能在该位置。在一碱基变异出现的情况下,L(G)被计算为大且正的。在含有(harbor)更长变异的区域中,一碱基变异的L(G)通常仍然为负,但比在没有变异出现的区域中小得多的程度。在此事件下,L(G)可以用于指示附近变异的存在,并且这样的变异区域可以被标记用于在后续阶段中的优化。在一个实施方案中,逻辑可以在不试图优化的情况下不识别长于200个碱基的区间,因为优化可能变得太计算密集。
当扫描SNP的所有可能的一碱基变异时,可以为基因组中的每个位置计算概率得分,以给出变异在任意给定碱基存在的似然性的指示。大于阈值(例如,10dB)的概率得分可以标记用于优化阶段中的优化的区间。变异区域可以比仅一个碱基大,例如,以SNP为中心的窗口,诸如7碱基窗口。
对于稍大于一个或两个碱基的变异(例如,10个碱基),可以使用本地从头组装的图版本。可以通过辨识图中的不同于参考的一些分支(例如,大于某个阈值)何时出现、然后将那些区域简单地辨识为可能包含变异,来使用快速版本。用于确定变异区域的阈值还可以是支持特定分支的配对的数目、或者基于该数目。在一些读段被部分地映射至该区域、但是一旦读段进入该区域就开始不同时,这种使用可以发生。可以使用未映射的读段的重叠来确定用于优化的变异区域中的起始假设。
对于更大变异(例如,大于20个碱基),可能不存在任何映射至实际变异的区域的读段。可以通过查看区域的覆盖改变(其可指示插入缺失或重排)来辨识这样的区域。一旦辨识了区域,本地从头可以查看一臂读段在该区域附近(例如,在500个碱基内)映射的配对。然后,可以分析另一臂读段以辨识这些另外臂读段之间的一致性。这些另外臂读段可能不映射至参考基因组上的任何位置(至少不在所映射的臂读段的预期范围内)。这样的配对可以称为不一致配对。可以使用如本文提及且在美国专利申请No.12/770,089中描述的de Brujin图来确定未映射的臂读段之间的一致性。
D.优化
在各个实施方案中,可以通过以下假设之中的最有可能的假设来接种(seed)优化过程:参考假设;通过使用本地从头组装而被发现为似乎合理的假设的假设集合;在已知变异(其可以从对亲本、同胞或其他家族的基因组测序而已知)的一个或多个数据库中组装的插入缺失和块替换的集合中的假设集合;单个读段,当整个读段覆盖变异区域时;以及用于肿瘤样本的种子的正常基因组。使用已知变异可以提高插入敏感度并减少假阴性(例如,称为参考的插入缺失),尤其对于其它变异附近的插入缺失和SNP。
此起始假设可以用作至优化过程(例如,急切的优化过程)中的输入,该优化过程搜索等位基因的最有可能的组合一辨识最大似然性(或顶级)假设。在一个实施方案中,在优化的每次迭代,逻辑评估通过从起始假设偏离对应于单个SNP、一碱基插入缺失、或者添加或减去简单重复(诸如均聚物和二核苷酸运行)的单个拷贝的插入或删除的单等位基因变异而生成的每个假设的似然性(概率得分)。也可以以其它方式生成用于迭代的假设组。
在每个后续迭代,计算机逻辑采取在前一迭代期间发现的最佳(顶级)假设作为输入。在一个实施方式中,经由贝叶斯框架(下面描述)确定概率得分以计算假设的似然性。当优化的迭代不能发现更有可能的假设时,计算机逻辑已经收敛在本地最小,并且优化完成。此方法允许发现隔离的变异和区间内多个SNP和插入缺失的任意组合、以及相反的单体型上的重叠的不同变异两者。对于每个区间,在合适的永久或临时数据结构中,优化逻辑可以存储和/或输出被用作至基于这些值识别变异的下个(变异识别)阶段中的输入的最有可能的假设的列表。
作为示例,如果组(例如,在迭代期间生成的组)中的特定假设具有比起始假设更好的得分,那么逻辑可以选择此特定假设作为用于下个迭代的新起始假设。逻辑可以使用新起始假设以生成针对该区域的新假设组,并对新假设组中的每个假设进行评分。计算机逻辑可以重复此过程一次或多次,直到当前起始假设具有比当前假设组中的任何假设更好的得分为止。
图3示出根据本发明的实施方案的、用于选择新起始假设的示例过程300。该过程以假设“H0”作为起始(或种子)假设(其包括两个等位基因—“ACG”和“ACG”)而开始,并且为此假设计算得分“100”。基于假设“H0”,计算机逻辑生成假设组并对该组中的每个假设进行评分;然后,计算机逻辑确定该组中的一个特定假设,即假设“H1”(其包括两个等位基因—“TCG”和“ACG”),具有比假设“H0”更好的得分(“120”)。计算机逻辑然后将假设“H1”设置为新起始假设,基于新起始假设生成新假设组,并对新组中的每个假设进行评分。通过比较所计算的得分,计算机逻辑确定新组中的最佳评分假设,即假设“H2”(其包括两个等位基因—“TCT”和“ACG”),具有比新起始假设“H1”更低的得分;因此,计算机逻辑选择假设“H1”作为变异区域的顶级假设,并结束评分过程。
E.变异识别
现在描述变异识别的各个实施方案。变异识别器逻辑可以被配置为将来自优化阶段的经评分的假设转变成经评分的变异识别和不识别。因此,变异识别器可以确定在哪里进行识别、在哪里不进行识别、如何将识别与样品基因组联配、赋予每个变异识别什么变异得分、以及如何将单体型标识符分配至变异识别。单体型ID辨识染色体拷贝,使得如果两个等位基因具有相同单体型ID(例如,“0”或“1”),则其将意味着所述两个等位基因出现在给定染色体的同一拷贝中。在一个实施方案中,变异识别器逻辑使用贝叶斯模型来计算来自优化阶段的任意两个假设的概率比,并且,然后根据此贝叶斯概率模型,基于最有可能的假设进行变异识别。
变异识别器可以通过使用具有仿射缺口(affine gap)成本的简单序列对准器将顶级假设与基因组联配而开始。联配中的缺口表示插入缺失。不在其它变异附近的缺口(插入缺失)可以被强制为左侧、为规范形式。另一变异的两个碱基内的插入缺失留在另一变异附近(are left near the other variant),因为这些被转变成块替换识别。一方面,最终进行的所有识别将与顶级假设的此联配一致。
基于顶级假设的联配,变异识别器逻辑可以确定识别的初始集合以及识别边界。例如,如果存在同一等位基因上的SNP、参考碱基和SNP,则可以视为三碱基替换的单个识别。但是,如果假设具有SNP、两个参考碱基和SNP,那么可以视为两个分别的SNP识别、以及它们之间的一个参考识别。因此,在一个实施方案中,任何两个连续的参考碱基识别将识别分裂为两个分开的变异识别和一个参考识别。一旦逻辑已经确定每个等位基因的识别边界,然后逻辑就可以确定基因座边界。为了确定基因座边界,逻辑可以将变异区间分裂为由以下规则定义的初始变异基因座:将重叠了至少一个参考碱基的识别合并为单个基因座;并且将具有0个参考碱基的识别(例如,插入)与任何相邻基因座合并。
一旦变异区间被分裂为变异基因座,变异识别器逻辑就迫使基因座转变为适当的倍性(ploidy)。对于三倍体假设(下面更详细讨论的),每个基因座被分别迫使转变为二倍体假设。大多数三倍体假设可以被迫使转变为二倍体变异基因座,因为在每个基因座处通常仅有两个不同等位基因。然而,应注意,当迫使三倍体假设转变为二倍体基因座时,某些相位信息可能丢失。而且,可能不识别具有三个等位基因的变异基因座。对于具有三个等位基因的变异基因座,必须不进行识别。实际上,大多数三倍体假设可以被迫使转变为二倍体变异基因座,因为在每个基因座处,仅有两个不同等位基因。当三倍体假设被迫使转变为二倍体基因座时,某些单体型ID信息丢失。
对于顶级假设的10dB内的每个附加假设,变异识别器逻辑使用与用于顶级假设相同的规则(除了可以优选地将缺口布置在与顶级假设中的变异相同的位置之外),将假设与参考联配。对于每个这样的假设联配,变异识别器逻辑将联配的碱基与顶级假设比较。在任何偏差(discrepancy)位置,变异识别器逻辑可能需要不进行识别。
变异识别器逻辑计算每个识别的初始变异得分作为最有可能的假设与不包含给定候选变异的次佳纯合假设(即,相互矛盾的假设)相比较的概率比的对数(分贝分离(decibel separation),dB)。如果给定变异的变异得分超过阈值(例如,对于纯合和杂合变异分别为10dB和20dB),则变异识别器逻辑识别变异以及其变异得分。如果变异得分在阈值之下,则变异识别器逻辑针对参考的对应部分而报告“不识别”。
对于杂合识别,变异得分是顶级假设得分与在识别的位置处为纯合、但与识别不一致的第一假设的得分之间的差异。因此,该得分比识别的正确性更加指示识别的存在。此定义可以通过以下示例说明:
顶级假设(得分100):ACAG--AAAAAAAATGC
ACAGAAAAAAAAATGC
下个假设(得分30):ACAG--AAAAAAATGC
ACAGAAAAAAAAATGC
参考假设(得分0):ACAGAAAAAAAAATGC
ACAGAAAAAAAAATGC
在此示例中,变异识别器将识别具有得分100、而非70的杂合一碱基缺失(在第五个位置中被标记为“--”)。原因是,虽然关于两碱基缺失,存在70dB的对一碱基缺失的支持,但是存在100dB的对非参考变异的支持。此定义得分的方式产生用于生殖细胞(germline)序列为参考的体细胞事件的改进的ROC(接收器操作特性)曲线,但是用于错配事件的ROC曲线更差。可以通过对次佳假设设置得分上的阈值(例如,20dB)来缓和用于错配事件的更差的ROC曲线。基于校准结果,在20dB识别的变异可能与为真相比,有10倍(10X)可能性为假。
对于纯合识别,变异得分是顶级假设得分和与识别不一致的第一假设之间的差异,并且使用与用于杂合识别相同的规则确定另一识别的变异得分。这样,具有较低得分的识别指示在此基因座没有其他等位基因,而具有较高得分的识别指示此等位基因存在在此基因座。当变异识别器逻辑将变异得分应用至识别时,变异识别器逻辑记录被用于确定变异得分的次佳假设,因为可以在假设重新评分阶段中对此假设进行重新评分。
类似地,参考得分是参考的似然性除以最佳非参考假设的似然性,例如,如以分贝表示的。因此,参考得分10意味着参考的可能性为任何其它假设的10x,得分20意味着参考的可能性为任何其它假设的100x,而得分30意味着参考的可能性为任何其它假设的1000x。参考得分-10意味着一些其它假设的可能性为参考的10x。
F.相关性过滤
如上所述,相关性过滤逻辑可以在类似于其它区域的区域中将变异识别改变为不识别,由此大幅减少重复区域中的假阳性识别。例如,在某些情况下,由于具有至两个区域的良好映射的配对,一次需要考虑两个区域。
基于所存储的信息,变异识别器可以计算序列假设G的似然性为对数似然比L(G),其中L(G)=log(Pv/PRef)。Pv是1碱基初始假设的概率,而Pref是参考G0中的碱基值的概率。可以在于每个碱基位置计算概率比期间使用每个碱基位置附近的映射的配对读段的集合。
上述公式化用于计算对于仅在单个小面积(称为活性(active)区间)中不同于G0的基因组G的L(G)。在该情况下,在G和G0在活性区间外部相同的假定下,计算L(G)给出关于活性区间中给定变异的似然性的信息。然而,同时考虑变异在基因组A和B的两个分开区域(潜在地彼此远离)中的可能存在也是有用的。尤其,如果两个区域被充分大的距离分开,则特定多核苷酸序列(诸如通过特定经验操作生成的那些多核苷酸序列)不可能具有覆盖(甚至部分地覆盖)两个区域的映射。在以下基因组中,考虑两个区域1和2:
基因组G1,其在区域1中不同于参考,但在区域2中与参考相同。
基因组G2,其在区域2中不同于参考,但在区域1中与参考相同。
基因组G12,其在两个区域中不同于参考,并且其在区域1中与G1相同且在区域2中与G2相同。
在大多数情况下,等式L(G12)=L(G1)+L(G2)将成立(即,两个区间不相关),因为支持G1的臂读段的集合与支持G2的臂读段的集合不相交。然而,存在两个支持臂读段的集合相交的情形,例如:
两个活性区域少于≈40个碱基,使得单个DNB臂可能重叠两者。两个活性区域的距离近似等于配对缺口长度,使得单个DNB可能重叠两者。
两个活性区域在基因组中彼此距离任意距离,但在序列中是相似的(精确地或近似地),并且DNB可能具有至两个区域的良好映射。
在这些情形中,相关项出现,并且L(G12)不再等于L(G1)和L(G2)的和,而是L(G12)=L(G1)+L(G2)+G12,其中C12是相关项。可以使用在优化阶段存储的信息计算C12,因此可以为每对识别的变异计算L(G12)。然后可以将L(G12)与L(G1)和L(G2)两者相比较。
相关项的值可以揭示与通过孤立地考虑L(G1)和L(G2)而将达到的结论相矛盾的信息。例如,在具有高序列相似性的区域对中,可以具有大的近似相等的值L(G1)=L(G2)=L(G12)。在此示例中,所有三个以下假设具有等同的可能性:变异存在在区域1中,且不存在在区域2中;变异存在在区域2中,且不存在在区域1中;以及变异存在在两个区域中。因此,对于两个可能变异的每个,存在具有相等似然性的互相矛盾的假设,一个假设指示变异存在,而另一个假设指示变异不存在。为此,计算机逻辑在相关性过滤阶段可以检测这样的重复区域并且不识别可能已经在这样的区域中被识别(在在前阶段)的变异。
在一个实施方案中,如果这三个量L(G12)、L(G1)和L(G2)中之一超过了另两个多于预定阈值(例如,30dB),那么识别对应的假设。这将意味着两个变异之一很有可能实际上不存在,因此将对应的区域识别为等于参考。在某些情况下,三个量中的两个太接近以至于不能确信地做出选择。这可能导致某些不识别的区域被添加至变异文件。例如,如果L(G12)=200dB,L(G1)=200dB,L(G2)=100dB,则两个最有可能的假设两者在区域1中均包含变异,其因此仍然被识别。然而,区域1中的变异需要不被识别,因为G12和G1具有同等的可能性。
II.EAF方法
在相等等位基因分数(EAF)方法中,对于在基因座的假设存在三个选项:对于第一等位基因A的纯合(100%A:0%B),对于第二等位基因的纯合(0%A:100%B),或者杂合(50%A:50%B)。这些选项是在确定基因组时考虑的标准选项。采取最高的选项作为在该基因座的假设。可以使用贝叶斯概率模型计算概率。
在这些实施方案中,计算机逻辑从贝叶斯概率模型计算序列假设的得分,贝叶斯概率模型例如可以考虑:证据的数量(读段深度);证据的质量(碱基识别质量得分);映射/联配概率(证据的选择);以及关于缺口大小和不一致率的经验先验。因此,概率可以基于对于读段的测量的错误(质量)(例如,图像处理错误)、读段对于给定假设的一致性、以及缺口概率(假定的缺口是否在预期范围内)。
在一个示例中,贝叶斯概率模型指示在给定原始数据中存在的对应于DNB(可以从其获得配对的分子的示例)的读段的集合的情况下的假设的似然性:
虽然对于典型的人类基因组,存在大量先验(诸如,对于任何给定碱基位置,杂合SNP存在的假设的可能性仅约为参考序列的1/1000),但是,在示例实施方案中,组装器在计算似然比时不使用关于假设似然性的先验信息。因此:
在后一等式(1)中,假定所有DNB是独立的。然而,此假定有时被违反,诸如,在DNB可能分裂开并且在图案化(patterned)的阵列上的几个点(spot)上被测序、或者DNA的单个片段可能在库准备过程中被复制并导致多个DNB的情况下。因此,在DNB被小变异组装器使用之前,通过序列相似性解重复DNB。
一旦达到以上等式(1),评估任何两个假设的似然比变成确定每个DNB和假设的P(DNB|Hi)的事情。因此,在EAF模型中,确定三个可能假设的每个的概率,并且可以选择具有最高概率的假设。
III.可变等位基因和异质性
如上所述,对于相等的等位基因分数(EAF),仅存在三个可能假设。但是,有时样本可能不适于基因组的三个标准假设之一。这样的实例是癌症,其中肿瘤的每个细胞可能不具有二倍体基因组的相同两个单体型,而是肿瘤的不同细胞可能具有许多不同的变异。实施方案提供新模型以分析这样的实例。因此,假设可以包括每个等位基因在基因座的百分比(等位基因分数),并且该百分比可能不同于0%、50%或100%。
癌症肿瘤中的细胞的基因组中的此变异称为异质性。异质性可能由于多个肿瘤群体(给定样本分支中的肿瘤基因组可以累积不同突变)和正常组织污染(肿瘤样本包含实际肿瘤内容的不同层次(level))而产生。这样的不同突变还可以包括非整倍性(异常数目的染色体或染色体区域)。
在一些依赖短读段测序的实施方案中,生物样本可以包括数千、甚至数百万的DNA片段被从其提取并被测序的细胞。因为不同的肿瘤细胞可能具有不同的DNA序列(例如,尤其在DNA不断改变的癌症细胞中),所以肿瘤细胞的生物样本可能实际上具有不同基因组的DNA的异质混合物,得到样本基因组的复合基因组。现在提供可能导致肿瘤样本的混合物的类型的示例。
图4是图示具有不同基因组的不同细胞的不同混合物的图400。样本401-405展现出细胞的类型的不同混合物。每个柱状条(bar)对应于不同样本,其中不同颜色和百分比示出等位基因G和A在特定基因座的分数。在每个柱状条下示出来自肿瘤的细胞的百分比(和肿瘤的类型)以及来自正常细胞的百分比。纵轴示出从0%至100%的等位基因分数。等位基因分数(AF)是包含特定基因座处的特定等位基因的样本的百分比。
样本401是100%肿瘤I,其中肿瘤I对于等位基因A和G相等地杂合。此相等杂合性是术语“杂合”通常考虑的。在较暗的50%部分411中标记等位基因G,并且在部分412中标记等位基因A。样本402是100%正常细胞,其对于A纯合。样本403是80%肿瘤I和20%肿瘤。因此,样本403是60%等位基因A和40%等位基因G。对60%等位基因A的贡献被示出为40%来自肿瘤I细胞且20%来自正常细胞。因此,由于具有异质样本,变异可以为低于50%的等位基因分数。
样本404是100%肿瘤II,其中肿瘤II具有67%等位基因A和33%等位基因G。这样的等位基因分数可以从包括基因座的染色体或染色体区域的非整倍性(特别是三体性)、或者从染色体内或另一染色体中的基因座的复制得到。样本405为80%肿瘤II和20%正常,其提供27%等位基因G和73%等位基因A(20%来自正常细胞且53%来自肿瘤II细胞)。许多其它混合物可能存在,包括在指定基因座具有样本中存在的多于两个等位基因(例如3个)。
如可见的,样本的基因组可以是组成作为样本的混合物的不同细胞的复合基因组。肿瘤异质性、非整倍性和正常组织污染使得更难以识别变异。实施方案可以通过允许任何基因座的等位基因分数可变,从而允许检测特定基因座处的变异的百分比和具有特定变异的样本中的细胞的百分比,来确定此复合基因组。
图5示出三个不同样本501-503的基因组的图500。样本501具有在基因座510杂合的二倍体基因组,基因座510可以是变异区域或变异区域的部分。在这样的二倍体基因组中,基因座510处的等位基因A将来自单体型I(例如,来自母系),而基因座510处的等位基因G将来自单体型II(例如,来自父系)。两个单体型在所示的区域内的其它位置处相同。可以从三个标准假设之一(即相等杂合)确定这样的二倍体基因组。样本502具有在基因座510的三倍体基因组。样本502中的所有细胞为三倍体,在于存在两个拷贝单体型II。因此,在所示区域中,每个细胞存在三个染色体拷贝。
样本503是具有不同基因组的不同类型的细胞的异质样本。此肿瘤区域具有三个不同等位基因,其具有两个het SNP基因座510和520。第一个等位基因在基因座520处具有T且在基因座510处具有A。第二个等位基因在基因座520处具有T,但在基因座510处具有G。第三个等位基因在基因座520处具有C且在基因座510处具有G。可以根据计算基因组的83%在基因座520处具有T且复合样本基因组的25%在基因座510处具有A,来确定复合样本基因组的这种信息。可以通过定相(phasing)以确定当A发生在基因座510处时T发生在基因座520处,来完成两个het之间的相关性。这样的复合基因组可能从许多不同混合物得到,因此可能不知道(根据复杂度)细胞的任何一个类型的精确基因组,但是可以经由实施方案确定复合基因组。
为了解决此挑战,所述技术可以基于表示在各个基因组基因座处的从生物样本中包括的核酸片段测序的等位基因群体的百分比的可变等位基因分数值而检测变异。例如,假设可以指定特定等位基因在样本的DNA材料的20%中在特定基因座,而不存在于样本的DNA材料的其余80%中。假设中的每个等位基因可具有对应的等位基因分数。使用VAF(可变等位基因分数)模型的实施方案可以向反映此假设的可能性的得分分配具有可变等位基因分数值的等位基因。
IV.VAF方法
可变等位基因分数模型还可以使用贝叶斯模型来确定任何给定假设的似然性。一方面,贝叶斯模型现在接收等位基因分数和组成假设的等位基因。此假设可以被看作对于正被分析的任何细胞的复合基因组的假设,因此不被限制为仅对于一个细胞的假设。下面提供与使用贝叶斯模型的实施方案有关的细节、以及示例和根据本发明实施方案的过程。
A.具有可变分数的贝叶斯模型
在一些实施方案中,假设Hi包括等位基因Si,k,并且,对于每个等位基因Si,k,存在对应的等位基因分数fi,k。等位基因分数表示包含等位基因的DAN样本中的单体型的分数。在各个实施方式中,假设可以具有任何数目的等位基因,但是,为了计算效率,可以被限制为2至3个,而不太牺牲准确性。在其它实施方式中,等位基因分数也可以具有任何值,或者可以被限制为在特定阈值之上(如稍后讨论的)。在每个DNB(或者更一般地为配对)具有相等的可能性源自样本中的任何单体型的假定之下,P(DNB|Hi)可以计算如下:
因此,实施方案可以解决可能存在多于两个等位基因且每个等位基因的等位基因分数不被限制为对于每个等位基因而相同的一般问题。这对于发现癌症中的体细胞变异以及正常基因组的非二倍体区域中的变异来说是尤其重要的。例如,在癌症组织完全是二倍体、但该癌症的样本被正常组织污染的假定之下,可能仍然存在具有变化的等位基因分数的四个不同单体型。另外,癌症组织自身可能是异质的,由许多不同细胞构成,每种细胞具有其自己的遗传性和体细胞突变。注意,可以利用fi,k=1来表示纯合假设,其中其它fi,*=0。可以利用对于等位基因k的两个fi,k=0.5和对于等位基因j的fi,j=0.5来表示标准杂合(即,相等杂合)假设。
B.DNB生成的示例模型
在一些实施方案中,在上述等式(2)中,为了评估假设的似然性,逻辑可以估计每个DNB的概率P(DNB|Si,k)。连同读段和读段之间的缺口,可以在基因组中的任何位置生成DNB。在映射中指示DNB产生的位置和读段之间的缺口。因此,可以通过在所有可能的映射M上对生成DNB的似然性求和,来确定生成任何给定DNB的似然性。
P(M|Si,k)之和随着Si,k的长度而增加,从而引起在组装流水线中被建模的所谓的“插入处罚”。例如,可以假定产生DNB的似然性在基因组内的任何位置相同,并且由于对于任何两个假设的基因组的长度的改变而导致的DNB似然性的改变大致相等。在该情况下,等式(1)中的似然比不受在任何给定位置产生的DNB的似然性影响,并且因子(factor)P(M|Si,k)需要简单说明缺口的似然性。可以在组装的映射阶段期间经验性确定缺口似然性。每个臂内的缺口被建模为依赖于酶切位点(enzyme cut site)附近的序列,并且左臂的小缺口、配对缺口、以及右臂的小缺口被建模为彼此独立。
P(M|Si,k)=P(gLgMgR|Si,k)
P(M|Si,k)=P(gL|Si,k)P(gM|Si,k)P(gR|Si,k)
上述等式(3)中要解析的其余因子是P(DNB|M,Si,k)。假定每个碱基识别是独立的,P(DNB|M,Si,k)简单地是DNB中的碱基识别似然性b的积:
在碱基识别匹配对于映射的假设等位基因的情况下,P(b|M,Si,k)是碱基识别正确的似然性。根据碱基识别得分、读段周期、以及在测序期间使用的流设备内的字段(field),可以在对于正确的碱基识别的映射阶段期间经验性确定碱基识别正确的似然性。如果ε被定义为碱基识别不正确的似然性,则对于与假设不匹配的碱基,组装流水线可以假定任何给定碱基识别的似然性为ε/3。
有时,可以在库过程期间修改DNB的DNA序列。例如,SNP或插入缺失可以被引入DNB中。在引入SNP的情况下,上述经验性估计碱基识别似然性的过程也说明DNB的DNA内的SNP,除了SNP发生在与重叠碱基识别相同的位置(称为“负摆动缺口”)的情况之外。在该情况下,很有可能产生两个正确的碱基识别,每个与假设的正确值不一致。如果θ表示为在DNB内的任何给定位置引入SNP的似然性,那么在关于任何给定转换或颠换的似然性的简单假定之下,彼此一致、但彼此不一致(concordant with each other butdiscordant with each other)的两个碱基识别的似然性的结果是大致θ/3。在一个实施方案中,组装器以θ=.0015对此可能性建模。
在一个实施方案中,组装器还建模被引入到DNB中的插入缺失的似然性,但是如本文所述的,由于实际考虑,仅在假设重新评分期间可采用此模型精化(refinement)。
可以对于所有可能的映射而对似然性P(DNB,M|Si,k)求和。因为可能存在数十亿个对于每个DNB的这样的映射,所以,在一个实施方式中,仅对所有“良好”映射(例如,具有关于假设的很少不一致碱基识别的映射)的似然性求和,并且将项α添加到生成每个DNB的似然性中,其中α表示从“不良”映射生成DNB的似然性。在一些实施方式中,α项被设置为10-9,但是可以尝试不同值来看看是否能够通过修改此值来改进组装指标(metrics)。α项可以用作阻隔(deaden)“不良”DNB(即未通过贝叶斯数学而很好地建模而产生的那些DNB)的信号的全方位捕捉(catch-all)。α项也可以充当实质性覆盖耗费(substantial coverage tax),从而阻隔来自具有低质量碱基识别的多达15%的良好DNB的信号。为了解决此覆盖耗费问题,一个实施方案使用不同机制来限制任何给定DNB对假设的支持;此机制被描述为假设重新评分。
C.对于假设的得分对AF
在一些实施方案中,假设的概率得分被定义为等式(1)中的似然比,使得Hj是以分贝表示的参考假设。在以上所述的贝叶斯概率模型之下,逻辑可以确定对于任何等位基因分数的杂合假设的得分,例如,在对于所有碱基识别ε=1%(其稍微高于对于典型测序运行的ε的几何平均)的假定之下。
图6A示出图示根据本发明的实施方案的、有40DNB支持参考且10DNB支持替代SNP的情形的图600。纵轴示出概率得分。横轴为从0至1的替代等位基因的等位基因分数。横轴上的每个值对应于不同的假设。如所示的,对于替代等位基因而出现强信号,因为最大概率得分为~140dB,比纯合参考等位基因(对应于为0的值)更有可能。因为在.04与.5之间的任何等位基因分数具有最有可能的等位基因分数(其可以被确定为落在阈值内)的40dB内的概率得分,所以可以为假设的优化列表保存多于一个等位基因分数。
图6B示出图示根据本发明的实施方案的、有40DNB支持参考且5DNB支持替代SNP的情形的图650。图650演示了使用允许非二倍体等位基因分数的模型的力量。在二倍体假定之下,纯合假设(0的等位基因分数)比具有0.5的等位基因分数的杂合假设更有可能。然而,图650示出在等位基因分数~0.1的得分大幅高于纯合参考假设。
在一个实施方案中,曲线的最大值(即具有最大概率得分的等位基因分数)可以被近似为不同于参考的读段的比。对于三倍体或更高假设,可以为表面图、或对于大于三倍体的假设的更高维度图,使用相同百分比。然后可以在这些点取得概率。可以通过采样初始猜想附近的点以确定具有最高概率的点来进行精化。当两个假设具有相似似然性时(其可能发生在低复杂度区域(例如,均聚物运行、和重现周期的其它低复杂度序列)中)可能需要这种精化。可以通过计数对应于在基因座的每个等位基因的读段、或者经由另一机制,来确定每个等位基因的百分比。
很有可能的区间的辨识(例如,在方法200的块220中)可以使用百分比、或在百分比的概率、或者两者。例如,如果任何可变等位基因的百分比大于阈值,那么可以将区域标志为很有可能具有变异的变异区域。或者,如果对于任何等位基因分数的概率得分大于阈值(例如,10或20dB),那么该区域可以被标志为很可能具有变异的变异区域。
D.方法
图7是根据本发明的实施方案的、使用可变等位基因分数以确定样本基因组中的可能变异的方法700的流程图。可以使用系统100的全部或部分来执行方法700。可能已经获得读段和读段的映射。
在块710,辨识具有包含变异的高似然性的第一区域。例如,该区域可以包括以在阈值之上的百分比具有出现在映射的读段中的替代等位基因(不同于参考)的基因座。作为另一示例,替代等位基因的百分比可以被用作概率函数(例如,本文所述的贝叶斯VAF模型)的输入,以确定概率得分是否在阈值之上。可以搜索经验值(即,从被映射至基因座的读段的比确定的)附近的其它等位基因分数以发现更高概率得分。
在块720,确定第一区域中的样本基因组的起始假设。可以以各种方式接种起始假设,例如,如本文所述的。过程700可以通过对于一次迭代使用顶级假设且对于其它迭代使用该顶级假设作为起始假设而重复。在一个实施方案中,起始假设指定第一区域中的每个等位基因、以及对应的等位基因分数。在另一实施方案中,起始假设可以简单地被假定为纯合。可以提供初始倍性的输入(例如,对于常染色体的二倍体、以及如果相关则对于Y染色体的单倍体)。
在块730,基于起始假设生成假设组。每个假设在第一区域中具有相同基因组(例如,复合基因组的等位基因分数)。该组假设中的至少一个包括多个等位基因以及对应于所述多个等位基因的每个的相应等位基因分数。因此,至少一些假设使用可变等位基因分数,其中等位基因分数对于样本基因组的第一区域中的每个等位基因是特定的。
在一个实施方式中,对于该组生成的每个假设具有一个或多个等位基因的不同集合。例如,如果第一区域包括两个het(如图5中的样本503中),则一个假设可能具有三个等位基因(被表示为TA、TG和CG),另一个假设可能仅具有两个等位基因(TA和TG),而另一个假设可能也具有三个等位基因(CA、TG和CG)。可以最优地确定假设中的每个等位基因的等位基因分数以提供该等位基因的集合的最高概率得分(或者几乎最高)。例如,可以使用针对图6A和6B而描述的技术。
在块740,使用概率函数为该组中的每个假设计算概率得分。概率函数(例如,本文所述的贝叶斯模型)接收假设的每个等位基因的输入以及相应等位基因分数(例如,如等式(2)中描绘的)。该假设组中的第一假设可以包括具有在最小阈值分数(例如,0或0.2)与0.5之间的相应等位基因分数的第一等位基因。可以基于预期错误率选择最小阈值,如下面更详细描述的。例如,第一假设可能具有0.01(即,大于0)或0.49(即,小于0.5)的等位基因分数,并且这些值用于确定第一假设的概率得分。其它假设可以具有对于假设中指定的等位基因的任何等位基因分数,并且还可以在最小阈值分数与0.5之间、为0.5、在0.5与1.0之间、或为1.0。
在块750,基于当前假设组的概率得分选择顶级假设。可以为该组中的每个假设获得概率得分,并且可以选择具有最高概率的假设作为顶级假设。在一个实施方案中,如果期望,则可以存储并输出所有概率得分。在另一实施方案中,一旦发现下个假设具有大于当前的概率得分,就可以从存储器中丢弃最高得分(以及对应的假设)。
图1中的优化逻辑134是被配置为执行块750的逻辑的示例。例如,如果该组中的特定假设具有比起始假设更佳的得分,那么计算机逻辑选择此特定假设作为新的起始假设;计算机逻辑可以使用新的起始假设来重复块730(例如,通过生成该区域的新假设组)和块740(例如,通过对该新假设组中的每个假设进行评分)。计算机逻辑可以重复此处理一次或多次,直到当前起始假设具有比当前假设组中的任何假设更佳的得分为止。
在块760,可以基于顶级假设在参考基因组与第一区域中的样本基因组之间识别一个或多个变异。可以如本文所述的执行此变异识别器。在一个实施方案中,变异识别器可以分析最高评分假设(例如,顶级的2、3或更多个)的列表,以确定是否可以识别变异。例如,可以确定变异得分(如本文所述的),并且可以将该变异得分与阈值比较,其中可以不识别在阈值之下的变异。得分和对应假设中的任何一个可以被发送至稍后阶段(例如,如在方法200中所述的)并被输出。
在识别给定区域的变异之后,计算设备或其计算机逻辑可以对于可能已经被辨识为潜在包括变异(例如,小变异)的任何其它区域而重复方法700。
对于基因组(常染色体、以及女性的chrX)的大多数区域,逻辑一般对具有两个等位基因的假设执行优化进程。在一些情况(诸如男性的chrY中的区域)下,逻辑可以对具有一个等位基因的假设执行优化进程。当考虑杂合假设时,优化进程可以发现每个等位基因的最大似然性等位基因分数,使得等位基因分数的和为1。
在一个实施方案中,可以通过从起始假设偏离单个等位基因变异,在块730生成该组,如本文所述的。在另一实施方案中,例如,使用de brujin图,可以从本地从头处理生成该组,例如,如本文及美国专利申请No.12/770,089中所述。在一个实施方式中,通过本地从头过程、以及基于块740中确定的概率得分而选择的顶级假设,生成假设组。然后可以在尝试所有可能的一碱基变异新迭代中使用顶级假设,以生成新假设组。
E.三倍体
在一个实施方案中,初始假设可以被限制为二倍体。在完成用以确定顶级二倍体假设的列表的优化迭代时,逻辑可以开始新迭代并评估考虑顶级的两个二倍体假设的等位基因的三倍体假设。如果三倍体假设的似然性至少比最有可能的二倍体假设的似然性大最小量(例如,20dB),则三倍体假设可以被认为是当前迭代的顶级假设。否则,最有可能的二倍体假设被认为是顶级假设。注意,当优化进程作用于小区域(多至200个参考碱基)时,在这样的区域中将不太可能存在多于三个不同单体型。但是,如果需要,则三倍体假设是顶级假设,其可以用于生成具有四个不同单体型(等位基因)的假设。在另一实施方案中,可以在与测试二倍体假设相同的迭代期间测试三倍体假设。
如上所述,在VAF方法中,假设不被限制为二倍体假设。三倍体假设可能能够更好地解析与生殖细胞变异相邻的体细胞变异。这些修改导致对小变异(SNP和插入缺失)更高的灵敏度。同时,更深度的测序增加了检测在低等位基因分数的变异的概率。通过结合,实施方案和更高覆盖可以导致二倍体区域中的SNP检测、以及展现出等位基因失衡的染色体区域的改进。
F.最小阈值分数
在变异检测中使用可变等位基因分数值的一个挑战在于如下限制:随着等位基因分数下降至0,真正的杂合基因座将看起来远更像纯合基因座,因为没有许多不同等位基因出现在从生物样本获得的对于该基因座的读段中。例如,从生物样本获得的特定基因座的读段可能对于此同一基因座仅包括5%的等位基因A,且可能包括95%的等位基因B。此情况可能非常难与纯合情况(其中从样本获得的读段包括100%的等位基因B)区分,因为少数读段可能包含测序错误。相同的困难反映在变异的评分中,例如,如果生物样本的似然性指示1%等位基因A和99%等位基因B,那么这实际上为真的似然性(根据似然性模型)将几乎精确地与具有100%的等位基因B的纯合似然性相同。
在一个实施方案中,只要支持非参考假设的单个读段存在,最大似然性杂合假设就将总是比纯合参考假设更有可能,因为此模型不被假设先验限制。例如,在所有碱基识别同样好的假定之下,如果存在99个支持参考的读段和1个支持SNP的读段,则fref=.99和fSNP=.01(两个等位基因的等位基因分数)的假设的可能性比纯合参考假设多一点点。
然而,在一个实施方式中,仅当对于每个等位基因,等位基因分数至少为0.2(或某个其它阈值)时,优化才使用最大似然性等位基因分数作为可变等位基因分数。可以基于错误率选择阈值。如果错误率较低,那么阈值可以较低。例如,如果碱基识别的错误率为1%,那么实施方案可以具有约1%的阈值。进一步的限制可能是:仅当最大似然性的可能性比两个等位基因之一具有等位基因分数0(即,纯合)的假设多至少20dB时,才接受假设。如果这些标准不被满足,则可以限制杂合假设,以使得等位基因分数对于所有等位基因相等,从而使用相等等位基因分数(EAF)模型。
因此,可以提供混合(hybrid)最大似然性等位基因分数模型。这样,组装器能够检测以低等位基因频率存在的等位基因,只要存在对于它们的强大支持即可;在存在纯合假设比二倍体杂合变异更有可能的强大支持的情况下,组装器能够进行纯合识别;以及在几乎不存在支持或存在大量互相矛盾的支持的情况下,组装器能够不识别。
G.混合
使用混合最大似然性等位基因分数模型的实施方案可以基于两个似然性模型、可变等位基因分数(VAF)和相等等位基因分数(EAF),计算概率得分。在一个实施方案中,模型中的仅一个用于特定假设。在另一实施方案中,两个模型均可用于给出作为varScoreVAF的最大似然性等位基因分数的得分、以及作为varScoreEAF的相等等位基因分数的得分。
在一个实施方案中,执行评估以确定是使用VAF还是EAF。此评估可以包括确定对于给定假设,是否满足一个或多个条件。例如,条件可以是等位基因分数在阈值之上。如果假设具有在阈值之上的等位基因分数,那么可以使用VAF,并且,如果不满足该条件,则使用EAF。在另一示例中,条件可以是对于变异区域的假设的概率得分与纯合假设的概率得分的差异的阈值。可以使用多个条件。
以此方式,通过评估各个条件并确定是使用可变还是相等等位基因分数值用于给定假设的等位基因,本文所述的技术可以解决当从该区域的生物样本中获得的读段指示低频率等位基因时识别给定基因组区域中的变异(包括小变异)的困难。例如,变异识别器可以检测以低等位基因频率存在的等位基因,只要在底层(underlying)读段中存在对于这些等位基因的强大支持即可。此外,变异识别器能够在存在纯合假设比二倍体杂合变异更有可能的强大支持的情况下进行纯合识别,并且在在底层读段中几乎不存在对于假设的支持、或存在对于假设的本质上(substantial)互相矛盾的支持的情况下不进行识别。
使用两个评分方法可以最大化基因组的二倍体或非二倍体区域中的敏感度和特异性。在一个实施方案中,基于混合最大似然性等位基因分数模型而计算的varScoreVAF和varScoreEAF被用作变异质量的指示符。varScoreEAF对于在相等(例如50%)等位基因分数的变异产生较佳ROC,而varScoreVAF对于在可变(例如20%)等位基因分数的变异产生较佳ROC。在一个实施方式中,基于varScoreVAF识别变异,但是提供两个得分。
图8是图示针对基于本文所述的技术确定的体细胞事件的ROC的示例的图800。对于为二倍体的变异,使用varScoreEAF,并且,体细胞评分假定所有变异为二倍体。对于未被标记为二倍体的变异,使用varScoreVAF,并且,体细胞评分不假定所有变异为二倍体。
如图800中所示,使用二倍体假定和varScoreEAF的变异情况在高等位基因分数具有稍微的优势(slight edge)。此外,在低等位基因分数(如20%AF)出现的变异的敏感度增益在图800中清晰可辨。在一个实施方式中,推荐使用varScoreVAF,除非存在以至少50%等位基因频率出现的感兴趣的变异的大量先验知识。识别质量的更精确处理可以包括下列中的全部:变异类型(SNP、插入、缺失或替换)、得分(varScoreVAF、varScoreEAF或参考得分)、本地覆盖和识别类型(例如此识别是杂合还是纯合、是参考还是变异)。
V.假设重新评分
在测序过程期间,可能错误地识别碱基,或者潜在地,可能在测序进程中涉及的生物化学中形成错误的分子(因此,碱基可能存在,但是分子本身是错误的)。一些实施方案使用对给定配对可以贡献于假设评分的支持施加限制的项。在这些实施方案中,这样的项被用于建模在预期模型外部生成(例如,通过未知的生物化学过程而产生)一些核酸构造(从其测序配对)的可能性。在这些实施方案中,这样的项可以被用于获得更准确的结果。
例如,甚至最紧密控制的库准备过程也可能生成非预期或异常的核酸多联体(从其测序配对),这是由于在这样的过程期间发生的生物化学反应的性质。因此,如果假设生成过程修改假设以使得从嵌合体多联体测序的配对呈现很好地映射至基因组,则单个配对可以提供特定突变存在的压倒性(但错误的)支持。为了避免此不想要的效果,一些实施方案使用表示任何给定多联体无论如何可被生成(甚至没有良好映射)的似然性的项(也称为α项)。然而,关于使用这样的α项的问题是此项可能大于一些配对的映射正确的似然性。在效果上,α项作为将从假设评分中排除任何实际上正确的具有小于α项的正确的似然性的映射的覆盖耗费而结束。
为了解决此问题,本文所述的技术提供假设重新评分机制,其能够实现相同的功能、但不具有α项的覆盖耗费问题。例如,除了使用α项之外,一些实施方案还采用基于指示特定基因组区域中的任何给定变异不存在在片段中、但是在测序之前通过库准备过程被生成的似然性的参数的假设重新评分。在这些实施方案中,可以为变异区域的假设(以及为其它假设)计算替代和/或附加的得分。可以基于参数的值计算替代和/或附加的得分,其中当特定假设中的两个等位基因通过一碱基插入缺失而不同时使用一个参数值,而当两个等位基因之间的差异比一碱基插入缺失长和/或不同于一碱基插入缺失时使用不同的参数值。
在一些实施方案中,在给定需要在此阶段评分的有限数目的假设的情况下,对于一些模型限制(例如,各个DNB可以提供对假设的压倒性支持的限制)进行校正变得在计算上可行。例如,在优化阶段中,DNB可以映射至顶级假设而不具有不一致,但是没有至参考假设的映射。在此情况下,基于贝叶斯建模,给定参考假设的情况下,DNB的似然性为α,其在一些实施方式中可以被设置为10-9。然而,在给定存在良好映射的顶级假设的情况下,DNB的似然性可以高于10-3。因此,此DNB可以支持顶级假设超过60dB。当这样的DNB从自样本生成底层核酸片段的库准备过程中(例如,PCR扩增中的这类聚合酶时断时续或DNB嵌合性的形成)的未建模的错误产生时,此对于顶级假设的压倒性支持可能变成问题。因此,此重新评分阶段的目标是限制甚至最佳的单个DNB的影响,其根据假定甚至最佳DNB可能由于DNB构建过程中的人造物(artifact)而产生的模型。
假定在上述DNB映射至顶级假设而不具有不一致、但没有至参考假设的映射的示例中,DNB支持het插入。DNB实际上可能源自对应于参考序列的DNA片段,但是在PCR或测序之前的一些其它过程期间插入碱基。为了建模此行为,理想的解决方案是将DNB映射至具有插入缺失的假设,并根据任何给定插入缺失在DNB生成的过程期间发生的似然性,提取映射中的插入缺失的处罚(penalty)。但是,在计算资源使用率方面,具有插入缺失的映射可能是非常昂贵且复杂的提议。
一个实施方案假定在DNB构建过程期间在DNB内产生的任何给定变异的似然性为β,其中P(DNB|参考)≥βP(DNB|变异)。因此,逻辑在假设重新评分阶段使用此事实来确保没有DNB提供对假设的压倒性支持。其增大对于每个等位基因S的P(DNB|S)以确保对于这个领域中的每对等位基因Si和Sj,P(DNB|Si)≥βP(DNB|Sj)。当Si和Sj仅通过一碱基插入缺失而不同时,β参数被设置为0.001,即β=.001。否则,β参数被设置为0.0001,即β=.0001。β可以被改变为更准确地对应于在DNB构建期间产生的Si和Sj之间的特定差异的似然性。
注意,使用α和通过假设重新评分采用的机制是实现对任何给定DNB对假设的支持的限制等的两种方式。两种方式之间的一个主要差别是:随着α升高,覆盖耗费被引入。一些DNB的似然性永远不会与α一样高,甚至对于正确假设,以及甚至在高度地确定基因组内的DNB的其它布置都不正确的情况下。然而,基于β参数的假设重新评分暗示没有这种覆盖耗费。其仅仅根据甚至最佳DNB可能由于DNb构建的过程中的人造物而产生的模型,阻隔最佳DNB的信号。
因此,假设重新评分逻辑136可以在给定在变异识别阶段辨识的顶级假设和次佳假设的情况下,对varScoreVAF和varScoreEAF(例如,分别在VAF和EAF模型之下确定的概率分数)进行重新评分。另外,假设重新评分还可以通过确保各个DNB无法提供对假设的压倒性支持,来实现假阳性率的降低。作为此阶段的结果,计算机逻辑可以在永久和/或临时存储器上的一个或多个合适数据结构中存储和/或输出下列数据:变异的集合、以及稍后阶段(例如,相关性过滤阶段)中进一步考虑的经重新评分的varScoreVAF和varScoreEAF。
VI.复制校准
概率评分提供基于底层读段的假设(以及因此变异)的似然性。然而,底层测序数据可能具有错误,并且模型可能具有不准确性。因此,可能不确切知道变异的准确性。一些实施方案可以使用校准样本确定预期准确性(例如,用于识别变异的假阳性率和假阴性率)。可以为变异分数以及其它参数的各种组合确定此预期准确性。可以确定一次这种表,然后使用该表用于后续样本。因此,可以在基于变异得分(以及潜在地其它参数)分析来自患者的样本时使用来自该表的预期准确性。
在一些实施方案中,复制校准技术基于来自同一生物样本的DNA在两个或更多个分别的测序操作中被测序并组装为两个或更多个基因组的过程的信息。在一个示例中,来自同一样本的DNA被分为两个部分,该两个部分被制备为两个分别的库,并且,在分别的测序运行中分别测序两个库。然后组装两个基因组(分别对应于两个库,例如,基因组A和基因组B),并且识别两个基因组的每个中的变异。由于库准备过程和测序操作的性质,在两个基因组中某些(尽管很少)基因座处识别的变异之间可能存在某些不一致。为了复制校准的目的,假定所有这些不一致是错误的—例如,错误地(假阳性)识别给定基因座处的基因组A中的变异、或者错误地进行基因组B中的同一基因座处的参考识别(假阴性)。因此,关于这两种情形中的哪一个实际上发生—基因组A中的变异识别实际上是否不正确、或者基因组B中的参考识别实际上是否不正确,存在不确定性。可以为校准样本确定变异为假阳性的似然性、或非变异识别为假阴性的似然性。
例如,在一个实施方案中,复制校准逻辑(例如,如在计算机系统130中体现的)采取覆盖信息(例如,对于每个不同类型的变异的读段和映射的计数)、以及对于不一致的基因座的得分的初始估计作为输入,基于初始估计的得分确定每个不一致基因座为假阳性或假阴性的相应的似然性,经验性构建改进的估计的得分,并且利用新估计迭代地执行相同步骤,直到校准得分收敛为止。复制校准逻辑可以关于在一开始真正得分是什么而进行特定假定,然后迭代地测试复制不一致是假阴性还是假阳性,直到得分收敛至被称为“校准得分”的值为止。这些校准得分可以存储在表中,并且不同得分对应于输入信息的不同范围。
当测试新样本且识别变异时,利用对应的变异得分,可以从来自使用校准样本计算的表的校准得分确定变异为假阳性的似然性。另外,可以知道特定基因座以检查假阴性,因为它们很有可能是来自其它样本的在前测量的变异的区域。这些似然性(校准得分)可以输出到一个或多个文件中,并且可以被其它过程使用(例如,以计算体细胞得分的新类型,如下面所述的)。
图9是根据本发明的实施方案的、用于确定样本的基因组中的变异识别的错误率的方法900的流程图。如关于其它方法,可以由包括逻辑的计算机系统执行方法900,如本文所述的。变异识别不同于参考,并且可以如本文所述的被确定。
在块910,计算机系统可以接收已经为在第一测序操作中从生物样本(校准样本)测序的第一基因组识别的第一变异识别。对于每个变异识别,可以接收变异得分(例如,使用本文的实施方案计算的变异得分)。另外,可以接收关于变异识别和第一测序操作的相关指标(例如,覆盖信息)。例如,可以提供变异的类型(例如,SNP、插入、缺失、或替换)、以及读段映射至基因座的数目。
在块920,计算机系统可以接收已经为在第二测序操作中从同一DNA样本测序的第二基因组识别的第二变异识别。可以接收对应的变异得分。例如,样本可以被分裂为两个部分,并且每个被分别测序以独立地确定基因组。将预期变异识别是相同的,因为它们来自同一样本。然而,它们可能由于错误而不相同。也可以为第二变异和第二测序操作接收相关指标,所述第二测序操作可以使用与第一测序操作相同的技术,但是简单地在来自同一样本的不同核酸上执行。在一个实施方案中,接收来自第二基因组的参考得分。
在块930,根据变异得分将第一变异分组为桶(bucket)(组)的第一集合。例如,可以将具有在0dB与10dB之间(包括10dB)的变异得分的所有变异置于一组中,并且将具有在10dB与20dB之间(包括20dB)的变异得分的所有变异置于另一组中。可以形成其它组,并且对于组的变异得分的范围可以变化并且为任何合适范围。也可以通过诸如变异类型的其它参数分组不一致的变异。因此,桶可以是具有指定范围、特定变异类型的变异得分的变异,并且读段的范围映射至基因座。
分组的目的是为每组分配不一致是假阳性对(vs.)假阴性的似然性。然后可以使用这些似然性来预测仅运行一个测序操作的其它样本的似然性。例如,可以假定10-20dB范围中的变异得分具有与使用校准样本确定为假阳性的相同的似然性。作为另一示例,可以假定0-10dB范围中的参考得分具有与使用校准样本确定为假阴性的相同的似然性。
在块940,确定第一变异存在在第一基因组中、但第二变异不存在在第二基因组中的不一致基因座。此不一致性(inconsistency)称为不一致。当在第一基因组中、而非其它基因组中的基因座处识别变异时,不一致发生。不一致可以通过变异被假识别(假阳性)、或真正变异未被识别(假阴性)而发生。可以为每组跟踪不一致和一致的变异的数目。
在块950,为每组确定变异为假阳性的似然性。例如,可以使用组中的不一致变异的数目来确定变异为假阳性的似然性。即使假定存在相等的机会不一致变异在第一基因组中为假阳性、或在第二基因组中为假阴性,也可以使用对于组的不一致变异的数目。例如,如果第一组具有10%不一致基因座,那么可以假定5%的假阳性率。
在其它实施方案中,可以使用第一基因组中的确切变异得分和在不一致基因座的参考得分来确定假阳性率。如果变异得分大于参考得分,那么变异的似然性比不是变异更有可能。因此,可以使用比假阳性更高的假阴性的似然性,并且和等于1。因此,如果10%不一致基因座的每个具有70%的机会为假阴性且30%的机会为假阳性,那么第一组的假阳性错误率可以为3%(例如,如30%的10%)。每个不一致基因座可对于假阳性和假阴性具有不同的百分比。但是可以计算每个不一致基因座的假阳性率的和,然后通过该组中的基因座的数目而将该和进行归一化。例如,0.3+0.5+0.2得1.0,其被除以30(例如,如果10%为不一致)以得到3.33%作为假阳性率。
在一个实施方案中,还可以为从第二基因组获得的参考得分组确定变异为假阴性的似然性。可以以与第一基因组的变异得分类似的方式将用于识别参考的参考得分进行分组。每组中的不一致基因座可以被用于确定每组的假阴性。
在块960,将每组的假阳性率存储在表中。该表可以是允许组被访问以获得特定组的假阳性率的任何数据结构。在一个实施方案中,除了通过变异得分(例如,覆盖或其它指标)进行分组之外,该表还可以具有多个维度。每个指标将对应于表的不同维度。另一指标可以是等位基因分数。可以为了各种目的而使用这些假阳性率,例如仅用于滤除具有高假阳性率的变异。该表可以被用于如下为新样本的新变异识别确定此。
在块970,接收来自不同生物样本的一个或多个变异识别(具有变异得分)。可以如本文所述的计算变异识别和得分。除了变异得分之外,还可以计算本文所述的其它指标。
在块980,变异得分被用于访问该表以获得针对该变异得分的假阳性率。此假阳性率可以被用于确定关于变异是否正确的准确性。这样的准确性的确定可以被用于各种目的,诸如体细胞得分。
A.校准得分
如上所述,本文所述的复制校准技术可以提供变异识别的错误的似然性。在一个实施方案中,似然性可以被测量为校准得分。在一个实施方案中,校准得分定义如下:
因此,在给定校准得分的情况下,可以确定识别为正确的似然性。块960中提及的表可以存储这些校准值。
在一个实施方案中,复制校准的结果是校准文件的集合(其可以被存储为有效地形成单个表的多个表)。在给定未校准的得分(例如,varScoreVAF、varScoreEAF或参考得分)以及覆盖(对于参考得分,覆盖反映唯一序列的计数,而对于varScoreVAF或varScoreEAF,覆盖反映为基因组确定的总读段计数)的情况下,每个文件提供校准得分。在一些实施方式中,可以基于附加标准选择校准文件,所述附加标准诸如:用于组装基因组的流水线软件版本、变异的类型、似然性模型(可变等位基因分数、VAF或相等等位基因分数、EAF)、错误模式(例如,fp、fn、uc或oc,如下所述)、以及等位基因频率假定(对于大多数文件,假定为二倍体50%等位基因分数,但是一些文件指示对于20%等位基因分数的假定,它们是“af20”)。这些标准(指标)可以被用作表中的其它维度。
在示例实施方案中,校准文件包括以行和列存储的数据的集合。在每个校准数据文件内,每列表示覆盖面元,而每行给出不同得分的校准(例如,范围)。每列标题列出针对覆盖面元的最小覆盖值。如此,例如,如果该文件的列是得分cvg0、cvg20和cvg30,那么cvg0列是指覆盖水平在0与19之间的数据,cvg20列是指覆盖水平在20与29之间的数据,而cvg30列是指覆盖水平为30或更高的数据。
更高维度的表的其它维度可以使用本文提及的任何标准(指标)。作为示例,失败(failure)模式可以是以下之一:fp(假阳性)、fn(假阴性)、uc(欠识别(undercall)、或者识别杂合,其中基因座实际上为纯合alt)、或oc(过识别(overcall)、或者识别纯合,其中基因座实际上为ref-het)。
B.校准得分的迭代精化
实施方案可以包括在给定两个复制基因组中的识别的校准得分的情况下测试复制不一致是假阳性或假阴性的似然性(对于欠识别-过识别失败模式校准,所测试的似然性是复制不一致为欠识别或过识别的似然性的)的体系。一致的基因座可以被假定为真。为了计算校准得分,经由复制校准逻辑以校准得分的初始估计开始的反馈环的迭代分析基于那些校准估计确定每个不一致位点为假阳性或假阴性(或者欠识别或过识别)的似然性,然后在给定真和假识别的集合的情况下,经验性地构建得分校准的改进估计。在示例实施方式中,复制校准逻辑执行此环的三次迭代,然后输出结果。
图10是图示根据本发明的实施方案的、用于确定校准得分的方法1000的流程图。方法1000可以用于实施方法900的块950。因此,接收来自同一样本的第一和第二基因组的变异的步骤可在方法1000以及确定不一致基因座之前。
在块1010,根据变异得分将第一基因组的第一变异分组为桶的第一集合。另外,可以根据参考得分将第二基因组的参考识别(即,在第二基因组等同于参考、且因此无变异的情况下)分组为桶的第二集合。桶的第二集合可以用于确定假阴性率。
在块1020,将初始假阳性率分配给桶的第一集合中的每个(初始值可以相同或变化),并且类似地将假阴性率分配给桶的第二集合。在一些实施方案中,初始率在0与1之间。在一个实施方案中,初始值对于二者均为0.5。
在块1030,为每个不一致基因座确定变异正确的概率P(Het)。注意,每个不一致基因座具有来自第一基因组的变异得分和来自第二基因组的参考得分。可以如下所述计算概率。一般地,从对应的变异识别所属于的第一集合的组的变异校准得分(假阳性率)、以及对应的参考识别所属于的第二集合的组的参考校准得分计算P(Het)。两个校准得分取决于与不一致基因座关联的每组内的各个变异,因此校准得分可对于每组不同。校准得分的此不同可以提供不一致基因座的假阳性率和假阴性率的不同。
一方面,如果假阳性率小于假阴性率,则概率P(Het)一般较大。在一个实施方案中,P(Het)在0和1之间。注意,如果PFP表示假阳性识别的概率,而PFN表示假阴性识别的概率,那么PFN=1-PFP。P(Het)等效于PFN。
在块1040,根据变异得分将第一基因组的第一变异分组为桶的新第一集合。另外,可以根据参考得分将第二基因组的参考识别(即,在第二基因组等同于参考、因此无变异的情况下)分组为桶的新第二集合。一方面,可以执行此重新分组以确保桶中的充分的统计准确性。在其它实施方案中,组可以在迭代中保持相同。
在块1050,基于第一新集合的桶中的每个不一致基因座的P(Het),为每个确定变异校准得分。例如,可以对每个不一致基因座的P(Het)值求和。注意,假阳性率可以被计算为1-P(Het)。如果假阳性率低并且相对于一致基因座(即,在变异出现在两个基因组中的情况下)存在很少不一致基因座,则变异校准得分较高(注意,这里的较高是用在相对意义上,因为,可以反转任何得分)。可以类似地确定参考校准得分。
参考回校准得分的公式,P(假识别)+P(真识别)=1,以及P(假识别)/P(真识别)=(1-P(Het))的和/(一致的基因座的#+P(Het)的和)。使用这些公式和每个不一致基因座的P(Het),逻辑然后可以计算P(假识别)和P(真识别)。仅当桶被改变时P(真识别)才将改变,但是,P(假识别)随着P(Het)改变而改变。
在块1060,平滑变异校准得分。例如,变异校准得分一般随着变异得分增加而增加,并且对于校准参考得分也是如此。然而,连接数据点的线可能不平滑。在一个实施方案中,使用loess算法来平滑校准。也可以平滑参考校准得分。
复制校准逻辑可以执行此过程的几次迭代,直到改进的估计的值收敛至期望置信阈值内的值为止、或者直到已经执行了特定数目的迭代为止。来自上一次迭代的块1050的改进的估计的校准得分被分配为用作校准得分以确定下一次迭代的P(H)。随着校准得分改变,P(H)的值改变,这继而使得校准得分改变,直到实现收敛。可以执行其它运行以获得其它面元的数据,其中可以对数目求平均。
作为用于计算第一集合的组中的两个不一致基因座的变异校准得分的示例,假定第一SNP识别具有来自第一基因组的高变异识别和来自第二基因组的低参考识别。但是,第二SNP具有高变异识别和高参考识别。于是,两个SNP的参考识别将在第二集合的不同桶中。此不同将影响两个不一致基因座的P(Het),因为第一SNP将很有可能具有比第二SNP低的假阳性值,这是因为第二SNP的参考校准得分应较低。例如,如果P(Het)被计算为、或成比例于变异校准得分除以参考校准得分的比,则第一SNP将具有为正确的较大似然性,因为凭借较低得分的桶中的参考得分,第一SNP的分母将较低。
一旦获得校准得分,就可以执行进一步操作。例如,计算机设备或复制校准逻辑可以调用另一逻辑,其使用校准得分的集合计算不一致基因座处的变异识别的集合的其它变异识别指标(例如,计算新类型的体细胞得分,如下所述)。这些进一步操作可以通过使用所存储的校准得分来估计来自不同样本的变异得分的校准得分,涉及如方法900的980的步骤。以此方式,需要为新样本确定一个基因组,因为可以假定变异识别正确的似然性与表中的对应桶相同。此校准得分的使用可以类似地对参考校准得分使用,以基于参考得分确定新样本的参考识别正确的似然性。
以此方式,本文所述的复制校准技术允许通过提供附加的量化信息使被分配给变异识别的原始得分合格(qualification)。例如,如果给定变异识别被分配50的得分,则复制校准可以返回指示具有50的得分的所有变异识别的多少百分比为错误(例如,这些识别的0.1%、1%或10%是否错误)的信息。如本文所述,复制校准基于对发现假识别和真识别的位置的经验观察,并在给定识别的原始得分、覆盖和如本文所述的其它指标的情况下返回指示变异识别是为真还是错误的预期(例如,似然性)的信息。
在一个实施方案中,复制校准逻辑分别为变异varType的每个类型(snp、ins、del或sub)、以及分别为每个似然模型(可变等位基因分数、VAF、或相等等位基因分数、EAF),执行得分校准。另外,复制校准逻辑可以执行方法1000一次以在给定varScore(varScoreVAF或varScoreEAF)的情况下校准假阳性率(FP)、以及在给定参考得分的情况下校准假阴性率(FN),并且再执行一次以在给定ref-het基因座中的参考识别的varScosre的情况下校准欠识别率(UC)、以及在给定纯合alt基因座的最小varScore的情况下校准过识别率(OC)。在本文中,这些全部称为FP-FN校准和UC-OC校准。
为了校准特定varType或得分类型的得分,复制校准逻辑可以首先在复制比较中将基因座分类为“纯合一致”、“杂合一致”或“不一致”。当执行FP-FN校准时,纯合一致位点是复制中共享的参考识别;杂合一致位点是共享的ref-het识别;不一致位点是一个基因组具有ref-het识别、但另一个基因组具有纯合ref识别的位点;以及所有其它基因座被丢弃。当执行UC-OC校准时,纯合一致位点是复制中共享的纯合alt识别;杂合一致位点是共享的ref-het识别;不一致位点是一个基因组具有ref-het识别、但另一个基因组具有纯合alt识别且alt识别被共享的位点;以及所有其它基因座被丢弃。
图11A是示出针对单个覆盖面元的情况的预平滑收敛的图1100。如可见的,方法1000快速收敛至解。图1100图示了对于最坏的varScore,复制校准指示校准得分为-10,其指示假识别的可能性为真识别的10X(即,10倍)。这对于20的varScore来说不是完全未预期的,因为het SNP每1000个碱基左右发生,并且这在组装器的评分逻辑中未说明。最佳varScore实现超过50的校准得分,指示在此得分每100,000个真SNP存在一个错误、或者每亿个碱基位置左右存在一个错误(假定每1kb具有这样的良好得分的真SNP)。而且,图110图示了校准曲线具有向下弯曲的曲率。如果DNB生成的模型精确匹配现实并且组装器逻辑精确预测了任何事件为真的似然性,则曲线将是完全线性的。校准得分线的曲率指示存在一些发生在DNB生成的模型外部的事件(DNB),并且可以被认为是系统性人造物。
图11B是示出方法1000的准确性的图1150。如果在方法1000中,修改确定FP-FN校准的P(Het)的块1030以使得dbSNP已知变异的所有复制不一致被假定为假阴性,则方法1000大致收敛在同一假阳性校准上,如用于执行迭代方法的。
C.数学模型
根据一个实施方案的巩固得分校准的迭代精化的数学模型如下。考虑两个基因组(即,基因组A和基因组B)的复制分析内的基因座。hetScoreA被定义为利用基因组A中的给定得分将基因座识别为杂合的条件,而hetScoreB被定义为利用基因组B中的给定得分将基因座识别为纯合的条件。而且,d被定义为基因座是复制不一致基因座的条件,cr被定义为在两个基因组中均将基因座识别为纯合的条件,而ch被定义为在两个基因组中均将基因座识别为杂合的条件。nTP被定义为基因组中的真het基因座的数目,nFP被定义为假识别的het基因座的数目,nTN被定义为真纯合基因座的数目,而nFN被定义为假识别的纯合基因座的数目。
此外,HetA被定义为基因组A在给定基因座真正为杂合的条件(以及对于基因组B和HomA的类似定义)。Het被定义为两个基因组在此基因座均为杂合的条件,而Hom被定义为两个基因组在此基因座均为纯合的条件。注意,在两个基因组为复制(即,同一基因组)的假定之下,P(非HetA)=P(HomA)=P(HomB)=P(非Het)=P(Hom)。
分析需要在给定hetScoreA的校准(即,)和hetScoreB(即,)的情况下,确定似然比或者等同地首先,贝叶斯定理应用如下:
在独立性假定之下,最后的量等于:
再次使用贝叶斯定理得到:
现在,假定真变异的得分分布对于不一致基因座相同于一致基因座,使得P(hetScoreA|HetA,d)=P(hetScoreA|HetA,ch),并且对于等式(4)、(5)和(6)的其它得分分布是同样的。于是,将等式(4)和(5)代入(6)得到:
在上述等式中,给出LA和LB作为迭代的输入,并且,例如,基于与真和假识别的集合关联的信息,经验性估计nTN和nTF。
上述数学公式化可以解决第一基因组的桶内的变异识别的数目与第二基因组的桶内的参考识别的数目的差异。而且,由于参考识别更频繁,所以桶内的不一致基因座的数目将具有较少百分比。但是,因为问题是不一致基因座是否为假阴性、并且一般不是基因座,应当不直接使用第二基因组的参考识别的桶中的不一致基因座的数目。
D.覆盖桶
在实践中,对于给定得分的假识别的似然性强烈依赖于本地覆盖。为了建模此行为,复制校准逻辑通过覆盖和得分两者将基因座分为面元。迭代环的平滑步骤然后通过每个覆盖面元的得分平滑错误率的对数。为每个覆盖面元报告校准。
在平滑之后,SNP的预覆盖面元校准看起来如图12A的图1200中所图示的。在图1200中,该覆盖面元被该面元中存在的最小覆盖标记。如此,例如,cvg0是指具有0与19之间的覆盖的覆盖面元。图1200示出校准得分随覆盖而变化。图1200还图示了由于缺乏假事件,校准无法被估计为高于某个最大校准得分。而且,较高的覆盖面元具有较差的校准曲线。正如校准线中的曲线,这是在高得分的变异错误的主要原因是未根据DNB生成的预期模型生成的事件(DNB)的另一个指示符。
E.FP的20%AF校准
还使用varScoreVAF为假阳性提供20%等位基因分数校准。在基因组中的所有杂合突变以20%等位基因分数存在的假定之下,此校准指示变异识别的错误率。除了在假定所有杂合基因座以20%等位基因分数存在的情况下Het20%AF被定义为给定基因座为杂合的条件、以及在假定所有杂合基因座以50%等位基因分数存在的情况下Het50%AF被定义为基因座为杂合的条件之外,采用来自标题为“得分校准的迭代精化的数学模型”的子部分的符号。
将贝叶斯定理应用至似然比而得到:
在给定所考虑的情形是het识别的集合与在典型基因组中将预期的相同(例如,简单地以20%AF存在)的情况下,得到P(Het20%AF)=P(Het50%AF)。因此:
也就是,P(Het50%AF|hetScoreA)可以简单地通过真变异的得分分布比来按比例决定(scale)以得到P(Het20%AF|hetScoreA)。
在得分校准期间,使用样本混合物组装为两个等位基因分数评价真变异的得分分布。以与假和真变异被面元化且它们的比对于50%AF变异的校准而被平滑的相同的方式,对于20%AF和50%AF情况的真变异被面元化(bin),并且平滑它们的比。此平滑结果然后被应用至50%AF校准以得到20%AF校准。
图12B是图示针对覆盖40-50、20%AF校准如何与50%AF校准比较的示例的图1250。图1250图示了如果假定所有变异以20%等位基因分数存在,则存在在低得分的变异的更多置信。在一个实施方案中,体细胞评分逻辑使用此事实来通过使用变异的50%以50%AF存在且变异的50%以20%AF存在的混合物模型改进低等位基因分数的ROC。
VII.体细胞评分
癌症基因组可能经常通过许多变异而高度异常,从而加剧了对变异识别为正确还是由于错误的确定。因为可能存在测序错误,所以可能希望确定评分机制以区分假变异与真变异,尤其是由于癌症而导致的体细胞变异。为了解决这些错误,实施方案可以使用来自正常样本的信息以从肿瘤样本中减去“噪声”。因此,可以确定肿瘤基因组和正常基因组以辨识两者之间的不同。
然而,简单地比较两个基因组仍然可以提供错误。例如,假定每mB存在一个错误,这给出对于整个人类基因组的约3,000个错误。肿瘤可能具有约3,000个错误。于是,肿瘤样本和正常样本中总计6,000个错误。如果1,000个真实体细胞变异,那么所辨识的变异中的1/6正确。更高的测序可以减少错误,但是,特定变异于是可能更罕见,这将对错误率造成问题。
可以使用变异得分和参考得分来分析体细胞事件的不一致基因座。这样的分析可以通过使用生殖细胞变异的得分分布提供敏感度(与质量相反)的度量。例如,可以假定真变异的得分分布与识别的变异的得分分布相同。但是,当得分分布对于体细胞变异显著不同时(例如,如果存在大量正常污染),并非作用如此良好。而且,具有比SNP低的变异得分的插入缺失可能具有比SNP更高的值。
为了解决此问题,实施方案可以使用肿瘤基因组与正常基因组之间的不一致正确的似然性。在一个实施方案中,可以使用变异识别的假阳性率和参考识别的假阴性率,例如,如可以被确定为在校准识别之上。这些得分可以被用于确定提供不一致正确的指示的体细胞得分。也就是,对于肿瘤与正常之间的任何不一致基因座,其是与假阳性或假阴性相反的真不一致(即,真体细胞事件)的似然性是什么。
体细胞得分可以基于其它值,诸如:确定体细胞突变是错误的似然性的体细胞事件的总计数。也可以使用生殖细胞突变的总计数。对于SNP,总计数可以为约1,000。估计可以对于不同肿瘤而不同。无论如何,此值简单地为常数,因此可以基于相对得分进行比较。
在一些实施方案中,也可以计算基于体细胞得分的体细胞排名(rank)。例如,对于给定变异(在诸如SNP、插入、缺失、替换等的给定体细胞分类中)的95%的体细胞排名指示所有真变异的95%具有比给定变异的得分差的体细胞得分。
图13是图示根据一个实施方案的、计算体细胞得分的示例方法1300的流程图。一般地,计算机可以采取两个基因组(通常来自两个不同样本)、以及已经对于这两个基因组关于参考或基线基因组而识别的变异,作为输入。计算机系统比较两个基因组和它们的变异以发现基因组不一致的基因座(即,不一致基因座)。计算机系统然后确定两个基因组在给定基因座真的不一致的似然性。所确定的似然性然后被用于计算对于此基因座的新类型的体细胞得分。
在块1310,计算机系统接收已经基于第一样本的测序而对于第一基因组识别的第一变异。在一个实施方案中,这些第一变异可以针对于来自生物体(例如,任何或其它哺乳动物)的肿瘤样本(例如,癌症细胞)。接收第一变异的第一变异得分以用于计算变异识别正确的似然性。
在块1320,计算机系统接收已经基于第二样本的测序而对于第二基因组识别的变异的第二集合。在一个实施方案中,这些第二变异可以针对于来自生物体的正常样本。因此,第二基因组可以是已经从自与块1310中相同的生物体的正常细胞提取的片段测序的基线基因组。可以接收第二变异的第二变异得分。在一些实施方案中,第一基因组的变异和第二基因组的变异为小变异。
在块1330,计算机系统基于变异的第一集合和变异的第二集合,确定第一变异存在在第一基因组中且参考识别存在着第二基因组中的一个或多个不一致基因座。可以分析不一致基因座以确定是否第一变异识别很有可能为体细胞突变。可以为每个不一致基因座确定块1340-1360。
在块1340,基于对应的第一变异得分确定第一变异为假阳性的第一似然性。在一个实施方案中,第一似然性对应于如上所述的变异校准得分。例如,变异得分可以被用于访问数据库表以检索对应于第一变异得分的变异校准得分。其它信息可以被用于确定第一似然性。这样的信息可以包括、但不限于覆盖信息(例如,原始读段计数和映射计数)、变异类型和等位基因分数。
在块1350,基于对应的参考得分确定参考识别为假阴性的第二似然性。在一个实施方案中,第二似然性对应于如上所述的参考校准得分。例如,参考得分可以被用于访问数据库表以检索对应于参考得分的参考校准得分。
在块1360,计算机系统基于第一似然性和第二似然性,计算体细胞得分,其表示第一基因组与第二基因组之间的不一致是与错误相反的体细胞突变的似然性。可能错误的示例是测序错误或库准备错误。计算机系统可以基于覆盖信息和本文所述的其它指标,计算体细胞得分。
在块1370,可以基于体细胞得分的分布确定体细胞排名。在一些实施方案中,体细胞排名是指示在真正体细胞变异之中的体细胞变异的预期排名的在0和1之间的数值。例如,基于体细胞得分的分布,可以确定样本中检测的变异的某个分数具有特定体细胞得分或更低(例如,变异的5%可能具有<=20的得分)。同一类型的得分也可以被应用作为对应参考中的基因座的度量。于是,将变异得分和参考得分组合以获得变异的各个子集的体细胞得分。例如,阈值0.01可以用于变异得分,并且相同或不同的阈值可以用于参考得分。体细胞排名可以表现基因组中变异得分和参考得分两者均在它们各自的阈值之上的区域的百分比。在一个实施方案中,当确定体细胞排名时仅考虑杂合变异。
A.计算体细胞似然比和体细胞得分
在给定基因组A(例如,“肿瘤”基因组)具有变异识别且基因组B(例如,“正常”基因组)具有参考识别的基因座的情况下,计算机逻辑确定不一致是基因组之间的真实差异的似然性。计算机逻辑使用得分信息(具体地,
如通过为基因组A和基因组B分别运行的复制校准确定的校准似然比LA和LB)来估计此似然性。
校准得分(例如,如通过分别对于基因组A和基因组B的复制校准提供的)允许确定似然比LA和LB,其是在给定原始得分信息(νA)的情况下基因组A中的变异识别是假(FPA)或真(TPA)的似然性、以及在给定原始得分信息(rB)的情况下基因组B中的参考识别是假(FNB)或真(TNB)的似然性的度量。似然比定义如下:
在给定此的情况下,在给定识别的原始得分信息的情况下的体细胞似然比Lsom被如下确定:
通过贝叶斯定理,最终的量等于:
通过独立性假定,最终的量等于:
假定基因组B中的得分分布不依赖于基因组A中的识别,相反亦然,则可以获得以下概率表达式:
P(rB|FPA)=P(rB|TPA)和P(vA|FNB)=P(vA|TBB)。
因此:
将贝叶斯定理应用至来自上文的LA和LB的定义得到:
将此代入上述等式(7),得到:
在一个实施方案中,P(TNB|FPA)被估计为等于1,即,P(TNB|FPA)=1。对于P(TPA|FNB)进行相同的估计,即,P(TPA|FNB)=1。另外,nsom被定义为真体细胞基因座的计数,nTP,A被定义为基因组A中的真变异的计数,而nTN,B被定义为B中的真参考位置的总计数。因此:
因此,
其中,通过分别对于基因组A和基因组B执行复制校准(如下面部分V中所述),获得值LA和LB。
在给定上述Lsom的推导的情况下,新类型的somaticScore被定义和计算如下:
SomaticScore=-10log10Lsom。
在计算体细胞得分时,可以进行下列附加假定:体细胞SNP率为每Mb1个;体细胞插入率为每10Mb1个;体细胞缺失率为每10Mb1个;以及体细胞替换率为每20Mb1个。在其它实施方案中,可以以经验性确定每种这些体细胞变异率。通过体细胞突变的真率的附加知识,根据上述等式(8)按比例决定体细胞得分以更好地反映此现实应当是简单的。
B.二倍体选项
当使用二倍体选项时,逻辑使用EAF模型的校准,并另外假定所有生殖细胞杂合和体细胞变异以50%等位基因分数存在。在没有二倍体选项的情况下,逻辑使用VAF的校准,并假定混合物模型,其中一半的生殖细胞杂合和体细胞变异以50%等位基因分数存在,且一半以更低(例如20%)等位基因分数存在。这有效地增加较低评分变异的置信,诸如,将是低等位基因分数的体细胞变异的情况。
为了说明,假定mix=m被定义为基因组A中的变异包含20%等位基因分数和50%等位基因分数的混合物的条件,其中m为以20%等位基因分数存在的变异的分数。于是,LA,mix=m被定义为:
接着,假定P(vA,mix=m|FPA)=P(vA,mix=0|FPA)=P(vA,mix=1|FPA).也就是,假识别的得分分布不依赖于混合物分数m。因此,
对于具有不同等位基因分数的变异的多于两个集合的混合物,容易地扩展以上说明的推导。在示例实施方案中,m的值可以被设置为0.5(即,m=0.5),并且LA,mix=m的值可以用作上述等式(8)中的LA的值以计算Lsom的值。
VIII.计算机系统
本文提及的任何计算机系统可以利用任何合适数目的子系统。这样的子系统的示例在图6中在计算机装置600中示出。在一些实施方案中,计算机系统包括单个计算机装置,其中子系统可以是计算机装置的组件。在其它实施方案中,计算机系统可以包括多个计算机装置,其每个为具有内部组件的子系统。
图6中所示的子系统经由系统总线675而互联。示出诸如打印机674、键盘678、存储设备679、耦接至显示器适配器682的监视器676以及其它的附加子系统。耦接至I/O控制器671的外设和输入/输出(I/O)设备可以通过诸如串行接口677的本领域已知的任何数目的部件连接至计算机系统。例如,串行接口677或外部接口681(例如,以太网、Wi-Fi等)可以用于将计算机系统600连接至诸如因特网的广域网、鼠标输入设备、或扫描仪。经由系统总线675的互联允许中央处理器673与每个子系统通信并控制来自系统存储器672或存储设备679(例如,固定盘)的指令的执行、以及子系统之间的信息交换。系统存储器672和/或存储设备679可以包含计算机可读介质。本文提及的任何值可以从一个组件输出至另一个组件,并且可以输出至用户。
计算机系统可以包括多个相同组件或子系统,例如,通过外部接口681或通过内部接口连接在一起。在一些实施方案中,计算机系统、子系统或装置可以通过网络通信。在这样的实例中,一个计算机可以被认为是客户端,而另一个计算机可以被认为是服务器,其中每个可以是同一计算机系统的部分。客户端和服务器可以各自包括多个系统、子系统或组件。
应理解,可以使用硬件(例如,专用集成电路或现场可编程门阵列)和/或使用具有一般地以模块化或集成方式的可编程处理器的计算机软件,以控制逻辑的形式实施本发明的任何实施方案。如本文使用的,处理器包括同一集成芯片上的多核处理器、或单个电路板上或联网的多个处理单元。基于本文提供的公开和教示,本领域普通技术人员将知道并理解使用硬件以及软件和硬件的组合实施本发明的实施方案的其它方式和/或方法。
在此申请中所述的任何软件组件或功能可以被实施为软件代码,以被处理器使用任何合适的计算机语言(诸如,例如使用传统或面向对象的技术的Java、C++、或Perl)执行。软件代码可以被作为一系列指令或命令存储在用于存储和/或传输的计算机可读介质上,合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或光介质(诸如光盘(DC)或DVD(数字通用盘))、闪存等。计算机可读介质可以是这些存储器或传输设备的任何组合。
还可以使用适配用于经由符合包括因特网的各种协议的有线、光和/或无线网络传输的载波信号,编码和传输这些程序。如此,可以使用以这些程序编码的数据信号,创建根据本发明的实施方案的计算机可读介质。以程序代码编码的计算机可读介质可以与兼容设备封装、或者与其它设备分开提供(例如,经由因特网下载)。任何这样的计算机可读介质可以驻留在单个计算机程序产品(例如,硬盘驱动器、CD或整个计算机系统)上、或在其内,并且可以存在在系统或网络内的不同计算机程序产品上或内。计算机系统可以包括监视器、打印机或其它合适的显示器,用于提供本文提及的任何结果给用户。
可以完全地或部分地利用可以被配置为执行步骤的包括一个或多个处理器的计算机系统执行本文所述的任何方法。因此,实施方案可以针对于被配置为执行本文所述的任何方法的步骤的计算机系统,其潜在地具有执行相应步骤或相应步骤组的不同组件。虽然呈现为编号的步骤,但是本文的方法的步骤可以在相同时间、或以不同顺序执行。另外,这些步骤的部分可以与来自其它方法的其它步骤的部分一起使用。而且,步骤的全部或部分可以是可选的。另外,任何方法的任何步骤可以利用用于执行这些步骤的模块、电路或其它部件执行。
特定实施方案的具体细节可以以任何合适方式组合,而不违背本发明的实施方案的精神和范围。然而,本发明的其它实施方案可以针对于与每个单独方面、或这些单独方面的具体组合相关的具体实施方案。
已经为了说明和描述的目的呈现了本发明的示例性实施方案的上述描述。其并非意在穷举的、或者将本发明限于所述精确形式,并且,鉴于以上教示,许多修改和变化是可能的。选择和描述实施方案,以便最好地解释本发明的原理和其实际应用,由此使得本领域其它技术人员能够最好地利用各个实施方案中且具有各种适于预期的特定使用的修改的本发明。
“一”、“一个/一种”、“该”的叙述意在意指“一个或多个/一种或多种”,除非具体指示相反意思。
为了所有目的,通过全文引用纳入本文提及的所有专利、专利申请、公开出版物和描述。它们都不被承认是现有技术。
Claims (37)
1.一种确定参考基因组与来自二倍体生物体的生物样本的样本基因组之间的一个或多个变异(variant)的方法,所述方法包括:
接收所述样本基因组的读段(read)以及所述读段至所述参考基因组的映射(mapping),其中从来自所述生物样本的多个基因组片段的测序获得所述读段;
辨识所述样本基因组的第一区域,所述第一区域具有包括相对于所述参考基因组中的对应区域的一个或多个变异的第一似然性,所述第一似然性在第一阈值之上;
确定所述第一区域中的样本基因组的起始假设;
基于所述起始假设,生成所述第一区域中的样本基因组的每个的一组假设,其中该组假设中的至少一个包括多个等位基因以及对应于所述多个等位基因的每个的相应等位基因分数;
对于该组假设中的每个假设:
使用概率函数为该假设计算概率得分,所述概率函数接收该假设的每个等位基因以及相应等位基因分数的输入,
其中,该组假设中的第一假设包括具有在最小阈值分数与0.5之间的相应等位基因分数的第一等位基因;
基于所述概率得分选择顶级假设(top hypothesis);
基于所述顶级假设,为所述第一区域识别(call)所述参考基因组与所述样本基因组之间的一个或多个变异,
其中,所述方法由一个或多个计算设备执行。
2.如权利要求1所述的方法,其中,生成所述第一假设包括:
确定具有在所述第一区域的第一等位基因的读段的百分比;以及
使用所述百分比作为所述第一假设的相应等位基因分数。
3.如权利要求1所述的方法,其中,生成所述第一假设包括:
为所述第一等位基因的多个等位基因分数的每个计算概率得分;以及
选择提供最高概率得分的等位基因分数作为所述第一等位基因的相应等位基因分数。
4.如权利要求1所述的方法,其中,计算该组假设中的至少一个的假设的概率得分包括:
评估该假设的一个或多个条件;
当满足所述一个或多个条件时,通过使用所述多个等位基因的可变等位基因分数值计算该假设的得分;
当不满足所述一个或多个条件时,通过使用所述多个等位基因的相等等位基因分数值计算该假设的得分。
5.如权利要求1所述的方法,其中,所述最小阈值分数是0或0.2。
6.如权利要求1所述的方法,还包括:
确定所述第一假设的第一等位基因的相应等位基因分数作为所述概率函数的最优输入值。
7.如权利要求1所述的方法,其中,所述生物样本包括具有不同基因组的细胞,并且其中,所述样本基因组是不同基因组的复合基因组。
8.如权利要求1所述的方法,其中,所述一个或多个变异包括SNP或少于100个碱基的插入缺失(indel)。
9.如权利要求1所述的方法,其中,评估所述一个或多个条件包括确定所述一个或多个等位基因的可变等位基因分数值是否超过阈值。
10.如权利要求1所述的方法,其中,评估所述一个或多个条件包括确定该假设的最大似然性概率是否超出该区域的纯合假设的概率达阈值。
11.如权利要求1所述的方法,其中,评估所述一个或多个条件包括:
确定所述一个或多个等位基因的可变等位基因分数值是否超过第一阈值;以及
确定该假设的最大似然性概率是否超出该区域的纯合假设的概率达第二阈值。
12.如权利要求1所述的方法,还包括:
基于具有最高的两个得分的两个二倍体假设的等位基因,生成该区域的三倍体假设;
通过计算三倍体假设得分评估所述三倍体假设;以及
当所述三倍体假设得分超出所述两个二倍体假设的得分中的较高者达阈值时,选择所述三倍体假设作为所述顶级假设。
13.如权利要求1所述的方法,其中,确定该区域的起始假设包括:
基于以下中的一个或多个生成多个假设:该区域的参考假设;通过使用该区域的本地从头组装而被发现为似乎合理的假设的子集;以及从该区域的已知变异的数据库得到的假设的子集;以及
从所述多个假设选择所述起始假设。
14.如权利要求1所述的方法,其中,生成该组假设包括:
在该组假设中,包括具有与所述起始假设的一碱基不同的至少一些假设。
15.如权利要求1所述的方法,还包括:
在所述生物样本的基因组中,辨识很有可能包括关于所述参考基因组中的对应区域的变异的多个区域;以及
对于所述多个区域的每个,重复确定、生成、评分、选择和识别的步骤。
16.如权利要求1所述的方法,其中,选择所述顶级假设包括执行一个或多个迭代,其包括:
如果该组假设中的特定假设具有比为所述起始假设计算的得分更佳的得分,那么设置所述特定假设作为新起始假设,并为所述新起始假设重复生成和评分的步骤。
17.如权利要求1所述的方法,还包括:
基于指示所述第一区域中的任何给定变异不存在在目标核酸片段中、但是在测序之前通过库准备过程而被生成的似然性的参数,对该组假设进行重新评分,其中从该组假设,为所述第一区域确定特定变异,其中:
当该组假设中的特定假设中的两个等位基因通过一碱基插入缺失而不同时,使用所述参数的第一值;及
当所述两个等位基因之间的不同不是一碱基插入缺失时,使用所述参数的第二值。
18.如权利要求1所述的方法,还包括:
为其它区域,基于已经被辨识为具有在第一阈值之上的包括变异的似然性的其它区域的顶级假设,识别所述参考基因组与所述样本基因组之间的一个或多个变异。
19.一种确定样本的基因组中的变异识别的错误率的方法,所述方法包括:
接收第一变异识别和对应的第一变异得分,其中已经为已经在第一测序操作中从样本测序的第一基因组识别了所述第一变异识别;
接收第二变异识别,其中已经为已经在不同于所述第一测序操作的第二测序操作中从同一样本测序的第二基因组识别了所述第二变异识别;
至少基于所述第一变异识别和所述第二变异识别,确定所述第一基因组与所述第二基因组之间存在不一致的不一致基因座;
基于所述第一变异得分将所述第一变异分组为组的第一集合;
为所述第一集合的每组确定指示变异为假阳性的似然性的变异校准得分;以及
为每组存储所述变异校准得分,其中所述方法由一个或多个计算设备执行。
20.如权利要求19所述的方法,还包括:
还基于组中的基因座的读段覆盖对所述第一变异进行分组,其中所述第一集合中的每组对应于变异得分的范围和读段覆盖的范围的不同组合。
21.如权利要求19所述的方法,其中为所述第一集合的每组确定变异为假阳性的似然性包括:
将初始变异校准得分分配至所述第一集合的每组;
对于每个不一致基因座:
使用该组的对应于相应不一致基因座的变异校准得分确定变异识别正确的概率P(H);
对于所述第一集合中的每组:
通过基于相应组中的每个不一致基因座的P(H)计算值,为每组确定新变异校准得分。
22.如权利要求21所述的方法,还包括:
在确定所述新变异校准得分之前,为所述第一基因组的变异识别改变第一集合的组。
23.如权利要求22所述的方法,其中每个改变的组具有相应组的不一致基因座之中的至少10个假和10个真变异识别的预期值。
24.如权利要求21所述的方法,还包括:
重复确定每个不一致基因座的概率P(H)和确定新变异校准得分,直到所述变异校准得分覆盖或达到限制为止。
25.如权利要求21所述的方法,还包括:
将初始参考校准得分分配至所述第二集合的每组;
接收所述第二基因组的参考识别和对应的参考得分;
基于所述参考得分将参考识别分组为组的第二集合,其中确定不一致基因座的概率P(H)包括:
比较所述第一集合的对应组的变异校准得分与所述第二集合的参考校准得分;
对于所述第二集合中的每组:
通过基于相应组中的每个不一致基因座的P(H)计算值,为每组确定新参考校准得分。
26.如权利要求25所述的方法,其中将所述第二集合的每组的参考校准得分存储在表中,所述方法还包括:
接收从不同样本的测序操作确定的第一参考识别的第一参考得分;以及
使用所述第一参考得分访问该表以获得对应于所述第一参考得分的参考校准得分,所述参考校准得分指示所述第一参考识别正确的似然性。
27.如权利要求19所述的方法,其中将每组的参考校准得分存储在表中,所述方法还包括:
接收从不同样本的测序操作确定的第三变异识别的第三变异得分;以及
使用所述第三变异得分访问该表以获得对应于所述第三变异得分的变异校准得分,所述变异校准得分指示所述第三变异识别正确的似然性。
28.如权利要求19所述的方法,其中所述第一变异识别和所述第二变异识别辨识同一类型的变异。
29.一种确定样本的基因组中的变异识别的错误率的方法,所述方法包括:
接收样本基因组的读段以及所述读段至参考基因组的映射,其中从来自生物样本的多个基因组片段的测序获得所述读段;
辨识所述样本基因组的第一区域,所述第一区域具有包括相对于所述参考基因组中的对应区域的一个或多个变异的第一似然性,所述第一似然性在第一阈值之上;
基于所述第一区域中的多个假设的概率得分确定顶级假设;
基于所述顶级假设和至少一个其它假设计算第一变异得分;以及
使用所述第一变异得分访问数据库表以获得指示所述顶级假设的错误率的校准得分,所述校准得分对应于包括所述第一变异得分的变异得分的范围,其中所述方法由一个或多个计算设备执行。
30.一种辨识第一样本中的体细胞突变的方法,所述方法包括:
接收已经基于第一样本的测序为第一基因组识别的具有第一变异得分的变异的第一集合;
接收已经基于第二样本的测序为第二基因组识别的具有第二变异得分的变异的第二集合;
基于变异的第一集合和变异的第二集合,确定第一变异存在于所述第一基因组而参考识别存在于所述第二基因组之处的一个或多个不一致基因座;以及
对于每个不一致基因座:
基于对应的第一变异得分确定所述第一变异为假阳性的第一似然性;
基于对应的参考得分确定所述参考识别为假阴性的第二似然性;
基于所述第一似然性和所述第二似然性,计算表示所述第一基因组与所述第二基因组之间的不一致为与错误相反的体细胞突变的似然性的体细胞得分,
其中,所述方法由一个或多个计算设备执行。
31.如权利要求30所述的方法,其中所述错误包括测序或库准备错误。
32.如权利要求30所述的方法,其中:
已经从自生物体的肿瘤细胞提取的第一片段测序了所述第一基因组;以及
已经从自所述生物体的正常细胞提取的第二片段测序了所述第二基因组。
33.如权利要求32所述的方法,其中所述生物体是人类。
34.如权利要求30所述的方法,其中所述变异的第一集合和变异的第二集合为同一类型。
35.一种存储指令的计算机可读非瞬时存储介质,当由一个或多个处理器执行时,所述指令使得所述一个或多个处理器执行权利要求1-34中任一项中的方法。
36.一种包括一个或多个设备的系统,所述一个或多个设备被配置为执行使得所述一个或多个设备执行权利要求1-34中任一项中的方法的指令。
37.一种包括一个或多个处理器和逻辑的计算设备,当由一个或多个处理器执行时,所述逻辑使得所述一个或多个处理器执行权利要求1-34中任一项中的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161535926P | 2011-09-16 | 2011-09-16 | |
US61/535,926 | 2011-09-16 | ||
US201261606306P | 2012-03-02 | 2012-03-02 | |
US61/606,306 | 2012-03-02 | ||
PCT/US2012/055800 WO2013040583A2 (en) | 2011-09-16 | 2012-09-17 | Determining variants in a genome of a heterogeneous sample |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104160391A true CN104160391A (zh) | 2014-11-19 |
Family
ID=47884027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280056506.3A Pending CN104160391A (zh) | 2011-09-16 | 2012-09-17 | 确定异质样本的基因组中的变异 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20130110407A1 (zh) |
CN (1) | CN104160391A (zh) |
HK (1) | HK1199313A1 (zh) |
WO (1) | WO2013040583A2 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462869A (zh) * | 2014-11-28 | 2015-03-25 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN105483244A (zh) * | 2015-12-28 | 2016-04-13 | 武汉菲沙基因信息有限公司 | 一种基于超长基因组的变异检测算法及检测系统 |
WO2016141516A1 (zh) * | 2015-03-06 | 2016-09-15 | 深圳华大基因研究院 | 获取子代特异性序列、检测子代新突变的方法和装置 |
CN105969856A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
CN106022001A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
CN107077538A (zh) * | 2014-12-10 | 2017-08-18 | 深圳华大基因研究院 | 测序数据处理装置和方法 |
CN107208156A (zh) * | 2015-02-09 | 2017-09-26 | 10X基因组学有限公司 | 用于使用变异识别数据来确定结构变异和定相的系统和方法 |
CN107406876A (zh) * | 2014-12-31 | 2017-11-28 | 夸登特健康公司 | 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法 |
CN107614697A (zh) * | 2015-02-26 | 2018-01-19 | 奥斯瑞根公司 | 用于提高突变评估准确性的方法和装置 |
CN108363906A (zh) * | 2018-02-12 | 2018-08-03 | 中国农业科学院作物科学研究所 | 水稻多样本变异整合图谱OsMS-IVMap1.0的创建 |
CN109074429A (zh) * | 2016-04-20 | 2018-12-21 | 华为技术有限公司 | 基因组变异检测方法、装置及终端 |
CN112634991A (zh) * | 2020-12-18 | 2021-04-09 | 长沙都正生物科技股份有限公司 | 基因分型方法、装置、电子设备及存储介质 |
CN112771619A (zh) * | 2018-08-28 | 2021-05-07 | 皇家飞利浦有限公司 | 用于评估基因组比对基础的方法 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068054B2 (en) | 2013-01-17 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9792405B2 (en) | 2013-01-17 | 2017-10-17 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9679104B2 (en) | 2013-01-17 | 2017-06-13 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
EP2994749A4 (en) | 2013-01-17 | 2017-07-19 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10847251B2 (en) | 2013-01-17 | 2020-11-24 | Illumina, Inc. | Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis |
US10691775B2 (en) | 2013-01-17 | 2020-06-23 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
DE112014002045B4 (de) * | 2013-05-24 | 2017-05-24 | Hitachi High-Technologies Corporation | Nucleinsäure-Analysator und Nucleinsäure-Analysenverfahren unter Verwendung des Analysators |
JP2015035212A (ja) * | 2013-07-29 | 2015-02-19 | アジレント・テクノロジーズ・インクAgilent Technologies, Inc. | ターゲットシークエンシングパネルから変異を見つける方法 |
JP6491651B2 (ja) * | 2013-10-15 | 2019-03-27 | リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. | 高解像度での対立遺伝子の同定 |
US20150199476A1 (en) * | 2014-01-16 | 2015-07-16 | Electronics And Telecommunications Research Institute | Method of analyzing genome by genome analyzing device |
US10394828B1 (en) | 2014-04-25 | 2019-08-27 | Emory University | Methods, systems and computer readable storage media for generating quantifiable genomic information and results |
US9858111B2 (en) * | 2014-06-18 | 2018-01-02 | Empire Technologies Development Llc | Heterogeneous magnetic memory architecture |
US9940266B2 (en) | 2015-03-23 | 2018-04-10 | Edico Genome Corporation | Method and system for genomic visualization |
JP6700376B2 (ja) * | 2015-07-29 | 2020-05-27 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 有意性が未知のバリアントに優先順位をつけるシステム及び方法 |
US10068183B1 (en) | 2017-02-23 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform |
US20170270245A1 (en) | 2016-01-11 | 2017-09-21 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing |
JP6653628B2 (ja) * | 2016-06-16 | 2020-02-26 | 株式会社日立製作所 | Dna配列解析装置、dna配列解析方法及びdna配列解析システム |
US10600499B2 (en) | 2016-07-13 | 2020-03-24 | Seven Bridges Genomics Inc. | Systems and methods for reconciling variants in sequence data relative to reference sequence data |
JP7113838B2 (ja) * | 2016-11-16 | 2022-08-05 | イルミナ インコーポレイテッド | 配列バリアントコールのための有効化方法およびシステム |
US11861491B2 (en) | 2017-10-16 | 2024-01-02 | Illumina, Inc. | Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs) |
CA3066775A1 (en) | 2017-10-16 | 2019-04-25 | Illumina, Inc. | Deep learning-based techniques for training deep convolutional neural networks |
SG11201911784PA (en) | 2018-01-08 | 2020-01-30 | Illumina Inc | Systems and devices for high-throughput sequencing with semiconductor-based detection |
WO2019136376A1 (en) | 2018-01-08 | 2019-07-11 | Illumina, Inc. | High-throughput sequencing with semiconductor-based detection |
WO2019161419A1 (en) * | 2018-02-16 | 2019-08-22 | Illumina, Inc. | Systems and methods for correlated error event mitigation for variant calling |
CN111383714B (zh) * | 2018-12-29 | 2023-07-28 | 安诺优达基因科技(北京)有限公司 | 模拟目标疾病仿真测序文库的方法及其应用 |
WO2021067721A1 (en) * | 2019-10-02 | 2021-04-08 | Mission Bio, Inc. | Improved variant caller using single-cell analysis |
CN111798922B (zh) * | 2020-07-29 | 2024-04-02 | 中国农业大学 | 基于重测序数据中多态性位点密度鉴定小麦育种的基因组选择利用区间的方法 |
US11361194B2 (en) | 2020-10-27 | 2022-06-14 | Illumina, Inc. | Systems and methods for per-cluster intensity correction and base calling |
US11538555B1 (en) | 2021-10-06 | 2022-12-27 | Illumina, Inc. | Protein structure-based protein language models |
WO2023183812A2 (en) * | 2022-03-21 | 2023-09-28 | Billion Toone, Inc. | Molecule counting of methylated cell-free dna for treatment monitoring |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080318795A1 (en) * | 1999-01-19 | 2008-12-25 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
US20110004413A1 (en) * | 2009-04-29 | 2011-01-06 | Complete Genomics, Inc. | Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030211504A1 (en) * | 2001-10-09 | 2003-11-13 | Kim Fechtel | Methods for identifying nucleic acid polymorphisms |
AU2005263186B2 (en) * | 2004-07-20 | 2012-01-19 | Conexio 4 Pty Ltd | Method and apparatus for analysing nucleic acid sequence |
US7647188B2 (en) * | 2004-09-15 | 2010-01-12 | F. Hoffmann-La Roche Ag | Systems and methods for processing nucleic acid chromatograms |
WO2008148072A2 (en) * | 2007-05-24 | 2008-12-04 | The Brigham And Women's Hospital, Inc. | Disease-associated genetic variations and methods for obtaining and using same |
PT2183693E (pt) * | 2007-07-23 | 2014-01-14 | Univ Hong Kong Chinese | Diagnóstico de aneuploidia cromossómica fetal utilizando sequenciação genómica |
US9260745B2 (en) * | 2010-01-19 | 2016-02-16 | Verinata Health, Inc. | Detecting and classifying copy number variation |
DK3382037T3 (da) * | 2010-01-19 | 2021-05-25 | Verinata Health Inc | Fremgangsmåder til bestemmelse af fraktionen af føtale nukleinsyrer i maternelle prøver |
WO2011149534A2 (en) * | 2010-05-25 | 2011-12-01 | The Regents Of The University Of California | Bambam: parallel comparative analysis of high-throughput sequencing data |
WO2012006291A2 (en) * | 2010-07-06 | 2012-01-12 | Life Technologies Corporation | Systems and methods to detect copy number variation |
-
2012
- 2012-09-17 CN CN201280056506.3A patent/CN104160391A/zh active Pending
- 2012-09-17 WO PCT/US2012/055800 patent/WO2013040583A2/en active Application Filing
- 2012-09-17 US US13/621,716 patent/US20130110407A1/en not_active Abandoned
-
2014
- 2014-12-19 HK HK14112736.8A patent/HK1199313A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080318795A1 (en) * | 1999-01-19 | 2008-12-25 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
US20110004413A1 (en) * | 2009-04-29 | 2011-01-06 | Complete Genomics, Inc. | Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence |
Non-Patent Citations (3)
Title |
---|
OLIVIER HARISMENDY: "Evaluation of next generation sequencing platforms for population targeted sequencing studies", 《GENOME BIOLOGY》 * |
RODRIGO GOYA: "SNVMix:predicting single nucleotide variants from next generation sequencing of tumors", 《BIOINFORMATICS》 * |
ROSE HOBERMAN: "A probabilistic approach for SNP discovery in high-throughput human resequencing data", 《GENOME RESEARCH》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462869B (zh) * | 2014-11-28 | 2017-12-26 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN104462869A (zh) * | 2014-11-28 | 2015-03-25 | 天津诺禾致源生物信息科技有限公司 | 检测体细胞单核苷酸突变的方法和装置 |
CN107077538B (zh) * | 2014-12-10 | 2020-08-07 | 深圳华大生命科学研究院 | 测序数据处理装置和方法 |
CN107077538A (zh) * | 2014-12-10 | 2017-08-18 | 深圳华大基因研究院 | 测序数据处理装置和方法 |
CN107406876A (zh) * | 2014-12-31 | 2017-11-28 | 夸登特健康公司 | 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法 |
CN107406876B (zh) * | 2014-12-31 | 2021-09-07 | 夸登特健康公司 | 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法 |
CN107208156B (zh) * | 2015-02-09 | 2021-10-08 | 10X基因组学有限公司 | 用于使用变异识别数据来确定结构变异和定相的系统和方法 |
CN107208156A (zh) * | 2015-02-09 | 2017-09-26 | 10X基因组学有限公司 | 用于使用变异识别数据来确定结构变异和定相的系统和方法 |
CN107614697A (zh) * | 2015-02-26 | 2018-01-19 | 奥斯瑞根公司 | 用于提高突变评估准确性的方法和装置 |
WO2016141516A1 (zh) * | 2015-03-06 | 2016-09-15 | 深圳华大基因研究院 | 获取子代特异性序列、检测子代新突变的方法和装置 |
CN105483244A (zh) * | 2015-12-28 | 2016-04-13 | 武汉菲沙基因信息有限公司 | 一种基于超长基因组的变异检测算法及检测系统 |
CN105483244B (zh) * | 2015-12-28 | 2019-10-22 | 武汉菲沙基因信息有限公司 | 一种基于超长基因组的变异检测方法及检测系统 |
CN109074429B (zh) * | 2016-04-20 | 2022-03-29 | 华为技术有限公司 | 基因组变异检测方法、装置及终端 |
CN109074429A (zh) * | 2016-04-20 | 2018-12-21 | 华为技术有限公司 | 基因组变异检测方法、装置及终端 |
CN106022001A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
CN105969856B (zh) * | 2016-05-13 | 2019-11-12 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
CN105969856A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
CN106022001B (zh) * | 2016-05-13 | 2018-09-18 | 万康源(天津)基因科技有限公司 | 一种肿瘤突变位点筛选及互斥基因挖掘的系统 |
CN108363906A (zh) * | 2018-02-12 | 2018-08-03 | 中国农业科学院作物科学研究所 | 水稻多样本变异整合图谱OsMS-IVMap1.0的创建 |
CN108363906B (zh) * | 2018-02-12 | 2021-12-28 | 中国农业科学院作物科学研究所 | 水稻多样本变异整合图谱OsMS-IVMap1.0的创建 |
CN112771619A (zh) * | 2018-08-28 | 2021-05-07 | 皇家飞利浦有限公司 | 用于评估基因组比对基础的方法 |
CN112634991A (zh) * | 2020-12-18 | 2021-04-09 | 长沙都正生物科技股份有限公司 | 基因分型方法、装置、电子设备及存储介质 |
CN112634991B (zh) * | 2020-12-18 | 2022-07-19 | 长沙都正生物科技股份有限公司 | 基因分型方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20130110407A1 (en) | 2013-05-02 |
WO2013040583A3 (en) | 2014-05-22 |
WO2013040583A2 (en) | 2013-03-21 |
HK1199313A1 (zh) | 2015-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104160391A (zh) | 确定异质样本的基因组中的变异 | |
Johnson et al. | Ancestral components of admixed genomes in a Mexican cohort | |
US20210217490A1 (en) | Method, computer-accessible medium and system for base-calling and alignment | |
Ross et al. | OncoNEM: inferring tumor evolution from single-cell sequencing data | |
Teare et al. | Genetic linkage studies | |
Fang et al. | Getting started in gene orthology and functional analysis | |
Cotsapas et al. | Pervasive sharing of genetic effects in autoimmune disease | |
Alamancos et al. | Methods to study splicing from high-throughput RNA sequencing data | |
Garber et al. | Computational methods for transcriptome annotation and quantification using RNA-seq | |
Sindi et al. | An integrative probabilistic model for identification of structural variation in sequencing data | |
Olson et al. | Variant calling and benchmarking in an era of complete human genome sequences | |
Elhanati et al. | repgenHMM: a dynamic programming tool to infer the rules of immune receptor generation from sequence data | |
Chan et al. | Evaluating imputation algorithms for low-depth genotyping-by-sequencing (GBS) data | |
Pierre-Jean et al. | Performance evaluation of DNA copy number segmentation methods | |
Anderson et al. | ReCombine: a suite of programs for detection and analysis of meiotic recombination in whole-genome datasets | |
Ritz et al. | Structural variation analysis with strobe reads | |
US20220284985A1 (en) | Method for detecting genetic variation in highly homologous sequences by independent alignment and pairing of sequence reads | |
Demidov et al. | ClinCNV: novel method for allele-specific somatic copy-number alterations detection | |
EP3362580B1 (en) | Multiallelic genotyping of single nucleotide polymorphisms and indels | |
Niehus et al. | PopDel identifies medium-size deletions jointly in tens of thousands of genomes | |
Zaccaria et al. | Characterizing the allele-and haplotype-specific copy number landscape of cancer genomes at single-cell resolution with CHISEL | |
Caravagna et al. | Model-based tumor subclonal reconstruction | |
Lin et al. | MapCaller–An integrated and efficient tool for short-read mapping and variant calling using high-throughput sequenced data | |
Chong et al. | SeqControl: process control for DNA sequencing | |
Hu et al. | Processing UMI Datasets at High Accuracy and Efficiency with the Sentieon ctDNA Analysis Pipeline |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1199313 Country of ref document: HK |
|
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141119 |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1199313 Country of ref document: HK |