CN111094591A - 用于对生物分子进行测序的方法 - Google Patents
用于对生物分子进行测序的方法 Download PDFInfo
- Publication number
- CN111094591A CN111094591A CN201880059968.8A CN201880059968A CN111094591A CN 111094591 A CN111094591 A CN 111094591A CN 201880059968 A CN201880059968 A CN 201880059968A CN 111094591 A CN111094591 A CN 111094591A
- Authority
- CN
- China
- Prior art keywords
- test
- normal
- sample
- reads
- trial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 101
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 238000003556 assay Methods 0.000 claims abstract description 5
- 230000000052 comparative effect Effects 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 94
- 230000014509 gene expression Effects 0.000 claims description 24
- 108090000623 proteins and genes Proteins 0.000 claims description 10
- 206010028980 Neoplasm Diseases 0.000 claims description 6
- 201000010099 disease Diseases 0.000 claims description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 5
- 238000007481 next generation sequencing Methods 0.000 claims description 3
- 102000040430 polynucleotide Human genes 0.000 claims description 2
- 108091033319 polynucleotide Proteins 0.000 claims description 2
- 239000002157 polynucleotide Substances 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 claims description 2
- 239000012805 animal sample Substances 0.000 claims 1
- 229920001184 polypeptide Polymers 0.000 claims 1
- 102000004196 processed proteins & peptides Human genes 0.000 claims 1
- 108090000765 processed proteins & peptides Proteins 0.000 claims 1
- 102000004169 proteins and genes Human genes 0.000 claims 1
- 101000708766 Homo sapiens Structural maintenance of chromosomes protein 3 Proteins 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 8
- 238000013401 experimental design Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 239000012472 biological sample Substances 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 235000019506 cigar Nutrition 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000000682 scanning probe acoustic microscopy Methods 0.000 description 1
- 239000013545 self-assembled monolayer Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/002—Biomolecular computers, i.e. using biomolecules, proteins, cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6818—Sequencing of polypeptides
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
Abstract
一种用于提供对生物分子的测序的系统和方法,该系统和方法能够用于进行测试样本与正常样本的差异分析。方法能够涉及以下步骤:提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试‑正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试‑正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;重复所述下采样的步骤以确定用于计算测试‑正常基因组比较视图所需的最少试验读取数量,所述测试‑正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试‑正常基因组比较视图。
Description
技术领域
本发明涉及用于生物分子的下一代测序(NGS)的方法和系统。该系统能够使用来自用户定义样本的序列比对映射的二元BAM文件作为输入。对映射的BAM文件进行下采样能够用于确定获得关键生物信息所需的减少的读取数量。
背景技术
在过去的几年中,生物分子的测序成本已经下降到大约百分之一,2016年每个基因组的成本大约为1000美元(参见例如https://www.genome.gov/27541954/dna-sequencing-costs-data/)。然而,由于生物序列信息在医学、药学、诊断学以及许多新的商业应用中的使用数量不断增加,因此近年来对序列数据和分析的需求急剧增加。随着要研究的样本或序列的数量的增加,对有效存储和分析序列数据的需求也已经大大增加。
减少数量和成本的一种方法是进行多路复用样本测序。通过多路复用,而不是在测序仪的一个通道中对单个样本进行测序,能够一起加载能够具有独特条形码的多个样本。当对样本进行多路复用时获得的数据总量会减少。不幸的是,在一些研究应用中,减少每个样本的序列数据总量可能会使相关的生物信息丢失。
此外,可能无法确定或估计获得某些生物信息所需的多路复用的先验深度(即,每个通道的样本数)。例如,在一些情况下,医学研究、临床试验、药物开发和诊断应用可能需要大量的研究对象。在许多情况下,数据量可能过高,特别是在必须存储和重复分析序列数据时就是这样。
发明内容
本发明的目的是提供用于估计在实验设计中收集足够数量的相关测序信息所需的测序深度的系统和方法。
特别地,本发明的目的是提供通过确定获得关键生物信息所需的多路复用水平和测序深度来解决上述问题的系统和方法。对大量生物样本进行深度测序要求对样本进行多路复用以使测序成本最少化。在本发明中,能够预先确定多路复用水平和测序深度,使得能够获得测序数据而不会丢失关键生物信息。在测序系统中,能够对来自试验研究的少量样本进行测序以为研究设计提供信息。更特别地,能够确定测序深度并将其用于完整研究中的其余样本。
根据本发明的示例性实施例,一种用于测序的系统和方法为实验设计提供关于能够使用的测序深度的信息以及多路复用水平的信息,同时仍然能够捕获足够的生物信息。该系统需要少量试验样本(其是较大实验设计的部分)进行测序以确定在生物信息与测序深度之间任何权衡的效果。该系统为用户(例如,个体研究人员)在所需深度执行测序以获得完整的生物信息。
可以预想到,通过提供用于提供对生物分子进行测序以进行测试样本与正常样本的差异分析的系统和方法,在本发明的第一方面中获得了上述目的。
在一些实施例中,所述方法能够包括以下步骤:提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试-正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;重复所述下采样的步骤以确定用于计算测试-正常基因组比较视图所需的最少试验读取数量,所述测试-正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试-正常基因组比较视图。
本发明的目的通过独立权利要求的主题来解决,其中,其实施例被并入在从属权利要求中。
附图说明
现在将参考附图来更详细地描述根据本发明的方法。这些附图示出了实施本发明的方式,并且不应被解释为限于落入所附权利要求的范围内的其他可能的实施例。
图1示出了针对样本的基因表达分布的示例,初始数据具有9700万个读取。该数据已经被缩减为5000万、2500万、1000万、500万、400万、200万和100万个读取。分析表明,随着读取数量的减少,针对具有中等转录本丰度水平的基因的信号(例如,范围为1-3的logFPKM(每千个碱基的转录每百万映射读取的片段)的值)会降低。降低的信号会使解析关键生物信息的能力失真。在400-500万个映射读取中,失真会变得很明显,并且在100-200万个映射读取中,失真会阻止获得完整的生物信息。这些数据表明,在500到1000万个映射读取中,能够充分获得表达谱,并且测序覆盖范围足以揭示完整的生物信息。
图2示出了针对样本的基因表达分布的示例,初始数据具有1.12亿个读取。该数据已经被缩减为5000万、2500万、1000万、500万、400万、200万和100万个读取。分析表明,随着读取数量的减少,针对具有中等转录本丰度水平的基因的信号(例如,范围为1-3的logFPKM(每千个碱基的转录每百万映射读取的片段)的值)会降低。降低的信号会使解析关键生物信息的能力失真。在400-500万个映射读取中,失真会变得很明显,并且在100-200万个映射读取中,失真会阻止获得完整的生物信息。这些数据表明,在500到1000万个映射读取中,能够充分获得表达谱,并且测序覆盖范围足以揭示完整的生物信息。
图3示出了用于测序样本的多维缩放标绘图的示例,该多维缩放标绘图将生物信息显示为针对正常组织的转录组与针对疾病组织的转录组之间的差异。每个圆点对应于一个样本,并且在圆内指示样本编号。正常样本以红色显示,而肿瘤样本以绿色显示。轴以任意单位为单位。当点(样本)的转录组相似时,点(样本)的出现位置很接近。转录组之间的相似性能够通过其在标绘图上的欧几里得距离或其相关性(例如,斯皮尔曼相关性、皮尔逊相关性或肯德尔相关性)来测量。
图4示出了针对图3中的测序样本的多维缩放标绘图的示例,该测序样本已经被下采样到5000万个读取。
图5示出了针对图3中的测序样本的多维缩放标绘图的示例,该测序样本已经被下采样到100万个读取。
具体实施方式
本发明的目的是提供用于改变并确定在实验设计中根据测序数据获得相关生物信息所需的测序覆盖范围的系统和方法。
更特别地,本发明的目的是提供用于确定根据样本获得关键生物信息所需的多路复用水平和/或测序深度的系统和方法。
在一些实施例中,能够预先根据初始数据来确定最优的多路复用水平和测序深度,使得能够在较低的读取覆盖范围下获得测序数据,而不会丢失针对额外样本的关键生物信息。在测序系统中,能够对来自试验研究的少量样本进行测序,以确定在研究设计中能够如何获得生物信息。在一些情况下,能够确定测序深度并将其用于完整研究中的其余样本。
根据本发明的示例性实施例,用于测序的系统和方法为实验设计提供关于测序的覆盖范围的信息,另外还提供能够使用的多路复用水平,同时仍然能够显示选定的生物信息。在一些方面中,该系统利用对少量试验样本(其是较大实验设计的部分)进行测序来确定在生物信息与测序覆盖范围之间任何权衡的效果。该系统为用户(例如,个体研究人员)比较在不同覆盖水平时可获得的生物信息,然后在提供所需的生物信息的覆盖水平下执行测序。
可以预想到,通过提供用于提供利用下采样进行的生物分子测序以进行测试样本的差异分析的系统和方法,在本发明的某些实施例中获得了上述目的。
在一些实施例中,用于对生物样本进行测序的方法能够包括以下步骤:
提供一组试验测试样本和一组试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;
由处理器根据该组试验测试样本和该组试验正常样本的序列文件来计算第一测试-正常基因组比较试验视图,其中,第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;
由处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;
由处理器根据该组试验测试样本和该组试验正常样本的下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,第二试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;
重复下采样的步骤以确定用于(1)计算测试-正常基因组比较视图或者(2)生成显示与第一原始样本没有偏差或偏差很小的样本数据所需的最少试验读取数量,所述测试-正常基因组比较视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;
使用等于最少试验读取数量的读取数量对测试样本和正常样本的生物分子进行测序;并且
由处理器基于至少一个基因组参数来计算用于显示差异分析的测试-正常基因组比较视图。
另外,本发明的另一方面针对一种非瞬态计算机可读存储介质,所述非瞬态计算机可读存储介质用于存储用于通过下采样进行测序的一个或多个程序,所述一个或多个程序包括指令,所述指令当由具有图形用户接口的计算设备运行时令所述设备执行上述方法的步骤。
能够以迭代的方式重复下采样的步骤以逐渐减少读取数量,直到获得的生物信息开始丢失或劣化或者所需特征的分辨率开始丢失或劣化。
在一些实施例中,系统能够使用来自用户定义的样本的映射的BAM文件作为输入。通过根据用户定义的样本对映射的BAM文件进行下采样,能够创建读取数量较少的新的BAM文件。
在一些实施例中,读取数量能够减少50%,或60%,或70%,或80%,或90%。
在另外的实施例中,读取数量能够减少到二分之一,或三分之一,或四分之一,或五分之一,或十分之一。
能够对来自作为试验研究的部分的样本的所有BAM文件重复该方法。
本发明的系统和方法能够应用于对全基因组、外显子组、转录组的测序以及表观基因组测序。
根据用户感兴趣的分析,该系统使得能够评价模拟的下采样数据。这为用户提供了系统性方法来为他/她的决策提供关于解决相关生物问题所必需的测序深度的信息。
序列比对/图(SAM)格式能够用于存储高通量测序数据中的大量多核苷酸序列比对。它是由TAB限定的文本格式,包括标头部分(任选的)和比对部分。BAM是SAM的二元形式。
SAM格式通常包括标头部分和比对部分。SAM文件的二元表示是BAM文件,它是压缩的SAM文件。能够利用SAMTOOLS软件来分析和编辑SAM文件。SAMTOOLS提供了用于以SAM格式操纵比对的多种实用程序,包括以按位置的格式分类、合并、索引和生成比对。标头能够以“@”符号为开头,以此在比对部分间区分标头。比对部分通常具有11个必填字段,并且可能具有可变数量的任选字段。例如,这些字段能够是QNAME(字符串)查询模板名称、FLAG(Int)逐位标记、RNAME(字符串)参考序列名称、POS(Int)基于1的最左边的映射位置、MAPQ(Int)映射质量、CIGAR(字符串)CIGAR字符串、RNEXT(字符串)伴侣/下一读取的参考名称、PNEXT(Int)伴侣/下一读取的位置、TLEN(Int)观察到的模板长度、SEQ(字符串)节段序列以及QUAL(字符串)Phred缩放的基本质量+33的ASCII。
研究的生物样本可以从细胞、生物体、正常组织或疾病组织获得。
根据本发明的示例性实施例,用于测序的系统和方法能够提供计算的基因表达数据以供显示。在一些实施例中,该系统和方法能够检测通过下采样获得的读取覆盖水平(这是提供某些生物信息所需要的),而没有能够观察到的误差和/或显著的误差、表达谱的失真或生物信息的损失。
示例性系统和方法利用质量度量将下采样或缩减的配置文件与具有更大读取数量或更大覆盖范围或更大样本多路复用的配置文件进行比较。
在某些实施例中,能够利用度量来总结每个样本中的所有基因的表达值的差异。这些度量的示例包括均方根偏差(RMSD)、均值/中位数/百分位数绝对偏差等。
在一些方面中,度量能够用于表征个体样本或样本组的整体基因表达分布中的失真。这些度量的示例包括均值、标准差、峰值、直方图下的面积等的差异。
在一些实施例中,能够利用度量来估计定义的样本组或样本聚类内(组内/聚类内)或之间(组间/聚类间)的整体相关性。能够根据样本的性质和特性(例如,疾病亚型或种族)或其他临床试验特征对样本进行分组,或者基于计算聚类分析将样本放入聚类中。
在一些实施例中,能够利用度量来估计定义的样本组或样本聚类内(组内)或之间(组间)的整体距离。能够根据样本的性质和特性(例如,疾病亚型或种族)或其他临床试验特征对样本进行分组,或者基于计算聚类分析将样本放入聚类中。
在某些方面中,一组样本能够共享一个或多个在表达数据中表现为某种水平的相似性的特性,并且能够用于将一组样本与另一组样本区分开。在这样的实施例中,用于数据质量劣化的度量能够是聚类内相关性的减小和/或聚类间相关性的增大。
在某些方面中,一组样本能够具有一个或多个在表达数据中表现为某种水平的差异的特性,并且能够用于将一组成员与另一组成员区分开。在这样的实施例中,用于数据质量劣化的度量能够是聚类内距离的增大和/或聚类间距离的减少。
在另外的实施例中,聚类内度量能够通过对来自相同聚类的样本对的所有组合的成对比较进行平均化来计算。而聚类间度量能够通过对如下样本对的组合进行平均化来计算的,在该样本对中,每个样本是从被比较的两个不同聚类中的一个聚类中抽取的。
作为基因组参数的相关性度量的示例包括相关性,例如,皮尔逊相关性、斯皮尔曼相关性、肯德尔相关性等。
距离度量的示例包括基于多维缩放或主成分分析的顶层组分的欧几里得距离。
度量能够基于基因表达值的完整范围或特定范围或者使用选定的一组基因(例如,基因表达具有较高标准偏差的一组基因)来计算。
例如,基因组参数能够是斯皮尔曼的秩序相关性。斯皮尔曼的秩序相关性是皮尔逊乘积矩相关性的非参数形式的示例。斯皮尔曼相关系数ρ(也被称为rs)能够测量两个排名变量之间关联的强度和方向。这两个变量能够是序数、间隔或比率。斯皮尔曼相关性能够确定这两个变量之间的单调关联的强度和方向,而不是线性关系。
基因组参数的示例包括线性回归和线性相关。
为了计算样本数据的质量是否因下采样而劣化,能够应用涉及前述度量中的一个或多个并在一个或多个基因表达范围上的准则。
在另外的方面中,能够通过从原始批量测序数据中随机选择固定数量或百分比的读取来进行下采样。在每一轮中,能够处理数据(例如读取比对和表达定量),并且在测序覆盖水平中的一个或多个上评价所得到的基因表达质量。与下一较高覆盖水平的数据相比,在数据质量开始劣化(其是通过一组质量度量准则来确定的)的覆盖水平上,能够在两个覆盖水平之间应用下一轮下采样以进一步提高效率。如果未观察到数据质量的劣化,则能够在零覆盖范围与本轮的最低覆盖范围之间应用下一轮下采样。能够重复进行该下采样过程,直到:(1)当寻找较低的最优覆盖范围时,覆盖范围间隔足够小,对测序效率没有进一步影响或几乎没有进一步影响;(2)当寻找能够满足数据质量要求的最小覆盖范围时,数据质量的提高变得微不足道或数据质量足够高。
在一些方面中,本发明的系统和方法能够用于在宽动态范围内测量所有基因的表达水平,而不会损失灵敏度并且/或者不会引入测量噪声或误差。
根据本发明的示例性实施例,能够识别在没有失真或信息丢失的情况下检测样本的基因表达谱所需的测序覆盖范围的下限。用于测序覆盖范围的下限能够用于采集和/或处理用于更大研究的额外数据,从而大大提高效率,减少测序数据的存储和处理工作量,并且提高利用测序结果的诊断测试的质量。
示例1
图1示出了针对样本的基因表达分布的示例,初始数据具有9700万个读取。该数据已经被缩减为5000万、2500万、1000万、500万、400万、200万和100万个读取。分析表明,随着读取数量的减少,针对具有中等转录本丰度水平的基因的信号(例如,范围为1-3的logFPKM(每千个碱基的转录每百万映射读取的片段)的值)会降低。降低的信号会使解析关键生物信息的能力失真。在400-500万个映射读取中,失真会变得很明显,并且在100-200万个映射读取中,失真会阻止获得完整的生物信息。这些数据表明,在500到1000万个映射读取的有利低水平下,能够充分获得表达谱,并且测序覆盖范围足以揭示完整的生物信息。
图2示出了针对样本的基因表达分布的示例,初始数据具有1.12亿个读取。该数据已经被缩减为5000万、2500万、1000万、500万、400万、200万和100万个读取。分析表明,随着读取数量的减少,针对具有中等转录本丰度水平的基因的信号(例如,范围为1-3的logFPKM(每千个碱基的转录每百万映射读取的片段)的值)会降低。降低的信号会使解析关键生物信息的能力失真。在400-500万个映射读取中,失真会变得很明显,并且在100-200万个映射读取中,失真会阻止获得完整的生物信息。这些数据表明,在500到1000万个映射读取的有利低水平下,能够充分获得表达谱,并且测序覆盖范围足以揭示完整的生物信息。
示例2
图3示出了用于测序样本的多维缩放标绘图的示例,该多维缩放标绘图将生物信息显示为针对正常组织的转录组与针对疾病组织的转录组之间的差异。每个圆点对应于一个样本,并且在圆内指示样本编号。正常样本以红色显示,而肿瘤样本以绿色显示。轴以任意单位为单位。当点(样本)的转录组相似时,点(样本)的出现位置很接近。转录组之间的相似性能够通过其在标绘图上的欧几里得距离或其相关性(例如,斯皮尔曼相关性、皮尔逊相关性或肯德尔相关性)来测量。图3是根据Boj等人的“Organoid Models of Human andMouse Ductal Pancreatic Cancer”(Cell,第160卷,第324-338页,2015年1月15日)的RNA测序数据计算的。
图4示出了针对图3中的测序样本的多维缩放标绘图的示例,该测序样本已经被下采样到5000万个读取。
图5示出了针对图3中的测序样本的多维缩放标绘图的示例,该测序样本已经被下采样到100万个读取。令人惊讶的是,针对这个低读取数量,揭示出样本的整体空间排列的显著差异,甚至可以与需要大50倍至100倍的数据相当。即使在令人惊讶的100万个读取的低测序水平下,也能清楚地看到肿瘤转录组与正常转录组之间的主要差异。因此,所需的测序深度大大降低,提供了将肿瘤样本与正常样本区分开的出乎意料的优秀能力。
出于所有目的,通过应用将本文中引用的所有出版物、参考文献、专利、专利公开和专利申请均整体并入本文。
虽然已经描述了某些实施例、方面或变型并且出于说明的目的已经阐述了许多细节,但是对于本领域技术人员显而易见的是,可以预想到额外的实施例、方面或变型,并且在不脱离本文描述的内容的情况下,本文描述的细节中的一些内容可以有很大的变化。因此,理解、暗示或以其他方式预想到的另外的实施例、方面和变型以及其任何修改和等价方案被认为是本文描述的(一个或多个)发明的部分。例如,本申请预想到本文描述的各种说明性部件和示例的特征、物件或元件的任何组合。
本文在描述本发明时和在权利要求书中使用的术语“一”、“一个”、“该”和类似术语应被解释为包括单数和复数,例如应被解释为“一个或多个”。
术语“涵盖”、“具有”、“包括”、“包含”和“含有”应被解释为开放式术语,其例如意指“包括但不限于”。因此,诸如“涵盖”、“具有”、“包括”、“包含”和“含有”之类的术语应被解释为包括性的,而非排他性的。
本文给出的示例以及本文使用的示例性语言仅出于说明的目的,并不旨在限制本发明的范围。所有示例和示例列表都应被理解为非限制性的。
Claims (21)
1.一种用于对生物分子进行测序以进行测试样本与正常样本的差异分析的方法,所述方法包括:
提供试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;
由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试-正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;
由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;
由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;
重复所述下采样的步骤以确定用于计算测试-正常基因组比较视图所需的最少试验读取数量,所述测试-正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;
使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且
由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试-正常基因组比较视图。
2.根据权利要求1所述的方法,其中,所述映射的序列文件是BAM文件或SAM文件。
3.根据权利要求1所述的方法,其中,所述生物分子是多核苷酸或多肽。
4.根据权利要求1所述的方法,其中,所述生物分子是DNA、RNA或蛋白质。
5.根据权利要求1所述的方法,其中,所述差异分析将疾病测试样本与正常样本区分开。
6.根据权利要求1所述的方法,其中,所述差异分析将肿瘤测试样本与正常样本区分开。
7.根据权利要求1所述的方法,其中,所述试验读取数量被减少到500万。
8.根据权利要求1所述的方法,其中,所述试验读取数量被减少到100万。
9.根据权利要求1所述的方法,其中,等于所述最少试验读取数量的读取数量为500万。
10.根据权利要求1所述的方法,其中,等于所述最少试验读取数量的读取数量为100万。
11.根据权利要求1所述的方法,其中,映射的BAM文件由下一代测序来供应。
12.根据权利要求1所述的方法,其中,对所述生物分子的所述测序是通过对样本进行多路复用来执行的。
13.根据权利要求1所述的方法,其中,所述测试-正常基因组比较视图显示相对基因表达水平。
14.根据权利要求1所述的方法,其中,等于所述最少试验读取数量的读取数量足以将测试样本的表达水平与正常样本的表达水平区分开。
15.根据权利要求1所述的方法,其中,等于所述最少试验读取数量的读取数量足以针对宽动态范围内的所有基因确定测试样本的表达水平与正常样本的表达水平,而没有灵敏度的损失。
16.根据权利要求1所述的方法,其中,所述测试-正常基因组比较视图显示转录组聚类。
17.根据权利要求1所述的方法,其中,所述测试-正常基因组比较视图显示通过斯皮尔曼相关系数、皮尔逊相关系数或肯德尔相关系数区分开的转录组聚类。
18.根据权利要求1所述的方法,其中,所述测试样本是疾病细胞或疾病组织样本。
19.根据权利要求1所述的方法,其中,所述测试样本是模型细胞或模型组织样本。
20.根据权利要求1所述的方法,其中,所述测试样本是人类样本或动物样本。
21.一种承载软件指令的非瞬态计算机可读介质,所述软件指令被配置为执行以下步骤:
接收并存储试验测试样本和试验正常样本中的每个的映射的序列文件,其中,每个序列文件具有试验读取数量;
由处理器根据所述试验测试样本和所述试验正常样本的所述序列文件来计算第一测试-正常基因组比较试验视图,其中,所述第一试验视图基于至少一个基因组参数将试验测试样本数据与试验正常样本数据区分开;
由所述处理器针对每个序列文件计算具有减少的试验读取数量的下采样的序列文件;
由所述处理器根据所述试验测试样本和所述试验正常样本的所述下采样的序列文件来计算第二测试-正常基因组比较试验视图,其中,所述第二试验视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;
重复所述下采样的步骤以确定用于计算测试-正常基因组比较视图所需的最少试验读取数量,所述测试-正常基因组比较视图基于所述至少一个基因组参数将所述试验测试样本数据与所述试验正常样本数据区分开;
使用等于所述最少试验读取数量的读取数量对所述测试样本和所述正常样本的生物分子进行测序;并且
由所述处理器基于所述至少一个基因组参数来计算用于显示所述差异分析的测试-正常基因组比较视图。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762547337P | 2017-08-18 | 2017-08-18 | |
US62/547,337 | 2017-08-18 | ||
PCT/EP2018/071861 WO2019034576A1 (en) | 2017-08-18 | 2018-08-13 | METHODS OF SEQUENCING BIOMOLECULES |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111094591A true CN111094591A (zh) | 2020-05-01 |
Family
ID=63174279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880059968.8A Pending CN111094591A (zh) | 2017-08-18 | 2018-08-13 | 用于对生物分子进行测序的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200394491A1 (zh) |
EP (1) | EP3669369A1 (zh) |
CN (1) | CN111094591A (zh) |
WO (1) | WO2019034576A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801676B (zh) * | 2019-02-26 | 2021-01-01 | 北京深度制耀科技有限公司 | 一种用于评价化合物对基因通路活化作用的方法及装置 |
CN110263791B (zh) * | 2019-05-31 | 2021-11-09 | 北京京东智能城市大数据研究院 | 一种识别功能区的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104106072A (zh) * | 2011-12-08 | 2014-10-15 | 皇家飞利浦有限公司 | 使用全基因组序列的生物细胞评估以及使用所述全基因组序列的肿瘤学治疗规划 |
WO2015184404A1 (en) * | 2014-05-30 | 2015-12-03 | Verinata Health, Inc. | Detecting fetal sub-chromosomal aneuploidies and copy number variations |
WO2016011563A1 (en) * | 2014-07-25 | 2016-01-28 | Ontario Institute For Cancer Research | System and method for process control of gene sequencing |
-
2018
- 2018-08-13 CN CN201880059968.8A patent/CN111094591A/zh active Pending
- 2018-08-13 WO PCT/EP2018/071861 patent/WO2019034576A1/en unknown
- 2018-08-13 US US16/638,532 patent/US20200394491A1/en active Pending
- 2018-08-13 EP EP18753413.6A patent/EP3669369A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104106072A (zh) * | 2011-12-08 | 2014-10-15 | 皇家飞利浦有限公司 | 使用全基因组序列的生物细胞评估以及使用所述全基因组序列的肿瘤学治疗规划 |
WO2015184404A1 (en) * | 2014-05-30 | 2015-12-03 | Verinata Health, Inc. | Detecting fetal sub-chromosomal aneuploidies and copy number variations |
WO2016011563A1 (en) * | 2014-07-25 | 2016-01-28 | Ontario Institute For Cancer Research | System and method for process control of gene sequencing |
Non-Patent Citations (1)
Title |
---|
JOSHUA D CAMPBELL等: "Assessment of microRNA differential expression and detection in multiplexed small RNA sequencing data" * |
Also Published As
Publication number | Publication date |
---|---|
WO2019034576A1 (en) | 2019-02-21 |
EP3669369A1 (en) | 2020-06-24 |
US20200394491A1 (en) | 2020-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347365B2 (en) | Systems and methods for visualizing a pattern in a dataset | |
Franks et al. | Feature specific quantile normalization enables cross-platform classification of molecular subtypes using gene expression data | |
US20190332963A1 (en) | Systems and methods for visualizing a pattern in a dataset | |
US6950755B2 (en) | Genotype pattern recognition and classification | |
KR101828052B1 (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
CN107111693A (zh) | 用于确定高同源性区域中的基因型的方法 | |
US6334099B1 (en) | Methods for normalization of experimental data | |
JP6141310B2 (ja) | 強固な変異体特定および検証 | |
Mukhopadhyay | Large-scale mode identification and data-driven sciences | |
WO2014081456A1 (en) | Efficient comparison of polynucleotide sequences | |
CN111094591A (zh) | 用于对生物分子进行测序的方法 | |
Ghanat Bari et al. | PeakLink: a new peptide peak linking method in LC-MS/MS using wavelet and SVM | |
WO2017079398A1 (en) | A system and method for compensating noise in sequence data for improved accuracy and sensitivity of dna testing | |
Khodarev et al. | Receiver operating characteristic analysis: a general tool for DNA array data filtration and performance estimation | |
JP4461240B2 (ja) | 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム | |
US8396673B2 (en) | Gene assaying method, gene assaying program, and gene assaying device | |
KR102225231B1 (ko) | 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치 | |
CN101671732A (zh) | 基因分类方法、基因分类程序以及基因分类装置 | |
EP3707724A1 (en) | Method for simultaneous multivariate feature selection, feature generation, and sample clustering | |
US20020021299A1 (en) | Method for displaying results of hybridization experiment | |
JP6716350B2 (ja) | 遺伝子情報分析装置、遺伝子情報分析方法、遺伝子情報分析プログラムおよび記録媒体 | |
US20030220746A1 (en) | Method and system for computing and applying a global, multi-channel background correction to a feature-based data set obtained from scanning a molecular array | |
Cui et al. | Mcadet: a feature selection method for fine-resolution single-cell RNA-seq data based on multiple correspondence analysis and community detection | |
CA2375180A1 (en) | Methods and system for amplitude normalization and selection of data peaks | |
JP2010046011A (ja) | 遺伝子発現量正規化方法、遺伝子発現量正規化プログラム及び遺伝子発現量正規化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200501 |