CN116564415A - 流式测序分析方法、装置、存储介质及计算机设备 - Google Patents
流式测序分析方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116564415A CN116564415A CN202310834707.1A CN202310834707A CN116564415A CN 116564415 A CN116564415 A CN 116564415A CN 202310834707 A CN202310834707 A CN 202310834707A CN 116564415 A CN116564415 A CN 116564415A
- Authority
- CN
- China
- Prior art keywords
- sequencer
- sample
- sequencing
- analyzed
- base sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 339
- 238000004458 analytical method Methods 0.000 title claims abstract description 290
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 84
- 238000007671 third-generation sequencing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 107
- 241000894007 species Species 0.000 claims description 73
- 230000008569 process Effects 0.000 claims description 48
- 238000013145 classification model Methods 0.000 claims description 43
- 230000035772 mutation Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 32
- 239000004065 semiconductor Substances 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000003287 optical effect Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 14
- 238000005520 cutting process Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 5
- 230000004060 metabolic process Effects 0.000 claims description 5
- 230000008844 regulatory mechanism Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 239000002773 nucleotide Substances 0.000 description 7
- 125000003729 nucleotide group Chemical group 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 230000007918 pathogenicity Effects 0.000 description 5
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 230000003872 anastomosis Effects 0.000 description 4
- 229910002056 binary alloy Inorganic materials 0.000 description 4
- 230000011987 methylation Effects 0.000 description 4
- 238000007069 methylation reaction Methods 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 230000002035 prolonged effect Effects 0.000 description 4
- 238000001712 DNA sequencing Methods 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000004907 flux Effects 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108010093096 Immobilized Enzymes Proteins 0.000 description 2
- 108010026552 Proteome Proteins 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000005547 deoxyribonucleotide Substances 0.000 description 2
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000002077 nanosphere Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供的流式测序分析方法、装置、存储介质及计算机设备,在获取到待分析样本和对应的分析需求以及当前各个测序仪的空闲情况后,由于使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪的测序优势不同,因此,本申请可以结合待分析样本的样本特性、分析需求以及各个测序仪的空闲情况来确定目标测序仪,该目标测序仪可以是第一测序仪,也可以是第二测序仪,还可以使用第一测序仪与第二测序仪进行混合测序,这样不仅可以为用户提供多样化的使用场景,还可以在一定程度上提升测序效率和测序精度;接着,本申请可以通过目标测序仪对待分析样本进行测序,并得到与待分析样本对应的碱基序列,该碱基序列为二进制序列。
Description
技术领域
本申请涉及基因测序技术领域,尤其涉及一种流式测序分析方法、装置、存储介质及计算机设备。
背景技术
DNA测序技术自发明以来就一直在推动分子生物学发展方面起着至关重要的作用。1977年,Walter Gilbert和Frederick Sanger发明了第一台测序仪,并应用其测定了第一个基因组序列,噬菌体X174,全长5375个碱基。由此开始,人类获得了探索生命遗传本质的能力,生命科学的研究进入了基因组学的时代,到至今为止的四十年时间内,测序技术已取得了相当大的发展,从第一代发展到了第三代测序技术。第一代测序技术是Sanger所发明的测序方法,该技术直到现在依然被广泛使用,但是其一次只能获得一条长度在700~1000个碱基的序列,无法满足现代科学发展对生物基因序列获取的迫切需求。新一代测序(Next Generation Sequencing, NGS)或第二代测序为高通量测序 (High-ThroughputSequencing, HTS),是对传统Sanger测序的革命性变革,其解决了一代测序一次只能测定一条序列的限制,一次运行即可同时得到几十万到几百万条核酸分子的序列。第二代测序技术虽然测序的通量大大增加,但是其获得单条序列长度很短,想要得到准确的基因序列信息依赖于较高的测序覆盖度和准确的序列拼接技术,这样也使得最终得到的结果中会存在一定的错误信息。因此,科研人员又发明了第三代测序技术,也称为单分子测序技术,该技术在保证测序通量的基础上,对单条长序列进行从头测序,能够直接得到长度在数万个碱基的核酸序列信息。
通过使用上述测序技术的测序仪完成测序之后,需要有配套的基因测序分析软件对数据进行分析和解读。目前,由于基因数据量非常庞大,使用场景较为单一,分析流程对服务器依赖高,当大量样本并行输入时容易造成I/O拥堵,线程或者进程就会被挂起,极大影响分析效率和分析精度。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中由于基因数据量非常庞大,使用场景较为单一,分析流程对服务器依赖高,当大量样本并行输入时容易造成I/O拥堵,线程或者进程就会被挂起,极大影响分析效率和分析精度的技术缺陷。
本申请提供了一种流式测序分析方法,所述方法包括:
获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况,其中,当前各个测序仪包括使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪;
根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,并通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,其中,所述碱基序列为二进制序列;
将所述碱基序列输入至内存中,并调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,并生成测序报告。
可选地,所述根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
将所述待分析样本的样本特性和分析需求输入预先配置的目标分类模型中,得到所述目标分类模型输出的所述待分析样本适用的测序仪类型;其中,所述目标分类模型是以包含样本特性和分析需求的历史分析样本为训练样本,以所述训练样本适用的测序仪类型为样本标签进行训练后得到的;
根据所述待分析样本适用的测序仪类型以及当前各个测序仪的空闲情况,确定目标测序仪。
可选地,所述目标分类模型的训练过程,包括:
获取包含样本特性和分析需求的多个历史分析样本以及各个历史分析样本适用的真实测序仪类型,并将多个历史分析样本划分为训练集和测试集;
将所述训练集中的历史分析样本输入至初始分类模型中,得到所述初始分类模型输出的所述历史分析样本的预测测序仪类型;
以所述预测测序仪类型趋近于所述历史分析样本适用的真实测序仪类型为目标,训练所述初始分类模型;
当所述初始分类模型满足预设的训练条件时,使用所述测试集中的历史分析样本对训练完成的初始分类模型进行调整和优化,以得到最终的目标分类模型。
可选地,所述根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
将所述待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,将所述待分析样本的分析需求单独与相应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况,确定目标测序仪。
可选地,所述将所述待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,将所述待分析样本的分析需求单独与相应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
若所述待分析样本的分析需求为测序成本无要求或低于预设成本阈值,分析精度大于预设精度阈值,或有特定功能的检测需求,则将所述第一测序仪和所述第二测序仪共同作为目标测序仪,并通过使用一代测序技术的测序仪对所述目标测序仪的测序结果进行验证;
若所述待分析样本的分析需求为测序成本低于所述预设成本阈值,分析准确度高于预设准确度阈值,则根据不同类型的第一测序仪的空闲情况确定目标测序仪;
若所述待分析样本的分析需求为测序成本低于所述预设成本阈值,分析准确度高于所述预设准确度阈值,且所述待分析样本的样本特性为下机数据量小于预设数据量阈值,则根据所述第一测序仪与所述第二测序仪之间的准确度高低和功能是否符合要求选择准确度较高、功能符合要求的测序仪作为目标测序仪,或者,在所述第一测序仪和所述第二测序仪的准确度及功能相同的情况下,根据所述第一测序仪和所述第二测序仪的空闲情况确定目标测序仪;
若所述待分析样本的分析需求为测序成本无要求,分析精度小于所述预设精度阈值,测序时间小于预设测序时长,且所述待分析样本所处的分析环境为非正常环境,则选择所述第二测序仪中的Nanopore作为目标测序仪。
可选地,所述通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,包括:
通过所述目标测序仪对所述待分析样本进行测序,并根据所述目标测序仪的测序方式将所述目标测序仪的测序结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列。
可选地,所述通过所述目标测序仪对所述待分析样本进行测序,并根据所述目标测序仪的测序方式将所述目标测序仪的测序结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列,包括:
若所述目标测序仪为第一测序仪,则直接通过所述第一测序仪对所述待分析样本进行测序,并通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列;
或者,通过所述第一测序仪对所述待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,得到与所述待分析样本对应的碱基序列;
若所述目标测序仪为第二测序仪,则直接通过所述第二测序仪对所述待分析样本进行测序,并采用二进制编码格式将测序得到的电流信号转化为二进制序列后,得到与所述待分析样本对应的碱基序列;
或者,通过所述第二测序仪对所述待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,得到与所述待分析样本对应的碱基序列。
可选地,所述光学设备包括分光镜和凸透镜;
所述通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列,包括:
通过所述分光镜将测序得到的荧光信号对应的一束光子划分为四份光束,并分别对四份光束进行滤光后,通过四个凸透镜将滤光后的四份光束转化为平行光;
利用CMOS摄像头将所述平行光转化为二进制序列。
可选地,所述采用半导体芯片对测序得到的荧光信号进行光强值检测,将光强信号转化为二进制编码格式的电信号,包括:
将半导体芯片的上层堆栈封装后,使用封装后的半导体芯片对测序得到的荧光信号进行智能滤色器处理,以使所述荧光信号通过所述智能滤色器中四种颜色的滤光片进行滤色后,落到下导光管中每个滤光片的指定位置处;
在所述下导光管处采集滤色后的荧光信号后,通过所述半导体芯片中的感光二极管对所述滤色后的荧光信号的光强值进行检测,并得到检测结果;
通过CMOS摄像头将所述检测结果转化为二进制编码格式的电信号。
可选地,所述调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,包括:
若所述待分析样本所属的物种为存在参考基因组的人类,则在所述目标测序仪为第一测序仪时,调用第一分析方式对所述碱基序列进行分析,在所述目标测序仪为第二测序仪时,调用第二分析方式对所述碱基序列进行分析,在所述目标测序仪为第一测序仪和第二测序仪时,调用第三分析方式对所述碱基序列进行分析;
若所述待分析样本所属的物种为不存在参考基因组的其他物种,则在所述目标测序仪为第一测序仪时,调用第一组装方式对所述碱基序列进行组装,在所述目标测序仪为第二测序仪时,调用第二组装方式对所述碱基序列进行组装,在所述目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析。
可选地,在所述目标测序仪为第二测序仪时,调用第二分析方式对所述碱基序列进行分析,包括:
在所述目标测序仪为第二测序仪时,对所述碱基序列进行序列对比、排序、去重、变异检测、序列注释、解读后,获得测序报告;
或者,利用预设的序列拼接算法对所述碱基序列进行序列拼接后,得到所述碱基序列对应的变异信息,对所述变异信息进行序列注释、解读后,获得测序报告。
可选地,在所述目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析,包括:
在所述目标测序仪为第一测序仪和第二测序仪时,确定用户按照不同的评估指标对预先提供的多种组装方式进行评估后的评估结果,并根据所述评估结果从预先提供的多种组装方式中选择至少一个组装方式作为第三组装方式;
调用所述第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析。
可选地,所述调用所述第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析,包括:
调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer,组de bruijn图的方法进行组装,并将组装后的碱基序列与所述第二测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息;
或者,调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer和哈希比对的方法对比到所述第二测序仪的碱基序列上,并在得到比对数据后,根据所述比对数据对所述第二测序仪的碱基序列进行错误矫正,将矫正后的碱基序列与所述第一测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息;
或者,调用所述第三组装方式将所述第一测序仪的碱基序列预拼接为contig后,通过所述contig对所述第二测序仪的碱基序列进行错误矫正,将矫正后的碱基序列进行组装后,获得拼接基因组和对应的变异信息;
或者,调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer,组debruijn图的方法进行组装,并将所述第二测序仪的碱基序列比对到组装好的de bruijn图上,根据比对结果构建scaffold,以获得拼接基因组和对应的变异信息。
可选地,所述调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,还包括:
若所述目标测序仪为第一测序仪或第二测序仪时,调用与所述待分析样本所属的物种对应的物种树构建方式,对所述待分析样本所属的物种构建相应的物种树,并根据构建好的物种树对所述碱基序列进行分析;
或者,若所述目标测序仪为第一测序仪和第二测序仪时,将所述第一测序仪的碱基序列与所述第二测序仪的碱基序列进行转录后形成转录组数据,并对所述转录组数据进行数据比对,数据长度、质量、完整性分析,以解析所述待分析样本所属的物种表达代谢的调控机制。
可选地,当所述目标测序仪为第一测序仪和第二测序仪时,所述方法还包括:
在对所述碱基序列的变异结果进行注释,或者对所述组装后的碱基序列进行物种注释时,所述碱基序列或所述组装后的碱基序列中部分位点的质量值差于预设质量阈值,并对注释结果有直接影响,则通过使用一代测序技术的测序仪对所述部分位点进行位点突变或短片段突变进行验证。
本申请还提供了一种流式测序分析装置,包括:
数据获取模块,用于获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况,其中,当前各个测序仪包括使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪;
测序模块,用于根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,并通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,其中,所述碱基序列为二进制序列;
分析模块,用于将所述碱基序列输入至内存中,并调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,并生成测序报告。
本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述流式测序分析方法的步骤。
本申请还提供了一种计算机设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述流式测序分析方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供的流式测序分析方法、装置、存储介质及计算机设备,在获取到待分析样本和对应的分析需求以及当前各个测序仪的空闲情况后,由于使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪的测序优势不同,因此,本申请可以结合待分析样本的样本特性、分析需求以及各个测序仪的空闲情况来确定目标测序仪,该目标测序仪可以是第一测序仪,也可以是第二测序仪,还可以使用第一测序仪与第二测序仪进行混合测序,这样不仅可以为用户提供多样化的使用场景,还可以在一定程度上提升测序效率和测序精度;接着,本申请可以通过目标测序仪对待分析样本进行测序,并得到与待分析样本对应的碱基序列,该碱基序列为二进制序列,即ACGT碱基可通过00、01、10、11的二进制存储并传输至内存中,然后直接在内存中调用与待分析样本所属的物种以及与目标测序仪所使用的测序技术对应的分析方式,对碱基序列进行分析,并生成测序报告,这样既可以将测序的basecall过程和后续分析流程通过内存衔接起来,待分析样本的测序和分析过程由一个进程承载,操作人员上手简便快捷,内存衔接后还可以提高分析效率,降低I/O拥堵,并且,该二进制编码格式的碱基序列缩短了读写时间,更便于后续分析过程处理,提高了整体进程的分析效率,且适配性强,在基本不改变现有机器参数的情况下,通过新的编码形式以及流程处理,可以在不影响测序分析准确性的前提下,提高了程序运行效率的同时,也延长了机器的使用寿命。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种流式测序分析方法的流程示意图;
图2为本申请实施例提供的使用不同测序技术的测序仪对应的测序特性和优缺点的对比示意图;
图3为本申请实施例提供的对碱基序列进行分析的过程示意图;
图4为本申请实施例提供的一种流式测序分析装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,由于基因数据量非常庞大,使用场景较为单一,分析流程对服务器依赖高,当大量样本并行输入时容易造成I/O拥堵,线程或者进程就会被挂起,极大影响分析效率和分析精度。基于此,本申请提供了如下技术方案,具体参见下文:
在一个实施例中,如图1所示,图1为本申请实施例提供的一种流式测序分析方法的流程示意图;本申请提供了一种流式测序分析方法,所述方法可以包括:
S110:获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况。
本步骤中,在进行测序分析时,可以先获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况,这样便可以根据待分析样本和对应的分析需求以及当前各个测序仪的空闲情况来确定目标测序仪。
可以理解的是,本申请的待分析样本可以是一个样本,也可以是多个样本组成的一个项目,在此不作限制。本申请中待分析样本的分析需求指的是用户对分析精度的要求、对测序成本的要求、对测序分析的侧重点等等;而本申请中当前各个测序仪指的是使用二代测序技术的第一测序仪以及使用三代测序技术的第二测序仪。当前各个测序仪的空闲情况指的是当前各个测序仪是否正在工作,是否还有剩余资源来处理待分析样本,或者是否在待分析样本需要被测序分析时进行测序分析。
其中,本申请的二代测序技术的工作流程主要包括如下:
1)首先进行生化扩增和成像,输出img文件:将待测DNA序列随机打断,连接接头进行扩增(illumina是桥式PCR+可逆终止法,即3’,华大是cssDNA文库通过滚环复制,DNB纳米球扩增,再将DNA纳米球加载到高密度的网格上),进行生化反应,发出荧光,拍照获得img文件并输出;
2)basecall:输入img文件,输出call文件;
3)writefq:输如call文件,输出fq文件;
4)数据质控:输入fq文件+样本+上机信息,输出质控结果;
5)数据归档:fq双备份归档;
6)NGS下机基因数据进行信息分析:因为不同品牌、型号的测序仪下机数据FASTQ的大小、特性都不同,在处理前有时需要进行不同的自定义操作,如单独做拆分、合并、不同参数的质控等处理,再各自进行生信分析和解读。
而本申请的三代测序技术包括两类,一类是应用单分子实时测序(SMRT),在进行测序时荧光标记在脱氧核糖核苷酸的磷酸基团上,标记荧光后的核苷酸在掺入处会发出荧光信号,接着利用固相酶将DNA聚合酶固定在纳米小室底部,采用零模式波导技术(ZMW)在纳米小室底部20-30nm的小孔观测荧光信号;另一类是基于生物纳米孔测序的三代测序仪,通过纳米孔上的分子马达、过程酶和棘轮效应来降低DNA测序速度,通过限制位点来分辨碱基,当核酸序列通过时,孔中离子电流的电导率会发生变化,由于核苷酸具有不同的形状,可通过不同核苷酸对离子电流变化的影响来识别碱基。
S120:根据待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,并通过目标测序仪对待分析样本进行测序,得到与待分析样本对应的碱基序列。
本步骤中,通过S110获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况后,本申请可以根据待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况来确定目标测序仪,接着再通过目标测序仪来对待分析样本进行测序后,得到与待分析样本对应的碱基序列。
可以理解的是,由于使用不同测序技术的测序仪的优势与缺点各不相同,而每一待分析样本的样本特性、分析需求也各不相同,因此,为了得到更为精确的测序结果,也为了满足用户需求,本申请可以根据待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况来确定目标测序仪,以此来提升测序效率和测序精准度。
举例来说,测序成本、读长和通量是评估一个测序技术先进与否的三个重要指标。第一代和第二代测序技术除了通量和成本上的差异之外,其测序核心原理(除Solid是边连接边测序之外)都是基于边合成边测序的思想。第二代测序技术的优点是成本较之一代大大下降,通量大大提升,但缺点是引入PCR过程在一定程度上增加了测序的错误率,并且具有系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导致的系统错误,同时提高读长,并保持了二代测序技术的高通量,低成本的优点。
而对于本申请中的待分析样本而言,其样本特性多种多样,有的样本下机数据量过大,当使用测序成本较高的测序仪进行测序分析时,会花费大量的测序成本,而有的样本下机数据量较小或一般,则需要看其对分析精度是否有要求,若对分析精度有要求,则需要按照具体的分析精度要求来选择合适的测序仪,另外,当可以选择任意一种测序仪进行测序时,还需要考虑各个测序仪是否空闲,只有在空闲的情况下,才可以继续选择使用该测序仪进行测序分析。
另外,本申请确定目标测序仪,并使用目标测序仪对待分析样本进行测序后得到的碱基序列为二进制序列,使用该二进制序列不仅可以缩短读写时间,便于后续分析过程处理,还能提高整体进程的分析效率,且适配性强,在基本不改变现有机器参数的情况下,通过新的编码形式以及流程处理,可以在不影响测序分析准确性的前提下,提高程序运行效率的同时,也可以延长机器的使用寿命。
S130:将碱基序列输入至内存中,并调用与待分析样本所属的物种以及与目标测序仪所使用的测序技术对应的分析方式,对碱基序列进行分析,并生成测序报告。
本步骤中,通过S120确定目标测序仪,并通过目标测序仪对待分析样本进行测序,得到与待分析样本对应的碱基序列后,本申请还可以将碱基序列输入至内存中,并调用与待分析样本所属的物种以及与目标测序仪所使用的测序技术对应的分析方式来对碱基序列进行分析,从而生成相应的测序报告。
具体地,本申请将二进制编码格式的碱基序列传输至内存中,然后直接在内存中调用与待分析样本所属的物种以及与目标测序仪所使用的测序技术对应的分析方式对碱基序列进行分析,并生成测序报告,这样既可以将测序的basecall过程和后续分析流程通过内存衔接起来,待分析样本的测序和分析过程由一个进程承载,使得操作人员上手简便快捷,并且,内存衔接后还可以提高分析效率,降低I/O拥堵。
进一步地,本申请在对碱基序列进行分析时,即考虑到了待分析样本所属的物种,又考虑到了目标测序仪所使用的测序技术,例如,当待分析样本为人类样本时,该人类样本在进行分析时的步骤以及具体检测内容与其他物种的分析步骤以及检测内容等存在一定的区别,针对该区别,本申请可以预先设置不同的分析方式,而对于不同的测序技术,其优缺点也不同,本申请则可以互相取长补短,或以扬长避短的形式来预先设置对应的分析方式,这样便可以通过多种分析方式来对碱基序列进行分析,进而丰富使用场景的同时,还可以提升碱基序列的分析精度。
另外,本申请在生产测序报告时,可以根据所约定的报告生成规则和/或模板调用规则来自动化生成测序报告,从而在满足用户需求的同时,提升分析效率。
上述实施例中,在获取到待分析样本和对应的分析需求以及当前各个测序仪的空闲情况后,由于使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪的测序优势不同,因此,本申请可以结合待分析样本的样本特性、分析需求以及各个测序仪的空闲情况来确定目标测序仪,该目标测序仪可以是第一测序仪,也可以是第二测序仪,还可以使用第一测序仪与第二测序仪进行混合测序,这样不仅可以为用户提供多样化的使用场景,还可以在一定程度上提升测序效率和测序精度;接着,本申请可以通过目标测序仪对待分析样本进行测序,并得到与待分析样本对应的碱基序列,该碱基序列为二进制序列,即ACGT碱基可通过00、01、10、11的二进制存储并传输至内存中,然后直接在内存中调用与待分析样本所属的物种以及与目标测序仪所使用的测序技术对应的分析方式,对碱基序列进行分析,并生成测序报告,这样既可以将测序的basecall过程和后续分析流程通过内存衔接起来,待分析样本的测序和分析过程由一个进程承载,操作人员上手简便快捷,内存衔接后还可以提高分析效率,降低I/O拥堵,并且,该二进制编码格式的碱基序列缩短了读写时间,更便于后续分析过程处理,提高了整体进程的分析效率,且适配性强,在基本不改变现有机器参数的情况下,通过新的编码形式以及流程处理,可以在不影响测序分析准确性的前提下,提高了程序运行效率的同时,也延长了机器的使用寿命。
在一个实施例中,S120中根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,可以包括:
S101:将所述待分析样本的样本特性和分析需求输入预先配置的目标分类模型中,得到所述目标分类模型输出的所述待分析样本适用的测序仪类型;其中,所述目标分类模型是以包含样本特性和分析需求的历史分析样本为训练样本,以所述训练样本适用的测序仪类型为样本标签进行训练后得到的。
S102:根据所述待分析样本适用的测序仪类型以及当前各个测序仪的空闲情况,确定目标测序仪。
本实施例中,在确定目标测序仪时,本申请可以使用预先配置的目标分类模型,该目标分类模型是以包含样本特性和分析需求的历史分析样本为训练样本,以训练样本所适用的测序仪类型为样本标签进行训练后得到的,因此,本申请可以将待分析样本的样本特性和分析需求输入该目标分类模型中,该目标分类模型即可输出与该待分析样本对应的测序仪类型,接着,本申请还可以结合目标分类模型输出的测序仪类型以及当前各个测序仪的空闲情况,来确定最终的目标测序仪。
其中,本申请中待分析样本的样本特性和分析需求包括但不限于样本量、测序类型、测序深度、测序时间、测序成本、测序准确性等,本申请可以基于各个历史分析样本的样本特性和分析需求构建相应的函数,如测序仪类型 = f(样本量,测序类型,测序深度,测序时间,测序成本,测序准确性),f表示一个函数,可以通过对已有数据进行建模和训练得到。具体地,本申请可以采用机器学习中的分类算法(将决策树、支持向量机、神经网络等模型进行融合)来训练一个分类模型,以预测出适合当前条件的测序仪类型。
当通过目标分类模型得到测序仪类型后,本申请还需要根据当前各个测序仪的空闲情况来确定最终的目标测序仪,这样既可以减少测序等待时间,又可以提高测序效率。
在一个实施例中,S101中目标分类模型的训练过程,可以包括:
S1010:获取包含样本特性和分析需求的多个历史分析样本以及各个历史分析样本适用的真实测序仪类型,并将多个历史分析样本划分为训练集和测试集。
S1011:将所述训练集中的历史分析样本输入至初始分类模型中,得到所述初始分类模型输出的所述历史分析样本的预测测序仪类型。
S1012:以所述预测测序仪类型趋近于所述历史分析样本适用的真实测序仪类型为目标,训练所述初始分类模型。
S1013:当所述初始分类模型满足预设的训练条件时,使用所述测试集中的历史分析样本对训练完成的初始分类模型进行调整和优化,以得到最终的目标分类模型。
本实施例中,在对目标分类模型进行训练时,可以先获取包含样本特性和分析需求的多个历史分析样本以及各个历史分析样本适用的真实测序仪类型,然后可以将多个历史分析样本划分为训练集和测试集,训练集中的历史分析样本可以用于对初始分类模型进行训练,而测试集中的历史分析样本则可以用来测试训练后的初始分类模型的性能,并根据测试结果进行调整和优化,以提高模型的准确性和泛化能力。
具体地,本申请在训练模型时,可以根据过去的测序经验,准备一个包含多个历史分析样本的数据集,每个历史分析样本包含样本量、测序类型、测序深度、测序时间、测序成本、测序准确性和对应的测序仪类型。然后,本申请可以将数据集分为训练集和测试集,并使用训练集训练初始分类模型,使用测试集测试训练后的初始分类模型的性能,并根据测试结果进行调整和优化,以提高模型的准确性和泛化能力,由此便可以得到最终的目标分类模型。
在一个实施例中,S120中根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
S121:将所述待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,将所述待分析样本的分析需求单独与相应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况,确定目标测序仪。
本实施例中,在根据待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况来确定目标测序仪时,本申请可以将待分析样本的样本特性以及分析需求分别与相应的阈值进行比对,或者,直接将待分析样本的分许需求单独与相应的阈值进行比对,接着根据比对结果以及当前各个测序仪的空闲情况来确定目标测序仪。
需要说明的是,由于待分析样本的样本特性可能存在一般情况和特殊情况,如下位数据量过多,或下位数据量较少,或下位数据量正常,当待分析样本的样本特性存在特殊情况时,本申请可以将待分析样本的样本特性以及分析需求分别于相应的阈值进行比对,而当待分析样本的样本特性为一般情况时,则可以只考虑待分析样本的分析需求,并根据该分析需求于对应的阈值之间的比对结果以及当前各个测序仪的空闲情况来确定目标测序仪。
在一个实施例中,S121中将所述待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,将所述待分析样本的分析需求单独与相应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况,确定目标测序仪,可以包括:
S1210:若所述待分析样本的分析需求为测序成本无要求或低于预设成本阈值,分析精度大于预设精度阈值,或有特定功能的检测需求,则将所述第一测序仪和所述第二测序仪共同作为目标测序仪,并通过使用一代测序技术的测序仪对所述目标测序仪的测序结果进行验证。
S1211:若所述待分析样本的分析需求为测序成本低于所述预设成本阈值,分析准确度高于预设准确度阈值,则根据不同类型的第一测序仪的空闲情况确定目标测序仪。
S1212:若所述待分析样本的分析需求为测序成本低于所述预设成本阈值,分析准确度高于所述预设准确度阈值,且所述待分析样本的样本特性为下机数据量小于预设数据量阈值,则根据所述第一测序仪与所述第二测序仪之间的准确度高低和功能是否符合要求选择准确度较高、功能符合要求的测序仪作为目标测序仪,或者,在所述第一测序仪和所述第二测序仪的准确度及功能相同的情况下,根据所述第一测序仪和所述第二测序仪的空闲情况确定目标测序仪。
S1213:若所述待分析样本的分析需求为测序成本无要求,分析精度小于所述预设精度阈值,测序时间小于预设测序时长,且所述待分析样本所处的分析环境为非正常环境,则选择所述第二测序仪中的Nanopore作为目标测序仪。
本实施例中,在确定目标测序仪时,可以将待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,直接将待分析样本的分析需求单独与对应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况来确定目标测序仪。
具体地,本申请可以将待分析样本的分析需求单独与相应的阈值比对,如将测序成本与预设成本阈值进行比对,将分析精度与预设精度阈值进行比对,以及将分析准确度与预设准确度阈值进行比对,还可以将测序时间与预设测序时长进行比对等;或者,本申请也可以将待分析样本的样本特性和分析需求分别与相应的阈值进行比对,其中分析需求的比对部分与上述各个比对情况一致,而样本特性的比对部分,本申请可以将待分析样本的下机数据量与与预设数据量阈值进行比对,当然,在对比后,还可以引入待分析样本所处的分析环境、测序仪的准确度和功能是否符合要求等情况,在此不做限制。
在一种具体的实施方式中,如图2所示,图2为本申请实施例提供的使用不同测序技术的测序仪对应的测序特性和优缺点的对比示意图;由图2可见,一代测序数据适合少量位点验证,二代测序成本低、通量高(一次下机数据量高),三代pacbio测序成本高,但是在数据量较小的捕获小区间数据的检测中,成本无明显劣势;三代nanopore测序成本高,但测序仪小,在偏远地区,有对精度要求不高的病原微生物感染(不明原因发热患者),可以用这种检测,便于携带。
基于此,本申请在确定目标测序仪时,可以根据待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况来确定目标测序仪。具体地,若待分析样本的分析需求为对测序成本无要求,但分析精度要求较高,则可以将第一测序仪和第二测序仪共同作为目标测序仪,并通过使用一代测序技术的测序仪对目标测序仪的测序结果进行验证;而当待分析样本的分析需求为测序成本低于预设成本阈值,分析精度要求较高,并有特定功能的检测需求,如甲基化、RNA、GC区间、高可变区检出、假基因等功能的检测需求时,也可以选择将第一测序仪和第二测序仪共同作为目标测序仪,并通过使用一代测序技术的测序仪对目标测序仪的测序结果进行验证。
进一步地,若待分析样本的分析需求为测序成本低于预设成本阈值,分析准确度高于预设准确度阈值,则可以根据不同类型的第一测序仪的空闲情况确定目标测序仪,如illumina和华大测序仪,谁空闲选谁;而当待分析样本的分析需求为测序成本低于预设成本阈值,分析准确度高于预设准确度阈值,且待分析样本的样本特性为下机数据量小于预设数据量阈值,则可以根据第一测序仪和第二测序仪之间的准确度高低以及功能是否符合要求为选择条件,最终选择准确度较高、功能符合要求的测序仪作为目标测序仪,或者在第一测序仪和第二测序仪的准确度及功能相同的情况下,可以根据第一测序仪和第二测序仪的空闲情况来确定目标测序仪;而当待分析样本的分析需求为对测序成本无要求,分析精度要求也较低,但对测序时间要求较高,且待分析样本所处的分析环境为非正常环境,如气候较为恶劣,地区较为偏远,交通较为不便的区域,此时可以选择第二测序仪中的Nanopore作为目标测序仪,该测序仪便于检测人员携带,因此可以就近治疗。
其中,上述的预设精度阈值指的是与分析精度相关的精度阈值,如整体的分析精度,各个检测部分的分析精度等,在此不做限制。
在一个实施例中,S120中通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,可以包括:
S210:通过所述目标测序仪对所述待分析样本进行测序,并根据所述目标测序仪的测序方式将所述目标测序仪的测序结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列。
本实施例中,在通过目标测序仪来对待分析样本进行测序,并得到与待分析样本对应的碱基序列时,本申请可以在通过目标测序仪来对待分析样本进行测序时,根据目标测序仪的测序方式来将目标测序仪的测序结果转化为二进制序列,从而得到与待分析样本对应的碱基序列。
举例来说,由于不同的测序仪使用的测序方式不同,如二代测序技术或三代测序技术,而二代测序技术或三代测序技术下也有不同的技术分支,当采用不同的测序技术来对待分析样本进行测序时,得到的测序结果也不同,因此,本申请可以针对使用不同测序方式的目标测序仪来设置相应的序列转化方式,并通过该序列转化方式来将目标测序仪的测序结果转化为二进制序列,进而得到与待分析样本对应的碱基序列。
在一个实施例中,S210中通过所述目标测序仪对所述待分析样本进行测序,并根据所述目标测序仪的测序方式将所述目标测序仪的测序结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列,可以包括:
S211:若所述目标测序仪为第一测序仪,则直接通过所述第一测序仪对所述待分析样本进行测序,并通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列。
S212:或者,通过所述第一测序仪对所述待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,得到与所述待分析样本对应的碱基序列。
S213:若所述目标测序仪为第二测序仪,则直接通过所述第二测序仪对所述待分析样本进行测序,并采用二进制编码格式将测序得到的电流信号转化为二进制序列后,得到与所述待分析样本对应的碱基序列。
S214:或者,通过所述第二测序仪对所述待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,得到与所述待分析样本对应的碱基序列。
本实施例中,若本申请的目标测序仪为第一测序仪,即使用二代测序技术的测序仪,由于使用二代测序技术的测序仪是通过光学设备来对测序得到的荧光信号进行碱基识别,因此,本申请可以通过改变一部分上游二代测序仪的basecalling逻辑的方式,或者不改变其basecalling逻辑,直接改变测序结果的序列格式的方式来将目标测序仪的测序结果转化为二进制序列。若本申请的目标测序仪为第二测序仪,即使用三代测序技术的测序仪,由于使用三代测序技术的测序仪主要分为两类,一类是应用单分子实时测序(SMRT),另一类是基于生物纳米孔进行测序,两类测序仪所产生的测序结果也不同,因此,针对不同的测序技术,本申请也可以使用不同的转化方式将目标测序仪的测序结果转换为二进制序列。
在一种具体的实现方式中,若本申请的目标测序仪为第一测序仪时,可以直接通过第一测序仪对待分析样本进行测序,并通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列后,继而得到与待分析样本对应的碱基序列;或者,通过第一测序仪对待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,进而得到与待分析样本对应的碱基序列。
对于应用单分子实时测序(SMRT)技术的第二测序仪,在进行测序时荧光标记在脱氧核糖核苷酸的磷酸基团上,标记荧光后的核苷酸在掺入处会发出荧光信号,PacBio利用固相酶将DNA聚合酶固定在纳米小室底部,采用零模式波导技术(ZMW)在纳米小室底部20-30nm的小孔观测荧光信号,提高了信噪比和准确率。因此,本申请可以通过第二测序仪对待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,继而得到与待分析样本对应的碱基序列。而对于基于生物纳米孔进行测序的第二测序仪,由于其是通过纳米孔上的分子马达、过程酶和棘轮效应来降低DNA测序速度,通过限制位点来分辨碱基,当核酸序列通过时,孔中离子电流的电导率会发生变化,由于核苷酸具有不同的形状,可通过不同核苷酸对离子电流变化的影响来识别碱基,因此,本申请也可以直接通过第二测序仪对待分析样本进行测序,并采用二进制编码格式将测序得到的电流信号转化为二进制序列后,继而得到与待分析样本对应的碱基序列。
上述实施例中,使用二代测序技术的测序仪,或使用三代测序技术的测序仪均可以将basecall输出的fastq结果放入内存,或将半导体芯片智能滤色后检测到的光强度值转化的电信号,即00、01、10、11代表的ACGT放入内存,进行后续的比对或组装分析;整个过程减少了两次网络传输,和I/O读写,提高了分析效率;并且,Fastq的格式不再按照现有的4行为一组的格式,而采用00/01/10/11的新格式代表ATCG,这样也进一步提升读写分析效率;另外,本申请在测序和分析过程中将生化成像,basecall或光电信号转换和比对等不需要输出结果的过程通过内存衔接起来,可自定义输出结果(新fastq输出与否),因此可进一步降低I/O通信。
在一个实施例中,所述光学设备包括分光镜和凸透镜。
S211中通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列,可以包括:
S2110:通过所述分光镜将测序得到的荧光信号对应的一束光子划分为四份光束,并分别对四份光束进行滤光后,通过四个凸透镜将滤光后的四份光束转化为平行光。
S2111:利用CMOS摄像头将所述平行光转化为二进制序列。
本实施例中,在通过光学设备对测序得到的荧光信号进行碱基识别时,可以先通过该分光镜将测序得到的荧光信号对应的光量子划分为四份光束,并分别对四份光束进行滤光后,通过相应数量的凸透镜将滤光后的四份光束转化为平行光,接着再通过CMOS原件将平行光对应的光信号转化为二进制的电信号序列,如00、01、10、11。
在一个实施例中,S212或S214中采用半导体芯片对测序得到的荧光信号进行光强值检测,将光强信号转化为二进制编码格式的电信号,可以包括:
S401:将半导体芯片的上层堆栈封装后,使用封装后的半导体芯片对测序得到的荧光信号进行智能滤色器处理,以使所述荧光信号通过所述智能滤色器中四种颜色的滤光片进行滤色后,落到下导光管中每个滤光片的指定位置处。
S402:在所述下导光管处采集滤色后的荧光信号后,通过所述半导体芯片中的感光二极管对所述滤色后的荧光信号的光强值进行检测,并得到检测结果。
S403:通过CMOS摄像头将所述检测结果转化为二进制编码格式的电信号。
本实施例中,当目标测序仪为第一测序仪或第二测序仪,并通过半导体芯片来对测序得到的荧光信号进行光强值检测时,本申请可以先将半导体芯片的上层堆栈封装,并使用封装后的半导体芯片来对测序得到的荧光信号进行智能滤色器处理,光量子通过四种颜色滤光片后,落到该荧光颜色的指定位置(四个滤光片对应四个位置),并在下导光管处采集荧光信号,通过半导体芯片所发荧光的光强度值,感光二极管(阱)进行光量子信号强度检测,接着通过CMOS摄像头将光信号简化为电信号;即荧光球覆着透明的硅片,无需凸透镜聚光,可直接通过CMOS摄像头将光信号转化为电信号,并且,ACGT可通过00、01、10、11的二进制存储并传输;相较光学图像单位空间内可检出的碱基序列更多,同时免除了basecall,和转成fastq文件的事件,进行后续存储分析的流程优化,解决了耗时长、分析效率慢,过程繁琐,对存储、I/O和网络性能依赖较强的问题。
可以理解的是,半导体芯片是一种由半导体材料制成的电子器件,它通常是一个小型的、集成电路化的电路,用于控制和放大电流、运算和存储数据等。半导体芯片可以用于制作各种电子设备,如计算机、手机、电视、空调、汽车等等。因此,本申请可以通过对半导体芯片进行个性化设计,使其具备对测序得到的荧光信号进行智能滤色器处理、在下导光管处采集滤色后的荧光信号,以及对滤色后的荧光信号的光强值进行检测的功能。另外,本申请中半导体芯片所采用的堆栈封装方式,可以使用现有技术中的封装方式进行封装,在此不作限制。
在一个实施例中,如图3所示,图3为本申请实施例提供的对碱基序列进行分析的过程示意图;S130中调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,可以包括:
S131:若待分析样本所属的物种为存在参考基因组的人类,则在目标测序仪为第一测序仪时,调用第一分析方式对碱基序列进行分析,在目标测序仪为第二测序仪时,调用第二分析方式对碱基序列进行分析,在目标测序仪为第一测序仪和第二测序仪时,调用第三分析方式对碱基序列进行分析。
S132:若待分析样本所属的物种为不存在参考基因组的其他物种,则在目标测序仪为第一测序仪时,调用第一组装方式对碱基序列进行组装,在目标测序仪为第二测序仪时,调用第二组装方式对碱基序列进行组装,在目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对碱基序列进行组装,并对组装后的碱基序列进行分析。
本实施例中,由于待分析样本所属的物种存在一定的区别,例如存在参考基因组的人类,或不存在参考基因组的其他物种等,不同的物种其测序分析的过程存在一定的区别,例如,对于人来基因组,本申请在对其进行分析时,第一测序仪或第二测序仪的分析步骤均包括进行序列比对、排序、去重、变异检测、注释的过程,而对于不存在参考基因组的其他物种,其分析过程可以包括通过基因组及结果获得个体的Snp、indel、cnv、sv等变异分析/GC高重复区、低复杂度区分析,或物种演化与亲缘关系的构建、物种注释和丰度分析,表型组及其分型与蛋白质组、代谢组、甲基化组、转录组等的相关性演化研究。因此,对于不同的物种,本申请可以采用不同的分析方式,当然,还需考虑目标测序仪所使用的测序技术,测序技术的不同,其对应的测序方式也不同,因此,后续的分析方式也会存在一定的区别。
具体地,当待分析样本所属的物种为存在参考基因组的人类,则本申请可以在目标测序仪为第一测序仪时,调用第一分析方式对碱基序列进行分析,在目标测序仪为第二测序仪时,调用第二分析方式对碱基序列进行分析,在目标测序仪为第一测序仪和第二测序仪时,调用第三分析方式对碱基序列进行分析;其中,本申请的第一分析方式指的是使用二代测序技术的测序仪所使用的测序方式,如按照一般的方式进行序列比对、排序、去重、变异检测、注释;本申请的第二分析方式指的是使用三代测序技术的测序仪所使用的测序方式,如在进行序列比对、排序、去重、变异检测、注释时,根据不同的流式下机序列长度自动采用适配长度的比对算法;而本申请的第三分析方式则是结合二代测序技术的优点以及三代测序技术的优点来进行序列比对、排序、去重、变异检测、注释的过程。
举例来说,当本申请使用二代测序技术和三代测序技术共同作用时,可以根据二代和三代的比对结果共同进行变异检测,尤其在重复区域、高GC复杂区域、假基因区、甲基化区、复杂变异区等方面,三代在检出1k-10k的CNV区域、或STR的短重复去有优势。在三代检出质量较低的部分,可通过多测几个pass或是根据二代检出的短读长高精确数据对三代长度长结果进行纠正,将二代reads比对到三代长度长上,将比对值最高的短序列比对结果在kmer滑动窗口下进行碱基识别和纠错,同时再覆盖到gap位置修正长度长,以期获得最精准的映射结果后,再去除数据冗余。并且,本申请还可以根据不同项目的变异检出需求分别进行snp、indel、cnv、sv在内的软件算法选择,并获得变异检出结果,该变异检出结果可进行转录本结构分析、差异富集分析等。另外,本申请在注释过程中通过生信分析的注释和过滤、二代或三代共同作用的变异基本信息、疾病信息、人群频率、软件预测结果和致病性报道来综合进行变异结果的注释,并综合考虑生物学危害性、遗传吻合、临床特征吻合来挑选致病性变异。
当待分析样本所属的物种为不存在参考基因组的其他物种,则本申请可以在目标测序仪为第一测序仪时,调用第一组装方式对碱基序列进行组装,在目标测序仪为第二测序仪时,调用第二组装方式对碱基序列进行组装,在目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对碱基序列进行组装,并对组装后的碱基序列进行分析。
在一种具体的实现方式中,本申请可以结合二代、三代测序的特点进行denovo序列组装,二代序列将50~400bp的序列采用OLC或de burin图的方式进行de novo组装;三代序列将长度约为1k~40kbp的数据进行de novo组装,也可通过图、OCL等方法进行组装;二代三代共同作用时,可根据三代测序结果进行碱基错误矫正,并将三代组装后的结果来补gap,接着再进行后续的物种演化与亲缘关系的构建、物种注释和丰度分析、大片段CNV、GC高重复区、低复杂度区分析、该物种的亚种、亚群体与个体株系的代表、个体基因组分析(表现型与特定区段、基因、核苷酸变异的关系)、不同组学的融合贯穿(表型组及其分型与蛋白质组、代谢组、甲基化组、转录组等的相关性演化研究),以此来获得相关结果。
在一个实施例中,S131中在所述目标测序仪为第二测序仪时,调用第二分析方式对所述碱基序列进行分析,可以包括:
S1311:在所述目标测序仪为第二测序仪时,对所述碱基序列进行序列对比、排序、去重、变异检测、序列注释、解读后,获得测序报告。
S1312:或者,利用预设的序列拼接算法对所述碱基序列进行序列拼接后,得到所述碱基序列对应的变异信息,对所述变异信息进行序列注释、解读后,获得测序报告。
本实施例中,当目标测序仪为第二测序仪,即使用三代测序技术的测序仪时,本申请可以使用第二分析方式来对碱基序列进行分析。
具体地,本申请的第二分析方式具体可以是对碱基序列进行序列对比、排序、去重、变异检测、序列注释、解读后,获得测序报告;或者,利用预设的序列拼接算法对碱基序列进行序列拼接后,得到碱基序列对应的变异信息,接着再对变异信息进行序列注释、解读后,获得测序报告。
其中,本申请可以预先设置多个序列拼接算法来对碱基序列进行序列拼接,如贪心算法、OLC算法、De Bruijn图法等,具体可视实际情况进行选择,在此不做限制。
在一个实施例中,S132中在所述目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析,可以包括:
S1321:在所述目标测序仪为第一测序仪和第二测序仪时,确定用户按照不同的评估指标对预先提供的多种组装方式进行评估后的评估结果,并根据所述评估结果从预先提供的多种组装方式中选择至少一个组装方式作为第三组装方式。
S1322:调用所述第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析。
本实施例中,当本申请使用第一测序仪和第二测序仪对不存在参考基因组的其他物种进行混合测序时,用户可以按照不同的评估指标来对预先提供的多种组装方式进行评估,并得到相应的评估结果,此时,本申请可以根据该评估结果来从预先提供的多种组装方式中选择至少一个组装方式作为第三组装方式,并调用该第三组装方式对碱基序列进行组装,然后对组装后的碱基序列进行分析。
其中,用户在按照不同的评估指标来对预先提供的多种组装方式进行评估时,该评估指标包括但不限于拼接长度、错误率、运行时间、基因组完成长度等,对不同的组装方式进行评估时,也可以对其分析性能、准确性、优缺点等进行多维度的综合评估,具体可视实际情况进行设置,在此不做限制。
在一个实施例中,S1322中调用所述第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析,可以包括:
S3221:调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer,组debruijn图的方法进行组装,并将组装后的碱基序列与所述第二测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息。
S3222:或者,调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer和哈希比对的方法对比到所述第二测序仪的碱基序列上,并在得到比对数据后,根据所述比对数据对所述第二测序仪的碱基序列进行错误矫正,将矫正后的碱基序列与所述第一测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息。
S3223:或者,调用所述第三组装方式将所述第一测序仪的碱基序列预拼接为contig后,通过所述contig对所述第二测序仪的碱基序列进行错误矫正,将矫正后的碱基序列与所述第一测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息。
S3224:或者,调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer,组de bruijn图的方法进行组装,并将所述第二测序仪的碱基序列比对到组装好的debruijn图上,根据比对结果构建scaffold,以获得拼接基因组和对应的变异信息。
本实施例中,由于第三组装方式是用户对预先提供的多种组装方式进行评估后选取得到的,因此,该第三组装方式的具体内容是根据用户所选择的评估指标动态变化的。
例如,本申请可以将第一测序仪的碱基序列按照切kmer,组de bruijn图的方法进行组装,并将组装后的碱基序列与第二测序仪的碱基序列进行拼接,过程中第二测序仪可校正第一测序仪中的部分拼接错误,第一测序仪可校正第二测序仪的测序错误,并为第二测序仪的测序结果补gap区域,以此来获得拼接基因组和对应的变异信息,这是一种组装方式;本申请也可以将第一测序仪的碱基序列按照切kmer和哈希比对的方法对比到第二测序仪的碱基序列上,中间允许m个错配,在得到比对数据后,可以根据比对数据对第二测序仪的碱基序列进行错误矫正,然后将矫正后的碱基序列与所述第一测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息,这也是一种组装方式;本申请还可以将第一测序仪的碱基序列预拼接为contig后,通过contig对第二测序仪的碱基序列进行错误矫正,然后将矫正后的碱基序列进行组装后,获得拼接基因组和对应的变异信息,这同样也是一种组装方式;再者,本申请还可以将第一测序仪的碱基序列按照切kmer,组de bruijn图的方法进行组装,并将第二测序仪的碱基序列比对到组装好的de bruijn图上,随后根据比对结果构建scaffold,以获得拼接基因组和对应的变异信息,这也是一种组装方式。
基于此,本申请至少可以通过以上四种组装方式来对碱基序列进行组装,并对组装后的碱基序列进行分析。
在一个实施例中,S130中调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,还可以包括:
S133:若所述目标测序仪为第一测序仪或第二测序仪时,调用与所述待分析样本所属的物种对应的物种树构建方式,对所述待分析样本所属的物种构建相应的物种树,并根据构建好的物种树对所述碱基序列进行分析。
S134:或者,若所述目标测序仪为第一测序仪和第二测序仪时,将所述第一测序仪的碱基序列与所述第二测序仪的碱基序列进行转录后形成转录组数据,并对所述转录组数据进行数据比对,数据长度、质量、完整性分析,以解析所述待分析样本所属的物种表达代谢的调控机制。
本实施例中,在对碱基序列进行分析时,还可以根据目标测序仪所使用的测序技术以及待分析样本所属的物种构建对应的物种树,对根据构建好的物种树来对碱基序列进行分析。
具体地,本申请在构建系统发生的物种树时,可以对第一测序仪和第二测序仪的下机数据通过多序列比对形成同源区域(同源位点对位排列),然后根据数据特性选择最优的建树方法建立取代模型,如距离转换法、最大简约法、最大似然法、贝叶斯法;再建立演化树、评估演化树,以此来对碱基序列进行多维度的分析。
进一步地,本申请还可以在目标测序仪为第一测序仪和第二测序仪时,将第一测序仪的碱基序列与第二测序仪的碱基序列进行转录后形成转录组数据,并对转录组数据进行数据比对,数据长度、质量、完整性分析,以解析待分析样本所属的物种表达代谢的调控机制。
具体地,本申请在进行后续的物种演化与亲缘关系的构建、分析物种之间的相关性和变异特点时,也可通过二代测序技术和三代测序技术下机转录组数据,进行转录组数据比对,数据长度、质量、完整性分析,以及进行物种数据库注释、相关性分析、聚类分析和丰度分析等,从而解析物种表达代谢的调控机制。
在一个实施例中,当所述目标测序仪为第一测序仪和第二测序仪时,所述方法还可以包括:
S140:在对所述碱基序列的变异结果进行注释,或者对所述组装后的碱基序列进行物种注释时,所述碱基序列或所述组装后的碱基序列中部分位点的质量值差于预设质量阈值,并对注释结果有直接影响,则通过使用一代测序技术的测序仪对所述部分位点进行位点突变或短片段突变进行验证。
本实施例中,在对人类的碱基序列的变异结果进行注释,或者对其他物种组装后的碱基序列进行物种注释时,若碱基序列中部分位点的质量值差于预设质量阈值,并该部分位点的质量值对注释结果有直接影响,例如,直接俄导致注释结果的准确度降低等,则可以通过使用一代测序技术的测序仪来对该部分位点进行位点突变或短片段突变的方式进行位点验证,以此来提升位点的质量值,进而提升注释结果的准确度。
具体地,本申请在注释过程中通过生信分析的注释和过滤、二代或三代共同作用的变异基本信息、疾病信息、人群频率、软件预测结果和致病性报道来综合进行变异结果的注释,并综合考虑生物学危害性、遗传吻合、临床特征吻合来挑选致病性变异,若此时仍有部分位点质量值较差,并对注释结果有直接影响,可通过一代测序结果进行位点突变或短片段突变验证,再根据ACMG指南、CNV5步判定规则等查询Google文献、公共数据库、自研数据库等,对变异实现致病性分级(P/LP/VUS/LB/B)进行判断,最后根据所约定的报告生成规则、模板调用规则、实现自动化报告生成。
下面对本申请实施例提供的流式测序分析装置进行描述,下文描述的流式测序分析装置与上文描述的流式测序分析方法可相互对应参照。
在一个实施例中,如图4所示,图4为本申请实施例提供的一种流式测序分析装置的结构示意图;本申请还提供了一种流式测序分析装置,可以包括数据获取模块210、测序模块220、分析模块230,具体包括如下:
数据获取模块210,用于获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况,其中,当前各个测序仪包括使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪。
测序模块220,用于根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,并通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,其中,所述碱基序列为二进制序列。
分析模块230,用于将所述碱基序列输入至内存中,并调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,并生成测序报告。
上述实施例中,在获取到待分析样本和对应的分析需求以及当前各个测序仪的空闲情况后,由于使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪的测序优势不同,因此,本申请可以结合待分析样本的样本特性、分析需求以及各个测序仪的空闲情况来确定目标测序仪,该目标测序仪可以是第一测序仪,也可以是第二测序仪,还可以使用第一测序仪与第二测序仪进行混合测序,这样不仅可以为用户提供多样化的使用场景,还可以在一定程度上提升测序效率和测序精度;接着,本申请可以通过目标测序仪对待分析样本进行测序,并得到与待分析样本对应的碱基序列,该碱基序列为二进制序列,即ACGT碱基可通过00、01、10、11的二进制存储并传输至内存中,然后直接在内存中调用与待分析样本所属的物种以及与目标测序仪所使用的测序技术对应的分析方式,对碱基序列进行分析,并生成测序报告,这样既可以将测序的basecall过程和后续分析流程通过内存衔接起来,待分析样本的测序和分析过程由一个进程承载,操作人员上手简便快捷,内存衔接后还可以提高分析效率,降低I/O拥堵,并且,该二进制编码格式的碱基序列缩短了读写时间,更便于后续分析过程处理,提高了整体进程的分析效率,且适配性强,在基本不改变现有机器参数的情况下,通过新的编码形式以及流程处理,可以在不影响测序分析准确性的前提下,提高了程序运行效率的同时,也延长了机器的使用寿命。
在一个实施例中,本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述流式测序分析方法的步骤。
在一个实施例中,本申请还提供了一种计算机设备,包括:一个或多个处理器,以及存储器。
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如上述实施例中任一项所述流式测序分析方法的步骤。
示意性地,如图5所示,图5为本申请实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图5,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的流式测序分析方法。
计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作系统,例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (18)
1.一种流式测序分析方法,其特征在于,所述方法包括:
获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况,其中,当前各个测序仪包括使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪;
根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,并通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,其中,所述碱基序列为二进制序列;
将所述碱基序列输入至内存中,并调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,并生成测序报告。
2.根据权利要求1所述的流式测序分析方法,其特征在于,所述根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
将所述待分析样本的样本特性和分析需求输入预先配置的目标分类模型中,得到所述目标分类模型输出的所述待分析样本适用的测序仪类型;其中,所述目标分类模型是以包含样本特性和分析需求的历史分析样本为训练样本,以所述训练样本适用的测序仪类型为样本标签进行训练后得到的;
根据所述待分析样本适用的测序仪类型以及当前各个测序仪的空闲情况,确定目标测序仪。
3.根据权利要求2所述的流式测序分析方法,其特征在于,所述目标分类模型的训练过程,包括:
获取包含样本特性和分析需求的多个历史分析样本以及各个历史分析样本适用的真实测序仪类型,并将多个历史分析样本划分为训练集和测试集;
将所述训练集中的历史分析样本输入至初始分类模型中,得到所述初始分类模型输出的所述历史分析样本的预测测序仪类型;
以所述预测测序仪类型趋近于所述历史分析样本适用的真实测序仪类型为目标,训练所述初始分类模型;
当所述初始分类模型满足预设的训练条件时,使用所述测试集中的历史分析样本对训练完成的初始分类模型进行调整和优化,以得到最终的目标分类模型。
4.根据权利要求1所述的流式测序分析方法,其特征在于,所述根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
将所述待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,将所述待分析样本的分析需求单独与相应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况,确定目标测序仪。
5.根据权利要求4所述的流式测序分析方法,其特征在于,所述将所述待分析样本的样本特性和分析需求分别与相应的阈值进行比对,或者,将所述待分析样本的分析需求单独与相应的阈值进行比对,并根据比对结果以及当前各个测序仪的空闲情况,确定目标测序仪,包括:
若所述待分析样本的分析需求为测序成本无要求或低于预设成本阈值,分析精度大于预设精度阈值,或有特定功能的检测需求,则将所述第一测序仪和所述第二测序仪共同作为目标测序仪,并通过使用一代测序技术的测序仪对所述目标测序仪的测序结果进行验证;
若所述待分析样本的分析需求为测序成本低于所述预设成本阈值,分析准确度高于预设准确度阈值,则根据不同类型的第一测序仪的空闲情况确定目标测序仪;
若所述待分析样本的分析需求为测序成本低于所述预设成本阈值,分析准确度高于所述预设准确度阈值,且所述待分析样本的样本特性为下机数据量小于预设数据量阈值,则根据所述第一测序仪与所述第二测序仪之间的准确度高低和功能是否符合要求选择准确度较高、功能符合要求的测序仪作为目标测序仪,或者,在所述第一测序仪和所述第二测序仪的准确度及功能相同的情况下,根据所述第一测序仪和所述第二测序仪的空闲情况确定目标测序仪;
若所述待分析样本的分析需求为测序成本无要求,分析精度小于所述预设精度阈值,测序时间小于预设测序时长,且所述待分析样本所处的分析环境为非正常环境,则选择所述第二测序仪中的Nanopore作为目标测序仪。
6.根据权利要求1所述的流式测序分析方法,其特征在于,所述通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,包括:
通过所述目标测序仪对所述待分析样本进行测序,并根据所述目标测序仪的测序方式将所述目标测序仪的测序结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列。
7.根据权利要求6所述的流式测序分析方法,其特征在于,所述通过所述目标测序仪对所述待分析样本进行测序,并根据所述目标测序仪的测序方式将所述目标测序仪的测序结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列,包括:
若所述目标测序仪为第一测序仪,则直接通过所述第一测序仪对所述待分析样本进行测序,并通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列后,得到与所述待分析样本对应的碱基序列;
或者,通过所述第一测序仪对所述待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,得到与所述待分析样本对应的碱基序列;
若所述目标测序仪为第二测序仪,则直接通过所述第二测序仪对所述待分析样本进行测序,并采用二进制编码格式将测序得到的电流信号转化为二进制序列后,得到与所述待分析样本对应的碱基序列;
或者,通过所述第二测序仪对所述待分析样本进行测序,并采用半导体芯片对测序得到的荧光信号进行光强值检测后,将光强信号转化为二进制编码格式的电信号,得到与所述待分析样本对应的碱基序列。
8.根据权利要求7所述的流式测序分析方法,其特征在于,所述光学设备包括分光镜和凸透镜;
所述通过光学设备对测序得到的荧光信号进行碱基识别后,采用二进制编码格式将碱基识别结果转化为二进制序列,包括:
通过所述分光镜将测序得到的荧光信号对应的一束光子划分为四份光束,并分别对四份光束进行滤光后,通过四个凸透镜将滤光后的四份光束转化为平行光;
利用CMOS摄像头将所述平行光转化为二进制序列。
9.根据权利要求7所述的流式测序分析方法,其特征在于,所述采用半导体芯片对测序得到的荧光信号进行光强值检测,将光强信号转化为二进制编码格式的电信号,包括:
将半导体芯片的上层堆栈封装后,使用封装后的半导体芯片对测序得到的荧光信号进行智能滤色器处理,以使所述荧光信号通过所述智能滤色器中四种颜色的滤光片进行滤色后,落到下导光管中每个滤光片的指定位置处;
在所述下导光管处采集滤色后的荧光信号后,通过所述半导体芯片中的感光二极管对所述滤色后的荧光信号的光强值进行检测,并得到检测结果;
通过CMOS摄像头将所述检测结果转化为二进制编码格式的电信号。
10.根据权利要求1所述的流式测序分析方法,其特征在于,所述调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,包括:
若所述待分析样本所属的物种为存在参考基因组的人类,则在所述目标测序仪为第一测序仪时,调用第一分析方式对所述碱基序列进行分析,在所述目标测序仪为第二测序仪时,调用第二分析方式对所述碱基序列进行分析,在所述目标测序仪为第一测序仪和第二测序仪时,调用第三分析方式对所述碱基序列进行分析;
若所述待分析样本所属的物种为不存在参考基因组的其他物种,则在所述目标测序仪为第一测序仪时,调用第一组装方式对所述碱基序列进行组装,在所述目标测序仪为第二测序仪时,调用第二组装方式对所述碱基序列进行组装,在所述目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析。
11.根据权利要求10所述的流式测序分析方法,其特征在于,在所述目标测序仪为第二测序仪时,调用第二分析方式对所述碱基序列进行分析,包括:
在所述目标测序仪为第二测序仪时,对所述碱基序列进行序列对比、排序、去重、变异检测、序列注释、解读后,获得测序报告;
或者,利用预设的序列拼接算法对所述碱基序列进行序列拼接后,得到所述碱基序列对应的变异信息,对所述变异信息进行序列注释、解读后,获得测序报告。
12.根据权利要求10所述的流式测序分析方法,其特征在于,在所述目标测序仪为第一测序仪和第二测序仪时,调用第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析,包括:
在所述目标测序仪为第一测序仪和第二测序仪时,确定用户按照不同的评估指标对预先提供的多种组装方式进行评估后的评估结果,并根据所述评估结果从预先提供的多种组装方式中选择至少一个组装方式作为第三组装方式;
调用所述第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析。
13.根据权利要求12所述的流式测序分析方法,其特征在于,所述调用所述第三组装方式对所述碱基序列进行组装,并对组装后的碱基序列进行分析,包括:
调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer,组de bruijn图的方法进行组装,并将组装后的碱基序列与所述第二测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息;
或者,调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer和哈希比对的方法对比到所述第二测序仪的碱基序列上,并在得到比对数据后,根据所述比对数据对所述第二测序仪的碱基序列进行错误矫正,将矫正后的碱基序列与所述第一测序仪的碱基序列进行拼接后,获得拼接基因组和对应的变异信息;
或者,调用所述第三组装方式将所述第一测序仪的碱基序列预拼接为contig后,通过所述contig对所述第二测序仪的碱基序列进行错误矫正,将矫正后的碱基序列进行组装后,获得拼接基因组和对应的变异信息;
或者,调用所述第三组装方式将所述第一测序仪的碱基序列按照切kmer,组de bruijn图的方法进行组装,并将所述第二测序仪的碱基序列比对到组装好的de bruijn图上,根据比对结果构建scaffold,以获得拼接基因组和对应的变异信息。
14.根据权利要求1或10所述的流式测序分析方法,其特征在于,所述调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,还包括:
若所述目标测序仪为第一测序仪或第二测序仪时,调用与所述待分析样本所属的物种对应的物种树构建方式,对所述待分析样本所属的物种构建相应的物种树,并根据构建好的物种树对所述碱基序列进行分析;
或者,若所述目标测序仪为第一测序仪和第二测序仪时,将所述第一测序仪的碱基序列与所述第二测序仪的碱基序列进行转录后形成转录组数据,并对所述转录组数据进行数据比对,数据长度、质量、完整性分析,以解析所述待分析样本所属的物种表达代谢的调控机制。
15.根据权利要求10所述的流式测序分析方法,其特征在于,当所述目标测序仪为第一测序仪和第二测序仪时,所述方法还包括:
在对所述碱基序列的变异结果进行注释,或者对所述组装后的碱基序列进行物种注释时,所述碱基序列或所述组装后的碱基序列中部分位点的质量值差于预设质量阈值,并对注释结果有直接影响,则通过使用一代测序技术的测序仪对所述部分位点进行位点突变或短片段突变进行验证。
16.一种流式测序分析装置,其特征在于,包括:
数据获取模块,用于获取待分析样本和对应的分析需求,以及当前各个测序仪的空闲情况,其中,当前各个测序仪包括使用二代测序技术的第一测序仪和使用三代测序技术的第二测序仪;
测序模块,用于根据所述待分析样本的样本特性、分析需求以及当前各个测序仪的空闲情况,确定目标测序仪,并通过所述目标测序仪对所述待分析样本进行测序,得到与所述待分析样本对应的碱基序列,其中,所述碱基序列为二进制序列;
分析模块,用于将所述碱基序列输入至内存中,并调用与所述待分析样本所属的物种以及与所述目标测序仪所使用的测序技术对应的分析方式,对所述碱基序列进行分析,并生成测序报告。
17.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至15中任一项所述流式测序分析方法的步骤。
18.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行如权利要求1至15中任一项所述流式测序分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310834707.1A CN116564415B (zh) | 2023-07-10 | 2023-07-10 | 流式测序分析方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310834707.1A CN116564415B (zh) | 2023-07-10 | 2023-07-10 | 流式测序分析方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116564415A true CN116564415A (zh) | 2023-08-08 |
CN116564415B CN116564415B (zh) | 2023-10-17 |
Family
ID=87503853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310834707.1A Active CN116564415B (zh) | 2023-07-10 | 2023-07-10 | 流式测序分析方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564415B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101475962A (zh) * | 2009-01-07 | 2009-07-08 | 上海市第一人民医院 | 一种介导基因转染的方法 |
CN104894651A (zh) * | 2015-06-29 | 2015-09-09 | 天津诺禾医学检验所有限公司 | 微量起始dna的高通量测序文库构建方法及其所构建的高通量测序文库 |
CN110310702A (zh) * | 2018-03-16 | 2019-10-08 | 深圳华大基因科技服务有限公司 | 一种基因组测序组装结果修复的方法、装置和存储介质 |
CN112435712A (zh) * | 2020-11-20 | 2021-03-02 | 元码基因科技(苏州)有限公司 | 用于分析基因测序数据的方法及系统 |
CN114005490A (zh) * | 2021-12-30 | 2022-02-01 | 北京优迅医疗器械有限公司 | 基于二代测序技术的循环肿瘤dna融合检测方法 |
WO2022237035A1 (zh) * | 2021-05-12 | 2022-11-17 | 浙江大学 | 一种超高通量单细胞测序方法 |
CN115458052A (zh) * | 2022-08-16 | 2022-12-09 | 珠海横琴铂华医学检验有限公司 | 基于一代测序的基因突变分析方法、设备和存储介质 |
-
2023
- 2023-07-10 CN CN202310834707.1A patent/CN116564415B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101475962A (zh) * | 2009-01-07 | 2009-07-08 | 上海市第一人民医院 | 一种介导基因转染的方法 |
CN104894651A (zh) * | 2015-06-29 | 2015-09-09 | 天津诺禾医学检验所有限公司 | 微量起始dna的高通量测序文库构建方法及其所构建的高通量测序文库 |
CN110310702A (zh) * | 2018-03-16 | 2019-10-08 | 深圳华大基因科技服务有限公司 | 一种基因组测序组装结果修复的方法、装置和存储介质 |
CN112435712A (zh) * | 2020-11-20 | 2021-03-02 | 元码基因科技(苏州)有限公司 | 用于分析基因测序数据的方法及系统 |
WO2022237035A1 (zh) * | 2021-05-12 | 2022-11-17 | 浙江大学 | 一种超高通量单细胞测序方法 |
CN114005490A (zh) * | 2021-12-30 | 2022-02-01 | 北京优迅医疗器械有限公司 | 基于二代测序技术的循环肿瘤dna融合检测方法 |
CN115458052A (zh) * | 2022-08-16 | 2022-12-09 | 珠海横琴铂华医学检验有限公司 | 基于一代测序的基因突变分析方法、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
刘永波;曹艳;雷波;唐江云;胡亮;: "基于Solexa平台高通量测序数据的分析与处理流程研究", 《农业网络信息》, no. 12, pages 32 - 38 * |
Also Published As
Publication number | Publication date |
---|---|
CN116564415B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210217490A1 (en) | Method, computer-accessible medium and system for base-calling and alignment | |
JP5068414B2 (ja) | 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法 | |
CN107103205A (zh) | 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法 | |
Fu et al. | IDP-denovo: de novo transcriptome assembly and isoform annotation by hybrid sequencing | |
WO2022267867A1 (zh) | 基因测序分析方法、装置、存储介质和计算机设备 | |
CN105956416A (zh) | 一种快速自动分析原核生物蛋白质基因组学数据的方法 | |
Zhidkov et al. | MitoBamAnnotator: A web-based tool for detecting and annotating heteroplasmy in human mitochondrial DNA sequences | |
Guan et al. | Efficient iterative Hi-C scaffolder based on N-best neighbors | |
Beier et al. | Panakeia-a universal tool for bacterial pangenome analysis | |
US20240120027A1 (en) | Machine-learning model for refining structural variant calls | |
CN116564415B (zh) | 流式测序分析方法、装置、存储介质及计算机设备 | |
Lin et al. | EPInformer: a scalable deep learning framework for gene expression prediction by integrating promoter-enhancer sequences with multimodal epigenomic data | |
Hoffmann | Computational analysis of high throughput sequencing data | |
Mineeva et al. | ResMiCo: Increasing the quality of metagenome-assembled genomes with deep learning | |
Karaoz et al. | Molecular and associated approaches for studying soil biota and their functioning | |
Roach et al. | Hecatomb: an integrated software platform for viral metagenomics | |
US20230021577A1 (en) | Machine-learning model for recalibrating nucleotide-base calls | |
David et al. | Targeted domain assembly for fast functional profiling of metagenomic datasets with S3A | |
US20230207050A1 (en) | Machine learning model for recalibrating nucleotide base calls corresponding to target variants | |
US20230313271A1 (en) | Machine-learning models for detecting and adjusting values for nucleotide methylation levels | |
Lysenkov | Introducing deep learning-based methods into the variant calling analysis pipeline | |
Beslic et al. | End-to-end simulation of nanopore sequencing signals with feed-forward transformers | |
Yuan | SARS-CoV-2: next generation sequencing and analysis | |
Shafin | Accurate Genome Analysis with Nanopore Sequencing Using Deep Neural Networks | |
Wang | Improved Basecalling and Base Modification Detection Through Signal-level Analysis of Nanopore Direct RNA Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40098395 Country of ref document: HK |