CN113265453A - 一种全流程质控的菌群高通量测序检测方法及应用 - Google Patents
一种全流程质控的菌群高通量测序检测方法及应用 Download PDFInfo
- Publication number
- CN113265453A CN113265453A CN202110558395.7A CN202110558395A CN113265453A CN 113265453 A CN113265453 A CN 113265453A CN 202110558395 A CN202110558395 A CN 202110558395A CN 113265453 A CN113265453 A CN 113265453A
- Authority
- CN
- China
- Prior art keywords
- sample
- negative control
- quality control
- sequence
- species
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 317
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 56
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 239000013642 negative control Substances 0.000 claims abstract description 262
- 238000012163 sequencing technique Methods 0.000 claims abstract description 103
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 100
- 238000004458 analytical method Methods 0.000 claims abstract description 72
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 52
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 52
- 239000000126 substance Substances 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000002156 mixing Methods 0.000 claims abstract description 18
- 239000000523 sample Substances 0.000 claims description 235
- 241000894007 species Species 0.000 claims description 175
- 239000012634 fragment Substances 0.000 claims description 70
- 230000003321 amplification Effects 0.000 claims description 23
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 23
- 244000005700 microbiome Species 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 15
- 238000012544 monitoring process Methods 0.000 claims description 14
- 239000013641 positive control Substances 0.000 claims description 14
- 241000894006 Bacteria Species 0.000 claims description 10
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 10
- 230000001580 bacterial effect Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 239000003344 environmental pollutant Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 231100000719 pollutant Toxicity 0.000 claims description 4
- 238000012806 monitoring device Methods 0.000 claims 1
- 238000004886 process control Methods 0.000 claims 1
- 230000000813 microbial effect Effects 0.000 description 23
- 238000002474 experimental method Methods 0.000 description 20
- 239000002028 Biomass Substances 0.000 description 14
- 230000007613 environmental effect Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 14
- 239000000463 material Substances 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 9
- 108090000623 proteins and genes Proteins 0.000 description 9
- 238000012408 PCR amplification Methods 0.000 description 8
- 238000012864 cross contamination Methods 0.000 description 8
- 108020004465 16S ribosomal RNA Proteins 0.000 description 7
- 108091093088 Amplicon Proteins 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 239000002689 soil Substances 0.000 description 7
- 210000001519 tissue Anatomy 0.000 description 7
- 238000003766 bioinformatics method Methods 0.000 description 6
- 210000003608 fece Anatomy 0.000 description 6
- 238000000746 purification Methods 0.000 description 6
- 239000003153 chemical reaction reagent Substances 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 5
- 210000003736 gastrointestinal content Anatomy 0.000 description 5
- 241000203069 Archaea Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000011248 coating agent Substances 0.000 description 4
- 238000000576 coating method Methods 0.000 description 4
- 238000010835 comparative analysis Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000002550 fecal effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011403 purification operation Methods 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000011529 RT qPCR Methods 0.000 description 3
- 238000000246 agarose gel electrophoresis Methods 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002538 fungal effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 210000003296 saliva Anatomy 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 108020004463 18S ribosomal RNA Proteins 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- 241000589516 Pseudomonas Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000005013 brain tissue Anatomy 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000012153 distilled water Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000499 gel Substances 0.000 description 2
- 238000005213 imbibition Methods 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 244000144972 livestock Species 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 210000002445 nipple Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000002826 placenta Anatomy 0.000 description 2
- 244000144977 poultry Species 0.000 description 2
- 239000006041 probiotic Substances 0.000 description 2
- 230000000529 probiotic effect Effects 0.000 description 2
- 235000018291 probiotics Nutrition 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 238000004659 sterilization and disinfection Methods 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241001202853 Blautia Species 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 241000193403 Clostridium Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000272496 Galliformes Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000605861 Prevotella Species 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 241000605947 Roseburia Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 210000003722 extracellular fluid Anatomy 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- -1 feces Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 210000004051 gastric juice Anatomy 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 241000264288 mixed libraries Species 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 210000004923 pancreatic tissue Anatomy 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 239000008223 sterile water Substances 0.000 description 1
- 230000001954 sterilising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000001215 vagina Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Zoology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Botany (AREA)
- Mycology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种全流程质控的菌群高通量测序检测方法,至少包括以下步骤:核酸提取;核酸提取步骤质量控制;文库构建;文库构建步骤质量控制;混库;对所述总测序文库进行测序;对阴性对照文库组的序列进行质量控制;然后对阳性质控品文库组的序列进行质量控制,判断阳性质控品文库组的序列是否满足质控标准;当阳性质控品文库组的序列满足质控标准,即可开展样本分析。本发明通过实验手段与生物信息分析手段的结合,利用多层追加及嵌套的方式,形成全流程保障。各环节独立质控,但又能相互监督,确保样本菌群数据的真实性和有效性。
Description
技术领域
本发明涉及微生物生物信息学和生物技术领域,特别是涉及一种全流程质控的菌群高通量测序检测方法及应用。
背景技术
高通量测序(High-throughput Sequencing)技术,是近些年来,在分子生物学研究中兴起的一项实验技术。该技术以能一次并行对数以万计至百万计的DNA分子进行序列测定为最主要标志,协助科研人员揭示了群体及个体基因表达差异(转录组测序)、环境基因水平功能差异(宏基因组测序)、个体基因组组成(基因组测序)、环境微生物组成及差异(扩增子测序)等等。以上种种,均需要高通量测序技术作为支撑,生物信息学作为解析工具方能得以完成。再者,高通量测序技术的发展,以测序原理的开发与应用及测序读长的增加为主要特征,进而将高通量测序技术划分为不同的技术时代,如:第二代、二代半、第三代和第四代测序技术等。
菌群研究,在高通量测序技术的扶持下开展得如火如荼,尤其是肠道菌群的研究,已经从知晓肠道中存在的微生物种类和丰度,转变为揭示肠道菌群与疾病的关系及其致病或调节机理,从菌群造成的结果向产生的原因进发,为疾病的预防、干预、治疗提供理论基础。同样地,环境微生物菌群随着时代、气候变迁、季节等因素发生着适应性变化,但其变化对环境的保持与保护,微环境的适应性等也同样得到了诠释,为环境功能微生物的开发和环境治理提供技术基础。
菌群的高通量测序常被称为扩增子测序,主要分为细菌、真菌、古菌、功能基因等几大类,而细菌的研究居多,同样地,真菌、古菌、功能基因在环境中起到的功能不容小觑,相关的研究紧随细菌研究之后日益增加。
扩增子测序,主要是利用细菌或者古菌16S rRNA基因(细菌或者古菌16S rDNA)、真菌18S rRNA基因(真菌18S rDNA)的单个或多个可变区的片段或真菌转录间隔区(ITS)、功能基因特定区域进行高通量测序。以细菌为例,将测序获得的16S rRNA序列信息,利用数据库比对后得到物种注释信息,获取物种种类和丰度情况,进而进行比较、差异、关联、建模等数据的深入挖掘。扩增子测序的主要过程可以分为如下几个阶段:1)样本核酸提取;2)目标片段获取;3)标签序列及接头的连接;4)高通量测序;5)生物信息学分析。其中,阶段2)和阶段3)分开操作也称之为“两步法建库”;阶段2)和阶段3)合并成一次操作而达到两个阶段的目的也称之为“一步法建库”。
无论上述实验阶段如何合并与拆分,终将面临的主要问题:环境微生物对研究对象的影响,其中包括样本采集环境微生物对研究对象的交叉污染以及实验的操作环境微生物对操作对象的交叉污染。微生物在环境中无处不在,即便使用无菌技术(如:化学消毒灭菌,高压灭菌,辐照等手段)杀死或灭活菌体,使得微生物失去活性而减少干扰,但残留菌体内的核酸物质或残留未被去除的核酸物质,将是扩增子测序(针对核酸研究)的一种严重隐患。此种隐患随着扩增子测序研究的对象不同影响程度将出现巨大差异。例如,高微生物量样本(High Microbial Biomass,如粪便、土壤等)中微生物种类丰富而操作环境中的微生物种类和数量甚微,因而无法对高微生物量样本造成明显的影响,但这种污染情况依然存在;然而,低微生物量样本(Low Microbial Biomass,如血液、组织、眼表、皮肤、空气等)中微生物的种类同样稀少,一旦与环境中的微生物与研究对象形成交叉污染,对菌群结果影响甚大,甚至影响研究结论。与此同时,操作过程中的试剂同样可能携带微生物或核酸物质成为污染源与研究对象形成交叉污染。
近年来,低微生物量菌群的研究激增(如:胎盘,脑组织、乳腺组织、乳头吸液、宫内样本和精液等),针对低微生物量样本污染问题日益突出,而良好的质控设置与完整的质控体系,将对实验过程形成良好监控。
目前,针对菌群高通量测序已有若干质量控制方法。比如使用带有单一菌株16SrRNA全长序列的质粒(Plasmid),指将单一菌株的16S rRNA基因全长进行扩增,获得该菌株16SrRNA基因全长片段,并插入到载体中,经验证无误后,转化入大肠杆菌进行扩繁和保存,并在高通量测序时,将其作为质控品,与样本一同扩增、建库、测序,若测序序列全部为该物种,则说明测序正常,否则说明测序存在错误和偏差。再如使用人工群落(Mock),指将已知隶属于不同分类水平的物种菌株,利用扩增获得各自全长16S rRNA基因片段,分别将片段构建入载体,经验证无误后,转化入大肠杆菌进行扩繁和保存,利用载体特定位点(如M13,T5,SP6等)扩增出插入的片段,不同物种的片段按照设定比例进行混合,形成已知物种丰度比例的人工群落,在高通量测序时,将该人工群落作为质控品,与样本一同扩增、建库、测序,若结果显示物种比例与设定相同则说明测序正常,否则测序存在偏差或错误。以上两种方法,均可用于监测测序是否存在偏差或错误,但却局限于高通量测序阶段质控,在其他实验环节并不能提供良好监测和质量控制,依然存在一系列问题。例如,提取环节是否存在偏差;人工群落各个物种比例的准确性;人工群落制作繁琐;人工群落出现偏差后,问题环节的追溯难等等。
发明内容
针对目前高、低微生物量菌群与环境交叉污染问题以及当前菌群研究中已有质量控制覆盖不全面的问题,需要建立一套完整的质量控制体系与方法,用于监测和避免各个环节环境微生物对目标研究对象的污染问题以及维持各环节质量的稳定性。鉴于以上所述现有技术的缺点,本发明建立一种全流程质控的菌群高通量测序检测方法,用于对实验操作中各个环节进行监测,避免或降低污染情况的同时,有效获取环境信息并及时得以纠正,确保实验各个环节的质量稳定,保障菌群研究的正确性、准确性和稳定性。
本发明第一方面提供一种全流程质控的菌群高通量测序检测方法,至少包括以下步骤:
(1)核酸提取:分别对待测样本、阳性质控品进行核酸提取操作,并设置阴性对照A,获得待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组;
(2)核酸提取步骤质量控制:分别对所述待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组进行核酸含量检测;
(3)文库构建:获取所述待测样本核酸组,阳性质控品核酸组,阴性对照A核酸组的核酸的目标片段,将所述目标片段上分别连接接头和标签,并设置阴性对照B;获得待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组;
(4)文库构建步骤质量控制:分别对所述待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组进行核酸含量检测;
(5)混库:将所述待测样本文库组,阳性质控品文库组,阴性对照A文库组,阴性对照B文库组进行混合,获得总测序文库;
(6)对所述总测序文库进行测序,获得测序序列,通过标签还原,获得所述待测样本文库组,阳性质控品文库组,阴性对照文库组的序列;所述阴性对照文库组包括阴性对照A文库组和阴性对照B文库组;
(7)对阴性对照文库组的序列进行质量控制,去除背景微生物;然后对阳性质控品文库组的序列进行质量控制,判断阳性质控品文库组的序列是否满足质控标准;
(8)当阳性质控品文库组的序列满足质控标准,即可开展样本分析。
本发明第二方面提供前述全流程质控的菌群高通量测序检测方法在菌群测序检测或菌群测序检测质量控制中的用途。
本发明第三方面提供一种全流程监控菌群高通量测序用装置,包括:
核酸提取步骤质量控制模块,用于获取待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组的核酸含量数据并质控;
文库数据构建步骤质量控制数据模块,用于获取待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组的核酸含量数据并质控;
总测序文库数据模块,用于获取总测序文库序列数据,所述总测序文库包括待测样本文库组、阳性质控品文库组、阴性对照A文库组和阴性对照B文库组;
阴性对照文库组序列及阳性质控品文库组序列质控模块,用于依据待测样本文库组、阴性对照文库组的序列进行质量控制,去除不符合预设要求的数据,依据阳性对照文库组的序列是否满足预设的质控标准,判断序列数据是否符合后续分析要求。
本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的全流程质控的菌群高通量测序检测方法。
本发明第五方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,其特征在于,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述的全流程质控的菌群高通量测序检测方法的步骤。
本发明第六方面提供一种电子终端,其特征在于,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述的全流程质控的菌群高通量测序检测方法。
如上所述,本发明的一种全流程质控的菌群高通量测序检测方法及应用,具有以下有益效果:
流程质量控制。此处设置的阳性质控品与人工群落、质粒等不同,为天然产生的样本,无需自行构建,减少构建及设计时间、操作耗时等繁琐细节,且菌群组成自然分布,不会因人为设计而产生偏向性。阴性对照贯穿全流程污染的监测,确保实验过程样本菌群的真实性和可靠性。此环节阳性质控和阴性对照,不仅仅监测本批次样本的操作稳定性,更能监测不同批次间实验稳定性和可比性,增加样本结果的可信度。
目标片段获取环节、建库环节分别设置阴性对照,不仅监测本环节的质量,更为其后的流程提供优质“原料”。再者,此处的阴性对照可称为“节点风向标”,可以指示流程继续流转还是进行问题追溯,为实验流程导向提供方向。
阴性对照在定量、混库、测序环节的持续参与,不仅仅可以监控实验各个环节的可能存在的污染情况,更为背景菌群的去除提供依据。同时也为后续生物信息分析针对干扰的背景菌群提供了前提和参照。
生物信息学分析作为菌群解析的重要工具,不仅为背景菌群的发现和比较分析,并可根据设定的条件对背景菌群进行筛选、剔除以及终止纳入等操作,更可根据自定义设置及优化算法,最大限度降低及消除背景菌群的干扰,确保样本数据的真实性、准确性和可靠性。
全流程可精简可追加质控,使用灵活。针对特殊类型样本的实验流程,可随着变更环节追加或减少质控,处理灵活,无需追加过多精力及成本,依旧可形成有效保障。
实验手段与生物信息分析手段的结合,利用多层追加及嵌套的方式,形成全流程保障。各环节独立质控,但又能相互监督,确保样本菌群数据的真实性和有效性。
附图说明
图1本发明一实施例的全流程质控的菌群高通量测序检测方法的技术路线图。
图1-1本发明一实施例的全流程质控的菌群高通量测序检测装置图。
图2粪便阳性质控品PCA分析图。
图3阳性质控品的Bray-curtis距离图。
图4粪便阳性质控品批次内及批次间物种分布比较。
图5同类型阳性质控品的更替。
图6修正后阳性质控品物种丰度批次内和批次间的比较图。
图7经过多重修正后阳性质控品物种丰度在批次内和批次间比较图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
在进一步描述本发明具体实施方式之前,应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围;在本发明说明书和权利要求书中,除非文中另外明确指出,单数形式“一个”、“一”和“这个”包括复数形式。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外,如本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
除非另外说明,本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。
如图1所示,本发明一实施例的全流程质控的菌群高通量测序检测方法,至少包括以下步骤:
(1)核酸提取:分别对待测样本、阳性质控品进行核酸提取操作,并设置阴性对照A,获得待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组;
(2)核酸提取步骤质量控制:分别对所述待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组进行核酸含量检测;
(3)文库构建:获取所述待测样本核酸组,阳性质控品核酸组,阴性对照A核酸组的核酸的目标片段,将所述目标片段上分别连接接头和标签,并设置阴性对照B;获得待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组;
(4)文库构建步骤质量控制:分别对所述待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组进行核酸含量检测;
(5)混库:将所述待测样本文库组,阳性质控品文库组,阴性对照A文库组,阴性对照B文库组进行混合,获得总测序文库;
(6)对所述总测序文库进行测序,获得测序序列,通过标签还原,获得所述待测样本文库组,阳性质控品文库组,阴性对照文库组的序列;所述阴性对照文库组包括阴性对照A文库组和阴性对照B文库组;
(7)对阴性对照文库组的序列进行质量控制,去除背景微生物;然后对阳性质控品文库组的序列进行质量控制,判断阳性质控品文库组的序列是否满足质控标准;
(8)当阳性质控品文库组的序列满足质控标准,即可开展样本分析。
所述待测样本可以为高微生物量样本(High Microbial Biomass);所述高微生物量样本是指微生物细胞含量大于5000的样本。如粪便、肠道内容物、土壤、益生菌产品、舌苔等。具体的,粪便可以为人粪便,老鼠粪便,以及大型飞禽、走兽、家禽及畜牧业动物粪便等;肠道内容物可以为人肠道内容物,鼠肠道内容物,以及大型飞禽、走兽、家禽及畜牧业动物肠道内容物等;土壤可以为耕作土、肥沃土壤、种植土、泥土等;益生菌产品可以为单一菌产品或多种菌混合产品等;舌苔可以为舌苔拭子或舌苔刮下的苔状物等。
所述待测样本也可以为低微生物量样本(Low Microbial Biomass);所述低微生物量样本是指微生物细胞含量不大于5000的样本。如体液样本、组织样本、体表及体内表面样本、部分自然环境或人工环境样本等。具体的,体液样本可以为唾液、血液、胃液、脑脊液、肺泡罐洗液、组织液、乳头吸液、精液等;组织样本可以为脑组织、乳腺组织、肺组织、胎盘、癌症组织、粘膜组织、胰腺组织等;体表及体内表面可以为:眼表、皮肤、宫内样本、阴道、口腔、咽喉等;部分自然环境及人工环境样本可以为空气、冰川、岩石、沙土、建筑环境等。
待测样本的数量至少为1例。
所述阳性质控品为自然形成而非人工干预形成的样本。
优选的,所述阳性质控品与待测样本的类型相同或来源相同;易于获取;且能够容易获得其中菌群的核酸物质。例如:粪便,选择事先采集并分装多份的粪便样本,仅作为粪便类型的待测样本的阳性质控品;唾液,选择操作人员当天的唾液样本作为同类型待测样本的阳性质控品;阴道拭子,因该类型样本获取存在一定难度,则可选择来源相同类型样本,如口腔拭子等作为阳性质控品。样本类型甚多,这里不再罗列赘述。
在一种优选的实施方式中,阳性质控品中的菌群种类已知(先知性)。若阳性质控品为易于大量获取的种类,应在事先进行过高通量测序并具备有多次测序数据的特性。此时需事先进行实验和测序操作,以便于进行不同实验操作批次间和不同测序批次间的分析和比较。但是,即便一次分装多份,在多次及多批次使用下终将消耗完,再另选其他同类型样本替代原阳性质控品时,应在原阳性质控品未消耗完全时,将新选定的阳性质控品视作为待测样本,事先进行多次实验操作和测序,确保新选定阳性质控品的先知性。例如粪便样本。
若阳性质控品为不易大量获取的种类,无法达到先知性要求;则应一次同时采集多例,同一批次样本操作中,适当增加阳性质控品数量,可以在同一批次间形成良好平行比较,以确保实验过程操作的稳定性。如口腔拭子等。
阳性质控品数量设置原则:基于实验操作的方便性,阳性质控品分布的均匀性和随机性而定,可依据自身实验室特性和特点,进行调整。按照理论依据,阳性质控品设置数量越多,越能反映操作的正常与否,同时意味着人力、资源和成本的大量消耗。因而,每批次操作同类型样本,每达到50例时,设置1例阳性质控品为佳,以此类推,若不足50例,至少保证设置1例阳性质控品为佳;若每批次操作不同类型样本,则按照如上原则分别设置不同类型的阳性质控品。阳性质控品应随机分布于各个待测样本的操作批次之间,进行实验操作。
样本提取环节阴性对照的设置,即阴性对照A,主要为监测同批次耗材、样本前处理试剂及缓冲液、提取核酸时使用的试剂等在实验前后是否存在微生物的引入及交叉污染。阴性对照A设置数量应与阳性质控品数量保持一致,且均匀分布于各个待测样本之间。
所述阴性对照A为采用阴性样本,如蒸馏水,替代待测样本,进行同样的实验操作过程。
本专利中,各个操作的阴性对照,例如阴性对照B,阴性对照B1,阴性对照B2,阴性对照B11,阴性对照B12,均可为采用已知的阴性样本,如蒸馏水或无菌水,替代待测样本,进行同样的实验操作过程。
当阳性质控品核酸组无核酸或/和阴性对照A核酸组有核酸均属于核酸提取失败时,应该重新进行提取操作。但如果待测样本的的特性是微生物菌群含量等于或低于其周遭环境中的微生物菌群含量(例如:空气、眼球表面、组织内部等等),当阳性质控品核酸组无核酸或/和阴性对照A核酸组有核酸均属于核酸提取失败时,应继续后续步骤直至测序结束。
步骤(3)可以有两种实施方式:
在一种实施方式中,目标片段的获取、接头和标签序列的连接可以采用“一步法”完成:即目标片段获取及标签和接头序列的连接合并成一步完成;
在一种实施方式中,也可以先获取目标片段,再连接接头和标签,此时,阴性对照B包括获取目标片段的阴性对照B1和接头和标签连接时的阴性对照B2;同时在目标片段获取后进行质量控制。具体的,所述文库构建包括如下步骤:
(3-1)目标片段获取:以所述待测样本核酸组,阳性质控品核酸组,阴性对照A核酸组,作为扩增模板,分别进行扩增操作,设置阴性对照B1作为对照,获得待测样本目标片段组,阳性质控品目标片段组,阴性对照A目标片段组,阴性对照B1目标片段组;
(3-2)目标片段步骤质量控制:分别对所述待测样本目标片段组,阳性质控品目标片段组,阴性对照A目标片段组和阴性对照B1目标片段组进行核酸含量检测;
(3-3)连接接头与标签序列:对所述待测样本目标片段组,阳性质控品目标片段组,阴性对照A目标片段组,阴性对照B1目标片段组进行接头连接、标签序列连接操作,并设置阴性对照B2,获得待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组;所述阴性对照B文库组包括阴性对照B1文库组和阴性对照B2文库组。
步骤(3-1)中,所述扩增方法可以为PCR扩增或巢式扩增。
所述巢式扩增包括以下步骤:a)在目标片段外侧设计引物进行一轮包含目标片段的长片段扩增,将研究目标形成富集;b)经过PCR扩增获取目标片段。
此时,阴性对照B1包括步骤a)中的阴性对照B11和步骤b)中的阴性对照B12。
巢式扩增适用于某些类型样本的菌群若直接通过PCR扩增获得目的片段存在极大困难的情况,例如植物根内生菌群的研究等。阴性对照B11,在各个环节均为阴性结果方能说明样本操作无误,若出现问题,则进行各环节追溯或进行背景去除操作,还可按照菌群含量极低样本进行处理操作。
对于样本中微生物占主导类型的样本,其DNA溶液作为PCR扩增的模板时,应该将待测样本核酸组和阳性质控品核酸组的模板调整为相同浓度。以便于保证扩增的起始模板量趋于一致,增加比较分析时的可比性。根据核酸浓度,可使用稀释、浓缩,调整扩增模板体积等等来调整模板浓度,但总体原则为加入扩增的模板不可抑制或降低扩增效率、不可明显增加扩增错误为宜(相似片段的反复扩增易造成不同序列相似区混搭,扩增后的序列分别来源于不同模板,即产生嵌合体进而影响目标片段获取,以5-50ng/μL浓度为扩增模板为佳或因实验条件等因素进行调整)。针对样本中非微生物占主导类型的样本,其DNA溶液作为PCR扩增的模板时,可不进行模板浓度的一致性调整,因其中微生物核酸占比未知,优先以获得目标片段为佳。
一般地,PCR扩增的环数受样本类型、模板浓度差异等因素的影响,可根据情况在保持扩增对数期的前提下调整扩增条件。PCR扩增循环数的增加将提高嵌合体产生的频率;且PCR进入平台期后样本中物种的丰度因过多循环扩增而产生偏差,需将PCR扩增控制在对数期内。对于同一批次样本,以在同一模板浓度扩增时,成功获得目标片段的最大样本数量为扩增条件。不同批次样本需要合并比较时模板浓度和循环数可基于已有条件保持固定。
优选地,PCR扩增的环数为25个以内。
所述阴性对照B1主要采用扩增环节的空白试剂及使用的溶液等,用于监控此环节中试剂、耗材、操作环境是否存在微生物的污染。
所述阴性对照B1中,对照的数量为1个或1个以上。当数量为1个以上时,所述阴性对照B1随机分布于各个待测样本之间。
步骤(3-2)中,可以采用琼脂糖凝胶电泳和/或定量(Nanodrop、Qubit、qPCR)进行核酸含量的检测。在检测之前,需要先经过纯化操作。纯化操作可以为凝胶纯化或磁珠纯化。
若核酸检测出现其他结果,应终止样本进行文库构建步骤,并根据异常情况追溯问题环节或推翻前期实验操作,具体原因分析详见表1。
表1目标片段获取步骤质量控制问题及处理汇总表
步骤(3-3)中,所述标签序列及接头与目标片段的连接,可采用PCR技术实现,又称之为Index PCR。因此环节依旧采用PCR扩增技术,故同目标片段获取环节一致,从循环数、模板量及阴性对照三个部分进行质控。
Index PCR主要目的为连接标签和接头,循环数一般设置为能够使得整个扩增过程保持在扩增曲线的起始期。
Index PCR可因具体情况给予调整;优选的,循环数为8-10个循环。
根据目标片段获取的情况,可以根据最终需要混库的浓度适当调整Index PCR时的模板量。
所述阴性对照B2中,对照的数量为1个或1个以上。当数量为1个以上时,所述阴性对照B2的对照组随机分布于各个待测样本之间。
步骤(3-3)中,可以采用琼脂糖凝胶电泳和/或定量(Nanodrop、Qubit、qPCR)进行核酸含量的检测。在检测之前,需要先经过纯化操作。例如可以为凝胶纯化或磁珠纯化。
若核酸检测出现其他结果,应终止样本进行混库,并根据异常情况追溯问题环节或推翻前期实验操作,具体原因分析详见表2。
表2文库构建步骤质量控制问题及处理汇总表
进一步的,在混库前,对所述待测样本文库组,阳性质控品文库组,阴性对照A文库组,阴性对照B1文库组,阴性对照B2文库组进行定量操作。定量方法可以为荧光定量或qPCR方式。
定量之前,需要先进行纯化操作。纯化方法可以为琼脂糖凝胶电泳或磁珠纯化。
进一步的,混库时,根据每例待测样本库和阳性质控品库的浓度计算出对应的混池体积,阴性对照A文库组,阴性对照B文库组因无浓度值,则应该按照混库时所操作样本的混池平均体积(详见如下公式一),进行混库操作,避免因阴性对照在各个环节低于仪器检测范围而造成假阴性的情况。
公式一:
其中,
N:每批次处理的样本数量;
VN:每例样本混库时使用的体积,单位:μL。
高通量测序是混池测序,即通过标签序列区分序列来源于哪个样本。所以测序时所有样本均需要混合后,完成测序。但为了保证每个样本的序列产出接近一致(如每例样本产出3万条测序数据),则需要等摩尔体积混合每个待测样本,同时扩增目标片段长度被认为是一致的,因而通过目标片段长度、碱基对相对分子质量、预先自行设定的混库目标浓度(如每例样本实施50ng进行混库)、每个样本扩增产物的浓度等进行换算和计算,获得每例样本混池时需要使用扩增产物(即文库组)的最终体积(单位:μL)。但仅有待测样本和阳性对照扩增产物的浓度(即阳性对照文库组和待测样本文库组的浓度)是能够通过测定获取到的,因此,只能利用待测样本文库组和阳性对照文库组的混库体积,对阴性对照混库体积进行估算。阴性对照文库组浓度的测定一般是低于检测限或无浓度的,因而建立如上公式(公式一),利用已知浓度文库组混池的平均体积作为阴性对照文库组需要混池的体积。
可选的,所述测序平台为Illumina二代测序平台。
步骤(6)中,测序获得测序序列后,通过标签序列可将测序序列还原到每一例样本中,并经过测序质量过滤获得可用于后续分析的优化序列。随后,首要分析该批次中的阳性质控品及阴性对照(阴性对照包括阴性对照A文库组,阴性对照B文库组),用于评价实验操作流程中质控的稳定性、准确性和正确性。
根据所研究的目标区域不同,所获得的目标片段长度不同,以及质控的严格程度不同,序列质量过滤标准也有所不同。
在一种实施方式中,质量过滤标准以16S rRNA扩增子测序中V3-V4区域的数据处理为例:1)标签序列必须完全匹配;2)双端序列重叠区(Overlap)小于50bp的序列舍弃;3)重叠区错误率大于0.1的序列舍弃;4)拼接后短于400bp的序列舍弃。
阴性对照文库组的质量控制:
当阴性对照无优化序列产出时,说明实验操作过程良好,且当阳性质控品分析结果达标后,即可开展样本分析。
当阴性对照有优化序列产出时,应先分析阴性对照中物种种类,观测是否在测序样本中出现:若未出现,在阳性质控品分析结果满足质控标准后即可开展样本分析,同时应该反馈环境中存在微生物但未对待测样本造成影响,需要对环境进行除菌消毒处理;若出现,则应分情况进行处理:
a)阴性对照出现的物种类型跟待测样本完全相同,应报告反馈,终止分析;
b)阴性对照优化序列产出序列量低于或等于待测样本平均产出序列的20%时,应按照公式二,最大限度排除污染物种后,并进入后续分析;即将阴性对照序列与待测样本中共有物种的序列进行比对,将相似度大于等于97%的序列根据相似度高低排序并计算各自在其所在样本中所占比例,利用阴性对照物种相似度从高到低,按照该相似度下阴性对照中序列所占待测样本总序列的比例,去除待测样本中的相应序列,获得最终该待测样本总序列数,作为去除背景后的最终数据整体纳入分析;c)当阴性对照产出序列高于待测样本平均产出序列的20%时,应当将待测样本与阴性对照共同参与分析,对待测样本和阴性对照共同进行聚类分析,聚类方法是将序列相似度大于等于97%的序列划分到相同的分类单元中,将分类单元中的代表序列与数据库进行比对获得分类单元的物种注释结果;阴性对照样本与待测样本聚类后共有物种中同一物种的序列数比例大于等于80%时,该物种直接做去除处理,详见公式三;若比例低于80%,则参照条件b)去除序列保留物种。
公式二:
令M为阴性对照和待测样本中共有物种的集合,n为共有物种数量,
其中,
D:待测样本和阴性对照中同物种相似度序列大于等于97%序列的集合;
Similarity:相似度,指阴性对照中的单一序列与待测样本中单一序列比对后的相似度;
Rs:待测样本序列总数;
R阴性对照:阴性对照产生的优化序列;
Sort{D}:共有物种序列集合,按照同物种序列的相似度从高到低进行排序,相似度范围为[97%~100%];
Rs[0、97%):非共有物种的序列总数;
N总:最终参与分析的序列总数。
公式三:
令M为待测样本和阴性对照共有物种的集合,含有n个物种;
令N为去除共同物种占据待测样本中该物种80%及以上序列数的物种集合,含有m个物种;
其中,
Ss,M:待测样本中共有物种;
S阴性对照,M:阴性对照中共有物种;
Similarity:相似度,指阴性对照中的单一序列与待测样本中单一序列比对后的相似度;
Rs:待测样本序列总数;
R阴性对照:阴性对照产生的优化序列;
Sort{D}:共有物种序列集合,按照同物种序列的相似度从高到低进行排序,相似度范围为[97%~100%];
N1:去除共同物种中序列数占据待测样本中该物种序列数达到80%以上物种后的序列总数;
N总:最终参与分析的待测样本序列总数。
阳性质控品文库组中的阳性质控品数据的分析:
每批次数据均应分析该批次中的阳性质控品,观测阳性质控品中菌群种类及丰度的变化,可以反映该批次待测样本操作的稳定性,以支持待测样本在本批次中的操作稳定性及本批次测序的稳定性。再者,将该批次阳性质控品的数据与阳性质控品已知的数据进行比较分析,观测阳性质控品在不同批次间菌群种类及丰度的变化,可以反映不同操作批次间阳性质控品操作的稳定性以支撑样本在不同批次间操作的稳定性,以及不同批次间测序的稳定性,不同批次样本的比较分析可信度增加。
一个批次是指从提取到测序整个操作流程,即全流程。进行阳性质控品的先知性数据获得操作也为一个批次。
当阳性质控品不满足多批次比较时(不存在先知性的数据时),应在同批次完成同类型待测样本测序,并采用该批次内的阳性质控品进行比较分析,用于支撑操作和测序的稳定性。
阳性质控品开展本批次样本分析需至少满足以下标准中的任两个:
a)各批次内和批次间阳性质控品及待测样本差异不明显:即,将各批次内和批次间阳性质控品及待测样本共同采用聚类分析,当阳性质控品聚类成团,说明阳性质控品相似度极高或者采用差异距离算法计算差异距离,距离在0.1内说明差异不明显;
b)各分类学水平丰不存在显著性差异(p>0.05),且各批次内或批次间阳性质控品中各物种的相对标准偏差(RSD)<30%。
c)各批次内或批次间阳性质控品,各分类学水平物种丰度分布相同。
标准a)中,所述聚类分析方法可以为PCA分析(Principal Component Analysis,主成分分析),PCoA分析(Principal Co-ordinates Analysis,主坐标分析),NMDS分析(非度量多维尺度分析)中任一种。
差异距离算法可以为bray-curtis等。
标准b)中,各批次内或批次间阳性质控品各分类学水平丰度通过非参数T检验、Mann-Whitney U检验、Wilcoxon秩和检验中的任一个或多个时,不存在显著性差异;
标准b)中,高通量测序主要讨论的分类学水平为属,因而,各分类学水平丰度可按照属水平进行评价。
前述全流程质控的菌群高通量测序检测方法可用于菌群测序检测。
前述全流程质控的菌群高通量测序检测方法可以用于菌群检测的质量控制。
如图1-1所示,本发明一实施例的一种全流程监控菌群高通量测序用装置,包括:
核酸提取步骤质量控制模块,用于获取待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组的核酸含量数据并质控;
文库数据构建步骤质量控制数据模块,用于获取待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组的核酸含量数据并质控;
总测序文库数据模块,用于获取总测序文库序列数据,所述总测序文库包括待测样本文库组、阳性质控品文库组、阴性对照A文库组和阴性对照B文库组;
阴性对照文库组序列及阳性质控品文库组序列质控模块,用于依据待测样本文库组、阴性对照文库组的序列进行质量控制,去除不符合预设要求的数据,依据阳性对照文库组的序列是否满足预设的质控标准,判断序列数据是否符合后续分析要求。
所述依据待测样本文库组、阴性对照文库组的序列进行质量控制,去除不符合预设要求的数据,进而依据阳性对照文库组的序列是否满足预设的质控标准,判断数据是否符合后续分析要求包括:
当阴性对照有优化序列产出时,分析阴性对照中物种种类,观测是否在测序样本中出现:若未出现,则判断阳性质控品分析结果是否满足预设质控标准;若出现,则按照如下条件进行处理:
a)阴性对照出现的物种类型跟待测样本完全相同,则报告反馈,终止分析
b)阴性对照优化序列产出序列量低于或等于待测样本平均产出序列的20%时,按照公式二,最大限度排除污染物种后,并进入后续分析;即将阴性对照序列与待测样本中共有物种的序列进行比对,将相似度大于等于97%的序列根据相似度高低排序并计算各自在其所在样本中所占比例,利用阴性对照物种相似度从高到低,按照该相似度下阴性对照中序列所占待测样本总序列的比例,去除待测样本中的相应序列,获得最终该待测样本总序列数,作为去除背景后整体纳入分析用的最终数据;
c)当阴性对照产出序列高于待测样本平均产出序列的20%时,将待测样本与阴性对照共同参与分析,对待测样本和阴性对照共同进行聚类分析,聚类方法是将序列相似度大于等于97%的序列划分到相同的分类单元中,将分类单元中的代表序列与数据库进行比对获得分类单元的物种注释结果;阴性对照样本与待测样本聚类后共有物种中同一物种的序列数比例大于等于80%时,该物种直接做去除处理,详见公式三;若比例低于80%,则参照条件b)去除序列保留物种;
阳性质控品文库组序列质控模块中,阳性质控品文库组的序列应满足如下质控标准中的任两个:
a)各批次内和批次间阳性质控品及待测样本差异不明显:即,将各批次内和批次间阳性质控品及待测样本共同采用聚类分析,当阳性质控品聚类成团,说明阳性质控品相似度极高或者采用差异距离算法计算差异距离,距离在0.1内说明差异不明显;
b)各批次内或批次间阳性质控品各分类学水平丰度不存在显著性差异即p>0.05;且各批次内或批次间阳性质控品中各物种的相对标准偏差<30%;
c)各批次内或批次间阳性质控品,各分类学水平物种丰度分布相同。
标准a)中,聚类分析方法选自PCA分析,PCoA分析或NMDS分析中任一种;和/或,
标准b)中,检测各分类学水平丰度的方法选自非参数T检验、Mann-Whitney U检验以及Wilcoxon秩和检验中的任一个或多个。
由于本实施例中的装置与前述方法实施例的原理基本相同,在上述方法和装置实施例中,对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用,不再重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在某一个芯片中实现,此外,也可以以程序代码的形式存储于存储器中,由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable GateArray,简称FPGA,或图形处理器(GraphicsProcessing Unit,简称:GPU))等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明一实施例的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的全流程质控的菌群高通量测序检测方法。
本发明一实施例的计算机处理设备,包括处理器及前述的计算机可读存储介质,其特征在于,所述处理器执行所述计算机可读存储介质上的计算机程序,实现权利要前述的全流程质控的菌群高通量测序检测方法的步骤。
本发明一实施例的一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-8任一所述的全流程质控的菌群高通量测序检测方法。
本发明提供的一种电子终端包括处理器、存储器、通信器、通信接口和系统总线;存储器和通信接口通过系统总线与处理器和通信器连接并完成相互间的通信,存储器用于存储计算机程序,通信器、通信接口用于和其他设备进行通信,处理器和通信器用于运行计算机程序,使电子终端执行如上方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或图形处理器(Graphics Processing Unit,简称:GPU)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
实施例一
本实施例针对粪便类型样本开展实验,并采用批次内粪便阳性质控品和批次间粪便阳性质控品进行比较,观测批次内和批次间操作稳定性。通过高通量测序后,所有环节阴性对照均未获得优化测序序列,用以说明整个实验流程质量控制情况。
针对30例粪便样本,加入2例同类型阳性质控品及2例阴性对照,随机间隔于30例样本中,且该阳性质控品具备测序数据先知性的特征。按照核酸提取,目标片段获取,标签序列及接头连接,并按实验环节和实验流程分别加入阴性对照,随后完成混库及高通量测序,最终利用生物信息学针对质控情况进行分析。
具体实验方法简述如下:
粪便核酸提取采用自主研发的核酸提取方法(专利号:202011175528.4)。
目标片段获取,针对细菌16S rRNAV3~V4可变区进行扩增;标签序列及接头序列连接,采用index PCR完成;定量及混库等如上环节具体操作参照测序仪制造商提供的操作说明书完成(详见
https://support.illumina.com.cn/content/dam/illumina-support/documents/documentation/chemistry_documentation/16s/16s-metagenomic-library-prep-guide-15044223-b.pdf)。
高通量测序采用illuminaMiseq测序平台根据制造商提供操作手册(MiSeqSystem Guide和MiSeq System Denature and Dilute Libraries Guide,详见https://support.illumina.com.cn/sequencing/sequencing_instruments/miseq/documentation.html)完成测序操作。
生物信息学分析主要处理过程如下:
将测序获得的原始数据(Rawdata)经过质控、拼接后获得优化序列(Cleandata),质控标准如下:1)标签序列必须完全匹配;2)双端序列重叠区(Overlap)小于50bp的序列舍弃;3)重叠区错误率大于0.1的序列舍弃;4)拼接后短于400bp的序列舍弃。经过如上质控后获得的优化序列进行OTU聚类,利用Silva数据库进行比对(cutoff:70%)获得物种及丰度信息。同时,采用本专利描述方法,针对阳性质控品和阴性对照进行质量控制分析。
本实施例中未获得任何环节阴性对照的优化序列,说明本流程操作环境或样本之间不存在交叉污染。因而,需要分析阳性质控品,用于监控操作及测序的稳定性。
PCA分析用于观测比较样本之间的相似程度,样本点之间越近说明样本中的菌群组成和丰度越接近。该分析应用在质控方法和体系中,可以监测阳性质控品在同一批次或不同批次间的稳定性。本实施例将30例样本同阳性质控品,同时进行分析,发现同批次内2例阳性质控品(图2,PC组:B-1和B-2)几乎重叠,说明两例阳性质控品中菌群种类和丰度几乎相同,说明该批次样本操作稳定性极佳。
Bray-curtis距离用于描述样本之间的差异程度,该分析应用在质控方法和体系中,可以监测阳性质控品,在同一批次或不同批次间的差异程度,间接反应样本操作的稳定性。本实施例通过30例样本和2例阳性质控品进行分析(图3,B-1和B-2),可以观测到本批次阳性质控品距离在0.1以内,说明2例阳性质控品差异程度很小,说明其相似度高,进而体现了实验操作的稳定性。
利用Mann-Whitney U检验检验,比较两个批次间阳性质控品差异情况,并计算RSD值是否符合质控标准,结果详见表3。从表3中可以看出通过检验后请并未发现显著性差异物种,且RSD<30%,则说明物种不同批次间的检测到的种类和丰度稳定。
表3粪便阳性质控差异检验统计及RSD计算结果表
属水平物种丰度分布情况,详见图4。从图中可以观测到本实施例中的批次内两例阳性质控品(即图中B-1和B-2),物种种类相同,各物种丰度分布均匀,可说明在操作过程中阳性质控品未受到其他样本及环境干扰,且具备实验操作和测序稳定性。批次间的比较(即A1~3与B1~2),也不难看出实验操作和测序稳定性。
综上,四种分析均能体现样本物种种类相同,且物种分布均匀,说明本批次样本操作及测序良好,批次间操作及测序稳定,达到质控目的,可以开展样本分析比较工作。
实施例二
针对粪便等类型一次采集多份分装的阳性质控品,经反复使用后,终将消耗殆尽的情况。将选定的新阳性质控品视作样本,在多个测序批次中进行测序,确保阳性质控品的先知性。
实验流程及方法同实施例一。本实施例中未获得任何环节阴性对照的优化序列,说明本流程操作环境或样本之间不存在交叉污染。因而,需要分析阳性质控品,用于监控操作及测序的稳定性。
利用Mann-Whitney U检验检验,分别比较两个批次间原阳性质控品及新阳性质控品之间差异情况,并分别计算RSD值是否符合质控标准,结果详见表4和表5。从表4中可以看出通过检验后,在原阳性质控品(C1-1~2和C2-1~2)在两个不同批次中并未发现显著性差异物种,且RSD<30%,则说明物种不同批次间的检测到的种类和丰度稳定。视作样本的新阳性质控品(N1-1~2和N2-1~2),在两个批次中,并未发现显著性差异物种,且RSD<30%,在原阳性质控品的监督下,新质控品不同批次间测序稳定,无偏差。
表4原阳性质控差异检验统计及RSD计算结果表
表5新阳性质控差异检验统计及RSD计算结果表
属水平物种丰度分布情况,详见图5。从图中可以观测到本实施例中,两批次原阳性质控品(即图中C1-1~2和C2-1~2),物种种类相同,各物种丰度分布均匀,可说明在操作过程中阳性质控品未受其他样本及环境干扰,且具备实验操作和测序稳定性。批次间的比较(即图中C1-1~2与C2-1~2),也不难看出实验操作和测序稳定性。于此同时,批次内新选定的阳性质控品(即图中N1-1~2和N2-1~2),物种种类相同,各物种丰度分布均匀,可说明在操作过程中阳性质控品未受其他样本及环境干扰的同时,且具备实验操作和测序稳定性。批次间的比较(即图中N1-1~2与N2-1~2),也不难看出实验操作和测序稳定性。
综上,两种分析均能体现新旧阳性质控品中物种种类相同,且物种分布均匀说明本批次样本操作及测序良好,批次间操作及测序稳定,达到新阳性质控品先知性特征,可以形成良好稳定替换。
实施例三
在实验流程过程中,满足实验各环节的质控标准,若阴性对照产出少量优化序列时,应在生物信息学分析环节针对污染的情况评估与去除。实验流程及方法同实施例一,但采用Wilcoxn秩和检验进行两组以上的非参数差异分析,测序后发现其中阴性对照序列产出5条优化序列,小于平均测序量的20%,因此应利用公式二最大占比去除(表6,NC)。5条序列经过比对后分别属于Prevotella(3),Roseburia(1),Clostridium_sensu_stricto_1(1),则需要将序列分别占其他样本总序列数的百分比进行去除,此处以不同批次阳性质控品的处理为例(表6,PC),计算后结果详见表7,在本批次阳性质控品中,阴性对照分布的三个属,在阳性质控品中进行对应减去,以最大化减少影响,然后比较阳性质控在批次内和批次间的稳定性。采用实施例二方法针对本批次修正后的阳性质控品进行同批次和多批次比较,详见表7、表8、图6。从批次内可以观测到阳性质控品在流程内监控情况稳定;在批次间并未形成差异化,并不影响最终菌群结果。因而,说明采用本质控体系和方法,可以有效避免环境等背景干扰,更好维持菌群结果的稳定性、真实性和可靠性。
表6阳性质控品及阴性对照优化序列数统计表
表7阴性对照优化序列基于相似度的物种分布及修正后阳性质控品优化序列数
表8阳性质控品修正后不同批次差异检验统计及RSD计算结果表
备注:括号内为修正后物种丰度,并参与计算。
实施例四
在实验流程过程中,满足实验各环节的质控标准,若阴性对照产出大量优化序列时,应在生物信息学分析环节针对污染的情况评估与去除。实验流程及方法同实施例一,但采用wilcoxn秩和检验进行两组以上的非参数差异分析,测序后发现其中阴性对照序列产出25139条优化序列,大于平均测序量的80%,因此应利用公式三去除污染(表9,NC)。25139条序列经过比对后分别属于Pseudomonas(24547),Subdoligranulum(591),Blautia(1),则需要将序列根据情况去除,此处以同批次阳性质控品的处理为例(表9,PC),计算后结果详见表11,在本批次阳性质控品中,阴性对照分布的三个属,在阳性质控品中根据各个物种的丰度和占比,以及是否存在样本中分情况根据公式三进行处理,以减少背景干扰,随后通过比较阳性质控品在批次内和批次间的稳定性。按照分析方案,针对本批次修正后的阳性质控品进行同批次和多批次比较,详见表10、表11、图7。将阴性对照中出现的物种而阳性质控品或样本中未出现的物种(如Pseudomonas),给予报告和去除;阴性对照和阳性质控品或样本中同时存在,且优化序列数占比阳性质控品或样本中该物种序列数80%以上,应当基于去除;针对物种占比小的物种根据公式三进行处理,按照其最大占比进行去除。经过如上处理后,从批次内可以观测到阳性质控品在流程内监控情况稳定;在批次间并未形成差异化,因而,说明该方法可以对流程形成良好的监督和质量控制。
表9阳性质控品及阴性对照优化序列数统计表
表10阴性对照优化序列基于相似度的物种分布及修正后阳性质控品优化序列数
备注:PC括号中的数字为去除报告污染菌后的最终序列总数并参与计算。
表11阳性质控品修正后不同批次差异检验统计及RSD计算结果表
备注:括号中为修正后物种相对丰度。
综上,通过四个实施例,具有针对性的处理和比较分析,可以发现按照此实验流程及其对应的质控及体系的处理方法,可以有效的控制实验过程的正确性、稳定性和准确性。同时,加入良好的背景和污染菌的去除方案,可以有效监控实验过程及实验结果,为菌群的研究提供具有方法性可行、监督性良好、去杂形式优良的质量控制方法和体系。
以上的实施例是为了说明本发明公开的实施方案,并不能理解为对本发明的限制。此外,本文所列出的各种修改以及发明中方法、组合物的变化,在不脱离本发明的范围和精神的前提下对本领域内的技术人员来说是显而易见的。虽然已结合本发明的多种具体优选实施例对本发明进行了具体的描述,但应当理解,本发明不应仅限于这些具体实施例。事实上,各种如上所述的对本领域内的技术人员来说显而易见的修改来获取发明都应包括在本发明的范围内。
Claims (16)
1.一种全流程质控的菌群高通量测序检测方法,至少包括以下步骤:
(1)核酸提取:分别对待测样本、阳性质控品进行核酸提取操作,并设置阴性对照A,获得待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组;
(2)核酸提取步骤质量控制:分别对所述待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组进行核酸含量检测;
(3)文库构建:获取所述待测样本核酸组,阳性质控品核酸组,阴性对照A核酸组的核酸的目标片段,将所述目标片段上分别连接接头和标签,并设置阴性对照B;获得待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组;
(4)文库构建步骤质量控制:分别对所述待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组进行核酸含量检测;
(5)混库:将所述待测样本文库组,阳性质控品文库组,阴性对照A文库组,阴性对照B文库组进行混合,获得总测序文库;
(6)对所述总测序文库进行测序,获得测序序列,通过标签还原,获得所述待测样本文库组,阳性质控品文库组,阴性对照文库组的序列;所述阴性对照文库组包括阴性对照A文库组和阴性对照B文库组;
(7)对阴性对照文库组的序列进行质量控制,去除背景微生物;然后对阳性质控品文库组的序列进行质量控制,判断阳性质控品文库组的序列是否满足质控标准;
(8)当阳性质控品文库组的序列满足质控标准,即可开展样本分析。
2.如权利要求1所述的全流程质控的菌群高通量测序检测方法,其特征在于,步骤(1)中,所述阳性质控品为自然形成而非人工干预形成的样本。
3.如权利要求1所述的全流程质控的菌群高通量测序检测方法,其特征在于,所述文库构建包括如下步骤:
(3-1)目标片段获取:以所述待测样本核酸组,阳性质控品核酸组,阴性对照A核酸组,作为扩增模板,分别进行扩增操作,设置阴性对照B1组作为对照,获得待测样本目标片段组,阳性质控品目标片段组,阴性对照A目标片段组,阴性对照B1目标片段组;
(3-2)目标片段步骤质量控制:分别对所述待测样本目标片段组,阳性质控品目标片段组,阴性对照A目标片段组和阴性对照B1目标片段组进行核酸含量检测;
(3-3)连接接头与标签序列:对所述待测样本目标片段组,阳性质控品目标片段组,阴性对照A目标片段组,阴性对照B1目标片段组进行接头连接、标签序列连接操作,并设置阴性对照B2,获得待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组;所述阴性对照B文库组包括阴性对照B1文库组和阴性对照B2文库组。
5.如权利要求1所述的全流程质控的菌群高通量测序检测方法,其特征在于,步骤(6)中,测序获得测序序列后,经过测序质量过滤获得能够用于后续分析的优化序列。
6.如权利要求5所述的全流程质控的菌群高通量测序检测方法,其特征在于,当阴性对照有优化序列产出时,分析阴性对照中物种种类,观测是否在待测样本中出现:若未出现,在阳性质控品分析结果满足质控标准后即可开展样本分析;若出现,则按照如下条件进行处理:
a)阴性对照出现的物种类型跟待测样本完全相同,应报告反馈,终止分析;
b)阴性对照优化序列产出序列量低于或等于待测样本平均产出序列的20%时,应按照公式二,最大限度排除污染物种后,并进入后续分析;即将阴性对照序列与待测样本中共有物种的序列进行比对,将相似度大于等于97%的序列根据相似度高低排序并计算各自在其所在样本中所占比例,利用阴性对照物种相似度从高到低,按照该相似度下阴性对照中序列所占待测样本总序列的比例,去除待测样本中的相应序列,获得最终该待测样本总序列数,作为去除背景后的最终数据整体纳入分析;
c)当阴性对照产出序列高于待测样本平均产出序列的20%时,应当将待测样本与阴性对照共同参与分析,对待测样本和阴性对照共同进行聚类分析,聚类方法是将序列相似度大于等于97%的序列划分到相同的分类单元中,将分类单元中的代表序列与数据库进行比对获得分类单元的物种注释结果;阴性对照样本与待测样本聚类后共有物种中同一物种的序列数比例大于等于80%时,该物种直接做去除处理,详见公式三;若比例低于80%,则参照条件b)去除序列保留物种;
公式二:
令M为阴性对照和待测样本中共有物种的集合,n为共有物种数量,
其中,
D:待测样本和阴性对照中同物种相似度序列大于等于97%序列的集合;
Similarity:相似度,指阴性对照中的单一序列与待测样本中单一序列比对后的相似度;
Rs:待测样本序列总数;
R阴性对照:阴性对照产生的优化序列;
Sort{D}:共有物种序列集合,按照同物种序列的相似度从高到低进行排序,相似度范围为[97%~100%];
Rs[0~97%):非共有物种的序列总数;
N总:最终参与分析的序列总数;
公式三:
令M为待测样本和阴性对照共有物种的集合,含有n个物种;
令N为去除共同物种占据待测样本中该物种80%及以上序列数的物种集合,含有m个物种;
其中,
Ss,M:待测样本中共有物种;
s阴性对照,M:阴性对照中共有物种;
Similarity:相似度,指阴性对照中的单一序列与待测样本中单一序列比对后的相似度;
Rs:待测样本序列总数;
R阴性对照:阴性对照产生的优化序列;
Sort{D}:共有物种序列集合,按照同物种序列的相似度从高到低进行排序,相似度范围为[97%~100%];
N1:去除共同物种中序列数占据待测样本中该物种序列数达到80%以上物种后的序列总数;
N总:最终参与分析的待测样本序列总数。
7.如权利要求1所述的全流程质控的菌群高通量测序检测方法,其特征在于,步骤(8)中,阳性质控品文库组的序列应满足如下质控标准中的任两个:
a)各批次内和批次间阳性质控品及待测样本差异不明显:即,将各批次内和批次间阳性质控品及待测样本共同采用聚类分析,当阳性质控品聚类成团,说明阳性质控品相似度极高或者采用差异距离算法计算差异距离,距离在0.1内说明差异不明显;
b)各批次内或批次间阳性质控品各分类学水平丰度不存在显著性差异即p>0.05;且各批次内或批次间阳性质控品中各物种的相对标准偏差<30%;
c)各批次内或批次间阳性质控品,各分类学水平物种丰度分布相同。
8.如权利要求7所述的全流程质控的菌群高通量测序检测方法,其特征在于,
标准a)中,聚类分析方法选自PCA分析,PCoA分析或NMDS分析中任一种;和/或,
标准b)中,检测各分类学水平丰度的方法选自非参数T检验、Mann-Whitney U检验以及Wilcoxon秩和检验中的任一个或多个。
9.如权利要求1-8任意所述的全流程质控的菌群高通量测序检测方法在菌群测序检测或菌群测序检测质量控制中的用途。
10.一种全流程监控菌群高通量测序用装置,包括:
核酸提取步骤质量控制模块,用于获取待测样本核酸组,阳性质控品核酸组和阴性对照A核酸组的核酸含量数据并质控;
文库数据构建步骤质量控制数据模块,用于获取待测样本文库组,阳性质控品文库组,阴性对照A文库组和阴性对照B文库组的核酸含量数据并质控;
总测序文库数据模块,用于获取总测序文库序列数据,所述总测序文库包括待测样本文库组、阳性质控品文库组、阴性对照A文库组和阴性对照B文库组;
阴性对照文库组序列及阳性质控品文库组序列质控模块,用于依据待测样本文库组、阴性对照文库组的序列进行质量控制,去除不符合预设要求的数据,依据阳性对照文库组的序列是否满足预设的质控标准,判断序列数据是否符合后续分析要求。
11.如权利要求10所述的全流程监控菌群高通量测序用装置,其特征在于,所述依据待测样本文库组、阴性对照文库组的序列进行质量控制,去除不符合预设要求的数据,进而依据阳性对照文库组的序列是否满足预设的质控标准,判断数据是否符合后续分析要求包括:
当阴性对照有优化序列产出时,分析阴性对照中物种种类,观测是否在测序样本中出现:若未出现,则判断阳性质控品分析结果是否满足预设质控标准;若出现,则按照如下条件进行处理:
a)阴性对照出现的物种类型跟待测样本完全相同,则报告反馈,终止分析
b)阴性对照优化序列产出序列量低于或等于待测样本平均产出序列的20%时,按照公式二,最大限度排除污染物种后,并进入后续分析;即将阴性对照序列与待测样本中共有物种的序列进行比对,将相似度大于等于97%的序列根据相似度高低排序并计算各自在其所在样本中所占比例,利用阴性对照物种相似度从高到低,按照该相似度下阴性对照中序列所占待测样本总序列的比例,去除待测样本中的相应序列,获得最终该待测样本总序列数,作为去除背景后整体纳入分析用的最终数据;c)当阴性对照产出序列高于待测样本平均产出序列的20%时,将待测样本与阴性对照共同参与分析,对待测样本和阴性对照共同进行聚类分析,聚类方法是将序列相似度大于等于97%的序列划分到相同的分类单元中,将分类单元中的代表序列与数据库进行比对获得分类单元的物种注释结果;阴性对照样本与待测样本聚类后共有物种中同一物种的序列数比例大于等于80%时,该物种直接做去除处理,详见公式三;若比例低于80%,则参照条件b)去除序列保留物种;
公式二:
令M为阴性对照和待测样本中共有物种的集合,n为共有物种数量,
其中,
D:待测样本和阴性对照中同物种相似度序列大于等于97%序列的集合;
Similarity:相似度,指阴性对照中的单一序列与待测样本中单一序列比对后的相似度;
Rs:待测样本序列总数;
R阴性对照:阴性对照产生的优化序列;
Sort{D}:共有物种序列集合,按照同物种序列的相似度从高到低进行排序,相似度范围为[97%~100%];
Rs[0~97%):非共有物种的序列总数;
N总:最终参与分析的序列总数;
公式三:
令M为待测样本和阴性对照共有物种的集合,含有n个物种;
令N为去除共同物种占据待测样本中该物种80%及以上序列数的物种集合,含有m个物种;
其中,
Ss,M:待测样本中共有物种;
S阴性对照,M:阴性对照中共有物种;
Similarity:相似度,指阴性对照中的单一序列与待测样本中单一序列比对后的相似度;
Rs:待测样本序列总数;
R阴性对照:阴性对照产生的优化序列;
Sort{D}:共有物种序列集合,按照同物种序列的相似度从高到低进行排序,相似度范围为[97%~100%];
N1:去除共同物种中序列数占据待测样本中该物种序列数达到80%以上物种后的序列总数;
N总:最终参与分析的待测样本序列总数。
12.如权利要求10所述的全流程监控菌群高通量测序用装置,其特征在于,阳性质控品文库组序列质控模块中,阳性质控品文库组的序列应满足如下质控标准中的任两个:
a)各批次内和批次间阳性质控品及待测样本差异不明显:即,将各批次内和批次间阳性质控品及待测样本共同采用聚类分析,当阳性质控品聚类成团,说明阳性质控品相似度极高或者采用差异距离算法计算差异距离,距离在0.1内说明差异不明显;
b)各批次内或批次间阳性质控品各分类学水平丰度不存在显著性差异即p>0.05;且各批次内或批次间阳性质控品中各物种的相对标准偏差<30%;
c)各批次内或批次间阳性质控品,各分类学水平物种丰度分布相同。
13.如权利要求12所述的全流程质控的菌群高通量测序检测装置,其特征在于,
标准a)中,聚类分析方法选自PCA分析,PCoA分析或NMDS分析中任一种;和/或,
标准b)中,检测各分类学水平丰度的方法选自非参数T检验、Mann-Whitney U检验以及Wilcoxon秩和检验中的任一个或多个。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一所述的全流程质控的菌群高通量测序检测方法。
15.一种计算机处理设备,包括处理器及权利要求14所述的计算机可读存储介质,其特征在于,所述处理器执行所述计算机可读存储介质上的计算机程序,实现权利要求1-8任一所述的全流程质控的菌群高通量测序检测方法的步骤。
16.一种电子终端,其特征在于,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-8任一所述的全流程质控的菌群高通量测序检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558395.7A CN113265453A (zh) | 2021-05-21 | 2021-05-21 | 一种全流程质控的菌群高通量测序检测方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558395.7A CN113265453A (zh) | 2021-05-21 | 2021-05-21 | 一种全流程质控的菌群高通量测序检测方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113265453A true CN113265453A (zh) | 2021-08-17 |
Family
ID=77232438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110558395.7A Pending CN113265453A (zh) | 2021-05-21 | 2021-05-21 | 一种全流程质控的菌群高通量测序检测方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113265453A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114188034A (zh) * | 2021-11-26 | 2022-03-15 | 广州金域医学检验中心有限公司 | 样本录入方法、装置、设备及存储介质 |
CN114891868A (zh) * | 2022-05-31 | 2022-08-12 | 广州市金圻睿生物科技有限责任公司 | 一种基于ngs平台的微生物定量方法及试剂盒 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970091A (zh) * | 2019-12-20 | 2020-04-07 | 北京优迅医学检验实验室有限公司 | 标签质控的方法及装置 |
CN111187813A (zh) * | 2020-02-20 | 2020-05-22 | 予果生物科技(北京)有限公司 | 全流程质控的病原微生物高通量测序检测方法 |
CN111607639A (zh) * | 2020-05-08 | 2020-09-01 | 深圳华大因源医药科技有限公司 | 基于内参进行宏基因组病原定量检测的方法和装置 |
-
2021
- 2021-05-21 CN CN202110558395.7A patent/CN113265453A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970091A (zh) * | 2019-12-20 | 2020-04-07 | 北京优迅医学检验实验室有限公司 | 标签质控的方法及装置 |
CN111187813A (zh) * | 2020-02-20 | 2020-05-22 | 予果生物科技(北京)有限公司 | 全流程质控的病原微生物高通量测序检测方法 |
CN111607639A (zh) * | 2020-05-08 | 2020-09-01 | 深圳华大因源医药科技有限公司 | 基于内参进行宏基因组病原定量检测的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114188034A (zh) * | 2021-11-26 | 2022-03-15 | 广州金域医学检验中心有限公司 | 样本录入方法、装置、设备及存储介质 |
CN114891868A (zh) * | 2022-05-31 | 2022-08-12 | 广州市金圻睿生物科技有限责任公司 | 一种基于ngs平台的微生物定量方法及试剂盒 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021202149B2 (en) | Detecting repeat expansions with short read sequencing data | |
WO2022028624A1 (zh) | 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备 | |
CN113265453A (zh) | 一种全流程质控的菌群高通量测序检测方法及应用 | |
DE202013012824U1 (de) | Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation | |
US20200286586A1 (en) | Sequence-graph based tool for determining variation in short tandem repeat regions | |
CN110283903A (zh) | 用于诊断胰腺炎的肠道微生物菌群 | |
CN106434921B (zh) | 一种用于多种粪便污染源检测的微生物源示踪分子标记物及其高通量检测方法 | |
AU2021396452A1 (en) | Methods and systems for visualizing short reads in repetitive regions of the genome | |
CN110358816B (zh) | 一种用于鸡来源细胞pcr检测的引物组、试剂盒及应用 | |
Cloutier et al. | First nuclear genome assembly of an extinct moa species, the little bush moa (Anomalopteryx didiformis) | |
Ntushelo | Identifying bacteria and studying bacterial diversity using the 16S ribosomal RNA gene-based sequencing techniques: A review | |
CN111916151B (zh) | 一种苜蓿黄萎病菌的溯源检测方法及应用 | |
AU2014243240B2 (en) | In vitro method for predictive assessment of the prospects of success of an implant and/or transplant | |
CN101251511A (zh) | 一种利用限制性内切酶双酶切检测snp的方法 | |
CN101251510A (zh) | 一种联合限制性酶切法和质谱法以检测snp的方法 | |
EP4159873A1 (en) | Method for treating cell population and method for analyzing genes included in cell population | |
WO2022159838A1 (en) | Methods and systems for metagenomics analysis | |
CN107119121A (zh) | 一种检测猪丹毒杆菌的实时定量lamp引物、试剂盒及方法 | |
CN110317877A (zh) | 一组染色体不稳定变异在制备诊断尿路上皮癌、评估预后的试剂或试剂盒中的应用 | |
RU2799654C2 (ru) | Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов | |
CN107557456A (zh) | 解脲脲原体的lamp检测引物组及试剂盒 | |
Edwards | Evaluating Approaches for the Optimal Preservation and Extraction of Microbial DNA for the Analysis of Avian Gut Microbiotas | |
CN114703265A (zh) | 一种基于16SrRNA扩增子测序检测土壤致病细菌生物污染的方法 | |
TWI743300B (zh) | 一種用於監控微生物相之動態變化的整合系統及方法 | |
CN117887897A (zh) | 一种鹅腺病毒4型的pcr检测引物及其试剂盒 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |