CN111607639A - 基于内参进行宏基因组病原定量检测的方法和装置 - Google Patents

基于内参进行宏基因组病原定量检测的方法和装置 Download PDF

Info

Publication number
CN111607639A
CN111607639A CN202010383456.6A CN202010383456A CN111607639A CN 111607639 A CN111607639 A CN 111607639A CN 202010383456 A CN202010383456 A CN 202010383456A CN 111607639 A CN111607639 A CN 111607639A
Authority
CN
China
Prior art keywords
nucleic acid
sequence
internal reference
pathogenic
concentration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010383456.6A
Other languages
English (en)
Inventor
申奥
吴红龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Biotechnology Wuhan Co ltd
Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Original Assignee
Huada Biotechnology Wuhan Co ltd
Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huada Biotechnology Wuhan Co ltd, Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd filed Critical Huada Biotechnology Wuhan Co ltd
Priority to CN202010383456.6A priority Critical patent/CN111607639A/zh
Publication of CN111607639A publication Critical patent/CN111607639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于内参进行宏基因组病原定量检测的方法和装置,该方法包括:在含有病原核酸序列和人源核酸序列的待测样本中添加设定含量的内参序列;从添加有内参序列的待测样本中提取核酸,并使用所述核酸进行测序文库构建和上机测序得到测序数据;统计总测序序列数、内参特异检出序列数和病原特异检出序列数;计算出待测样本中人源核酸浓度;根据人源核酸浓度,计算出待测病原核酸浓度。本发明建立了基于宏基因组学病原检测技术的理论计算模型,该模型可以对病原宏基因组检测中出现的异常情况进行辅助分析。

Description

基于内参进行宏基因组病原定量检测的方法和装置
技术领域
本发明涉及病原检测技术领域,尤其涉及一种基于内参进行宏基因组病原定量检测的方法和装置。
背景技术
随着分子生物学技术的发展及二代测序成本的降低,基于宏基因组方法的病原微生物检测技术在临床的应用越来越多,并以其快速、全面、准确的特性为临床感染患者的病原学诊断提供了很大帮助。
但基于宏基因组学方法的检测也存在一定的局限性,因其受多方面因素的影响,包括人源核酸的含量、病原体浓度、病原体基因组大小以及测序深度等,在临床使用中常常会出现假阴性的现象。为解释这种假阴性现象,常常需要对以上影响因素进行逐一排查,耗时耗力,对该技术在临床的推广造成很大的局限性。
目前,有相关文献(Miller S,Naccache S N,Samayoa E,et al.Laboratoryvalidation of a clinical metagenomic sequencing assay for pathogen detectionin cerebrospinal fluid[J].Genome research,2019,29(5):831-842.)报道,在进行宏基因组病原检测流程中添加噬菌体内参质控品进行质控,主要可以实现两方面的质控作用,一方面可以对整个检测流程所用到的试剂的完整性、设备的功能及抑制剂的存在进行控制,同时还可以通过内标质控品的检出情况对样本中的核酸含量进行提示,文章中认为在脑脊液样本进行宏基因组检测过程中,内参的检测值低于100条序列时,提示该份标本中所含的人源核酸较多,但并未给出明确的人源核酸含量范围,同时该方法未能对样本中的病原核酸含量进行分析,未充分发挥宏基因组测序中内参质控品的作用。
此外,也有文献(Blauwkamp T A,Thair S,Rosen M J,et al.Analytical andclinical validation of a microbial cell-free DNA sequencing test forinfectious disease[J].Nature microbiology,2019,4(4):663.)报道,在血浆宏基因组测序中添加简并碱基序列作为内参质控品,根据内参质控品的检测结果评估待测病原分子的含量,但其评估的病原含量与临床通用的浓度计算方式并非一致,且其中换算关系不明,无法在临床使用过程中提供指导。
现有的内参质控只能对检测流程进行质控,并不能提供额外的辅助分析,包括通过内参对样本中人源核酸含量的计算以及病原含量的计算等,无法全面展现内参质控的多重作用。
发明内容
本发明的目的在于提供一种基于内参进行宏基因组病原定量检测的方法和装置。根据宏基因组学病原检测原理,建立了宏基因组病原检测的理论模型及公式。通过在宏基因组检测过程中加入特定序列的内参序列,与样本同时进行提取、建库、上机测序以及信息分析,最终通过结合理论模型公式与内参序列的检出情况评估待测样本中人源核酸含量,并进一步对样本中可能存在的病原核酸含量进行评估,可达到相对定量的效果。
根据本发明的第一方面,本发明提供一种基于内参进行宏基因组病原定量检测的方法,包括:
在含有病原核酸序列和人源核酸序列的待测样本中添加设定含量的内参序列,上述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列;
从添加有内参序列的待测样本中提取核酸,并使用上述核酸进行测序文库构建和上机测序,得到包含内参特异检出序列、病原特异检出序列和人源特异检出序列的测序数据;
从上述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;
通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
根据上述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
在优选实施例中,上述内参序列在待测样本中的含量,是根据不同样本类型中人源核酸分布的特性而确定的添加量,该添加量保证在不同人源核酸样本背景下内参序列都能被稳定检出,且在总测序数据中不超过设定比例。
在优选实施例中,上述设定比例为10%。
在优选实施例中,上述内参序列是首先通过随机序列生成器模拟生成随机序列,然后将生成的随机序列与病原核酸序列库及人源核酸序列库进行比对分析得到的未比对到上述病原核酸序列库及人源核酸序列库的序列。
在优选实施例中,上述内参特征系数和病原特征系数均为1。
根据本发明的第二方面,本发明提供一种基于内参进行宏基因组病原定量检测的方法,包括:
获取待测样本的测序文库的测序数据,上述待测样本中含有病原核酸序列和人源核酸序列并添加有设定含量的内参序列,上述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列,上述测序数据包括内参特异检出序列、病原特异检出序列和人源特异检出序列;
从上述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;
通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
根据上述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
在优选实施例中,上述内参序列在待测样本中的含量,是根据不同样本类型中人源核酸分布的特性而确定的添加量,该添加量保证在不同人源核酸样本背景下内参序列都能被稳定检出,且在总测序数据中不超过设定比例。
在优选实施例中,上述内参序列是首先通过随机序列生成器模拟生成随机序列,然后将生成的随机序列与病原核酸序列库及人源核酸序列库进行比对分析得到的未比对到上述病原核酸序列库及人源核酸序列库的序列。
根据本发明的第三方面,本发明提供一种基于内参进行宏基因组病原定量检测的装置,包括:
测序数据获取单元,用于获取待测样本的测序文库的测序数据,上述待测样本中含有病原核酸序列和人源核酸序列并添加有设定含量的内参序列,上述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列,上述测序数据包括内参特异检出序列、病原特异检出序列和人源特异检出序列;
测序数据统计单元,用于从上述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;
人源核酸计算单元,用于通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
病原核酸计算单元,用于根据上述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
根据本发明的第四方面,本发明提供一种计算机可读存储介质,其包括程序,上述程序能够被处理器执行以实现如第二方面的方法。
本发明建立了基于宏基因组学病原定量检测技术的理论计算模型,该模型可以对病原宏基因组检测中出现的异常情况进行辅助分析;本发明无需额外分子生物学检测技术辅助,可直接通过测序结果对样本中的人源核酸含量进行计算;本发明可通过计算得到人源核酸含量,进一步推算样本中可检测到的病原理论灵敏度,为宏基因组病原检测结果提供相对定量分析。
附图说明
图1为本发明实施例中一个基于内参进行宏基因组病原定量检测的方法流程图;
图2为本发明实施例中另一基于内参进行宏基因组病原定量检测的方法流程图;
图3为本发明实施例中基于内参进行宏基因组病原定量检测的装置结构框图;
图4为本发明实施例中56例脑脊液样本中人源核酸含量分布图;
图5为本发明实施例中脑脊液临床样本的人源核酸qPCR定量结果与内参换算结果一致性结果图;
图6为本发明实施例中模拟样本中内参换算人源核酸含量与实际添加量一致性结果图;
图7为本发明实施例中模拟样本中病原浓度换算结果与实际添加量一致性结果图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
如图1所示,本发明的一个实施例提供一种基于内参进行宏基因组病原定量检测的方法,包括如下步骤:
S110:在含有病原核酸序列和人源核酸序列的待测样本中添加设定含量的内参序列,上述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列。
内参质控作为分子检测实验中常见的一种质量控制程序,是整个检测流程的内部对照及质控品,在检测过程中需独立进行分析以评估整个检测流程的有效性。因此,内参的选取需要与待测靶标病原(即数据库中病原)进行区分,以免发生干扰,影响结果判断。
本发明实施例提供一种用于宏基因组病原定量检测的内参序列,该内参序列由计算机软件(如随机序列生成器)随机生成,并且经过生物信息学软件进行序列特异性评估,保证其与病原核酸序列库及人源核酸序列库均不存在交叉序列。对确定后的随机序列进行序列合成并将该序列克隆到特定的质粒载体中,在使用前先经过特异性引物对该内参序列进行扩增富集,将富集产物进行纯化即可作为内参序列用于添加到待测样本中。
在本发明的其他实施例中,使用的内参序列不限于随机生成的核酸序列,也可以是噬菌体、植源性的病原体等非致病病原体且数据库(如病原核酸序列库及人源核酸序列库)之外的病原体或序列。
在本发明的一个实施例中,由于宏基因组方法检测可以同时对样本中的所有核酸进行检测,添加的内参序列也可以同时被检测到,为保证在不同人源核酸背景下内参序列都能被稳定检出,且在总测序数据中不会占据太多数据,本发明根据不同样本类型中人源核酸分布的特性,对不同人源核酸背景下所添加的内参序列的含量进行测试,确定最优添加量。一般而言,内参序列在总测序数据中不超过设定比例,例如10%。
本发明可应用的样本类型不限,可以是脑脊液、血液、痰液、肺泡灌洗液、组织等其他样本类型。
本发明不限于DNA样本检测中的应用,还可应用于RNA检测流程中的核酸含量及病原体浓度计算。
本发明中,病原核酸的种类不做限定,可以是细菌、真菌、病毒等各种病原来源的核酸。在本发明的一个实施例中,病原核酸来源于鲍曼不动杆菌、铜绿假单胞菌、肺炎链球菌、单纯疱疹病毒1型、水痘带状疱疹病毒等。
S120:从添加有内参序列的待测样本中提取核酸,并使用上述核酸进行测序文库构建和上机测序,得到包含内参特异检出序列、病原特异检出序列和人源特异检出序列的测序数据。
本发明,在样本提取前,将内参序列按照确定的添加量进行添加,采用相应核酸提取试剂盒对样本中的核酸进行提取。
然后,对提取的核酸进行文库构建,例如,典型的二代测序文库构建。例如,按照MGISEQ-2000文库构建流程,主要步骤包括:核酸片段化;末端修复及加“A”;接头连接及纯化;文库PCR及纯化;文库环化及DNA纳米球(DNB)制备,最终得到可用于上机测序的文库。上机测序可以根据MGISEQ-2000平台上机操作进行。
S130:从上述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数。
具体而言,测序得到的数据经过数据质控后,按照信息分析流程进行分析,分别统计总测序序列数、内参特异检出序列数及病原特异检出序列数,其中总测序序列数包括人源核酸检出序列数、内参特异检出序列数和病原特异检出序列数。
S140:通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数。
宏基因组测序的原理是对样本中的全部核酸进行检测,即对二代测序文库中的全部核酸片段进行读取。对于临床样本而言,总核酸主要包括人源核酸和病原核酸,其中,人源核酸占绝大部分,要在临床样本中实现对病原核酸的检测,即在总核酸中对其中的病原核酸进行检测。
在本发明的一个实施例中,按照测序文库的平均片段大小为260bp计算,样本中所含的总核酸序列数近似为:
总核酸序列数=(人基因组大小×人源核酸浓度+病原基因组大小×病原核酸浓度)/260。
样本中所含有的病原核酸序列数近似为:
病原核酸序列数=(病原基因组大小×病原核酸浓度)/260。
在确定的测序数据的总量(总测序序列数)下,理论可以检测到的病原序列数可以用如下公式表示:
理论检测病原序列数=(病原基因组大小×病原核酸浓度(拷贝/ml)×总测序序列数×病原特征系数X)/(人基因组大小×人源核酸浓度(拷贝/ml)+病原基因组大小×病原核酸浓度(拷贝/ml))。
其中,病原特征系数X根据靶标病原的不同存在差异,通常是常数,例如,根据靶标病原的不同可以取0.1至10的常数等,在本发明的一个实施例中,病原特征系数X为1。
由于样本中的核酸组分主要来源于人源核酸,因此,上述公式可简化表示为:
理论检测病原序列数=(病原基因组大小×病原核酸浓度(拷贝/ml)×总测序序列数×病原特征系数X)/(人基因组大小×人源核酸浓度(拷贝/ml))。
当检测样本中均添加已知浓度的内参序列进行检测,内参序列可以看作已知浓度和基因组大小的一种病原,根据检测结果,将相应的内参特异检出序列数、内参序列大小及内参浓度代入上面的公式中,可以计算出对应样本中的人源核酸浓度,即公式:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数,可以取值为1。
S150:根据计算的人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
如图2所示,本发明的一个实施例提供一种基于内参进行宏基因组病原定量检测的方法,包括如下步骤:
S210:获取待测样本的测序文库的测序数据,上述待测样本中含有病原核酸序列和人源核酸序列并添加有设定含量的内参序列,上述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列,上述测序数据包括内参特异检出序列、病原特异检出序列和人源特异检出序列;
S220:从上述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;
S230:通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
S240:根据上述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
对应于本发明的基于内参进行宏基因组病原定量检测的方法,本发明还提供一种基于内参进行宏基因组病原定量检测的装置,如图3所示,包括:测序数据获取单元310,用于获取待测样本的测序文库的测序数据,上述待测样本中含有病原核酸序列和人源核酸序列并添加有设定含量的内参序列,上述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列,上述测序数据包括内参特异检出序列、病原特异检出序列和人源特异检出序列;测序数据统计单元320,用于从上述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;人源核酸计算单元330,用于通过如下公式计算出待测样本中人源核酸浓度:内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;病原核酸计算单元340,用于根据上述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明的一种实施例中提供一种计算机可读存储介质,其包括程序,该程序能够被处理器执行以实现如本发明的基于内参进行宏基因组病原定量检测的方法。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明的限制。
实施例1
本实施例以随机生成的特异序列作为内参序列进行分析。
本实施例主要用于展示通过内参序列进行人源核酸含量定量的准确性,采用真实临床样本进行评估,主要流程如下:
1.内参筛选
通过随机序列生成器进行模拟序列生成,产生300-500bp的随机序列,对生成的随机序列通过blast软件进行特异性分析。
首先通过信息分析软件将生成的序列随机切割成35bp的短序列,将短序列与人源序列库及病原序列库通过blast软件进行比对分析,筛选特异性最高的序列,即未比对到人源序列库与病原序列库的序列。最终筛选出特异性的内参序列ICSEQ,共401bp,序列信息如下:
ICSEQ:
CAGTGGCGTGTTCACTCTCTAGCAGGCGCTCGTAGCTTGGAGATTCGCCTTAGTTGTTGCGTTGACCGCGCAAGTTCCTGAATGAGATGCGTAAGAATGGTGTATTGCTCACACTGACCTGGCATCAGTTAGTGGTAAGCATCGCACTTCACAACTCGAGGTATCAACCTCGGCTCTGACTGAGTAACTGCATGAGGTGGCCTCGCATAGTAGTGTCTTAACAGCCTCGATCATATATAGATCGTATATGACGGAGTAGTACGTACTCCGGAATTCACGGCGCCAGGTCGCGTTCTGATGTAGCTGCCATGCCACGAGACTCCATGACGGACAAGTTGACACCAACAGACATGGCTAGCATTAGGCCAAGTCAGTACTTCGTGTGCAGCCGAGCTTAATCA
2.内参序列添加量测试
以脑脊液样本为例,对脑脊液样本中内参序列的添加量进行测试。
首先对待测样本类型中人源核酸含量分布进行分析。选取56例临床脑脊液样本,通过qPCR方法测定样本中的人源核酸含量,评估脑脊液样本中的人源核酸分布范围,检测结果如图4所示,56例脑脊液中人源核酸含量分布在103~107拷贝/ml之间。因此,在进行内参序列的添加量评估时,需满足在不同人源核酸含量的样本中均有稳定检出。
根据56例脑脊液样本中人源核酸的分布特征,分别选取了低(3×103拷贝/ml)、中(105拷贝/ml)、高(107拷贝/ml)浓度人源核酸含量的样本进行内参序列添加量测试,添加不同浓度的内参序列,每组重复测试3次,根据内参检出序列数及内参占比确定最终的内参序列添加量,所有数据均在标准化到20Mreads(2千万条测序序列数)下进行统计,统计结果如下表1所示:
表1
Figure BDA0002482930830000131
根据上述测试结果,在测试浓度范围内,所有样本中均检测到内参序列,当内参序列添加量为1.5×108拷贝/ml时,高浓度人源样本中内参序列检测值较小,且三次重复测试检出差异较大,不符合分析要求;当内参序列添加量为7.5×109拷贝/ml时,低浓度人源样本中内参序列检出值较高,约占总数据的20%以上,造成可利用数据减少,因此不满足分析要求;当内参序列添加量为1.5×109拷贝/ml时,在低、中、高浓度的人源核酸下均有稳定检出,总占比不超过8%,且三个重复样本中检测值波动较小,符合分析要求,因此确认内参序列添加量为1.5×109拷贝/ml。
3.样本添加内参序列提取核酸
选取20例临床脑脊液样本,分别取300微升,按照上述浓度(1.5×109拷贝/ml)加入内参序列,用商业化的核酸提取试剂盒进行核酸提取(推荐使用TIANamp Micro DNA Kit提取试剂盒),提取操作按照试剂盒说明进行,得到样本核酸。
4.二代测序文库构建
将上述提取的核酸按照MGISEQ-2000平台建库试剂盒进行文库构建,具体操作按照试剂盒说明书进行,最终得到二代测序文库。
5.MGISEQ-2000平台上机测序
将质控合格的文库按照MGISEQ-2000上机流程进行上机测序,详细流程参考相应试剂盒操作说明书。
6.下机数据分析
测序完成后的原始数据,按照信息分析流程进行处理,首先进行数据质控、数据拆分,然后对人源序列进行去除,对内参序列进行统计;再将剩余数据分别与细菌序列库、DNA病毒序列库、真菌序列库、寄生虫序列库进行比对,按照设定的比对参数进行数据过滤,最终得到4个病原库去除重复序列的比对结果。
7.提取内参检测值
下机数据分析结果得到的内参检测值进行提取,如下表2所示:
表2
Figure BDA0002482930830000141
Figure BDA0002482930830000151
8.根据宏基因组检测原理公式进行人源核酸含量换算:
根据建立的宏基因组检测原理公式对样本中的人源核酸含量进行计算,以S1样本为例,人源核酸含量计算公式如下:
9826=(401×1.5×109×20,000,000)/(3,000,000,000×人源核酸浓度(拷贝/ml))。
由以上公式得到:人源核酸浓度=4.1×105拷贝/ml。
按上述公式,对20例临床样本中的人源核酸含量进行计算。同时,为评估计算结果的准确性,对20例样本中的人源核酸含量采用qPCR方法进行定量,通过使用江苏宏微特斯生产的“人源管家基因DNA定量检测试剂盒(荧光PCR法)”进行检测,将qPCR定量结果与内参换算结果进行对比,其拟合度达到0.94以上,如图5所示,证明通过本发明方法进行人源核酸含量计算具有较高的准确性。
实施例2
本实施例主要用于展示通过内参序列进行人源核酸含量及病原核酸含量计算的准确性,采用模拟样本进行评估,主要流程如下:
1.选取30例模拟脑脊液样本,分别添加已知浓度的人源细胞及不同类型病原体,按照实施例1中测定的内参序列添加浓度进行添加,进行核酸提取、文库构建、上机测序、数据分析以后,结果如下表3所示:
表3
Figure BDA0002482930830000161
Figure BDA0002482930830000171
2.根据内参检测值按照本发明建立的宏基因组学理论推导公式进行人源核酸含量计算,以S21样本为例,计算方法如下:
62106=(401×1.5×109×20,000,000)/(3,000,000,000×人源核酸浓度(拷贝/ml))。
由以上公式计算得到:人源核酸浓度=6.46×104拷贝/ml,与实际添加的6.6×104拷贝/ml具有较好的一致性。
按照相同的方法对30例样本中的人源核酸含量进行计算,并且将计算得到的人源核酸浓度与实际添加的人源核酸浓度进行对比分析,其拟合度可达到0.93以上,如图6所示。
3.根据上述计算得到的人源核酸浓度进一步对样本中的病原浓度进行计算,将对应病原体的基因组大小,病原检测值,人源核酸计算浓度代入推导公式,以S21为例,计算方法如下:
736=(4149444×病原浓度(拷贝/ml)×20,000,000)/(3,000,000,000×6.46×104)。
根据上述公式,计算得到样本中添加的鲍曼不动杆菌的浓度为1.72×103拷贝/ml,与实际添加浓度2.5×103拷贝/ml具有较好的一致性。
按照相同的方法对30例样本中的病原含量进行计算,并且将计算结果与实际添加结果进行对比分析,发现其拟合度可达到0.94以上,如图7所示,说明本发明中的计算方法具有较好的准确性。
通过以上实施例,证明本发明的方法用于计算人源核酸及病原核酸具有较高的准确性,并且与qPCR定量结果以及已知浓度的样本相比,其拟合度R2均能达到0.93以上。本发明的方法中建立的模型及计算方法均为首次提出,目前无同类模型及相关计算方法报道,因此无相关对比数据。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种基于内参进行宏基因组病原定量检测的方法,其特征在于,所述方法包括:
在含有病原核酸序列和人源核酸序列的待测样本中添加设定含量的内参序列,所述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列;
从添加有内参序列的待测样本中提取核酸,并使用所述核酸进行测序文库构建和上机测序,得到包含内参特异检出序列、病原特异检出序列和人源特异检出序列的测序数据;
从所述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;
通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
根据所述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
2.根据权利要求1所述的方法,其特征在于,所述内参序列在待测样本中的含量,是根据不同样本类型中人源核酸分布的特性而确定的添加量,该添加量保证在不同人源核酸样本背景下内参序列都能被稳定检出,且在总测序数据中不超过设定比例。
3.根据权利要求2所述的方法,其特征在于,所述设定比例为10%。
4.根据权利要求1所述的方法,其特征在于,所述内参序列是首先通过随机序列生成器模拟生成随机序列,然后将生成的随机序列与病原核酸序列库及人源核酸序列库进行比对分析得到的未比对到所述病原核酸序列库及人源核酸序列库的序列。
5.根据权利要求1所述的方法,其特征在于,所述内参特征系数和病原特征系数均为1。
6.一种基于内参进行宏基因组病原定量检测的方法,其特征在于,所述方法包括:
获取待测样本的测序文库的测序数据,所述待测样本中含有病原核酸序列和人源核酸序列并添加有设定含量的内参序列,所述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列,所述测序数据包括内参特异检出序列、病原特异检出序列和人源特异检出序列;
从所述测序数据统计出总测序序列数、内参特异检出序列数和病原特异检出序列数;
通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
根据所述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
7.根据权利要求6所述的方法,其特征在于,所述内参序列在待测样本中的含量,是根据不同样本类型中人源核酸分布的特性而确定的添加量,该添加量保证在不同人源核酸样本背景下内参序列都能被稳定检出,且在总测序数据中不超过设定比例。
8.根据权利要求6所述的方法,其特征在于,所述内参序列是首先通过随机序列生成器模拟生成随机序列,然后将生成的随机序列与病原核酸序列库及人源核酸序列库进行比对分析得到的未比对到所述病原核酸序列库及人源核酸序列库的序列。
9.一种基于内参进行宏基因组病原定量检测的装置,其特征在于,所述装置包括:
测序数据获取单元,用于获取待测样本的测序文库的测序数据,所述待测样本中含有病原核酸序列和人源核酸序列并添加有设定含量的内参序列,所述内参序列与病原核酸序列库及人源核酸序列库均不存在交叉序列,所述测序数据包括内参特异检出序列、病原特异检出序列和人源特异检出序列;
测序数据统计单元,用于从所述测序数据统计总测序序列数、内参特异检出序列数和病原特异检出序列数;
人源核酸计算单元,用于通过如下公式计算出待测样本中人源核酸浓度:
内参特异检出序列数=(内参序列大小×内参浓度×总测序序列数×内参特征系数)/(人基因组大小×人源核酸浓度),其中内参特征系数为一常数;
病原核酸计算单元,用于根据所述人源核酸浓度,通过如下公式计算出待测病原核酸浓度:
待测病原核酸序列数=(待测病原基因组大小×待测病原核酸浓度×总测序序列数×病原特征系数)/(人基因组大小×人源核酸浓度),其中病原特征系数为一常数。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求6至8任一项所述的方法。
CN202010383456.6A 2020-05-08 2020-05-08 基于内参进行宏基因组病原定量检测的方法和装置 Pending CN111607639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383456.6A CN111607639A (zh) 2020-05-08 2020-05-08 基于内参进行宏基因组病原定量检测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383456.6A CN111607639A (zh) 2020-05-08 2020-05-08 基于内参进行宏基因组病原定量检测的方法和装置

Publications (1)

Publication Number Publication Date
CN111607639A true CN111607639A (zh) 2020-09-01

Family

ID=72197757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383456.6A Pending CN111607639A (zh) 2020-05-08 2020-05-08 基于内参进行宏基因组病原定量检测的方法和装置

Country Status (1)

Country Link
CN (1) CN111607639A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112111588A (zh) * 2020-09-22 2020-12-22 中国疾病预防控制中心传染病预防控制所 一种定量16s宏基因组测序方法
CN112662795A (zh) * 2021-01-26 2021-04-16 苏州系统医学研究所 用于感染性病原体检测的阳性对照品及其制备方法与应用
CN112853001A (zh) * 2021-02-06 2021-05-28 浙江树人学院(浙江树人大学) 用于宏基因组测序检测rna病毒的质控品及其应用
CN113265453A (zh) * 2021-05-21 2021-08-17 上海慕柏生物医学科技有限公司 一种全流程质控的菌群高通量测序检测方法及应用
CN113571128A (zh) * 2021-08-05 2021-10-29 深圳华大因源医药科技有限公司 一种用于宏基因组学病原体检测参考阈值建立的方法
CN114107325A (zh) * 2021-10-19 2022-03-01 深圳华大因源医药科技有限公司 宏基因组内参及其制备方法和应用以及宏基因组血流病原体检测方法
CN114317705A (zh) * 2022-03-03 2022-04-12 天津金匙医学科技有限公司 一种采用单标签进行相对定量的mNGS病原检测方法
CN114703266A (zh) * 2022-04-06 2022-07-05 杭州杰毅医学检验实验室有限公司 一种内参、包含有该内参的试剂盒及其应用
CN114891868A (zh) * 2022-05-31 2022-08-12 广州市金圻睿生物科技有限责任公司 一种基于ngs平台的微生物定量方法及试剂盒
CN114921530A (zh) * 2022-05-27 2022-08-19 上海市东方医院(同济大学附属东方医院) 一种基于内参进行血浆微生物游离dna宏基因组定量检测的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101503735A (zh) * 2009-03-05 2009-08-12 上海交通大学 基于dna随机改组技术的扩增内标制备方法
CN105112569A (zh) * 2015-09-14 2015-12-02 中国医学科学院病原生物学研究所 基于宏基因组学的病毒感染检测及鉴定方法
CN108715891A (zh) * 2018-05-31 2018-10-30 福建农林大学 一种转录组数据的表达定量方法及系统
CN109161586A (zh) * 2018-09-29 2019-01-08 曲阜师范大学 一种对rna分子进行绝对定量的高通量测序方法
CN110446788A (zh) * 2017-01-30 2019-11-12 高尔门德尔分子植物生物学研究所有限公司 用于序列数据标准化的新型内参寡核苷酸
CN110724731A (zh) * 2019-11-22 2020-01-24 上海冰缘医疗科技有限公司 一种在多重pcr体系内加入内参定量核酸拷贝数的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101503735A (zh) * 2009-03-05 2009-08-12 上海交通大学 基于dna随机改组技术的扩增内标制备方法
CN105112569A (zh) * 2015-09-14 2015-12-02 中国医学科学院病原生物学研究所 基于宏基因组学的病毒感染检测及鉴定方法
CN110446788A (zh) * 2017-01-30 2019-11-12 高尔门德尔分子植物生物学研究所有限公司 用于序列数据标准化的新型内参寡核苷酸
CN108715891A (zh) * 2018-05-31 2018-10-30 福建农林大学 一种转录组数据的表达定量方法及系统
CN109161586A (zh) * 2018-09-29 2019-01-08 曲阜师范大学 一种对rna分子进行绝对定量的高通量测序方法
CN110724731A (zh) * 2019-11-22 2020-01-24 上海冰缘医疗科技有限公司 一种在多重pcr体系内加入内参定量核酸拷贝数的方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112111588A (zh) * 2020-09-22 2020-12-22 中国疾病预防控制中心传染病预防控制所 一种定量16s宏基因组测序方法
CN112662795B (zh) * 2021-01-26 2023-12-15 苏州系统医学研究所 用于感染性病原体检测的阳性对照品及其制备方法与应用
CN112662795A (zh) * 2021-01-26 2021-04-16 苏州系统医学研究所 用于感染性病原体检测的阳性对照品及其制备方法与应用
CN112853001A (zh) * 2021-02-06 2021-05-28 浙江树人学院(浙江树人大学) 用于宏基因组测序检测rna病毒的质控品及其应用
CN113265453A (zh) * 2021-05-21 2021-08-17 上海慕柏生物医学科技有限公司 一种全流程质控的菌群高通量测序检测方法及应用
CN113571128A (zh) * 2021-08-05 2021-10-29 深圳华大因源医药科技有限公司 一种用于宏基因组学病原体检测参考阈值建立的方法
CN114107325A (zh) * 2021-10-19 2022-03-01 深圳华大因源医药科技有限公司 宏基因组内参及其制备方法和应用以及宏基因组血流病原体检测方法
CN114107325B (zh) * 2021-10-19 2024-03-12 深圳华大因源医药科技有限公司 宏基因组内参及其制备方法和应用以及宏基因组血流病原体检测方法
CN114317705A (zh) * 2022-03-03 2022-04-12 天津金匙医学科技有限公司 一种采用单标签进行相对定量的mNGS病原检测方法
CN114703266B (zh) * 2022-04-06 2024-01-30 杭州杰毅医学检验实验室有限公司 一种内参、包含有该内参的试剂盒及其应用
CN114703266A (zh) * 2022-04-06 2022-07-05 杭州杰毅医学检验实验室有限公司 一种内参、包含有该内参的试剂盒及其应用
CN114921530A (zh) * 2022-05-27 2022-08-19 上海市东方医院(同济大学附属东方医院) 一种基于内参进行血浆微生物游离dna宏基因组定量检测的方法及系统
CN114891868A (zh) * 2022-05-31 2022-08-12 广州市金圻睿生物科技有限责任公司 一种基于ngs平台的微生物定量方法及试剂盒

Similar Documents

Publication Publication Date Title
CN111607639A (zh) 基于内参进行宏基因组病原定量检测的方法和装置
Yeri et al. Evaluation of commercially available small RNASeq library preparation kits using low input RNA
Pas et al. Development of a quantitative real-time detection assay for hepatitis B virus DNA and comparison with two commercial assays
Greninger et al. Metagenomics to assist in the diagnosis of bloodstream infection
CN111187813B (zh) 全流程质控的病原微生物高通量测序检测方法
Liu et al. Multicenter assessment of shotgun metagenomics for pathogen detection
Rozas et al. MinION™ nanopore sequencing of skin microbiome 16S and 16S-23S rRNA gene amplicons
CN113160882A (zh) 一种基于三代测序的病原微生物宏基因组检测方法
Venkataraman et al. Spike-in genomic DNA for validating performance of metagenomics workflows
CN105316418B (zh) 用于检测肉制品中鸭源性成分的特异性引物、探针、试剂盒及其检测方法
CN110875082A (zh) 一种基于靶向扩增测序的微生物检测方法和装置
Hong et al. Quantitative real-time PCR with automated sample preparation for diagnosis and monitoring of cytomegalovirus infection in bone marrow transplant patients
Sam et al. Evaluation of a next-generation sequencing metagenomics assay to detect and quantify DNA viruses in plasma from transplant recipients
Rassoulian Barrett et al. Sensitive identification of bacterial DNA in clinical specimens by broad-range 16S rRNA gene enrichment
Fernandes et al. A reproducible effect size is more useful than an irreproducible hypothesis test to analyze high throughput sequencing datasets
Miller et al. Metagenomic investigation of plasma in individuals with ME/CFS highlights the importance of technical controls to elucidate contamination and batch effects
Zulch et al. Selection and exploitation of prevalent, tandemly repeated genomic targets for improved real-time PCR-based detection of Wuchereria bancrofti and Plasmodium falciparum in mosquitoes
Li et al. Universal human papillomavirus typing by whole genome sequencing following target enrichment: Evaluation of assay reproducibility and limit of detection
Valdes et al. Application of metagenomic sequencing in the diagnosis of infectious uveitis
Duffy et al. Evidentiary evaluation of single cells renders highly informative forensic comparisons across multifarious admixtures
Diao et al. Assessing the quality of metagenomic next-generation sequencing for pathogen detection in lower respiratory infections
CN113571128A (zh) 一种用于宏基因组学病原体检测参考阈值建立的方法
Zhang et al. Quantitative nucleic acid amplification by digital PCR for clinical viral diagnostics
CN116179664A (zh) 基于内参确定微生物的高通量检测方法和系统及试剂盒
Andersen et al. Magnetic hydrogel particles improve nanopore sequencing of SARS-CoV-2 and other respiratory viruses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025757

Country of ref document: HK