CN111944807B - 人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置 - Google Patents
人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置 Download PDFInfo
- Publication number
- CN111944807B CN111944807B CN202010873958.7A CN202010873958A CN111944807B CN 111944807 B CN111944807 B CN 111944807B CN 202010873958 A CN202010873958 A CN 202010873958A CN 111944807 B CN111944807 B CN 111944807B
- Authority
- CN
- China
- Prior art keywords
- maf
- candidate
- value
- sample
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Organic Chemistry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置。其中,该标记物的序列来源于詹氏甲烷球菌Methanococcus jannaschii,且与人类参考基因组序列比对结果无匹配。本发明的人测序样品追踪标记物序列来源于詹氏甲烷球菌Methanococcus jannaschii,且与人类参考基因组序列比对结果无匹配,因此可以更好的起到追踪标记的作用。进一步的,本发明通过追踪标记物和交叉污染模型两方面的双质控体系,最大限度地在增加少量成本和操作基础上,能够灵敏的检测样本是否发生颠倒交换和交叉污染,对样本进行识别和质控,保证测序数据的准确性。
Description
技术领域
本发明涉及生物技术领域,具体而言,涉及一种人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置。
背景技术
二代测序技术(NGS)在双脱氧链终止法(Sanger法)测序的基础上,实现了多通道同时对多个核酸分子进行测序,使测序向着高通量、低成本、高安全性和商业化的方向发展,在分子生物学、临床医学、疾病筛查与检测等方面有着重要应用,为分子水平上的致病基因研究提供了强有力的平台。但同时,二代测序技术需要同时处理大量样本,统一进行标准化文库构建操作,这个过程中不可避免的增加了样本颠倒交换和交叉污染的风险。尽管美国临床病理学会(CAP)发布了防止样本污染的相关文件,并且许多实验室选择对测序结果通过Sanger测序进行二次验证,但仍无法有效解决临床试验样本测序中出现样本污染的问题。
尽管测序过程中出现的样本污染概率有限,且污染物所占比例不高,但医疗数据和样本身份的任何混淆都会对基因研究结果产生巨大影响。有证据表明,使用聚合酶链式反应(PCR)扩增的高通量测序过程中,当测序深度足够时,非常低水平的核酸污染也能够在测序数据中显示出来,在很多临床研究中,即使是非常低水平的污染也会导致研究结论不准确,甚至在临床环境下可能导致患者疾病报告结果出现偏差。例如在对比肿瘤和正常癌症的研究中,很小的污染水平也会导致敏感性降低,从而出现许多假阳性。
因此,除了在样本处理时减少人为操作失误以及增加实验室自动化设施减少样本污染以外,一种可以在测序数据下机后对样本来源进行追踪和判别的质控系统显得尤为重要。
有数据表明,经过系统发育关系的分析后发现,在序列数据库条目中可能存在高达5%的错误,但无法确定该错误的发生原因。因此目前已经采取了各种手段对样本进行质控和监测,以期能够有效控制样本间颠倒交换以及样本间交叉污染问题。
这些手段按照原理主要分为两类,一种是通过生物信息学比对样本信息,以此确定该样本中是否含有其他样本的生物学信息,这种方法能够应对一部分样本的交叉污染问题。在千基因组计划中,通过将序列变异与相应样本的人类基因组单体型图(Haplotypemap图谱)数据库信息进行比较来验证样本身份,并编写生物信息学工具来评估交叉污染水平。单核苷酸多态性(SNPs)在人类样本中是一种独特的生物标签,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNPs在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。利用SNPs位点分析,可以有效区分样本中混有的其他人类样本,并以此为依据开发出新的算法软件。
另一种方法是通过对原始样本进行标记,使该标记能够跟随原始样本整个测序过程一起流转,根据测序数据中检测到的标记信息来确定原始样本,该方法能够在一定程度上应对样本的颠倒交换问题。例如,利用一种独特的附着在引物的5′端寡聚物来标记样本,测试中使用了894个独特的寡核苷酸连接到三对引物(用于扩增三个片段)的5′端以标记894个样本。可以通过调整寡核苷酸长度来标记任意数量的样本。另外,还有通过添加三个独特的大小不等的插入片段标记扩增子的混合物,在测序结束后对固定序列进行检测来监测样品混合和交叉污染情况以及设计大小约200bp的控制序列并将其构建到载体上,接受样品之初进行添加并跟随测序过程流转以达到监控目的等等。
通过生物信息学比对样本信息,以此确定该样本中是否含有其他样本的生物学信息,这种方法操作起来增加了大量工作和成本,并且使得项目周期延长,影响临床医学疾病监测和筛查。此外,这些方法敏感度及灵敏度有一定限制,对于样本颠倒交换的情况无法明确识别,只能够提供已确定的样本的完整情况,无法判别测序数据与原始样本是否对应。
通过对原始样本进行标记,使该标记能够跟随原始样本整个测序过程一起流转,根据测序数据中检测到的标记信息来确定原始样本,这种方法由于大多数标记的制备过程比较繁杂,增加了大量工作,无法大规模应用到测序过程中;且由于测序过程涉及到的步骤较多,流程复杂,对于标记的量无法明确掌控,因此无法根据标记的量的数量关系对样本间交叉污染情况进行准确的判断。
发明内容
本发明旨在提供一种人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置,以提高人测序样品追踪的准确性。
为了实现上述目的,根据本发明的一个方面,提供了一种人测序样品追踪标记物。该标记物的序列来源于詹氏甲烷球菌Methanococcus jannaschii,且与人类参考基因组序列比对结果无匹配。
进一步地,标记物的序列长度为60bp~90bp,优选为80bp。
进一步地,标记物包括多条序列,多条序列之间互不相同。
进一步地,人测序样品追踪标记物采用HPLC纯化得到,且经过Sanger测序验证序列精确度。
根据本发明的另一个方面,提供一种人测序样品交叉污染的监控方法。该监控方法包括以下步骤:向待测样品中加入一种上述人测序样品追踪标记物,对待测样品进行测序,并进行标记物数据分析;根据标记物数据分析监控人测序样品交叉污染的情况。
进一步地,监控方法还包括:根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过交叉污染模型监测人测序样品交叉污染情况。
进一步地,根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过交叉污染模型监测人测序样品交叉污染情况包括:采用人类样本样品的全外显子测序数据进行建模,基于全外显子测序数据的单核苷酸变异分析结果计算每个单核苷酸变异位点的MAF值,取所有覆盖深度在30X~500X的单核苷酸变异位点的MAF值,设定预定的区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线,根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值,根据预设的判定规则估算污染率。
进一步地,预定的区间长度为0.01~0.02,优选为0.01。
进一步地,预设的判定规则包括:若只有1个候选MAF值,当候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则候选MAF值为污染率预估值;若有两个及以上的MAF值时,如果存在候选MAF值是另外一个候选MAF值的2/0.9~2/1.1倍,则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和为0.475~0.525,则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和为0.475~0.525,则该候选MAF值为污染率预估值;当候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值;若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
根据本发明的再一个方面,提供一种人测序样品交叉污染的监控装置。该监控装置包括:样品单元,用于盛放待测样品,待测样品中加入了一种上述人测序样品追踪标记物;测序及分析单元,设置为对待测样品进行测序,并进行标记物数据分析;标记物监控单元,设置为根据标记物数据分析监控人测序样品交叉污染的情况。
进一步地,监控装置还包括:交叉污染模型监控单元,设置为根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过交叉污染模型监测人测序样品交叉污染情况。
进一步地,交叉污染模型监控单元具体设置为:采用人类样本样品的全外显子测序数据进行建模,基于全外显子测序数据的单核苷酸变异分析结果计算每个单核苷酸变异位点的MAF值,取所有覆盖深度在30X~500X的单核苷酸变异位点的MAF值,设定预定的区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线,根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值,根据预设的判定规则估算污染率。
进一步地,预定的区间长度为0.01~0.02,优选为0.01。
进一步地,预设的判定规则包括:若只有1个候选MAF值,当候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则候选MAF值为污染率预估值;若有两个及以上的MAF值时,如果存在候选MAF值是另外一个候选MAF值的2/0.9~2/1.1倍,则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和为0.475~0.525,则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和为0.475~0.525,则该候选MAF值为污染率预估值;当候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值;若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
本发明的人测序样品追踪标记物序列来源于詹氏甲烷球菌Methanococcusjannaschii,且与人类参考基因组序列比对结果无匹配,因此可以更好的起到追踪标记的作用。进一步的,本发明通过追踪标记物和交叉污染模型两方面的双质控体系,最大限度地在增加少量成本和操作基础上,能够灵敏的检测样本是否发生颠倒交换和交叉污染,对样本进行识别和质控,保证测序数据的准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例1中利用标记物和交叉污染模型系统双重质控的流程图;
图2示出了实施例1中标记物的添加及检测流程图;
图3示出了实施例1中交叉污染模型的建立流程及判定逻辑图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
詹氏甲烷球菌(Methanococcus jannaschii)是一种1982年发现的古生菌,主要活动在深度2600m,标准气压2.6×107Pa,高温94℃的环境中,多为海底火山口附近。其基因组是第一个被测序的古细菌基因组。1996年由美国基因组研究所和其他5个单位共40人联合完成了该菌的基因组全测序工作。根据对该菌全基因组序列的分析结果,证实了1977年由伍斯等人提出的三界域学说,即古生菌构成了一个与细菌和真核生物分离的生命域。古细菌由于其极端亲缘性及其与其它两个领域成员的进化关系而引起了人们的极大兴趣。M.jannaschii做为第一个被发现的古细菌更是被广泛关注和研究。由于M.jannaschii的基因组序列与人类基因组序列无相似性,因此本发明选取M.jannaschii的基因组序列中的片段作为标记物片段大小为60bp~90bp,优选的均为80bp,采用直接合成的方法,直接合成80bp的MF/MR单核苷酸链,再将每一对MF/MR单核苷酸链进行混合并稀释,配制成5μM的工作液作为追踪标记物,这些单核苷酸链需满足以下几个条件:
1.确保与人类参考基因组序列比对结果无匹配;
2.确保生成的每条单核苷酸链之间各不相同;
3.采用HPLC进行纯化以避免不规则短链影响追踪的精准度;
4.对合成的单核苷酸链进行Sanger测序验证序列精确度。
根据本发明一种典型的实施方式,在人测序样品接收之初向人测序样品中添加唯一对应的标记物,采用电子监控等方式确保添加过程的准确性,通过电子扫描等方式录入每个人测序样品对应的标记物信息并直接将标记物信息流转至信息分析质控模块。待测序结束后,进行标记物数据分析及过滤,并将分析结果上传。通过追踪标记物对原始样本进行跟踪:根据系统录入的理论追踪标记物和实际追踪标记物序列的对应情况,反映人测序样品颠倒交换情况。
在本发明另一实施方式中,通过大量的前期实验数据,根据人类样本独特的样本标识—SNPs(单核苷酸多态性)等位基因比率建立起交叉污染模型,对样本间交叉污染进行检测。该模型不依赖于任何外部物质的添加,仅根据样本本身测序数据进行分析就可以得出该测序数据中对应一个或多个样本以及比例情况,以此对样本交叉污染情况进行分析,交叉污染模型的检测限为3%。在测试实验中,人为的对样本按照不同比例进行混合后进行测序,通过测试实验数据显示,利用该模型可以有效地检测样本间交叉污染,且对交叉污染比例预测准确性偏差小于2%。
具体的,根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过交叉污染模型监测人测序样品交叉污染情况包括:采用人类样本样品的全外显子测序数据进行建模,基于全外显子测序数据的单核苷酸变异分析结果计算每个单核苷酸变异位点的MAF值,取所有覆盖深度在30X~500X的单核苷酸变异位点的MAF值,设定预定的区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线,根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值,根据预设的判定规则估算污染率。优选的,预定的区间长度为0.01~0.02,优选为0.01。优选的,预设的判定规则包括:若只有1个候选MAF值,当候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则候选MAF值为污染率预估值;若有两个及以上的MAF值时,如果存在候选MAF值是另外一个候选MAF值的2/0.9~2/1.1倍,则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和为0.475~0.525,则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和为0.475~0.525,则该候选MAF值为污染率预估值;当候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值;若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
根据本发明的再一个方面,提供一种人测序样品交叉污染的监控装置。该监控装置包括:样品单元,用于盛放待测样品,待测样品中加入了一种上述人测序样品追踪标记物;测序及分析单元,设置为对待测样品进行测序,并进行标记物数据分析;标记物监控单元,设置为根据标记物数据分析监控人测序样品交叉污染的情况。
优选的,监控装置还包括:交叉污染模型监控单元,设置为根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过交叉污染模型监测人测序样品交叉污染情况。
在本发明一实施方式中,交叉污染模型监控单元具体设置为:采用人类样本样品的全外显子测序数据进行建模,基于全外显子测序数据的单核苷酸变异分析结果计算每个单核苷酸变异位点的MAF值,取所有覆盖深度在30X~500X的单核苷酸变异位点的MAF值,设定预定的区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线,根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值,根据预设的判定规则估算污染率。优选的,预定的区间长度为0.01。优选的,预设的判定规则包括:若只有1个候选MAF值,当候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则候选MAF值为污染率预估值;若有两个及以上的MAF值时,如果存在候选MAF值是另外一个候选MAF值的2/0.9~2/1.1倍,则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和为0.475~0.525,则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和为0.475~0.525,则该候选MAF值为污染率预估值;当候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值;若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
应用本发明的技术方案利用样本追踪标记系统&交叉污染模型双质控系统,能够实现在测序结果下机后立即自动启动追踪标记物结果分析和交叉污染模型分析并上传报告,通过系统对这两方面的报告结果进行综合判定后自动回传样本污染情况,以期通过追踪标记系统和交叉污染模型相结合的样本双质控系统,有效解决样本污染问题,为精准医疗疾病监测等领域提供更准确的测序数据。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
标记物实施例
选取詹氏甲烷球菌基因组序列中的80bp序列,需与人类基因组序列无相似性,合成后采用HPLC纯化,实例性标记物如下表1:
表1
将合成的正向链和反向链按照1:1比例混合稀释后,获得可用于后续实验的标记物。
选取人的DNA样本、人血液样本以及人口腔拭子样本,血液、口腔拭子样本在提取分样后加入一定量的标记物,核酸样本直接添加,未添加标记物的样本作为对照组,构建人外显子文库并测序,检测下机数据中是否有添加的标记物序列以及标记物序列与样本序列reads的比例关系;并搭建流程自动判定样本信息与序列信息是否匹配。每组两个技术重复。可根据多轮实验确定标记物适用范围及添加量。
交叉污染模型实施例:
从已完成的全外显子测序样本中选取两个测序质量较好且DNA库存充足的样本。样本1为男性样本,样本2为女性样本,两个样本调整到相同的DNA浓度,按1%、3%、5%、10%、15%、25%、50%比例混合,分别为样本1对样本2污染和样本2对样本1污染,进行WES建库,保存测序数据建模,具体方法如下:
1、基于WES的SNV(single-nucleotide variant,单核苷酸多态性)分析结果的vcf文件,计算每个SNV位点的MAF(Major Allele Fraction)值;
2、取所有覆盖深度在30X~500X的SNV位点的MAF值,以0.01为区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线;
3、根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值(一般会有2-5个峰值);
4、根据候选基因估算污染率,规则如下:
I)若只有1个候选MAF值,当候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则候选MAF值为污染率预估值;
II)有两个及以上的MAF值时:如果存在候选MAF值是另外一个候选MAF值的两倍左右(2/0.9~2/1.1),则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和接近0.5(0.475~0.525),则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和接近0.5(0.475~0.525),则该候选MAF值为污染率预估值;
III)候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值。
IV)若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
操作步骤参见图1、图2和图3:
标记物操作步骤参见图2,根据样本类型,在不同的实验节点添加已合成制备好的标记物,正常进行后续实验构建文库,待测序结束后检测标记物并过滤;其中组织类样本可在样本分出单次提取组织量后添加标记物,核酸样本可直接添加,在数据测序结束后增加一步标记物检测及过滤流程,为Lims系统标记物质控报告提供数据来源。
交叉污染模型操作步骤见图3,根据上述流程及参数建立交叉污染模型,该模型可针对人外显子文库的所有人类样本,无需增加任何实验操作或试剂;将样本测序后的VCF文件录入指定可进行模型分析的集群后,可自动输出交叉污染模型结果并回传至Lims系统;
标记物与交叉污染模型双重质控流程图参见图1,其中Lims系统回传2份质控报告,并根据两份结果综合判定出最终的判定结果,如结果异常将自动停止数据路径并反馈排查,如结果正常/排查后无误再交付数据。
结果见表2~表4所示。
表2标记物实施例结果
表3交叉污染模型结果
表4测试期间汇总结果
从表2的结果可以看出:
该方法可适用于WES建库,即可以从下机数据中检测到标记物序列;
适用于从组织/核酸样本开始添加,即可从下机数据中检测到标记物序列;
默认1G数据量条件下,标记物检出reads数在100-1000条最优,根据此规则,初步确定组织类样本的标记物的加入量及DNA样本标记物添加量。
从表4结果可以看出:
该模型可以有效预测样本交叉污染情况,预测偏差小于2%;
根据测试期间的695个样本数据显示,测试期间能够有效检测标记物,且根据模型验证结果显示,这些样本均未发生颠倒交换/交叉污染。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
本发明不需要提供对照样本,所有分析流程只针对送样样本本身;
本发明可同时针对人类组织样本和人类DNA样本;
本发明可根据样本标记物信息准确定位至污染源;
本发明对样本本身信息不存在任何负面影响,且操作简单,成本低;
本发明标记物的制备过程简单,无需进行PCR等过程;
本发明检测灵敏度高,检测最低限可在3%,能有效检测交叉污染情况。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
序列表
<110> 天津诺禾医学检验所有限公司
<120> 人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置
<130> PN133527TJNH
<160> 2
<170> SIPOSequenceListing 1.0
<210> 1
<211> 80
<212> DNA
<213> Methanococcus jannaschii
<400> 1
gctgcaaaga caactgcgaa tttctctcct tctcctctaa cctttgcctg tcttgcaatc 60
tgtgcagcta actggttgtg 80
<210> 2
<211> 80
<212> DNA
<213> Methanococcus jannaschii
<400> 2
cacaaccagt tagctgcaca gattgcaaga caggcaaagg ttagaggaga aggagagaaa 60
ttcgcagttg tctttgcagc 80
Claims (10)
1.一种人测序样品交叉污染的监控方法,其特征在于,包括以下步骤:
向待测样品中加入人测序样品追踪标记物,所述标记物的序列来源于詹氏甲烷球菌Methanococcus jannaschii,且与人类参考基因组序列比对结果无匹配;所述标记物的序列长度为60bp~90bp;所述标记物包括多条序列,多条所述序列之间互不相同;
对所述待测样品进行测序,并进行标记物数据分析;
根据所述标记物数据分析监控人测序样品交叉污染的情况;
所述监控方法还包括:根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过所述交叉污染模型监测人测序样品交叉污染情况;
所述根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过所述交叉污染模型监测人测序样品交叉污染情况包括:
采用人类样本样品的全外显子测序数据进行建模,基于全外显子测序数据的单核苷酸变异分析结果计算每个单核苷酸变异位点的MAF值,取所有覆盖深度在30X~500X的单核苷酸变异位点的MAF值,设定预定的区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线,根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值,根据预设的判定规则估算污染率;
所述预设的判定规则包括:
若只有1个候选MAF值,当所述候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则所述候选MAF值为污染率预估值;
若有两个及以上的MAF值时,如果存在候选MAF值是另外一个候选MAF值的2/0.9~2/1.1倍,则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和为0.475~0.525,则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和为0.475~0.525,则该候选MAF值为污染率预估值;
当候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值;
若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
2.根据权利要求1所述的监控方法,其特征在于,所述预定的区间长度为0.01~0.02。
3.根据权利要求2所述的监控方法,其特征在于,所述预定的区间长度为0.01。
4.根据权利要求1所述的监控方法,其特征在于,所述标记物的序列长度为80bp。
5.根据权利要求1所述的监控方法,其特征在于,所述人测序样品追踪标记物采用HPLC纯化得到,且经过Sanger测序验证序列精确度。
6.一种人测序样品交叉污染的监控装置,其特征在于,包括:
样品单元,用于盛放待测样品,所述待测样品中加入人测序样品追踪标记物,所述标记物的序列来源于詹氏甲烷球菌Methanococcus jannaschii,且与人类参考基因组序列比对结果无匹配;所述标记物的序列长度为60bp~90bp;所述标记物包括多条序列,多条所述序列之间互不相同;
测序及分析单元,设置为对所述待测样品进行测序,并进行标记物数据分析;
标记物监控单元,设置为根据所述标记物数据分析监控人测序样品交叉污染的情况;
所述监控装置还包括:交叉污染模型监控单元,设置为根据人类单核苷酸多态性的等位基因比率建立交叉污染模型,并通过所述交叉污染模型监测人测序样品交叉污染情况;
所述交叉污染模型监控单元具体设置为:
采用人类样本样品的全外显子测序数据进行建模,基于全外显子测序数据的单核苷酸变异分析结果计算每个单核苷酸变异位点的MAF值,取所有覆盖深度在30X~500X的单核苷酸变异位点的MAF值,设定预定的区间长度,统计每个取值区间的频率,绘制MAF的密度分布曲线,根据MAF的密度分布图,确定曲线峰值对应的横坐标,即候选的MAF值,根据预设的判定规则估算污染率;
所述预设的判定规则包括:
若只有1个候选MAF值,当所述候选MAF值小于0.25时,两倍候选MAF值为污染率估算值,否则所述候选MAF值为污染率预估值;
若有两个及以上的MAF值时,如果存在候选MAF值是另外一个候选MAF值的2/0.9~2/1.1倍,则该候选MAF值为污染率预估值;如果存在两个候选MAF值之和为0.475~0.525,则较小的候选MAF值的两倍为污染率预估值;如果存在一个候选MAF值的一半与另外一个候选MAF值之和为0.475~0.525,则该候选MAF值为污染率预估值;
当候选MAF值不符合以上两种情况时:若最大的候选MAF值大于0.45则将其取出,剩余的候选MAF取出最大值,若最大值小于0.25,则它的两倍是污染率预估值,否则它本身为污染率预估值;
若污染率预估值大于0.03则认为是交叉污染样品,否则为正常样品。
7.根据权利要求6所述的监控装置,其特征在于,所述预定的区间长度为0.01~0.02。
8.根据权利要求7所述的监控装置,其特征在于,所述预定的区间长度为0.01。
9.根据权利要求6所述的监控装置,其特征在于,所述标记物的序列长度为80bp。
10.根据权利要求6所述的监控装置,其特征在于,所述人测序样品追踪标记物采用HPLC纯化得到,且经过Sanger测序验证序列精确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873958.7A CN111944807B (zh) | 2020-08-26 | 2020-08-26 | 人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873958.7A CN111944807B (zh) | 2020-08-26 | 2020-08-26 | 人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111944807A CN111944807A (zh) | 2020-11-17 |
CN111944807B true CN111944807B (zh) | 2022-09-09 |
Family
ID=73366506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010873958.7A Active CN111944807B (zh) | 2020-08-26 | 2020-08-26 | 人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111944807B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113151428A (zh) * | 2021-04-23 | 2021-07-23 | 上海宝藤生物医药科技股份有限公司 | 一种检测文库构建过程中样本混淆的方法和装置 |
CN115717163B (zh) * | 2022-10-27 | 2023-10-27 | 迈杰转化医学研究(苏州)有限公司 | 一种用于监控及纠正测序污染的分子编码检测体系及其应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109628568A (zh) * | 2019-01-10 | 2019-04-16 | 上海境象生物科技有限公司 | 一种用于判别和校准高通量测序污染的内标及其应用 |
CN111304309A (zh) * | 2020-03-06 | 2020-06-19 | 上海韦翰斯生物医药科技有限公司 | 一种测序平台标签序列污染的检测方法 |
CN111370065B (zh) * | 2020-03-26 | 2022-10-04 | 北京吉因加医学检验实验室有限公司 | 一种检测rna跨样本交叉污染率的方法和装置 |
-
2020
- 2020-08-26 CN CN202010873958.7A patent/CN111944807B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111944807A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tucker et al. | Massively parallel sequencing: the next big thing in genetic medicine | |
AU2013246050B2 (en) | Detection and quantitation of sample contamination in immune repertoire analysis | |
CN103874767B (zh) | 对核酸样本中预定区域进行基因分型的方法和系统 | |
US9394567B2 (en) | Detection and quantification of sample contamination in immune repertoire analysis | |
JP6240210B2 (ja) | 標的シーケンシングリードの正確かつ迅速なマッピング | |
US20140127688A1 (en) | Methods and systems for identifying contamination in samples | |
CN109022579B (zh) | 染色体1p/19q杂合性缺失的检测方法、试剂盒及引物组 | |
CN107002121A (zh) | 用于分析核酸测序数据的方法和系统 | |
CN111944807B (zh) | 人测序样品追踪标记物、人测序样品交叉污染的监控方法及监控装置 | |
CN111052249B (zh) | 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 | |
JP2023109998A (ja) | マイクロサテライト不安定性の検出 | |
CN113450871A (zh) | 基于低深度测序的鉴定样本同一性的方法 | |
CN113862384B (zh) | 一种土拉弗朗西斯菌的mnp标记位点、引物组合物、试剂盒及应用 | |
Yi et al. | Unravelling the enigma of the human microbiome: Evolution and selection of sequencing technologies | |
Hollox et al. | DNA copy number analysis by MAPH: molecular diagnostic applications | |
US20220235397A1 (en) | Barcoded molecular standards | |
CN115216539A (zh) | 一种母体细胞污染检测试剂盒及其应用 | |
CN117757979B (zh) | 一种用于鉴定大豆品种的引物组、试剂盒及鉴定方法 | |
CN114790493B (zh) | 一种单纯疱疹病毒的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN114836574B (zh) | 一种流行性腮腺炎病毒的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN115029479B (zh) | 一种寨卡病毒的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN115029452B (zh) | 一种军团菌属的mnp标记位点、引物组合物、试剂盒及其应用 | |
Mehta | Genotyping Tools for Forensic DNA Phenotyping: From Low-to High-throughput | |
CN115044703B (zh) | 一种人冠状病毒HCoV-OC43的MNP标记位点、引物组合物、试剂盒及其应用 | |
Groß | Development of novel SNP panels for the application of massively parallel sequencing to forensic genetics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |