CN110970091B - 标签质控的方法及装置 - Google Patents

标签质控的方法及装置 Download PDF

Info

Publication number
CN110970091B
CN110970091B CN201911329736.2A CN201911329736A CN110970091B CN 110970091 B CN110970091 B CN 110970091B CN 201911329736 A CN201911329736 A CN 201911329736A CN 110970091 B CN110970091 B CN 110970091B
Authority
CN
China
Prior art keywords
sequence
tag
tags
sequencing
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911329736.2A
Other languages
English (en)
Other versions
CN110970091A (zh
Inventor
孙广欣
王冬
石露
李占宇
杨飘
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN201911329736.2A priority Critical patent/CN110970091B/zh
Publication of CN110970091A publication Critical patent/CN110970091A/zh
Application granted granted Critical
Publication of CN110970091B publication Critical patent/CN110970091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供了一种标签质控的方法及装置。该方法包括:对M个已知序列构建M个文库,每个文库中含有一种或多种标签,每个已知序列与每种标签形成一个已知标签‑序列组合,M个文库共N种标签,任意两个或两个以上的文库中最多含有1种相同的标签,其中,M和N为自然数,M≤N;将M个文库置于同一个泳道进行测序,得到测序原始数据;通过分析测序原始数据中是否存在与已知标签‑序列组合不符的标签‑序列组合来判断N种标签中是否存在污染。该方法构建文库数量少,质控的标签数量多,成本低,且能发现标签低频交叉污染。

Description

标签质控的方法及装置
技术领域
本发明涉及高通量测序技术领域,具体而言,涉及一种标签质控的方法及装置。
背景技术
DNA测序技术,发展至今有四十多年,从1977年第一代DNA测序技术(Sanger法),到如今的第三代乃至第四代测序技术研究,读长从长到短,再从短到长,测序技术已取得了飞跃式发展。就当前技术而言,第二代测序技术在全球测序市场上仍然占有着绝对的优势位置,第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。
概括来讲,第一代测序技术的主要特点是测序读长长,可达1000bp,准确性高达99.999%,但其测序成本高,通量低,每个毛细通道只能检测1个样本(文库),严重影响了其真正大规模的应用,因此一代测序技术并不是最理想的测序方法。经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,第一个人类基因组的测序完成,耗时3年时间,使用二代测序技术现在用时不到2天即可;但在序列读长方面比起第一代测序技术则要短很多。
下面对占据市场份额较大的两个二代测序厂家设备的测序通量进行简要说明:
1)美国illumina公司
作为二代测序市场份额占比最高的公司,其测序仪器保持不断升级,通量不断提高,以适应不同通量的客户需求,常见机型通量统计见图1。
2)中国华大基因BGI
华大基因作为唯一国内批量生产测序仪的企业,也推出高性能测序设备。测序通量和技术走在了世界前列。最新的T7通量和速度与illumina Novaseq 6000不分上下,常见机型通量统计见下图2。
测序平台的更新升级,使得测序通量大幅度提高,成本下降,每个run(单次上机测序反应,1次run最多可同时上样8条lane)6000G的高效率数据产出,为测序技术应用到临床奠定了技术和经济基础。在临床测序应用中,应用最多的还是针对某个基因或某些基因进行高覆盖度测序,在覆盖深度高达1000x的要求下,单个受检者所需的数据量也在10G左右,综合现有测序平测序能力,平均每个run可以满足约500人的检测需求。小通量测序仪器,也可以满足约1-10个人的检测续期。
而在实际检测中,测序仪若不能满负荷运转,就会造成一定比例的数据空闲浪费,造成巨大经济损失。因此,需要尽可能将多个临床样本混合在一起测序。混合后的样本根据特定序列标签(index,标签,在Solexa多重测序过程中,会使用index来区分样品,并在测序完成后,针对Index部分额外进行7个循环的测序,通过Index的识别,可以在1条lane中区分多种不同的样品)并进行数据的拆分、加以区别。因临床测序标本均为人类样本,基因组之间的差异微小,若标签存在轻微污染/混淆,很难从数据中发现或者处理,造成检测结果失真。因此,标签即成为区分样本的唯一来源。
例如,假设检测中存在阴性和阳性样本同批次上机测序,若有index污染,情况一:阳性样本高数据量20G(a)和阴性样本低数据量2G(b)同时上机情况,发生index污染,容易造成假阳性的结果(即a污染了b);情况二:阴性样本高数据量20G(c),阳性样本低数据量2G(d),造成假阴性的结果(即c污染了d);因此index标签作为测序中区分样本的唯一方法,对其质量的要求极高,对其质控的手段和方法,就变更为重要和关键。
目前二代测序的接头序列(index序列,在合成接头序列时一起合成于一条序列上)生产工艺大致为,在引物合成公司合成特定的引物Oligo单链核酸序列,将对应的两条核酸序列进行退火,形成文库构建过程中可用的Y型接头或者U型接头或者发卡型接头。在引物合成过程中,因合成公司合成的工艺、纯化方式甚至分装均有差异,造成单链Oligo核酸合成品质参差不齐,而合成公司出厂检测,大部分采用质谱检测合成分子量,采用Sanger测序测合成序列,保证序列的准确性;而Sanger测序检测污染含量较低的index情况时,受到测序技术的局限性,背景峰和index污染情况表现类似,很难检测出index污染的来源和比例,检测技术需要进一步完善和优化。
若采用二代测序对index进行质控,简单的设计实现思路需要采用单个lane(表示测序芯片上的一条流通槽或一条泳道,每条泳道可以直接物理区分测序样品。上机前对不同的样品进行index标记的话,每条lane可以运行多个样品)进行单一index测序,以保证不影响其他测序文库的数据。若有96个index则需要进行96个lane,所付出的测序成本过高,对于企事业单位难以适用。类似的专利有报道采用双端index质控,即将I5和I7两个单向的单链Oligo按照人为组合,退火配对质控,确定单链的DNA污染情况。后期应用时,需要将I5和I7合并退火,且在合并的过程中,仍存在着污染风险,后期的进一步质检则成为了盲区,且此方法投入的工作量较大。
综上可知,质谱检测,只能检测分子量,不能保证合成碱基的准确性;而一代sanger测序,验证碱基准确性,可以实现大部分序列合成准确,但很难发现低频率污染现象;通过二代测序法,利用单链index Oligo序列检测,使用前仍然需要再进一步退火处理,在这个过程中仍然存在着污染可能;且整体的检测过程操作繁琐,工作量大,成本高。
发明内容
本发明的主要目的在于提供一种标签质控的方法及装置,以解决现有技术中对标签难以实现准确质控的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种标签的质控方法,该方法包括:对M个已知序列构建M个文库,每个文库中含有一种或多种标签,每个已知序列与每种标签形成一个已知标签-序列组合,M个文库共N种标签,任意两个或两个以上的文库中最多含有1种相同的标签,其中,M和N为自然数,M≤N;将M个文库置于同一个lane进行测序,得到测序原始数据;通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种标签中是否存在污染。
进一步地,M个文库为N种标签所能构建的最少数量的文库;优选地,M<N且N≥7时,利用N种标签构建最少数量的文库的步骤包括:M=2K+1,K=roundup
Figure BDA0002329267210000031
根据/>
Figure BDA0002329267210000032
是否为整数,将N种标签和M个文库按照如下矩阵对各标签与各已知序列进行组合,并按照先自上而下,再从左到右的原则在各矩阵中排布:(1)/>
Figure BDA0002329267210000033
为整数,则构建行数为K+1,列数为K的第1-1矩阵,以及行数为K,列数为K的第1-2矩阵;(2)/>
Figure BDA0002329267210000034
为非整数,则构建行数为K+1,列数为K-1的第2-1矩阵,以及行数为K,列数为K的第2-2矩阵;其中,每一行代表一条已知序列对应的文库,列数表示每一行的已知序列对应的文库中所混合的多种的标签。
进一步地,N=48,按照表1所示矩阵排布48种标签,M最少,且M=15:优选地,N=96,按照表2所示矩阵排布96种标签,M的数量最少,且M=21;优选地,M为23,N为96,标签-序列组合表3所示。
进一步地,通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种标签中是否存在污染包括:从测序原始数据中筛选测序reads数满足预设阈值的数据,得到第一筛选数据;从第一筛选数据中去除符合已知标签-序列组合的数据,得到第二筛选数据;查找第二筛选数据中是否存在不符合已知标签-序列组合的异常标签-序列组合,如有,则N种标签中存在污染。
进一步地,在确定N种标签中存在污染的情况下,方法还包括:确定N种标签中的污染源标签;优选地,确定N种标签中的污染源标签的步骤包括:将异常标签-序列组合中对应的标签确定为污染源标签。
进一步地,在确定污染源标签之后,方法还包括确定被污染标签;优选地,确定被污染标签的步骤包括:根据两组或多组异常标签-序列组合中的序列的不同,分别记录污染源标签在两组或多组中的对应序列;根据污染源标签在两组或多组中的对应序列,查找两组或多组中的对应序列所共同含有的标签,共同含有的标签即为被污染标签。
进一步地,在确定被污染标签之后,方法还包括:分析污染比例;优选地,分析污染比例的步骤包括:统计污染源标签对应的reads数,记为第一reads数,统计被污染标签对应的reads数,记为第二reads数,将第一reads数与第二reads数的比值记为污染比例。
根据本申请的第二个方面,提供了一种标签的质控装置,该装置包括:预设组合模块、预设组合模块及污染判断模块,预设组合模块,用于对M个已知序列构建M个文库,每个文库中含有一种或多种标签,每个已知序列与每种标签形成一个已知标签-序列组合,M个文库共N种标签,任意两个或两个以上的文库中最多含有1种相同的标签,其中,M和N为自然数,M≤N;测序模块,用于将M个文库置于同一个lane进行测序,得到测序原始数据;污染判断模块,用于通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种标签中是否存在污染。
进一步地,预设组合模块以最少文库为原则;优选地,M<N且N≥7时,预设组合模块按如下原则进行组合:M=2K+1,K=roundup
Figure BDA0002329267210000041
根据/>
Figure BDA0002329267210000042
是否为整数,将N种标签和M个文库按照如下矩阵对各标签与各已知序列进行组合,并按照先自上而下,再从左到右的原则在各矩阵中排布:(1)/>
Figure BDA0002329267210000043
为整数,则构建行数为K+1,列数为K的第1-1矩阵,以及行数为K,列数为K的第1-2矩阵;(2)/>
Figure BDA0002329267210000044
为非整数,则构建行数为K+1,列数为K-1的第2-1矩阵,以及行数为K,列数为K的第2-2矩阵;其中,每一行代表一条已知序列对应的文库,列数表示每一行的已知序列对应的文库中所混合的多种的标签;优选地,预设组合模块按表1、表2或表3所示矩阵进行组合。
进一步地,污染判断模块包括:第一筛选模块,用于从测序原始数据中筛选测序reads数满足预设阈值的数据,得到第一筛选数据;第二筛选模块,用于从第一筛选数据中去除符合已知标签-序列组合的数据,得到第二筛选数据;查找判断模块,用于查找第二筛选数据中是否存在不符合已知标签-序列组合的异常标签-序列组合,如有,则N种标签中存在污染。
进一步地,装置还包括:污染源标签确定模块,污染源标签确定模块用于将异常标签-序列组合中对应的标签确定为污染源标签。
进一步地,装置还包括被污染标签确定模块,被污染标签确定模块包括:异常序列查找模块,用于根据两组或多组异常标签-序列组合中的序列的不同,分别记录污染源标签在两组或多组中的对应序列;共有标签查找模块,用于根据污染源标签在两组或多组中的对应序列,查找两组或多组中的对应序列所共同含有的标签,共同含有的标签即为被污染标签。
进一步地,装置还包括:污染比例分析模块,污染比例分析模块包括:第一统计模块,用于统计污染源标签对应的reads数,记为第一reads数;第二统计模块,用于统计被污染标签对应的reads数,记为第二reads数;比例计算模块,用于将第一reads数与第二reads数的比值记为污染比例。
根据本申请的第三个方面,提供了一种存储介质,存储介质上存储有计算机可执行的程序,程序被设置为运行时,执行上述任一种标签质控的方法。
根据本申请的第四个方面,提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一种标签质控的方法。
应用本发明的技术方案,通过利用较少的文库数量(M个)对较多的标签(N个)进行质检,通过在一个文库中混合带有1个或多个标签的样品,每个样品都带有同一条序列,这样通过已知序列与多个标签形成多个已知的标签-序列组合,然后通过对测序下机原始数据进行分析,即可找出是否存在不符合已知的标签-序列组合的其他新组合,若有可表明存在污染,从而便于对标签的污染情况进行质控。该质控方法采用单端标签构建文库,且所用文库数量较一个文库对应一个标签来说,文库构建数量少,质控的标签数量相对较多,整体质控检测成本低。该方法简化了二代测序标签质检的工作量,而且能够发现标签质检的低频交叉污染(污染频率在0.5%至0.05%)。为标签的质控,提供可靠了的检测方法。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了现有技术中Illumina测序仪器通量产出示意图;
图2示出了现有技术中BGI测序仪器通量产出示意图;
图3示出了本申请实施例1所提供的标签质检的方法流程示意图;
图4示出了本申请实施例2所提供的标签质检的装置结构示意图;
图5示出了本申请实施例3中的序列1-12的扩增富集产物的电泳检测结果图;以及
图6、图7和图8分别示出了本申请实施例3中的序列3、13和23的文库质检峰图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
术语解释:
Index:二代测序中,以区别样本为目的而特殊设计的oligo核苷酸序列,又称标签。
Reads:二代测序中,测序仪所测得的DNA序列,每条序列定义为一个read,多条read,即为reads。
Reads数:本申请中,指对应的序列-index组合所生成的分子数量。
实施例1
如背景技术所提到的,现有方法难以对文库混样测序时所使用的index是否存在污染进行质控,为了改善这一状况,本申请的申请人对现有方法进行了改进。在一种优选的实施例中,提供了一种标签质控的方法,如图3所示,该方法包括:
步骤S101,对M个已知序列构建M个文库,每个文库中含有一种或多种标签,每个已知序列与每种标签形成一个已知标签-序列组合,M个文库共N种标签,任意两个或两个以上的文库中最多含有1种相同的标签,其中,M和N为自然数,M≤N;
步骤S102,将M个文库置于同一个泳道进行测序,得到测序原始数据;
步骤S103,通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种标签中是否存在污染。
上述质控方法,通过利用较少的文库数量(M个)对较多的标签(N个)进行质检,通过在一个文库中混合带有1个或多个标签的样品,每个样品都带有同一条序列,这样通过已知序列与多个标签形成多个已知的标签-序列组合,然后通过对测序下机原始数据进行分析,即可找出是否存在不符合已知的标签-序列组合的其他新组合,若有可表明存在污染,从而便于对标签的污染情况进行质控。该质控方法采用单端标签构建文库,且所用文库数量较一个文库对应一个标签来说,文库构建数量少,质控的标签数量相对较多,整体质控检测成本低。该方法简化了二代测序标签质检的工作量,而且能够发现标签质检的低频交叉污染(污染频率在0.5%至0.05%)。为标签的质控,提供可靠了的检测方法。
上述M个文库可以是少于N个标签的数量,为了进一步减少构建的混样文库的数量,简化质检工作量,在本申请一种优选的实施例中,M个文库为N种标签所能构建的最少数量的文库。在上述发明构思下,可以构建出能够涵盖N种标签的最少数量的M种文库。
对于待检测的标签数量较少时,比如1~6种中的任意多种,又比如2种、3种、4种、5种或6种时,通过一个标签对应一个文库,这样质控效率可能更高。当标签数量增多时,多于7种,达到十几种、几十种、甚至上百种时,采用本申请的方法进行质控更能体现其优越性。
为方便操作者使用,将文库与标签的排布总设计构思分为两部分,N份标签的优先布局原则为先自上而下,再从左到右,每部分均应按照此原则排布完N份标签。参考下面两种情况进行设计,可实现最小文库构建数量:
(1)
Figure BDA0002329267210000061
整开方时:
部分一:行数:K+1;列数:K列。
部分二:行数:K;列数:K列。
检测布局设计构思为:行数:2K+1;列数:K。
(2)
Figure BDA0002329267210000071
非整开方时:
部分一:行数:K+1;列数:K-1。
部分二:行数:K;列数:K。
检测布局设计构思为:行数:2K+1;列数:K。
需要说明的是,上述(1)
Figure BDA0002329267210000072
整开方时,K即为/>
Figure BDA0002329267210000073
整开方的数值;(2)/>
Figure BDA0002329267210000074
非整开方时,K为/>
Figure BDA0002329267210000075
向上所取的最小整数。
因此,在一种优选的实施例中,M<N且N≥7时,利用N种index构建最少数量的文库的步骤包括:M=2K+1,K=roundup
Figure BDA0002329267210000076
根据/>
Figure BDA0002329267210000077
是否为整数,将N种标签和M个文库按照如下矩阵对各标签与各已知序列进行组合:
(1)
Figure BDA0002329267210000078
为整数,则构建行数为K+1,列数为K的第1-1矩阵,以及行数为K,列数为K的第1-2矩阵;
(2)
Figure BDA0002329267210000079
为非整数,则构建行数为K+1,列数为K-1的第2-1矩阵,以及行数为K,列数为K的第2-2矩阵;
其中,每一行代表一条已知序列对应的文库,列数表示每一行的已知序列对应的文库中所混合的多种的标签,按照先自上而下,再从左到右的原则在各矩阵中排布N种标签。
在一优选的实施例中,N=48,按照如下表1所示矩阵排布48种标签,M最少,且M=15:
表1:
Figure BDA00023292672100000710
Figure BDA0002329267210000081
在另一优选的实施例中,N=96,按照如下表2所示矩阵排布96种标签,M的数量最少,且M=21,
表2:
Figure BDA0002329267210000082
在另一优选的实施例中,M为23,N为96,标签-序列组合如下表3所示(表3中的96种标签的编号可以连续,也可以不连续,此处示例的为任意测序平台适用的96种编号不连续标签):
表3:
Figure BDA0002329267210000083
Figure BDA0002329267210000091
如前述,由于每一个混样的文库中标签与序列的组合都是已知的,因此通过对下机数据进行筛选比较,只要发现有不同于已知的标签-序列组合的新组合出现,则意味着存在标签污染。在一种优选的实施例中,通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种标签中是否存在污染包括:从测序原始数据中筛选测序reads数满足预设阈值的数据,得到第一筛选数据;从第一筛选数据中去除符合已知标签-序列组合的数据,得到第二筛选数据;查找第二筛选数据中是否存在符合已知标签-序列组合的异常标签-序列组合,如有,则N种标签中存在污染。
由于测序技术系统原因,在测序结果中会出现原因不明的一定数量的reads,业内通常定义为测序背景,不记为污染现象。因此,上述优选实施例中,从测序原始数据中筛选测序reads数满足预设阈值的数据中的预设阈值是为了去除PCR扩增或测序扩增产生的噪音数据,以排除噪音干扰(比如,如表12所示,去除reads数300或者500以下的等),这样对污染的判断结果更准确。
在上述方法已经能够判断是否存在标签污染的情况下,为了进一步弄清楚发生异常组合中,是哪个标签污染哪个标签。在一种优选的实施例中,在确定N种标签中存在污染的情况下,方法还包括:确定N种标签中的污染源标签。
在一种优选的实施例中,确定N种标签中的污染源标签的步骤包括:将异常标签-序列组合中对应的标签确定为污染源标签。
在一种优选的实施例中,在确定污染源标签之后,方法还包括确定被污染标签。
在一种优选的实施例中,确定被污染标签的步骤包括:根据异常标签-序列组合中的序列的不同分成两组或多组,记录污染源标签在两组或多组中的对应序列;根据污染源标签在两组或多组中的对应序列,查找对应序列在两组或多组中共同含有的标签,共同含有的标签即为被污染标签。
污染源标签和被污染标签,举例说明,当发现存在异常组合标签10-序列19时,标签10即为污染源标签,而确定被污染标签时,则要看标签10所组合的序列有几组,比如又两组,序列19和序列13,查找序列19和序列13共同含有的标签,假设为标签7,则标签7即为被污染标签。
上述方法在能够找出来污染源标签和被污染标签的情况下,若想进一步确定被污染的严重程度,则在一种优选的实施例中,在确定被污染标签之后,该方法还包括:分析污染比例。
在一种优选的实施例中,分析污染比例的步骤包括:统计污染源标签对应的reads数记为第一reads数(例如,有1600条),共同含有的标签的被污染标签对应的reads数记为第二reads数(例如,有80000条),将第一reads数与第二reads数的比值记为污染比例(例如,1600/80000=0.2%)。
当然,上述污染比例的统计方式并不局限于上述这一种,任何能够体现两者比例关系的方式均适用。比如,也可以是第一reads数与(第二reads数-第一reads数)的比例。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
对应于上述方式,本申请还分别提供了一种标签的质控装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例2
本实施例还提供了一种标签质控的装置,如图4所示,该装置包括:预设组合模块20、测序模块40及污染判断模块60,其中,预设组合模块20,用于对M个已知序列构建M个文库,每个文库中含有一种或多种标签,每个已知序列与每种标签形成一个已知标签-序列组合,M个文库共N种标签,任意两个或两个以上的文库中最多含有1种相同的标签,其中,M和N为自然数,M≤N;测序模块40,用于将M个文库置于同一个lane进行测序,得到测序原始数据;污染判断模块60,用于通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种标签中是否存在污染。
上述标签质控的装置,通过利用较少的文库数量(M个)对较多的标签(N个)进行质检,通过在一个文库中混合带有1个或多个标签的样品,每个样品都带有同一条序列,这样通过已知序列与多个标签形成多个已知的标签-序列组合,然后通过对测序下机原始数据进行分析,即可找出是否存在不符合已知的标签-序列组合的其他新组合,若有可表明存在污染,从而便于对标签的污染情况进行质控。该质控装置采用单端标签构建文库,且所用文库数量较一个文库对应一个标签来说,文库构建数量少,质控的标签数量相对较多,整体质控检测成本低。该方法简化了二代测序标签质检的工作量,而且能够发现标签质检的低频交叉污染(污染频率在0.5%至0.05%)。为标签的质控,提供可靠了的检测方法。
在一种优选的实施例中,预设组合模块以最少文库为原则;优选地,M<N且N≥7时,预设组合模块如下原则进行组合:M=2K+1,K=roundup
Figure BDA0002329267210000111
根据/>
Figure BDA0002329267210000112
是否为整数,将N种标签和M个文库按照如下矩阵对各标签与各已知序列进行组合,并按照先自上而下,再从左到右的原则在各矩阵中排布:(1)/>
Figure BDA0002329267210000113
为整数,则构建行数为K+1,列数为K的第1-1矩阵,以及行数为K,列数为K的第1-2矩阵;(2)/>
Figure BDA0002329267210000114
为非整数,则构建行数为K+1,列数为K-1的第2-1矩阵,以及行数为K,列数为K的第2-2矩阵;其中,每一行代表一条已知序列对应的文库,列数表示每一行的已知序列对应的文库中所混合的多种的标签;优选地,预设组合模块按表1、表2或表3所示矩阵进行组合。
在一种优选的实施例中,污染判断模块包括:第一筛选模块,用于从测序原始数据中筛选测序reads数满足预设阈值的数据,得到第一筛选数据;第二筛选模块,用于从第一筛选数据中去除符合已知标签-序列组合的数据,得到第二筛选数据;查找判断模块,用于查找第二筛选数据中是否存在不符合已知标签-序列组合的异常标签-序列组合,如有,则N种标签中存在污染。
在一种优选的实施例中,装置还包括:污染源标签确定模块,污染源标签确定模块用于将异常标签-序列组合中对应的标签确定为污染源标签。
在一种优选的实施例中,装置还包括被污染标签确定模块,被污染标签确定模块包括:异常序列查找模块,用于根据两组或多组异常标签-序列组合中的序列的不同,分别记录污染源标签在两组或多组中的对应序列;共有标签查找模块,用于根据污染源标签在两组或多组中的对应序列,查找两组或多组中的对应序列所共同含有的标签,共同含有的标签即为被污染标签。
在一种优选的实施例中,装置还包括:污染比例分析模块,污染比例分析模块包括:第一统计模块,用于统计污染源标签对应的reads数,记为第一reads数,第二统计模块,用于统计被污染标签对应的reads数,记为第二reads数,比例计算模块,用于将第一reads数与第二reads数的比值记为污染比例。
此外,本申请还提供了一种存储介质,存储介质上存储有计算机可执行的程序,程序被设置为运行时,执行上述任一种标签质控的方法。
本申请还提供了一种电子装置,包括存储其和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一种标签质控的方法。
下面结合具体的实施例来进一步说明本申请的有益效果。
实施例3
Oligo序列:人工合成的核酸序列,具体设计方法是:随机生成序列,每条150bp,然后与人参考基因组序列进行比对,无法比对上的序列作为此处的Oligo序列。本实施例选择的序列是从符合上述设计条件的序列中任选不重复的23条(具体序列见序列表),并在生工生物工程(上海)股份有限公司合成。
需要说明的是,这些Oligo序列无法与人类基因组进行比对(map),因此可以用于人类基因组测序的文库质检。当用于与其他物种共同测序时,则需要进行针对性分析后再斟酌使用。
本申请的实施例中所提及的96条index来源于华大智造的MGI Easy DNAAdapters-96(板式)试剂盒中128个index中的96个。
一、序列合成及检测
上述合成的序列以质粒形式保存和运输,根据生工提供的载体序列设计扩增引物,引物也在生工生物工程(上海)股份有限公司合成;对设计的核酸序列进行扩增富集,PCR产物经Qubit浓度检测和电泳检测合格后-20℃保存备用。
PCR扩增体系扩增酶选用北京全式金生物技术有限公司的taq酶进行扩增,扩增体系和扩增程序分别如下:
表4:
Figure BDA0002329267210000121
Figure BDA0002329267210000131
表5:
Figure BDA0002329267210000132
扩增产物后经Qubit dsDNA HS分析试剂盒和凝胶电泳进行检测分析。分析合格后用于下游文库构建。
表6:序列扩增富集结果
Figure BDA0002329267210000133
Figure BDA0002329267210000141
序列扩增富集电泳检测结果见图5,序号1到12为对应的表6序列中的XL1到XL12,可见,扩增片段长度均在150bp范围,符合实验预期。
二、文库构建:
采用ABclonal建库kit试剂盒,对23个合成序列进行文库构建;对合成序列进行适当比例稀释,每份序列取37μL,50ng。
A.末端修复&3’加“A”。
表7:
Figure BDA0002329267210000142
表8:
Figure BDA0002329267210000143
B.接头连接
按照表3设计的排版布局,将合成序列每行对应的index进行等比例混合;混合后的index混合物用于文库接头连接。
Index等比例混合:为保证每种index吸取量的准确,均吸取2-5μL然后进行Votex震荡2min,进行瞬时离心。
表9:
Figure BDA0002329267210000151
接头连接产物进行1.0X倍体积Ampure xp磁珠纯化筛选,筛选后的产物溶解于25μL纯水中,回收23μL。
C.PCR扩增:
表10:
Figure BDA0002329267210000152
Figure BDA0002329267210000161
扩增产物进行0.8X Ampure xp磁珠的磁珠纯化,纯化后的产物溶解35μL,回收30μL。文库采用Qubit进行浓度测定和labChip进行文库长度分析。
对23个序列所构建的文库进行了全部质检,检测峰图均无小片段检出,主峰明显,均合格。图6至图8示出了随机挑选的三个文库的质检峰图,其中图6示出了序列3所构建的文库质检图,图7示出了序列13所构建的文库质检图,图8示出了序列23所构建的文库质检图。
三、测序结果分析
1)根据23条质控序列在表3中的顺序(人工合成的Oligo)划分为两种,质控序列和复核序列;质控序列编号对应1-12,复合序列对应13-23,每个序列对应8种或9种index组合。
2)质控序列和复核序列均被用来进行文库构建,每行对应的每种index均被质检2次(比如,表3中,index 1通过质控序列1和复核序列13进行质检;index 2通过质控序列2和复核序列14进行质检;依次类推)。在表3排布中,质检序列与复核序列每行最多只有一个index相同(即序列1-12与序列13-23中最多仅重复使用一个index,比如,序列10对应的8个index中,仅与序列23对应的index43重复了,其余index编号均不同);
3)若在质检序列和复核序列均同时发现了污染源index编号,亦即可以锁定被污染index编号,复核序列和质检序列在表3排布中对应的相同的index作为被污染号。具体的分析过程见实施例4和5。
实施例4
按照表3排版设计,进行LOT1批次index质控:
1)文库建库结果:23个合成序列对应的文库构建结果见下表。
表11:Lot 1批次index文库构建浓度检测结果
Figure BDA0002329267210000162
Figure BDA0002329267210000171
2)数据拆分
根据合成的23条序列对所有测序所得reads进行拆分,最终得到序列-index的组合,包括预先设计的192种组合(即表3中的23种序列与96种index组合形成的序列-index组合,或称为index-序列组合)及其他异常数据,其他异常数据即被检测到的index污染造成的数据的产出。拆分好的数据推荐保存为“.xlsx”文件格式,该文件为23列(对应23条序列),且≥96行的矩阵表格。
3)拆分结果:
表12:
Figure BDA0002329267210000172
/>
Figure BDA0002329267210000181
/>
Figure BDA0002329267210000191
/>
Figure BDA0002329267210000201
4)污染分析结果:
对于上述拆分好的数据,在分析污染时,需要根据数据产出量和Index的用途,合理调整阈值的设置标准。比如,数据预计产出约2000000,按照污染比例<0.25%标准进行选取,则出现异常组合的reads阈值应该设置为2000000*0.25%=5000。
然后提取所有reads数大于阈值的序列-index组合,筛选后为方便理解或人工分析,仍以Excel文件保存。
进一步筛选异常组合,筛选后的异常组合与正常产出的预计组合(8列*23行+8=192种)进行遍历,在筛选的异常组合数据中区分为设计组合和异常组合,将异常组合数据提取后用于后续分析。
异常组合中的index编号即污染源index的编号。由于质检前是设计了质检序列及复核序列,因而,当污染源index对应的序列为在质检序列时,对应的复核序列中一定也存在该污染源index导致的异常组合,从而找打同一污染源index导致的两组异常序列组合对应的序列。根据带有同一污染源index的异常组合中的两种不同的序列,在表3的排布表中去寻找两者共有的Index编号,该共有的Index编号即为被污染Index的编号。
即将两组异常组合中的对应的序列,按照质检序列、复核序列分为两组,记录污染源index编号在质检序列和复核序列对应的序列编号,根据这两个序列编号,再按照表3中的排布寻找重复出现的那个index的编号,该编号即为被污染index的编号。
根据污染源index-序列组合及被污染index-序列组合,在拆分结果表格中查找对应的reads数,并计算污染比例。输出的被污染的结果也可以设置阈值,比如输出污染的reads在1000条或5000条以上的分析结果。在实际使用过程中,使用者可根据需要调整阈值的具体数值,比较不同水平下index的污染情况。
本实施例的质检统计结果见下表。
表13:Lot1批次1的index质控结果
Figure BDA0002329267210000211
以序列2和序列15为例,当设置的筛选reads数阈值为5000时,按照表3设计的预计组合,序列2对应的index编号有:2、26、38、46、66、78、90、102;而从表12的拆分数据中查找序列2所对应的index编号有:2、26、38、46、49、66、78、90、102。可见,多出来49号的index。
同样地,按照表3设计的组合,序列15对应的index编号有:3、32、46、51、65、76、87、98、125;而从表12的拆分数据中查找序列2所对应的index编号有:3、32、46、49、51、65、76、87、98、125。可见,多出来49号的index。
因此,异常组合分别是序列2-index 49及序列15-index 49。对照表3中序列2和序列15所混合的文库中共有的index编号,即可发现46号index是两种序列所共有的,index46即为被污染index。
进一步地,计算污染比例,异常组合序列2-index 49在表12中出现的reads数是9237,而被污染的序列2-index 46组合在表12中出现的reads数是1509248,即可得出污染比例为9237/1509248=0.61%。异常组合序列15-index 49在表12中出现的reads数是5699,被污染的序列15-index 46组合在表12中出现的reads数是862921,即可得出污染比例为5699/862921=0.66%。
其他异常组合的检出、污染源index和被污染index的确定,以及污染比例的计算均按照上述方法得到。
实施例5:
按照表3排版设计,进行LOT2批次index质控:
1)文库建库结果:23个合成序列对应的文库构建结果见下表。
表14:Lot 2批次index文库构建浓度检测结果
序号 编号 浓度(ng/μL) 体积(μL) 总量(ng)
1 XL1-MK 25.6 50 1280.00
2 XL2-MK 24.4 50 1220.00
3 XL3-MK 7.4 50 370.00
4 XL4-MK 31.8 50 1590.00
5 XL5-MK 33 50 1650.00
6 XL6-MK 27 50 1350.00
7 XL7-MK 29.8 50 1490.00
8 XL8-MK 30.6 50 1530.00
9 XL9-MK 29.2 50 1460.00
10 XL10-MK 29.4 50 1470.00
11 XL11-MK 22.6 50 1130.00
12 XL12-MK 26.2 50 1310.00
13 XL13-MK 24.4 50 1220.00
14 XL14-MK 20 50 1000.00
15 XL15-MK 23.6 50 1180.00
16 XL16-MK 11.9 50 595.00
17 XL17-MK 28.8 50 1440.00
18 XL18-MK 26 50 1300.00
19 XL19-MK 25.6 50 1280.00
20 XL20-MK 24 50 1200.00
21 XL21-MK 31 50 1550.00
22 XL22-MK 28.6 50 1430.00
23 XL23-MK 30.4 50 1520.00
2)数据拆分
根据合成的23条序列对所有测序所得reads进行拆分,最终得到序列-index的组合,包括预先设计的192种组合(即表3中的23种序列与96种index组合形成的序列-index组合,或称为index-序列组合)及其他异常组合数据,其他异常组合数据即被检测到的index污染造成的数据的产出。拆分好的数据推荐保存为“.xlsx”文件格式,该文件为23列(对应23条序列),且≥96行的矩阵表格。
3)拆分结果:
表15:
Figure BDA0002329267210000231
Figure BDA0002329267210000241
/>
Figure BDA0002329267210000251
/>
Figure BDA0002329267210000261
4)分析结果:
分析步骤同实施例4。
表16:Lot2批次1的index质控结果
Figure BDA0002329267210000262
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:。
1)采用人工合成的已知核酸序列进行文库构建,用于测序read拆分,较序列合成公司的质谱检测准确性更高;
2)本申请的二代测序对每一份标签的质检方法,能够同时检测出污染和被污染的碱基,较Sanger测序的峰图,可明确检测出污染源;
3)本申请的实施例中质检方法质检96个文库,仅需要构建23个文库,较其他现有检测方法,大大降低了检测工作强度和成本。其他检测标的物为单端/双端标签(接头退火前)单链核酸,在后续使用过程中,还需要进一步加工操作处理,在此处理过程中可能存在新的污染,削弱了检测的实际意义。
4)按照本申请中序列与标签的排版构思,可以根据使用需要扩大或缩小标签混合数量以检测质控数量更多标签;
5)合成的序列随机,不受测序平台影响,可用于Illumina和BGI以外的其他需要标签标签的测序平台(且不局限于二代测序);
6)本申请所提供的标签质控方法,可以按照前述的构思和设计通过软件程序来执行,该程序运行整个分析流程仅需1-2min,并能自动形成整理结果。现有技术中的人工组合后期拆分结果,存在大量的比对和搜索行为,占用较长的时间成本的缺陷。本申请的方法能够实现快速低成本的测序标签质控。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
序列表
<110> 北京优迅医学检验实验室有限公司
<120> 标签质控的方法和装置
<130> PN122203YXYX
<160> 23
<170> SIPOSequenceListing 1.0
<210> 1
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列1
<400> 1
gcgggccaca agatattacc gtctctgctc atatcccagt ggcccctgga ccgccgtccg 60
gtgtactcgg ttgcgccttg tcctttctgc cgacctgtgc ggtatcgtca gaggtccgtt 120
ttttctttgg acttccgcac ccctcgtcag 150
<210> 2
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列2
<400> 2
ttcctcgtca gctcggatcg ctgcccgaca ttgtagctat ggacgatcgt cgcccttacg 60
tactctccgt tctcacaccc tttggtaccc cttacatgtc gtgccatggt tatcttcact 120
caggttgcct tgctagctgc ttttagcagt 150
<210> 3
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列3
<400> 3
gttcaatatc ttggcgttct cctttatggg atcgtgcctg tggcgcttcc cctgcggcat 60
agattgagtt gggtctgcgg gctgcaggat gcccgaaggg catctatctc catcttctgc 120
tcaatgcgcg ctcctatcac ccgtcccgca 150
<210> 4
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列4
<400> 4
gtctttcttg acttgtgtga agcaccgccc cgccaaactt ggttcctcga cctcccgagc 60
tcgggtgggg tctcaatcgc tctcggggtc cttatggctg tagtctctcg taccttgata 120
tttttctttt ttgcctggtt tacgcttgtt 150
<210> 5
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列5
<400> 5
cctccggcgt ctccccaccc ctctccgtgt tcacgaggta tcgcctcggt ccccgcgcct 60
cctgcttcta ctctgtcttt tcccttcgcg gcggactttc atccgttgcc tcccgcgttt 120
gcgggacgat tccgagtcgt gtgccgcttg 150
<210> 6
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列6
<400> 6
ggctgcccct tctcgtggtc gcccgctgtc ctgctgcggg taccttcaat gagagccgtc 60
cgcactttga tgcttccctt ctacgaactt ccctctggta tacggaggct ttgtggcctc 120
ccggccggcc ctttatggaa cactgcccga 150
<210> 7
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列7
<400> 7
tgacgattac gctcgcattt cggtgcgcgt agtcctatgt gctaccgccg ggccgggccg 60
ccgcatgttt cgtctttctg ttctcttgtt tagggtatct tttcggcctt ttggaaccac 120
ggccggccct ccccgatgtt attttgaacc 150
<210> 8
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列8
<400> 8
gagtgcctaa tcttgcgtcg ccccttcgcc ctttcttctt cttttctact gtgccccttc 60
tgggatttgc tcttggtgtt gcaataactg gcgagctcct tcccgtttgt ggttggtccc 120
tgaagaacag ctacgcgagt accttgggct 150
<210> 9
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列9
<400> 9
ttgatccttt caccataccc gtagccgcca cgaggtccgt ggatgcctgc tttttttccc 60
acgacgtccg tgagtgcctt acttactcgc aaatatggcg cacccaccat ggtcattcgt 120
ctttgcctac ggtcgttgcg ccgcaccctc 150
<210> 10
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列10
<400> 10
cccgcccaat ctgcacaccc gagcgtgttt gccgtcagct ttgggagcgt accgatagtt 60
ctgacgtact ttaaatccgc gtccgtcttg tcgttgacgt taccaatcga gtttggtctc 120
ccactagtcc cgcaccgcgc tccaccacct 150
<210> 11
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列11
<400> 11
tcctccgcct tcctttgtgt ggactctaac gctcgatatt ccctttagtt ttcgccctct 60
gcgccaagcg tgcagttgac ctgacccatg ttgcgtccca gccgggccgc tccagctctt 120
ctgttcgtcc gtgtcacgcc gagcctgctc 150
<210> 12
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列12
<400> 12
cccgccatca tccggtggtg tttgttacgt ggccggccct gttactctac gcccacatat 60
tatctcctcc tacacgtatg gtatgccgag tttatttttt acgtcgcatg atcccccctt 120
ggttttgcct ttttccccgc tacttgcctt 150
<210> 13
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列13
<400> 13
gctagcgccc tcgccctccg ctatcggcca gtcttcgctt cgctgctgtg ccactcgtgt 60
gtacgggcca cccaatggag ccgtgtgtcg ccgaaggggt tcgttgtttc acagcacctc 120
tcggcgatgt cgctctaaca catttctgcc 150
<210> 14
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列14
<400> 14
ggccatcctt tatcccgagt tagttatttt ttgccttcct gcccactcgc ggtcctaaga 60
gtatgcttcc gcgtctgcat ggccctgatc ttggcttcgt aaaccaccag tccgcaatat 120
tgcgctaggt ccccccatct gcccttctaa 150
<210> 15
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列15
<400> 15
ctggcttcct aaaagccact ccgcgctttc cccgcagcgc ggtccacatt tgctgtgttt 60
cgattctctt gcgaagatct tcgtgtcccc gactgttcga acgccggtga gcgcgcttgg 120
tctgctctgt atggctttct tcctcccccg 150
<210> 16
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列16
<400> 16
tgctcccccg atagttccgg gcccgaagta tccgatgtat tgatgtagtc gagtccctgt 60
cgaacgaggc gccgttcgca ccttccgggt tccatcgttc cgtagcgacc ccaatgattc 120
ctggtcctgt gcaccttagc ggccttgatt 150
<210> 17
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列17
<400> 17
tcttcgccgg gtcgaaggct gtttgggccg ccactttgcc ggcgttttga tttacctcgg 60
ggtagcgcgc atccattgct gaaagtcagg gccgtactta ttttcccgtg cttattacat 120
atcgtttcgc atgcgcccac acactcagac 150
<210> 18
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列18
<400> 18
tggcacgcgg agccccacag gtcgtttgtt gcctgatatc ctatagccag ttgtggtcta 60
cccgaggtcg atacgggggc tctccaaccg gcttagcgtt cccttcgccg ggtcgtgccg 120
tgttctcgtg cgtcgaccaa tcgcctggct 150
<210> 19
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列19
<400> 19
gcgcgcttgg acctcatact ccccgtggcc ctccaccact cccatgtcgc cgctcatctt 60
tctcctcaac ccgtgctctg tttatatccg gtcgcagccg gcgcgcaccg taatccggcg 120
ctgcctcggt ttgccccctt tcgattgttg 150
<210> 20
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列20
<400> 20
ggattatatc atccccccca ccagtcccta gccgtgcccc ccgttccgca tgtattatgc 60
attaatgatc acggcatcgt ggtcccccct tgtggcatta agctgtcagc ccttatttcg 120
ttgctgtgtg cccgtcccct cccaggggcc 150
<210> 21
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列21
<400> 21
acgtcggtct tgaccggatg atagttgttg gcccctcgtc ccgcgttccc ctttcgacgt 60
tctcgcttta ggccgttcgg ggagggaccc tcccgcgtcg accccttttg tctccagaag 120
cgggcccttt tcctactccc ttgttcggtt 150
<210> 22
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列22
<400> 22
gtagtccaat ggtaccagtt gttgctggtt cggtttacct agctcgcttc tatttccttc 60
tgtcttcttt atatccgggg tcgcttcttg gcccggccct taggtcgccc gtaatttagg 120
cagccttcct ggtgattgtc acgggcccac 150
<210> 23
<211> 150
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(150)
<223> 序列23
<400> 23
gctcgctcgc ttctgtctgc gcttctgcaa cggtacatcc aggggtcccc tgctcgtaac 60
tcccatcgcg tcacggcttt caatttggtt tcccctgtct tgcccgtctt actctcggtc 120
attccccctg gcgcggttcc tttccacgcg 150

Claims (15)

1.一种标签质控的方法,其特征在于,所述方法包括:
对M个已知序列构建M个文库,每个所述文库中含有一种或多种标签,每个所述已知序列与每种所述标签形成一个已知标签-序列组合,M个所述文库共使用N种所述标签,任意两个或两个以上的所述文库中最多含有1种相同的所述标签,其中,M和N为自然数,M≤N;
将M个所述文库置于同一个泳道进行测序,得到测序原始数据;
通过分析所述测序原始数据中是否存在与所述已知标签-序列组合不符的标签-序列组合来判断N种所述标签中是否存在污染。
2.根据权利要求1所述的方法,其特征在于, M个所述文库为N种所述标签所能构建的最少数量的文库;
M<N且N≥7时,利用N种所述标签构建最少数量的文库的步骤包括:
M=2K+1,
Figure QLYQS_1
,根据/>
Figure QLYQS_2
是否为整数,将N种所述标签和M个所述文库按照如下矩阵对各标签与各已知序列进行组合,并按照先自上而下,再从左到右的原则在各矩阵中排布:
(1)
Figure QLYQS_3
为整数,则构建行数为K+1,列数为K的第1-1矩阵,以及行数为K,列数为K的第1-2矩阵;
(2)
Figure QLYQS_4
为非整数,则构建行数为K+1,列数为K-1的第2-1矩阵,以及行数为K,列数为K的第2-2矩阵;
其中,每一行代表一条所述已知序列对应的文库,列数表示每一行的所述已知序列对应的文库中所混合的多种的标签。
3.根据权利要求2所述的方法,其特征在于,所述N=48,按照如下表1所示矩阵排布48种所述标签,M最少,且所述M=15:
表1:
Figure QLYQS_5
所述N=96,按照如下表2所示矩阵排布96种所述标签,M的数量最少,且所述M=21,
表2:
Figure QLYQS_6
所述M为23,所述N为96,按照如下表3所示矩阵排布96种所述标签:
Figure QLYQS_7
4.根据权利要求1至3中任一项所述的方法,其特征在于,通过分析测序原始数据中是否存在与已知标签-序列组合不符的标签-序列组合来判断N种所述标签中是否存在污染包括:
从所述测序原始数据中筛选测序reads数满足预设阈值的数据,得到第一筛选数据;
从所述第一筛选数据中去除符合所述已知标签-序列组合的数据,得到第二筛选数据;
查找所述第二筛选数据中是否存在不符合所述已知标签-序列组合的异常标签-序列组合,如有,则N种所述标签中存在污染。
5.根据权利要求4的所述方法,其特征在于,在确定N种所述标签中存在污染的情况下,所述方法还包括:确定N种所述标签中的污染源标签;
确定N种所述标签中的所述污染源标签的步骤包括:将所述异常标签-序列组合中对应的标签确定为所述污染源标签。
6.根据权利要求5的所述方法,其特征在于,在确定所述污染源标签之后,所述方法还包括确定被污染标签;
确定被污染标签的步骤包括:
根据两组或多组所述异常标签-序列组合中的序列的不同,分别记录所述污染源标签在两组或多组中的对应序列;
根据所述污染源标签在两组或多组中的对应序列,查找所述两组或多组中的对应序列所共同含有的标签,所述共同含有的标签即为被污染标签。
7.根据权利要求6的所述方法,其特征在于,在确定所述被污染标签之后,所述方法还包括:分析污染比例;
分析污染比例的步骤包括:
统计所述污染源标签对应的reads数,记为第一reads数,
统计所述被污染标签对应的reads数,记为第二reads数,
将所述第一reads数与所述第二reads数的比值记为所述污染比例。
8.一种标签质控的装置,其特征在于,所述装置包括:
预设组合模块,用于对M个已知序列构建M个文库,每个所述文库中含有一种或多种标签,每个所述已知序列与每种所述标签形成一个已知标签-序列组合,M个所述文库共N种标签,任意两个或两个以上的所述文库中最多含有1种相同的标签,其中,M和N为自然数,M≤N;
测序模块,用于将M个所述文库置于同一个泳道进行测序,得到测序原始数据;
污染判断模块,用于通过分析所述测序原始数据中是否存在与所述已知标签-序列组合不符的标签-序列组合来判断N种所述标签中是否存在污染。
9.根据权利要求8所述的装置,其特征在于,所述预设组合模块以最少文库为原则;
M<N且N≥7时,所述预设组合模块按如下原则进行组合:
M=2K+1,K=roundup(
Figure QLYQS_8
),根据/>
Figure QLYQS_9
是否为整数,将N种所述标签和M个所述文库按照如下矩阵对各标签与各已知序列进行组合,并按照先自上而下,再从左到右的原则在各矩阵中排布:
(1)
Figure QLYQS_10
为整数,则构建行数为K+1,列数为K的第1-1矩阵,以及行数为K,列数为K的第1-2矩阵;
(2)
Figure QLYQS_11
为非整数,则构建行数为K+1,列数为K-1的第2-1矩阵,以及行数为K,列数为K的第2-2矩阵;
其中,每一行代表一条所述已知序列对应的文库,列数表示每一行的所述已知序列对应的文库中所混合的多种的标签。
10.根据权利要求8或9所述的装置,其特征在于,所述污染判断模块包括:
第一筛选模块,用于从所述测序原始数据中筛选测序reads数满足预设阈值的数据,得到第一筛选数据;
第二筛选模块,用于从所述第一筛选数据中去除符合所述已知标签-序列组合的数据,得到第二筛选数据;
查找判断模块,用于查找所述第二筛选数据中是否存在不符合所述已知标签-序列组合的异常标签-序列组合,如有,则N种所述标签中存在污染。
11.根据权利要求10的所述装置,其特征在于,所述装置还包括:污染源标签确定模块,所述污染源标签确定模块用于将所述异常标签-序列组合中对应的标签确定为污染源标签。
12.根据权利要求11的所述装置,其特征在于,所述装置还包括被污染标签确定模块,所述被污染标签确定模块包括:
异常序列查找模块,用于根据两组或多组所述异常标签-序列组合中的序列的不同,分别记录所述污染源标签在两组或多组中的对应序列;
共有标签查找模块,用于根据所述污染源标签在两组或多组中的对应序列,查找所述两组或多组中的对应序列所共同含有的标签,所述共同含有的标签即为被污染标签。
13.根据权利要求12的所述装置,其特征在于,所述装置还包括:污染比例分析模块,所述污染比例分析模块包括:
第一统计模块,用于统计所述污染源标签对应的reads数,记为第一reads数,
第二统计模块,用于统计所述被污染标签对应的reads数,记为第二reads数,
比例计算模块,用于将所述第一reads数与所述第二reads数的比值记为所述污染比例。
14.一种存储介质,其特征在于,所述存储介质上存储有计算机可执行的程序,所述程序被设置为运行时,执行权利要求1至7中任一项所述的标签质控的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行计算机程序以执行权利要求1至7中任一项所述的标签质控的方法。
CN201911329736.2A 2019-12-20 2019-12-20 标签质控的方法及装置 Active CN110970091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911329736.2A CN110970091B (zh) 2019-12-20 2019-12-20 标签质控的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911329736.2A CN110970091B (zh) 2019-12-20 2019-12-20 标签质控的方法及装置

Publications (2)

Publication Number Publication Date
CN110970091A CN110970091A (zh) 2020-04-07
CN110970091B true CN110970091B (zh) 2023-05-23

Family

ID=70035621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911329736.2A Active CN110970091B (zh) 2019-12-20 2019-12-20 标签质控的方法及装置

Country Status (1)

Country Link
CN (1) CN110970091B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111944806A (zh) * 2020-07-30 2020-11-17 上海韦翰斯生物医药科技有限公司 一种高通量测序污染检测用分子标签组及其应用
CN112631562B (zh) * 2020-12-01 2022-08-23 上海欧易生物医学科技有限公司 基于python的二代测序样本混样方法、应用、设备、计算机可读存储介质
CN113265453A (zh) * 2021-05-21 2021-08-17 上海慕柏生物医学科技有限公司 一种全流程质控的菌群高通量测序检测方法及应用

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104232760A (zh) * 2014-08-26 2014-12-24 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
CN104293783A (zh) * 2014-09-30 2015-01-21 天津诺禾致源生物信息科技有限公司 适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒
CN104395481A (zh) * 2012-04-13 2015-03-04 赛昆塔公司 免疫组库分析中样品污染的检测和定量
CN105740650A (zh) * 2016-03-02 2016-07-06 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN109517882A (zh) * 2018-11-09 2019-03-26 广州燃石医学检验所有限公司 一种用于检测独特双端文库标签组合的质控方法及应用
CN109628568A (zh) * 2019-01-10 2019-04-16 上海境象生物科技有限公司 一种用于判别和校准高通量测序污染的内标及其应用
CN109706219A (zh) * 2018-12-20 2019-05-03 臻和(北京)科技有限公司 构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112020565A (zh) * 2018-01-05 2020-12-01 十亿至一公司 用于确保基于测序的测定的有效性的质量控制模板

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104395481A (zh) * 2012-04-13 2015-03-04 赛昆塔公司 免疫组库分析中样品污染的检测和定量
CN104232760A (zh) * 2014-08-26 2014-12-24 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
CN104293783A (zh) * 2014-09-30 2015-01-21 天津诺禾致源生物信息科技有限公司 适用于扩增子测序文库构建的引物、构建方法、扩增子文库及包含其的试剂盒
CN105740650A (zh) * 2016-03-02 2016-07-06 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN109517882A (zh) * 2018-11-09 2019-03-26 广州燃石医学检验所有限公司 一种用于检测独特双端文库标签组合的质控方法及应用
CN109706219A (zh) * 2018-12-20 2019-05-03 臻和(北京)科技有限公司 构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法
CN109628568A (zh) * 2019-01-10 2019-04-16 上海境象生物科技有限公司 一种用于判别和校准高通量测序污染的内标及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sample-Index Misassignment Impacts Tumor Exome Sequencing;Daniel Vodák等;Cold Spring Harbor Laboratory;第1-17页 *
两种RNA测序文库制备方法的构建及其应用;邱源;中国博士学位论文全文数据库农业科技辑;第2章 *

Also Published As

Publication number Publication date
CN110970091A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110970091B (zh) 标签质控的方法及装置
Fullwood et al. Chromatin interaction analysis using paired‐end tag sequencing
Almeida et al. Bioinformatics tools to assess metagenomic data for applied microbiology
CN110349629A (zh) 一种利用宏基因组或宏转录组检测微生物的分析方法
EP2518162A1 (en) Multitag sequencing and ecogenomics analysis
CN106676182A (zh) 一种低频率基因融合的检测方法及装置
CN107077537A (zh) 用短读测序数据检测重复扩增
CN110114472A (zh) 将线性测序文库转换为环状测序文库的方法
CN113463202B (zh) 一种新的rna高通量测序的方法、引物组和试剂盒及其应用
CN110603327A (zh) Pcr引物对及其应用
WO2023284768A1 (zh) 融合引物直扩法人类线粒体全基因组高通量测序试剂盒
CN108642208B (zh) 一种樟属及其近缘属植物通用ssr分子标记及其开发方法和应用
CN114708910A (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN108588200A (zh) 一种R-Loop高通量测序文库构建方法
Eché et al. A Bos taurus sequencing methods benchmark for assembly, haplotyping, and variant calling
Chung et al. Tissue requirements and DNA quality control for clinical targeted next-generation sequencing of formalin-fixed, paraffin-embedded samples: a mini-review of practical issues
CN111549107B (zh) 一种利用高通量测序进行基因分型的方法、试剂盒及应用
CN114774517A (zh) 一种人免疫组库测序的方法及试剂盒
CN106520758A (zh) 一种萨能奶山羊胎儿成纤维细胞miRNA的筛选与鉴定方法
KR101977976B1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
CN113571123A (zh) 用于选择性全基因组扩增的引物设计方法、装置及应用
CN110684830A (zh) 一种石蜡切片组织rna分析方法
Margulies et al. The 454 life sciences picoliter sequencing system
CN109680091A (zh) 一种基于高通量测序检测丛枝菌根真菌的引物及检测方法
CN211645259U (zh) 一种dna处理器、文库构建器、杂交捕获文库的制备装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant