CN103261442B - Hpv 精确分型的生物信息学分析的方法及系统 - Google Patents

Hpv 精确分型的生物信息学分析的方法及系统 Download PDF

Info

Publication number
CN103261442B
CN103261442B CN201080070484.7A CN201080070484A CN103261442B CN 103261442 B CN103261442 B CN 103261442B CN 201080070484 A CN201080070484 A CN 201080070484A CN 103261442 B CN103261442 B CN 103261442B
Authority
CN
China
Prior art keywords
sequence
sample
sequencing
fragment
hpv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080070484.7A
Other languages
English (en)
Other versions
CN103261442A (zh
Inventor
刘智盛
田仕林
潘荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Biological Technology (wuhan) Co Ltd
Original Assignee
Shenzhen Bgi Medicine Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bgi Medicine Co Ltd filed Critical Shenzhen Bgi Medicine Co Ltd
Publication of CN103261442A publication Critical patent/CN103261442A/zh
Application granted granted Critical
Publication of CN103261442B publication Critical patent/CN103261442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种HPV精确分型的生物信息学分析的方法及系统,该方法包括:接收高通量测序技术得到的测序片段;将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作;将测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性;对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。本发明提供的HPV精确分型的生物信息学分析的方法及系统,利用生物信息学的分析方法及技术手段,实现了快速检测大量样本、快速完成对感染HPV型别的检测,具有较高的灵敏度和特异性。

Description

HPV 精确分型的生物信息学分析的方法及系统
技术领域
本发明涉及生物基因工程技术领域,尤其涉及一种HPV精确分型的生物信息学分析的方法及系统。
背景技术
人类乳突病毒(Human Papillomavirus,HPV)是一种嗜上皮性病毒,根据其致病强弱能力被分为高危型(例如HPV16,18,31,33和45)和低危型(例如HPV6,11,42,43和44)两大类。在自然人群中,感染率从低于1%到高达50%。超过100种的HPV能够感染皮肤(皮肤类型)或呼吸道和肛门生殖道的粘膜(粘膜类型),超过40种的HPV能够感染子宫颈。HPV在许多肿瘤的启动、发生、发展甚至恶性的过程中都起到了重要作用,从而被认为是与人类肿瘤关系最为密切的肿瘤病毒。
对HPV病毒感染进行准确的检测可提高HPV相关肿瘤,特别是妇女宫颈癌的病变筛查敏感性,改善其防治手段。分型与临床的结合研究已经证实不同的HPV亚型在致癌性方面存在比较大的差别。HPV分型检测对于HPV治疗方案的制定、感染HPV的危险程度、HPV感染的区域特异性等均具有重要的意义。因此目前的研究认为有必要对各个样本中存在的HPV进行分型检测,将有助于更详细的分析各种HPV型别的致病性,以达到最佳的临床预防、治疗的效果。
目前,现有技术中用于HPV基因分型的检测方法主要包括以下几种:
1、ELISA法:是采用抗原与抗体的特异反应将待测物与酶连接,通过酶与底物产生颜色反应,用于定量测定。这种方法只能用于个别亚型的鉴定,现已逐渐被其它检测方法取代。
2、PCR(聚合酶链反应,Polymerase Chain Reaction)检测法:是将提取的DNA进行扩增,实现HPV感染检测。目前常用通用引物PCR和实时荧光定量PCR。该方法具有假阳性高,手段繁复、费时,不能准确诊断多重感染的缺点。
3、杂交捕获检测法:是利用分子杂交化学发光来放大信号,通过判读光的强弱来确定HPV型。该方法具有无法检测HPV特定型别和多重感染且费用高等缺点。
4、PCR结合杂交检测法:是PCR与杂交共享的方法。该方法同样具有费时、手段繁复等缺点。
5、基因芯片技术:基因芯片技术,有多种分类,常用的是寡核苷酸原位合成法。该方法具有检测结果不准确,实验条件要求高,费用高等缺点。
综上所述,提供一种具有较高灵敏度和特异度,且准确性高的HVP分型检测技术成为本领域亟待解决的技术问题。
发明内容
本发明要解决的一个技术问题是提供一种HPV精确分型的生物信息学分析的方法及系统,能够实现高灵敏度和特异性、快速的识别基因序列的HPV型。
本发明的一个方面提供了一种HPV精确分型的生物信息学分析的方法,该方法包括:接收高通量测序技术得到的测序片段;将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作;将测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性;对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,该方法还包括:接收到测序序列后,对测序序列进行过滤,去除不合格的序列。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,步骤“对测序序列进行过滤,去除不合格的序列”进一步包括:预先设置不合格碱基的测序质量阈值和比例阈值;当测序序列中碱基的测序质量值低于测序质量阈值,且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过比例阈值时;则认为测序序列是不合格序列并加以过滤;当测序序列的测序结果中不确定的碱基的个数超过整条序列碱基个数的10%,则认为测序序列是不合格序列并加以过滤;与测序接头序列库进行比对时,如果测序序列中存在测序接头序列,则测序序列是不合格序列并加以过滤。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,该方法还包括:实现分样本操作后,将样本接头序列从序列片段中去除。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,步骤“将样本接头序列从序列片段中去除”进一步包括:预先设置样本接头序列的测序质量阈值和碱基数阈值;将接头序列中碱基的测序质量值低于测序质量阈值,且碱基的数量超过碱基数阈值的序列去除。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,该方法还包括:步骤a、将样本接头序列与样本接头序列库中序列进行完全匹配操作;步骤b、将样本接头序列降解1-2bp碱基,与样本接头序列库中序列对应部分进行完全匹配操作;步骤c、允许样本接头序列仅有一个碱基的插入,即在样本接头序列起始端进行完全匹配操作,当出现一个碱基无法匹配时将该碱基视为插入碱基,跳过此碱基后继续执行完全匹配操作;步骤d、允许样本接头序列仅有一个碱基的缺失,即在样本接头序列中模拟缺失任何一个碱基后,进行完全匹配操作;完成步骤a-d后,按照优先级顺序:步骤a>步骤b>“步骤c或步骤d”的顺序确定最终的样本接头序列的比对结果;比对到同一样本接头序列的被认为是来自同一样本的序列,从而区分样本;以及去除样本的序列中的样本接头序列。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,该方法还包括:如果步骤a-d四步操作中均无比对结果,或者一个步骤同时比对到两个结果,或者仅有步骤c和步骤d同时比对出结果;则认为该比对结果是由于无法区分而判定为无效信息,并将相应的整条序列去除。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,步骤“对比对后的序列进行筛选”进一步包括:将高通量测序技术得到的测序片段比对到参考基因组序列上;比对后,筛选并去除比对结果中比对长度低于70%,或者一致性低于85%的序列;保留每条序列比对结果中的最佳结果;保留次优结果;其中,次优结果满足:序列的一致性*比对长度、比对得分分别高于或等于最佳结果的0.9倍、0.85倍,且序列与参考序列匹配不相关的概率低于所述最佳结果的103倍;判断每条序列的最佳结果和次优结果是否比对到同一型别或其亚型,如果是,则保留比对结果仅比对到某一型别的序列作为有效序列,确定有效序列比对的HPV型别或阴性。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,该方法还包括:对确定型别的序列片段按样本进行合并后,对样本合并后的序列片段数量进行标准化。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,对样本合并后的序列片段数量进行标准化进一步包括:将各个文库中每个样品所拥有的序列数量,都按照比例缩放到文库的测序量为理想情况下的平均测序量。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,步骤“根据合并后支持对应型别的序列片段数量和比例进行筛选”进一步包括:标准化后,按下述条件的先后顺序进行筛选:如果可用序列数小于阴性对照样本的有效序列片段的平均个数加上其四倍标准差的和,认为实验或者测序操作失败;否则,如果比对结果支持HPV型别的序列片段数小于预定阈值,就认为是阴性;如果比对结果支持HPV型别的序列片段数占总序列片段数的比例达到预定阈值以上,则认为感染了该型别。
本发明的另一个方面提供了一种HPV精确分型的生物信息学分析的系统,该系统包括:接收模块,用于接收高通量测序技术得到的测序片段;分样本模块,用于将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作;序列型别确定模块,用于将测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性;样本型别确定模块,用于对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,接收模块还用于:接收到测序序列后,对测序序列进行过滤,去除不合格的序列。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,分样本模块还用于:实现分样本操作后,将样本接头序列从序列片段中去除。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,合并筛选模块还用于:对确定型别的序列片段按样本进行合并后,对样本合并后的序列片段数量进行标准化。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,对样本合并后的序列片段数量进行标准化进一步包括:将各个文库中每个样品所拥有的序列数量,都按照比例缩放到文库的测序量为理想情况下的平均测序量。
本发明提供的HPV精确分型的生物信息学分析的方法及系统,利用测序技术与分析手段,实现了高灵敏度和特异度,快速识别并确认HPV型别的目的。
附图说明
图1示出本发明实施例提供的一种HPV精确分型的生物信息学分析的方法的流程图;
图2示出本发明提供的HPV精确分型的生物信息学分析的方法的另一个实施例的流程图;
图3示出本发明提供的HPV精确分型的生物信息学分析的方法的另一个实施例的流程图;
图4示出本发明提供的HPV精确分型的生物信息学分析的方法的另一个实施例的流程图;
图5示出本发明提供的HPV精确分型的生物信息学分析的方法的一个具体实施方式的流程图;
图6示出本发明实施例提供的一种HPV精确分型的生物信息学分析的系统的结构示意图;
图7示出本发明实施例提供的一种HPV精确分型的生物信息学分析的方法及系统在分析过程中,各阶段的有效序列占原始序列的比例变化情况示意图;
图8示出本发明实施例提供的真实样本与阴性对照样本的有效序列片段数量的分布情况示意图;
图9示出本发明实施例提供的每个样本重复10次测序及分析后的重复性的结果示意图;
图10示出本发明实施例提供的所有真实样本检测出的阴阳性结果与血液阴性样本、临床检测结果的比较示意图;
图11示出本发明实施例提供的第二类文库中质粒样本的检测结果的示意图。
具体实施方式
本发明实施例中具体采用的样本包括:328个患者真实组织样本、血液阴性样本、纯水阴性样本、载入特定HPV型别的质粒阳性样本。
在各个实施例中可以采用的上机策略包括:每个测序文库中包含96个样本,设计两类文库:第一类为82个患者真实组织样本,6个纯水阴性样本,6个血液阴性样本,2个质粒阳性样本;第二类为质粒阳性样本90个,6个纯水阴性样本。每个文库重复测序10次以方便验证信息分析时的重复性。因此共上机测序50个文库。
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1示出本发明实施例提供的一种HPV精确分型的生物信息学分析的方法的流程图。
如图1所示,HPV精确分型的生物信息学分析的方法100包括:步骤102,接收高通量测序技术得到的测序片段。本发明中采用的高通量测序技术可以为Illumina GA测序技术,也可以是现有的其它高通量测序技术。
步骤104,将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作。本发明实施例中采用的样本接头序列库是实验设计的96对引物-index(本发明中采用的样本接头序列库可根据实验要求及样品数量要求自行设计,在设计过程中样本接头序列碱基分布及长度需注意综合考虑检测的样本个数和不同样本接头序列的非同源性。保证不同的样本通过样本接头序列比对实现样本区分)。
步骤106,将测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性。例如,通过任何一种短序列映射程序(如blast等映射程序),将高通量测序技术得到的测序片段比对到参考基因组序列上,其中,参考基因组序列可取于公共数据库NCBI,该公共数据库可以通过如下途径获取http://www.ncbi.nlm.nih.gov/gene?term=hvp。
本发明的一个实施例中,“对比对后的序列进行筛选”进一步包括:将高通量测序技术得到的测序片段比对到参考基因组序列后,筛选并去除比对结果中比对长度低于70%,或者一致性低于85%的序列(100%表示两条序列完全一致);保留每条序列比的对结果中的最佳结果;保留次优结果;其中,次优结果满足:序列的一致性*比对长度、比对得分分别高于或等于最佳结果的0.9倍、0.85倍,且序列与参考序列匹配不相关的概率低于所述最佳结果的103倍;判断每条序列的最佳结果和次优结果是否比对到同一型别或其亚型,如果是,则保留比对结果仅比对到某一型别的序列作为有效序列,确定有效序列比对的HPV型别或阴性。
步骤108,对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。
稍后的其它实施例中还将举例对前述步骤中的具体实现方式作进一步的详细介绍。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例,利用生物信息学的分析方法及技术手段,实现了快速检测大量样本、快速完成对感染HPV型别的检测,具有较高的灵敏度和特异性。
图2示出本发明提供的HPV精确分型的生物信息学分析的方法的另一个实施例的流程图。
如图2所示,HPV精确分型的生物信息学分析的方法200包括:步骤202、203、204、206和208,其中步骤202、204、206和208可以分别执行与图1所示的步骤102、104、106和108相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图2所示,在步骤202之后,执行步骤203,对测序序列进行过滤,去除不合格的序列。
具体来说,步骤“对测序序列进行过滤,去除不合格的序列”进一步包括:预先设置不合格碱基的测序质量阈值和比例阈值(本发明中低质量阈值由具体测序技术及测序环境而定,例如,测序质量值低于5的碱基个数超过整条序列碱基个数的50%则认为是不合格序列)。
当测序序列中碱基的测序质量值低于测序质量阈值(如5),且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过比例阈值(如50%)时;则认为测序序列是不合格序列并加以过滤。
当测序序列的测序结果中不确定的碱基(如Illumina GA测序结果中的N)的个数超过整条序列碱基个数的10%,则认为测序序列是不合格序列并加以过滤。
与测序接头序列库进行比对时,如果测序序列中存在测序接头序列,则测序序列是不合格序列并加以过滤。
本发明提供的HPV精确分型的生物信息学分析的方法,通过对测序序列进行过滤,去除不合格的序列,进一步降低了不合格序列的影响,从而提高了检测分析的准确性。
图3示出本发明提供的HPV精确分型的生物信息学分析的方法的另一个实施例的流程图。
如图3所示,HPV精确分型的生物信息学分析的方法300包括:步骤302、304、305、306和308,其中步骤302、304、306和308可以分别执行与图1所示的步骤102、104、106和108相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图3所示,在步骤304之后,执行步骤305,将样本接头序列从序列片段中去除。
具体来说,步骤“将样本接头序列从序列片段中去除”进一步包括:预先设置样本接头序列的测序质量阈值(如5)和碱基数阈值(如3);将接头序列中碱基的测序质量值低于测序质量阈值,且碱基的数量超过碱基数阈值的序列去除。例如,综合考虑测序条件和环境,将本实施例中10bp(碱基对)的接头序列中测序质量值低于5的碱基且个数大于3个的序列去除。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例中,进一步地执行:
步骤a、将样本接头序列与样本接头序列库中序列进行完全匹配操作;
步骤b、将样本接头序列降解1-2bp碱基,与样本接头序列库中序列对应部分进行完全匹配操作;
步骤c、允许样本接头序列仅有一个碱基的插入,即在样本接头序列起始端进行完全匹配操作,当出现一个碱基无法匹配时将该碱基视为插入碱基,跳过此碱基后继续执行完全匹配操作;
步骤d、允许样本接头序列仅有一个碱基的缺失,即在样本接头序列中模拟缺失任何一个碱基后,进行完全匹配操作;
完成步骤a-d后,按照优先级顺序:步骤a>步骤b>“步骤c或步骤d”的顺序确定最终的样本接头序列的比对结果(在处理接头比对的时候,有时候同一个序列会得到不同的比对结果,设置筛选比对结果的优先级可以理解为:步骤a的最高,b次之,c和d的优先级等同)。
比对到同一样本接头序列的被认为是来自同一样本的序列,从而区分样本;以及去除样本的序列中的样本接头序列(可能是8-11bp)。
进一步的,如果步骤a-d四步操作中均无比对结果,或者一个步骤同时比对到两个结果,或者仅有步骤c和步骤d同时比对出结果;则认为该比对结果是由于无法区分而判定为无效信息,并将相应的整条序列去除。
本发明提供的HPV精确分型的生物信息学分析的方法的一个实施例,将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作后,再将样本接头序列从序列片段中去除,从而确保HPV分型分析的真实性和可靠性,为进一步的HPV精确分型提供保障。
图4示出本发明提供的HPV精确分型的生物信息学分析的方法的另一个实施例的流程图。
如图4所示,HPV精确分型的生物信息学分析的方法400包括:步骤402、404、406、408、409和410,其中步骤402、404、406可以分别执行与图1所示的步骤102、104、106相同或相似的技术内容,为简洁起见,这里不再赘述其技术内容。
如图4所示,在步骤406之后,执行步骤408,对确定型别的序列片段按样本进行合并。具体来说,在步骤404中,已经将各个序列是来自哪个样本的关系找到,按照这个关系,将属于同一个样本的序列归在一起,统计他们与HPV参考基因组的比对结果。
步骤409,对样本合并后的序列片段数量进行标准化。在本发明中,由于是不同文库的样品混在同一个lane里面测序,会由于各个文库上机浓度的不均一导致各个文库的样品的测序量有所不同,为了消除这个不同,我们将各个文库每个样品所拥有的序列数量,都按照比例缩放到该文库的测序量为理想情况下的平均测序量。即对每个样本的合并后的序列数量标准化。理想情况下是指各个混合在一个lane里面的样品的上样量都一样,且都被平均地测到同等的测序量,即不受实验、测序操作影响下理论的测序量。
标准化公式为:sample_read_num_STD=sample_read_num_ori*(150000/read_num_ori);其中sample_read_num_STD表示标准化后的样本序列数;sample_read_num_ori表示样本实际序列数;read_num_ori表示样本对应文库测序下机的序列数。
步骤410,根据标准化后支持对应型别的序列片段数量和比例进行筛选,最终确认每个样本的HPV型别或者确定为阴性。
标准化后,对样本现有信息进行过滤筛选,所采用的筛选条件按顺序如下:可用序列片段数小于一定阈值(如137),则认为实验或者测序操作失败;比对结果支持HPV型别的序列片段数小于一定阈值(如350),认为检测结果是阴性。比对结果支持HPV某型别的序列片段数占总序列片段数的比例达到预定阈值(该阈值的设定在具体实验背景下,需综合考虑检测的真实性及可重复性,如12%)以上,则认为样本感染了该型别。其中,各部分的具体阈值视具体的实验情况而定,前述给出的具体参数值是通过实际样品,通过统计得出的,采用阴性样本检出数的平均值+4倍方差的值作为阴阳性判断的阈值。统计结果分别见图2、5、6。不同测序平台,所应该用的过滤值会有所不同,实际生产中应该按照大致的方法先予确定;从而达到最终检测出样本感染的所有HPV型别或确定检测结果为阴性的目的。
图5示出本发明提供的HPV精确分型的生物信息学分析的方法的一个具体实施方式的流程图。
如图5所示,HPV精确分型的生物信息学分析的方法500包括:步骤502,接收高通量测序技术得到的测序片段。在本发明实施例中,采用Illumina GA高通量测序技术。
步骤504,接收到测序序列后,对测序序列进行过滤,去除不合格的序列。不合格序列包括:测序质量值低于5的碱基个数超过整条序列碱基个数的50%则认为是不合格序列;序列中测序结果中N的个数超过整条序列碱基个数的10%则认为是不合格序列;与测序接头序列库进行比对,若序列中存在测序接头序列则认为是不合格序列。
步骤506,将每个序列中样本接头序列与样本接头序列库进行比对,实现分样本操作。
步骤508,将样本接头序列从序列片段中去除。具体来说,将接头序列中有测序质量值低于5的碱基个数大于3个的序列去除。而后,1)将样本接头序列与样本接头序列库中序列进行完全匹配操作;2)假设样本接头序列降解1-2bp与样本接头序列库中序列对应部分进行完全匹配操作;3)允许样本序列仅有一个碱基的插入。在样本接头序列起始端进行完全匹配操作,当出现某碱基无法匹配时认为该碱基为插入碱基,跳过此碱基后继续严格的完全匹配操作;4)允许样本序列仅有一个碱基的缺失。在样本接头序列中模拟缺失任何一个碱基后,进行完全匹配操作。完成上述四步操作后,按照1)>2)>3)、4)的优先级顺序确定最终的样本接头序列的比对结果,而对于四步操作中四步均无比对结果,一个步骤同时比对到两个结果或仅有且同时3、4步骤比对出结果则认为是由于无法区分,而判定为无效信息,将相应的整条序列去除。比对到同一样本接头序列的被认为是来自该一样本的序列,从而实现样本区分的目的。最后去除序列中样本接头序列部分(8-11bp)。
步骤510,将测序片段与参考基因组序列进行比对,对比对后的序列进行筛选。确定筛选后的序列片段的HPV型别或阴性。本发明实施例采用blast映射程序,将高通量测序技术得到的测序片段比对到参考基因组序列上。比对后,筛选掉比对结果中比对长度低于70%,或者一致性低于85%的序列。而后保留每条序列比对结果最好的,即blast软件比对输出的第一个比对结果,同时也保留次优结果;其中,次优结果满足:序列的一致性*比对长度、比对得分分别对应的高于或等于所述最佳结果的0.9倍、0.85倍,且序列与参考序列匹配不相关的概率低于所述最佳结果的103倍。然后判断该序列比对到的型别是否是同一型别(或其亚型),最终仅保留筛选后的比对结果仅比对到某一型别的序列作为有效序列,实现确定每个序列比对的HPV型别或确认为阴性。
步骤512,将确定型别的序列的比对结果按样本合并。具体来说,在步骤506中,已经将各个序列是来自哪个样本的关系找到,按照这个关系,将属于同一个样本的序列归在一起,统计他们与HPV参考基因组的比对结果。
步骤514,对每个样本的合并后序列的数量标准化。在本发明中,为了消除这个不同,我们将各个文库每个样品所拥有的序列数量,都按照比例缩放到该文库的测序量为理想情况下的平均测序量。即对每个样本的合并后的序列数量标准化。
标准化公式为:sample_read_num_STD=sample_read_num_ori*(150000/read_num_ori);其中sample_read_num_STD表示标准化后的样本序列数;sample_read_num_ori表示样本实际序列数;read_num_ori表示样本对应文库测序下机的序列数。
步骤516,根据标准化后支持对应型别的序列片段数量和比例进行筛选,最终确认每个样本的HPV型别或者确定为阴性。在本实施例中,标准化后,按下述条件的先后顺序进行筛选:可用序列数小于137,认为实验或者测序操作失败;否则比对结果支持HPV型别的序列片段数小于350,就认为是阴性。比对结果支持HPV某型别的序列片段数占总序列片段数的12%以上,则认为感染了该型别,最终确定每个样本感染的HPV型别或者确定为阴性。
图6示出本发明实施例提供的一种HPV精确分型的生物信息学分析的系统的结构示意图。
如图6所示,一种HPV精确分型的生物信息学分析的系统600包括:接收模块602、分样本模块604、序列型别确定模块606和样本型别确定模块608。其中
接收模块602,用于接收高通量测序技术得到的测序片段。
分样本模块604,用于将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作。
序列型别确定模块606,用于将测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性。
样本型别确定模块608,用于对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,接收模块还用于:接收到测序序列后,对测序序列进行过滤,去除不合格的序列。具体采用的流程细节可参考方法实施例中的描述,这里就不再赘述。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,分样本模块还用于:实现分样本操作后,将样本接头序列从序列片段中去除。具体采用的流程细节可参考方法实施例中的描述,这里就不再赘述。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,合并筛选模块还用于:对确定型别的序列片段按样本进行合并后,对样本合并后的序列片段数量进行标准化。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例中,对样本合并后的序列片段数量进行标准化进一步包括:将各个文库中每个样品所拥有的序列数量,都按照比例缩放到文库的测序量为理想情况下的平均测序量。具体采用的流程细节可参考方法实施例中的描述,这里就不再赘述。
本发明提供的HPV精确分型的生物信息学分析的系统的一个实施例,利用生物信息学的分析方法及技术手段,实现了快速检测大量样本、快速完成对感染HPV型别的检测,具有较高的灵敏度和特异性。
图7示出本发明实施例提供的一种HPV精确分型的生物信息学分析的方法及系统在分析过程中,各阶段的有效序列占原始序列的比例变化情况示意图。
如图7所示,横坐标代表测序文库代码,纵坐标代表有效序列占原始序列的比例。Filter曲线表示不同测序文库在过滤测序序列后有效序列占原始序列的比例变化情况;Lib_Match曲线表示不同测序文库在样本区分完成后有效序列占原始序列的比例变化情况;Final曲线表示不同测序文库在序列HPV型别确定后有效序列占原始序列的比例变化情况。本实例全部50个测序文库的序列有效利用率达到了80%以上。
图8示出本发明实施例提供的真实样本与阴性对照样本的有效序列片段数量的分布情况示意图。
如图8所示,阴性对照样本的有效序列片段的平均数为19.82。该平均值加四倍的有效序列片段个数的标准差为136.98。如图8所示,将137个有效序列片段作为实验或者测序操作成功与否界定值可以有效的将真实样本和阴性对照样本区分开来。
图9示出本发明实施例提供的每个样本重复10次测序及分析后的重复性的结果示意图。
为了评估将支持HPV型别的序列片段数350确定为检测结果阴阳性的界定值的有效性,图9示出了每个样本重复10次测序及分析后的重复性的结果。如图9所示,横坐标表示确定检测结果阴阳性的界定值,纵坐标表示所有样本重复率的平均值。本领域技术人员根据图9所示可以清楚地知晓,所有样本无论是在香港还是深圳进行测序,当将支持HPV型别的序列片段数350确定为检测结果阴阳性的界定值时,样本重复分析的重复性高达99%,充分体现了本发明对于HPV检测的稳定性。
图10示出本发明实施例提供的所有真实样本检测出的阴阳性结果与血液阴性样本、临床检测结果的比较示意图。
如图10所示,血液(Blood DNA)是确定的没有HPV感染的阴性样本。在临床上将检测结果大于1的患者确认为HPV感染阳性。本领域技术人员根据图10所示可以清楚地知晓,将支持HPV型别的序列片段数350确定为检测结果阴阳性的界定值时,本实施例中确认HPV感染阴阳性的结果绝大部分与临床检测结果相同。而350的阈值又可以把血液阴性样本和阳性样本区分开来,避免了假阳性。由于临床检测结果并不能完全作为阳性对照,所以本实施例的检测结果已足以证明本发明的精确性。
图11示出本发明实施例提供的第二类文库中质粒样本的检测结果的示意图。
如图11所示,横坐标表示为质粒中载入HPV病毒的型别,纵坐标表示的为实施例分析过程中支持对应HPV病毒型别的序列片段所占比例。本领域技术人员根据图11所示可以清楚地知晓,将支持HPV某型别的序列片段数比例达到12%以上的样本确定为感染HPV的型别,可以有效的特异的检测出样本感染了的具体型别。
表1  样本库的检测结果
表1示出本发明实验例提供的一个样本库的检测结果。如表1所示,本表为第一类文库的一个样本库检测结果。其中,“HBB”表示检测结果为阴性,“-”表示因样品问题或实验问题导致检测到的序列数低于137,认为此样品检测失败。
参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明具有以下优点:
1、本发明提供的HPV精确分型的生物信息学分析的方法及系统的一个实施例,利用生物信息学的分析方法及技术手段,实现了快速检测大量样本、快速完成对感染HPV型别的检测,具有较高的灵敏度和特异性。
2、本发明提供的HPV精确分型的生物信息学分析的方法及系统的一个实施例,通过对测序序列进行过滤,去除不合格的序列,进一步降低了不合格序列的影响,从而提高了检测分析的准确性。
3、本发明提供的HPV精确分型的生物信息学分析的方法及系统的一个实施例,将测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作后,再将样本接头序列从序列片段中去除,从而确保HPV分型分析的真实性和可靠性,为进一步的HPV精确分型提供保障。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。本发明中描述的功能模块以及功能模块的划分方式仅为说明本发明的思想,本领域技术人员根据本发明的教导以及实际应用的需要可以自由改变功能模块的划分方式及其模块构造以实现相同的功能;选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (16)

1.一种HPV精确分型的生物信息学分析的方法,非疾病诊断目的,其特征在于,所述方法包括:
接收高通量测序技术得到的测序片段;
将所述测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作;
将所述测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性;
对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收到测序序列后,对测序序列进行过滤,去除不合格的序列。
3.根据权利要求2所述的方法,其特征在于,步骤“对测序序列进行过滤,去除不合格的序列”进一步包括:
预先设置不合格碱基的测序质量阈值和比例阈值;
当测序序列中碱基的测序质量值低于所述测序质量阈值,且低于测序质量阈值的碱基个数占整条序列碱基个数的比例超过所述比例阈值时;则认为所述测序序列是不合格序列并加以过滤;
当所述测序序列的测序结果中不确定的碱基的个数超过整条序列碱基个数的10%,则认为所述测序序列是不合格序列并加以过滤;
与测序接头序列库进行比对时,如果所述测序序列中存在测序接头序列,则所述测序序列是不合格序列并加以过滤。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:实现分样本操作后,将所述样本接头序列从序列片段中去除。
5.根据权利要求4所述的方法,其特征在于,步骤“将所述样本接头序列从序列片段中去除”进一步包括:
预先设置所述样本接头序列的测序质量阈值和碱基数阈值;
将接头序列中碱基的测序质量值低于所述测序质量阈值,且所述碱基的数量超过所述碱基数阈值的序列去除。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
步骤a、将样本接头序列与样本接头序列库中序列进行完全匹配操作;
步骤b、将样本接头序列降解1-2bp碱基,与样本接头序列库中序列对应部分进行完全匹配操作;
步骤c、允许样本接头序列仅有一个碱基的插入,即在所述样本接头序列起始端进行完全匹配操作,当出现一个碱基无法匹配时将该碱基视为插入碱基,跳过此碱基后继续执行完全匹配操作;
步骤d、允许样本接头序列仅有一个碱基的缺失,即在样本接头序列中模拟缺失任何一个碱基后,进行完全匹配操作;
完成所述步骤a-d后,按照优先级顺序:步骤a>步骤b>“步骤c或步骤d”的顺序确定最终的样本接头序列的比对结果;
比对到同一样本接头序列的被认为是来自同一样本的序列,从而区分样本;以及
去除所述样本的序列中的样本接头序列。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
如果步骤a-d四步操作中均无比对结果,或者一个步骤同时比对到两个结果,或者仅有步骤c和步骤d同时比对出结果;则认为该比对结果是由于无法区分而判定为无效信息,并将相应的整条序列去除。
8.根据权利要求1所述的方法,其特征在于,步骤“对比对后的序列进行筛选”进一步包括:
将高通量测序技术得到的测序片段比对到参考基因组序列上;
比对后,筛选并去除比对结果中比对长度低于70%,或者一致性低于85%的序列;
保留每条序列比对结果中的最佳结果;
保留次优结果;其中,所述次优结果满足:序列的一致性*比对长度、比对得分分别对应的高于或等于所述最佳结果的0.9倍、0.85倍,且序列与参考序列匹配不相关的概率低于所述最佳结果的103倍;
判断每条序列的最佳结果和次优结果是否比对到同一型别或其亚型,如果是,则保留比对结果仅比对到某一型别的序列作为有效序列,确定所述有效序列比对的HPV型别或阴性。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:对确定型别的序列片段按样本进行合并后,对所述样本合并后的序列片段数量进行标准化。
10.根据权利要求9所述的方法,其特征在于,对所述样本合并后的序列片段数量进行标准化进一步包括:
将各个文库中每个样品所拥有的序列数量,都按照比例缩放到所述文库的测序量为理想情况下的平均测序量;其中,所述理想情况下是指各个混合在一个测序道lane里面的样品的上样量都一样,且都被平均地测到同等的测序量。
11.根据权利要求9所述的方法,其特征在于,步骤“根据合并后支持对应型别的序列片段数量和比例进行筛选”进一步包括:
标准化后,按下述条件的先后顺序进行筛选:
如果可用序列数小于阴性对照样本的有效序列片段的平均个数加上其四倍标准差的和,认为实验或者测序操作失败;
否则,如果比对结果支持HPV型别的序列片段数小于预定阈值,就认为是阴性;
如果比对结果支持HPV型别的序列片段数占总序列片段数的比例达到预定阈值以上,则认为感染了该型别。
12.一种HPV精确分型的生物信息学分析的系统,其特征在于,所述系统包括:
接收模块,用于接收高通量测序技术得到的测序片段;
分样本模块,用于将所述测序片段中的样本接头序列与样本接头序列库进行比对,实现分样本操作;
序列型别确定模块,用于将所述测序片段与参考基因组序列进行比对,对比对后的序列进行筛选,确定筛选后的序列片段的HPV型别或阴性;
样本型别确定模块,用于对确定型别的序列片段按样本进行合并,并根据合并后支持对应型别的序列片段数量和比例进行筛选;最终确认每个样本的HPV型别或者确定为阴性。
13.根据权利要求12所述的系统,其特征在于,所述接收模块还用于:接收到测序序列后,对测序序列进行过滤,去除不合格的序列。
14.根据权利要求12所述的系统,其特征在于,所述分样本模块还用于:实现分样本操作后,将所述样本接头序列从序列片段中去除。
15.根据权利要求12所述的系统,其特征在于,所述样本型别确定模块还用于:对确定型别的序列片段按样本进行合并后,对所述样本合并后的序列片段数量进行标准化。
16.根据权利要求15所述的系统,其特征在于,对所述样本合并后的序列片段数量进行标准化进一步包括:
将各个文库中每个样品所拥有的序列数量,都按照比例缩放到所述文库的测序量为理想情况下的平均测序量;其中,所述理想情况下是指各个混合在一个测序道lane里面的样品的上样量都一样,且都被平均地测到同等的测序量。
CN201080070484.7A 2010-12-02 2010-12-02 Hpv 精确分型的生物信息学分析的方法及系统 Active CN103261442B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/001943 WO2012071685A1 (zh) 2010-12-02 2010-12-02 Hpv精确分型的生物信息学分析的方法及系统

Publications (2)

Publication Number Publication Date
CN103261442A CN103261442A (zh) 2013-08-21
CN103261442B true CN103261442B (zh) 2014-12-10

Family

ID=46171145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080070484.7A Active CN103261442B (zh) 2010-12-02 2010-12-02 Hpv 精确分型的生物信息学分析的方法及系统

Country Status (3)

Country Link
CN (1) CN103261442B (zh)
HK (1) HK1185113A1 (zh)
WO (1) WO2012071685A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111919257A (zh) * 2018-07-27 2020-11-10 思勤有限公司 降低测序数据中的噪声

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019047109A1 (zh) * 2017-09-07 2019-03-14 深圳华大基因股份有限公司 一种hpv精确分型的生物信息学分析方法及系统
CN111755075B (zh) * 2019-03-28 2023-09-29 深圳华大生命科学研究院 对免疫组库高通量测序样本间序列污染进行过滤的方法
CN110951853B (zh) * 2019-12-10 2021-03-30 中山大学附属第一医院 一种精确检测人基因组中dna病毒的方法
CN116403647B (zh) * 2023-06-08 2023-08-15 上海精翰生物科技有限公司 一种检测慢病毒整合位点的生物信息检测方法及其应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101374963A (zh) * 2005-12-22 2009-02-25 凯津公司 用于基于aflp的高通量多态性检测的方法
CN101397590A (zh) * 2008-10-27 2009-04-01 杭州迪安医学检验中心有限公司 人乳头状瘤病毒基因分型方法
CN101435002A (zh) * 2008-12-12 2009-05-20 深圳华大基因科技有限公司 一种检测人类乳头瘤病毒基因型的方法
CN101838709A (zh) * 2010-04-13 2010-09-22 中山大学 一种微量hpv快速基因分型方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101374963A (zh) * 2005-12-22 2009-02-25 凯津公司 用于基于aflp的高通量多态性检测的方法
CN101397590A (zh) * 2008-10-27 2009-04-01 杭州迪安医学检验中心有限公司 人乳头状瘤病毒基因分型方法
CN101435002A (zh) * 2008-12-12 2009-05-20 深圳华大基因科技有限公司 一种检测人类乳头瘤病毒基因型的方法
CN101838709A (zh) * 2010-04-13 2010-09-22 中山大学 一种微量hpv快速基因分型方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111919257A (zh) * 2018-07-27 2020-11-10 思勤有限公司 降低测序数据中的噪声
CN111919257B (zh) * 2018-07-27 2021-05-28 思勤有限公司 降低测序数据中的噪声的方法和系统及其实施和应用

Also Published As

Publication number Publication date
HK1185113A1 (zh) 2014-02-07
CN103261442A (zh) 2013-08-21
WO2012071685A1 (zh) 2012-06-07

Similar Documents

Publication Publication Date Title
JP6695392B2 (ja) ゲノム配列決定を使用する胎児染色体異数性の診断
US20230151436A1 (en) Diagnostic applications using nucleic acid fragments
CN111462821B (zh) 病原微生物分析鉴定系统及应用
US8442774B2 (en) Diagnosing fetal chromosomal aneuploidy using paired end
CN107406885A (zh) 使用血浆dna的尺寸和数目畸变检测癌症
CN103261442B (zh) Hpv 精确分型的生物信息学分析的方法及系统
US10731224B2 (en) Enhancement of cancer screening using cell-free viral nucleic acids
WO2019223502A1 (zh) 一种基于cfDNA高通量测序检测病原体的方法
CN105132407A (zh) 一种脱落细胞dna低频突变富集测序方法
CN112397151A (zh) 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置
CN108949979A (zh) 一种通过血液样本判断肺结节良恶性的方法
CN102982253B (zh) 一种多样本间甲基化差异检测方法及装置
KR20230044439A (ko) 미토콘드리아 dna 품질 관리

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1185113

Country of ref document: HK

C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: Two, 518083 floor, 11 floor, Beishan Industrial Zone, 146 North Mountain Road, Yantian District, Guangdong, Shenzhen

Applicant after: Shenzhen BGI Medicine Co., Ltd.

Address before: Two, 518083 floor, 11 floor, Beishan Industrial Zone, 146 North Mountain Road, Yantian District, Guangdong, Shenzhen

Applicant before: Shenzhen Huada Gene Health Technology Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SHENZHEN BEIJING GENOMICS INSTITUTE HEALTH TECHNOLOGY CO., LTD. TO: SHENZHEN BGI MEDICINE CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20130821

Assignee: Huada biological technology (Wuhan) Co., Ltd.

Assignor: Shenzhen BGI Medicine Co., Ltd.

Contract record no.: 2014990000868

Denomination of invention: Method and system for bioinformatics analysis of hpv precise typing

License type: Exclusive License

Record date: 20141118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1185113

Country of ref document: HK

C56 Change in the name or address of the patentee

Owner name: SHENZHEN BGI CORPORATION

Free format text: FORMER NAME: SHENZHEN BGI MEDICINE CO., LTD.

CP03 Change of name, title or address

Address after: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Patentee after: BGI SHENZHEN CO LTD

Address before: Two, 518083 floor, 11 floor, Beishan Industrial Zone, 146 North Mountain Road, Yantian District, Guangdong, Shenzhen

Patentee before: Shenzhen BGI Medicine Co., Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160823

Address after: 430075 East Lake high tech Development Zone, Wuhan, Hubei high tech Avenue, No. 666 Wuhan national biological industry base project B, C, D District R & D building B2

Patentee after: Huada biological technology (Wuhan) Co., Ltd.

Address before: Yantian District of Shenzhen City, Guangdong province 518083 Hongan street No. 21 China Comprehensive Park 7 Building 7 layer -14 layer

Patentee before: BGI SHENZHEN CO LTD