CN108664767B - 测序建库的引物序列处理方法、装置、设备及存储介质 - Google Patents

测序建库的引物序列处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108664767B
CN108664767B CN201810490410.7A CN201810490410A CN108664767B CN 108664767 B CN108664767 B CN 108664767B CN 201810490410 A CN201810490410 A CN 201810490410A CN 108664767 B CN108664767 B CN 108664767B
Authority
CN
China
Prior art keywords
read
comparison
original
sequencing
bases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810490410.7A
Other languages
English (en)
Other versions
CN108664767A (zh
Inventor
刘晶星
毛琳琳
严慧
赵薇薇
于世辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kingmed Diagnostics Group Co ltd
Original Assignee
Guangzhou Kingmed Diagnostics Group Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kingmed Diagnostics Group Co ltd, Guangzhou Kingmed Diagnostics Central Co Ltd filed Critical Guangzhou Kingmed Diagnostics Group Co ltd
Priority to CN201810490410.7A priority Critical patent/CN108664767B/zh
Publication of CN108664767A publication Critical patent/CN108664767A/zh
Application granted granted Critical
Publication of CN108664767B publication Critical patent/CN108664767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种测序建库的引物序列处理方法、装置、设备及存储介质。该方法包括获取将测序数据比对到参考基因组得到的测序比对文件、从所述测序比对文件得到正向比对结果和反向比对结果、确定正向比对结果中的各read对应的扩增子,以及确定反向比对结果中的各read对应的扩增子等步骤。该测序建库的引物序列处理方法、装置、设备和存储介质通过对测序结果进行处理,可以精准识别扩增片段中的引物部分,经过后续处理,如软切或硬切,可以排除该引物部分对测序结果分析的影响,可以最大限度的保留待测序片段的数据信息,保证测序结果分析的准确性和可靠性。

Description

测序建库的引物序列处理方法、装置、设备及存储介质
技术领域
本发明涉及二代测序技术领域,尤其是涉及一种测序建库的引物序列处理方法、装置、设备及存储介质。
背景技术
一般通过扩增构建的NGS(Next-generation sequencing,下一代测序、二代测序,又名High-throughput sequencing,即下一代测序)测序文库,在分析时会将扩增范围外的引物对应的测序结果排除,因为这部分测序结果有一半来源于引物而不是扩增的待测片段,从而导致了引物部分测序数据的丢失,而如果不排除这部分序列便会引入分析误差。对于一个较大的扩增片段,往往需要多对引物进行多重扩增才能扩增完整,在扩增片段的中间也有引物序列,这时候就不能简单地通过扩增片段范围来排除,否则就会导致引物序列掺入测序结果从而引入分析误差。例如引物对应的待测序片段上有一个突变,而引物是和参考序列一致没有突变的,因此直接分析测序结果会导致该突变的突变频率降低。
发明内容
基于此,针对上述技术问题,有必要提供一种测序建库的引物序列处理方法、装置、设备及存储介质。
本发明解决上述技术问题的技术方案如下。
一种测序建库的引物序列处理方法,包括如下步骤:
获取将测序数据比对到参考基因组得到的测序比对文件;
从所述测序比对文件得到正向比对结果和反向比对结果;
对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;
对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。
在其中一个实施例中,在得到正向比对结果中各read对应的扩增子之后,还包括:
将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
在其中一个实施例中,在得到正向比对结果中各read对应的扩增子之后,还包括:
对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在所述原始序列数据中切除该序列部分的序列数据。
在其中一个实施例中,所述测序比对文件为bam格式文件,所述软切包括:
根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量;
将所述测序比对文件的CIGAR值中前面与所述正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据所述正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
在其中一个实施例中,在得到反向比对结果中各read对应的扩增子之后,还包括:
将与反向比对的各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
在其中一个实施例中,在得到反向比对结果中各read对应的扩增子之后,还包括:
对反向比对的各read的原始比对终止位置与与其对应的扩增子的终止位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在所述原始序列数据中切除该序列部分的序列数据。
在其中一个实施例中,所述测序比对文件为bam格式文件,所述软切包括:
根据反向比对结果中的各read对应的扩增子的终止位置与各read的原始比对终止位置之间的碱基数量,确定各read的反向引物待切碱基数量;
将所述测序比对文件的CIGAR值中后面与所述反向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,前面的其他碱基根据所述反向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
一种测序建库的引物序列处理装置,包括:
测序比对文件获取模块,用于获取将测序数据比对到参考基因组得到的测序比对文件;
正反比对结果分析模块,用于从所述测序比对文件得到正向比对结果和反向比对结果;
正向比对结果处理模块,用于对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;
反向比对结果处理模块,用于对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。
一种计算机设备,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的测序建库的引物序列处理方法的步骤。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例所述的测序建库的引物序列处理方法的步骤。
上述测序建库的引物序列处理方法、装置、设备和存储介质通过对测序结果进行处理,可以精准识别扩增片段中的引物部分,经过后续处理,如软切或硬切,可以排除该引物部分对测序结果分析的影响,可以最大限度的保留待测序片段的数据信息,保证测序结果分析的准确性和可靠性。
附图说明
图1为一实施例的测序建库的引物序列处理方法的流程图;
图2为另一实施例的测序建库的引物序列处理方法的流程图;
图3为对图2中正向比对结果中的各read的软切流程图;
图4为对图2中反向比对结果中的各read的软切流程图;
图5为软切流程示意图;
图6为软切效果示意图;
图7为软切对突变的影响示意图;
图8为一实施例的测序建库的引物序列处理装置的结构示意图;
图9为另一实施例的测序建库的引物序列处理装置的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本文所述的“read”是高通量测序平台(如各类二代测序平台)所产生的测序序列;所述的“正向比对结果”是指read与参考序列的比对方向相同、序列一致,所述的“反向比对结果”是指read与参考序列的比对方向相反、序列反向互补;所述的“比对起始位置”是指read比对到参考序列的最左侧位置坐标;所述的“软切”即softclip,是指read比对效果不好,需屏蔽掉read的一部分后才能比对上参考序列,被屏蔽的部分仍保留在bam文件中,“硬切”即hardclip,是指与“软切”类似,但被屏蔽的部分没有保留在bam文件中;所述的“CIGAR”是Concise Idiosyncratic Gapped Alignment Report的缩写,记录了read的比对信息,如“4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S”,一个CIGAR值中具有不同的标记类型,如表示完全比对的M标记、表示插入的I标记、表示缺失的D标记、表示软切的S标记以及表示硬切的H标记等,前面的数字表示相应标记的碱基数量。
如图1所示,一实施例的测序建库的引物序列处理方法,包括如下步骤:
步骤S110:获取将测序数据比对到参考基因组得到的测序比对文件。
测序数据是采用二代测序的方式进行测序得到的数据。通过对测序数据与参考基因组进行比对,可以得到测序比对文件。测序比对文件可以是各类型文件,如bam格式文件等。
步骤S120:从测序比对文件得到正向比对结果和反向比对结果。
具体地,如可以将测序比对文件拆分为正向比对结果和反向比对结果。对于bam格式的测序比对文件,其中具有代表正向比对结果和反向比对结果信息的列,通过相应列的信息就可以将测序比对文件拆分为正向比对结果和反向比对结果。
步骤S130:对正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子。
步骤S140:对反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。
如图2所示,在其他实施例中,该测序建库的引物序列处理方法除包括与步骤S110、步骤S120、步骤S130以及步骤S140分别对应的步骤S210、步骤S220、步骤S230以及步骤S240之外,在得到正向比对结果中各read对应的扩增子之后还进一步包括:
步骤S250:将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
具体地,可以在bam格式的测序比对文件中,将各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置(后续软切位点)。
更进一步,在得到正向比对结果中各read对应的扩增子之后还包括:
步骤S260:对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据。
具体地,当测序比对文件为bam格式文件,如图3所示,软切包括:
步骤S261:根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量。
正向引物待切碱基数量等于read对应的扩增子的起始位置与该read的原始比对起始位置之间的碱基数量。
步骤S262:将测序比对文件的CIGAR值中前面与正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
CIGAR值中前面与正向引物待切碱基数量相同数量的碱基的原始标记可以是上述的M标记、S标记、I标记及D标记中的一种或几种。在软切时,将该部分的碱基全部确定为S(即软切)标记的碱基,对于前面已有S标记的碱基,该原有S标记的碱基作为新确定的S标记的碱基的一部分,将正向引物待切碱基数量减去原有S标记的碱基的总数量后,前面除原有S标记的碱基之外的其他标记的碱基按照减去后的数量全部确定为S标记的碱基;对于前面有I标记的碱基,在确定S标记的碱基的数量时,需要在正向引物待切碱基数量的基础上加上I标记的碱基的数量;对于前面有D标记的碱基,在确定S标记的碱基的数量时,需要在正向引物待切碱基数量的基础上减去D标记的碱基的数量。更具体地,例如:原CIGAR值为150M,正向引物待切碱基数量为20,软切之后的CIGAR值就为20S130M;又如原CIGAR值为12M1D139M,正向引物待切碱基数量为20,软切之后的CIGAR值就为19S132M;又如原CIGAR值为12M1I139M,正向引物待切碱基数量为20,软切之后的CIGAR值就为21S131M;又如原CIGAR值为5S15M2D128M,正向引物待切碱基数量为10,软切之后的CIGAR值就为15S5M2D128M;又如原CIGAR值为5S15M2D128M,正向引物待切碱基数量为20,软切之后的CIGAR值就为23S125M。
进一步,在得到反向比对结果中各read对应的扩增子之后,还包括:
步骤S270:将与反向比对的各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
具体地,可以在bam格式的测序比对文件中,将与各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
更进一步,在得到反向比对结果中各read对应的扩增子之后,还包括:
步骤S280:对反向比对的各read的原始比对终止位置与与其对应的扩增子的终止位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据。
具体地,当测序比对文件为bam格式文件,如图4所示,软切包括:
步骤S281:根据反向比对结果中的各read对应的扩增子的终止位置与各read的原始比对终止位置之间的碱基数量,确定各read的反向引物待切碱基数量。
反向引物待切碱基数量等于read对应的扩增子的终止位置与该read的原始比对终止位置之间的碱基数量。
步骤S282:将测序比对文件的CIGAR值中后面与反向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,前面的其他碱基根据反向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
CIGAR值中后面与反向引物待切碱基数量相同数量的碱基的原始标记可以是上述的M标记、S标记、I标记及D标记中的一种或几种。在软切时,将该部分的碱基全部确定为S(即软切)标记的碱基,对于后面已有S标记的碱基,将后面除原有S标记的碱基之外的其他标记的碱基按照反向引物待切碱基数量全部确定为S标记的碱基,并与原有S标记的碱基一起计数作为新的S标记的碱基;对于后面有I标记的碱基,在确定S标记的碱基的数量时,需要在反向引物待切碱基数量的基础上加上I标记的碱基的数量;对于后面有D标记的碱基,在确定S标记的碱基的数量时,需要在反向引物待切碱基数量的基础上减去D标记的碱基的数量。更具体地,例如:原CIGAR值为150M,反向引物待切碱基数量为20,软切之后的CIGAR值就为130M20S;又如原CIGAR值为139M12S,反向引物待切碱基数量为20,软切之后的CIGAR值就为119M32S。
如图5所示,该测序建库的引物序列处理方法通过对测序结果进行处理,可以精准识别扩增片段中的引物部分,经过后续处理,如软切或硬切等,可以排除该引物部分对测序结果分析的影响,可以最大限度的保留待测序片段的数据信息,保证测序结果分析的准确性和可靠性。
如图6所示,经过软切之后,各read比之前的read短一点,说明有引物部分被切去。如图7所示,对突变的影响:chr13:32972435位置有一A>C突变,该位置位于一个扩增子内部,同时位于另一扩增子的引物上,经软切掉引物来源的序列后,可以矫正突变频率。
如图8所示,本发明还提供了一种测序建库的引物序列处理装置300,其包括:
测序比对文件获取模块310,用于获取将测序数据比对到参考基因组得到的测序比对文件;
正反比对结果分析模块320,用于从测序比对文件得到正向比对结果和反向比对结果;
正向比对结果处理模块330,用于对正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;
反向比对结果处理模块340,用于对反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子。
如图9所示,在其他实施例中,测序建库的引物序列处理装置400除包括与测序比对文件获取模块310、正反比对结果分析模块320、正向比对结果处理模块330以及反向比对结果处理模块340分别对应的测序比对文件获取模块410、正反比对结果分析模块420、正向比对结果处理模块430以及反向比对结果处理模块440之外,还包括正向比对起始位置确定模块450。正向比对起始位置确定模块450用于将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
更进一步,该测序建库的引物序列处理装置400还包括正向引物序列处理模块460。正向引物序列处理模块460用于对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据。
具体地,该正向引物序列处理模块460包括正向引物待切碱基数量确定模块461和正向软切标记模块462。正向引物待切碱基数量确定模块461用于根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量。正向软切标记模块462用于将测序比对文件的CIGAR值中前面与正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
进一步,如图9所示,该测序建库的引物序列处理装置400还包括反向比对起始位置确定模块470。反向比对起始位置确定模块470用于将与反向比对的各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置。
更进一步,该测序建库的引物序列处理装置400反向引物序列处理模块480。反向引物序列处理模块480用于对反向比对的各read的原始比对终止位置与与其对应的扩增子的终止位置之间的序列部分进行软切、硬切、或提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据。
具体地,该反向引物序列处理模块480包括反向引物待切碱基数量确定模块481和反向软切标记模块482。反向引物待切碱基数量确定模块481用于根据反向比对结果中的各read对应的扩增子的终止位置与各read的原始比对终止位置之间的碱基数量,确定各read的反向引物待切碱基数量。反向软切标记模块482用于将测序比对文件的CIGAR值中后面与反向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,前面的其他碱基根据反向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
例如,正向比对结果处理模块330分析得到一read对应的扩增子信息如下:
chr13 32890520 32890813
在软切之前的原始bam格式的测序比对文件中与该扩增子对应的read信息:
M02744:68:1:1101:10018:14317 163 chr13 32890497 60 151M;
M02744:68:1:1101:16429:22272 83 chr13 32890686 60 121M1D30M
经过正向引物待切碱基数量确定模块461和反向引物待切碱基数量确定模块481分析处理,确定正向引物待切碱基数量反向引物待切碱基数量均为24,经正向软切标记模块462和反向软切标记模块482处理后,以上read的信息变为:
M02744:68:1:1101:10018:14317 163 chr13 32890521 60 24S127M。
M02744:68:1:1101:16429:22272 83 chr13 32890686 60 121M1D6M24S
基于如上所述的实施例,本发明还提供了一种可用于测序建库的引物序列处理的计算机设备,具有处理器和存储器,存储器上存储有计算机程序,处理器执行该计算机程序时实现上述任一实施例的测序建库的引物序列处理方法的步骤。
本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
据此,本发明还提供了一种可用于测序建库的引物序列处理的计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现上述任一实施例的测序建库的引物序列处理方法的步骤。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种测序建库的引物序列处理方法,其特征在于,包括如下步骤:
获取将测序数据比对到参考基因组得到的测序比对文件;
从所述测序比对文件得到正向比对结果和反向比对结果;
对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;
将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置;
对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分按照如下三种方式中的一种进行处理:1、软切,2、硬切,3、提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据;
对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子;
将反向比对的与各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置;
对反向比对的各read的原始比对终止位置与与其对应的扩增子的终止位置之间的序列部分按照如下三种方式中的一种进行处理:1、软切,2、硬切,3、提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据。
2.如权利要求1所述的测序建库的引物序列处理方法,其特征在于,所述测序比对文件为bam格式文件,所述软切包括:
根据正向比对结果中的各read对应的扩增子的起始位置与各read的原始比对起始位置之间的碱基数量,确定各read的正向引物待切碱基数量;
将所述测序比对文件的CIGAR值中前面与所述正向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,后面的其他碱基根据所述正向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
3.如权利要求1所述的测序建库的引物序列处理方法,其特征在于,所述测序比对文件为bam格式文件,所述软切包括:
根据反向比对结果中的各read对应的扩增子的终止位置与各read的原始比对终止位置之间的碱基数量,确定各read的反向引物待切碱基数量;
将所述测序比对文件的CIGAR值中后面与所述反向引物待切碱基数量相同数量的碱基全部确定为软切标记的碱基,前面的其他碱基根据所述反向引物待切碱基数量、相应read的总碱基数量以及原始标记重新标记。
4.一种测序建库的引物序列处理装置,其特征在于,包括:
测序比对文件获取模块,用于获取将测序数据比对到参考基因组得到的测序比对文件;
正反比对结果分析模块,用于从所述测序比对文件得到正向比对结果和反向比对结果;
正向比对结果处理模块,用于对所述正向比对结果中的各read,从起始位置大于当前read的原始比对起始位置的所有扩增子中,确定起始位置最接近当前read的原始比对起始位置的扩增子作为与当前read对应的扩增子,得到正向比对结果中各read对应的扩增子;
正向比对起始位置确定模块,用于将正向比对的各read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置;
正向引物序列处理模块,用于对正向比对的各read的原始比对起始位置与与其对应的扩增子的起始位置之间的序列部分按照如下三种方式中的一种进行处理:1、软切,2、硬切,3、提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据;
反向比对结果处理模块,用于对所述反向比对结果中的各read,从终止位置小于当前read的原始比对终止位置的所有扩增子中,确定终止位置最接近当前read的原始比对终止位置的扩增子作为与当前read对应的扩增子,得到反向比对结果中各read对应的扩增子;
反向比对起始位置确定模块,用于将与反向比对的各read对应的配对read的比对起始位置由其原始比对起始位置重新确定为与各read对应的扩增子的起始位置;
反向引物序列处理模块,用于对反向比对的各read的原始比对终止位置与与其对应的扩增子的终止位置之间的序列部分按照如下三种方式中的一种进行处理:1、软切,2、硬切,3、提取出原始序列数据后,在原始序列数据中切除该序列部分的序列数据。
5.一种计算机设备,其特征在于,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~3中任一项所述的测序建库的引物序列处理方法的步骤。
6.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1~3中任一项所述的测序建库的引物序列处理方法的步骤。
CN201810490410.7A 2018-05-21 2018-05-21 测序建库的引物序列处理方法、装置、设备及存储介质 Active CN108664767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810490410.7A CN108664767B (zh) 2018-05-21 2018-05-21 测序建库的引物序列处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810490410.7A CN108664767B (zh) 2018-05-21 2018-05-21 测序建库的引物序列处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108664767A CN108664767A (zh) 2018-10-16
CN108664767B true CN108664767B (zh) 2020-01-31

Family

ID=63777270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810490410.7A Active CN108664767B (zh) 2018-05-21 2018-05-21 测序建库的引物序列处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108664767B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110504006B (zh) * 2019-07-15 2023-03-28 广州奇辉生物科技有限公司 一种处理扩增子数据的方法、系统、平台及存储介质
CN111584011B (zh) * 2020-04-10 2023-08-29 中国科学院计算技术研究所 面向基因比对的细粒度并行负载特征抽取分析方法及系统
CN116884492A (zh) * 2023-02-07 2023-10-13 杭州联川基因诊断技术有限公司 一种靶向测序数据的mTag类别选取的方法、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104153004A (zh) * 2014-08-11 2014-11-19 上海美吉生物医药科技有限公司 一种用于扩增子测序的建库方法
CN104263726A (zh) * 2014-09-25 2015-01-07 天津诺禾致源生物信息科技有限公司 适用于扩增子测序文库构建的引物及扩增子测序文库的构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130123120A1 (en) * 2010-05-18 2013-05-16 Natera, Inc. Highly Multiplex PCR Methods and Compositions
CN104694540A (zh) * 2015-04-01 2015-06-10 北京诺禾致源生物信息科技有限公司 适用于多样本的扩增子文库构建的引物、扩增子文库及其构建方法
CN107304443B (zh) * 2016-04-20 2020-12-29 上海市内分泌代谢病研究所 嗜铬细胞致病基因二代测序建库用pcr引物及建库方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104153004A (zh) * 2014-08-11 2014-11-19 上海美吉生物医药科技有限公司 一种用于扩增子测序的建库方法
CN104263726A (zh) * 2014-09-25 2015-01-07 天津诺禾致源生物信息科技有限公司 适用于扩增子测序文库构建的引物及扩增子测序文库的构建方法

Also Published As

Publication number Publication date
CN108664767A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664767B (zh) 测序建库的引物序列处理方法、装置、设备及存储介质
JP6314091B2 (ja) Dna配列のデータ分析
Tischler et al. Non hybrid long read consensus using local de Bruijn graph assembly
CN111584002B (zh) 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质
US10325674B2 (en) Apparatus, method, and system for creating phylogenetic tree
US20130226467A1 (en) System and method for processing reference sequence for analyzing genome sequence
CN113851189B (zh) 一种自适应检测pcr荧光基线的方法、装置及其设备
US11205501B2 (en) Determination of frequency distribution of nucleotide sequence variants
US9348968B2 (en) System and method for processing genome sequence in consideration of seed length
CN110993022B (zh) 检测拷贝数扩增的方法和装置及建立检测拷贝数扩增的动态基线的方法和装置
US20120330563A1 (en) Assembly Error Detection
US20190050568A1 (en) Process search apparatus and computer-readable recording medium
CN104239749A (zh) 碱基序列对准系统及方法
NZ769731B2 (en) Determination of frequency distribution of nucleotide sequence variants
CN109637585B (zh) 测序深度的矫正方法及装置
Freedman et al. Building better genome annotations across the tree of life
CN109637586B (zh) 测序深度的矫正方法及装置
US20220230708A1 (en) Method for detecting outlier of theoretical masses
CN109584959B (zh) 测序深度的矫正方法及装置
CN114496073B (zh) 用于识别阳性重排的方法、计算设备和计算机存储介质
CN114300051A (zh) 一种计算融合基因频率的方法及装置
CN116312769A (zh) 一种过滤低复杂度高通量测序数据的装置、方法及计算机可读存储介质
CN114496087A (zh) 用于确定阳性断点的方法、计算设备和计算机存储介质
Romanenkov et al. A new method of evaluating genome assemblies based on kmers frequencies
US20140350866A1 (en) Method of Gap Closing in Nucleotide Sequence and Apparatus Thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181016

Assignee: Zhengzhou Jinyu Clinical Laboratory Center Co.,Ltd.

Assignor: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd.

Contract record no.: X2021980010019

Denomination of invention: Primer sequence processing method, device, equipment and storage medium for sequencing Library

Granted publication date: 20200131

License type: Common License

Record date: 20210928

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211015

Address after: 510320 No. 10, helix 3 Road, International Biological Island, development zone, Guangzhou, Guangdong

Patentee after: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd.

Address before: 510005 Jinyu inspection building, No. 10, helix 3 Road, Guangzhou International Biological Island, development zone, Guangzhou, Guangdong

Patentee before: GUANGZHOU KINGMED CENTER FOR CLINICAL LABORATORY

Patentee before: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd.

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Zhengzhou Jinyu Clinical Laboratory Center Co.,Ltd.

Assignor: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd.

Contract record no.: X2021980010019

Date of cancellation: 20220922

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20181016

Assignee: Zhengzhou Jinyu Clinical Laboratory Center Co.,Ltd.

Assignor: GUANGZHOU KINGMED DIAGNOSTICS GROUP Co.,Ltd.

Contract record no.: X2022980016522

Denomination of invention: Primer sequence processing method, device, equipment and storage medium for sequencing and database building

Granted publication date: 20200131

License type: Common License

Record date: 20220927