CN113096735B - 从离体血清中分析hbv dna整合事件的系统及方法 - Google Patents

从离体血清中分析hbv dna整合事件的系统及方法 Download PDF

Info

Publication number
CN113096735B
CN113096735B CN202110224666.5A CN202110224666A CN113096735B CN 113096735 B CN113096735 B CN 113096735B CN 202110224666 A CN202110224666 A CN 202110224666A CN 113096735 B CN113096735 B CN 113096735B
Authority
CN
China
Prior art keywords
sequence
integration
module
sequences
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110224666.5A
Other languages
English (en)
Other versions
CN113096735A (zh
Inventor
黄爱龙
陈娟
龙泉鑫
邓海君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Medical University
Original Assignee
Chongqing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Medical University filed Critical Chongqing Medical University
Priority to CN202110224666.5A priority Critical patent/CN113096735B/zh
Publication of CN113096735A publication Critical patent/CN113096735A/zh
Application granted granted Critical
Publication of CN113096735B publication Critical patent/CN113096735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物技术领域,具体涉及一种从离体血清样本中分析HBV DNA整合事件的系统及方法,系统包括数据过滤模块、高质量序列拼接模块、序列比对模块、整合事件鉴定模块和整合事件注释分析模块;所述整合事件鉴定模块用于根据所述初步比对结果,进行HBV DNA整合事件的分析;本发明提供的从离体血清样本中分析HBV DNA整合事件的系统及方法有效获取整合事件信息,能较高效的回答标本中HBV DNA整合情况,具有更好的实用性,更利于实际应用。

Description

从离体血清中分析HBV DNA整合事件的系统及方法
技术领域
本发明涉及生物技术领域,具体涉及一种从离体血清中分析HBV DNA整合事件的系统及方法。
背景技术
病毒性肝炎一直是困扰全球的重要公共卫生问题。世界卫生组织2016年提出全球病毒性肝炎战略:发病率减少死亡率降低65%,这一战略对中国意义尤其重大。我国是乙肝大国,据统计,2016年我国HBV感染人数8600万,需要治疗人数3200万另外,病毒性肝炎还可以导致肝硬化、肝衰竭和肝癌等终末期肝病的发生,因此国内的乙肝防控形势仍然十分严峻。
对于乙型肝炎的治疗,目前有核苷酸类似物和干扰素两大类药物,而核苷酸类似物治疗为目前乙肝一线治疗的主要手段。核苷酸类似物治疗通常需要长期服药,达到一定标准后才能够停止用药,2017年EASL乙肝防治指南中,关于核苷类似物治疗的停药标准,总体上基于两个方面,第一是慢乙肝病人外周血乙肝表面抗原HBsAg清除,第二是获得持续性治疗应答。以外周血表面抗原清除为基础停药标准可能存在不足之处慢乙肝病人血清中HBsAg存在双重来源,一是来源于HBV cccDNA转录产生的S mRNA,二是来源于整合至宿主基因组HBV DNA转录产生S mRNA。对外周血或者肝组织进行HBV DNA整合检测,进而分辨外周血表面抗原来源对于优化慢乙肝治疗的停药标准是有非常重要的临床意义的。目前对HBVDNA进行检测可以通过全基因组测序以及HBV DNA捕获测序的方式来完成,前者所需费用较高,不太适合临床大规模应用,而HBV DNA捕获测序能有效获取整合位点信息,能较高效的回答标本中HBV DNA整合情况,具有更好的实用性。如何对HBV DNA捕获测序结果进行有效的生物信息学处理还缺乏系统方法,我们建立了一种能准确灵敏的处理HBV DNA捕获测序数据的生物信息学方法。
发明内容
有鉴于此,本发明目的之一是基于上述问题,建立一种从血清HBV DNA整合事件分析鉴定系统,采用该分析鉴定系统分析血清cfDNA中HBV的整合事件,以区分血清cfDNA中的HBsAg是否来源于整合事件。
为了解决上述技术问题,本发明采用以下技术方案:
从离体的血清样本中分析HBV DNA整合事件的系统,所述系统包括数据获取模块和数据分析模块;所述数据获取模块基于捕获测序技术获得血清样本高通量测序序列数据;所述数据分析模块包括数据过滤模块、高质量序列拼接模块、序列比对模块、整合事件鉴定模块和整合事件注释分析模块;
所述数据过滤模块用于过滤高通量测序得到的序列数据中的低质量序列;采用Trimmomatic软件,切除序列头尾碱基质量值小于15的碱基,丢弃平均碱基质量值小于13的序列,丢弃序列长度小于30bp的序列;
所述高质量序列拼接模块用于将所述数据过滤模块过滤后的高质量序列进行去冗余,合并完全相同的序列,将去冗余后的序列根据序列之间的overlap(共有重叠序列区段)拼接成一致性序列片段;
所述序列比对模块用于利用bwa mem将所述高质量序列拼接模块拼接成的一致性序列与人和HBV基因组序列进行比对,比对至人基因组序列和HBV基因组序列,得到初步比对结果;
所述整合事件鉴定模块用于分析样本中包含的HBV DNA整合到人基因组DNA上的整合事件;提取比对结果中,包含断点clip(即同一条序列比对时分成了两段,这两段分别比对上不同的参考序列)的比对结果,并且将clip的两段其中一段比对到人基因组,另一段比对上HBV基因组;
所述整合事件注释分析模块用于解析整合事件发生在人类基因组的位置、整合事件发生频率、整合事件与人基因的关系;利用基因组注释文件,对整合事件位点进行定位,根据支持整合事件的序列数,计算整合事件发生频率,根据已报道热点整合事件,对整合事件进行功能注释。
具体的,所述人基因组序列为decoy序列hs37d5版本。
具体的,所述HBV基因组序列为HBV A/B/C/D/E/F/G/H亚型的参考基因组序列的合并序列。
进一步,所述所述整合事件鉴定模块处理程序包括如下内容:
1)比对中clip(即同一条序列比对时分成了两段,这两段分别比对上不同的参考序列)的处理;
2)比对中discordant(即一对Pair End测序序列的两条序列分别比对上不同的参考序列)的处理;
3)clip位点两侧含有poly(即连续相同碱基,基因组该位置为低复杂度区段)的处理;
4)邻近breakpoint(即序列比对断裂点)位点的处理;
5)重复区段的处理。
进一步,所述步骤5)包括:
A.选取Hotspot list中存在的已报道的时间;
B.选取基因上的时间;
C.选取在染色体上基因间区比对reads(测序序列)数最多的事件;
D.其他序列上比对reads数最多的事件。
进一步,所述数据过滤模块处理步骤如下:
1)切除序列头尾碱基质量值小于15的碱基;
2)从序列5’至3’方向,以5bp为窗口滑动,当窗口平均质量值小于15时,切除该窗口至序列3’末位的序列;
3)去掉序列凭借质量值低于15的序列;
4)去掉trim之后序列长度小于30bp的序列。
进一步,所述高质量序列拼接模块用于将所述数据过滤模块过滤后的高质量(Pair End)双端测序序列拼接成一致性序列片段(即consensus序列);
具体的,所述高质量序列拼接模块处理步骤如下:
1)去冗余,将相同的序列根据数据比对进行合并,得到特异唯一的序列(即unique序列);
2)根据参考基因组对所述unique序列进行聚类并拼接得到consensus序列。
进一步,所述序列比对模块用于将拼接后的所述consensus序列与人类基因组合乙肝病毒基因组进行比对,得到初步比对结果,进行过滤筛选;
进一步,所述整合事件鉴定模块用于根据所述初步比对结果,进行HBV DNA整合事件的鉴定;
具体的,所述整合事件鉴定模块处理程序包括如下内容:
1)比对中clip的处理;
如果一条序列是来源于两个片段整合,在比对结果中将出现clip比对结果中的clip分为hard clip(比对不上并且不会存在于比对结果中的序列)和soft clip(指虽然比对不到基因组,但是还是存在于比对结果中的序列)两大类,这两大类的共同点是,都是由于一条序列在比对的时候,序列断开了两个片段,分别比对到基因组上的不同位置,区别是hard clip在比对结果中,不展示clip的碱基,而soft clip在比对结果中保留了clip的碱基。因此在我们的整合事件中,这两大类都应该保留。
对clip进行处理时,首先对于一条read的5’和3’均发生clip,保留clip序列较长的一端的clip。当clip的两端,一条read的clip一段比对上人的基因组序列,clip的另一段比对上HBV基因组,为可能包含整合位点信息的比对,clip的两段均比对上HBV或者hg19则不包含整合位点信息(见附图1)。
2)比对中discordant的处理;
在比对中,discordant比对是指:Pair-End reads一对双端测序序列中,其中一条read双端序列比对到hg19,相对应的pair read另一条双端序列比对到HBV基因组,表明在对应比对的方向不远处可能存在clip位点,但本对PE-reads双端序列未覆盖该clip位点,这样的比对支持发生整合事件。
3)clip位点两侧含有poly的处理;
由于人基因组上包含很多的短串联重复区段,如polyT(即该位置为连续相同的碱基T),当检测的clip位于此类序列附近时,因这样的区段在人基因组上的其他位置也存在,因此这条read的比对可能不太可信,应舍弃。
4)邻近breakpoint位点的处理;
由于HBV整合过程中可能存在宿主的DNA修复,以及比对过程中clip对断点的判断误差,同一个整合事件在clip上体现的具体breakpoint位点可能存在偏移,因此对检测到邻近的breakpoint进行整合,如两个breakpoint在基因组上距离在200bp以内,则认为是同一整合事件。
对clip检出的原始的breakpoint位点,支持reads数小于3的点,认为是极低频的检出点,为噪音的可能性较大,先进行过滤。
5)重复区段的处理;
从人基因组的clip位点上下游分别提取500bp碱基,作为flank序列,用blat软件对所有的clip上下游flank序列进行比对,比对可信度identity>=85%,且比对块长度大小/flank片段大小>=80%&match block/min(query length,subject length)的两个片段认为是重复片段,这两个clip可能来源于同一个整合事件,只是由于在比对的时候reads无法唯一的比对到基因组上某个位置而产生的。
具体的,所述步骤5)对所述两个clip可能来源于同一个整合事件进行整合,按照以下规则顺序选取其包括:
A.选取Hotspot list中存在的已报道的事件;
B.选取基因上的事件;
C.选取在染色体上基因间区比对reads数最多的事件;
D.其他序列上比对reads数最多的事件。
进一步,所述整合事件注释分析模块用于对生和事件进行注释,分析整合事件与关键基因,整合类型、支撑整合事件reads数的标准化。
具体的,所述整合事件注释分析模块处理步骤如下:
1)使用自编代码对整个事件进行注释,根据hg19基因组基因注释gtf信息,对整合事件进行注释;
2)根据序列比对的方向(FR/RF),以及clip两端序列的5’-3’顺序,区分整合类型为Human-HBV或HBV-Human;根据比对方向,确认是顺式整合(Cis-intergration)还是反式整合(Rev-intergration);),即HBV是正向插入还是反向插入到人基因组上(示意图见附图2);
3)使用高质量碱基数量对支持整合事件的reads数进行标准化,应用公式如下:
Figure GDA0003891277670000061
其中,nsur为number of support unique reads,即支持该整合事件的uniquereads唯一片段数量(均包含clip信息),efr为去除低质量后用于与数据库比对监测clip的高质量Pair-end reads数。
本发明目的之二是提供一种利用目的一所述的基于捕获测序技术分析鉴定HBVDNA整合事件的系统对所述HBV DNA整合事件进行分析鉴定的方法。
为了解决上述技术问题,本发明采用以下技术方案:
基于捕获测序技术分析鉴定HBV DNA整合事件的方法,利用目的一所述的系统分析鉴定HBV DNA整合事件。
本发明的有益效果在于:本发明提供的基于捕获测序技术分析鉴定HBV DNA整合事件的非诊断目的的系统和方法有效获取整合位点信息,能较高效的回答标本中HBV DNA整合情况,具有更好的实用性,更利于实际应用。
附图说明
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
图1:对clip处理示意图;
图2:HBV正向和反向插入示意图。
具体实施方式
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
利用模拟数据检测HBV DNA整合事件。
一、样品准备及数据获取
人类参考基因组及HBV参考基因组数据库的建立
人参考基因组有多个版本,我们认为decoy序列有助于提升比对的准确率,因此我们选择hs37d5版本作为我们的人基因组参考序列(decoy sequence诱饵序列,来自HuRef、BAC或者质粒克隆和NA12878)。并下载对应版本的注释文件。
HBV有多种型别,我们从NCBI数据库中下载HBV A/B/C/D/E/F/G/H型别的参考基因组合并后,构建参考序列比对索引库。
人工合成32种HBV DNA整合到人基因组上的整合序列;将其余人源细胞按一定浓度混合,得到待检样品。利用捕获测序技术,得到一份测序下机数据,测序为双端Pair End测序,读长150bp。
二、数据过滤
原始fastq文件序列数为8,042,989条,过滤掉去掉序列平均质量值低于15的序列,切除接头及低质量碱基后长度小于30bp的序列后最后得到7,464,916条高质量序列用于后续分析。
三、数据拼接
先将序列进行去冗余,合并,具体如下:将所有R1和R2序列转换成fasta格式,并合并成一个文件;然后利用blast比对,将完全相同的序列进行合并,得到unique序列,其中包含3条以上原始序列的unique序列被称为high quality unique reads,用于后续分析然后根据参考基因组进行聚类并拼接,得到较长的consensus序列,以及支持consensus的unique序列,用于后续分析。
四、数据比对
使用bwa mem将上述consensus序列及unique序列与参考序列进行比对,得到比对结果文件,过滤掉比对打分Mapping quality score<40的比对结果。
五、整合事件鉴定
根据过滤后的比对结果,对clip进行上述处理,得到整合事件及整合类型,及每种整合事件支持的unique reads数,计算均一化支持整合事件序列片段数(nnss);并根据其在基因组上的整合位置,结合基因组注释,对整合事件进行注释。
六、方法性能评估
为评估分析方法的性能,对样本进行整合事件检测,检测阳性阈值为nnss≥1,统计整体的真阳性(True positive)、假阳性(False positive)、假阴性(False negative)和真阴性(True negative)整合事件数。
实际存在即为我们实际往样本中加入的整合DNA分子种类数;
实际不存在即在我们的设计的整合DNA分子库中,但并未加入到样本中的整合DNA分子;
预测存在即为自有分析方法检测出样本存在该整合事件;
预测不存在即为自有分析方法检测样本不存在该整合事件;
例如,在构建的5个样本中,我们总共加入了55种整合事件分子,则实际存在为55实际不存在为0构建的5个样本中,未加入的整合事件为100本方法检测出62种整合事件,包含所有55种加入的整合事件,即TP为55FN为0FP为7TN为93;由此构建二联表,如下:
Figure GDA0003891277670000091
根据公式:
Figure GDA0003891277670000092
Figure GDA0003891277670000093
Figure GDA0003891277670000094
得到方法的准确定(Accuracy)为0.955,敏感性(Sensitivity)为0.887,特异性(Specificity)为0.930。
上述结果表示,本发明方法能够良好的检出HBV DNA整合事件。
实施例2
人工合成32种HBV DNA整合事件,序列信息见下表1。
表1 32种HBV DNA整合事件记录表
Figure GDA0003891277670000095
Figure GDA0003891277670000101
具体合成序列为SEQ ID NO:1-SEQ ID NO:32。
对30例样本进行illumina测序后,计算样本中上述32种整合事件的均一化支持整合事件序列片段数(Normalized Number of Support Segments,nnss),当其中任意一种整合事件的nnss≥1时,整合事件判断为阳性,即样本中发生了整合事件。详细结果见表2。
表2 30样本检测结果表
Figure GDA0003891277670000102
Figure GDA0003891277670000111
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
序列表
<110> 重庆医科大学
<120> 从离体血清中分析HBV DNA整合事件的系统及方法
<160> 32
<170> SIPOSequenceListing 1.0
<210> 1
<211> 242
<212> DNA
<213> artificial synthesis
<400> 1
tgtatctttc catgcatttg tgtttgtgtt tgcctcatgg aaagtaggtg taatggctgt 60
tctacagtct ttgtgtgata atctcaacat tttcattgtc ttggagttgg catctgttga 120
tcaagcctcc aagctgtgcc ttgggtggct ttaggacatg gacattgacc catataaaga 180
atttggagct tctgtggagt tactctcttt tttgccttct gacttttttc cttctattcg 240
ag 242
<210> 2
<211> 242
<212> DNA
<213> artificial synthesis
<400> 2
aaattaactt cacttttaca cagatacaaa ctttctgagt tatcagaaag cataatccac 60
cagtagtgca taaaaagaat gcaaataata agaggcattt tttcaagagt acaagaatgg 120
ccctctgcct aatcatctca tgttcatgtc ctactgttca agcctccaag ctgtgccttg 180
ggtggctttg gggcatggac attgacccgt ataaagaatt tggagcttct gtggagttac 240
tc 242
<210> 3
<211> 242
<212> DNA
<213> artificial synthesis
<400> 3
taattctctg tttcttttct tctcttaatg atgacctatg gataatgaat attgacatgt 60
ggatgacaaa tgttgaattt gtttttgtga aaaattctat tggttctgct ttcaacgtac 120
tacctctgcc taatcatctc atgttcatgt cctactgttc aagcctccaa gctgtgcctt 180
gggtggcttt ggggcatgga cattgacccg tataaagaat ttggagcttc tgtggagtta 240
ct 242
<210> 4
<211> 242
<212> DNA
<213> artificial synthesis
<400> 4
gtgggacccc ttacagtgaa tgaaaacagg agactaaaat tgattatgcc tgctaggttc 60
tatcccaatg ttactaaata tttgccctta gataaaggaa ttaaacctta ttatccagag 120
ctaagtacat ctgcttaatt ggcttacaaa aatgtaaggg aataaataat cattaatgta 180
ttagtttctg tataaataaa aattcagtgt gtacaaaaac actgtactaa cacacagtac 240
at 242
<210> 5
<211> 242
<212> DNA
<213> artificial synthesis
<400> 5
tccaatctac tccattcaat tcctttccat tccatttgat ttgattccat tgatttgatt 60
ccattcagtt tgattccatt ccgtgaaatt tcgttccatt ctattccatt gcattacttt 120
caccaccgtg aacgcccacc ggaacctgcc caaggtcttg cataagagga ctcttggact 180
ttcagcaatg tcaacgaccg accttgaggc atacttcaaa gactgtgtgt ttaatgagtg 240
gg 242
<210> 6
<211> 242
<212> DNA
<213> artificial synthesis
<400> 6
ttcaaagact gtgtgtttaa tgagtgggag gagttggggg aggaggttag gttaaaggtc 60
tttgtactag gaggctgtag gcataaattg gtgtgttcac cagcaccatg caactttttc 120
acaagtcagt atagattgtg aaaaagagaa tctacatatt tttacgactg caagtgcaag 180
ccatttggga aaaaactatt ggtcacatac tgatccttta aaccacttaa gtacacacaa 240
ta 242
<210> 7
<211> 242
<212> DNA
<213> artificial synthesis
<400> 7
tggttcttct ggactatcaa ggtatgttgc ccgtttgtcc tctaattcca ggatcatcaa 60
caaccagcac cggaccatgc aaaacctgca caactcctgc tcaaggaacc tctatgtttc 120
ccttgtaggt ccagattttg gatgaatctc tatagagatt gaacagataa ggctcacctt 180
tcaatagtta caccaagaaa ggcctaggtg gtgacttaag ctatggtttt gggcagcacg 240
ag 242
<210> 8
<211> 242
<212> DNA
<213> artificial synthesis
<400> 8
tcaacgaccg accttgaggc atacttcaaa gactgtgtgt ttaatgagtg ggaggagttg 60
ggggaggagg ttaggttaaa ggtctttgta ctaggaggct gtaggcataa attggtgtgt 120
tgagtaaaat ggatcaattc cttaaaagat atgatcaaaa ctcactgaag aaaaaaacca 180
gtcttctatc tataaagaaa ttagaaattg attttatggt taaaagcttt ctatatagag 240
aa 242
<210> 9
<211> 242
<212> DNA
<213> artificial synthesis
<400> 9
agactgtttg tttaaagact gggaggagtt gggggaggag attaggttaa aggtctttgt 60
actaggaggc tgtaggcata aattggtctg ttcaccagca ccatgcaact ttttcacctc 120
tgcaataatc attgaacgga atcgaatgga atcatcatca gatggaaacg aatggaatca 180
tcatcgaatg gaaatgaaag gagtcatcat ctaatggaat cgcatggaat catcatcaaa 240
tg 242
<210> 10
<211> 242
<212> DNA
<213> artificial synthesis
<400> 10
aatgtcaacg accgaccttg aggcatactt caaagactgt gtgtttactg agtgggagga 60
gttgggggag gagatcaggt taaaggtctt tgtactagga ggctgtaggc ataaattggt 120
ctctcaaact cctggcctca agccatcctc tcacctcagt ctcctaaagt gttggggtta 180
caggcgtgag ccactgctcc tggcctcatt tttctttaat gctcatccta atcccctttt 240
cc 242
<210> 11
<211> 242
<212> DNA
<213> artificial synthesis
<400> 11
ggaggagaat cattaaataa aacttattgt aagtgagatt ctgaagaagg aagagaagaa 60
cagtgttaag tatcctggca aaggagcatt agggttacag atagaattga agttgctcgt 120
cagcatggga ggttggtctt ccaaacctcg aaaaggcatg gggacaaatc tttctgtccc 180
caatcccctg ggattcttcc ccgatcatca gttggaccct gcattcaaag ccaactcaga 240
aa 242
<210> 12
<211> 242
<212> DNA
<213> artificial synthesis
<400> 12
ggcataaatt ggtctgcgca ccagcaccat gcaacttttt cacctctgcc taatcatctc 60
ttgttcatgt cctactgttc aagcctccaa gctgtgcctt gggtggcttt ggggcatgga 120
ctgatcatgt tcaagttaga acacagtgga aataatggct ttaagcctac agttcctaaa 180
gtgagcaact ctgctctggg tagattaaga ccaccactat ctccaggcta aagggcaaac 240
ag 242
<210> 13
<211> 242
<212> DNA
<213> artificial synthesis
<400> 13
gtgggaaaat agaccaatag gcagagagag tcagtgccta tcagaaaccc aagagtcttc 60
tctgtctcca catgcccagt ttctattggt ctccttaaac ctgtcttgta accttgatac 120
ccggggtttt tcttgttgac aagaatcctc acaataccgc agagtctaga ctcgtggtgg 180
acttctctca attttctagg gggaactacc gtgtgtcttg gccaaaattc gcagtcccca 240
ac 242
<210> 14
<211> 242
<212> DNA
<213> artificial synthesis
<400> 14
tacttcaaag actgtgtgtt tactgagtgg gaggagttgg gggaggagat caggttaaag 60
gtctttgtac taggaggctg taggcataaa ttggtctgtt caccagcacc atgcaacttt 120
taattcttag ttctaaggca caaaaatacg tgagagtgtg gcctctcttt ggtttccatg 180
ggaactcccc taccctagta gattttacat ccaaaattct aattttcctt cagtgatcat 240
ca 242
<210> 15
<211> 242
<212> DNA
<213> artificial synthesis
<400> 15
tgtttgtttt ttagagacag agtctcaatc tgtggcccag gctggagtcc agtggtgtga 60
ttatagctta ctgcagcctt gaactcctgg gctcaagcaa tcctcctaca tcagcgtccc 120
atccttctat tcgagatctc ctcgacaccg cctctgctct gtatcgggag gccttagagt 180
ctccggaaca ttgttcacct caccatacgg cactcaggca agctattctg tgttggggtg 240
ag 242
<210> 16
<211> 242
<212> DNA
<213> artificial synthesis
<400> 16
gcgcctcatt ttgcgggtca ccatattctt gggaacaaga tctacagcat gggaggttgg 60
tcttccaaac ctcgaaaagg catggggaca aatctttctg tccccaatcc cctgggattc 120
tgattgagat tggaagtttg gagatcatct tgatcagtga atttttttca atgaaaatat 180
agccactcta ctgcattaaa gagtatagtt agaaagaatg taaaagaagt tgacacaaac 240
ga 242
<210> 17
<211> 242
<212> DNA
<213> artificial synthesis
<400> 17
ttggatagct gtgaggattt cgttggaaac gggaatgtct tcatagaaaa tttagacaga 60
agcattctca gaaccttgat tgtgatgtgt gttctccact aacagaggtg aatctttctt 120
ttctcaattt tctaggggga acacccgtgt gtcttggcca aaattcgcag tcccaaatct 180
ccagtcactc accaacctgt tgtcctccaa tttgtcctgg ttatcgctgg atgtgtctgc 240
gg 242
<210> 18
<211> 242
<212> DNA
<213> artificial synthesis
<400> 18
ttggggctct accgcccgct tctccgcctg ttctaccgac cgaccacggg gcgcacctct 60
ctttacgcgg actccccgtc tgtgccttct catctgccgg accgtgtgca cttcgcttca 120
cgagtcccaa gacccatgtg atgtaactta cctgctagag ctctttctat aaggggcatt 180
tgacctatct ctgcctatta tccaggtgac gtgactcttt tctccaacct ggtctcagtc 240
ta 242
<210> 19
<211> 242
<212> DNA
<213> artificial synthesis
<400> 19
agatggaaaa aaacagattc catcataggt ttgttacttg aatactaaac tttttcaata 60
attagctgtt ataatatccg tgttcaaaaa cacagcactc agtgcagatc aaaattctaa 120
aaatgaaaac aggagactaa aattaattat gcctgctaga ttttatccca atgttactaa 180
atatttgccc ttagataaag ggatcaaacc gtattatcca gagtatgtag ttgatcatta 240
ct 242
<210> 20
<211> 242
<212> DNA
<213> artificial synthesis
<400> 20
gtgcaccacg caggtctggc cgcgcttggg gaaggtgcgc cctgaggaga cagagacggg 60
catgctgagc cgatgcgcgc ggcggcagag gtactccgag ccgccgcgcg ccactactca 120
cacattgacc cttataaaga atttggagct actgtggagt tactctcgtt tttgccttct 180
gacttctttc cttcagtaag agatcttcta gataccgcct cagctttgta tcgggatgcc 240
tt 242
<210> 21
<211> 242
<212> DNA
<213> artificial synthesis
<400> 21
cggaccatgc aaaacctgca caactcctgc tcaaggaacc tctatgtttc cctcatgttg 60
ctgtacaaaa cctacggacg gaaactgcac ctgtattccc atcccatcat cttgggcttt 120
ccttgggctt tttgctcagg tagatgtatc ggaaggttag tgagggtggg aattgaaggt 180
atcagcctaa aggggtggtt taaagagtag gctacaaagt cagaagacca gagagggtga 240
at 242
<210> 22
<211> 242
<212> DNA
<213> artificial synthesis
<400> 22
gggatttgct gctcctttta cacaatgtgg ttatcctgct ttaatgccct tgtatgcatg 60
tattcaatct aagcaggctt tcactttctc gccaacttac aaggcctttc tgtgtaaaca 120
ataatttgct taaaaaaaaa tctgcaaagc acaataaaac aaagtgcaat aaaacgaggt 180
atgcctgtac attatctcct catgtgctga cagctctttg aattctacat tgtctcacat 240
ct 242
<210> 23
<211> 242
<212> DNA
<213> artificial synthesis
<400> 23
gaatgcatcc tcaagtctac gcttcctctt cacactgaca gaactggtag tttccacatc 60
cttcttctcc aggttccgag attcggagac ttctttaact tttttctttc tccgtggcat 120
cgacattgac ccttataaag aatttggagc tactgtggag ttactctcgt ttttgccttc 180
tgacttcttt ccttcagtaa gagatcttct agataccgcc tcagctttgt atcgggatgc 240
ct 242
<210> 24
<211> 242
<212> DNA
<213> artificial synthesis
<400> 24
ttttgggatt tgctgctcct tttacacaat gtggttatcc tgctttaatg cccttgtatg 60
catgtattca atctaagcag gctttcactt tctcgccaac ttacaaggcc tttctgtgta 120
acctttctgt gtatgctact ttaagataga tttcttgtct tctgtgagtt catttgggag 180
tttcagtgaa ggacctgggt gttttgatgg aagtacatgg tttatgtgta tccatattaa 240
at 242
<210> 25
<211> 242
<212> DNA
<213> artificial synthesis
<400> 25
cacccgtgtg tcttggccaa aattcgcagt cccaaatctc cagtcactca ccaacctgtt 60
gtcctccaat ttgtcctggt tatcgctgga tgtgtctgcg gcgttttatc atcttcctct 120
gggagtttga ggagagggat acaaaaagga aaaaaagctg ctaggagttt ttgagcattt 180
atctccatgc catgaatagt ataaggcatt tttgcataca ttaaccaact agattctaat 240
aa 242
<210> 26
<211> 242
<212> DNA
<213> artificial synthesis
<400> 26
tttaatttcc tttttgtgga attaattata cactgtgtat ggagagcttg ggtttttctc 60
atctttttga cattaaacac atctcaccaa aaccatacat gaggattgtt ttgaagacgt 120
gaattcgcag tccccaacct ccaatcactc accaacctct tgtcctccaa cttgtcctgg 180
ttatcgctgg atgtgtctgc ggcgttttat catcttcctc ttcatcctgc tgctatgcct 240
ca 242
<210> 27
<211> 242
<212> DNA
<213> artificial synthesis
<400> 27
caccatacgg cactcaggca agctattgtg tgttggggtg agttgatgaa tctagccacc 60
tgggtgggaa gtaatttgga agacccagcc tcccgggaat tagtagtcag ttatgtcaat 120
gttaggtata tctcctatgc tatccctcac ccctcccccc accccataac aggcctcggt 180
gtgtgatgtt ccccttcctg tgtccatgtg ttctcattgt tcaattccca cctactttgt 240
gt 242
<210> 28
<211> 242
<212> DNA
<213> artificial synthesis
<400> 28
ggaaaccttg gacaataccc aggctttctt gggcagaggt tcctgtggct ttccacagtg 60
cattgtgtcc ctggttaata gagaatggag aacggcaatg acttttacca agcatactgc 120
cactgtacct gtccttaatc ctgagtggca aactccctcc tttcctaaca ttcatttaca 180
ggaggacatt attaatagat gtcaacaata tgtgggccct cttacagtta atgaaaaaag 240
ga 242
<210> 29
<211> 242
<212> DNA
<213> artificial synthesis
<400> 29
ggctgtaggc ataaattggt ctgcgcacca gcaccatgca actttttcac ctctgcctaa 60
tcatctcttg ttcatgtcct actgttcaag cctccaagct gtgccttggg tggctttggg 120
ggtgcgtctc cagtctctct ctcgctctcc ctcttcagtg cagtgttgaa agtgtgaagc 180
agttggtccc ccccctccac cgcgctcgca cacacacacg cacacacacg cacactcgcg 240
cc 242
<210> 30
<211> 242
<212> DNA
<213> artificial synthesis
<400> 30
gcattttgaa gacagacaat gcttttcttg aaaccaatgc atcacacttt cttactgaca 60
tcatggtcct ggcacgaaca ccttggcctg ccacatctat gctgctgagt tgtcagtaag 120
attgttgctg tacaaaacct tcggacggaa actgcacttg tattcccatc ccatcatcct 180
gggctttcgc aagattccta tgggagtggg cctcagtccg tttctcctgg ctcagtttac 240
ta 242
<210> 31
<211> 242
<212> DNA
<213> artificial synthesis
<400> 31
aggttctatc atttgttaga atggtgcaca caactcatga aaacagtttc tttacaagat 60
tattggccta ttaaagaata cagttcagga acagtgagat ggaagatgtg ggtagggcaa 120
ggtgtgtcct ctacttccag gatctacaac caccagcacg ggaccctgca aaacctgcac 180
cactcttgct caaggaacct ctatgtttcc ctcttgctgc tgtaccaaac cttcggacgg 240
aa 242
<210> 32
<211> 242
<212> DNA
<213> artificial synthesis
<400> 32
aggttaaagg tctttgtact aggaggctgt aggcataaat tggtctgttc accagcacca 60
tgcaactttt tcacctctgc ctaatcatct catgttcatg tcctactgtt caagcctcca 120
attgtgtacg agtatgatca taacattaac ccttgagaag tttgggtgtt atctttttta 180
attgttggaa ggcaaatgtg ttggggatat aatgtccctt atcagatatt ggaatcagta 240
gt 242

Claims (10)

1.从离体血清样本中分析HBV DNA整合事件的系统,其特征在于,所述系统包括数据获取模块和数据分析模块;所述数据获取模块基于捕获测序技术获得血清样本高通量测序序列数据;所述数据分析模块包括数据过滤模块、高质量序列拼接模块、序列比对模块、整合事件鉴定模块和整合事件注释分析模块;
所述数据过滤模块用于过滤高通量测序得到的序列数据中的低质量序列;采用Trimmomatic软件,切除序列头尾碱基质量值小于15的碱基,丢弃平均碱基质量值小于13的序列,丢弃序列长度小于30bp的序列;
所述高质量序列拼接模块用于将所述数据过滤模块过滤后的高质量序列进行去冗余,合并完全相同的序列,将去冗余后的序列根据序列之间的overlap拼接成一致性序列片段;
所述序列比对模块用于利用bwa mem将所述高质量序列拼接模块拼接成的一致性序列与人和HBV基因组序列进行比对,比对至人基因组序列和HBV基因组序列,得到初步比对结果;
所述整合事件鉴定模块用于分析样本中包含的HBV DNA整合到人基因组DNA上的整合事件;提取比对结果中,包含断点clip的比对结果,并且将clip的两段其中一段比对到人基因组,另一段比对上HBV基因组;
所述整合事件注释分析模块用于解析整合事件发生在人类基因组的位置、整合事件发生频率、整合事件与人基因的关系;利用基因组注释文件,对整合事件位点进行定位,根据支持整合事件的序列数,计算整合事件发生频率,根据已报道热点整合事件,对整合事件进行功能注释。
2.根据权利要求1所述的系统,其特征在于,所述人基因组序列为decoy序列hs37d5版本。
3.根据权利要求1所述的系统,其特征在于,所述HBV基因组序列为HBVA/B/C/D/E/F/G/H亚型的参考基因组序列的合并序列。
4.根据权利要求1所述的系统,其特征在于,所述整合事件鉴定模块处理程序包括如下内容:
1)比对中clip的处理;
2)比对中discordant的处理;
3)clip位点两侧含有poly的处理;
4)邻近breakpoint位点的处理;
5)重复区段的处理。
5.根据权利要求4所述的系统,其特征在于,所述步骤5)包括:
A.选取Hotspot list中存在的已报道的事件;
B.选取整合发生在基因上的事件;
C.选取在染色体上基因间区比对reads数最多的事件;
D.其他序列上比对reads数最多的事件。
6.根据权利要求1所述的系统,其特征在于,所述数据过滤模块处理步骤如下:
1)切除序列头尾碱基质量值小于13的碱基;
2)从序列5’至3’方向,以5bp为窗口滑动,当窗口平均质量值小于15时,切除该窗口至序列3’末位的序列;
3)去掉序列凭借质量值低于15的序列;
4)去掉trim之后序列长度小于30bp的序列。
7.根据权利要求1所述的系统,其特征在于,所述高质量序列拼接模块处理步骤如下:
1)去冗余,将相同的序列根据数据比对进行合并,得到unique序列;
2)根据参考基因组对所述unique序列进行聚类并拼接得到consensus序列。
8.根据权利要求7所述的系统,其特征在于,所述序列比对模块用于将所述consensus序列与人类基因组合乙肝病毒基因组进行比对,得到初步比对结果,进行过滤筛选。
9.根据权利要求1所述的系统,其特征在于,所述整合事件注释分析模块处理步骤如下:
1)使用自编代码对整个事件进行注释,根据hg19基因组基因注释gtf信息,对整合事件进行注释;
2)根据序列比对的方向,以及clip两端序列的5’-3’顺序,区分整合类型为Human-HBV或HBV-Human;根据比对方向,确认是顺式整合还是反式整合;
3)使用高质量碱基数量对支持整合事件的reads数进行标准化,应用公式如下:
Figure FDA0003891277660000031
其中,nsur为number of support unique reads,即支持该整合事件的unique reads唯一片段数量,均包含clip信息;efr为去除低质量后用于与数据库比对监测clip的高质量Pair-end reads数。
10.一种从离体血清样本中分析HBV DNA整合事件的非诊断目的的方法,其特征在于,利用权利要求1所述的系统分析HBV DNA整合事件。
CN202110224666.5A 2021-03-01 2021-03-01 从离体血清中分析hbv dna整合事件的系统及方法 Active CN113096735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110224666.5A CN113096735B (zh) 2021-03-01 2021-03-01 从离体血清中分析hbv dna整合事件的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110224666.5A CN113096735B (zh) 2021-03-01 2021-03-01 从离体血清中分析hbv dna整合事件的系统及方法

Publications (2)

Publication Number Publication Date
CN113096735A CN113096735A (zh) 2021-07-09
CN113096735B true CN113096735B (zh) 2023-05-16

Family

ID=76667641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110224666.5A Active CN113096735B (zh) 2021-03-01 2021-03-01 从离体血清中分析hbv dna整合事件的系统及方法

Country Status (1)

Country Link
CN (1) CN113096735B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111549109A (zh) * 2020-04-29 2020-08-18 苏州苏因智启生物科技有限公司 一种高通量的病原体微生物基因检测筛查方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004085608A2 (en) * 2003-03-27 2004-10-07 Newlink Genetics Corporation Methods for high throughput elucidation of transcriptional profiles and genome annotation
CN106575321A (zh) * 2014-01-14 2017-04-19 欧米希亚公司 用于基因组分析的方法和系统
CN108334750B (zh) * 2018-04-19 2019-02-12 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统
WO2020006369A1 (en) * 2018-06-29 2020-01-02 Guardant Health, Inc. Methods and systems for analysis of ctcf binding regions in cell-free dna
CN109055302A (zh) * 2018-08-28 2018-12-21 重庆医科大学附属第医院 Hbv转基因小鼠原代肝细胞的分离、培养与鉴定的方法
CN110527714B (zh) * 2019-09-06 2023-03-28 元码基因科技(北京)股份有限公司 用于检测hpv在宿主基因组的整合位点的方法
CN111354418B (zh) * 2020-01-19 2023-02-10 上海欧易生物医学科技有限公司 基于参考基因组注释文件的高通量测序技术动物tRFs数据分析方法
CN110957008B (zh) * 2020-02-26 2020-06-23 广州市金域转化医学研究院有限公司 检测人类基因组病毒整合位点的方法及装置
CN112289375A (zh) * 2020-11-11 2021-01-29 天津奇云诺德生物医学有限公司 一种宏基因组测序数据自动化分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111549109A (zh) * 2020-04-29 2020-08-18 苏州苏因智启生物科技有限公司 一种高通量的病原体微生物基因检测筛查方法

Also Published As

Publication number Publication date
CN113096735A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN109767810B (zh) 高通量测序数据分析方法及装置
CN110600077B (zh) 肿瘤新抗原的预测方法及其应用
US20140249764A1 (en) Method for Assembly of Nucleic Acid Sequence Data
CN113035272B (zh) 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
CN112164423B (zh) 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN114694750B (zh) 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法
CN109385666A (zh) 淋巴瘤基因捕获芯片及其应用
CN110343748A (zh) 基于高通量靶向测序分析肿瘤突变负荷的方法
CN111321209A (zh) 一种用于循环肿瘤dna测序数据双端矫正的方法
CN109584957A (zh) 用于捕获α地中海贫血相关基因拷贝数检测试剂盒
CN111524548B (zh) 用于检测igh重排的方法、计算设备和计算机存储介质
CN106282195A (zh) 基因突变体及其应用
CN108796075A (zh) 检测circRNF13和LOC284454试剂的应用及试剂盒
CN113096735B (zh) 从离体血清中分析hbv dna整合事件的系统及方法
WO2024051097A1 (zh) 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
CN112210596B (zh) 基于基因融合事件的肿瘤新生抗原预测方法及其应用
CN113373234A (zh) 一种基于突变特征的小细胞肺癌分子分型确定方法及应用
CN109762881A (zh) 一种用于检测肿瘤患者血液ctDNA中的超低频突变位点的生物信息方法
CN115961034A (zh) 一种基于umi技术的肺癌患者外周血基因突变检测分析方法
CN108660213A (zh) 检测三种非编码rna试剂的应用及试剂盒
CN112725435A (zh) 慢阻肺急性加重易感基因及其在预测易感慢阻肺急性加重中的应用
CN111383713A (zh) ctDNA检测分析装置及方法
CN111334513A (zh) 一种非综合征型唇裂相关的低频/罕见突变及其检测方法
CN115948533B (zh) 一种用于检测mybpc3突变基因的试剂及其应用
CN117577178B (zh) 一种结构变异精确断裂信息的检测方法、系统及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant