CN117831631A - 一种改进二代测序数据微卫星不稳定性计算的新方法 - Google Patents
一种改进二代测序数据微卫星不稳定性计算的新方法 Download PDFInfo
- Publication number
- CN117831631A CN117831631A CN202311784597.9A CN202311784597A CN117831631A CN 117831631 A CN117831631 A CN 117831631A CN 202311784597 A CN202311784597 A CN 202311784597A CN 117831631 A CN117831631 A CN 117831631A
- Authority
- CN
- China
- Prior art keywords
- microsatellite
- sequencing
- sequence
- information
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 26
- 208000032818 Microsatellite Instability Diseases 0.000 title claims abstract description 20
- 238000004364 calculation method Methods 0.000 title claims abstract description 16
- 108091092878 Microsatellite Proteins 0.000 claims abstract description 198
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 9
- 108090000623 proteins and genes Proteins 0.000 claims description 16
- 238000003908 quality control method Methods 0.000 claims description 13
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 210000001519 tissue Anatomy 0.000 description 24
- 238000001514 detection method Methods 0.000 description 17
- 102000004169 proteins and genes Human genes 0.000 description 7
- 230000004543 DNA replication Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 102100028843 DNA mismatch repair protein Mlh1 Human genes 0.000 description 3
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 3
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 3
- 108700024394 Exon Proteins 0.000 description 3
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 3
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 3
- 229910015837 MSH2 Inorganic materials 0.000 description 3
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 3
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 3
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 208000011580 syndromic disease Diseases 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000005251 capillar electrophoresis Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000033607 mismatch repair Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 102100028849 DNA mismatch repair protein Mlh3 Human genes 0.000 description 1
- 102100037700 DNA mismatch repair protein Msh3 Human genes 0.000 description 1
- 206010014733 Endometrial cancer Diseases 0.000 description 1
- 206010014759 Endometrial neoplasm Diseases 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 101000577867 Homo sapiens DNA mismatch repair protein Mlh3 Proteins 0.000 description 1
- 101001027762 Homo sapiens DNA mismatch repair protein Msh3 Proteins 0.000 description 1
- 101000738901 Homo sapiens PMS1 protein homolog 1 Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 102100037482 PMS1 protein homolog 1 Human genes 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 230000005867 T cell response Effects 0.000 description 1
- 230000009830 antibody antigen interaction Effects 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000002055 immunohistochemical effect Effects 0.000 description 1
- 238000012151 immunohistochemical method Methods 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000008802 morphological function Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法,包括:对原始测序数据质量进行评估;将测序序列数据回贴至参考基因组,得到比对文件;从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;从比对文件中提取微卫星序列结构信息中的微卫星位点的测序信息,并根据微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态,并进行可视化显示输出。本发明对于微卫星不稳定性计算之前,对二代测序数据进行系统分析,通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求。
Description
技术领域
本发明涉及生物标记物组合筛选技术领域,特别是涉及一种改进二代测序数据微卫星不稳定性计算的新方法。
背景技术
微卫星(Microsatellite)DNA序列是基因组中一类具有特殊结构的序列,它是由1~10bp碱基组成的重复结构,如“G-CACACACACACACACACACA-A”一段长为20bp的微卫星DNA序列中,CA为重复单元,重复次数为10次。微卫星DNA的重复次数因人而异,且部分微卫星序列出在DNA的编码区,如一些重要蛋白基因的外显子、启动子区域。相比非重复序列,微卫星DNA在DNA复制过程中更容易出现错配。
细胞在DNA复制过程中不可避免的会出现碱基错配现象,导致子代细胞DNA携带错配碱基并发生突变。这种突变如果被遗传到新产生的细胞中将会引起细胞性状发生改变甚至癌变。为了避免在DNA复制过程中出现错误,生物体内存在一种错配修复(MismatchRepair,MMR)体系,确保DNA复制过程的“保真性”。MMR系统中包括MutSc和MutLa两大家族蛋白,其中前者包括MSH2、MSH3和MSH6等,后者包括MLH1、MLH3、PMS1和PMS2。
若MMR系统存在缺陷,易发生错配的微卫星序列结构无法得到正确及时的修复,就会对下游基因的表达和蛋白的形态功能产生影响,这种现象就叫做微卫星不稳定(Microsatellite Instability,MSI)。根据MSI不稳定的程度,可分为微卫星高度不稳定(Microsatellite Instability-high,MSI-H)、微卫星低度不稳定(MicrosatelliteInstability-low,MSI-L)和微卫星稳定(Microsatellite Stable,MSS)。当生物体表现出MSI-H状态时,相关的基因就会出现很多的新生外显子,这些外显子编码的蛋白肽段对生物体免疫系统来说是外来的,继而激发特异性T细胞应答,因此MSI-H携带者使用免疫治疗可以强化自身对肿瘤的免疫反应,更容易见效。
大量研究表明,MSI参与恶性肿瘤的发生发展过程,与结肠癌、直肠癌、胃癌、子宫内膜癌、林奇综合征等发生密切相关。例如,90%的林奇综合征患者表现出MSI-H状态,因此MSI-H可作为林奇综合征疾病初筛的标志物;与MSS的结直肠癌患者相比,携带MSI-H状态的结直肠癌患者预后更好,提示MSI-H可作为结直肠癌预后的独立预测因子。
目前MSI检测对象多为组织类型样本,且检测方式各有其局限性:
(1)PCR结合毛细管电泳法(PCR-MSI):通常选择5-11个单核苷酸重复位点,长度为25bp左右,PCR扩增后通过毛细管电泳测量其长度分布区间,来确定样本的MSI状态,该方法目前被认为是“金标准”检测方法。该检测方法需要受检者同时提供血液样本。仅有极少数医院开展了该检测方法对MSI状态检测,且多为外送检测。另外,该检测方法纳入检测的微卫星位点数目受到电泳方法的影响,一次实验可检测的位点数目及其有限。因此,什么样的微卫星位点适合纳入该检测方法,临床上没有给出明确的参考和指导意见。市面上目前常见的微卫星位点有:BAT25、BAT26、D2S123、D5S346、D17S250、NR21、NR22、NR24、NR27和MONO27。通过各种组合方式,市面上被大量认可的组合有2B3D、Promega、NCI等。
(2)免疫组化法(IHC-MSI):选择对MLH1、MSH2、MSH6和PMS2四种蛋白表达情况进行检测,该检测方法可由医院进行独立检测。该检测方法依赖的是MMR系统缺陷引起的DNA复制过程中错配不断累积,从而导致MSI现象的发生和携带者发生肿瘤易感。大量临床数据显示,约占5%的MSI-H携带者的肿瘤组织中这4种蛋白的表达量处于正常水平,MMR系统中除了这四种蛋白外还有多个成员,仅用MLH1、MSH2、MSH6和PMS2蛋白的表达情况无法完全反映MMR系统是否存在缺陷的情况,也就无法从侧面反映出受检者的MSI状态。另外,免疫组化实验依赖的是“抗原-抗体相互作用”的原理,现实中是存在不影响蛋白抗原结构但影响蛋白功能和表达的变异,这种情况下免疫组化法无法准确地真实地反映出受检者微卫星状态。
(3)二代测序检测法(NGS-MSI):选择对大量的微卫星位点进行测序分析,计算每一个微卫星位点的重复次数,以参考样本的重复次数平均值和标准差建立稳定状态的波动区间,评估每一个位点的微卫星稳定状态,最终以不稳定位点的占比作为判断受检组织样本的MSI状态的评估条件。该检测方法的优势在于可以通过一次检测实现足够多的微卫星序列测序,同时刻画基因组图谱,提供癌症诊断更丰富的信息。结合二代测序“边合成边测序、短读长”的特征,选择合适的微卫星位点便成了该检测方法的重中之重。
随着二代测序技术的不断完善,NGS-MSI与金标准PCR-MSI的一致性极高,但与PCR-MSI检测方法微卫星位点数量稀少不同的是,NGS-MSI可以纳入大量的微卫星位点信息,更加全面的评估受检样本的MSI状态。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种改进二代测序数据微卫星不稳定性计算的新方法。
为实现上述目的,本发明提供了如下方案:
一种改进二代测序数据微卫星不稳定性计算的新方法,包括:
对原始测序数据质量进行评估,得到评估后的测序序列数据;
将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,得到比对文件;
从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;
从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态;
对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。
优选地,对原始测序数据质量进行评估,得到评估后的测序序列数据,包括:
查看所述原始测序数据测序质量结果,得到测序序列;所述测序质量结果包括碱基质量得分值分布、GC含量分布和碱基平衡性;
去除测序序列两端可能为接头的部分;
去除N碱基数目不满足条件的测序序列;
去除总长不满足条件的测序序列;
去除测序序列3’端的ployA尾巴;
对过滤后的测序序列计算重复度、平均长度,并根据所述重复度和平均长度对所述测序序列进行评估,以得到评估后的测序序列数据。
优选地,将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,得到比对文件,包括:
将所述测序序列数据比对到参考基因组,获得初始文件;
对所述初始文件进行坐标排序和重复标记,获得比对文件;
查看所述比对文件的质量结果;所述比对文件的质量结果包括性别、比对率、错配率、平均测序深度、目标区域上靶率、均一性、插入片段长度和PCR重复率。
优选地,从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息,包括:
对参考基因组序列进行扫描,获得所有微卫星位点的信息表;
将所述信息表的每个微卫星位点的repeat_unit_length字段数值分别与repeat_times字段数值相乘,若乘积小于120则另存入基础文件;
针对基础文件的每一个微卫星位点,若所述微卫星位点的repeat_unit_length字段数值大于2,则剔除出basic文件,若所述微卫星位点的repeat_times字段数值小于11,则剔除出basic文件,得到剔除后的微卫星序列结构信息。
优选地,从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态,包括:
从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并存入mpileup文件;所述测序信息包括测序深度和重复单元重复次数;
获取mpileup文件的第一个微卫星位点测序信息;
针对mpileup文件的每一个微卫星位点测序信息,若coverage字段数值小于100,则剔除出mpileup文件;
针对剔除后的mpileup文件的每一个微卫星位点的readbases字段信息,统计该重复单元在每一条测序序列上的相对重复次数;
根据所述相对重复次数进行分布统计,得到分布信息,并将所述分布信息保存至msi.txt文件;
对于所有基线正常组织样本每个微卫星位点,重复次数种类占比峰值位于25%-75%之间,且对于所有基线正常组织样本每个微卫星位点,以重复次数占比的均值mean和标准差std为基础,寻找最大范围的连续区间,保证95%的样本在对应微卫星位点携带的重复次数种类落入该区间,并将该区间确定该微卫星位点在基线正常组织样本的peak区域,并将所述peak区域作为MSS状态下该微卫星位点的重复次数特征,获得基线文件;
对于待检测组织样本的各微卫星位点的特征,以所述基线文件中peak区域为标准,若该特征落入peak区域,则认为该微卫星位点稳定;否则认为该微卫星位点不稳定;
统计微卫星位点中不稳定位点个数的占比Mscore,当Mscore值小于10%,待检测组织样本判为MSS;高于20%,待检测组织样本判为MSI-H;介于10%~20%之间,则将待检测组织样本判为MSI-L;
将各微卫星的稳定状态和Mscore值另存入MSI_analysis.txt文件。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法,包括:对原始测序数据质量进行评估,得到评估后的测序序列数据;将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,得到比对文件;从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态;对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。本发明对于微卫星不稳定性计算之前,对二代测序数据进行系统分析,如Q20/30、GC含量、插入片段长度、目标区域上靶率、均一性、比对率、目标区域有效平均测序深度等,通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的方法流程图;
图2为本发明实施例提供的主要分析流程示意图;
图3为本发明实施例提供的质量控制流程图;
图4为本发明实施例提供的序列回贴流程图;
图5为本发明实施例提供的待检组织样本微卫星不稳定计算流程图;
图6为本发明实施例提供的候选微卫星位点筛选流程图;
图7为本发明实施例提供的下机数据各碱基测序错误率示意图;
图8为本发明实施例提供的不合格微卫星位点分布特征示意图;
图9为本发明实施例提供的终选微卫星位点分布特征示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例提供的方法流程图,如图1所示,本发明提供了一种改进二代测序数据微卫星不稳定性计算的新方法,包括:
步骤100:对原始测序数据质量进行评估,得到评估后的测序序列数据;
步骤200:将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,得到比对文件;
步骤300:从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;
步骤400:从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态;
步骤500:对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。
如图2所示,本实施例的分析流程包括以下五个模块:
(1)质量控制:对原始测序数据质量进行评估,减少低质量数据,降低测序数据噪音,为后续分析提供有效数据;
(2)序列回贴:将测序数据回贴至参考基因组,明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,为后续分析结果准确性提供质控信息;
(3)微卫星结构信息获取:从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息,含基因组位置坐标、重复单元结构、重复单元长度、重复单元基础重复次数等。后续纳入分析的微卫星位点需具备以下基本特征:重复单元长度*重复单元基础重复次数<120;
(4)微卫星序列测序信息获取:对序列回贴后的数据进行提取处理,并进行过滤和归一化处理。与基线数据相比,微卫星位点的状态评估;
(5)统计报告:统计待检测微卫星位点特征、待检测微卫星位点的稳定状态,并输出可视化图表。
其中上述模块(1)具体包括:
1.1查看测序质量结果,包括碱基质量得分值分布、GC含量分布、碱基平衡性等;统计Total Reads、Total Bases、Q20、Q30、GC Content、N Bases等;
1.2去除测序序列两端可能为接头的部分;
1.3去除N碱基数目不满足条件的测序序列(对);
1.4去除总长不满足条件的测序序列(对);
1.5去除测序序列3’端的ployA尾巴(仅针对Illumina NextSeq/NovaSeq测序平台);
1.6对过滤后的测序序列计算重复度、平均长度;
其中上述模块(2)具体包括:
2.1把模块(1)中获得的序列,比对到参考基因组获得比对文件;
2.2对2.1得到的比对文件进行坐标排序和重复标记,获得比对文件;
2.3查看2.2得到比对文件的质量结果,包括性别、比对率、错配率、平均测序深度、目标区域上靶率、均一性、插入片段长度、PCR重复率等;其中上述模块(3)具体包括:
3.1对参考基因组序列进行扫描,获得所有微卫星位点的信息表;
3.2获取3.1信息表的第一个微卫星位点;
3.3将3.2提取位点的repeat_unit_length字段数值与repeat_times字段数值相乘,若乘积小于120则另存入basic文件;
3.4重复上述3.3步骤,直至3.1信息表里所有微卫星位点被遍历,获得basic文件;
3.5获取3.4basic文件的第一个微卫星位点;
3.6若3.5提取位点的repeat_unit_length字段数值大于2,则剔除出basic文件;
3.7若3.5提取位点的repeat_times字段数值小于11,则剔除出basic文件;
3.8重复上述3.6-3.7步骤,直至3.4basic文件里所有微卫星位点被遍历,获得advanced文件;
其中上述模块(4)具体包括:
4.1从上述模块(2.2)中获得的比对文件中提取上述模块(3.8)中获得的advanced文件中的微卫星位点的测序信息,包括测序深度、重复单元重复次数等,存入mpileup文件;
4.2获取4.1mpileup文件的第一个微卫星位点测序信息;
4.3若4.2提取位点的coverage字段数值小于100,则剔除出mpileup文件;
4.4重复上述4.3步骤,直至4.1mpileup文件里所有微卫星位点被遍历;
4.5获取4.4mpileup文件的第一个微卫星位点测序信息;
4.6根据4.4提取位点的readbases字段信息,统计该重复单元在每一条测序序列上的相对重复次数(基于上述模块(3.8)中获得的advanced文件内微卫星位点repeat_times字段数值而言);
4.7根据4.6获得的重复次数,进行分布统计。分布信息保存至msi.txt文件;
4.8重复上述4.6-4.7步骤,直至4.4mpileup文件里所有微卫星位点被遍历,获得msi.txt文件;
4.9以上4.1-4.8步骤针对待检测组织样本和基线正常组织样本均适用。
4.10对于所有基线正常组织样本,收集4.8msi.txt文件,统计描述基线样本各微卫星位点测序片段出现的重复次数分布特征,包括大概率出现的重复次数、重复次数种类等;
4.10.1对于所有基线正常组织样本每个微卫星位点,重复次数种类占比峰值位于25%-75%之间;
4.10.2对于所有基线正常组织样本每个微卫星位点,以重复次数占比的均值mean和标准差std为基础,寻找最大范围的连续区间,保证~95%的样本在对应微卫星位点携带的重复次数种类落入该区间,该区间称为该微卫星位点在基线正常组织样本的peak区域;
4.10.3满足以上4.10.1-4.10.2条件的peak区域,作为MSS状态下该微卫星位点的重复次数特征,获得基线文件baseline;
4.11对于待检测组织样本,收集4.8msi.txt文件,统计各微卫星位点测序片段出现的重复次数分布特征;
4.11.1对于待检测组织样本的各微卫星位点的特征,以4.10baseline文件中peak区域为标准,若该特征落入peak区域,则认为该微卫星位点稳定;否则认为该微卫星位点不稳定;
4.11.2统计微卫星位点中不稳定位点个数的占比Mscore,当Mscore值小于10%,待检测组织样本判为MSS;高于20%,待检测组织样本判为MSI-H;介于二者之间,待检测组织样本判为MSI-L;
各微卫星的稳定状态(0为稳定,1为不稳定)、Mscore值另存入MSI_analysis.txt文件。
作为一种可选的实施方式,本实施例中的分析流程包括:①质量控制→②序列回贴+质量控制→③微卫星不稳定性计算→④结果统计,如具体步骤和方法如下:
一质量控制,如图3所示。
1.1-1.5利用fastp软件对二代测序下机数据进行“1.2步骤去除接头序列”和“1.3步骤去除低质量测序序列对”处理,命令如下:fastp-i<R1.fastq.gz>-I<R2.fastq.gz>-o<trimR1.fastq>-O<trimR2.fastq>-j fastp.json;本发明利用更快速高效的python程序,统计1.2-1.3步骤处理前后,含1.1步骤查看的rawbases、rawreads、Nbases、Q20、Q30、GC数量及相关比例;含1.4步骤查看的clean bases、cleanreads、Nbases、Q20、Q30、GC数量及相关比例;含1.5步骤查看的重复度;
1.6本步骤是本分析方法关键步骤之一,该步骤的相关指标决定了本次二代测序数据是否提供高质量数据trimR1/2.fastq供后续分析。
二序列回贴+质量控制,如图4所示。
2.1将步骤(1)中获得的“高质量数据trimR1/2.fastq”,利用bwa-mem2软件回贴到参考基因组获得比对文件,命令如下:bwa-mem2 mem-t<threads_num>-R<read_group_info><reference.fasta><trimR1.fastq><trimR2.fastq>-o<sample.sam>;
2.2利用samtools软件对2.1获得的比对文件bwa.sam按照参考基因组坐标进行排序,获得排序后的比对文件,命令如下:samtools sort-@<threads_num>-O BAM-o<sample.sorted.bam><sample.sam>;
2.3利用sambamba软件对2.2获得的比对文件bwa.sorted.bam进行PCR重复标记,获得PCR重复标记后的比对文件,命令如下:sambambamarkdup-t<threads_num><sample.sorted.bam><sample.sorted.markdupl.bam>;
2.4利用shell程序组合优化后的bamdst、gatk、samtools软件,实现对PCR重复标记后的比对文件sample.sorted.markdupl.bam进行质量查看,其中包括的指标有:比对率、均一性、上靶率、错配率、有效深度、覆盖度、插入片段长度、污染率;
2.5本步骤是本分析的另一个关键步骤之一,该步骤的相关指标决定了本次二代测序实验是否提供合格的比对文件sample.sorted.markdupl.bam供后续分析。
三微卫星不稳定性计算,如图5所示。
3.1将步骤(2)中获得的比对文件sample.sorted.markdupl.bam,根据“终选微卫星位点信息”提供的坐标,利用samtools软件提取微卫星位点测序信息文件sample.msi.mpileup,命令如下:samtools mpileup-A-E-f<reference.fasta>-l<msi_position>-o<sample.msi.mpileup><sample.sorted.markdupl.bam>;
3.2对3.1获得的微卫星位点测序信息文件sample.msi.mpileup进行初级过滤,过滤条件如下:coverage>100,即微卫星位点覆盖的有效reads数大于100,该位点为有效的微卫星位点,对应的测序信息为有效微卫星位点测序信息。对有效微卫星位点测序信息进行特征分布统计,获得有效微卫星位点特征分布文件sample.msi.txt;
3.3将3.2获得的有效微卫星位点特征分布文件sample.msi.txt,与“终选微卫星位点MSS特征”提供的peaks区域进行联合计算判断;
3.4当任意有效微卫星位点符合MSS特征,stable MSI数值加1;反之unstable MSI数值加1;
3.5以3.4获得的stable/unstable MSI数值计算Mscore值,即Mscore=unstableMSI/(unstable MSI+stable MSI),获得不稳定微卫星位点数目占比值Mscore;
3.6若3.5获得的Mscore值大于0.2,判定待检样本为MSI-H;
3.7若3.5获得的Mscore值不满足大于0.2的条件,进一步判断Mscore值是否大于0.1,若满足条件,则判定待检样本为MSI-L;反之则为MSS。
四结果统计
本分析模块对下机数据质量(含各碱基测序错误率,过滤reads特征占比等)、碱基平衡性、纳入分析的微卫星位点特征进行了相关统计并输出了可视化图,如图7-9所示。
关于步骤(3.3)引入的“终选微卫星位点MSS特征”文件,如图6所示,采用以下步骤获得:
01扫描参考基因组序列获得所有微卫星位点序列信息msi.list,含染色体chromosome信息、坐标location信息、重复单元长度repeat_unit_length信息、参考基因组序列中重复单元重复次数repeat_times信息、重复单元碱基repeat_unit_bases信息;
02对步骤(01)获得的微卫星位点序列信息msi.list中每一个微卫星位点进行判断:当该位点的repeat_unit_length*repeat_times>=120时,舍弃该位点,进行下一个位点判断,直至所有位点完成判断,获得微卫星位点序列信息basic.msi.list文件;
03对步骤(02)获得的微卫星位点序列信息basic.msi.list中每一个微卫星位点进行判断:当该位点的repeat_unit_length>=3时,舍弃该位点,进行下一个位点判断,直至所有位点完成判断;
04对完成步骤(03)判断的每一个微卫星位点进行判断:当该位点的repeat_times<=10时,舍弃该位点,进行下一个位点判断,直至所有位点完成判断,获得待选微卫星位点序列信息advanced.msi.list,包含染色体chromosome信息、坐标location信息、重复单元长度repeat_unit_length信息、参考基因组序列中重复单元重复次数repeat_times信息、重复单元碱基repeat_unit_bases信息;
05将步骤(2)中获得的比对文件sample.sorted.markdupl.bam(正常/MSS样本),根据步骤(04)获得的“待选微卫星位点信息advanced.msi.list”提供的坐标,利用samtools软件提取测序信息,获得待选微卫星位点测序信息文件sample.msi.mpileup,命令如下:samtools mpileup-A-E-f<reference.fasta>-l<msi_position>-o<sample.msi.mpileup><sample.sorted.markdupl.bam>;
06对步骤(05)获得的待选微卫星位点测序信息文件sample.msi.mpileup进行初级过滤;
07当任一待选微卫星位点覆盖的有效reads数小于等于100,即coverage<=100时,舍弃该位点,进行下一个位点判断,直至所有待选微卫星位点完成判断;
08对完成步骤(07)判断的每一个待选微卫星位点测序信息进行特征分布分析,
获得待选微卫星位点特征分布文件sample.msi.txt。对于大量基线正常样本而言,汇总统计获得大样本下的特征信息,含大概率出现的重复次数、重复次数种类等,并进行过滤;
09当任一待选微卫星位点的重复次数种类分布极值小于25%或大于75%,舍弃该位点,进行下一个位点判断,直至所有待选微卫星位点完成判断;
10对完成步骤(09)判断的微卫星位点特征分布信息进行整理,获得终选微卫星位点特征分布文件candidate.msi.txt;
11以步骤(10)获得的终选微卫星位点特征分布文件candidate.msi.txt,以重复次数占比的均值mean和标准差std为基础,寻找最大范围的连续区间,保证~95%的样本在对应微卫星位点携带的重复次数种类落入该区间,该区间称为该微卫星位点在基线正常组织样本的peak区域。以每个终选微卫星位点的peaks区域作为其MSS特征。
本发明的有益效果如下:
(1)测序数据质量控制系统化:本方法对于微卫星不稳定性计算之前,对二代测序数据进行系统分析,如Q20/30、GC含量、插入片段长度、目标区域上靶率、均一性、比对率、目标区域有效平均测序深度等,通过一系列指标来确保本次测序获得的数据能够满足后续分析的要求;
(2)微卫星位点选择标准规范化:本方法对于纳入微卫星不稳定性计算的微卫星位点的选择进行了规范化,基于二代测序的特征,选择重复单元长度更小、稳定性有明显差异的位点,确保每一个微卫星位点都可以准确反映待测组织样本的MSI真实状态;
(3)微卫星不稳定性计算流程化:为了提高计算效率,本方法对于Mscore值的计算锁定在目标区域内进行,这个区域可以根据实际检测需要进行相应调整;
(4)数据可视化:本分析方法结果中除了提供有效的表格文件外,还生成了形象的信息图,使得更多的数据信息得以展示,也使得结果一目了然。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (5)
1.一种改进二代测序数据微卫星不稳定性计算的新方法,其特征在于,包括:
对原始测序数据质量进行评估,得到评估后的测序序列数据;
将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,得到比对文件;
从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息;
从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态;
对所述待检测微卫星位点特征和所述待检测微卫星位点的稳定状态进行可视化显示输出。
2.根据权利要求1所述的改进二代测序数据微卫星不稳定性计算的新方法,其特征在于,对原始测序数据质量进行评估,得到评估后的测序序列数据,包括:
查看所述原始测序数据测序质量结果,得到测序序列;所述测序质量结果包括碱基质量得分值分布、GC含量分布和碱基平衡性;
去除测序序列两端可能为接头的部分;
去除N碱基数目不满足条件的测序序列;
去除总长不满足条件的测序序列;
去除测序序列3’端的ployA尾巴;
对过滤后的测序序列计算重复度、平均长度,并根据所述重复度和平均长度对所述测序序列进行评估,以得到评估后的测序序列数据。
3.根据权利要求1所述的改进二代测序数据微卫星不稳定性计算的新方法,其特征在于,将测序序列数据回贴至参考基因组,以明确序列关联的基因信息,去除低质量序列和PCR重复序列,对有效序列进行质控分析,得到比对文件,包括:
将所述测序序列数据比对到参考基因组,获得初始文件;
对所述初始文件进行坐标排序和重复标记,获得比对文件;
查看所述比对文件的质量结果;所述比对文件的质量结果包括性别、比对率、错配率、平均测序深度、目标区域上靶率、均一性、插入片段长度和PCR重复率。
4.根据权利要求1所述的改进二代测序数据微卫星不稳定性计算的新方法,其特征在于,从参考基因组序列和基因组注释信息,获得全基因组的微卫星序列结构信息,包括:
对参考基因组序列进行扫描,获得所有微卫星位点的信息表;
将所述信息表的每个微卫星位点的repeat_unit_length字段数值分别与repeat_times字段数值相乘,若乘积小于120则另存入基础文件;
针对基础文件的每一个微卫星位点,若所述微卫星位点的repeat_unit_length字段数值大于2,则剔除出basic文件,若所述微卫星位点的repeat_times字段数值小于11,则剔除出basic文件,得到剔除后的微卫星序列结构信息。
5.根据权利要求1所述的改进二代测序数据微卫星不稳定性计算的新方法,其特征在于,从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并根据所述微卫星位点的测序信息进行过滤和归一化处理,并根据处理结果和基线数据进行待检测微卫星位点的状态评估,得到待检测微卫星位点特征和待检测微卫星位点的稳定状态,包括:
从所述比对文件中提取所述微卫星序列结构信息中的微卫星位点的测序信息,并存入mpileup文件;所述测序信息包括测序深度和重复单元重复次数;
获取mpileup文件的第一个微卫星位点测序信息;
针对mpileup文件的每一个微卫星位点测序信息,若coverage字段数值小于100,则剔除出mpileup文件;
针对剔除后的mpileup文件的每一个微卫星位点的readbases字段信息,统计该重复单元在每一条测序序列上的相对重复次数;
根据所述相对重复次数进行分布统计,得到分布信息,并将所述分布信息保存至msi.txt文件;
对于所有基线正常组织样本每个微卫星位点,重复次数种类占比峰值位于25%-75%之间,且对于所有基线正常组织样本每个微卫星位点,以重复次数占比的均值mean和标准差std为基础,寻找最大范围的连续区间,保证95%的样本在对应微卫星位点携带的重复次数种类落入该区间,并将该区间确定该微卫星位点在基线正常组织样本的peak区域,并将所述peak区域作为MSS状态下该微卫星位点的重复次数特征,获得基线文件;
对于待检测组织样本的各微卫星位点的特征,以所述基线文件中peak区域为标准,若该特征落入peak区域,则认为该微卫星位点稳定;否则认为该微卫星位点不稳定;
统计微卫星位点中不稳定位点个数的占比Mscore,当Mscore值小于10%,待检测组织样本判为MSS;高于20%,待检测组织样本判为MSI-H;介于10%~20%之间,则将待检测组织样本判为MSI-L;
将各微卫星的稳定状态和Mscore值另存入MSI_analysis.txt文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311784597.9A CN117831631A (zh) | 2023-12-23 | 2023-12-23 | 一种改进二代测序数据微卫星不稳定性计算的新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311784597.9A CN117831631A (zh) | 2023-12-23 | 2023-12-23 | 一种改进二代测序数据微卫星不稳定性计算的新方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117831631A true CN117831631A (zh) | 2024-04-05 |
Family
ID=90523757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311784597.9A Pending CN117831631A (zh) | 2023-12-23 | 2023-12-23 | 一种改进二代测序数据微卫星不稳定性计算的新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117831631A (zh) |
-
2023
- 2023-12-23 CN CN202311784597.9A patent/CN117831631A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573125B (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
CN112029861B (zh) | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 | |
CN107423578B (zh) | 检测体细胞突变的装置 | |
CN105483229B (zh) | 一种检测胎儿染色体非整倍体的方法及系统 | |
KR102402002B1 (ko) | 미세부수체 불안정성을 결정하기 위한 시스템 및 방법 | |
CN111304303A (zh) | 微卫星不稳定的预测方法及其应用 | |
WO2023115662A1 (zh) | 一种变体核酸的检测方法 | |
CN104951671B (zh) | 基于单样本外周血检测胎儿染色体非整倍性的装置 | |
CN111326212A (zh) | 一种结构变异的检测方法 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
CN109584961A (zh) | 基于二代测序技术检测血液微卫星不稳定的方法 | |
CN108342461A (zh) | ddPCR技术检测IDH1基因变异的引物、试剂盒及检测方法 | |
CN106591451A (zh) | 测定胎儿游离dna含量的方法及其用于实施该方法的装置 | |
CN113789371A (zh) | 一种基于批次矫正的拷贝数变异的检测方法 | |
CN110232949B (zh) | 考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法 | |
CN117831631A (zh) | 一种改进二代测序数据微卫星不稳定性计算的新方法 | |
CN111370065A (zh) | 一种检测rna跨样本交叉污染率的方法和装置 | |
Wilmott et al. | Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes | |
CN113160895A (zh) | 一种结直肠癌风险评估模型及系统 | |
CN108707663A (zh) | 用于癌症样本miRNA测序定量结果评价的试剂、制备方法和应用 | |
Peng et al. | Development of a novel reference material for tumor mutational burden measurement based on CRISPR/Cas9 technology | |
CN114093428B (zh) | 一种ctDNA超高测序深度下低丰度突变的检测系统和方法 | |
CN108304693A (zh) | 利用高通量测序数据分析基因融合的方法 | |
RU2712175C1 (ru) | Способ неинвазивного пренатального скрининга анеуплоидий плода | |
KR102667912B1 (ko) | 미세부수체 불안정성을 결정하기 위한 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |