CN110556164A - 用于目标区域捕获测序检测msi的方法、装置和存储介质 - Google Patents
用于目标区域捕获测序检测msi的方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110556164A CN110556164A CN201910845662.1A CN201910845662A CN110556164A CN 110556164 A CN110556164 A CN 110556164A CN 201910845662 A CN201910845662 A CN 201910845662A CN 110556164 A CN110556164 A CN 110556164A
- Authority
- CN
- China
- Prior art keywords
- region
- msi
- microsatellite
- length
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
一种用于目标区域捕获测序检测MSI的方法、装置和存储介质,其中方法包括:获取微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;通过长度分布统计获得每个微卫星区域的参考基因组上重复序列的长度R,以及肿瘤样本和对照样本中不同重复序列长度的丰度;通过区域筛选获得过滤筛选后的微卫星区域;通过MSI区域判定获得MSI区域;以及,通过MSI打分得到肿瘤样本的最终MSI分值,获知微卫星不稳定性高低情况。本发明的方法,在保证检测速度的同时,提升目标区域检测MSI的结果准确性和稳定性。
Description
技术领域
本发明涉及生物信息学技术领域,具体涉及一种用于目标区域捕获测序检测MSI的方法、装置和存储介质。
背景技术
微卫星(microsatellite)指的是基因组中一些短的重复DNA序列,微卫星不稳定性(microsatellite instability,MSI)指的是这些DNA重复区域长度的变化,与DNA错配修复相关。已经有很多研究证实,MSI与多种癌症相关,尤其是结直肠癌等胃肠道癌症。根据MSI的程度,可分为高微卫星不稳定(MSI-H)、低微卫星不稳定(MSI-L)和微卫星稳定(MSS)。
FDA在2017年5月批准了帕博利珠单抗,用于在之前的治疗中发生疾病进展并且没有令人满意的替代治疗方案的成年人或儿童不可切除或转移性MSI-H/dMMR实体瘤患者的治疗;2017年8月批准了纳武利尤单抗,用于曾接受过氟嘧啶、奥沙利铂或伊立替康化疗发生疾病进展或对上述药物不耐受的dMMR或MSI-H的成年人或12岁以上儿童转移性结直肠癌患者的治疗;2018年7月又批准了Ipilimumab联合纳武利尤单抗,用于治疗12岁及以上的MSI-H或dMMR并且在使用氟嘧啶、奥沙利铂或伊立替康治疗后疾病进展的转移性结直肠癌患者。在免疫治疗火爆的今天,准确检测MSI在临床应用中具有重要性。
现阶段肿瘤临床检测常用杂交捕获芯片(Panel)目标区域捕获的二代测序技术,针对肿瘤常见基因和靶向药相关靶点区域进行捕获测序,可以同时选取微卫星的区域,进行MSI的检测。选取合适的微卫星区域以及稳定准确的检测方法,是基于目标区域捕获的二代测序技术检测MSI的两个关键点。
目前微卫星常用的区域是在PCR技术上用到的5~6个区域,如果基于目标区域捕获的二代测序技术只使用这5~6个区域,由于捕获效率等问题会造成结果的明显偏差,不能保证检测的稳定性。因此,需要选取更多的微卫星区域来进行检测。
现有基于目标区域捕获的二代测序技术检测MSI的常用技术是MSIsensor软件,但是该软件在使用过程中发现存在检测不稳定的问题,检测结果会出现偏差。因此,还需对现有的MSI检测方法进行改进,实现能快速精准稳定地检测MSI。
发明内容
本发明的目的在于提供一种用于目标区域捕获测序检测MSI的方法、装置和存储介质,在保证检测速度的同时,提升目标区域检测MSI的结果准确性和稳定性。
根据第一方面,一种实施例中提供一种用于目标区域捕获测序检测MSI的方法,包括:
获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;
统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在上述对照样本中不同重复序列长度的丰度和上述肿瘤样本中不同重复序列长度的丰度,其中上述丰度表示每一重复序列长度在上述目标区域捕获测序数据中的支持数;
过滤掉上述肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及上述肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域;
将上述对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,然后统计上述对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计上述肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于上述第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域;
将判定得到的MSI区域个数占上述筛选的微卫星区域个数的百分比值作为上述肿瘤样本的最终MSI分值,根据上述最终MSI分值和MSI阈值确定上述受检个体的肿瘤样本的微卫星不稳定性高低情况。
在优选实施例中,上述用于检测MSI的微卫星区域数量为100个以上,优选300个以上。
在优选实施例中,上述第一预设值为20。
在优选实施例中,上述第二预设值为0.2,上述第三预设值为10,上述第四预设值为20,上述第五预设值为0.05。
在优选实施例中,上述用于检测MSI的微卫星区域通过如下步骤得到:
从参考基因组中扫描出所有短重复序列,得到潜在微卫星区域;
从得到的潜在微卫星区域内挑选同时满足位于内含子区内、位于用于上述目标区域捕获测序的杂交捕获芯片区内、且长度在第六预设值范围内的微卫星区域,作为候选区域;
使用第七预设值数量以上的样本数据,在上述候选区域内选取至少在一例样本中存在微卫星不稳定的区域,得到上述用于检测MSI的微卫星区域。
在优选实施例中,上述第六预设值范围是10 ~ 30bp。
在优选实施例中,上述第七预设值是30例。
在优选实施例中,上述样本数据的测序平均深度不低于100X。
根据第二方面,一种实施例中提供一种用于目标区域捕获测序检测MSI的装置,包括:
数据获取模块,用于获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;
长度分布统计模块,用于统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在上述对照样本中不同重复序列长度的丰度和上述肿瘤样本中不同重复序列长度的丰度,其中上述丰度表示每一重复序列长度在上述目标区域捕获测序数据中的支持数;
区域筛选模块,用于过滤掉上述肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及上述肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域;
MSI区域判定模块,用于将上述对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,然后统计上述对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计上述肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于上述第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域;
MSI打分模块,用于将判定得到的MSI区域个数占上述筛选的微卫星区域个数的百分比值作为上述肿瘤样本的最终MSI分值,根据上述最终MSI分值和MSI阈值确定上述受检个体的肿瘤样本的微卫星不稳定性高低情况。
根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。
本发明的方法,提供了在目标捕获区域中选取合适的微卫星区域来检测MSI的方法,解决了需要重新增加或设计区域的成本时间问题;检测MSI的方法中过滤了低质量的微卫星区域,同时集中在高丰度的重复序列长度进行统计检验,降低了低质量区域及比对错误造成的影响,提高MSI检测结果的稳定性。
附图说明
图1为本发明实施例中一种用于目标区域捕获测序检测MSI的方法流程图;
图2为本发明实施例中一种用于目标区域捕获测序检测MSI的装置结构框图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为技术特征所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
如图1所示,本发明的一种实施例中提供一种用于目标区域捕获测序检测MSI的方法,包括如下步骤:
S101:数据获取
获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据。
本发明实施例中,用于检测MSI的微卫星区域有多个,例如,数量为100个以上,优选300个以上。相比现有基于目标区域捕获的二代测序技术,本发明实施例选取更多的微卫星区域来进行检测,避免了捕获效率等问题而造成的结果明显偏差,能够保证检测的稳定性。
本发明实施例中,需要同时检测同一受检个体的肿瘤样本和对照样本。受检个体,例如可以是已经通过临床方法确诊为肿瘤患者的个体。肿瘤样本,一般是指来源于肿瘤患者的病患部位或组织的样本,例如肺癌患者的肺部组织样本。对照样本,一般是指来源于同一个肿瘤患者的非病患部位或组织的正常样本,例如外周血分离的白细胞样本。
需要说明的是,本发明的方法针对肿瘤患者等受检个体,但该方法本身并不以获取受检个体的患病信息作为直接目的。事实上,受检个体的患病信息在进行本发明的检测方法之前已经确认。本发明的方法的目的在于得到肿瘤患者等受检个体的微卫星不稳定性(microsatellite instability,MSI)。因此,本发明的方法不是疾病的治疗方法的范畴。
本发明实施例中,用于检测MSI的微卫星区域可以是已知的区域,或者通过适当方法确定的区域。例如,在一个实施例中,用于检测MSI的微卫星区域,通过如下步骤得到:(1)从参考基因组中扫描出所有短重复序列,得到潜在微卫星区域;(2)从得到的潜在微卫星区域内挑选同时满足位于内含子区内、位于用于目标区域捕获测序的杂交捕获芯片区内、且长度在第六预设值范围内的微卫星区域,作为候选区域;(3)使用第七预设值数量以上的样本数据,在候选区域内选取至少在一例样本中存在微卫星不稳定的区域,得到用于检测MSI的微卫星区域。
在得到用于检测MSI的微卫星区域的步骤中,第六预设值范围可以是10 ~ 30bp,即候选区域需要满足“长度在10 ~ 30bp范围内的微卫星区域”这一条件。选择长度在10 ~30bp范围内的微卫星区域的原因在于:长度太短的区域,例如长度低于10bp,不容易发生微卫星不稳定;受测序长度的限制,长度太长的区域,例如长度高于30bp,不能很好地被测序片段覆盖,统计会有偏差。
在得到用于检测MSI的微卫星区域的步骤中,候选区域需要满足“位于内含子区内”的微卫星区域,是考虑到一般短重复序列(微卫星),都存在于内含子而不是外显子中。
在得到用于检测MSI的微卫星区域的步骤中,候选区域需要满足“位于用于目标区域捕获测序的杂交捕获芯片区内”,是因为本发明的方法是基于目标区域捕获的二代测序技术检测MSI,目标区域捕获通过杂交捕获芯片实现,这样的杂交捕获芯片上设有靶向不同目标区域的捕获探针。只有位于用于目标区域捕获测序的杂交捕获芯片区内的微卫星区域才能获得有效分析。
在得到用于检测MSI的微卫星区域的步骤中,为了保证微卫星区域的可靠性,一般需要使用多个(例)样本数据,在候选区域内选取至少在一个(例)样本中存在微卫星不稳定的区域,作为用于检测MSI的微卫星区域。例如,在本发明的一个实施例中,使用30例以上的样本数据,并且样本数据的测序平均深度不低于100X,在候选区域内选取至少在一例样本中存在微卫星不稳定的区域,得到用于检测MSI的微卫星区域。
:长度分布统计
统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在对照样本中不同重复序列长度的丰度和肿瘤样本中不同重复序列长度的丰度,其中丰度表示每一重复序列长度在目标区域捕获测序数据中的支持数。
本发明实施例中,微卫星区域的稳定性表现在重复序列的长度的变化情况,微卫星区域的稳定性越高,重复序列的长度的变化越不明显;相反地,微卫星区域的稳定性越低,重复序列的长度的变化越明显。在参考基因组上,重复序列有一个确定的长度R。参考基因组,例如可以是物种(例如,人)的参考的标准基因组序列,例如,在一个实施例中,以hg19作为人类参考基因组的其中一个版本。
在对照样本和肿瘤样本中,每一个微卫星区域相对于参考基因组上对应的微卫星区域,会有一些变化,这表现在特定微卫星区域的不同重复序列长度。例如,在参考基因组上的一个特定微卫星区域,其重复序列的长度(R)是10bp;在对照样本和肿瘤样本中,该微卫星区域的重复序列长度可能是5bp、8bp、10bp、12bp或15bp等多种情况,这些不同的长度,就称为“不同重复序列长度”。每个微卫星区域的每种特定的重复序列长度(例如,12bp),在目标区域捕获测序数据中可能有对应的支持数,例如有10个、20个或50个测序片段支持某个微卫星区域的每种特定长度(例如,12bp)的重复序列。这种表示每一重复序列长度在目标区域捕获测序数据中的支持数,被称为“丰度”。每种重复序列长度,都对应特定的丰度。
:区域筛选
过滤掉肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域。
本发明实施例中,总丰度低于特定值(即“第一预设值”)的微卫星区域是不可靠的,因此,需要过滤掉肿瘤样本和对照样本中这种总丰度低于第一预设值的微卫星区域。第一预设值可以根据不同的杂交捕获芯片(Panel)等因素设置,例如,在本发明的一个实施例中,第一预设值为20。
本发明实施例中,一般而言,在一些情况下,可能由于测序的系统性原因等造成肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域。为了本发明的准确可靠性,需要将这种情况下的微卫星区域也过滤掉。
:MSI区域判定
将对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,即丰度第二高的重复序列长度是R2;然后统计对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域。
本发明实施例中,F1代表对照样本中丰度第二高的重复序列长度R2的丰度N2占丰度第一高的重复序列长度R的丰度N1加上丰度第二高的重复序列长度R2的丰度N2的比例;F2代表肿瘤样本中丰度第二高的重复序列长度R2的丰度T2占丰度第一高的重复序列长度R的丰度T1加上丰度第二高的重复序列长度R2的丰度T2的比例。F1和F2分别代表了对照样本和肿瘤样本中某一个特定的微卫星区域的稳定性情况,它们的数值越大,说明其稳定性越低;而数值越小,说明其稳定性越高。然而,为了区分对照样本和肿瘤样本中某一个特定的微卫星区域的稳定性差异,需要设定特定的阈值(第二预设值)作为区分依据,即“F1小于第二预设值、F2不小于第二预设值”,表明对照样本和肿瘤样本在某一个特定的微卫星区域的稳定性上有区别。第二预设值,例如可以根据不同的杂交捕获芯片(Panel)等因素设置,例如,在本发明的一个实施例中,第二预设值为0.2。
此外,为保证对照样本和肿瘤样本中不同重复序列长度的丰度是可靠的,还需要设置肿瘤样本中重复序列长度为R2的丰度T2的最低阈值,即第三预设值,要求T2不低于第三预设值;以及,设置对照样本中重复序列长度为R和R2的丰度分别为N1和N2的丰度之和(即N1+N2)和肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2的丰度之和(即T1+T2)的最低阈值,即第四预设值,要求N1+N2和T1+T2均不低于第四预设值。第三预设值和第四预设值,例如可以根据不同的杂交捕获芯片(Panel)或测序深度等因素设置,例如,在本发明的一个实施例中,第三预设值为10,第四预设值为20。
满足第二预设值、第三预设值和第四预设值要求的区域,被看作为“潜在的MSI区域”。
针对潜在的MSI区域,通过Fisher单边检验比较F1和F2的差异,判断F2是否显著高于F1,将P值低于第五预设值的区域判定为MSI区域。第五预设值用于表征统计学显著性,在本发明的一个实施例中,第五预设值为0.05。
:MSI打分
将判定得到的MSI区域(即步骤S104得到的区域)个数占筛选的微卫星区域(即步骤S103得到的区域)个数的百分比值作为肿瘤样本的最终MSI分值,根据最终MSI分值和MSI阈值确定受检个体的肿瘤样本的微卫星不稳定性高低情况。
在本发明实施例中,百分比值为肿瘤样本的最终MSI分值,MSI分值越高代表肿瘤样本的微卫星越不稳定,区分MSI程度的具体阈值(即MSI阈值)根据各自不同杂交捕获芯片(Panel)数据来划分。
对应于用于目标区域捕获测序检测MSI的方法,本发明实施例还提供一种用于目标区域捕获测序检测MSI的装置,如图2所示,包括:数据获取模块201,用于获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;长度分布统计模块202,用于统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在对照样本中不同重复序列长度的丰度和肿瘤样本中不同重复序列长度的丰度,其中丰度表示每一重复序列长度在目标区域捕获测序数据中的支持数;区域筛选模块203,用于过滤掉肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域;MSI区域判定模块204,用于将对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,然后统计对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域;MSI打分模块205,用于将判定得到的MSI区域个数占筛选的微卫星区域个数的百分比值作为肿瘤样本的最终MSI分值,根据最终MSI分值和MSI阈值确定受检个体的肿瘤样本的微卫星不稳定性高低情况。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明的一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下所述的方法:获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在对照样本中不同重复序列长度的丰度和肿瘤样本中不同重复序列长度的丰度,其中丰度表示每一重复序列长度在目标区域捕获测序数据中的支持数;过滤掉肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域;将对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,然后统计对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域;将判定得到的MSI区域个数占筛选的微卫星区域个数的百分比值作为肿瘤样本的最终MSI分值,根据最终MSI分值和MSI阈值确定受检个体的肿瘤样本的微卫星不稳定性高低情况。
以下通过具体实施例详细说明本发明的技术方案,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
本实施例,利用已有杂交捕获芯片(深圳裕策生物科技有限公司的YuceOne Plus芯片)和参考基因组(hg19)按照潜在区域扫描、潜在区域限定以及微卫星区域确定等步骤,得到344个微卫星区域。具体而言,通过一种选取用于检测MSI的微卫星区域的方法得到微卫星区域,该方法具体步骤和参数如下:(1)潜在区域扫描:从参考基因组(hg19)中扫描出所有短重复序列区域,得到潜在区域;(2)潜在区域限定:从得到的潜在区域内挑选同时满足位于内含子(intron)区内、位于杂交捕获芯片(Panel)区内、且长度在10~30bp的区域,得到候选区域;(3)微卫星区域确定:使用30例以上的样本数据,要求样本的测序平均深度不低于100X,在候选区域内选取至少在一例样本中存在微卫星不稳定的区域,得到344个用于检测MSI的微卫星区域。
然后,根据测过的数据划定MSI-H的最低MSI打分阈值为20。挑选一例非MSI-H的患者,提取肿瘤组织的DNA后分为两份样本分别建库测序,样本编号分别为S1和S2,有效平均测序深度分别为70X和757X,对照样本(非肿瘤组织)的平均测序深度为233X。在选取的344个微卫星区域中,按照长度分布统计、区域筛选、MSI区域判定以及MSI打分等步骤对S1和S2进行分析,得到S1和S2的结果。具体而言,通过一种用于目标区域捕获测序检测MSI的方法得到微卫星区域的MSI,该方法具体步骤和参数如下:(1)长度分布统计:统计上述344个微卫星区域中每个微卫星区域的参考基因组(hg19)上重复序列的长度R,统计对照样本(control)中不同重复序列长度的丰度以及肿瘤样本(case)中不同重复序列长度的丰度;(2)区域筛选:过滤掉对照样本(control)和肿瘤样本(case)中的总丰度低于20的区域,过滤掉对照样本(control)和肿瘤样本(case)中各自丰度最高的重复序列长度均不等于R的区域,设对照样本(control)中除了长度为R的重复序列之外的丰度最高的重复序列长度为R2;(3)MSI区域判定:统计对照样本(control)中重复序列长度为R和R2的丰度分别为N1和N2,统计肿瘤样本(case)中重复序列长度为R和R2的丰度分别为T1和T2,设N2在N1和N2中的占比为F1,设T2在T1和T2中的占比为F2,选取F1小于0.2、F2不低于0.2、T2不低于10且N1+N2和T1+T2均不低于20的区域作为潜在的MSI区域,再用Fisher单边检验比较F1和F2的差异,将P值低于0.05判定为MSI区域;(4)MSI打分:步骤(3)MSI区域判定步骤得到的区域个数占步骤(2)区域筛选步骤得到的区域个数的百分比值为肿瘤样本(case)的最终MSI分值,MSI分值越高代表肿瘤样本(case)的微卫星越不稳定。实施例1得到S1和S2的结果,如表1所示。
对比例1
在选取的344个微卫星区域中,直接使用MSIsensor msi参数“-l 5 -p 5 -m 50 -q 5-s 5 -w 50 -u 500 -f 0.05 -b 2”分别对实施例1中的S1和S2进行分析,得到S1和S2的结果,如表2所示。
表1 实施例1中MSI检测的结果
样本编号 | MSI分值(%) | MSI-H状态 | C.V.值 |
S1 | 14.07 | - | 0.3 |
S2 | 7.58 | - | 0.3 |
表2 对比例1中MSI检测的效果
样本编号 | MSI分值(%) | MSI-H状态 | C.V.值 |
S1 | 40.48 | + | 0.34 |
S2 | 19.83 | - | 0.34 |
从实施例1和对比例1的结果可以看出,实施例1中样本S1和S2的MSI分值分别是14.07和7.58,均小于最低MSI打分阈值20,因此MSI-H状态均判断为“-”,二者一致。对比例1中样本S1和S2的MSI分值分别是40.48和19.83,前者大于最低MSI打分阈值20,MSI-H状态判断为“+”,而后者小于最低MSI打分阈值20,MSI-H状态判断为“-”,二者不一致。因此,与对比例1相比,实施例1的检测准确性和稳定性具有优势。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种用于目标区域捕获测序检测MSI的方法,其特征在于,所述方法包括:
获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;
统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在所述对照样本中不同重复序列长度的丰度和所述肿瘤样本中不同重复序列长度的丰度,其中所述丰度表示每一重复序列长度在所述目标区域捕获测序数据中的支持数;
过滤掉所述肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及所述肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域;
将所述对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,然后统计所述对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计所述肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于所述第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域;
将判定得到的MSI区域个数占所述筛选的微卫星区域个数的百分比值作为所述肿瘤样本的最终MSI分值,根据所述最终MSI分值和MSI阈值确定所述受检个体的肿瘤样本的微卫星不稳定性高低情况。
2.根据权利要求1所述的方法,其特征在于,所述用于检测MSI的微卫星区域数量为100个以上,优选300个以上。
3.根据权利要求1所述的方法,其特征在于,所述第一预设值为20。
4.根据权利要求1所述的方法,其特征在于,所述第二预设值为0.2,所述第三预设值为10,所述第四预设值为20,所述第五预设值为0.05。
5.根据权利要求1所述的方法,其特征在于,所述用于检测MSI的微卫星区域通过如下步骤得到:
从参考基因组中扫描出所有短重复序列,得到潜在微卫星区域;
从得到的潜在微卫星区域内挑选同时满足位于内含子区内、位于用于所述目标区域捕获测序的杂交捕获芯片区内、且长度在第六预设值范围内的微卫星区域,作为候选区域;
使用第七预设值数量以上的样本数据,在所述候选区域内选取至少在一例样本中存在微卫星不稳定的区域,得到所述用于检测MSI的微卫星区域。
6. 根据权利要求5所述的方法,其特征在于,所述第六预设值范围是10 ~ 30bp。
7.根据权利要求5所述的方法,其特征在于,所述第七预设值是30例。
8.根据权利要求5所述的方法,其特征在于,所述样本数据的测序平均深度不低于100X。
9.一种用于目标区域捕获测序检测MSI的装置,其特征在于,所述装置包括:
数据获取模块,用于获取多个用于检测MSI的微卫星区域,以及来源于同一受检个体的肿瘤样本和对照样本的目标区域捕获测序数据;
长度分布统计模块,用于统计每个微卫星区域的参考基因组上重复序列的长度R,以及该微卫星区域在所述对照样本中不同重复序列长度的丰度和所述肿瘤样本中不同重复序列长度的丰度,其中所述丰度表示每一重复序列长度在所述目标区域捕获测序数据中的支持数;
区域筛选模块,用于过滤掉所述肿瘤样本和对照样本中总丰度低于第一预设值的微卫星区域,以及所述肿瘤样本和对照样本中各自丰度最高的重复序列长度均不等于长度R的微卫星区域,得到筛选的微卫星区域;
MSI区域判定模块,用于将所述对照样本中除长度R的重复序列之外的丰度最高的重复序列长度定义为R2,然后统计所述对照样本中重复序列长度为R和R2的丰度分别为N1和N2,统计所述肿瘤样本中重复序列长度为R和R2的丰度分别为T1和T2,将N2在N1和N2中的占比定义为F1,T2在T1和T2中的占比定义为F2,选取F1小于第二预设值、F2不小于所述第二预设值、T2不低于第三预设值且N1+N2和T1+T2均不低于第四预设值的区域作为潜在的MSI区域,然后通过Fisher单边检验比较F1和F2的差异,将P值低于第五预设值的区域判定为MSI区域;
MSI打分模块,用于将判定得到的MSI区域个数占所述筛选的微卫星区域个数的百分比值作为所述肿瘤样本的最终MSI分值,根据所述最终MSI分值和MSI阈值确定所述受检个体的肿瘤样本的微卫星不稳定性高低情况。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845662.1A CN110556164B (zh) | 2019-09-09 | 2019-09-09 | 用于目标区域捕获测序检测msi的方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910845662.1A CN110556164B (zh) | 2019-09-09 | 2019-09-09 | 用于目标区域捕获测序检测msi的方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110556164A true CN110556164A (zh) | 2019-12-10 |
CN110556164B CN110556164B (zh) | 2023-02-07 |
Family
ID=68739501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910845662.1A Active CN110556164B (zh) | 2019-09-09 | 2019-09-09 | 用于目标区域捕获测序检测msi的方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110556164B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110951878A (zh) * | 2019-12-20 | 2020-04-03 | 北京优迅医学检验实验室有限公司 | 与基因组稳定性相关的微卫星位点的筛选方法、筛选装置及应用 |
CN111785324A (zh) * | 2020-07-02 | 2020-10-16 | 深圳市海普洛斯生物科技有限公司 | 一种微卫星不稳定分析方法及装置 |
CN112037859A (zh) * | 2020-09-02 | 2020-12-04 | 迈杰转化医学研究(苏州)有限公司 | 一种微卫星不稳定性的分析方法和分析装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140235456A1 (en) * | 2012-12-17 | 2014-08-21 | Virginia Tech Intellectual Properties, Inc. | Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci |
US20170032082A1 (en) * | 2015-10-12 | 2017-02-02 | Nantomics, Llc | Systems, Compositions, And Methods For Discovery Of MSI And Neoepitopes That Predict Sensitivity To Checkpoint Inhibitors |
CN107475375A (zh) * | 2017-08-01 | 2017-12-15 | 南京世和基因生物技术有限公司 | 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒 |
CN107526944A (zh) * | 2017-09-06 | 2017-12-29 | 南京世和基因生物技术有限公司 | 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质 |
CN109082470A (zh) * | 2018-09-07 | 2018-12-25 | 上海赛安生物医药科技股份有限公司 | 微卫星不稳定性状态的二代测序引物探针组及其检测方法 |
CN109830265A (zh) * | 2019-01-18 | 2019-05-31 | 臻悦生物科技江苏有限公司 | 检测msi的试剂盒、参考数据库、其制备方法及应用 |
US20190206513A1 (en) * | 2017-12-29 | 2019-07-04 | Grail, Inc. | Microsatellite instability detection |
-
2019
- 2019-09-09 CN CN201910845662.1A patent/CN110556164B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140235456A1 (en) * | 2012-12-17 | 2014-08-21 | Virginia Tech Intellectual Properties, Inc. | Methods and Compositions for Identifying Global Microsatellite Instability and for Characterizing Informative Microsatellite Loci |
US20170032082A1 (en) * | 2015-10-12 | 2017-02-02 | Nantomics, Llc | Systems, Compositions, And Methods For Discovery Of MSI And Neoepitopes That Predict Sensitivity To Checkpoint Inhibitors |
CN107475375A (zh) * | 2017-08-01 | 2017-12-15 | 南京世和基因生物技术有限公司 | 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒 |
CN107526944A (zh) * | 2017-09-06 | 2017-12-29 | 南京世和基因生物技术有限公司 | 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质 |
US20190206513A1 (en) * | 2017-12-29 | 2019-07-04 | Grail, Inc. | Microsatellite instability detection |
CN109082470A (zh) * | 2018-09-07 | 2018-12-25 | 上海赛安生物医药科技股份有限公司 | 微卫星不稳定性状态的二代测序引物探针组及其检测方法 |
CN109830265A (zh) * | 2019-01-18 | 2019-05-31 | 臻悦生物科技江苏有限公司 | 检测msi的试剂盒、参考数据库、其制备方法及应用 |
Non-Patent Citations (2)
Title |
---|
LAURA G BAUDRIN 等: "Molecular and Computational Methods for the Detection of Microsatellite Instability in Cancer", 《DOI: 10.3389/FONC.2018.00621》 * |
陈玮 等: "肿瘤微卫星不稳定性检测方法", 《计算机系统应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110951878A (zh) * | 2019-12-20 | 2020-04-03 | 北京优迅医学检验实验室有限公司 | 与基因组稳定性相关的微卫星位点的筛选方法、筛选装置及应用 |
CN110951878B (zh) * | 2019-12-20 | 2023-02-28 | 北京优迅医学检验实验室有限公司 | 与基因组稳定性相关的微卫星位点的筛选方法、筛选装置及应用 |
CN111785324A (zh) * | 2020-07-02 | 2020-10-16 | 深圳市海普洛斯生物科技有限公司 | 一种微卫星不稳定分析方法及装置 |
CN111785324B (zh) * | 2020-07-02 | 2021-02-02 | 深圳市海普洛斯生物科技有限公司 | 一种微卫星不稳定分析方法及装置 |
CN112037859A (zh) * | 2020-09-02 | 2020-12-04 | 迈杰转化医学研究(苏州)有限公司 | 一种微卫星不稳定性的分析方法和分析装置 |
CN112037859B (zh) * | 2020-09-02 | 2023-12-19 | 迈杰转化医学研究(苏州)有限公司 | 一种微卫星不稳定性的分析方法和分析装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110556164B (zh) | 2023-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110556164B (zh) | 用于目标区域捕获测序检测msi的方法、装置和存储介质 | |
CN108690871B (zh) | 基于二代测序的插入缺失突变检测方法、装置和存储介质 | |
CN108733975B (zh) | 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质 | |
AU2017204558B2 (en) | Mutational analysis of plasma DNA for cancer detection | |
CN107423578B (zh) | 检测体细胞突变的装置 | |
CN107992721B (zh) | 用于检测目标区域基因融合的方法、装置和存储介质 | |
CN107944223B (zh) | 基于二代测序的点突变检测过滤方法、装置和存储介质 | |
JP2021516962A (ja) | バリアント検出の改善 | |
Misyura et al. | Comparison of next-generation sequencing panels and platforms for detection and verification of somatic tumor variants for clinical diagnostics | |
Kato et al. | A computational tool to detect DNA alterations tailored to formalin-fixed paraffin-embedded samples in cancer clinical sequencing | |
CN112164423B (zh) | 基于RNAseq数据的融合基因检测方法、装置和存储介质 | |
CN112768000B (zh) | 一种预测met基因拷贝数变化类型的方法及装置 | |
US20230395190A1 (en) | Methods For Finding Genome Rearrangements From Sequencing Data | |
CN105574365B (zh) | 高通量测序突变检测结果的统计学验证方法 | |
IL258999A (en) | Methods for detecting copy-number variations in next-generation sequencing | |
US20220364186A1 (en) | Method of treating a cancer patient without the need for a tissue biopsy | |
CN116356001B (zh) | 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法 | |
CN112365922A (zh) | 用于检测msi的微卫星位点、其筛选方法及应用 | |
CN110093417A (zh) | 一种检测肿瘤单细胞体细胞突变的方法 | |
CN111223526A (zh) | 基于二代测序血液样本的微卫星不稳定检测方法和装置 | |
CN111584002A (zh) | 用于检测肿瘤突变负荷的方法、计算设备和计算机存储介质 | |
CN110729025B (zh) | 基于二代测序的石蜡切片样本体细胞突变检测方法和装置 | |
CN109830265B (zh) | 检测msi的试剂盒、参考数据库、其构建方法及应用 | |
Kim et al. | An optimized BRCA1/2 next-generation sequencing for different clinical sample types | |
WO2022222668A1 (zh) | 一种基于二代测序的微卫星不稳定性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |