CN109637590B - 一种基于基因组测序的微卫星不稳定性检测系统及方法 - Google Patents

一种基于基因组测序的微卫星不稳定性检测系统及方法 Download PDF

Info

Publication number
CN109637590B
CN109637590B CN201811641480.4A CN201811641480A CN109637590B CN 109637590 B CN109637590 B CN 109637590B CN 201811641480 A CN201811641480 A CN 201811641480A CN 109637590 B CN109637590 B CN 109637590B
Authority
CN
China
Prior art keywords
microsatellite
instability
detection
sample
locus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811641480.4A
Other languages
English (en)
Other versions
CN109637590A (zh
Inventor
叶凯
贾鹏
杨晓飞
刘博文
康永永
梁皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201811641480.4A priority Critical patent/CN109637590B/zh
Publication of CN109637590A publication Critical patent/CN109637590A/zh
Application granted granted Critical
Publication of CN109637590B publication Critical patent/CN109637590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于基因组测序的微卫星不稳定性检测系统及方法,微卫星检测位点选择:根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;根据有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测。本发明不依赖对照样本,可以减少取样是给被检测者带来的痛苦;对照样本中含有被测试者的全部的遗传信息,本发明不使用对照样本可以减少对被测试者隐私泄露的可能性;不检测对照样本可以减少检测的成本。本发明操作方便,成本低,可信度高。

Description

一种基于基因组测序的微卫星不稳定性检测系统及方法
技术领域
本发明涉及一种微卫星不稳定性检测方法,具体涉及一种基于基因组测序的微卫星不稳定性检测系统及方法。
背景技术
近年来,人类基因组测序技术在疾病,健康,衰老等方面的应用越来越广泛,随着测序技术的成熟,特别是下一代测序技术(Next Generation Sequencing,NGS,即二代测序)已经逐渐应用于临床诊断。下一代测序技术的发明使得测序技术实现自动化高通量两个特点,使得测序价格越来越低,到目前为止约1000美元就可以获得一个人的全基因组数据。除了下一代测序技术,目前以PacBio和OxfordNanopore为代表的实时单分子测序,以及单细胞测序也为人类在微观层面上观测人类基因组序列信息提供了更多的便利。
微卫星(Microsatellite,也叫短串联重复,Short Tandem Repeat,STR)一般指在基因组中以1-5个碱基为基本单元的重复。当细胞中与DNA错配修复系统(MismatchRepairSystem,MMR)相关的基因发生突变或者异常表观修饰而失活时,就会产生微卫星不稳定性(Microsatellite Instability,MSI)的表型。大量研究表明,微卫星不稳定性与肿瘤的发生有关,并在肿瘤的治疗和预后的过程中具有重要的作用。
随着我国人口老龄化问题加剧,癌症的发病率越来越高。免疫治疗作为一种个性化的肿瘤治疗方法具有放疗、化疗等传统治疗方法不具备的优势,目前已在多种肿瘤如黑色素瘤,非小细胞肺癌、肾癌和前列腺癌等实体瘤的治疗中展示出了强大的抗肿瘤活性,多种肿瘤免疫治疗药物已经获得美国食品药品监督管理局批准并且在临床上得到了应用。但是免疫治疗药物并非对所有的癌症都敏感,大量的研究表明,微卫星不稳定性阳性的癌症患者接受免疫治疗后有较好的预后效果和较长的生存时间。同时,大量研究表明在结直肠癌,胃癌,子宫内膜癌中,微卫星不稳定性阳性的患者不适合使用一些化疗药物,如5-氟脲嘧啶,而更适合于免疫治疗。因此微卫星不稳定性这一表型的检测对癌症的早筛,治疗和预后都有很重要的意义。
目前临床中微卫星不稳定性检测方法主要依赖于美国肿瘤研究所制定的检测标准,即检测两个单核苷酸重复位点(BAT-25,BAT-26)和三个二核苷酸重复位点(D2S123,D5S346,D17S250)共五个基因组微卫星位点的稳定性。这种方法通过PCR扩增然后通过电泳实验对比肿瘤样本和正常对照样本在目标重复区域的拷贝数情况来决定微卫星位点的稳定性。根据检测样本中不稳定性位点占总检测位点数的比例可以将样本微卫星不稳定性状态确定为高不稳定(MSI-H),低不稳定(MSI-L)和稳定(MSS)三种状态。这种检测方法检测位点过少,实验方案复杂,耗费时间较长。近期对癌症样本的基因组测序数据的研究表明,具有MSI-L和MSS表型的样本没有显著差异,PCR电泳实验的方法并不能得到这一结论。虽然一些专利或者文献提出,增加MSI检测位点并设计实验来增加检测的准确率,但是这种基于PCR和电泳实验的检测方法不能进行高通量自动化进行,同时检测位点增加将会增加实验的难度和成本,不能从根本上解决问题。与此同时这种基于PCR和电泳实验的检测方法的实验步骤复杂,价格昂贵,并且需要正常组织和肿瘤组织作对照。
除了通过对微卫星位点的检测来判断微卫星不稳定性,目前主流的方法还有免疫组化的方法,即通过抗原抗体杂交检测肿瘤中与错配修复系统相关的基因的表达情况来确定微卫星不稳定性的状态。这种方法虽然灵敏度较高,但与上述实验方法一样,同样试验复杂,可重复率低,且需要正常样本作对照。
目前一些研究者利用二代测序数据对MSI状态进行判断,且效果良好,但是实验设计和方法中仍然存在很多缺陷,具体叙述如下:
MSIseq(Ni Huang,M.,et al.MSIseq:Software for Assessing MicrosatelliteInstability from Catalogs of Somatic Mutations.Scientific Reports 2015;5(1).)是利用测序数据对样本进行单核苷酸多态性(SNP)和小的插入缺失(Indel)的变异检测,然后根据变异检测结果利用机器学习方法判断MSI状态。这种方法虽然不需要正常的对照样本,但是需要对样本进行变异检测,这将花费大量的计算资源和时间,并且这种方法的准确性依赖于变异检测结果的准确性,而目前基因组变异检测结果的稳定性较差,特别是在微卫星这类型的重复区域。
MSIsensor(Niu,B.,et al.MSIsensor:microsatellite instability detectionusing paired tumor-normal sequence data.Bioinformatics 2014;30(7):1015-1016.)和MOSAIC(Hause,R.J.,et al.Classification and characterization ofmicrosatellite instability across 18cancer types.Nat Med 2016;22(11):1342-1350.)直接提取基因组上微卫星的特征进行后续微卫星稳定性的判断,不存在计算资源和时间的问题,准确率也比较高,但是需要正常样本作对照,这不仅增加了成本而且在无法获得正常样本时不能检测,在应用上具有很大的局限性。
发明内容
本发明的目的在于提供一种基于基因组测序的微卫星不稳定性检测系统及方法。
为实现上述目的,本发明采用如下的技术方案:
一种基于基因组测序的微卫星不稳定性检测系统,包括微卫星检测位点选择模块和微卫星不稳定性检测模块;
其中,所述微卫星检测位点选择模块用于根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;微卫星不稳定性检测模块用于根据微卫星检测位点选择模块得到的有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测。
本发明进一步的改进在于,所述微卫星检测位点选择模块包括单个微卫星位点基因型提取模块、去除检测率不满足要求的位点模块、去除人群多样性较高的位点模块以及去除区分度小的位点的模块;
其中,所述单个微卫星位点基因型提取模块用于对测序数据进行预处理,得到比对数据,然后对比对数据进行扫描,获取每个微卫星位点的基因型,每个微卫星位点的基因型具体包括微卫星位点所在参考基因组的位置,重复单元,在参考基因组上的重复次数,测序数据中检测到该位置重复单元重复次数,对应的读段数和其他可选信息;
去除检测率不满足要求的位点模块用于对所有的训练样本进行微卫星位点基因型提取,得到所有训练样本的基因型;然后过滤不满足检测率要求的微卫星位点;
去除人群多样性较高的位点模块用于对于某个样本的某个微卫星位点,用微卫星重复单元平均重复次数代替该样本中该微卫星位点的基因型;然后对于每个微卫星位点,计算样本微卫星基因型的均值μ与标准差σ;由均值与标准差构成的统计量对微卫星位点的多样性进行评估;根据多样性进行评估结果,并利用多样性筛选微卫星位点;
去除区分度小的位点模块用于计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点。
一种基于基因组测序的微卫星不稳定性检测方法,包括微卫星不稳定性检测方法主要分为微卫星检测位点选择和微卫星不稳定性检测两个过程,具体如下:
步骤一、微卫星检测位点选择:根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;
步骤二、微卫星不稳定性检测:根据步骤一得到的有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测。
本发明进一步的改进在于,选择有效检测位点的具体过程如下:
1)单个微卫星位点基因型提取:首先对测序数据进行预处理,得到比对数据,然后对比对数据进行扫描,获取每个微卫星位点的基因型,每个微卫星位点的基因型具体包括微卫星位点所在参考基因组的位置,重复单元,在参考基因组上的重复次数,测序数据中检测到该位置重复单元重复次数,对应的读段数和其他可选信息;
2)去除检测率不满足要求的位点:对所有的训练样本进行微卫星位点基因型提取,得到所有训练样本的基因型;然后过滤不满足检测率要求的微卫星位点;
3)对于某个样本的某个微卫星位点,用微卫星重复单元平均重复次数代替该样本中该微卫星位点的基因型;然后对于每个微卫星位点,计算样本微卫星基因型的均值μ与标准差σ;由均值与标准差构成的统计量对微卫星位点的多样性进行评估;根据多样性进行评估结果,并利用多样性筛选微卫星位点;
4)计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点。
5.根据权利要求4所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤2)中,过滤检测率小于50%的微卫星位点;
步骤3)中,利用多样性筛选微卫星位点时去除σ/μ>1的微卫星位点。
本发明进一步的改进在于,步骤4)中,计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点的具体过程如下:
4.1)确定单个微卫星稳定性的评价方法,具体过程如下:
当细胞内的错配修复系统发生缺陷时,细胞内的DNA在复制时发生错误且累积,如果模板链发生折叠则后面的子代细胞中DNA同一个位置则发生了删除的变异,如果合成链发生折叠,则后面子代细胞中的DNA同一个位置会发生插入变异;为了检测微卫星不稳定性,将DNA扩增的过程模拟为一个多项式分布;具体过程如下:
假设在微卫星区域,DNA在合成的过程中,每个碱基或者重复单元合成过程是独立的,同一个位置,模板链和合成链不会同时发生折叠现象;每个碱基或者每个单元复制时模板链折叠为事件D,其发生的概率为p;合成链折叠为事件I,其概率为q;该位置模板链和合成链都不发生折叠为事件N,其概率为1-p-q;假设DNA在复制过程中微卫星区域碱基或者重复单元个数为L,共复制产生了m个拷贝,其中事件D发生的次数为d,事件I发生的次数为i,事件N发生的概率为n,则d+i+n=mL;
基于上述假设有:
Figure BDA0001931186690000061
上式中p,q通过d,i,n估计;
对于每个被检测的微卫星位点,根据p和/或q衡量单个微卫星的稳定性;
4.2)根据步骤4.1)的单个微卫星位点稳定性评价方法,计算所有样本中微卫星位点的稳定性;对于每个微卫星位点,利用非参数检验方法检验该位点稳定性是否在微卫星阴性样本中和阳性样本中具有显著差异;然后检验所有的微卫星位点,去除在阴性样本和阳性样本中没有显著差异的微卫星位点,得到有效检测位点。
本发明进一步的改进在于,步骤一中,计算有效检测位点对应的单个微卫星位点不稳定性的阈值的具体过程如下:针对每个有效检测位点,采用步骤4.1)中的确定单个微卫星稳定性的评价方法计算微卫星不稳定性阴性样本中的稳定性,并计算稳定性的均值与方差,将稳定性均值与三倍方差的和作为该微卫星位点稳定性的阈值。
本发明进一步的改进在于,步骤一中,确定某种肿瘤样本微卫星不稳定性的评价标准的具体过程如下:根据有效检测位点对应的微卫星位点稳定性的阈值,对样本中每个微卫星的稳定性进行判断,然后根据样本中所有有效检测位点的稳定性对样本整体稳定性进行评估,确定样本整体微卫星不稳定性检测评价标准。
本发明进一步的改进在于,步骤一中,计算每个样本中所有有效检测位点的稳定性,并计算不稳定位点占所有检测到有效位点的比例,然后根据比例对样本微卫星不稳定性进行判断,选取在敏感性和特异性达到最大时的值为某种肿瘤样本微卫星不稳定性的评价标准,当测试样本大于该评价标准时为微卫星不稳定性阳性,否则为微卫星不稳定性阴性。
本发明进一步的改进在于,步骤二的具体过程如下:首先根据微卫星不稳定性有效检测位点的集合,扫描测序数据,获取每个微卫星位点的基因型分布,然后计算单个微卫星位点的稳定性并根据单个微卫星位点的稳定性对应的阈值判断单个微卫星的稳定性,最后某种肿瘤样本微卫星不稳定性的评价标准,对样本微卫星不稳定性进行判断,得到样本整体的微卫星稳定性结果。
与现有技术相比,本发明具有的有益效果:现有微卫星检测方法大都需要对照样本,本发明不需要对照样本,可以减少微卫星检测的局限性,并且具有以下优势:第一,对照样本取样往往需要获取被测试者血液或者癌旁正常组织,本发明不依赖对照样本,可以减少取样给被检测者带来的痛苦;第二,对照样本中含有被测试者的全部遗传信息,本发明不使用对照样本可以减少对被测试者隐私泄露的可能性;第三,不检测对照样本可以减少检测的成本。由于本发明可以采用目前成熟的二代测序技术获取被测试者癌症组织的遗传信息,操作方便,成本低,可信度高。
进一步的,本发明的单个微卫星位点稳定性评价方法从微卫星发生机制的原理上建模,可以从原理上解释微卫星不稳定性的发生机理,能够更加准确的估计出单个微卫星位点的稳定性。
进一步的,本发明在微卫星不稳定性检测方面具有很高的准确性,与目前基于PCR和电泳实验的临床金标准方法的结果具有很高的一致性。
进一步的,本发明通过单个微卫星稳定性评估,可以从微卫星不稳定性的原理上描述微卫星位点的稳定性。与目前单个微卫星不稳定性检测方法相比,本发明中的模型不需要对照组数据,并且具有很强的解释性。
进一步的,本发明通过微卫星不稳定性检测位点选择方法,利用统计学原理选择与微卫星不稳定性相关的位点进行微卫星不稳定性检测,在没有对照组的情况,可以减少由于人群微卫星多样性带来的误差,并减少检测成本。
进一步的,本发明通过微卫星不稳定性评价标准建立方法,利用样本的测序数据以及对应的微卫星不稳定状态对微卫星不稳定性特征进行学习,建立单个微卫星位点不稳定性评价标准以及样本微卫星不稳定性的评价标准。
附图说明
图1为本发明整体工作示例图。
图2为单个微卫星位点稳定性检测模型。
图3为微卫星检测位点选择,位点和样本稳定性标准建立流程图。
图4为微卫星基因型分布数据格式存储实例。
图5为对照样本非依赖的微卫星不稳定性检测示意图。
图6为DNA样本测序与数据预处理操作流程。
具体实施方式
下面结合附图对本发明进行详细说明。
本发明提供一种基于基因组测序的微卫星不稳定性检测系统,包括微卫星检测位点选择模块和微卫星不稳定性检测模块;
其中,所述微卫星检测位点选择模块用于根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;微卫星不稳定性检测模块用于根据微卫星检测位点选择模块得到的有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测。
具体的,所述微卫星检测位点选择模块包括单个微卫星位点基因型提取模块、去除检测率不满足要求的位点模块、去除人群多样性较高的位点模块以及去除区分度小的位点的模块;
其中,所述单个微卫星位点基因型提取模块用于对测序数据进行预处理,得到比对数据,然后对比对数据进行扫描,获取每个微卫星位点的基因型,每个微卫星位点的基因型具体包括微卫星位点所在参考基因组的位置,重复单元,在参考基因组上的重复次数,测序数据中检测到该位置重复单元重复次数,对应的读段数和其他可选信息;
去除检测率不满足要求的位点模块用于对所有的训练样本进行微卫星位点基因型提取,得到所有训练样本的基因型;然后过滤不满足检测率要求的微卫星位点;
去除人群多样性较高的位点模块用于对于某个样本的某个微卫星位点,用微卫星重复单元平均重复次数代替该样本中该微卫星位点的基因型;然后对于每个微卫星位点,计算样本微卫星基因型的均值μ与标准差σ;由均值与标准差构成的统计量对微卫星位点的多样性进行评估;根据多样性进行评估结果,并利用多样性筛选微卫星位点;
去除区分度小的位点模块用于计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点。
本发明提供一种基于二代测序的微卫星不稳定性检测方法,包扩对照样本非依赖的微卫星不稳定性检测,建立单个微卫星稳定性评估模型,微卫星不稳定性检测位点选择,以及微卫星不稳定性评价标准建立。
如图1所示,本发明的微卫星不稳定性检测方法主要分为微卫星检测位点选择和微卫星不稳定性检测两个过程,
步骤一、微卫星检测位点选择:根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;对于同一种肿瘤,这一步骤只需要进行一次。
如图3所示,微卫星不稳定检测位点选择将以已知微卫星不稳定性状态的样本及其肿瘤测序数据为输入,获取与微卫星不稳定性状态相关的微卫星位点。微卫星不稳定性状态可以通过美国肿瘤研究所制定的检测标准(PCR和电泳方法)或者MSIsensor等检验准确率较高的方法来获取。测序数据可以是全基因组,全外显子组或者目标区域的测序。根据对某种肿瘤样本的测序数据,选择有效检测位点的具体过程如下:
1)单个微卫星位点基因型提取:首先对测序数据进行预处理,得到高质量的比对数据,比对数据的存储格式可以为bam格式或者其他比对数据存储格式,然后对比对数据进行扫描,获取每个微卫星位点的基因型,每个微卫星位点的基因型具体包括微卫星位点所在参考基因组的位置,重复单元,在参考基因组上的重复次数,测序数据中检测到该位置重复单元重复次数,对应的读段数和其他可选信息。图4给出一种微卫星位点基因型存储格式实例。
2)去除检测率不满足要求的位点:对所有的训练样本进行微卫星位点基因型提取,得到所有训练样本的基因型。每个微卫星位点的检测率由训练样本中检测到该位点的样本数与所有训练样本的数目的比值确定。微卫星位点的检测率是衡量该微卫星区域在当前测序方法(全基因组,全外显子组,目标区域测序中的一种)下获得测序数据的能力,如果微卫星位点检测率过低则表明,在众多样本中无法获取这一微卫星位点的测序数据。为了保证最终选择的微卫星位点数目足够,并保证所选的微卫星位点在所有样本中具有高的检测率,用户可权衡二者利弊,选取合适的阈值过滤不满足检测率要求的微卫星位点。例如去除检测率小于50%的位点。
3)去除人群多样性较高的位点:研究表明,一些微卫星在人群中具有很高的多样性,可以作为身份识别的标志,在法医学中有广泛的应用。在本发明中,需要选择基因组中相对保守的微卫星位点,进行分析。
对于某个样本的某个微卫星位点,用微卫星重复单元平均重复次数代替该样本中该微卫星位点的基因型。对于每个微卫星位点,计算样本微卫星基因型的均值μ与标准差σ。由均值与标准差构成的统计量对微卫星位点的多样性进行评估。根据实际数据特征,在最终保留位点数目足够的情况下,用户权衡二者确定一个阈值,去除多样性高的微卫星位点。
如用σ/μ评价微卫星的多样性,σ/μ越大表明微卫星的多样性越高,可以去除σ/μ>1的微卫星位点。
4)去除区分度小的位点:区分度指微卫星位点对微卫星不稳定性检测的贡献。本发明中去除在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异小的位点,得到有效检测位点;具体包括以下步骤:
4.1)确定单个微卫星稳定性的评价方法,具体过程如下:
如图2所示,当细胞内的错配修复系统发生缺陷时(这里的缺陷指的是与错配修复系统给相关的基因发生突变或者失活),细胞内的DNA在复制时发生错误发生且累积,特别的,在图2中所示的微卫星区域会发生模板链折叠或者合成链折叠。如果模板连发生折叠则后面的子代细胞中DNA同一个位置则发生了删除的变异,如果合成链发生折叠,则后面子代细胞中的DNA同一个位置会发生插入变异。当DNA在体外扩增时,同样会发生模板链折叠或者合成链折叠。为了检测错配修复系统的功能即微卫星不稳定性,将DNA扩增的过程模拟为一个多项式分布。具体过程如下:
假设在微卫星区域,DNA在合成的过程中,每个碱基或者重复单元合成过程是独立的,同一个位置,模板链和合成链不会同时发生图2中的折叠现象。每个碱基或者每个单元复制时模板链折叠为事件D,其发生的概率为p,即该位置发生删除的概率是p;合成链折叠为事件I,其概率为q,即该位置发生插入的概率为q。该位置模板链和合成链都不发生折叠即该位置不发生变异为事件N,其概率为1-p-q。假设DNA在复制过程中微卫星区域碱基或者重复单元个数为L,共复制产生了m个拷贝,其中事件D发生的次数为d,事件I发生的次数为i,事件N发生的概率为n,则d+i+n=mL。
基于上述假设有:
Figure BDA0001931186690000121
上式中p,q可以通过d,i,n估计。估计方法,可以采用均值估计,贝叶斯估计等进行,此处不再赘述,可以是任意可选的多项式分布参数估计方法。
对于每个被检测的微卫星位点,可以根据p和/或q的概率衡量其稳定性。
4.2)根据步骤4.1)的单个微卫星位点稳定性评价方法,计算所有样本中微卫星位点的稳定性。对于每个微卫星位点,利用非参数检验方法检验该位点稳定性是否在微卫星阴性样本中和阳性样本中具有显著差异(统计检验p-value值小于0.05、0.01或0.1具有显著差异)。检验所有的微卫星位点,去除在阴性样本和阳性样本中没有显著差异的微卫星位点,得到有效检测位点。
例如可以用微卫星发生删除的概率来衡量单个微卫星的稳定性,用秩和检验来检测微卫星位点稳定性是否在微卫星不稳定性阳性样本和阴性样本中具有显著差异。
经过步骤4)后获得的微卫星位点即可作为微卫星不稳定性的检测位点或者为最终的有效检测位点。
5)计算单个微卫星位点不稳定性的阈值:
样本单个位点稳定性计算:针对每个作为微卫星不稳定性的检测位点,计算微卫星不稳定性阴性样本中的稳定性,并计算其均值与方差,利用均值与方差确定该微卫星位点稳定性的阈值。
例如,以微卫星位点发生删除的概率检测微卫星位点的稳定性,将稳定性均值与三倍方差的和作为稳定性的阈值,即在测试样本中根据该阈值确定单个微卫星位点的稳定性。
6)确定某种肿瘤样本微卫星不稳定性的评价标准:根据上述步骤4选择出的所有的检测位点以及其对应的稳定性阈值,对样本中每个微卫星的稳定性进行判断,然后根据样本中所有有效检测位点的稳定性对样本整体稳定性进行评估,确定样本整体微卫星不稳定性检测评价标准。具体说明如下:
计算每个样本中所有检测位点的稳定性,并计算不稳定位点占所有检测到有效位点的比例。然后根据比例对样本微卫星不稳定性进行判断,比例越大表示样本微卫星越不稳定,选取在敏感性和特异性达到最大时的值为其阈值标准。当测试样本大于该阈值时即为微卫星不稳定性阳性,否则为微卫星不稳定性阴性。
步骤二、微卫星不稳定性检测:对步骤1)中过程4最终选择的微卫星位点进行测序,并对检测样本进行微卫星不稳定性检测。具体过程如下:
在步骤1)中的微卫星位点选择过程中,步骤4获得了微卫星不稳定性有效检测位点,步骤5获取了步骤4中位点的稳定性阈值,步骤6中获取了样本微卫星不稳定性阈值。对于某一种特定癌症类型,特定的测序策略(全基因组,全外显子组或者目标区域的测序中的一种),步骤1)只需要进行一次。
对于新的检测样本,微卫星不稳定性检测过程如下:
如图5所示,首先根据步骤4中微卫星不稳定性有效检测位点集合,扫描测序数据,获取每个微卫星位点的基因型分布,计算单个微卫星位点的稳定性并根据对应的稳定性阈值判断单个微卫星的稳定性。获取到单个微卫星位点稳定性信息之后,根据步骤1)中过程6中样本微卫星不稳定性计算方法及样本微卫星不稳定性阈值,对样本微卫星不稳定性进行判断,生成最终微卫星不稳定性检测报告。报告包含检测样本的信息,检测的微卫星位点信息,有效的微卫星位点,各微卫星位点的稳定性结果,样本整体的微卫星稳定性结果等。
下面为本发明的具体实施例。
1)DNA测序样本提取与测序
参见图6,包括肿瘤样本DNA提取与纯化,测序文库构建,测序文库质量控制,上机测序。详细说明如下:
肿瘤样本DNA提取与纯化:用户可以对手术切除的肿瘤组织,穿刺获得的肿瘤样本或者其他方式获得的含有遗传物质的肿瘤细胞进行卫星不稳定性检测分析,也可以对肿瘤细胞系提取DNA进行微卫星不稳定性检测。
测序文库构建:根据用户需求,可以对提取纯化后的DNA进行构建DNA测序文库。根据用户其他需要,可以构建全基因组,全外显子组或者特定目标区域测序的文库,本专利涉及的方法对测序的区域没有特殊要求。
测序文库质量控制:对上一步建立的文库进行质量控制,判断DNA测序文库能否进行上机测序,如果不能则需要重新构建基因文库。
上机测序:这一步对DNA进行测序,可以使用Illumina、BGI,Pacbio,Nanopare等测序仪进行测序并做Base Calling。
2)测序数据预处理
包括原始数据质量控制,与参考基因组比对,去除重复读段,比对数据质量控制等过程,具体说明如下:
原始数据质量控制是检验测序数据质量是否符合要求并统计测序样本的信息,并做一定的处理。这一步骤中需要去除测序数据中可能混入的测序文库中的接头序列,并去除测序质量低于Q30的碱基或者读段。在对数据过滤完毕后,需要对样本的GC含量分布,读段长度分布,插入片段长度等进行分析,如果过滤后的测序数据质量达标,则利用这些高质量的数据进行下一步分析。
与参考基因组比对是指将上一步获得的高质量的测序数据比对到参考基因组上,以获得每个读段在参考基因组上的位置信息。比对软件可以根据测序平台不同而选择,如二代测序可选择BWA,Bowtie等,Pacbio和Nanopore可以选择nimimap2,ngmlr等。
去除重复序列是指获得了每个读段在参考基因组上的位置后,过滤因为二代测序过程中聚合酶链式反应导致同一个片段的大幅度扩增而引入的误差,如可采用picard或者bammarkduplicates等软件。
测序数据质量控制指对上一步过滤处理后的文件进行质量控制,计算其在参考基因组上的覆盖度,覆盖的微卫星位点数目,以确定能否进行后续分析。
3)微卫星检测位点选择
本发明选择美国肿瘤基因组路线图(The Cancer Genome Atlas,TCGA)数据库中的癌症样本进行位点选择。以结直肠癌为例,我们在TCGA数据库中获得了有微卫星不稳定性结果的588例(MSI-L/MSS有510例,MSI-H有78例)结直肠癌的肿瘤样本全外显子测序数据,选取其中137例(MSI-L/MSS有109例,MSI-H有28例)进行微卫星检测位点选择与后续标准建立,称为训练样本集,剩余样本称为测试样本集。
对137例样本进行基因型提取,并对样本的所有位点进行稳定性评估,这里用微卫星位点发生删除的概率来代表单个微卫星的稳定性。上述步骤后在所有样本中共检测到约100000个以上的微卫星位点,去除检测率较低的位点剩余12752个位点,去除多样性较高的微卫星位点后,获得保守型较高的位点6389个。通过秩和检验选择在MSI-H样本和MSS/MSI-L样本中稳定性具有显著差异的位点,取p值为0.05,最终共过得1567个位点用于微卫星检测。
4)单个微卫星不稳定性阈值与样本微卫星不稳定性评价标准建立
根据步骤3)中的测试样本中MSI-L/MSS样本进行单个微卫星稳定性标准建立,计算MSI-L/MSS样本中单个微卫星位点不稳定性评价指标的均值和标准差,以均值与三倍标准差为单个微卫星不稳定性的阈值。当测试样本的稳定性评价指标大于该阈值是认为测试样本中该微卫星位点不稳定。
计算所有样本中微卫星检测位点的稳定性,并计算不稳定微卫星位点占所有检测的微卫星位点的比例,以此来评估样本整体微卫星的稳定性。然后根据比例对样本微卫星不稳定性进行判断,选取在敏感性和特异性达到最大时的值为其标准。当测试样本大于该阈值时即为微卫星不稳定性阳性。
5)微卫星不稳定检测测试
选取测试样本集中451例肿瘤样本进行测试
TCGA数据库中451例测试样本集中的结直肠癌样本测试微卫星不稳定性检测的准确率。以PCR金标准的结果为真实结果,计算获得本发明微卫星不稳定性检测方法与MSIsensor的评价指标如下表1所示:
表1 本发明微卫星不稳定性检测方法与MSIsensor的评价指标
Figure BDA0001931186690000161
本发明与PCR金标准方法所得结果有99.32%的一致性,与MSIsensor相比,本发明的准确性特异性,精确性都较高。

Claims (8)

1.一种基于基因组测序的微卫星不稳定性检测系统,其特征在于,包括微卫星检测位点选择模块和微卫星不稳定性检测模块;
其中,所述微卫星检测位点选择模块用于根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;微卫星不稳定性检测模块用于根据微卫星检测位点选择模块得到的有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测;
其中,所述微卫星检测位点选择模块包括单个微卫星位点基因型提取模块、去除检测率不满足要求的位点模块、去除人群多样性较高的位点模块以及去除区分度小的位点的模块;
其中,所述单个微卫星位点基因型提取模块用于对测序数据进行预处理,得到比对数据,然后对比对数据进行扫描,获取每个微卫星位点的基因型,每个微卫星位点的基因型具体包括微卫星位点所在参考基因组的位置,重复单元,在参考基因组上的重复次数,测序数据中检测到位置、重复单元、重复次数,对应的读段数和其他可选信息;
去除检测率不满足要求的位点模块用于对所有的训练样本进行微卫星位点基因型提取,得到所有训练样本的基因型;然后过滤不满足检测率要求的微卫星位点;
去除人群多样性较高的位点模块用于对于某个样本的某个微卫星位点,用微卫星重复单元平均重复次数代替该样本中该微卫星位点的基因型;然后对于每个微卫星位点,计算样本微卫星基因型的均值μ与标准差σ;由均值与标准差构成的统计量对微卫星位点的多样性进行评估;根据多样性进行评估结果,并利用多样性筛选微卫星位点;
去除区分度小的位点模块用于计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点。
2.一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,包括微卫星不稳定性检测方法主要分为微卫星检测位点选择和微卫星不稳定性检测两个过程,具体如下:
步骤一、微卫星检测位点选择:根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;其中,选择有效检测位点的具体过程如下:
1)单个微卫星位点基因型提取:首先对测序数据进行预处理,得到比对数据,然后对比对数据进行扫描,获取每个微卫星位点的基因型,每个微卫星位点的基因型具体包括微卫星位点所在参考基因组的位置,重复单元,在参考基因组上的重复次数,测序数据中检测到位置、重复单元、重复次数,对应的读段数和其他可选信息;
2)去除检测率不满足要求的位点:对所有的训练样本进行微卫星位点基因型提取,得到所有训练样本的基因型;然后过滤不满足检测率要求的微卫星位点;
3)对于某个样本的某个微卫星位点,用微卫星重复单元平均重复次数代替该样本中该微卫星位点的基因型;然后对于每个微卫星位点,计算样本微卫星基因型的均值μ与标准差σ;由均值与标准差构成的统计量对微卫星位点的多样性进行评估;根据多样性进行评估结果,并利用多样性筛选微卫星位点;
4)计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点;
步骤二、微卫星不稳定性检测:根据步骤一得到的有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测。
3.根据权利要求2所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤2)中,过滤检测率小于50%的微卫星位点;
步骤3)中,利用多样性筛选微卫星位点时去除σ/μ>1的微卫星位点。
4.根据权利要求2所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤4)中,计算在微卫星不稳定性阳性和阴性样本中微卫星位点稳定性差异,然后筛选得到有效检测位点的具体过程如下:
4.1)确定单个微卫星稳定性的评价方法,具体过程如下:
当细胞内的错配修复系统发生缺陷时,细胞内的DNA在复制时发生错误且累积,如果模板链发生折叠则后面的子代细胞中DNA同一个位置则发生了删除的变异,如果合成链发生折叠,则后面子代细胞中的DNA同一个位置会发生插入变异;为了检测微卫星不稳定性,将DNA扩增的过程模拟为一个多项式分布;具体过程如下:
假设在微卫星区域,DNA在合成的过程中,每个碱基或者重复单元合成过程是独立的,同一个位置,模板链和合成链不会同时发生折叠现象;每个碱基或者每个单元复制时模板链折叠为事件D,其发生的概率为p;合成链折叠为事件I,其概率为q;该位置模板链和合成链都不发生折叠为事件N,其概率为1-p-q;假设DNA在复制过程中微卫星区域碱基或者重复单元个数为L,共复制产生了m个拷贝,其中事件D发生的次数为d,事件I发生的次数为i,事件N发生的概率为n,则d+i+n=mL;
基于上述假设有:
Figure FDA0002433936520000031
上式中p,q通过d,i,n估计;
对于每个被检测的微卫星位点,根据p和/或q衡量单个微卫星的稳定性;
4.2)根据步骤4.1)的单个微卫星位点稳定性评价方法,计算所有样本中微卫星位点的稳定性;对于每个微卫星位点,利用非参数检验方法检验该位点稳定性是否在微卫星阴性样本中和阳性样本中具有显著差异;然后检验所有的微卫星位点,去除在阴性样本和阳性样本中没有显著差异的微卫星位点,得到有效检测位点。
5.根据权利要求4所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤一中,计算有效检测位点对应的单个微卫星位点不稳定性的阈值的具体过程如下:针对每个有效检测位点,采用步骤4.1)中的确定单个微卫星稳定性的评价方法计算微卫星不稳定性阴性样本中的稳定性,并计算稳定性的均值与方差,将稳定性均值与三倍方差的和作为该微卫星位点稳定性的阈值。
6.根据权利要求2所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤一中,确定某种肿瘤样本微卫星不稳定性的评价标准的具体过程如下:根据有效检测位点对应的微卫星位点稳定性的阈值,对样本中每个微卫星的稳定性进行判断,然后根据样本中所有有效检测位点的稳定性对样本整体稳定性进行评估,确定样本整体微卫星不稳定性检测评价标准。
7.根据权利要求2所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤一中,计算每个样本中所有有效检测位点的稳定性,并计算不稳定位点占所有检测到有效位点的比例,然后根据比例对样本微卫星不稳定性进行判断,选取在敏感性和特异性达到最大时的值为某种肿瘤样本微卫星不稳定性的评价标准,当测试样本大于该评价标准时为微卫星不稳定性阳性,否则为微卫星不稳定性阴性。
8.根据权利要求2所述的一种基于基因组测序的微卫星不稳定性检测方法,其特征在于,步骤二的具体过程如下:首先根据微卫星不稳定性有效检测位点的集合,扫描测序数据,获取每个微卫星位点的基因型分布,然后计算单个微卫星位点的稳定性并根据单个微卫星位点的稳定性对应的阈值判断单个微卫星的稳定性,最后某种肿瘤样本微卫星不稳定性的评价标准,对样本微卫星不稳定性进行判断,得到样本整体的微卫星稳定性结果。
CN201811641480.4A 2018-12-29 2018-12-29 一种基于基因组测序的微卫星不稳定性检测系统及方法 Active CN109637590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811641480.4A CN109637590B (zh) 2018-12-29 2018-12-29 一种基于基因组测序的微卫星不稳定性检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811641480.4A CN109637590B (zh) 2018-12-29 2018-12-29 一种基于基因组测序的微卫星不稳定性检测系统及方法

Publications (2)

Publication Number Publication Date
CN109637590A CN109637590A (zh) 2019-04-16
CN109637590B true CN109637590B (zh) 2020-06-19

Family

ID=66054872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811641480.4A Active CN109637590B (zh) 2018-12-29 2018-12-29 一种基于基因组测序的微卫星不稳定性检测系统及方法

Country Status (1)

Country Link
CN (1) CN109637590B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114150067A (zh) * 2022-02-07 2022-03-08 元码基因科技(北京)股份有限公司 确定用于检测微卫星不稳定状态的位点组合的方法、系统及探针组

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223526B (zh) * 2019-11-15 2022-05-20 深圳裕策生物科技有限公司 基于二代测序血液样本的微卫星不稳定检测方法和装置
CN110689921B (zh) * 2019-12-10 2020-02-28 至本医疗科技(上海)有限公司 微卫星不稳定性检测装置、计算机设备及计算机存储介质
CN110910957B (zh) * 2019-12-31 2023-06-27 求臻医学科技(浙江)有限公司 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
CN111583999B (zh) * 2020-04-24 2023-08-18 北京优迅医学检验实验室有限公司 建立检测微卫星不稳定的基线的方法、装置及应用
CN111826428A (zh) * 2020-07-24 2020-10-27 深圳市新合生物医疗科技有限公司 一种基于二代测序的微卫星不稳定性检测的方法及系统
CN112391477B (zh) * 2020-12-07 2021-04-09 北京求臻医疗器械有限公司 一种检测游离核酸微卫星不稳定性的方法及装置
CN112687333B (zh) * 2020-12-24 2021-11-23 北京吉因加医学检验实验室有限公司 一种泛癌种的单样本微卫星不稳定性的分析方法和装置
CN113160891A (zh) * 2021-04-14 2021-07-23 西安交通大学 一种基于转录组测序的微卫星不稳定性检测方法
CN115223658B (zh) * 2021-04-20 2023-04-28 厦门艾德生物医药科技股份有限公司 一种基于二代测序的微卫星不稳定性检测方法
CN114708916B (zh) * 2022-03-15 2023-11-10 至本医疗科技(上海)有限公司 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质
CN115595371B (zh) * 2022-12-07 2023-04-11 元码基因科技(北京)股份有限公司 确定结直肠癌患者msi状态的方法及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106755501A (zh) * 2017-01-25 2017-05-31 广州燃石医学检验所有限公司 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法
CN107058551A (zh) * 2017-05-04 2017-08-18 北京诺禾致源科技股份有限公司 检测微卫星位点不稳定性的方法及装置
CN108470114A (zh) * 2018-04-27 2018-08-31 元码基因科技(北京)股份有限公司 基于单样本的二代测序数据分析肿瘤突变负荷的方法
WO2018170577A1 (en) * 2017-03-22 2018-09-27 Universtiy Health Network Combined hybrid-capture dna sequencing and methylation analysis for disease diagnosis and detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106755501A (zh) * 2017-01-25 2017-05-31 广州燃石医学检验所有限公司 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法
WO2018170577A1 (en) * 2017-03-22 2018-09-27 Universtiy Health Network Combined hybrid-capture dna sequencing and methylation analysis for disease diagnosis and detection
CN107058551A (zh) * 2017-05-04 2017-08-18 北京诺禾致源科技股份有限公司 检测微卫星位点不稳定性的方法及装置
CN108470114A (zh) * 2018-04-27 2018-08-31 元码基因科技(北京)股份有限公司 基于单样本的二代测序数据分析肿瘤突变负荷的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114150067A (zh) * 2022-02-07 2022-03-08 元码基因科技(北京)股份有限公司 确定用于检测微卫星不稳定状态的位点组合的方法、系统及探针组
CN114150067B (zh) * 2022-02-07 2022-05-17 元码基因科技(北京)股份有限公司 确定用于检测微卫星不稳定状态的位点组合的方法、系统及探针组

Also Published As

Publication number Publication date
CN109637590A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109637590B (zh) 一种基于基因组测序的微卫星不稳定性检测系统及方法
CN109207594B (zh) 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法
CN107475375B (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
CN107526944B (zh) 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
CN106834502B (zh) 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN107513565B (zh) 一种微卫星不稳定位点组合、检测试剂盒及其应用
CN106755501B (zh) 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法
EP3240911B1 (en) Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
CN108753967A (zh) 一种用于肝癌检测的基因集及其panel检测设计方法
WO2018090298A2 (en) Systems and methods for monitoring lifelong tumor evolution
CN106778073B (zh) 一种评估肿瘤负荷变化的方法和系统
US20210065842A1 (en) Systems and methods for determining tumor fraction
CN109182525A (zh) 一种微卫星生物标志物组合、检测试剂盒及其用途
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
CN109504778B (zh) 一种基于表观修饰的5hmC多分子标志物及结直肠癌早期诊断模型
CN110592208B (zh) 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置
EP3859010A1 (en) Second generation sequencing-based method for detecting microsatellite stability and genome changes by means of plasma
CN116631508B (zh) 肿瘤特异性突变状态的检测方法及其应用
US20220205043A1 (en) Detecting cancer risk
CN110004229A (zh) 多基因作为egfr单克隆抗体类药物耐药标志物的应用
CN112037859A (zh) 一种微卫星不稳定性的分析方法和分析装置
CN110373458B (zh) 一种地中海贫血检测的试剂盒及分析系统
WO2023142625A1 (zh) 一种甲基化测序数据过滤方法及应用
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant