发明内容
本申请的目的是提供一种新的泛癌种的单样本微卫星不稳定性的分析方法和装置。
为了实现上述目的,本申请采用了以下技术方案:
本申请的一方面公开了一种泛癌种的单样本微卫星不稳定性的分析方法,包括以下步骤:
样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;
位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除有效统计量数量不符合条件的位点;d)过滤去除位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;本申请中,非参比例为非参考基因组重复数reads的比例,非参熵为通过非参考基因组重复数reads的重复数频数分布熵;
样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;
微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
需要说明的是,本申请的分析方法中,微卫星不稳定性判断步骤的有效位点阈值和样本MSI分数阈值是经过大量临床样本训练获得的用于微卫星不稳定性分析的阈值。采用本申请的分析方法,可以直接对单样本的测序数据进行微卫星不稳定性分析,克服了单样本分析微卫星不稳定性的检测缺陷。在本申请的一种实现方式中,本申请分析方法所得结果与PCR检测的微卫星不稳定性结果具有高度一致性,与双样本NGS使用msisensor的结果较为一致。
本申请的一种实现方式中,样本获取步骤的平均深度阈值为100。
需要说明的是,本申请采用平均测序深度大于或等于100,即sp_mean_depth≥100,的样本进行微卫星不稳定性分析,主要是考虑测序结果的准确性。可以理解,在要求相对较低的情况下,也可以采用平均深度更低的样本,例如平均测序深度大于或等于50、30等;又或者,在要求更严格的情况下,可以采用平均深度高的样本,在此不作具体限定。
本申请的一种实现方式中,位点质控步骤,过滤去除参考基因组中位点重复次数不符合条件的位点,具体包括过滤去除位点重复次数小于5,或者位点重复次数大于50的位点;深度阈值为100;过滤去除有效统计量数量不符合条件的位点,具体包括过滤去除MSS基线中有效统计量数量<50或MSS-H基线中有效统计量数量<50的位点;过滤去除位点区分度不符合条件的位点,具体包括过滤去除分类AUC<0.7或最大准确率<0.7的位点。其中,有效统计量是指满足前述重复数和深度的阈值的位点。
需要说明的是,以上具体筛选条件和阈值,只是本申请的一种实现方式中所采用的过滤参数,以获得符合要求的位点,用于后续检测和分析。可以理解,在本申请的发明构思下,可以根据具体分析需求对以上参数进行适当调整,在此不作具体限定。
本申请的一种实现方式中,位点MSI分数计算步骤的MSI统计量采用公式一计算获得,
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数;
可以理解,以上MSI统计量的计算公式只是本申请的一种实现方式中具体采用的计算公式,不排除还可以采用其它方式进行MSI统计量计算,在此不作具体限定。
本申请的一种实现方式中,作为位点MSI分数的归一化Zscore值具体采用以下方法计算获得,
a)根据公式二计算原始Zscore值;
公式二中,
为原始Zscore值,x
t为位点t在基线MSS样本的统计量,
为对应MSS样本的统计量均值,
为MSS样本的统计量标准差;
b)取原始Zscore的阈值为3,对应显著性为99.7%;
c)为使MSI位点的Zscore尽可能接近1,使用归一化Zscore值
d)为使位点MSI分数有界,限定
的最大值为3,当
小于等于1时,判定为MSS状态,修改
为0;反之,当
大于1时,判定为MSI状态,
取值不变。
可以理解,以上归一化Zscore的计算方式只是本申请的一种实现方式中具体采用的计算方式,不排除还可以采用其它方式进行归一化Zscore计算,在此不作具体限定。
本申请的一种实现方式中,样本MSI分数计算步骤,位点MSI分数的加权平均的具体方法包括,将所有基线在该位点判定为有效位点的个数记为Nvalid,MSI位点个数记为Nmsi,使用基线中位点的分类准确率Accuracyt作为位点权重,加权后的样本MSI分数MSIscore的计算方式包括,
a)根据基线计算单位点的分类准确率Accuracy
t:以
为阈值,其中,
表示t位点的MSS基线统计量均值,
表示标准差,计算基线样本的分类准确率Accuracy
t=(TP+TN)/(TP+TN+FP+FN);其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数;
b)按照公式三将分类准确率归一化为1-均值的位点权重;
公式三中,Weight
t表示t位点的权重N
total表示位点总数,
表示所有位点的分类准确率均值;
c)然后按照公式四计算样本MSI分数;
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点。
可以理解,以上样本MSI分数的计算方式也只是本申请的一种实现方式中具体采用的计算方式,不排除还可以采用其它方式进行样本MSI分数计算,在此不作具体限定。
本申请的一种实现方式中,基线位点中的有效位点是指深度大于或等于100的位点。
本申请的一种实现方式中,微卫星不稳定性判断步骤中,有效位点阈值为25。
本申请的一种实现方式中,样本MSI分数阈值为0.135。
需要说明的是,有效位点阈值为25、样本MSI分数阈值为0.135,这两个具体值也是本申请的一种实现方式中,根据大量临床样本训练获得的微卫星不稳定性分析阈值。可以理解,采用不同来源或数量的临床样本,最终获得的阈值可能会有所改变;但是,在本申请的发明构思下,本申请微卫星不稳定性分析方法的基本原理和分析结果是一致的。
可以理解,本申请泛癌种的单样本微卫星不稳定性的分析方法,其关键在于创造性的对不同癌种的临床病例进行训练,即将这些临床样本的单样本测序结果及其分析获得的样本MSI分数,与金标准PCR检测和NGS检测的微卫星不稳定性结果,通过训练,获得一批对MSI-H、MSS状态具有高度区分性的位点,以及判断模型;借由本申请构建的模型,可以直接根据待测样本的单样本分析结果的样本MSI分数,判断待测样本的微卫星不稳定性。
因此,本申请的另一方面还公开了一种构建泛癌种的单样本微卫星不稳定性分析模型的方法,其包括以下步骤:
样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;
位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;
样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;
模型训练步骤,包括根据肿瘤组织采用样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值。
需要说明的是,本申请的模型构建方法中,样本获取步骤、位点质控步骤、位点MSI分数计算步骤和样本MSI分数计算步骤都与本申请泛癌种的单样本微卫星不稳定性的分析方法相同;因此,各步骤的详细参数或计算公式都可以参考本申请的泛癌种的单样本微卫星不稳定性的分析方法,在此不累述。
本申请的再一方面还公开了一种泛癌种的单样本微卫星不稳定性分析的装置,该装置包括样本获取模块、位点质控模块、位点MSI分数计算模块、样本MSI分数计算模块、模型训练模块和微卫星不稳定性判断模块;
样本获取模块,包括用于获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本位点信息;
位点质控模块,包括用于a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算模块,包括用于将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;
样本MSI分数计算模块,包括用于将位点MSI分数的加权平均作为样本MSI分数;
模型训练模块,包括用于根据肿瘤组织采用样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值;
微卫星不稳定性判断模块,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于模型训练模块获得的有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSS样本。
需要说明的是,本申请泛癌种的单样本微卫星不稳定性分析的装置,实际上就是通过各模块分别实现本申请泛癌种的单样本微卫星不稳定性的分析方法中的各步骤;因此,个模块的具体限定可以参考本申请泛癌种的单样本微卫星不稳定性的分析方法,在此不累述。
可以理解,本申请泛癌种的单样本微卫星不稳定性分析的装置中,模型训练模块只需要在首次使用时运行;在获得分析微卫星不稳定性的阈值后,可以直接采用获得的阈值进行微卫星不稳定性判断。当然,为了不断提高检测的稳定性和准确性,可以在后续使用过程中不断的增加临床肿瘤样本的数量和种类,使得模型训练获得的阈值更准确有效。例如,本申请的一种实现方式中,具体从协和科研项目组获取了279个结直肠癌样本、89个子宫内膜癌癌旁,并临床挑选MSS肿瘤组织208个样本,进行模型训练。
本申请的再一面公开了一种泛癌种的单样本微卫星不稳定性分析的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请泛癌种的单样本微卫星不稳定性的分析方法。
本申请的再一面公开了一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现本申请泛癌种的单样本微卫星不稳定性的分析方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请泛癌种的单样本微卫星不稳定性的分析方法和装置,对单样本的测序数据进行分析,获得其有效位点的个数以及样本MSI分数;根据临床样本训练获得的微卫星不稳定性分析阈值,直接通过待测样本的有效位点的个数以及样本MSI分数,即可判断待测样本的微卫星不稳定性。本申请的分析方法和装置,克服了单样本分析的检测缺陷,所得结果与作为金标准的PCR检测分析的微卫星不稳定性结果高度一致性。本申请为泛癌种的单样本微卫星不稳定性分析提供了一种更简单、方便、有效的实现方案和途径。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
单样本MSI分析由于无法区分胚系和体系变异位点,因此,其检测结果本身存在固有缺陷;但是,在临床实践过程中,又不可避免的会产生没有对照样本的单样本。因此,如何有效的利用单样本进行更准确的MSI分析是亟待解决的问题。
本申请创造性的通过训练大量临床样本,获得了一批对MSI-H、MSS状态具有高度区分性的位点,克服了单样本分析的检测缺陷,所得结果与PCR检测具有高度一致性,与双样本NGS使用msisensor的结果较为一致。
本申请的泛癌种的单样本微卫星不稳定性的分析方法,如图1所示,包括样本获取步骤11、位点质控步骤12、位点MSI分数计算步骤13、样本MSI分数计算步骤14和微卫星不稳定性判断步骤15。
其中,样本获取步骤11包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息。本申请的一种实现方式中,具体的当样本在芯片捕获区间MSI位点的平均深度满足sp_mean_depth<100时,过滤样本。
位点质控步骤12,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点。本申请的一种实现方式中,具体的,a)当参考基因组中位点重复次数满足ref_rep_leng<5||ref_rep_leng>50时,过滤位点;b)当样本在某一位点的深度满足sp_site_depth<100时,该位点的统计量分布计算不纳入该样本;c)当位点的有效统计量数量满足mss_valid_stat<50||msih_valid_stat<50,过滤位点;考虑到样本在该位点的深度有相应质控,只需保证该位点的统计效力足够即可;d)当位点区分度满足auc<0.7||max_accuracy<0.7时,过滤位点,其中,max_accuracy是通过ROC曲线计算获得。
位点MSI分数计算步骤13,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数。
本申请的一种实现方式中,MSI统计量为非参比例与非参熵的乘积。记参考基因组的重复数为RefRepeat,该重复数对应的reads数为RefCount,非参考基因组重复数AltRepeati对应的reads数为AltCounti,MSI统计量计算公式如下:
公式一:
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCount
i表示非参考基因组重复数AltRepeat
i对应的reads数。
进一步,位点MSI分数为样本相对于MSS统计量分布的归一化Zscore值,计算过程如下:
a)记位点t基线MSS样本的统计量为x
t,对应MSS样本的统计量均值记为
MSS样本的统计量标准差记为
则计算位点的原始Zscore为:
b)一般取原始Zscore的阈值为3,即3倍sigma原则,对应显著性约为99.7%;
c)一方面,为使MSI位点的Zscore尽可能接近1,使用归一化Zscore值
d)另一方面,为了使位点MSI分数有界,限定
的最大值为3,当
小于等于1时,判定为MSS状态,修改
为0;反之,当
大于1时,判定为MSI状态,
取值不变。因此
的取值范围为0,[1,3]。
样本MSI分数计算步骤14,包括将位点MSI分数的加权平均作为样本MSI分数。
本申请的一种实现方式中,样本MSI分数为位点MSI分数的加权平均。所有基线位点中,记有效位点,即sp_site_depth>=100,的个数为Nvalid,MSI位点个数为Nmsi,注检pyMSI的样本MSI分数计算为Nmsi/Nvalid。在本次迭代中,使用位点的分类准确率Accuracyt作为位点权重,样本MSI分数MSIscore计算方式为:
a)计算单位点的分类准确率:以
为阈值,其中,
表示t位点的MSS基线统计量均值,
表示标准差,计算
时剔除离群点,计算基线样本的分类准确率Accuracy
t=(TP+TN)/(TP+TN+FP+FN)。其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数。
b)位点权重归一化为1-均值:
公式三中,Weight
t表示t位点的权重N
total表示位点总数,
表示所有位点的分类准确率均值;
c)计算样本MSI分数MSIscore:
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点。
微卫星不稳定性判断步骤15,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
本申请的一种实现方式中,具体的,待测样本MSI状态判定如下:
a)当Nvalid<25时,判定样本质控不合格,无法进行MSI分析;
b)当MSIscore>=0.135时,判定为MSI-H样本;
c)当MSIscore<0.135时,判定为MSS样本。
本申请的泛癌种的单样本微卫星不稳定性的分析方法,直接通过分析单样本的有效位点数量以及样本MSI分数,即可准确有效的判断待测样本的微卫星不稳定性状态,克服了单样本分析的检测缺陷;并且,本申请分析方法的检测结果与作为金标准的PCR检测结果高度一致。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的分析方法,本申请提出了一种泛癌种的单样本微卫星不稳定性分析的装置,如图2所示,包括样本获取模块21、位点质控模块22、位点MSI分数计算模块23、样本MSI分数计算模块24、模型训练模块25和微卫星不稳定性判断模块26。
其中,样本获取模块21,包括用于获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本位点信息;本申请的一种实现方式中,平均深度阈值为100。
位点质控模块22,包括用于a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点。本申请的一种实现方式中,过滤去除参考基因组中位点重复次数不符合条件的位点,具体包括过滤去除位点重复次数小于5,或者位点重复次数大于50的位点;深度阈值为100;过滤去除有效统计量数量不符合条件的位点,具体包括过滤去除mss_valid_stat<50或msih_valid_stat<50的位点;过滤去除位点区分度不符合条件的位点,具体包括过滤去除auc<0.7或max_accuracy<0.7的位点。
位点MSI分数计算模块23,包括用于将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;本申请的一种实现方式中,通过公式一计算MSI统计量,然后根据公式二获得原始Zscore值,最终归一化为
作为位点MSI分数。
样本MSI分数计算模块24,包括用于将位点MSI分数的加权平均作为样本MSI分数;本申请的一种实现方式中,使用位点的分类准确率Accuracyt作为位点权重,最后根据公式四计算获得加权后的样本MSI分数。
模型训练模块25,包括用于根据肿瘤组织采用样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值。本申请的一种实现方式中,具体采用了从协和科研项目组获取了279个结直肠癌样本、89个子宫内膜癌癌旁,并临床挑选MSS肿瘤组织208个样本,进行模型训练。
微卫星不稳定性判断模块26,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于模型训练模块获得的有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSS样本。本申请的一种实现方式中,有效位点阈值为25,样本MSI分数阈值为0.135。
本申请的装置,利用各模块相互协调作用,能够实现本申请的泛癌种的单样本微卫星不稳定性的分析方法,特别是通过本申请装置的各模块能够实现本申请分析方法中的相应的各个步骤,从而实现自动化的微卫星不稳定性分析。
本申请的另一实现方式中还提供了一种泛癌种的单样本微卫星不稳定性分析的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例通过训练大量临床样本,获得了一批对MSI-H、MSS状态具有高度区分性的位点,克服了单样本分析的检测缺陷,所得结果与PCR检测具有高度一致性,与双样本NGS使用msisensor的结果较为一致。具体如下:
1.基线样本集选取
本例用于模型训练的样本如表1所示。
表1供试样本
表1中,协和CRC肿瘤组织是指样本来源于协和科研项目结直肠癌:共279个肿瘤样本,部分含有配对癌旁样本信息,其中,肿瘤样本中含144个MSI-H、57个MSS、3个MSS存在对照污染、其余75个未检测PCR。协和EC肿瘤组织是协和科研项目子宫内膜癌癌旁:共89个子宫内膜瘤和癌旁配对样本,含69个MSI-H、14个MSS、6个无法检测。
临床挑选MSS肿瘤组织包含2种来源:
选取208个临床MSS样本,包含48个子宫内膜癌和160个结直肠癌。
MSI等于MSS:人工判定为MSS,且msisensor v0.2版本结果小于0.08
癌种等于结直肠癌或子宫内膜癌
样本类型等于石蜡包埋组织
芯片类型:吉因加大panel捕获芯片
样本质控:测序读长>90bp&&样本的去重平均深度>=500
2.训练集质控过滤标准
(1)质控过滤标准
样本质控:当样本在芯片捕获区间MSI位点的平均深度满足sp_mean_depth<100时,过滤样本。
位点质控:
a)当参考基因组中位点重复次数满足ref_rep_leng<5||ref_rep_leng>50时,过滤位点;
b)当样本在某一位点的深度满足sp_site_depth<100时,该位点的统计量分布计算不纳入该样本;
c)当位点的有效统计量数量满足mss_valid_stat<50||msih_valid_stat<50,过滤位点;考虑到样本在该位点的深度有相应质控,只需保证该位点的统计效力足够即可;
d)MSS与MSI-H可分性过滤
当位点区分度满足auc<0.7||max_accuracy<0.7(max_accuracy通过ROC曲线计算)时,过滤位点;
过滤后的基线样本及位点统计:
本例所有样本中,7例样本由于平均深度过低不用于训练,剩余558例样本用于基线训练;位于cd3捕获区域内的572个微卫星位点中,101个位点由于有效统计量不足被过滤,255个位点由于可分性不足被过滤,剩余216个位点作为纳入MSI计算的基线位点。
3.位点与样本的MSI分数计算
(1)MSI统计量
MSI统计量为非参比例与非参熵的乘积。记参考基因组的重复数为RefRepeat,该重复数对应的reads数为RefCount,非参考基因组重复数AltRepeati对应的reads数为AltCounti,MSI统计量计算公式如下:
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数。
(2)位点MSI分数
位点MSI分数为样本相对于MSS统计量分布的归一化Zscore值,计算过程如下:
a)记位点t基线MSS样本的统计量为x
t,对应MSS样本的统计量均值记为
MSS样本的统计量标准差记为
则计算位点的原始Zscore为:
b)一般取原始Zscore的阈值为3,即3倍sigma原则,对应显著性约为99.7%;
c)一方面,为了使MSI位点的Z-score尽可能接近为1,使用归一化Zscore值
d)另一方面,为了使位点MSI分数有界,限定
的最大值为3,当
小于等于1时,判定为MSS状态,修改
为0;反之,当
大于1时,判定为MSI状态,
取值不变。因此
的取值范围为0,[1,3]。
(3)样本MSI分数
样本MSI分数为位点MSI分数的加权平均。所有基线位点中,记有效位点,即sp_site_depth>=100,的个数为Nvalid,MSI位点个数为Nmsi,注检pyMSI的样本MSI分数计算为Nmsi/Nvalid。在本次迭代中,使用位点的分类准确率Accuracyt作为位点权重,样本MSI分数MSIscore计算方式为:
a)计算单位点的分类准确率:以
为阈值,其中,
表示t位点的MSS基线统计量均值,
表示标准差,计算mu、sigma时剔除离群点,计算基线样本的分类准确率Accuracy
t=(TP+TN)/(TP+TN+FP+FN)。其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数。
b)位点权重归一化为1-均值:
公式三中,Weight
t表示t位点的权重N
total表示位点总数,
表示所有位点的分类准确率均值。
c)计算样本MSI分数MSIscore:
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点。
4.样本MSI状态判定
本例根据模型训练,获得以下待测单样本微卫星不稳定性分析阈值:
a)当Nvalid<25时,判定样本质控不合格,无法进行MSI分析;
b)当MSIscore>=0.135时,判定为MSI-H样本;
c)当MSIscore<0.135时,判定为MSS样本。
试验1结直肠癌和子宫内膜癌样本的微卫星不稳定性分析
本试验按照前述方法计算单样本的Nvalid和样本MSI分数,并根据“4.样本MSI状态判定”分析待测对象的微卫星不稳定性。同时,以金标准PCR结果为真集,并与双样本NGS使用MSIsensor的检测结果进行比较,MSIsensor阳性阈值设为0.08。本例具体对177例结直肠癌组织样本以及47例子宫内膜癌组织样本进行微卫星不稳定性分析。结果如表2所示。
表2结直肠癌和子宫内膜癌样本的微卫星不稳定性分析结果
表2的结果显示,采用本例的泛癌种的单样本微卫星不稳定性的分析方法,其检测结果与作为金标准的PCR检测的结果高度一致,准确率高达97.8%;与双样本NGS使用msisensor的结果也具有较好的一致性,准确率达到88.8%。根据表2的结果可以看出,本例的单样本MSI方法的特异度较高,而MSIsensor偏灵敏。
试验2肺癌样本的微卫星不稳定性分析
据文献(Vanderwalde,A.,et al.,Microsatellite instability statusdetermined by next-generation sequencing and compared with PD-L1and tumormutational burden in 11,348patients.Cancer Med,2018.7(3):p.746-756.)报道,肺癌中发生MSI-H的样本比例极低,非小细胞肺癌MSI-H的阳性率为17/1517,即0.6%,小细胞肺癌的阳性率为1/75,即1.3%,本试验提供单双样本NGS方法在肺癌样本中的检测实例。本试验按照前述方法计算单样本的Nvalid和样本MSI分数,并根据“4.样本MSI状态判定”分析待测对象的微卫星不稳定性。同时,与双样本NGS使用MSIsensor的检测结果进行比较,MSIsensor阳性阈值设为0.08。本例具体对588例肺癌组织样本,449例非小细胞肺癌,8例小细胞肺癌,其余样本无法确定肺癌亚型,进行微卫星不稳定性分析。结果如表3所示。
表3肺癌组织样本微卫星不稳定性分析结果
表3的结果显示,本发明检出非小细胞肺癌MSI-H的阳性率为0.45%,与文献报道的0.6%阳性率较为接近,优于MSIsensor的1.56%阳性率。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。