CN112687333A - 一种泛癌种的单样本微卫星不稳定性的分析方法和装置 - Google Patents

一种泛癌种的单样本微卫星不稳定性的分析方法和装置 Download PDF

Info

Publication number
CN112687333A
CN112687333A CN202011553324.XA CN202011553324A CN112687333A CN 112687333 A CN112687333 A CN 112687333A CN 202011553324 A CN202011553324 A CN 202011553324A CN 112687333 A CN112687333 A CN 112687333A
Authority
CN
China
Prior art keywords
sample
msi
sites
site
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011553324.XA
Other languages
English (en)
Other versions
CN112687333B (zh
Inventor
方欢
管彦芳
杨玲
刘涛
易玉婷
戴平平
李彩琴
易鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd.
SUZHOU JIYINJIA BIOMEDICAL ENGINEERING Co.,Ltd.
Original Assignee
Beijing Jiyinjia Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiyinjia Medical Laboratory Co ltd filed Critical Beijing Jiyinjia Medical Laboratory Co ltd
Priority to CN202011553324.XA priority Critical patent/CN112687333B/zh
Publication of CN112687333A publication Critical patent/CN112687333A/zh
Application granted granted Critical
Publication of CN112687333B publication Critical patent/CN112687333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种泛癌种的单样本微卫星不稳定性的分析方法和装置。本申请方法包括,获取在芯片捕获区间MSI位点的平均深度符合质控要求的待测样本;根据参考基因组中位点重复次数、深度、有效统计量、位点区分度对位点进行过滤;将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;将位点MSI分数的加权平均作为样本MSI分数;最后,根据基线位点中的有效位点的个数和样本MSI分数阈值判断MSI状态。本申请方法,能够准确有效的根据单样本进行MSI分析,克服了单样本分析的检测缺陷,所得结果与作为金标准的PCR检测分析的微卫星不稳定性结果高度一致性。

Description

一种泛癌种的单样本微卫星不稳定性的分析方法和装置
技术领域
本申请涉及泛癌种的微卫星不稳定性分析技术领域,特别是涉及一种泛癌种的单样本微卫星不稳定性的分析方法和装置。
背景技术
微卫星位点是一段短的串联重复序列,由重复单元、重复次数两个维度的特征来描述,微卫星位点的重复次数一般为5至50次。微卫星不稳定(MicrosatelliteInstability,MSI)是肿瘤的重要分子特征之一。微卫星位点的状态一般分为两种:MSI-H(MSI High)表示不稳定状态,MSS(Microsatellite Stable)表示稳定状态,两种状态的肿瘤对免疫检查点抑制剂(immune checkpoint inhibitor,ICI)药物响应率存在显著差异。MSI-H在结直肠癌、子宫内膜癌中较为常见,与DNA错配修复(Mismatch Repair,MMR)缺陷、高肿瘤突变负荷(TumorMutational Burden,TMB)存在显著的相关关系。MSI作为肿瘤ICI疗效预测的分子标志物,其检测方法的精准性、便捷性具有重要的临床意义。
MSI的检测方法包括PCR检测、免疫组织化学染色(Immunohistochemistry,IHC)、第二代测序(缩写NGS)等。其中,PCR检测是国际公认的金标准,需要同时提取同一患者的正常组织和肿瘤组织样本DNA。NGS方法可以在一次测序中同时获得基因组变异SNV、INDEL、CNV、SV、MSI等信息,既可使用配对样本分析,又支持肿瘤单样本分析,在临床上被广泛使用。
单样本MSI分析与配对样本MSI分析的显著区别在于,配对样本分析可以通过对照样本排除患者的胚系变异位点,只保留体系变异位点进行MSI分析,而单样本MSI分析无法区分胚系和体系变异位点。但是,在临床应用中经常会出现没有对照样本的情况,无法进行配对样本MSI分析,只能进行单样本MSI分析;而单样本MSI分析由于无法区分胚系和体系变异位点,所获得的MSI分析结果准确性和有效性都受到极大的影响。
发明内容
本申请的目的是提供一种新的泛癌种的单样本微卫星不稳定性的分析方法和装置。
为了实现上述目的,本申请采用了以下技术方案:
本申请的一方面公开了一种泛癌种的单样本微卫星不稳定性的分析方法,包括以下步骤:
样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;
位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除有效统计量数量不符合条件的位点;d)过滤去除位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;本申请中,非参比例为非参考基因组重复数reads的比例,非参熵为通过非参考基因组重复数reads的重复数频数分布熵;
样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;
微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
需要说明的是,本申请的分析方法中,微卫星不稳定性判断步骤的有效位点阈值和样本MSI分数阈值是经过大量临床样本训练获得的用于微卫星不稳定性分析的阈值。采用本申请的分析方法,可以直接对单样本的测序数据进行微卫星不稳定性分析,克服了单样本分析微卫星不稳定性的检测缺陷。在本申请的一种实现方式中,本申请分析方法所得结果与PCR检测的微卫星不稳定性结果具有高度一致性,与双样本NGS使用msisensor的结果较为一致。
本申请的一种实现方式中,样本获取步骤的平均深度阈值为100。
需要说明的是,本申请采用平均测序深度大于或等于100,即sp_mean_depth≥100,的样本进行微卫星不稳定性分析,主要是考虑测序结果的准确性。可以理解,在要求相对较低的情况下,也可以采用平均深度更低的样本,例如平均测序深度大于或等于50、30等;又或者,在要求更严格的情况下,可以采用平均深度高的样本,在此不作具体限定。
本申请的一种实现方式中,位点质控步骤,过滤去除参考基因组中位点重复次数不符合条件的位点,具体包括过滤去除位点重复次数小于5,或者位点重复次数大于50的位点;深度阈值为100;过滤去除有效统计量数量不符合条件的位点,具体包括过滤去除MSS基线中有效统计量数量<50或MSS-H基线中有效统计量数量<50的位点;过滤去除位点区分度不符合条件的位点,具体包括过滤去除分类AUC<0.7或最大准确率<0.7的位点。其中,有效统计量是指满足前述重复数和深度的阈值的位点。
需要说明的是,以上具体筛选条件和阈值,只是本申请的一种实现方式中所采用的过滤参数,以获得符合要求的位点,用于后续检测和分析。可以理解,在本申请的发明构思下,可以根据具体分析需求对以上参数进行适当调整,在此不作具体限定。
本申请的一种实现方式中,位点MSI分数计算步骤的MSI统计量采用公式一计算获得,
公式一:
Figure BDA0002858270680000031
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数;
公式一中,
Figure BDA0002858270680000032
表示非参熵。
可以理解,以上MSI统计量的计算公式只是本申请的一种实现方式中具体采用的计算公式,不排除还可以采用其它方式进行MSI统计量计算,在此不作具体限定。
本申请的一种实现方式中,作为位点MSI分数的归一化Zscore值具体采用以下方法计算获得,
a)根据公式二计算原始Zscore值;
公式二:
Figure BDA0002858270680000033
公式二中,
Figure BDA0002858270680000034
为原始Zscore值,xt为位点t在基线MSS样本的统计量,
Figure BDA0002858270680000035
为对应MSS样本的统计量均值,
Figure BDA0002858270680000036
为MSS样本的统计量标准差;
b)取原始Zscore的阈值为3,对应显著性为99.7%;
c)为使MSI位点的Zscore尽可能接近1,使用归一化Zscore值
Figure BDA0002858270680000037
Figure BDA0002858270680000038
d)为使位点MSI分数有界,限定
Figure BDA0002858270680000041
的最大值为3,当
Figure BDA0002858270680000042
小于等于1时,判定为MSS状态,修改
Figure BDA0002858270680000043
为0;反之,当
Figure BDA0002858270680000044
大于1时,判定为MSI状态,
Figure BDA0002858270680000045
取值不变。
可以理解,以上归一化Zscore的计算方式只是本申请的一种实现方式中具体采用的计算方式,不排除还可以采用其它方式进行归一化Zscore计算,在此不作具体限定。
本申请的一种实现方式中,样本MSI分数计算步骤,位点MSI分数的加权平均的具体方法包括,将所有基线在该位点判定为有效位点的个数记为Nvalid,MSI位点个数记为Nmsi,使用基线中位点的分类准确率Accuracyt作为位点权重,加权后的样本MSI分数MSIscore的计算方式包括,
a)根据基线计算单位点的分类准确率Accuracyt:以
Figure BDA0002858270680000046
为阈值,其中,
Figure BDA0002858270680000047
表示t位点的MSS基线统计量均值,
Figure BDA0002858270680000048
表示标准差,计算基线样本的分类准确率Accuracyt=(TP+TN)/(TP+TN+FP+FN);其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数;
b)按照公式三将分类准确率归一化为1-均值的位点权重;
公式三:
Figure BDA0002858270680000049
公式三中,Weightt表示t位点的权重Ntotal表示位点总数,
Figure BDA00028582706800000410
表示所有位点的分类准确率均值;
c)然后按照公式四计算样本MSI分数;
公式四:
Figure BDA00028582706800000411
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点。
可以理解,以上样本MSI分数的计算方式也只是本申请的一种实现方式中具体采用的计算方式,不排除还可以采用其它方式进行样本MSI分数计算,在此不作具体限定。
本申请的一种实现方式中,基线位点中的有效位点是指深度大于或等于100的位点。
本申请的一种实现方式中,微卫星不稳定性判断步骤中,有效位点阈值为25。
本申请的一种实现方式中,样本MSI分数阈值为0.135。
需要说明的是,有效位点阈值为25、样本MSI分数阈值为0.135,这两个具体值也是本申请的一种实现方式中,根据大量临床样本训练获得的微卫星不稳定性分析阈值。可以理解,采用不同来源或数量的临床样本,最终获得的阈值可能会有所改变;但是,在本申请的发明构思下,本申请微卫星不稳定性分析方法的基本原理和分析结果是一致的。
可以理解,本申请泛癌种的单样本微卫星不稳定性的分析方法,其关键在于创造性的对不同癌种的临床病例进行训练,即将这些临床样本的单样本测序结果及其分析获得的样本MSI分数,与金标准PCR检测和NGS检测的微卫星不稳定性结果,通过训练,获得一批对MSI-H、MSS状态具有高度区分性的位点,以及判断模型;借由本申请构建的模型,可以直接根据待测样本的单样本分析结果的样本MSI分数,判断待测样本的微卫星不稳定性。
因此,本申请的另一方面还公开了一种构建泛癌种的单样本微卫星不稳定性分析模型的方法,其包括以下步骤:
样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;
位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;
样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;
模型训练步骤,包括根据肿瘤组织采用样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值。
需要说明的是,本申请的模型构建方法中,样本获取步骤、位点质控步骤、位点MSI分数计算步骤和样本MSI分数计算步骤都与本申请泛癌种的单样本微卫星不稳定性的分析方法相同;因此,各步骤的详细参数或计算公式都可以参考本申请的泛癌种的单样本微卫星不稳定性的分析方法,在此不累述。
本申请的再一方面还公开了一种泛癌种的单样本微卫星不稳定性分析的装置,该装置包括样本获取模块、位点质控模块、位点MSI分数计算模块、样本MSI分数计算模块、模型训练模块和微卫星不稳定性判断模块;
样本获取模块,包括用于获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本位点信息;
位点质控模块,包括用于a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算模块,包括用于将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;
样本MSI分数计算模块,包括用于将位点MSI分数的加权平均作为样本MSI分数;
模型训练模块,包括用于根据肿瘤组织采用样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值;
微卫星不稳定性判断模块,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于模型训练模块获得的有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSS样本。
需要说明的是,本申请泛癌种的单样本微卫星不稳定性分析的装置,实际上就是通过各模块分别实现本申请泛癌种的单样本微卫星不稳定性的分析方法中的各步骤;因此,个模块的具体限定可以参考本申请泛癌种的单样本微卫星不稳定性的分析方法,在此不累述。
可以理解,本申请泛癌种的单样本微卫星不稳定性分析的装置中,模型训练模块只需要在首次使用时运行;在获得分析微卫星不稳定性的阈值后,可以直接采用获得的阈值进行微卫星不稳定性判断。当然,为了不断提高检测的稳定性和准确性,可以在后续使用过程中不断的增加临床肿瘤样本的数量和种类,使得模型训练获得的阈值更准确有效。例如,本申请的一种实现方式中,具体从协和科研项目组获取了279个结直肠癌样本、89个子宫内膜癌癌旁,并临床挑选MSS肿瘤组织208个样本,进行模型训练。
本申请的再一面公开了一种泛癌种的单样本微卫星不稳定性分析的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请泛癌种的单样本微卫星不稳定性的分析方法。
本申请的再一面公开了一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现本申请泛癌种的单样本微卫星不稳定性的分析方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请泛癌种的单样本微卫星不稳定性的分析方法和装置,对单样本的测序数据进行分析,获得其有效位点的个数以及样本MSI分数;根据临床样本训练获得的微卫星不稳定性分析阈值,直接通过待测样本的有效位点的个数以及样本MSI分数,即可判断待测样本的微卫星不稳定性。本申请的分析方法和装置,克服了单样本分析的检测缺陷,所得结果与作为金标准的PCR检测分析的微卫星不稳定性结果高度一致性。本申请为泛癌种的单样本微卫星不稳定性分析提供了一种更简单、方便、有效的实现方案和途径。
附图说明
图1是本申请实施例中泛癌种单样本微卫星不稳定性分析方法的流程框图;
图2是本申请实施例中泛癌种单样本微卫星不稳定性分析装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
单样本MSI分析由于无法区分胚系和体系变异位点,因此,其检测结果本身存在固有缺陷;但是,在临床实践过程中,又不可避免的会产生没有对照样本的单样本。因此,如何有效的利用单样本进行更准确的MSI分析是亟待解决的问题。
本申请创造性的通过训练大量临床样本,获得了一批对MSI-H、MSS状态具有高度区分性的位点,克服了单样本分析的检测缺陷,所得结果与PCR检测具有高度一致性,与双样本NGS使用msisensor的结果较为一致。
本申请的泛癌种的单样本微卫星不稳定性的分析方法,如图1所示,包括样本获取步骤11、位点质控步骤12、位点MSI分数计算步骤13、样本MSI分数计算步骤14和微卫星不稳定性判断步骤15。
其中,样本获取步骤11包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息。本申请的一种实现方式中,具体的当样本在芯片捕获区间MSI位点的平均深度满足sp_mean_depth<100时,过滤样本。
位点质控步骤12,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点。本申请的一种实现方式中,具体的,a)当参考基因组中位点重复次数满足ref_rep_leng<5||ref_rep_leng>50时,过滤位点;b)当样本在某一位点的深度满足sp_site_depth<100时,该位点的统计量分布计算不纳入该样本;c)当位点的有效统计量数量满足mss_valid_stat<50||msih_valid_stat<50,过滤位点;考虑到样本在该位点的深度有相应质控,只需保证该位点的统计效力足够即可;d)当位点区分度满足auc<0.7||max_accuracy<0.7时,过滤位点,其中,max_accuracy是通过ROC曲线计算获得。
位点MSI分数计算步骤13,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数。
本申请的一种实现方式中,MSI统计量为非参比例与非参熵的乘积。记参考基因组的重复数为RefRepeat,该重复数对应的reads数为RefCount,非参考基因组重复数AltRepeati对应的reads数为AltCounti,MSI统计量计算公式如下:
公式一:
Figure BDA0002858270680000081
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数。
进一步,位点MSI分数为样本相对于MSS统计量分布的归一化Zscore值,计算过程如下:
a)记位点t基线MSS样本的统计量为xt,对应MSS样本的统计量均值记为
Figure BDA0002858270680000091
MSS样本的统计量标准差记为
Figure BDA0002858270680000092
则计算位点的原始Zscore为:
公式二:
Figure BDA0002858270680000093
b)一般取原始Zscore的阈值为3,即3倍sigma原则,对应显著性约为99.7%;
c)一方面,为使MSI位点的Zscore尽可能接近1,使用归一化Zscore值
Figure BDA0002858270680000094
d)另一方面,为了使位点MSI分数有界,限定
Figure BDA0002858270680000095
的最大值为3,当
Figure BDA0002858270680000096
小于等于1时,判定为MSS状态,修改
Figure BDA0002858270680000097
为0;反之,当
Figure BDA0002858270680000098
大于1时,判定为MSI状态,
Figure BDA0002858270680000099
取值不变。因此
Figure BDA00028582706800000910
的取值范围为0,[1,3]。
样本MSI分数计算步骤14,包括将位点MSI分数的加权平均作为样本MSI分数。
本申请的一种实现方式中,样本MSI分数为位点MSI分数的加权平均。所有基线位点中,记有效位点,即sp_site_depth>=100,的个数为Nvalid,MSI位点个数为Nmsi,注检pyMSI的样本MSI分数计算为Nmsi/Nvalid。在本次迭代中,使用位点的分类准确率Accuracyt作为位点权重,样本MSI分数MSIscore计算方式为:
a)计算单位点的分类准确率:以
Figure BDA00028582706800000911
为阈值,其中,
Figure BDA00028582706800000912
表示t位点的MSS基线统计量均值,
Figure BDA00028582706800000913
表示标准差,计算
Figure BDA00028582706800000914
时剔除离群点,计算基线样本的分类准确率Accuracyt=(TP+TN)/(TP+TN+FP+FN)。其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数。
b)位点权重归一化为1-均值:
公式三:
Figure BDA0002858270680000101
公式三中,Weightt表示t位点的权重Ntotal表示位点总数,
Figure BDA0002858270680000102
表示所有位点的分类准确率均值;
c)计算样本MSI分数MSIscore:
公式四:
Figure BDA0002858270680000103
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点。
微卫星不稳定性判断步骤15,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
本申请的一种实现方式中,具体的,待测样本MSI状态判定如下:
a)当Nvalid<25时,判定样本质控不合格,无法进行MSI分析;
b)当MSIscore>=0.135时,判定为MSI-H样本;
c)当MSIscore<0.135时,判定为MSS样本。
本申请的泛癌种的单样本微卫星不稳定性的分析方法,直接通过分析单样本的有效位点数量以及样本MSI分数,即可准确有效的判断待测样本的微卫星不稳定性状态,克服了单样本分析的检测缺陷;并且,本申请分析方法的检测结果与作为金标准的PCR检测结果高度一致。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的分析方法,本申请提出了一种泛癌种的单样本微卫星不稳定性分析的装置,如图2所示,包括样本获取模块21、位点质控模块22、位点MSI分数计算模块23、样本MSI分数计算模块24、模型训练模块25和微卫星不稳定性判断模块26。
其中,样本获取模块21,包括用于获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本位点信息;本申请的一种实现方式中,平均深度阈值为100。
位点质控模块22,包括用于a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点。本申请的一种实现方式中,过滤去除参考基因组中位点重复次数不符合条件的位点,具体包括过滤去除位点重复次数小于5,或者位点重复次数大于50的位点;深度阈值为100;过滤去除有效统计量数量不符合条件的位点,具体包括过滤去除mss_valid_stat<50或msih_valid_stat<50的位点;过滤去除位点区分度不符合条件的位点,具体包括过滤去除auc<0.7或max_accuracy<0.7的位点。
位点MSI分数计算模块23,包括用于将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;本申请的一种实现方式中,通过公式一计算MSI统计量,然后根据公式二获得原始Zscore值,最终归一化为
Figure BDA0002858270680000111
作为位点MSI分数。
样本MSI分数计算模块24,包括用于将位点MSI分数的加权平均作为样本MSI分数;本申请的一种实现方式中,使用位点的分类准确率Accuracyt作为位点权重,最后根据公式四计算获得加权后的样本MSI分数。
模型训练模块25,包括用于根据肿瘤组织采用样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值。本申请的一种实现方式中,具体采用了从协和科研项目组获取了279个结直肠癌样本、89个子宫内膜癌癌旁,并临床挑选MSS肿瘤组织208个样本,进行模型训练。
微卫星不稳定性判断模块26,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于模型训练模块获得的有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSS样本。本申请的一种实现方式中,有效位点阈值为25,样本MSI分数阈值为0.135。
本申请的装置,利用各模块相互协调作用,能够实现本申请的泛癌种的单样本微卫星不稳定性的分析方法,特别是通过本申请装置的各模块能够实现本申请分析方法中的相应的各个步骤,从而实现自动化的微卫星不稳定性分析。
本申请的另一实现方式中还提供了一种泛癌种的单样本微卫星不稳定性分析的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;样本MSI分数计算步骤,包括将位点MSI分数的加权平均作为样本MSI分数;微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例通过训练大量临床样本,获得了一批对MSI-H、MSS状态具有高度区分性的位点,克服了单样本分析的检测缺陷,所得结果与PCR检测具有高度一致性,与双样本NGS使用msisensor的结果较为一致。具体如下:
1.基线样本集选取
本例用于模型训练的样本如表1所示。
表1供试样本
Figure BDA0002858270680000131
表1中,协和CRC肿瘤组织是指样本来源于协和科研项目结直肠癌:共279个肿瘤样本,部分含有配对癌旁样本信息,其中,肿瘤样本中含144个MSI-H、57个MSS、3个MSS存在对照污染、其余75个未检测PCR。协和EC肿瘤组织是协和科研项目子宫内膜癌癌旁:共89个子宫内膜瘤和癌旁配对样本,含69个MSI-H、14个MSS、6个无法检测。
临床挑选MSS肿瘤组织包含2种来源:
选取208个临床MSS样本,包含48个子宫内膜癌和160个结直肠癌。
MSI等于MSS:人工判定为MSS,且msisensor v0.2版本结果小于0.08
癌种等于结直肠癌或子宫内膜癌
样本类型等于石蜡包埋组织
芯片类型:吉因加大panel捕获芯片
样本质控:测序读长>90bp&&样本的去重平均深度>=500
2.训练集质控过滤标准
(1)质控过滤标准
样本质控:当样本在芯片捕获区间MSI位点的平均深度满足sp_mean_depth<100时,过滤样本。
位点质控:
a)当参考基因组中位点重复次数满足ref_rep_leng<5||ref_rep_leng>50时,过滤位点;
b)当样本在某一位点的深度满足sp_site_depth<100时,该位点的统计量分布计算不纳入该样本;
c)当位点的有效统计量数量满足mss_valid_stat<50||msih_valid_stat<50,过滤位点;考虑到样本在该位点的深度有相应质控,只需保证该位点的统计效力足够即可;
d)MSS与MSI-H可分性过滤
当位点区分度满足auc<0.7||max_accuracy<0.7(max_accuracy通过ROC曲线计算)时,过滤位点;
过滤后的基线样本及位点统计:
本例所有样本中,7例样本由于平均深度过低不用于训练,剩余558例样本用于基线训练;位于cd3捕获区域内的572个微卫星位点中,101个位点由于有效统计量不足被过滤,255个位点由于可分性不足被过滤,剩余216个位点作为纳入MSI计算的基线位点。
3.位点与样本的MSI分数计算
(1)MSI统计量
MSI统计量为非参比例与非参熵的乘积。记参考基因组的重复数为RefRepeat,该重复数对应的reads数为RefCount,非参考基因组重复数AltRepeati对应的reads数为AltCounti,MSI统计量计算公式如下:
公式一:
Figure BDA0002858270680000141
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数。
(2)位点MSI分数
位点MSI分数为样本相对于MSS统计量分布的归一化Zscore值,计算过程如下:
a)记位点t基线MSS样本的统计量为xt,对应MSS样本的统计量均值记为
Figure BDA0002858270680000151
MSS样本的统计量标准差记为
Figure BDA0002858270680000152
则计算位点的原始Zscore为:
公式二:
Figure BDA0002858270680000153
b)一般取原始Zscore的阈值为3,即3倍sigma原则,对应显著性约为99.7%;
c)一方面,为了使MSI位点的Z-score尽可能接近为1,使用归一化Zscore值
Figure BDA0002858270680000154
d)另一方面,为了使位点MSI分数有界,限定
Figure BDA0002858270680000155
的最大值为3,当
Figure BDA0002858270680000156
小于等于1时,判定为MSS状态,修改
Figure BDA0002858270680000157
为0;反之,当
Figure BDA0002858270680000158
大于1时,判定为MSI状态,
Figure BDA0002858270680000159
取值不变。因此
Figure BDA00028582706800001510
的取值范围为0,[1,3]。
(3)样本MSI分数
样本MSI分数为位点MSI分数的加权平均。所有基线位点中,记有效位点,即sp_site_depth>=100,的个数为Nvalid,MSI位点个数为Nmsi,注检pyMSI的样本MSI分数计算为Nmsi/Nvalid。在本次迭代中,使用位点的分类准确率Accuracyt作为位点权重,样本MSI分数MSIscore计算方式为:
a)计算单位点的分类准确率:以
Figure BDA00028582706800001511
为阈值,其中,
Figure BDA00028582706800001512
表示t位点的MSS基线统计量均值,
Figure BDA00028582706800001513
表示标准差,计算mu、sigma时剔除离群点,计算基线样本的分类准确率Accuracyt=(TP+TN)/(TP+TN+FP+FN)。其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数。
b)位点权重归一化为1-均值:
公式三:
Figure BDA00028582706800001514
公式三中,Weightt表示t位点的权重Ntotal表示位点总数,
Figure BDA00028582706800001515
表示所有位点的分类准确率均值。
c)计算样本MSI分数MSIscore:
公式四:
Figure BDA0002858270680000161
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点。
4.样本MSI状态判定
本例根据模型训练,获得以下待测单样本微卫星不稳定性分析阈值:
a)当Nvalid<25时,判定样本质控不合格,无法进行MSI分析;
b)当MSIscore>=0.135时,判定为MSI-H样本;
c)当MSIscore<0.135时,判定为MSS样本。
试验1结直肠癌和子宫内膜癌样本的微卫星不稳定性分析
本试验按照前述方法计算单样本的Nvalid和样本MSI分数,并根据“4.样本MSI状态判定”分析待测对象的微卫星不稳定性。同时,以金标准PCR结果为真集,并与双样本NGS使用MSIsensor的检测结果进行比较,MSIsensor阳性阈值设为0.08。本例具体对177例结直肠癌组织样本以及47例子宫内膜癌组织样本进行微卫星不稳定性分析。结果如表2所示。
表2结直肠癌和子宫内膜癌样本的微卫星不稳定性分析结果
Figure BDA0002858270680000162
表2的结果显示,采用本例的泛癌种的单样本微卫星不稳定性的分析方法,其检测结果与作为金标准的PCR检测的结果高度一致,准确率高达97.8%;与双样本NGS使用msisensor的结果也具有较好的一致性,准确率达到88.8%。根据表2的结果可以看出,本例的单样本MSI方法的特异度较高,而MSIsensor偏灵敏。
试验2肺癌样本的微卫星不稳定性分析
据文献(Vanderwalde,A.,et al.,Microsatellite instability statusdetermined by next-generation sequencing and compared with PD-L1and tumormutational burden in 11,348patients.Cancer Med,2018.7(3):p.746-756.)报道,肺癌中发生MSI-H的样本比例极低,非小细胞肺癌MSI-H的阳性率为17/1517,即0.6%,小细胞肺癌的阳性率为1/75,即1.3%,本试验提供单双样本NGS方法在肺癌样本中的检测实例。本试验按照前述方法计算单样本的Nvalid和样本MSI分数,并根据“4.样本MSI状态判定”分析待测对象的微卫星不稳定性。同时,与双样本NGS使用MSIsensor的检测结果进行比较,MSIsensor阳性阈值设为0.08。本例具体对588例肺癌组织样本,449例非小细胞肺癌,8例小细胞肺癌,其余样本无法确定肺癌亚型,进行微卫星不稳定性分析。结果如表3所示。
表3肺癌组织样本微卫星不稳定性分析结果
Figure BDA0002858270680000171
表3的结果显示,本发明检出非小细胞肺癌MSI-H的阳性率为0.45%,与文献报道的0.6%阳性率较为接近,优于MSIsensor的1.56%阳性率。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种泛癌种的单样本微卫星不稳定性的分析方法,其特征在于:包括以下步骤,
样本获取步骤,包括获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本的位点信息;
位点质控步骤,包括a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
位点MSI分数计算步骤,包括将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;
样本MSI分数计算步骤,包括将所述位点MSI分数的加权平均作为样本MSI分数;
微卫星不稳定性判断步骤,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当所述样本MSI分数大于或等于样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当所述样本MSI分数小于样本MSI分数阈值时,判定待测样本为MSS样本。
2.根据权利要求1所述的分析方法,其特征在于:所述样本获取步骤中,所述平均深度阈值为100;
优选的,所述位点质控步骤中,过滤去除参考基因组中位点重复次数不符合条件的位点,具体包括过滤去除位点重复次数小于5,或者位点重复次数大于50的位点;所述深度阈值为100;过滤去除有效统计量数量不符合条件的位点,具体包括过滤去除MSS基线中有效统计量数量<50或MSS-H基线中有效统计量数量<50的位点;过滤去除位点区分度不符合条件的位点,具体包括过滤去除分类AUC<0.7或最大准确率<0.7的位点。
3.根据权利要求1所述的分析方法,其特征在于:所述位点MSI分数计算步骤中,所述MSI统计量采用公式一计算获得,
公式一:
Figure FDA0002858270670000011
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数;
公式一中,
Figure FDA0002858270670000021
表示非参熵;
优选的,作为位点MSI分数的归一化Zscore值具体采用以下方法计算获得,
a)根据公式二计算原始Zscore值;
公式二:
Figure FDA0002858270670000022
公式二中,
Figure FDA0002858270670000023
为原始Zscore值,xt为位点t在基线MSS样本的统计量,
Figure FDA0002858270670000024
为对应MSS样本的统计量均值,
Figure FDA0002858270670000025
为MSS样本的统计量标准差;
b)取原始Zscore的阈值为3,对应显著性为99.7%;
c)为使MSI位点的Zscore尽可能接近1,使用归一化Zscore值
Figure FDA0002858270670000026
d)为使位点MSI分数有界,限定
Figure FDA0002858270670000027
的最大值为3,当
Figure FDA0002858270670000028
小于等于1时,判定为MSS状态,修改
Figure FDA0002858270670000029
为0;反之,当
Figure FDA00028582706700000210
大于1时,判定为MSI状态,
Figure FDA00028582706700000211
取值不变。
4.根据权利要求1-3任一项所述的分析方法,其特征在于:所述样本MSI分数计算步骤中,位点MSI分数的加权平均的具体方法包括,将所有基线在该位点判定为有效位点的个数记为Nvalid,MSI位点个数记为Nmsi,使用基线中位点的分类准确率Accuracyt作为位点权重,加权后的样本MSI分数MSIscore的计算方式包括,
a)根据基线计算单位点的分类准确率Accuracyt:以
Figure FDA00028582706700000212
为阈值,其中,
Figure FDA00028582706700000213
表示t位点的MSS基线统计量均值,
Figure FDA00028582706700000214
表示标准差,计算基线样本的分类准确率Accuracyt=(TP+TN)/(TP+TN+FP+FN);其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数;
b)按照公式三将分类准确率归一化为1-均值的位点权重;
公式三:
Figure FDA00028582706700000215
公式三中,Weightt表示t位点的权重Ntotal表示位点总数,
Figure FDA0002858270670000031
表示所有位点的分类准确率均值;
c)然后按照公式四计算样本MSI分数;
公式四:
Figure FDA0002858270670000032
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点;
优选的,所述基线位点中的有效位点是指深度大于或等于100的位点;
优选的,所述微卫星不稳定性判断步骤中,有效位点阈值为25;
优选的,所述样本MSI分数阈值为0.135。
5.一种泛癌种的单样本微卫星不稳定性分析的装置,其特征在于:包括样本获取模块、位点质控模块、位点MSI分数计算模块、样本MSI分数计算模块、模型训练模块和微卫星不稳定性判断模块;
所述样本获取模块,包括用于获取在芯片捕获区间MSI位点的平均深度大于或等于平均深度阈值的待测样本位点信息;
所述位点质控模块,包括用于a)过滤去除参考基因组中位点重复次数不符合条件的位点;b)过滤去除深度小于深度阈值的位点;c)过滤去除基线中有效统计量数量不符合条件的位点;d)过滤去除基线中位点区分度不符合条件的位点;将经过以上过滤后剩余的位点作为基线位点;
所述位点MSI分数计算模块,包括用于将非参比例与非参熵的乘积作为MSI统计量,将待测样本相对于MSS统计量分布的归一化Zscore值作为位点MSI分数;
所述样本MSI分数计算模块,包括用于将所述位点MSI分数的加权平均作为样本MSI分数;
所述模型训练模块,包括用于根据肿瘤组织采用所述样本MSI分数计算模块获得的样本MSI分数,与相同的肿瘤组织采用PCR检测和/或第二代测序检测的微卫星不稳定性检测结果,进行训练,获得对MSI-H、MSS状态具有高度区分性的位点,以及能够根据样本MSI分数判断微卫星不稳定性的有效位点阈值和样本MSI分数阈值;
所述微卫星不稳定性判断模块,包括根据以下条件判断待测样本的微卫星不稳定性,a)当基线位点中的有效位点的个数小于所述模型训练模块获得的有效位点阈值时,判定样本质控不合格,无法进行MSI分析;b)当所述样本MSI分数大于或等于所述模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSI-H样本;c)当所述样本MSI分数小于所述模型训练模块获得的样本MSI分数阈值时,判定待测样本为MSS样本。
6.根据权利要求5所述的装置,其特征在于:所述样本获取模块中,所述平均深度阈值为100;
优选的,所述位点质控模块中,过滤去除参考基因组中位点重复次数不符合条件的位点,具体包括过滤去除位点重复次数小于5,或者位点重复次数大于50的位点;所述深度阈值为100;过滤去除有效统计量数量不符合条件的位点,具体包括过滤去除MSS基线中有效统计量数量<50或MSS-H基线中有效统计量数量<50的位点;过滤去除位点区分度不符合条件的位点,具体包括过滤去除分类AUC<0.7或最大准确率<0.7的位点。
7.根据权利要求5所述的装置,其特征在于:所述位点MSI分数计算模块中,所述MSI统计量采用公式一计算获得,
公式一:
Figure FDA0002858270670000041
公式一中,RefRepeat表示参考基因组的重复数,RefCount表示参考基因组的重复数RefRepeat对应的reads数,AltCounti表示非参考基因组重复数AltRepeati对应的reads数;
公式一中,
Figure FDA0002858270670000042
表示非参熵;
优选的,作为位点MSI分数的归一化Zscore值具体采用以下方法计算获得,
a)根据公式二计算原始Zscore值;
公式二:
Figure FDA0002858270670000043
公式二中,
Figure FDA0002858270670000044
为原始Zscore值,xt为位点t在基线MSS样本的统计量,
Figure FDA0002858270670000045
为对应MSS样本的统计量均值,
Figure FDA0002858270670000046
为MSS样本的统计量标准差;
b)取原始Zscore的阈值为3,对应显著性为99.7%;
c)为使MSI位点的Zscore尽可能接近1,使用归一化Zscore值
Figure FDA0002858270670000047
d)为使位点MSI分数有界,限定
Figure FDA0002858270670000051
的最大值为3,当
Figure FDA0002858270670000052
小于等于1时,判定为MSS状态,修改
Figure FDA0002858270670000053
为0;反之,当
Figure FDA0002858270670000054
大于1时,判定为MSI状态,
Figure FDA0002858270670000055
取值不变。
8.根据权利要求5-7任一项所述的装置,其特征在于:所述样本MSI分数计算模块中,位点MSI分数的加权平均的具体方法包括,将所有基线在该位点判定为有效位点的个数记为Nvalid,MSI位点个数记为Nmsi,使用基线中位点的分类准确率Accuracyt作为位点权重,加权后的样本MSI分数MSIscore的计算方式包括,
a)根据基线计算单位点的分类准确率Accuracyt:以
Figure FDA0002858270670000056
为阈值,其中,
Figure FDA0002858270670000057
表示t位点的MSS基线统计量均值,
Figure FDA0002858270670000058
表示标准差,计算基线样本的分类准确率Accuracyt=(TP+TN)/(TP+TN+FP+FN);其中,TP表示true positive真阳性个数,TN表示true negative真阴性个数,FP表示false positive假阳性个数,FN表示false negative假阴性个数;
b)按照公式三将分类准确率归一化为1-均值的位点权重;
公式三:
Figure FDA0002858270670000059
公式三中,Weightt表示t位点的权重Ntotal表示位点总数,
Figure FDA00028582706700000510
表示所有位点的分类准确率均值;
c)然后按照公式四计算样本MSI分数;
公式四:
Figure FDA00028582706700000511
公式四中,MSIscore表示加权后的样本MSI分数,{MSI}表示该样本中所有分析为MSI的位点;
优选的,所述基线位点中的有效位点是指深度大于或等于100的位点;
优选的,所述微卫星不稳定性判断模块中,有效位点阈值为25;
优选的,所述样本MSI分数阈值为0.135。
9.一种泛癌种的单样本微卫星不稳定性分析的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的分析方法。
10.一种计算机可读存储介质,其特征在于:所述存储介质中包括程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的分析方法。
CN202011553324.XA 2020-12-24 2020-12-24 一种泛癌种的单样本微卫星不稳定性的分析方法和装置 Active CN112687333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011553324.XA CN112687333B (zh) 2020-12-24 2020-12-24 一种泛癌种的单样本微卫星不稳定性的分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011553324.XA CN112687333B (zh) 2020-12-24 2020-12-24 一种泛癌种的单样本微卫星不稳定性的分析方法和装置

Publications (2)

Publication Number Publication Date
CN112687333A true CN112687333A (zh) 2021-04-20
CN112687333B CN112687333B (zh) 2021-11-23

Family

ID=75452887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011553324.XA Active CN112687333B (zh) 2020-12-24 2020-12-24 一种泛癌种的单样本微卫星不稳定性的分析方法和装置

Country Status (1)

Country Link
CN (1) CN112687333B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345516A (zh) * 2021-06-23 2021-09-03 深圳裕泰抗原科技有限公司 一种hla基因分型方法、装置和存储介质
CN114150067A (zh) * 2022-02-07 2022-03-08 元码基因科技(北京)股份有限公司 确定用于检测微卫星不稳定状态的位点组合的方法、系统及探针组
CN115223658A (zh) * 2021-04-20 2022-10-21 厦门艾德生物医药科技股份有限公司 一种基于二代测序的微卫星不稳定性检测方法
CN115595371A (zh) * 2022-12-07 2023-01-13 元码基因科技(北京)股份有限公司(Cn) 基于二代测序平台的单样本检测以确定结直肠癌患者msi状态的方法及应用
CN116543835A (zh) * 2023-04-21 2023-08-04 苏州吉因加生物医学工程有限公司 一种检测血浆样本微卫星状态的方法和装置
CN116705157A (zh) * 2022-03-28 2023-09-05 北京吉因加医学检验实验室有限公司 一种基于二代测序检测血浆样本微卫星状态的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106834479A (zh) * 2017-02-16 2017-06-13 凯杰(苏州)转化医学研究有限公司 肿瘤免疫治疗中微卫星不稳定状态分析体系
CN107526944A (zh) * 2017-09-06 2017-12-29 南京世和基因生物技术有限公司 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
CN109182525A (zh) * 2018-09-29 2019-01-11 广州燃石医学检验所有限公司 一种微卫星生物标志物组合、检测试剂盒及其用途
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
WO2020076763A1 (en) * 2018-10-12 2020-04-16 Life Technologies Corporation Methods and systems for evaluating microsatellite instability status
CN111583999A (zh) * 2020-04-24 2020-08-25 北京优迅医学检验实验室有限公司 建立检测微卫星不稳定的基线的方法、装置及应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106834479A (zh) * 2017-02-16 2017-06-13 凯杰(苏州)转化医学研究有限公司 肿瘤免疫治疗中微卫星不稳定状态分析体系
CN107526944A (zh) * 2017-09-06 2017-12-29 南京世和基因生物技术有限公司 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质
US20200202978A1 (en) * 2017-09-06 2020-06-25 Geneseeq Technology Inc. Sequencing data analysis method, device and computer-readable medium for microsatellite instability
CN109182525A (zh) * 2018-09-29 2019-01-11 广州燃石医学检验所有限公司 一种微卫星生物标志物组合、检测试剂盒及其用途
WO2020076763A1 (en) * 2018-10-12 2020-04-16 Life Technologies Corporation Methods and systems for evaluating microsatellite instability status
CN109637590A (zh) * 2018-12-29 2019-04-16 西安交通大学 一种基于基因组测序的微卫星不稳定性检测系统及方法
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
CN111583999A (zh) * 2020-04-24 2020-08-25 北京优迅医学检验实验室有限公司 建立检测微卫星不稳定的基线的方法、装置及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TONGXIN W.等: "Microsatellite Instability Prediction of Uterine Corpus Endometrial Carcinoma Based on H&E Histology Whole-Slide Imaging", 《2020 IEEE 17TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI)》 *
缪小兵 等: "214例胃癌微卫星不稳定状态分析", 《临床与实验病理学杂志》 *
赵丹 等: "单肿瘤组织微卫星不稳定探测方法", 《计算机系统应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223658A (zh) * 2021-04-20 2022-10-21 厦门艾德生物医药科技股份有限公司 一种基于二代测序的微卫星不稳定性检测方法
CN115223658B (zh) * 2021-04-20 2023-04-28 厦门艾德生物医药科技股份有限公司 一种基于二代测序的微卫星不稳定性检测方法
CN113345516A (zh) * 2021-06-23 2021-09-03 深圳裕泰抗原科技有限公司 一种hla基因分型方法、装置和存储介质
CN114150067A (zh) * 2022-02-07 2022-03-08 元码基因科技(北京)股份有限公司 确定用于检测微卫星不稳定状态的位点组合的方法、系统及探针组
CN116705157A (zh) * 2022-03-28 2023-09-05 北京吉因加医学检验实验室有限公司 一种基于二代测序检测血浆样本微卫星状态的方法和装置
CN116705157B (zh) * 2022-03-28 2024-01-30 北京吉因加医学检验实验室有限公司 一种基于二代测序检测血浆样本微卫星状态的方法和装置
CN115595371A (zh) * 2022-12-07 2023-01-13 元码基因科技(北京)股份有限公司(Cn) 基于二代测序平台的单样本检测以确定结直肠癌患者msi状态的方法及应用
CN116543835A (zh) * 2023-04-21 2023-08-04 苏州吉因加生物医学工程有限公司 一种检测血浆样本微卫星状态的方法和装置
CN116543835B (zh) * 2023-04-21 2024-02-06 苏州吉因加生物医学工程有限公司 一种检测血浆样本微卫星状态的方法和装置

Also Published As

Publication number Publication date
CN112687333B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN112687333B (zh) 一种泛癌种的单样本微卫星不稳定性的分析方法和装置
CN108256292B (zh) 一种拷贝数变异检测装置
CN110797078A (zh) 微卫星不稳定位点筛选、分析模型的构建方法及装置
CN110808081B (zh) 一种鉴定肿瘤纯度样本的模型构建方法及应用
KR20190053695A (ko) 차세대 염기서열분석을 이용한 기계학습 기반 유방암 예후 예측 방법 및 예측 시스템
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN112634987B (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
DE60323605D1 (de) SYSTEM UND VERFAHREN zur BILDAUFNAHME MITTELS OPTISCHER PROJECTION AUTOMATISCHEN DETEKTION VON ZELLEN
WO2023115662A1 (zh) 一种变体核酸的检测方法
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN111304303A (zh) 微卫星不稳定的预测方法及其应用
CN113724785B (zh) 基于二代测序的肿瘤分型方法、装置、存储介质及设备
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN112746097A (zh) 一种检测样本交叉污染的方法以及预测交叉污染源的方法
CN112397151A (zh) 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置
CN110060733A (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN107849613A (zh) 用于肺癌分型的方法
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN113789371A (zh) 一种基于批次矫正的拷贝数变异的检测方法
CN111370065B (zh) 一种检测rna跨样本交叉污染率的方法和装置
KR20180092395A (ko) 종양 치료를 위한 표적 유전자 판별 방법
CN109390034B (zh) 一种检测肿瘤组织中正常组织含量和肿瘤拷贝数的方法
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN116312779A (zh) 检测样本污染和识别样本错配的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210518

Address after: 100206 Room 101, 1st-5th floor, no.2-1st-5th floor, yard 1, No.8, shengshengyuan Road, Huilongguan town, Changping District, Beijing (Changping Demonstration Park)

Applicant after: BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd.

Applicant after: SUZHOU JIYINJIA BIOMEDICAL ENGINEERING Co.,Ltd.

Address before: 102200 Room 101, 1-5 / F, no.2-1, area 1, yard 8, shengshengyuan Road, Huilongguan town, Changping District, Beijing (Changping Demonstration Park)

Applicant before: BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant