CN116438602A

CN116438602A - 微卫星不稳定性检测方法及系统

Info

Publication number: CN116438602A
Application number: CN202180057858.XA
Authority: CN
Inventors: 叶雅琪; 陈建宏; 陈淑贞; 陈映嘉; 陈冠萤
Original assignee: Action Gene Zhicai Co ltd
Current assignee: Action Gene Zhicai Co ltd
Priority date: 2020-06-18
Filing date: 2021-06-18
Publication date: 2023-07-14
Also published as: TWI780781B; US20230230661A1; TW202205301A; WO2021257926A1

Abstract

本发明提供一种用于检测微卫星不稳定性(MSI)状态的方法和系统，系利用次世代定序(NGS)以及一种机器学习模型。本发明进一步提供一种依据人类个体MSI状态的运算数据而决定疗法的方法以及系统。

Description

微卫星不稳定性检测方法及系统

技术领域

本申请案主张2020年6月18日提出的美国临时申请案第63/041,103号的优先权，其全部内容通过引用并入本文。

本发明是关于分子诊断学、癌症基因体学及分子生物学的领域。

背景技术

微卫星不稳定性(microsatellite instability，MSI)是一种分子表型，其指示潜在的基因体高突变性。微卫星区(microsatellite tract)中核苷酸的获得或丧失可能源自错配修复(mismatch repair，MMR)系统的缺陷，以致限制了重复性DNA序列中自发突变的修正。因此，受MSI影响的肿瘤可能是由MMR途径中的基因突变失活或表观基因静默(epigenetic silencing)而引起。MSI与改善预后是相关的。MSI用于预测对帕博利珠单抗(pembrolizumab)反应的能力使食品药物管理局在2017年5月批准了第一项不定肿瘤类型(tumor-agnostic)药物。另有证据显示，微卫星高度不稳定(microsatelliteinstability-high，MSI-H)的患者对于抗PD-1药物之纳武利尤单抗(nivolumab)与MEDI0680、抗PD-L1药物之度伐利尤单抗(durvalumab)以及抗CTLA-4药物之伊匹木单抗(ipilimumab)有较佳反应。基于这些结果，MSI-H已被批准作为免疫检查点(immunecheckpoint)抑制剂的分子标志。

MSI之侦测通常是透过聚合酶连锁反应检测法(MSI-PCR)，利用五个微卫星位点(microsatellite loci)的波峰型态进行片段分析(fragment analysis，FA)，以判定个别样品的MSI状态。带有二个或更多不稳定微卫星的样本被称为高MSI(MSI-H)，而只有一个或未检测到不稳定微卫星的样本被称为微卫星稳定(microsatellite stable，MSS)。由于对每个微卫星位点的评估需要比较成对的肿瘤与正常组织，因此对于组织样本有限的病例，特别是含有少量正常细胞的样本，MSI-PCR检测并不总是可行的。免疫组织化学染色法(immunohistochemistry，IHC)是另一种可用于MSI状态检测的典型检测方法，其系透过错配修复(MMR)蛋白表现测试去检测含MSI的样本。然而，MMR-IHC无法每次都检测到错义突变(missense mutations)导致的突变蛋白缺失，甚至对一些蛋白截断突变(protein-truncating mutations)也可能有正常的染色结果。此外，目前对MSI-PCR及IHC资料的解读皆是人工且定性的。本技术领域需要开发一种有效且准确测定患者的MSI状态的定量检测方法。

目前发现数种次世代定序(next-generation sequencing，NGS)检测方法可用于测定MSI状态。一般而言，基于NGS的MSI检测具备的优势是依据定量统计结果提供自动化分析。相比MSI-PCR检测，此方法减少了分析时间，并且降低来自观察者之间及来自实验室之间的差异。然而，一些基于NGS的MSI检测方法，例如MANTIS及MSIsensor需要一个配对的正常样本用于评估。至于其他方法，例如MSIplus，尽管在检测中不需要一个配对的正常样本，但可能需要进一步改进，例如增加更多微卫星位点。故基于NGS的MSI检测仍有改进空间。

发明内容

本发明针对微卫星不稳定性(MSI)状态的检测提供了改良技术。本发明系使用一种经过训练的机器学习模型(machine learning model)来检测MSI状态，该模型训练自临床目的的大范畴基因套组(large-panel)的次世代定序资料，将至少六个微卫星位点，较佳为至少一百个微卫星位点纳入。经过训练的机器学习模型对不同的特征使用不同的权重，例如波峰宽度(peak width)、波峰高度(peak height)、波峰位置(peak location)及简单序列重复(simple sequence repeat，SSR)的类型等特征，以便由没有相配对正常样本的NGS数据检测MSI状态时，可达到高稳健性及高效率。此外，通过使用覆盖不同癌症类型的独立临床样本数据集进行验证，经过训练的机器学习模型被证实对MSI状态检测具有高度的敏感性和特异性。

总括而言，本发明系关于一种产生用于预测MSI状态的模型的方法，包含：

(a)收集一临床样本及该样本的一预估所得MSI状态数据；

(b)透过次世代定序(NGS)对临床样本的至少六个微卫星位点进行定序，以产生一定序数据；(c)从定序数据料中撷取一MSI特征；

(d)通过将一MSI特征数据与预估所得MSI状态数据彼此对应以训练一机器学习模型；及

(e)输出一经过训练的机器学习模型。

在一些实施例中，MSI特征数据是由一基线(baseline)计算。在一些实施例中，计算MSI特征数据的该基线是建立自正常样本或具有MSS状态的样本。在一些实施例中，基线是建立自正常样本中每个SSR区域的各MSI特征的平均值。较佳地，基线是建立自每个SSR区域的平均波峰宽度。

在一些实施例中，预估所得MSI状态数据是透过已知的检测方法从癌症患者获取。已知的检测方法包括但不限于MSI-PCR检测、免疫组织化学染色法、及基于NGS的MSI检测，包括MANTIS、MSIsensor、MSIplus或大范畴基因套组NGS(large-panel NGS)。在一些实施例中，MSI状态系为微卫星稳定(MSS)或微卫星高度不稳定(MSI-H)。在一些实施例中，该MSI特征包括波峰宽度、波峰高度、波峰位置、SSR类型、或其任意组合。

在一些实施例中，该机器学习模型包括但不限于回归模型(regression-basedmodels)、判定树模型(tree-basedmodels)、贝氏模型(Bayesian models)、支持向量机(support vector machines)、提升模型(boosting models)或神经网络模型(neuralnetwork-based models)。在一些实施例中，该机器学习模型包括但不限于逻辑式回归模型(logistic regression model)、随机森林模型(random forest model)、极端随机树模型(extremely randomized trees model)、多项式回归模型(polynomial regressionmodel)、线性回归模型(linear regression model)、梯度下降模型(gradient descentmodel)及极端梯度提升模型(extreme gradientboost model)。

在一些实施例中，经过训练的机器学习模型包含对各微卫星位点所界定的一权重。在一些实施例中，经过训练的机器学习模型包含对各微卫星位点的MSI特征所界定的一权重。经过训练的机器学习模型可以预测MSI状态。

在一些实施例中，机器学习模型具有一阈值(cutoffvalue)，该阈值为0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45或0.5。

在一些实施例中，预估所得MSI状态数据或运算所得MSI状态数据指示微卫星稳定(MSS)或微卫星高度不稳定(MSI-H)。

另一方面，本发明大体上系关于一种测定MSI状态的计算机执行方法，包含：

(a)从一个体收集一临床样本；

(b)透过次世代定序(NGS)对临床样本的至少六个微卫星位点进行定序，以产生一定序数据；

(c)从定序数据中撷取一MSI特征；

(d)将一MSI特征数据导入前述经过训练的机器学习模型；及

(e)产出一运算所得MSI状态。

在一些实施例中，计算机执行方法进一步包含步骤(f)：将运算所得MSI状态数据输出至一电子储存媒体或一显示器。

在一些实施例中，该方法进一步包含一步骤，系依据运算所得MSI状态数据而决定对个体的疗法及/或向个体施予一治疗有效量的疗法。

在一些实施例中，该疗法包括但不限于手术、个人疗法、化学治疗、放射线治疗、免疫疗法或其任意组合。在一些实施例中，免疫疗法包括施予药物，药物包括但不限于抗PD-1药物如帕博利珠单抗(pembrolizumab)、纳武利尤单抗(nivolumab)及MEDI0680，抗PD-L1药物如度伐利尤单抗(durvalumab)，及抗CTLA-4药物如伊匹木单抗(ipilimumab)。

在一些实施例中，微卫星位点是至少7、10、15、20、30、40、50、100、150、200、250、300、350、400、450、500、550或600个位点。在一些实施例中，微卫星位点是透过对染色体区域的SSR区域进行定序而确定。在一些实施例中，微卫星位点会因为定序覆盖率(coverage)低、波峰不稳定(unstable peak call)、波峰宽度高变异性或贡献权重低而被排除。在一些实施例中，波峰宽度高变异性的微卫星位点在5次重复量测中其波峰宽度变异大于2、在6次重复量测中的波峰宽度变异大于3、在7次重复量测中的波峰宽度变异大于3、在8次重复量测中的波峰宽度变异大于3、在9次重复量测中的波峰宽度变异大于3、或在10次重复量测中的波峰宽度变异大于4。

在一些实施例中，样本来自细胞株(cell line)、活体组织检体(biopsy)、原发组织(primary tissue)、冷冻组织、福尔马林固定石蜡包埋(formalin-fixedparaffin-embedded，FFPE)组织、液态活体组织检体(liquidbiopsy)、血液、血清、血浆、白血球层(buffy coat)、体液、内脏液、腹水、腔液穿刺(paracentesis)、脑脊髓液、唾液、尿液、泪液、精液、阴道分泌物、抽取物(aspirate)、灌洗液(lavage)、口腔抹片(buccal swab)、循环肿瘤细胞(circulating tumor cell，CTC)、游离DNA(cell-free DNA，cfDNA)、循环肿瘤DNA(circulating tumor DNA，ctDNA)、DNA、RNA、核酸、纯化的核酸、纯化的DNA、或纯化的RNA。

在一些实施例中，样本是一临床样本。在一些实施例中，样本来自一病患。在一些实施例中，样本来自一患者，其患有癌症、实体瘤、血液恶性肿瘤、罕见遗传病、复合性疾病、糖尿病、心血管疾病、肝病、或神经系统疾病。在一些实施例中，样本来自一患者，其患有腺癌(adenocarcinoma)、腺样囊性癌(adenoid cystic carcinoma)、肾上腺皮质癌(adrenalcortical carcinoma)、壶腹周围瘤(ampullavater cancer)、肛门癌(anal cancer)、阑尾癌(appendix cancer)、基底核胶质瘤(basal ganglia glioma)、膀胱癌(bladdercancer)、脑癌(brain cancer)、脑瘤(brain tumor)、神经胶质瘤(glioma)、乳癌(breastcancer)、颊癌(buccal cancer)、子宫颈癌(cervical cancer)、胆管癌(cholangiocarcinoma)、软骨肉瘤(chondrosarcoma)、卵巢亮细胞癌(clear cellcarcinoma)、结肠癌(colon cancer)、结肠直肠癌(colorectal cancer)、囊管癌(cysticduct carcinoma)、去分化脂肪肉瘤(dedifferentiated liposarcoma)、硬纤维瘤(desmoidtumor)、弥漫性中线胶质瘤(diffuse midline glioma)、子宫内膜癌(endometrialcancer)、子宫内膜样腺癌(endometrioid adenocarcinoma)、上皮样横纹肌肉瘤(epithelioid rhabdomyosarcoma)、食道癌(esophageal cancer)、骨骼外软骨母细胞骨肉瘤(extraskeletal chondroblastic osteosarcoma)、眼睑皮脂腺癌(eyelid sebaceouscarcinoma)、输卵管癌(fallopian tube cancer)、胆囊癌(gallbladder cancer)、胃癌(gastric cancer)、胃肠道基质瘤(gastrointestinal stromal tumor，GIST)、多形性胶质母细胞瘤(glioblastoma multiforme)、头颈癌(head and neck cancers)、肝细胞癌(hepatocellular carcinoma)、高恶性度胶质瘤(high grade glioma)、下咽癌(hypopharyngeal cancer)、内膜肉瘤(intimal sarcoma)、婴儿型纤维肉瘤(infantilefibrosarcoma)、侵袭性乳腺管癌(invasive ductal carcinoma)、肾癌(kidney cancer)、平滑肌肉瘤(leiomyosarcoma)、脂肪肉瘤(liposarcoma)、肝脏血管肉瘤(liverangiosarcoma)、肝癌(liver cancer)、肺癌(lung cancer)、黑色素瘤(melanoma)、原发部位不明转移癌(metastasis ofunknown origin，MUO)、鼻咽癌(nasopharyngeal cancer)、非小细胞肺腺癌(NSCLC adenocarcinoma)、食道癌(oesophageal cancer)、口腔癌(oralcancer)、口咽癌(oropharyngeal cancer)、骨肉瘤(osteosarcoma)、卵巢癌(ovariancancer)、胰脏癌(pancreatic cancer)、甲状腺乳突癌(papillary thyroid carcinoma)、腹膜癌(peritoneal cancer)、原发性浆液性腹膜癌(primary peritoneal serouscarcinoma，PPSC)、前列腺癌(prostate cancer)、直肠癌(rectal cancer)、肾癌(renalcancer)、唾液腺癌(salivary gland cancer)、肉瘤样癌(sarcomatoid carcinoma)、乙状结肠癌(sigmoid cancer)、鼻窦癌(sinus cancer)、皮肤癌(skin cancer)、软组织肉瘤(soft tissue sarcoma)、鳞状细胞癌(squamous cell carcinoma)、胃腺瘤(stomachadenocarcinoma)、颌下腺癌(submandibular gland cancer)、胸腺癌(thymic cancer)、胸腺瘤(thymoma)、甲状腺癌(thyroid cancer)、舌癌(tongue cancer)、扁桃体癌(tonsillarcancer)、移行细胞癌(transitional cell carcinoma)、子宫癌(uterine cancer)、子宫肉瘤(uterine sarcoma)、或恶性子宫肌瘤(uterus leiomyosarcoma)。在一些实施例中，样本来自孕妇、儿童、青少年、老年人或成年人。在一些实施例中，样本是一研究样本。在一些实施例中，样本来自一组样本。在一些实施例中，该组样本来自相关物种。在一些实施例中，该组样本来自不同物种。

在一些实施例中，机器学习模型是通过使用具有MSI状态数据及MSI特征数据的一训练数据组(training set)进行训练。

在一些实施例中，次世代定序系统包括但不限于Illumina公司制造的MiSeq、HiSeq、MiniSeq、iSeq、NextSeq、及NovaSeq定序仪，Life Technologies公司制造的IonPersonal Genome Machine(PGM)、Ion Proton、Ion S5系列、及Ion GeneStudio S5系列，以及BGI公司制造的BGIseq系列、DNBseq系列及MGIseq系列，以及由Oxford NanoporeTechnologies公司制造的MinION/PromethION定序仪。

在一些实施例中，定序片段(sequencing reads)是由初始样本扩增后的核酸或用诱饵(bait)捕获的核酸而产生。在一些实施例中，定序片段是从需要添加一转接子序列(adapter sequence)的定序仪所产生。在一些实施例中，定序片段是从包括但不限于下列的方法所产生：杂交捕获(hybrid capture)、引子延伸目标扩增(primer extensiontarget enrichment)、基于分子倒位探针(molecular inversionprobe)的方法、或多重目标特异性PCR(multiplex target-specific PCR)。

另一方面，本发明大体上系关于一种测定MSI状态的系统。该系统包含一数据储存装置，该装置储存有用于测定MSI状态特征的指令，以及一处理器，该处理器被设置成执行指令以运行一方法。该方法包含以下步骤：

(a)训练一机器学习模型，其中机器学习模型将一个或多个MSI特征的训练数据与一供训练用的预估所得MSI状态数据彼此对应；

(b)收集来自一人类个体的一临床样本；

(c)透过使用次世代定序(NGS)对临床样本的至少六个微卫星位点进行定序，以产生一定序数据；

(d)通过将从定序数据中撷取出的一MSI特征数据导入经过训练的该机器学习模型，以运算MSI状态；及

(e)输出一运算所得MSI状态数据。

附图说明

以下一个或多个实施例将在所附图式中以举例方式进行说明，但非用以限制，图中具有相同参考数字的组件在本文中代表类似的组件。除非另有说明，图式不按比例绘制。

图1(a)-1(c)系为用于表示微卫星不稳定性特征的参数的示意图。

图2系为MSI模型的ROC曲线。

图3系为验证数据集的MSI分数的盒形图(box plot)。

以上图式仅是示意性的，且没有限制作用。在附图中，出于说明目的，一些组件的尺寸可能被夸大而没有按比例绘制。该尺寸及相对尺寸不一定与本发明实施时的真实还原相对应。

具体实施方式

以下将详细讨论本发明实施例的制作及运用。然而，应当理解的是，该些实施例提供了许多可应用的发明概念，其能在各种特定情况下实施。所讨论的特定实施例只是说明制造和使用该些实施例的具体方法，但不限制本发明的范围。

除非另有定义，本文中使用的所有技术及科学术语具有与本发明所属技术领域中熟习技艺者通常理解的相同含义。除非上下文另有明确指示，本文中所使用的单数形式「一」、「一个」及「该」包含复数指称。

本文中所用的「微卫星」意指一个重复性DNA片段，其中某些DNA序列单元是重复的。「微卫星位点」是指该微卫星的区域。在文义许可的情况下，术语「微卫星」和「SSR」以及「微卫星位点」和「SSR区域」分别可以互换使用。在本发明的一些实施例中，微卫星位点或SSR区域的类型是指核苷酸序列中的单、双、三、四或五核苷酸的重复或某些复合核苷酸类型。较佳地，微卫星位点或SSR区域的类型是指至少重复十次的单核苷酸、至少重复六次的双核苷酸、至少重复五次的三核苷酸、至少重复五次的四核苷酸、至少重复五次的五核苷酸、以及包括但不限于SEQ ID NOs:1-37的复合核苷酸类型。

本文中所用「MSI状态」或「MMR状态」是指有「MSI」或「不稳定微卫星(位点)」的存在，即微卫星中有细胞群落(clonal)或体细胞(somatic)的重复性DNA核苷酸单元的数量变化。本发明中的预估所得MSI状态系为MSS或MSI-H。「MSI-H」是指存在于微卫星位点中的重复片段数与正常细胞DNA中的重复片段数有显著差异的情况。「MSS」是指没有DNA错配修复的功能缺陷，并且微卫星位点中的重复片段数在肿瘤与正常细胞间没有显著差异的情况。

本文中所用「阈值(cutoff value)」或「临界点(threshold)」是指用于区分一生物样本的两个或多个分类状态的一数值或其他表示方法。在本发明的一些实施例中，阈值是依据机器学习模型的训练结果而设定，用于区分MSI-H和MSS。如果MSI分数大于阈值，则MSI状态被判定为MSI-H；或者如果MSI分数小于阈值，则MSI状态被判定为MSS。

本文中所用「波峰(peak)」是指微卫星位点中的微卫星分布型态(distributionpattern)。可以使用使次世代定序产生的数据对波峰进行分析，其中，每个微卫星位点内的等位基因(allele)重复序列长度的数目称为波峰宽度，最常被观察到的等位基因的读取数(read counts)被称为波峰高度，而肿瘤组织与参考基因体中个别微卫星位点不同的波峰高度的位置被称为波峰位置。在本发明的一些实施例中，波峰宽度、波峰高度、或波峰位置被用作估计MSI状态的MSI特征。

如图1(a)至1(c)所示，每个位点是一个短重复序列。当以PCR及Sanger定序或通过次世代定序(NGS)方法测定时，每个微卫星位点显示出一种波峰型态。一个波峰可以用其波峰宽度、波峰高度及波峰位置作为表征。当一个微卫星位点变得不稳定时，其波峰宽度、波峰高度及/或波峰位置可能会发生变化。图中，X轴显示每个波峰讯号代表的等位基因。例如，在图1(a)中，第一个讯号表示在该微卫星位点上的等位基因有8个核苷酸A的重复。该波峰具有的宽度为5，波峰高度约为35％，波峰位置为11A。波峰位置也可以用在染色体上的位置来描述，例如4号染色体：55598211(chr4:55598211)。y轴显示某一波峰讯号相对其他波峰讯号的读取次数的百分比。因此，某一波峰的波峰高度之和为1。图1(a)显示，当一位点变得不稳定时，其波峰宽度从5变宽至8的波峰分布。图1(b)显示，当一波峰不稳定时，波峰高度可能会变低。在这个例子中，波峰高度从50％变成25％。图1(c)显示，当一波峰不稳定时，波峰位置可能会改变。在这个例子中，波峰位置从11A变成13A。

一般而言，为了知晓MSI状态，会进行成对比对分析以确定肿瘤中相比配对的正常组织有所差异的微卫星位点。本文中所用的「配对的正常组织」或「正常的成对组织」是指来自同一病患的正常组织。然而，在本发明的一些实施例中，机器学习模型在没有配对的正常组织的情况下，由NGS数据检测MSI状态。使用一汇集的正常样本建立正常群体中每个SSR区域的MSI特征的平均值，以作为MSI检测的基线。将来自单个临床肿瘤组织的数据与该基线数据的波峰型态相比较，以判定该样本中每个SSR区域的微卫星状态。

本文中所用「肿瘤纯度(tumor purity)」是一肿瘤样本中的癌细胞占比。肿瘤纯度会影响使用NGS方法所测定的分子与基因体学特征的准确评估。在本发明的一些实施例中，临床样本的肿瘤纯度为至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、或100％。较佳地，本发明的样本的肿瘤纯度为至少20％。

本文中所用「深度(depth)」或「总深度」是指每一位置的定序片段数。「平均深度」、「平均总深度」或「总平均深度」是指整个定序区域的平均片段数。一般而言，总平均深度对NGS检测的效能有影响。总平均深度越高，突变的变异频率的变异性越低。在本发明的一些实施例中，样本整个定序区域的平均深度为至少200x、300x、400x、500x、600x、700x、800x、900x、1000x、2000x、3000x、4000x、5000x、6000x、8000x、10000x、或20000x。较佳地，样本整个定序区域的平均深度为为至少500x。

本文中所用「定序覆盖率(coverage)」是指在某一位点的总深度，其可与「深度」互换使用。在本发明的一些实施例中，「定序覆盖率低」意指在一样本的一位点的定序深度(read depth)低于5x、10x、15x、20x、25x、30x、35x、40x、45x、或50x。

本文中所用「目标碱基定序覆盖率(target base coverage)」是指以高于一预定值的深度进行定序的区域所占的百分比。目标碱基定序覆盖率需要指出进行评估时的深度。在一些实施例中，100x时的目标碱基定序覆盖率是85％，此表示85％的定序目标碱基被深度为至少100x的定序片段所覆盖。在一些实施例中，30x、40x、50x、60x、70x、80x、90x、100x、125x、150x、175x、200x、300x、400x、500x、750x、1000x时的目标碱基定序覆盖率是高于70％、75％、80％、85％、90％或95％。

本文中所用「人类个体(human subject)」是指被正式诊断出疾病的人、未被正式确认疾病的人、接受医疗关注的人、有罹病风险的人等。

本文中所用「治疗(treat)」、「疗法(treatment)」及「治疗(treating)」包括治疗性治疗、预防性治疗以及减少个体患病风险或降低其他风险因子的处置。治疗不要求完全治愈疾病，而是涵盖减轻症状或潜在风险因子的实施例。

本文中所用「治疗有效量(therapeutically effective amount)」是指引起所期望的生物或临床效果所需的治疗活性分子的量。在本发明的较佳实施例中，「治疗有效量」是治疗具备MSI-H的癌症患者所需的药物量。

本发明将通过以下实施例进一步说明，该些实施例的目的是示范而非限制。

实施例

实施例1训练用于检测MSI状态的机器学习模型

福尔马林固定石蜡包埋(FFPE)样本是从癌症患者身上经由手术或穿刺活体组织检体(needle biopsy)制备而得。使用QIAamp DNA FFPE Tissue套组(QIAamp DNA FFPETissue Kit；QIAGEN，Hilden，德国)提取基因体DNA。使用多重PCR，以440个基因和1.8Mbps的范畴为目标，对80ng的DNA进行扩增。使用Ion Proton或Ion S5 Prime系统(ThermoFisher Scientific，Waltham，MA)及Ion PI或540芯片(Thermo Fisher Scientific，Waltham，MA)依据制造商建议的作业程序对样本进行定序。原始序列读值经过制造商提供的软件Torrent Variant Caller(TVC)v5.2处理，并生成.bam和.vcf档案。

(1)选择候选位点

使用MIcroSAtellite识别工具(MISA；Beier,Thiel,Munch,Scholz,&Mascher,2017)，辨识染色体区域中被ACTOnco Panel检测所覆盖的SSR区域。MISA辨识出总共600个SSR区域，包括至少重复十次的单核苷酸、至少重复六次的双核苷酸、至少重复五次的三核苷酸、至少重复五次的四核苷酸、至少重复五次的五核苷酸、以及复合核苷酸类型。表1提供了复合SSR区域的序列。

表1复合微卫星位点

注：括号内的大写字母序列是重复序列，其重复次数由其后的数字表示。不在括号内的小写字母序列是在一被识别位点内的两个重复区域之间的序列。

我们首先检查每个SSR区域的染色体位置。共有34个SSR位点被发现是位于X染色体上，将其排除在外。

为了开发用于ACTOnco检测的稳健的MSI预测算法，我们计划自余下的566个候选位点中，仅将在临床FFPE样本表现出可重复的波峰型态的SSR区域纳入预测模型。为了识别不同次定序量测中具有良好可重复性的SSR，我们对一组10个FFPE临床样本的6次重复量测中，检视其566个SSR区域的定序覆盖率和波峰型态。

为了使该预测模型只纳入每个SSR区域内的高可信度片段，在一样本的一个位点的最小定序深度必须为30x。此外，当测定一SSR区域内不同长度的重复序列的总数(波峰宽度)，一重复序列长度需有至少5％的等位基因频率才会被纳入。例如，对于具有单核苷酸重复片段的位点的一样本，如果检测到15个碱基的等位基因频率为2％，16个碱基的等位基因频率为10％，17个碱基的等位基因频率为20％，18个碱基的等位基因频率为30％，19个碱基的等位基因频率为20％，20个碱基的等位基因频率为10％，及21个碱基的等位基因频率为8％，那么不同长度的重复片段的总数(波峰宽度)将是6，长度为15个碱基者不被计算在内。

我们排除了138个SSR区域，因为它们的定序覆盖率低(该些SSR区域的片段数<30)、波锋讯号不稳定(在任一次定序中有波峰宽度数据缺失)、波峰宽度高变异性(在6次重复量测中波峰宽度的变异大于3)或贡献权重低(MSI特征数据中对预测模型的贡献为最后5％)。余下的428个微卫星位点被用于后续建立基线及训练模型。

(2)建立基线

对所有428个位点建立群体基线。使用Ion Proton定序仪所定序的77个正常样本的平均波峰宽度建立一基线。Ion S5 Prime定序仪所定序的81个正常样本的平均波峰宽度被用于建立另一基线。MSI基线是基于正常群体中的每个SSR区域的平均波峰宽度而建立。同时亦计算每个候选位点的波峰宽度的标准偏差。对于某个位点，如果一特定临床样本与基线之间的波峰宽度差距落在2个标准偏差之外，则认定该位点不稳定。总不稳定位点百分比系以不稳定位点的数目除以所用位点的总数来计算。

(3)MSI预测模型及模型验证

由Ion Proton及Ion S5 Prime所定序的共122个结肠直肠癌样本(FFPE样本)被用于训练机器学习模型。基于5标记MSI-PCR检测系统(Promega MSIAnalysis System,version 1.2)，这些样本中的76个是MSS样本，46个是的MSI-H样本。每个样本中，定序深度小于30x的位点不考虑用于训练模型，而是被列为缺失信息。此外，为了测定一SSR区域的波峰宽度，一重复序列长度(等位基因)的等位基因频率需为至少5％，才会被纳入模型的训练。MSS基线和临床样本之间的波峰宽度差异被用于下列逻辑式回归模型的计算。

MSI状态(MSS/MSI-H)＝β0+β1位点1+β2位点2+β3位点3+……+β428位点428

其中β是一权重。

我们将122笔训练数据按7：3的比例进行训练和测试，并且随机分配样本以进行1000次训练及测试的迭代。由于样本小，该122笔训练数据皆被用于阈值的设定。用于设定阈值的MSI分数之计算是透过选定在1000次迭代中每个样本作为测试数据时的MSI分数中位数(the median MSI score)。模型性能的ROC曲线如图2所示。依据分析结果，我们决定选择0.15作为MSI预测模型的阈值，以达到高灵敏度(100％)和高特异性(100％)。

实施例2使用MSI模型判定癌症样本的MSI状态

我们接着使用独立的一组439个临床FFPE样本，包括30个MSI-H样本和409个MSS样本，来验证MSI模型的有效性。该些样本包括但不限于肺癌、结肠直肠癌、乳癌、卵巢癌、胰脏癌、胆管癌、胃癌、胶质母细胞瘤、肉瘤、子宫颈癌、平滑肌肉瘤及脂肪肉瘤。利用同于实施例1所述的方法处理这些样本，以便对428个位点区域进行定序，平均定序深度为至少500x，≥85％的目标区域达到≥100x的目标碱基定序覆盖率。

图3显示所得到的MSI-H样本和MSS样本的MSI分数有明显区别。模型验证的结果表明该模型的阳性一致率(positive percent agreement，PPA)和阴性一致率(negativepercent agreement，NPA)分别为93.3％和98.5％。该验证结果参见表2-5。

表2临床样本的MSI检测

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

表3MSI模型的验证结果

表4MSI模型的效能

实施例3对不同肿瘤纯度的样本进行MSI检测

利用状态为MSI-H的三种癌细胞株(依其来源)去决定用于检测MSI状态所需的最低肿瘤纯度。该三种癌细胞株以其各自配对的正常细胞进行稀释而形成一系列的稀释样本，肿瘤含量为100％、80％、50％、40％、30％及20％。表5显示该些样本中各样本的MSI分数。

表5由MSI模型测定之不同肿瘤纯度的细胞株的MSI状态

/>

Claims

1.一种产生用于预测微卫星不稳定性状态的模型的计算机执行方法，其特征在于，包含：

(a)收集一临床样本及该样本的一预估所得微卫星不稳定性状态数据；

(b)透过次世代定序对所述临床样本的至少六个微卫星位点进行定序，以产生一定序数据；

(c)从所述定序数据中撷取一微卫星不稳定性特征；

(d)通过将一微卫星不稳定性特征数据与所述预估所得微卫星不稳定性状态数据彼此对应以训练一机器学习模型；及

(e)输出一经过训练的机器学习模型。

2.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述微卫星不稳定性特征数据是由一基线计算。

3.根据权利要求2所述的计算机执行方法，其特征在于：其中，所述基线是建立自正常样本中每个简单序列重复区域的各所述微卫星不稳定性特征的平均值。

4.根据权利要求2所述的计算机执行方法，其特征在于：其中，所述基线是建立自正常样本中每个简单序列重复区域的一平均波峰宽度。

5.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述预估所得微卫星不稳定性状态数据是透过一检测方法从一癌症患者获取，该检测方法包含微卫星不稳定性-聚合酶连锁反应检测法、免疫组织化学染色法、或基于次世代定序的微卫星不稳定性检测。

6.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述机器学习模型包括一逻辑式回归模型、一随机森林模型、一极端随机树模型、一多项式回归模型、一线性回归模型、一梯度下降模型、或一极端梯度提升模型。

7.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述经过训练的机器学习模型包含对各微卫星位点所界定的一权重，并且可以预测微卫星不稳定性状态。

8.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述经过训练的机器学习模型包含对各微卫星位点的该微卫星不稳定性特征所界定的一权重，并且可以预测微卫星不稳定性状态。

9.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述经过训练的机器学习模型具有一阈值，该阈值为0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45或0.5。

10.根据权利要求1所述的计算机执行方法，其特征在于：其中，所述预估所得微卫星不稳定性状态数据指示微卫星稳定或微卫星高度不稳定。

11.一种测定微卫星不稳定性状态的计算机执行方法，其特征在于，包含：

(a)从一个体收集一临床样本；

(c)从所述定序数据中撷取一微卫星不稳定性特征；

(d)将一微卫星不稳定性特征数据导入根据权利要求1所述的经过训练的机器学习模型；及

(e)产出一运算所得微卫星不稳定性状态。

12.根据权利要求11所述的计算机执行方法，其特征在于，还包含步骤(f)：将所述运算所得微卫星不稳定性状态数据输出至一电子储存媒体或一显示器。

13.根据权利要求11所述的计算机执行方法，其特征在于，还包含依据所述运算所得微卫星不稳定性状态数据而决定对所述个体的疗法的步骤。

14.根据权利要求13所述的计算机执行方法，其特征在于，还包含向所述个体施予一治疗有效量的该疗法的步骤。

15.根据权利要求13所述的计算机执行方法，其特征在于：其中，所述疗法包含手术、个人疗法、化学治疗、放射线治疗、或免疫疗法。

16.根据权利要求15所述的计算机执行方法，其特征在于：其中，所述免疫疗法包含施予一药物的步骤，所述药物系选自由帕博利珠单抗、纳武利尤单抗、MEDI0680、度伐利尤单抗、及伊匹木单抗所组成的群组。

17.根据权利要求11所述的计算机执行方法，其特征在于：其中，所述运算所得微卫星不稳定性状态数据指示微卫星稳定或微卫星高度不稳定。

18.根据权利要求1或11所述的计算机执行方法，其特征在于：其中，所述微卫星位点是至少7、10、15、20、30、40、50、100、150、200、250、300、350、400、450、500、550或600个位点。

19.根据权利要求1或11所述的计算机执行方法，其特征在于：其中，所述微卫星位点呈现定序覆盖率低、波峰不稳定、波峰宽度高变异性或贡献权重低时会被排除。

20.根据权利要求19所述的计算机执行方法，其特征在于：其中，所述定序覆盖率低的微卫星位点是在一样本的一位点有低于5x、10x、15x、20x、25x、30x、35x、40x、45x、或50x的一定序深度。

21.根据权利要求19所述的计算机执行方法，其特征在于：其中，所述波峰宽度高变异性的微卫星位点的波峰宽度变异是在5次重复量测中大于2、在6次重复量测中大于3、在7次重复量测中大于3、在8次重复量测中大于3、在9次重复量测中大于3、或在10次重复量测中大于4。

22.根据权利要求1或11所述的计算机执行方法，其特征在于：其中，微卫星不稳定性特征包括波峰宽度、波峰高度、波峰位置、简单序列重复类型、或其任意组合。

23.根据权利要求22所述的计算机执行方法，其特征在于：其中，所述简单序列重复类型包含至少重复10次的单核苷酸、至少重复6次的双核苷酸、至少重复5次的三核苷酸、至少重复5次的四核苷酸、至少重复5次的五核苷酸、以及具有SEQIDNOs:1-37序列的复合核苷酸类型。

24.根据权利要求1或11所述的计算机执行方法，其特征在于：其中，所述临床样本来自细胞株、活体组织检体、原发组织、冷冻组织、福尔马林固定石蜡包埋组织、液态活体组织检体、血液、血清、血浆、白血球层、体液、内脏液、腹水、腔液穿刺、脑脊髓液、唾液、尿液、泪液、精液、阴道分泌物、抽取物、灌洗液、口腔抹片、循环肿瘤细胞、游离DNA、循环肿瘤DNA、DNA、RNA、核酸、纯化的核酸、纯化的DNA、或纯化的RNA。

25.根据权利要求1或11所述的计算机执行方法，其特征在于：其中，所述样本来自一患者，该患者患有癌症、实体瘤、血液恶性肿瘤、罕见遗传病、复合性疾病、糖尿病、心血管疾病、肝病、或神经系统疾病。

26.根据权利要求1或11所述的计算机执行方法，其特征在于：其中，所述临床样本的肿瘤纯度为至少5％、10％、15％、20％、25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、或100％。

27.一种测定微卫星不稳定性状态的系统，其特征在于，包含：

一数据储存装置，储存有用于测定微卫星不稳定性状态特征的指令；及

一处理器，被设置成执行所述指令以运行一方法，该方法包含：

(a)通过将一微卫星不稳定性特征的训练数据与一供训练用的预估所得微卫星不稳定性状态数据彼此对应，以训练一机器学习模型；

(b)收集来自一人类个体的一临床样本；

(c)透过次世代定序对所述临床样本的至少六个微卫星位点进行定序，以产生一定序数据；

(d)通过使用一经过训练的机器学习模型以运算微卫星不稳定性状态，其中该经过训练的机器学习模型具有从所述定序数据中撷取出的一微卫星不稳定性特征数据；

(e)产生一运算所得微卫星不稳定性状态数据；及

(f)输出所述运算所得微卫星不稳定性状态数据。

28.根据权利要求27所述的系统，其特征在于：其中，所述方法进一步包含步骤(g)：依据所述运算所得微卫星不稳定性状态数据而决定对所述人类个体的疗法。

29.根据权利要求28所述的系统，其特征在于：其中，所述方法进一步包含步骤(h)：向所述个体施予一治疗有效量的该疗法。