CN114596918B

CN114596918B - 一种检测突变的方法及装置

Info

Publication number: CN114596918B
Application number: CN202210239524.0A
Authority: CN
Inventors: 刘涛; 管彦芳; 方欢; 戴平平; 李盼松; 曾晓玲; 马梦亚; 李敏; 陈晨; 王科; 高伟
Original assignee: Beijing Jiyinjia Medical Laboratory Co ltd; Suzhou Jiyinjia Biomedical Engineering Co ltd
Current assignee: Beijing Jiyinjia Medical Laboratory Co ltd; Suzhou Jiyinjia Biomedical Engineering Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2023-03-24
Anticipated expiration: 2042-03-11
Also published as: CN114596918A

Abstract

一种检测突变的方法及装置，该方法包括：突变特征提取步骤，包括从待测样本的测序数据中提取突变特征；预测步骤，包括根据所述突变特征，预测待测样本为来自肿瘤患者的样本的概率，和/或，预测待测样本是否为来自肿瘤患者的样本。本发明通过2层的模型构建，直接预测待测样本为肿瘤样本的概率，显著提高癌症预测方法及装置的灵敏度和特异性。

Description

一种检测突变的方法及装置

技术领域

本发明涉及生物信息学领域，具体涉及一种检测突变的方法及装置。

背景技术

肝癌是一种发生在肝脏的恶性肿瘤，是中国最常见的恶性肿瘤之一。肝癌可分为原发性和继发性两大类。原发性肝癌是指发生在肝细胞或肝内胆管上皮细胞的恶性肿瘤，主要包括肝细胞癌、肝内胆管癌和混合型肝癌，其中肝细胞癌占85％～90％。继发性肝癌又称转移性肝癌，是其他身体器官起源的恶性肿瘤扩散或转移至肝脏，比原发性肝癌更为常见。在中国，继发性与原发性肝癌的比例为(2～4)：1。

原发性肝癌的病因及确切分子机制尚未确定，目前数据表明肝癌的发病是一个多因素、多步骤的复杂过程，受环境和饮食因素的双重影响。流行病学及实验研究资料表明，乙型肝炎病毒(HBV)和丙型肝炎病毒(HCV)感染、黄曲霉素、饮水污染、酒精、肝硬化、性激素、亚硝胺类物质、微量元素等都与肝癌发病相关。乙型肝炎病毒(HBV)和丙型肝炎病毒(HCV)感染是中国肝癌的常见危险因素，在中国，约90％的肝细胞癌患者有HBV感染史，HBV感染会导致慢性肝炎，进而发展为肝硬化，最终发展为肝癌。肝硬化会增加肝癌风险，在中国大部分肝癌患者都伴有肝硬化，原发性胆汁肝硬化和病毒性肝炎或非酒精性脂肪性肝炎导致的肝硬化，都可能发展成为肝癌。继发性肝癌(转移性肝癌)主要是由于其他部位的恶性肿瘤发展到一定程度后，通过不同途径，如随血液、淋巴液转移或直接侵润肝脏而发展为肝癌。

肝癌早期通常没有症状或症状不典型。当临床症状明显的时候，病情大多已进入中晚期。而早期肝癌尚有治愈的可能性，中晚期肝癌治疗方案复杂，且效果差异大。早发现早治疗是癌症预防和治疗的关键。

现有的肝癌筛查方法主要包括：

(1)传统：影像学方法和甲胎蛋白(AFP)¹

肝脏超声(US)是肝癌筛查和监测最常见的方法。超声作为监测手段的敏感性为40～81％，特异性为80～100％。B超的敏感性为59.3％，阳性预测值为77.4％，增强超声(CEUS)、增强计算机断层扫描(CT)和钆增强核磁共振(MRI)敏感性为73.6～84.4％，阳性预测值为83.6～89.3％。并且由于良性与恶性肝硬化结节的影像学特征重叠，因此不提倡使用肝脏超声作为确诊作肝癌的方法。

甲胎蛋白(AFP)是一种糖蛋白，属于白蛋白家族，主要由胎儿肝细胞及卵黄囊合成。甲胎蛋白在胎儿血液循环中具有较高的浓度，出生后下降，出生后2～3月时甲胎蛋白基本被白蛋白替代，血液中较难检出，因此在成人血清中含量极低。甲胎蛋白与肝癌等多种肿瘤的发生发展密切相关，在多种肿瘤中均可表现出较高浓度，可作为相应肿瘤的阳性检测指标。目前临床上主要作为原发性肝癌的血清标志物，用于诊断及监测。肝脏超声联合甲胎蛋白可用于肝癌高危人群的监测。肝癌肝结节小于5cm，阈值20ng/mL时，甲胎蛋白灵敏度为0.49～0.71，特异性为0.49～0.86，阈值200ng/mL时，灵敏度为0.04～0.31，特异性为0.76～1.0。

(2)联合循环游离DNA(cfDNA)和血清蛋白标志物的肝癌早筛方法²

cfDNA是常见的液体活检标志物之一。2019年，Chunfeng Qu等，联合cfDNA和血清蛋白标志物，开发了一种基于液体活检的肝癌检测技术——HCCscreen。HCCscreen的主要应用场景为HBV表面抗原阳性无症状人群的肝癌筛查。使用甲胎蛋白升高或有肝结节的高危人群作为对照，训练HCCscreen模型。训练集中肝癌检测的灵敏度为85％，特异性为93％。在331例肝脏超声和甲胎蛋白水平均正常验证集中，24例HCCscreen检测阳性，随访6～8个月，最终4例为肝癌。检测阴性人群中，相同的随访时间下，无肝癌患者。验证集中，HCCscreen的灵敏度为100％，特异性为94％，阳性预测值为17％。

(3)整合多种cfDNA全基因组特征的肝癌早筛方法³

肿瘤来源cfDNA(ctDNA)可用于发现肿瘤相关DNA特征，如：变异(碱基改变、融合及拷贝数变异等)、甲基化及片段特征等。核小体印迹是根据cfDNA在调控元件区域(如转录起始位点(TSS)区域)的覆盖情况，来推断核小体是否占据该区域，进一步推测，可以用来推测基因的表达情况。肿瘤的发生和进展总伴随着异常的基因表达，也就伴随着异常的核小体印迹。2021年，J Bai等联合cfDNA的5羟甲基化、片段末端基序、片段大小特征及核小体印迹4种特征，构建针对肝硬化群体的整合多种cfDNA特征的肝癌早筛技术。该研究纳入2250例肝硬化患者，508例肝癌患者及476例健康人，总计3204个样本随机划分为训练集、验证集和测试集。验证集包括95例肝癌患者和100例肝硬化患者，灵敏度为95.79％，特异性为95.00％。测试集包括148例肝癌患者和1800例肝硬化患者，灵敏度为95.42％，特异性为97.83％。验证集和测试集中，使用巴塞罗那(BCLC)分期，0期灵敏度为88.9％，A期为94.4％，B期为92.5％，C期为97.3％。

现有的肝癌筛查方法的主要操作方法如下：

肝脏超声和甲胎蛋白(AFP)：血清标志物的水平是随着肿瘤体积的增大而上升的，单独使用血清标志物时，血清标志物的灵敏度随着肿瘤体积的增大而提升，因此同时使用肝脏超声和血清甲胎蛋白水平，针对肝结节的大小设置不同血清甲胎蛋白水平阈值。

联合循环游离DNA(cfDNA)和血清蛋白标志物甲胎蛋白的肝癌早筛方法：HCCscreen纳入了两种血清标志物。一种是基于cfDNA的肝癌热点突变和HBV整合检测，肝癌热点突变检测范围为TP53、CTNNB1和AXIN1基因编码区(CDS)及TERT基因启动子区域；另一种是蛋白标志物，包括甲胎蛋白和脱-γ-异常凝血酶原(DCP)。由于两种标志物均来自于血浆，因此可以同时进行

整合多种cfDNA全基因组特征的肝癌早筛方法：HIFI针对同一份血浆样本同时进行5羟甲基化和低深度全基因组检测。低深度全基因组检测内容包括核小体印迹、片段大小分布及片段末端基序。先使用训练集筛选有效特征，然后整合各个特征得到一个肝癌早筛模型。

现有的肝癌筛查方法存在的主要缺陷包括：

肝脏超声和甲胎蛋白(AFP)：需要同时进行影像学检测和血检；虽然较单指标检查性能有提升，但由于良性结节和肝癌在影像学有特征重合，且非肝癌的肝炎或肝硬化患者的血浆A FP同样会上升，该方法的特异性较差，肝脏超声和甲胎蛋白阳性患者，需要进一步进行其他检查。

联合循环游离DNA(cfDNA)和血清蛋白标志物甲胎蛋白的肝癌早筛方法：需要同时进行cfDNA和血清蛋白两项检测；cfDNA检测只包含肝癌热点基因性能提升有限，特异性较差，训练集为93％，验证集为94％。

整合多种cfDNA全基因组特征的肝癌早筛方法：需要同时进行5羟甲基化和低深度全基因组检测；结果无法提供肝癌碱基改变、融合及拷贝数变化等突变信息。

发明内容

根据第一方面，在一实施例中，提供一种检测突变的方法，包括：

突变特征提取步骤，包括从待测样本的测序数据中提取突变特征；

预测步骤，包括根据所述突变特征，预测待测样本为来自肿瘤患者的样本的概率，和/或，预测待测样本是否为来自肿瘤患者的样本。

根据第二方面，在一实施例中，提供一种检测突变的装置，包括：

突变特征提取模块，用于从待测样本的测序数据中提取突变特征；

预测模块，用于根据所述突变特征，预测待测样本为来自肿瘤患者的样本的概率，和/或，预测待测样本是否为来自肿瘤患者的样本。

根据第三方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第四方面，在一实施例中，提供一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

依据上述实施例的一种检测突变的方法及装置，本发明通过2层的模型构建，直接预测待测样本为肿瘤样本的概率，显著提高癌症预测方法及装置的灵敏度和特异性。

附图说明

图1为基于循环肿瘤DNA体细胞突变检测的肝癌早期筛查方法的构建及检测流程图。

图2为一种实施例的方法在训练集、测试集及验证集中的检测性能图。

图3为一种实施例的方法在训练集及验证集的不同BCLC分期中的肝癌样本中的灵敏度结果图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

如本文所用，“SNV”是指单核苷酸变异，仅包括单个核苷酸发生碱基替换的突变类型，即single nucleotide variants。

如本文所用，“INDEL”是指插入、缺失突变。

如本文所用，“AR”基因是指编码雄激素受体的基因。

如本文所用，“突变”(mutation)是指生物体DNA基因组核苷酸序列的改变，本文中，“突变”与“变异”可互换使用。

在一实施例中，突变特征提取步骤，所述突变包括SNV突变、INDEL突变中的至少一种。

在一实施例中，INDEL突变特征包括如下特征中的至少一种：(1)INDEL突变的数量；(2)待测样本中检出INDEL突变的最大突变频率。

在一实施例中，突变特征提取步骤中，所述SNV突变特征包括如下特征中的至少一种：

第一健康人基线数据库特征、第二健康人基线数据库特征、突变碱基质量特征、支持突变序列(reads)的比对质量特征、支持突变序列的UID簇特征、第一突变碱基位置特征、第二突变碱基位置特征、第一短DNA片段评分特征、第二短DNA片段评分特征、第一支持突变的序列特征、第二支持突变的序列特征、第三支持突变的序列特征、突变频率特征、第一支持突变序列的链偏特征、第二支持突变序列的链偏特征、突变DNA的链偏特征、突变在捕获芯片上的位置特征。

在一实施例中，突变特征提取步骤中，所述SNV突变特征的说明如下：

/>

在一实施例中，突变特征提取步骤中，各SNV突变特征的说明及值范围如下：

UID亦称Unique Identification，即唯一标识符，含义同“UMI”(唯一分子标记，Uniq ue Molecular Identifier)。

在一实施例中，如果突变的检出频率高于(包含本数)健康人基线中对应位点的检出频率，则突变特征的取值为1；如果突变的检出频率低于(不包含本数)健康人基线中对应位点的检出频率，则突变特征的取值为0。

在一实施例中，如果热点突变的检出频率高于(包含本数)健康人基线中对应位点的检出频率，则热点突变特征的取值为1；如果热点突变的检出频率低于(不包含本数)健康人基线中对应位点的检出频率，则热点突变特征的取值为0。

在一实施例中，健康人基线中对应位点的检出频率为Q3+1.5*(Q3-Q1)。

在一实施例中，健康人基线中对应热点位点的检出频率为Q3+1.5*(Q3-Q1)。

Q3是上四分位，Q1是下四分位。

在一实施例中，支持突变的高质量duplex序列同时满足：(1)单条序列(read，亦称读段)的N碱基数≤5；(2)双端测序配对序列(paired read，亦称双读段)中的总N碱基数≤8，单条序列的错配(mismatch)碱基数≤5，双端测序配对序列(paired read)中的总错配碱基数<8，插入片段长度≤500bp，不含INDEL。

N碱基是指未知碱基。

在一实施例中，所述对照样本包括但不限于白细胞样本。

在一实施例中，所述对照样本与所述待测样本来自于同一生物体。

在一实施例中，所述生物体包括人。

在一实施例中，突变特征提取步骤中，包括对SNV突变按等级进行分类。

在一实施例中，突变特征提取步骤中，突变等级及分类规则如下：

在一实施例中，突变等级4中，所述各数据库包括但不限于Gene+数据库、MSK数据库、COSMIC数据库、TCGA数据库、文献数据等等中的至少2种数据库。

在一实施例中，预测步骤中，包括对待测样本所有突变SNV模型预测结果从高到低进行排序，取前5种突变的SNV模型预测结果作为特征。具体是取分数最高的5个(即5种)突变的预测的结果作为SNV突变特征。

在一实施例中，预测步骤中，根据所述5个突变的SNV特征以及2个INDEL突变特征，预测待测样本为来自肿瘤患者的样本的概率。

在一实施例中，预测步骤中，根据所述待测样本为来自肿瘤患者的样本的概率，预测待测样本是否为来自肿瘤患者的样本。

在一实施例中，预测步骤中，如果所述待测样本为来自肿瘤患者的样本的概率＞阈值，则预测待测样本为来自肿瘤患者的样本；如果所述待测样本为来自肿瘤患者的样本的概率≤阈值，则预测待测样本不是来自肿瘤患者的样本，即为来自健康人的样本。

在一实施例中，所述阈值可以为0.255。此处仅仅是示例性列举，根据训练模型的样本不同，阈值可以是其他数值。

在一实施例中，所述肿瘤包括但不限于肝癌、卵巢癌、肺癌、乳腺癌、结直肠癌、胰腺癌、胃癌、食管癌、膀胱癌。具体使用的癌种根据测序所用的芯片确定。

在一实施例中，所述待测样本包括但不限于体液样本。

在一实施例中，所述体液样本包括但不限于血液样本。

在一实施例中，所述体液样本包括但不限于血浆样本。

在一实施例中，所述待测样本为cfDNA样本。

在一实施例中，所述测序数据包括但不限于靶向捕获测序数据、全基因组测序数据、全外显子组测序数据。

在一实施例中，所述测序数据包括但不限于二代测序数据。

在一实施例中，所述测序数据包括比对到参考基因组的测序数据。

在一实施例中，所述参考基因组包括但不限于人类参考基因组。

在一实施例中，所述人类参考基因组包括但不限于hs37d5基因组、b37基因组、hg19基因组(GRCh37基因组)、hg18基因组、hg17基因组、hg16基因组或hg38基因组的至少一部分。

在一实施例中，突变特征提取步骤中，包括所述测序数据为依次对测序数据进行INDEL重比对和碱基质量矫正、原始突变检测、突变注释和过滤后的测序数据。

在一实施例中，突变特征提取步骤中，所述原始突变包括体细胞突变、造血克隆突变、胚系突变。

根据第三方面，在一实施例中，提供一种装置，包括：

存储器，用于存储程序；

在一实施例中，提供一种基于循环肿瘤DNA体细胞突变检测的肝癌早期筛查方法，该方法能够在仅纳入ctDNA检测到的突变基础上达到较高的检测性能。

实施例1

如图1所示，本实施例提供一种基于液体活检技术的肝癌早筛方法，该方法使用靶向捕获二代测序(NGS)技术对cfDNA进行测序，检测cfDNA体细胞突变，根据突变的数据特征构建预测提取的单核苷酸突变(SNV)是否是来源于肝癌的概率。然后根据SNV突变的结果及插入或缺失突变(INDEL)，构建模型预测样本是肝癌样本的概率。

1.样本集：样本集用突变和样本预测模型的构建，包括(1)阳性样本集：早期肝癌样本集，由BCLC分期0、A、B、C期样本组成；(2)阴性样本集：肝高危样本集，高危因素包括肝脏影像学结果或血清甲胎蛋白水平异常、家族肝炎史、肝炎、肝损伤、脂肪肝及肝硬化。将阳性和阴性样本集随机分为训练集和验证集，训练集占70％，验证集占30％。

2.靶向捕获测序：对样本的血浆和白细胞进行靶向捕获测序及生物信息分析，测序去重前深度>25000×，去重后深度>3000×，污染率<0.1％。以白细胞为对照样本，检测cfDNA体细胞突变。

3.提取SNV及INDEL突变特征。

a)提取SNV突变特征：

i.碱基特征：突变碱基质量、碱基在测序读取序列(read)上的位置、单核苷酸碱基改变类型(转换、颠换)。

ii.read特征：支持突变read的比对质量、数量、比对到的DNA链正反向。

iii.DNA序列特征：支持突变与未突变DNA片段的长度分布、DNA链正负链方向分布。iv.对照中检出：支持突变的read数量、对照深度、对照中的检出频率、健康人基线中的检出率及检出频率。

v.突变位置：突变在捕获芯片中的位置。

vi.突变功能及与肝癌相关性分级：使用PaPI对突变对蛋白功能的影响程度进行评分⁴。根据突变在本地及公共肝癌样本中的检出率对突变进行分级。

b)提取INDEL突变特征：突变数量和最大突变频率。

4.SNV突变模型构建：

a)以训练集肝癌样本检出，并且在配对组织中检出的SNV作为阳性样本，以训练集肝癌高危人群样本检出的SNV作为阴性样本集。

b)使用SNV特征为输入，以集成学习梯度提升决策树为模型，构建SNV模型。为每个突变预测属于肝癌来源突变的概率。

5.样本模型构建：以训练集肝癌样本作为阳性样本，训练集肝癌高危样本作为阴性样本。样本模型的输入特征包括：(1)INDEL特征；(2)样本SNV模型结果。使用逻辑回归构建模型，计算每个样本为肝癌的可能性。

6.预测样本属于肝癌样本概率：

a)靶向捕获NGS及信息分析；

b)提取SNV突变特征及插入或缺失突变的特征；

c)利用SNV突变特征，预测每个SNV突变来源于肝癌的概率；

d)利用SNV突变的预测结果和INDEL特征，预测样本是肝癌患者的概率。

如表1所示，样本集1包括164例BCLC分期在0～C期肝癌患者，460例肝癌高危患者，将样本集按照随机分为训练集和验证集，样本集2纳入534例样本，作为独立测试样本集，包括4例早期肝癌及530例健康人样本。所有样本均采集10mL血液。

表1样本集1肝癌样本数

本实施例的具体方法如下：

1、靶向捕获区域

捕获芯片包括13个基因的全编码区，210个基因特定区域，总体大小为196.2Kb(捕获区域具体参见公开号为CN112951325A的中国专利《一种用于癌症检测的探针组合的设计方法及其应用》说明书第66～82段，公开日2021年06月11日)。

2、靶向捕获NGS及生物信息分析

2.1血浆分离与DNA提取

对于全血样本及时进行血浆/血细胞分离(EDTA抗凝管，4h内；Streck管72h内)，分离步骤如下：第1步：在4℃条件下1600×g离心10min，离心后将上层血浆分装到多个1.5mL或者2.0mL的离心管中，在吸取血浆过程中不吸到中间层的白细胞。此步骤分离血浆后，中间层+底层血细胞留取备用，作为正常对照。第2步：在4℃条件下以16000×g离心10min去除残余细胞，将上清转入新的1.5mL或者2.0mL离心管中(不吸到管底的白细胞)，即得到所需的血浆。

血浆按照QIAamp Circulating Nucleic Acid Kit(Qiagen)提取试剂说明书，进行血浆cfDNA的提取。血细胞样本按照QIAamp DNA Mini Kit提取试剂说明书，进行基因组DNA(gDNA)的提取。然后采用Qubit定量，提取得到的血浆cfDNA大于15ng；提取得到的血细胞gDNA大于100ng。

2.2gDNA片段化

1)使用超声波打断，将DNA片段化，片段化后使用磁珠对其进行纯化。用Qubit荧光定量仪(

dsDNA HS Assay Kit)对片段化纯化产物进行定量，产物浓度应高于2ng/μL。如若得到的浓度低于2ng/μL，NC-PCR由10个循环改为12个循环；用Agilent2100Bioanalyzer检测产物的长度分布范围，DNA片段主带在200～250bp左右。

2)DNA片段化后纯化：将接头连接后的样本使用磁珠进行纯化，步骤如下：

(1)提前30min取出磁珠置于室温，使用前充分振荡混匀；(2)吸取相应体积磁珠至1.5mL离心管中，再将产物转至磁珠中，用移液器轻轻吹打混匀，室温下孵育10min，使磁珠与DNA片段充分结合，孵育期间配制80％乙醇；(4)孵育结束后，将1.5mL离心管置于磁力架上，静置10～20min(视磁珠量而定)，直至液体澄清，弃上清；(5)保持1.5mL离心管固定于磁力架上，加入新鲜配制的80％乙醇，用量足够淹没磁珠即可(本实施例具体为500μL)，弃上清；(5)重复步骤(4)一次，尽量吸干管底液体；(6)将1.5mL离心管打开盖子置于37℃金属浴上加热烘干，至磁珠表面不反光后取下；(7)向1.5mL离心管中加入溶解液，移液器吹打混匀，室温下孵育5min，使DNA片段充分溶解在DNA溶解液中；(8)将1.5mL离心管置于磁力架上至液体完全澄清；(9)吸取上清到新的1.5mL离心管中，弃去带磁珠的1.5mL离心管。

2.3文库构建

a)末端修复及加“A”：(1)向片段化产物中加入末端修复反应液和末端修复反应酶，振荡混匀并离心；(2)在恒温混匀仪或PCR仪上孵育：20℃，30min；65℃，30min；(3)孵育完成后，降至室温，使用掌式离心机短暂离心。

b)接头连接：取出连接酶以及接头。将接头置于室温溶解，连接酶置于冰盒上。使用前将接头和连接酶反应液充分振荡混匀并短暂离心。

c)接头连接后纯化：同DNA片段化后纯化步骤。

d)杂交捕获前PCR富集(Non-C-PCR)：(1)取出对应编号的Index，置于室温溶解，充分振荡混匀并离心；(2)从冰箱中取出DNA聚合酶反应液，置于4℃冰箱溶解后，轻轻振荡混匀并离心，置于冰盒上；(3)在PCR管中加入反应组分振荡混匀并离心；(4)将上述PCR管置于PCR仪上进PCR。

e)Non-C-PCR产物纯化：PCR后的样本使用磁珠进行纯化。

2.4靶序列捕获

1)杂交捕获：文库质控合格后，参照探针制造商(IDT)提供的说明书进行杂交捕获。最后洗脱回溶20μL ddH₂O带杂交洗脱磁珠。

2)洗脱产物扩增富集(LM-PCR)：(1)从冰箱中取出DNA聚合酶反应液及引物，置于室温溶解后，充分振荡混匀并离心；(2)按照说明书加入PCR反应液，再加入全部带磁珠B的洗脱产物，吹打混匀；(3)将上述PCR管置于PCR仪上，进行扩增反应；(4)PCR后的样本使用磁珠进行纯化。

3)洗脱文库质控：用Qubit荧光定量仪(

dsDNA BR Assay Kit)对产物进行定量，并对产物的长度分布范围进行定量，要求总量满足要求，且无接头及大片段污染。

4)上机测序：采用Gene+seq测序仪(亦可采用同原理的其他测序仪)进行上机PE100测序。测序实验操作按照制造商提供的操作说明书进行上机测序操作。血浆预排上机数据量为15G，血细胞预排上机数据量为3.5G。

5)信息分析

a)测序原始下机数据质控。采用血浆ctDNA低频突变富集测序技术——ER-seq(Enric hment&Rarallele Sequence)(具体参见专利公开号为CN105063208A的中国专利《一种血浆中游离的目标DNA低频突变富集测序方法》说明书第115～125段，公开日2015年11月18日)的信息分析流程(RealSeq Pipeline)，去除UID后，使用NCfilter进行过reads滤过滤。

b)序列比对。以GRCh37为参考序列，使用bwa(版本号：0.7.17-r1188)进行序列比对，生成初步比对的reads。

c)去除PCR重复reads：

i.血浆样本。使用realseq对bam进行基于ER-seq的分析流程的reads的聚类分析及纠错，提取包括天然重复片段在内的去重后的reads。再次使用bwa对重新对reads进行比对。

ii.血细胞样本。使用Picard(版本号：1.98)去掉原始比对reads中的PCR重复reads。

d)INDEL重比对和碱基质量矫正：使用GATK的RealignerTargetCreator进行INDEL附近序列的局部重新比对，降低INDEL附近的比对错误率。使用GATK的BaseRecalibrator和PrintReads对bam文件里reads的碱基质量值进行重新校正，使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率，并将质量矫正后的reads重新输出。

e)原始变异检测。使用realDecaller检测体细胞突变和造血克隆突变，使用GATK的SelectVariants检测胚系突变。

f)变异的注释和过滤。使用NCanno对原始变异检出突变进行注释，包括突变信息、外部数据库(ESP、GAD、EXAC、1000Genomes和GenomesAD等)及PaPI，使用注释信息、白细胞对照、健康人样本构造的健康人基线库对突变进行初步过滤。

3、SNV突变及插入或缺失突变特征提取

(1)SNV突变特征提取：突变特征主要由突变检测及注释过程中产出，包括突变检测软件realDecaller及注释软件。

(2)插入或缺失突变特征提取：统计过滤后样本的如下信息：(1)INDEL突变的数量；(2)样本检出INDEL突变的最大突变频率。

4、SNV突变模型构建

4.1 SNV突变特征

4.1.1突变特征说明见表2。表2、3中的突变特征均是根据步骤3的方法提取得到。

表2

如果突变的检出频率高于(包含本数)健康人基线中对应位点的检出频率，则突变特征的取值为1；如果突变的检出频率低于(不包含本数)健康人基线中对应位点的检出频率，则突变特征的取值为0。健康人基线中对应位点的检出频率为Q3+1.5*(Q3-Q1)。Q3是上四分位，Q1是下四分位。

如果热点突变的检出频率高于(包含本数)健康人基线中对应位点的检出频率，则热点突变特征的取值为1；如果热点突变的检出频率低于(不包含本数)健康人基线中对应位点的检出频率，则热点突变特征的取值为0。健康人基线中对应热点位点的检出频率为Q3+1.5*(Q3-Q1)。Q3是上四分位，Q1是下四分位。

支持突变的高质量duplex序列同时满足：(1)单条序列(read，亦称读段)的N碱基数≤5；(2)双端测序配对序列(paired read，亦称双读段)中的总N碱基数≤8，单条序列的错配(mismatch)碱基数≤5，双端测序配对序列(paired read)中的总错配碱基数<8，插入片段长度≤500bp，不含INDEL。

4.1.2突变等级说明见表3。

表3

4.2突变模型

python包sklearn(0.21.1)的GraditBoostingClassifier，部分参数设置见表4。

表4

模型参数	取值
		loss	deviance
n_estimators	100
		learning_rate	0.05
min_samples_split	100
		min_samples_leaf	10
max_depth	10
		subsample	0.8
max_features	sqrt

其余参数为默认参数。

以肝癌样本cfDNA检出的配对组织检出SNV为阳性样本集，肝癌高危样本cfDNA检出SNV为阴性样本集，训练模型。使用训练好的模型预测训练集样本中的所有SNV来源是肿瘤来源突变的概率。

5、样本模型构建

5.1SNV特征：样本所有突变SNV模型预测结果从高到低进行排序，取前5个突变的SNV模型结果作为特征。

5.2样本模型：总计7个特征，2个INDEL突变特征，5个SNV特征。使用python包sklearn(0.21.1)的LogisticRegression，max_iter设为10000，其余参数为默认值。以训练集肝癌样本为阳性样本，肝癌高危样本为阴性样本构建模型。

5.3判定样本为肝癌的阈值确定(图2)：在训练集肝高危样本中特异性为98％条件下，确定判定肝癌为阳性的概率阈值为0.255。

6、预测1例样本为肝癌的概率

6.1采集10mL全血样本。

6.2对样本进行靶向捕获NGS及生物信息分析：血浆分离与DNA提取、gDNA片段化、文库构建、靶序列捕获、上机测序、信息分析，同上。

6.3提取SNV突变及INDEL突变特征，同上。

6.4 SNV突变模型预测样本每个SNV突变来源于肝癌的概率：以SNV突变特征为输入，使用训练集训练好的SNV突变模型，预测每个SNV突变来源于肝癌的概率。

6.5样本模型预测样本为肝癌的概率：以SNV模型预测结果及INDEL突变的特征为输入，使用训练集训练好的样本模型，预测样本为肝癌的概率。

6.6判断样本是否为肝癌：样本为肝癌样本的概率>0.255时，判断样本为肝癌样本；样本为肝癌样本的概率≤0.255时，判断样本为阴性样本。

7、模型性能

7.1训练集性能

113例肝癌样本，322例肝高危样本中，灵敏度为74.3％，特异性为98.1％。肝癌样本中，BCLC分期为0期(8例)、A期(60例)、B期(9例)及C期(23例)样本集中灵敏度分别为50％、68.3％、88.9％及82.6％，以及13例为早期但具体分期不明的样本，灵敏度为92.3％，见图3。

7.2验证集性能

51例肝癌样本，138例肝高危样本中，灵敏度为74.5％，特异性为98.6％。肝癌样本中，BCLC分期为0期(2例)、A期(25例)、B期(6例)及C期(13例)样本集中灵敏度分别为100％、68.0％、83.3％及84.6％，以及5例为早期但具体分期不明的样本，灵敏度为60％，见图3。

7.3独立测试集

独立测试集包括4例早期肝癌样本，530例健康样本。该样本集中，灵敏度为100％，特异性为96.4％。

可见，在以肝癌高危样本为对照样本的集中，训练集中，灵敏度为74.3％，特异性为98.1％；验证集中，灵敏度为74.5％，特异性为98.6％。在肝癌和健康样人群构成的独立测试样本集中，有更优的性能，灵敏度为100％，特异性为96.4％。该方法的性能在训练集、验证集及独立测试集中均优于传统超声加AFP的方法。

在一实施例中，该方法基于液体活检，通过对cfDNA的靶向捕获测序，检测肿瘤相关体细胞突变。

在一实施例中，使用肝癌高危样本作为对照进行模型构建。

在一实施例中，使用2层模型，构建SNV突变模型预测突变来源于肝癌的概率，接下来基于SNV突变模型预测结果及INDEL突变特征，构建样本模型预测样本为肝癌的概率。

在一实施例中，单独基于检测cfDNA体细胞突变的基础上，通过2层的模型构建，直接预测样本为肝癌的概率。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

参考文献：

1.Omata M,Cheng AL,Kokudo N,et al.Asia–Pacific clinical practiceguidelines on the management of hepatocellular carcinoma:a 2017update[J].Hepatology International,2017,11(4):317-370.

2.Qu C,Wang Y,Wang P,et al.Detection of early-stage hepatocellularcarcinoma in asymptomatic HBsAg-seropositive individuals by liquid biopsy[J].Proceedings of the National Academy of Sciences,2019,116(13):201819799.

3.Bai J,Chen L.Genome-scale profiling of circulating cell-free DNAsignatures for early detection of hepatocellular carcinoma in cirrhoticpatients[J].Cell Research,2021.

4.Limongelli I,Marini S,Bellazzi R.PaPI:pseudo amino acid compositionto score human protein-coding variants[J].BMC Bioinformatics,16,1(2015-04-19),2015,16(1):1-14.

5.Mckenna A,Hanna M,Banks E,et al.The Genome Analysis Toolkit:AMapReduce framework for analyzing next-generation DNA sequencing data[J].Genome Research,2010,20(9):1297-1303.

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种检测突变的装置，其特征在于，包括：

预测模块，用于根据所述突变特征，预测待测样本为来自肿瘤患者的样本的概率，和/或，预测待测样本是否为来自肿瘤患者的样本；

突变特征提取模块中，所述突变包括SNV突变以及INDEL突变；

所述INDEL突变特征包括如下特征：(1)INDEL突变的数量；以及(2)待测样本中检出INDEL突变的最大突变频率；

突变特征提取模块中，所述SNV突变特征包括如下特征：

第一健康人基线数据库特征、第二健康人基线数据库特征、突变碱基质量特征、支持突变序列的比对质量特征、支持突变序列的UID簇特征、第一突变碱基位置特征、第二突变碱基位置特征、第一短DNA片段评分特征、第二短DNA片段评分特征、第一支持突变的序列特征、第二支持突变的序列特征、第三支持突变的序列特征、突变频率特征、第一支持突变序列的链偏特征、第二支持突变序列的链偏特征、突变DNA的链偏特征以及突变在捕获芯片上的位置特征。

2.如权利要求1所述的装置，其特征在于，突变特征提取模块中，所述SNV突变特征的说明如下：

突变特征说明以健康人基线数据库中的突变频率为基线提取的突变特征突变的检出频率是否高于健康人基线中对应位点的检出频率以健康人基线数据库中的热点突变频率为基线提取的热点突变特征热点突变的检出频率是否高于健康人基线中对应热点位点的检出频率突变碱基质量特征突变碱基的平均碱基质量支持突变序列的比对质量特征支持突变的序列的平均比对质量支持突变序列的UID簇特征支持突变的序列的平均UID簇大小第一突变碱基位置特征突变碱基在序列上的经长度矫正后的平均位置第二突变碱基位置特征突变碱基与序列末端距离的中位值第一短DNA片段评分特征经<160bp和230~310bp片段选择前后突变DNA的数量差异第二短DNA片段评分特征 30~400bp的DNA片段长度范围内支持突变的DNA片段长度与野生型DNA的片段长度分布差异第一支持突变的序列特征支持突变的UID簇>1的序列数量第二支持突变的序列特征支持突变的双向纠错序列数量第三支持突变的序列特征支持突变的高质量双向纠错序列数量突变频率特征突变频率与对照样本背景比较的p值第一支持突变序列的链偏特征支持突变序列与野生型序列链向SOR值第二支持突变序列的链偏特征支持突变正链与负链序列的差值与总支持突变序列数比值突变DNA的链偏特征突变DNA与野生型DNA链向SOR值突变在捕获芯片上的位置特征突变在捕获芯片上的位置

。

3.如权利要求2所述的装置，其特征在于，突变特征提取模块中，各SNV突变特征的说明及值范围如下：

突变特征说明值范围以健康人基线数据库中的突变频率为基线提取的突变特征提取的突变的检出频率是否高于健康人基线中对应位点的检出频率 {0，1} 以健康人基线数据库中的热点突变频率为基线提取的热点突变特征提取的热点突变的检出频率是否高于健康人基线中对应热点位点的检出频率 {0，1} 突变碱基质量特征突变碱基的平均碱基质量 >0 支持突变序列的比对质量特征支持突变的序列的平均比对质量 >0 支持突变序列的UID簇特征支持突变的序列的平均UID簇大小 >0 第一突变碱基位置特征突变碱基在序列上的经长度矫正后的平均位置 (0，1] 第二突变碱基位置特征突变碱基与序列末端距离的中位值 0至序列长度区间内的整数值第一短DNA片段评分特征经<160bp和230~310bp片段选择前后突变DNA的数量差异 [-∞，+∞] 第二短DNA片段评分特征 30~400bp的DNA片段长度范围内支持突变的DNA片段长度与野生型DNA的片段长度分布差异 [-∞，+∞] 第一支持突变的序列特征支持突变的UID簇>1的序列数量正整数第二支持突变的序列特征支持突变的双向纠错序列数量正整数第三支持突变的序列特征支持突变的高质量双向纠错序列数量正整数突变频率特征突变频率与对照样本背景比较的p值 [0，1] 第一支持突变序列的链偏特征支持突变序列与野生型序列链向SOR值 >0 第二支持突变序列的链偏特征支持突变正链与负链序列的差值与总支持突变序列数比值 [-1，1] 突变DNA的链偏特征突变DNA与野生型DNA链向SOR值 >0 突变在捕获芯片上的位置特征芯片在捕获芯片上的位置 [-50，50]区间内的整数

。

4.如权利要求2所述的装置，其特征在于，如果突变的检出频率高于健康人基线中对应位点的检出频率，则突变特征的取值为1；如果突变的检出频率低于健康人基线中对应位点的检出频率，则突变特征的取值为0。

5.如权利要求2所述的装置，其特征在于，如果热点突变的检出频率高于或等于健康人基线中对应位点的检出频率，则热点突变特征的取值为1；如果热点突变的检出频率低于健康人基线中对应位点的检出频率，则热点突变特征的取值为0。

6.如权利要求2所述的装置，其特征在于，健康人基线中对应位点的检出频率为Q3+1.5*(Q3-Q1)，Q3是上四分位，Q1是下四分位。

7.如权利要求2所述的装置，其特征在于，健康人基线中对应热点位点的检出频率为Q3+1.5*(Q3-Q1)，Q3是上四分位，Q1是下四分位。

8.如权利要求2所述的装置，其特征在于，支持突变的高质量双向纠错序列同时满足：(1)单条序列的N碱基数≤5；(2) 双端测序配对序列中的总N碱基数≤8，单条序列的错配碱基数≤5，双端测序配对序列中的总错配碱基数<8，插入片段长度≤500 bp，不含INDEL。

9.如权利要求2所述的装置，其特征在于，所述对照样本包括白细胞样本。

10.如权利要求2所述的装置，其特征在于，所述对照样本与所述待测样本来自于同一生物体。

11.如权利要求2所述的装置，其特征在于，突变特征提取模块中，包括对SNV突变按等级进行分类。

12.如权利要求2所述的装置，其特征在于，突变特征提取模块中，突变等级及分类规则如下：

突变等级分类规则 1 TERT_c.-124C>T、TERT_c.-146C>T、TP53_p.R249S 2 突变在肝癌样本中的检出率≥1% ，且肝癌样本数目＞100例 3 突变在各肝癌样本中的检出率∈0.5~1% ，且肝癌样本数目＞500例 4 各数据库中至少有 2 个数据库有记载的突变 5 不属于1、2、3和4等级且不位于AR基因重复区域的突变 6 不属于1、2、3和4等级且位于AR基因重复区域的突变

。

13.如权利要求12所述的装置，其特征在于，突变等级4中，所述各数据库包括Gene+数据库、MSK数据库、COSMIC数据库、TCGA数据库、文献数据中的至少2个数据库。

14.如权利要求1所述的装置，其特征在于，预测模块中，包括对待测样本所有突变SNV模型预测结果从高到低进行排序，取前5个突变的SNV模型预测结果作为SNV突变特征。

15.如权利要求14所述的装置，其特征在于，预测模块中，根据所述5个突变的SNV特征以及2个INDEL突变特征，预测待测样本为来自肿瘤患者的样本的概率。

16.如权利要求1所述的装置，其特征在于，预测模块中，根据所述待测样本为来自肿瘤患者的样本的概率，预测待测样本是否为来自肿瘤患者的样本。

17.如权利要求1所述的装置，其特征在于，预测模块中，如果所述待测样本为来自肿瘤患者的样本的概率＞阈值，则预测待测样本为来自肿瘤患者的样本；如果所述待测样本为来自肿瘤患者的样本的概率≤阈值，则预测待测样本不是来自肿瘤患者的样本，即为来自健康人的样本。

18.如权利要求17所述的装置，其特征在于，所述阈值为0.255。

19.如权利要求1所述的装置，其特征在于，所述肿瘤包括肝癌。

20.如权利要求1所述的装置，其特征在于，所述待测样本包括体液样本。

21.如权利要求20所述的装置，其特征在于，所述体液样本包括血液样本。

22.如权利要求20所述的装置，其特征在于，所述体液样本包括血浆样本。

23.如权利要求1所述的装置，其特征在于，所述待测样本包括基因组DNA样本。

24.如权利要求1所述的装置，其特征在于，所述测序数据包括靶向捕获测序数据。

25.如权利要求1所述的装置，其特征在于，所述测序数据包括二代测序数据。

26.如权利要求1所述的装置，其特征在于，所述测序数据包括比对到参考基因组的测序数据。

27.如权利要求26所述的装置，其特征在于，所述参考基因组包括人类参考基因组。

28.如权利要求27所述的装置，其特征在于，所述人类参考基因组包括hs37d5基因组、b37基因组、hg19基因组、hg18基因组、hg17基因组、hg16基因组或hg38基因组的至少一部分。

29.如权利要求1所述的装置，其特征在于，突变特征提取模块中，所述测序数据为依次对测序数据进行INDEL重比对和碱基质量矫正、原始突变检测、突变注释和过滤后的测序数据。

30.如权利要求29所述的装置，其特征在于，突变特征提取模块中，所述原始突变包括体细胞突变、造血克隆突变或胚系突变。

31.一种检测突变的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如下方法：

预测步骤，包括根据所述突变特征，预测待测样本为来自肿瘤患者的样本的概率，和/或，预测待测样本是否为来自肿瘤患者的样本；

突变特征提取步骤中，所述突变包括SNV突变以及INDEL突变；

突变特征提取步骤中，所述SNV突变特征包括如下特征：

32.一种计算机可读存储介质，所述介质上存储有程序，所述程序能够被处理器执行以实现如下方法：

突变特征提取步骤中，所述突变包括SNV突变以及INDEL突变；

突变特征提取步骤中，所述SNV突变特征包括如下特征：