CN109182526A

CN109182526A - 用于早期肝癌辅助诊断的试剂盒及其检测方法

Info

Publication number: CN109182526A
Application number: CN201811177972.2A
Authority: CN
Inventors: 杨楚虎; 张琼
Original assignee: Hangzhou Aoyue Biotechnology Co Ltd
Current assignee: Hangzhou Aoyue Biotechnology Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-01-11
Also published as: CN110760580A; CN110760579B; CN110791564B; CN110791564A; CN110760579A; CN110760580B

Abstract

本发明公开了一种用于早期肝癌辅助诊断的试剂盒及其检测方法，试剂盒，包括如下试剂：ccfDNA末端处理体系，环状接头反应体系，0.06‑0.15U/ul USER酶，PCR扩增体系，磁珠；检测方法通过建立测序文库进行ccfDNA的全基因组测序；再经过全基因组数据处理、建立统计和建立机器学习模型来检测病人ccfDNA的拷贝数的异常从而达到肝癌的早期诊断；这样的检测方法最大限度的提高液体活检对早期肝癌诊断的准确性，特别是对肝癌一期的检测。

Description

用于早期肝癌辅助诊断的试剂盒及其检测方法

技术领域

本发明涉及肝癌诊断辅助领域，特别是一种用于早期肝癌辅助诊断的试剂盒及其检测方法。

背景技术

肝癌是恶性度非常高的肿瘤，一旦转移基本没有有效的治疗方案，存活率很低。肝癌如果诊断在早期，还可以接受手术或者肝移植的时候，五年存活率可以达到70％。如果已经转移的话，五年存活率只有5％左右。所以早期诊断对病人的生存至关重要。

常规的肝癌的诊断主要是通过甲胎蛋白(AFP)进行筛查，对于高风险人群再通过超声，核磁等影像学手段进一步检查，发现可疑病灶时确诊的手段是肝穿刺活检。但是，超声的灵敏度有限，而且不能确诊。常规的肝穿刺活检有很大的侵入性，而且有引起肿瘤扩散的风险。由于肿瘤有普遍的肿瘤内的异质性，很多时候肝穿刺活检并不能显示肿瘤的全貌。

对应于影像学检查和肝穿刺活检，市场更需要一种使用液体活检来完成肝癌的早期诊断的非侵入性手段。液体活检主要依赖灵敏的技术来检测血液里的游离的DNA(ccfDNAs)里面的肿瘤特有的DNA(循环肿瘤DNA,circulating tumor DNA，ctDNA)；如图3所示，由于释放到血液里的肿瘤DNA的量跟肿瘤的大小和肿瘤的临床分期密切相关，而早期的肿瘤释放到血液里的DNA很少，用液体活检来诊断早期肿瘤有很大的挑战。市场需要针对早期肝癌诊断的试验手段，计算方法和机器学习模型，来最大限度的提高液体活检对早期肝癌诊断的准确性；本发明解决这样的问题。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种用于早期肝癌辅助诊断的试剂盒及其检测方法，本发明通过建立测序文库进行ccfDNA的全基因组测序；再经过全基因组数据处理、通过机器学习来建立统计模型来检测病人ccfDNA的拷贝数的异常从而达到肝癌的早期诊断，这样的检测方法最大限度的提高液体活检对早期肝癌诊断的准确性，特别是对一期肝癌的检测。

为了实现上述目标，本发明采用如下的技术方案：

用于早期肝癌辅助诊断的试剂盒，包括如下试剂：ccfDNA末端处理体系，环状接头反应体系，0.06-0.15U/ul USER酶，PCR扩增体系，磁珠。

前述的用于早期肝癌辅助诊断的试剂盒，ccfDNA末端处理体系组成有：ccfDNA，0.003-0.007U/ul的T4DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP，2.5％的粘合剂。

前述的用于早期肝癌辅助诊断的试剂盒，环状接头反应体系组成有：0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的环状接头，所述环状接头序列：5’-P-GATCGG AAG AGC ACA CGT CTG AAC TCC AGT C dU A CAC TCT TTC CCT ACA CGA CGC TCTTCC GAT CT-3’。

前述的用于早期肝癌辅助诊断的试剂盒，PCR扩增体系按照体积份数组成有：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；

所述Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。

所述引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；

所述引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。

前述的用于早期肝癌辅助诊断的试剂盒，

所述引物1的序列为：5’CAA GCA GAA GAC GGC ATA CGA GAT NNNNNN GAC TGGAGT TCA GAC GTG TGC TCT TCC GAT CT-3’，其中NNNNNN是核苷酸的标签；

所述引物2的序列为：5’AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCCCTA CAC GAC GCT CTT CCG ATC T-3’。

用于早期肝癌辅助诊断的试剂盒的检测方法，包括如下内容：

十一，从血浆中分离得到ccfDNA；

十二，用ccfDNA末端处理体系对ccfDNA 进行末端修复，对5’末端磷酸化，加上polyA尾端，得到DNA片段；

十三，用环状接头反应体系对得到的DNA片段两端加上环状接头，将环状接头中间用USER酶切开，产生两个互补的单链；

十四，用PCR扩增体系对DNA片段进行PCR扩增；

十五，采用测序仪对扩增后的产物进行高通量测序；

十六，把基因组分成1Mbp的不重合的区域，在每个区域里，用测序深度的加和代表这个区域的拷贝数的量化；

十七，用统计算法计算全基因组的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌；

十八，挖掘TCGA公共数据库里的肝癌多组学数据，建立贝叶斯非参统计模型量化每个基因是驱动基因的潜力；

十九，建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；

二十，根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型。

一，从血浆中分离得到ccfDNA；

二，用ccfDNA末端处理体系对ccfDNA进行末端修复，对5’末端磷酸化，加上polyA尾端，得到DNA片段；

三，用环状接头反应体系对得到的DNA片段两端加上环状接头，将环状接头中间用USER酶切开，产生两个互补的单链；

四，用PCR扩增体系对DNA片段进行PCR扩增；

五，采用测序仪对扩增后的产物进行高通量测序；

六，用和平滑模型对GC含量和基因组mappability文件进行校正；

校正GC含量、基因组mappability文件的模型的公式为：x_i是GC含量，是核平滑后的对应于x_i的reads数，常数其中是所有GC含量里的reads平均数。

七，把基因组分成1Mbp的不重合的区域，在每个区域里把校正后的测序深度加和来代表这个区域的拷贝数的量化；

八，用统计算法计算每个片段的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌；

九，挖掘TCGA公共数据库里的肝癌多组学数据，建立贝叶斯非参统计模型量化每个基因是驱动基因的潜力；

十，建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；

十一，根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型。

前述的用于早期肝癌辅助诊断的试剂盒的检测方法，用统计算法计算全基因组的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌；具体步骤如下：

先校正比对在每个1000bp区域的测序深度，然后用隐马尔科夫模型平滑相邻区域的校正后的测序深度，这样整个基因组分成连续的大片段，每个大片段有个相对的拷贝数的变化，把这些有拷贝数变化的大片段的长度乘以他们各自的相对的拷贝数，然后把这些数值加和，作为这个基因组的拷贝数的负荷；用大样本的乙肝来建立拷贝数的分布，如果低于这个分布的99％的分位数记为零，负荷为零的判断为乙肝，高于零的数值代表具有肝癌的可能性，数越高肝癌的可能性越大。

前述的用于早期肝癌辅助诊断的试剂盒的检测方法，建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；具体的步骤如下：

生成随机森林的输入数据矩阵，列代表每个区域是校正过的测序深度，行是每个样本；

建立常规随机森林里的一个二叉树，所述二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，所述特征变量将肿瘤和乙肝病人分开。用来分割肿瘤和非肿瘤样本的特征变量称为分割变量；

建立有权重的二叉树，分割变量的确定是两个因素决定的，一个是特征变量的数据本身对乙肝和肝癌的分割的准确度，另一个是特征变量对应的1Mbp区域里含有驱动基因的潜能；若这两个因素的加和结果最大，则该特征变量被选为二叉树的分割变量；判断基因是驱动基因的权重来自于TCGA多组学的整合，驱动基因的潜能作为权重来影响二叉树的建立；

驱动基因作为权重的具体体现为：

计算根据权重校正后的Gini指标，即Gini__校正(D,A)＝Gini(D,A)*penalty(A)，其中D是训练集里肝癌和非肝癌样本的标记数据，A是一个候选分割变量；

其中p₁,p₂是乙肝和肝癌的比例，满足

其中D是训练集里所有的样本，D₁和D₂是用A作为变量变量将D分割到两个亚组，D1是A变量小于某个阈值的样本，D2是A变量大于此阈值的样本。|D₁|,|D₂|和|D|是对应样本数。

penalty(A)是对候选分割变量的惩罚，驱动基因权重越大惩罚越小，校正后的Gini(D,A)越小，候选分割变量被选上的可能性越大。

前述的用于早期肝癌辅助诊断的试剂盒的检测方法，根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型；

最终得到的模型为B是随机森林中权重二叉数的个数，f(x)是第b个权重二叉数对一个样本输入矩阵x的预测结果；

的范围在0到1之间，其大小代表具有肝癌的可能性；若大于预先设定的阈值，则判断为肝癌。

本发明的有益之处在于：

本发明开发了一套完整的血液活检试剂盒及其检测方法，通过建立测序文库进行ccfDNA的全基因组测序；再经过全基因组数据处理、通过机器学习来建立统计模型来检测病人ccfDNA的拷贝数的异常从而达到肝癌的早期诊断；从而最大限度的提高液体活检对早期肝癌诊断的准确性，特别是对一期肝癌的检测，这样的检测方法只需要通过抽血的方式即可有方便的达到诊断的目的，这种安全，准确，便捷的诊断手段可以大大增加让肝癌诊断在早期的可能性；

GC含量和mappability都先进行校正，这样的设计可以有效的消除GC含量及mappability对比对到基因组的测序深度的影响；如果不消除这些影响的话那么GC含量和mappability会成为真正的拷贝数对应的测序深度的混杂因素，增加假阳性和假阴性；使得模型具有自适应性的优点，对这些混杂因素的去除是数据驱动，可以自动处理不同形式的混杂因素；提高检测的准确性；

用交叉验证的方法验证用检测方法得到的机器学习模型，二到四期肝癌上模型达到0.934的AUC,而在一期肝癌病人也可以达到0.842的AUC，具有优秀的准确性；

通过展示在独立验证集里基于拷贝数的液体活检跟常规AFP的互补性，可以看出拷贝数可以有效的诊断一期肝癌。

附图说明

图1是本发明的检测方法的一种实施例的流程图；

图2是使用安捷伦TapeStation分析，使用本方法建库前的ccfDNA和建库后的文库的分布对比图；

图3是三个有代表性的病人的的全基因组的拷贝数轮廓图；

图4是本发明的权重随机森林的算法示意图；

图5是本发明的权重随机森林的算法在训练集上交叉验证的ROC曲线和对应的AUC(曲线下面积)；

图6是本发明训练集上训练出来的模型在两个独立验证集上的交叉验证的ROC曲线和对应的AUC(曲线下面积)；

图7是本发明在独立验证集里基于拷贝数的液体活检跟常规Alpha-Fetoprotein(AFP)的互补性示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

用于早期肝癌辅助诊断的试剂盒，包括如下试剂：ccfDNA末端处理体系，环状接头反应体系，0.06-0.15U/ul USER酶，PCR扩增体系，磁珠。ccfDNA：循环游离DNA(circulatingcell-free DNA)。

ccfDNA末端处理体系组成有：ccfDNA，0.003-0.007U/ul的T4DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP，2.5％的粘合剂。

环状接头反应体系组成有：0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的环状接头，所述环状接头序列：5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGTC dU A CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’。

PCR扩增体系按照体积份数组成有：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。

使用方法包括如下过程：

第一部分：

1.取8-10毫升全血到Streck取血管。

2.离心分离血浆和白细胞。

3.使用磁珠法从血浆中分离ccfDNA。

全基因组测序文库构建的具体步骤：

第二部分：

1.ccfDNA进行末端处理，包括末端修复，5’末端磷酸化，加上polyA尾端；

ccfDNA末端处理反应体系组成有：ccfDNA，0.003-0.007U/ul的T4DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP,2.5％的粘合剂。

作为一种优选实施例，总反应体系一共30ul，包括20ul的ccfDNA 和10ul的酶和缓冲液。酶和缓冲液组成成分如下：0.005U/ul的T4DNA聚合酶，0.2U/ul的T4多聚核苷酸激酶，0.0025U/ul的Taq DNA聚合酶，1x T4连接酶缓冲液，0.4mM dNTP,0.2mM ATP，2.5％的PEG4000(粘合剂)。37度15分钟，72度30分钟，4度保存。

2.片段两端加上环状接头(loop-Adaptor)将环状接头中间用USER酶切开，产生两个互补的单链。用磁珠法进行长度选择，去掉长度不符合要求的片段；

环状接头反应体系组成有：0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的环状接头；环状接头序列：5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGT CdUA CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’。

作为一种优选，总反应体系一共45ul,包括30ul的刚完成的末端处理反应液和10ul的连接反应液。最终反应体系中包括最终浓度0.2U/ul的T4连接酶，1xT4连接酶缓冲液，和1.0uM的环状接头。20度2小时。在反应液中加入最终浓度为0.1U/ul的USER酶。37度30分钟，4度保存。

4.PCR扩增；

PCR扩增体系按照体积份数组成有：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；

Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。

引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；

引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。

作为一种优选，总反应体系一共50ul，包括20ul的长度符合要求的DNA片段，5ul的引物1和引物2，以及25ul的PCR反应master mix。Master mix里面包括2x高保真PCR多聚酶和2x的PCR反应缓冲液。

引物1序列：5’CAA GCA GAA GAC GGC ATA CGA GAT NNNNNN GAC TGG AGT TCAGAC GTG TGC TCT TCC GAT CT-3’，其中NNNNNN可以是自己设计的6个核苷酸的标签；

引物2序列：5’AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCC CTA CACGAC GCT CTT CCG ATC T-3’；

5.扩增后的产物的两端是Illumina测序仪需要的P7和P5引物用磁珠法进行清洗，文库构建完毕，使用Illumina的HiSeq 2500,3000,4000,X10,或者Novaseq进行高通量测序。

如图2所示，使用安捷伦TapeStation分析，建库之前的ccfDNA的分布，和用我们的方法建库之后的库的分布。建库之前ccfDNA的长度峰值在大约170bp左右，建库过程连接上环状接头，USER酶切开，然后再在两端加上扩增引物，最终的测序文库长度在大约310bp左右，说明我们建库方法成功。

第三部分：

数据分析的算法；

1.原始测序数据的比对到人的基因组上；

2.自主开发的算法来对比对的基因组的序列做校正来消除基因组的序列特性(GC含量，mappability等等)对比对的影响。因为拷贝数是用比对到基因组的测序深度来测度的，而比对到某个特点位点的reads的数目是受到基因组特性和试验条件的影响，开发的算法的目的是消除这些因素的影响，这样的话基因组不同的区域有可比性，不同试验条件(温度，扩增的循环数，起始DNA的含量，等等)也有可比性。

校正GC含量、mappability的原理为：GC含量对测序的影响大体是钟形的，GC含量在居中的区域往往有更多的reads，而高于或低于这个值的区域呈递减的趋势。我们先算出基因组上每100碱基对的GC含量算出来，然后把对于每个GC含量(0-100％)对应的reads数提取出来，这样我们得到101个数，每个数代表在每个GC含量的实际测到的reads。用X代表0-100的GC含量，Y(X)代表对应的reads数。校正的目标是让不同的GC含量都有相同的reads数，这样就消除了GC含量的影响。我们先用核平滑的方法来降低Y(X)的浮动，然后再校正。我们用的是高斯核，其中x*是我们当前关心的GC含量，x_i是其他的GC含量，b控制周围GC对当前GC这个含量的影响。在本试剂盒中我们用b＝10。核平滑后结果是其中我们把高于95％和低于5％的GC含量的区域去除，因为这些区域很少，去掉后增加稳定性。对每个GC含量校正后reads数是核平滑后的结果乘以一个对应于GC含量x*的常数，即常数其中是所有GC含量里的reads平均数。

这个模型的优点是可以有效的消除GC含量及mappability对比对到基因组的测序深度的影响。如果不消除这些影响的话那么GC含量和mappability会成为真正的拷贝数对应的测序深度的混杂因素，增加假阳性和假阴性。我们模型具有自适应性的优点，对这些混杂因素的去除是数据驱动，可以自动处理不同形式的混杂因素。

3.把基因组分成1Mbp的不重合的区域，在每个区域里把校正后的测序深度加和来代表这个区域的拷贝数的量化。

诊断统计模型

4.自主开发了针对肝癌早期诊断的统计和机器学习模型，用肝癌病人和匹配的乙肝病人的样本来训练机器学习的模型，并使用不同来源的肝癌和乙肝病人的样本来做独立的验证，达到准确的稳定的早期肝癌诊断的性能。模型的建立分成如下几个这样成分。

4.1自主开发的统计算法计算每个片段的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌。具体步骤如下。

先校正比对后在每个1000bp区域的测序深度(具体看第三部分的第2点)，然后用隐马尔科夫模型来平滑相邻的区域的校正后的测序深度，这样整个基因组分成连续的片段，每个大片段有个相对的拷贝数的变化。把这些有拷贝数变化的大片段的长度乘以这些大片段各自的相对的拷贝数，然后把这些数值加和，作为这个基因组的拷贝数的负荷。用大样本的乙肝来建立拷贝数的分布，如果低于这个分布的99％的分位数记为零。负荷为零的判断为乙肝，高于这个数的数值代表为肝癌的可能性，数越高是肝癌的可能性越大。

4.2深度挖掘公共数据库(The Cancer Genome Atlas,TCGA)里的肝癌多组学数据(拷贝数，突变，甲基化，蛋白表达，基因表达，等等)，建立贝叶斯非参统计模型来量化每个基因是驱动基因的潜力。TCGA多组学数据对驱动基因的量化作为权重，让驱动基因起到更大的作用，来捕获早期肿瘤里的微弱的但是稳定的重要的信号。TCGA是国际合作的最大的肿瘤的基因组学变异的项目，涵盖几十种肿瘤，包括肝癌。肝癌有上千列病人，每个病人的肿瘤组织分别测了全外显子序列(目的是检测突变)，甲基化的数据(Illumina 450K的芯片，主要测CpG岛的甲基化)，基因表达普(Affymatrix的芯片)，拷贝数的变异(Illumina的芯片)，蛋白表达(芯片)。

4.3开发了有权重的随机森林的机器学习模型来更好的捕获早期肝癌的微弱但是稳定的重要信号来达到针对肝癌的诊断精确度。具体的步骤和原理如下(见图4)。

图4A)是生成随机森林的输入数据矩阵。列代表每个区域是校正过的测序深度，行是每个样本。

图4B)是常规随机森林里的一个二叉树的建立。这个二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，这个特征变量可以最好的把肿瘤和乙肝病人分开。

图4C)是有权重的二叉树的建立。

建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；

具体的步骤如下：

生成随机森林的输入数据矩阵，列是特征变量，代表每个区域是校正过的测序深度，行是每个样本；

建立有权重的二叉树，分割变量的确定是两个因素决定的，一个是特征变量的数据本身对乙肝和肝癌的分割的准确度，另一个是另一个是特征变量对应的1Mbp区域里含有驱动基因的潜能；若这两个因素的加和结果最大，则该特征变量被选为二叉树的分割变量；判断基因是驱动基因的权重来自于TCGA多组学的整合，驱动基因的潜能作为权重来影响二叉树的建立。

驱动基因作为权重的具体体现为：

计算根据权重校正后的Gini指标，即Gini__校正(D,A)＝Gini(D,A)*penalty(A)，其中D是训练集里肝癌和非肝癌的标记数据，A是一个候选分割变量。

Gini(D,A)是根据肝癌和非肝癌的标记数据来衡量候选分割变量A对区分肝癌和非肝癌的效果，数值越小表明区分的准确度越高。

对于D来说，其中p₁,p₂是乙肝和肝癌的比例，满足

penalty(A)是对候选分割变量的惩罚，其值大小与驱动基因具有权重关系，驱动基因权重越大惩罚越小，校正后的Gini(D,A)也越小，这个候选分割变量被选上的可能性也越大，体现了驱动基因的作用。

4.4针对早期肝癌来设计的训练集来有针对性的提高对早期肝癌的诊断准确性。

根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型。每个1M区域的权重是这个区域里所以基因权重的总和。我们自主开发实现了权重随机森林的算法，核心是加入了有权重的二叉树的算法，有针对性的提高早期肝癌的预测准确度。在建立随机森林模型对过程中，我们目标是建立B＝1000个随机有权重的二叉树，每个b＝1,…B二叉树到建立是根据随机抽取到80％的训练样本和80％的特征变量。当一个样本特征值是x的新样本，随机森林中每个权重二叉树对新样本进行预测，用f(x)来表示第b个权重二叉树对本样本的预测结果，f(x)＝0或1来表示是预测成乙肝或肝癌。

最终得到的模型为B是随机森林中权重二叉数的个数，f_b(x)是第b个权重二叉数对一个样本特征值x的预测结果；

的范围在0到1之间，代表具有肝癌的可能性；若大于预先设定的阈值，则判断为肝癌。需要说明的是：阈值是根据诊断的要求设定的值，从而达到灵敏度和特异性。

验证准确性实验；

我们用一个发现队列来建立模型以及验证其准确性，用另外两个独立的验证队列来进一步量化本发明的准确性。发现队列共有209个样本，两个独立验证队列分别有78和105个样本。具体样本的特征及肝癌分期见表1。

表1:病人样本的特征描述

在发现队列数据集上我们用随机取的三分之二的数据来训练，另外三分之一的数据来做交叉验证，将具体数据绘制成曲线，如图5所示，得到了0.894的AUC(ROC曲线下面积)。我们特意的分开看了一期和二到四期的肝癌病人，在二到四期肝癌上模型达到0.934的AUC,而在一期肝癌病人也可以达到0.842的AUC。

我们还在完全独立的两个样本集上(见表1)来验证这个模型的准确性。将具体数据绘制成曲线，如图6所示，在第一个独立验证集上模型达到0.898的AUC,在第二个独立验证集上达到0.788的AUC。如表1所示，独立验证集来自于不同的人群和医院，主要是早期肝癌的病人。需要说明的是我们第二个独立验证集绝大部分是一期肝癌病人，因为我们的侧重点是针对一期的肝癌。即使是很早的肝癌我们的试剂盒也有相当不错的准确性。

如图7所示，展示在独立验证集里基于拷贝数的液体活检跟常规AFP的互补性，临床上根据AFP的指标来定义阳性和阴性，AFP<25ng/ml为阴性(左图)，AFP≥25ng/ml为阳性(右图)。三个柱形图分别表示：HBV的人数，一期肝癌，二期到四期的肝癌病人。有阴影的部分是用拷贝数的模型预测的结果可以帮助纠正的部分。可以看出拷贝数可以有效的诊断一期肝癌。

本检测方法包括三大部分。

第一部分是从病人的血液里提取游离在血浆里的DNA(circulating cell-freeDNA,ccfDNA)。

第二部分是建立测序文库进行ccfDNA的全基因组测序。

第三部分是全基因组数据处理和建立统计和机器学习模型来检测病人ccfDNA的拷贝数的异常从而达到肝癌的早期诊断。

这三个部分结合作为整体可以有效的提高液体活检对肝癌早期诊断的准确性。全基因组的设计方案是考虑到肿瘤来源的DNA(ctDNA)的拷贝数的普遍性，用全基因组可以最大限度的覆盖ctDNA拷贝数的变化。建立肝癌独特的统计和机器学习模型是为了有针对性的提高肝癌的诊断准确性，因为不同肿瘤之间有非常大的差异性。由于我们的重点是早期肝癌，而我们发现早期肝癌的样本里富集了肝癌特有的驱动基因，我们的模型设计是针对肝癌而定制的，目的是捕获早期肝癌里面的微弱的但是稳定的重要信号来尽可能的提供诊断准确性。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.用于早期肝癌辅助诊断的试剂盒，其特征在于，包括如下试剂：ccfDNA末端处理体系，环状接头反应体系，0.06-0.15U/ul USER酶，PCR扩增体系，磁珠。

2.根据权利要求1所述的用于早期肝癌辅助诊断的试剂盒，其特征在于，所述ccfDNA末端处理体系组成有：ccfDNA，0.003-0.007U/ul的T4 DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4 DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP，2.5％的粘合剂。

3.根据权利要求1所述的用于早期肝癌辅助诊断的试剂盒，其特征在于，环状接头反应体系组成有：0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的环状接头，所述环状接头的序列为：5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGT C dU A CAC TCTTTC CCT ACA CGA CGC TCT TCC GAT CT-3’。

4.根据权利要求1所述的用于早期肝癌辅助诊断的试剂盒，其特征在于，所述PCR扩增体系按照体积份数组成有：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；

所述引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物；

所述PCR反应master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。

5.根据权利要求4所述的用于早期肝癌辅助诊断的试剂盒，其特征在于，

所述引物1的序列为：5’CAA GCA GAA GAC GGC ATA CGA GAT NNNNNN GAC TGG AGTTCA GAC GTG TGC TCT TCC GAT CT-3’，其中NNNNNN是核苷酸的标签；

所述引物2的序列为：5’AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCC CTACAC GAC GCT CTT CCG ATC T-3’。

6.用于早期肝癌辅助诊断的试剂盒的检测方法，其特征在于，包括如下内容：

一，从血浆中分离得到ccfDNA；

四，用PCR扩增体系对DNA片段进行PCR扩增；

五，采用测序仪对扩增后的产物进行高通量测序；

六，把基因组分成1Mbp的不重合的区域，在每个区域里，用测序深度的加和代表这个区域的拷贝数的量化；

七，用统计算法计算每个片段的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌；

八，挖掘TCGA公共数据库里的肝癌多组学数据，建立贝叶斯非参统计模型量化每个基因是驱动基因的潜力；

九，建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；

十，根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型。

7.用于早期肝癌辅助诊断的试剂盒的检测方法，其特征在于，包括如下内容：

一，从血浆中分离得到ccfDNA；

四，用PCR扩增体系对DNA片段进行PCR扩增；

五，采用测序仪对扩增后的产物进行高通量测序；

六，用核平滑模型对GC含量和基因组mappability进行校正；

校正GC含量、基因组mappability模型的公式为：x_i是GC含量，是核平滑后的对应于x_i的reads数，常数其中是所有GC含量里的reads平均数；

八，用统计算法计算全基因组的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌；

8.根据权利要求6或7所述的用于早期肝癌辅助诊断的试剂盒的检测方法，其特征在于，用统计算法计算每个片段的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌；具体步骤如下：

先校正比对在每个1000bp区域的测序深度，然后用隐马尔科夫模型平滑相邻区域的校正后的测序深度，这样整个基因组分成连续的大片段，每个大片段有个相对的拷贝数的变化，把这些有拷贝数变化的大片段的长度乘以这些大片段各自的相对的拷贝数，然后把这些数值加和，作为这个基因组的拷贝数的负荷；用大样本的乙肝来建立拷贝数的分布，如果低于这个分布的99％的分位数记为零，负荷为零的判断为乙肝，高于零的数值代表具有肝癌的可能性，数越高肝癌的可能性越大。

9.根据权利要求6或7所述的用于早期肝癌辅助诊断的试剂盒的检测方法，其特征在于，建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；具体的步骤如下：

生成随机森林的输入数据矩阵，列是特征变量，代表每个1Mbp区域校正过的测序深度，行是每个样本；

建立常规随机森林里的一个二叉树，所述二叉树的每一个分叉是根据输入矩阵的一个特征变量来确定，特征变量将肿瘤和乙肝病人分开，用来分割肿瘤和非肿瘤样本的特征变量称为分割变量；

建立有权重的二叉树，分割变量的确定是两个因素决定的，一个是特征变量的数据本身对乙肝和肝癌的分割准确度，另一个是特征变量对应的1Mbp区域里含有重要驱动基因的潜能；若这两个因素的加和结果最大，则该特征变量被选为二叉树的分割变量；判断基因是驱动基因来自于TCGA多组学的整合,驱动基因的潜能作为权重来影响二叉树的建立；

驱动基因作为权重的具体体现为：

其中p₁,p₂是乙肝和肝癌的比例，满足

其中D是训练集里所有的样本，D₁和D₂是用A作为变量将D分割到两个亚组，D₁是A变量小于某个阈值的样本，D2是A变量大于此阈值的样本；|D₁|,|D₂|和|D|是对应样本数；

penalty(A)是对候选分割变量的惩罚，驱动基因权重越大惩罚越小，校正后的Gini(D,A)越小，候选分割变量被选上用来建立二叉树的可能性越大。

10.根据权利要求6或7所述的用于早期肝癌辅助诊断的试剂盒的检测方法，其特征在于，根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型；

最终得到的模型为B是随机森林中权重二叉数的个数，f_b(x)是第b个权重二叉数对一个样本输入矩阵x的预测结果；