CN110791564B

CN110791564B - 早期癌症的分析方法和设备

Info

Publication number: CN110791564B
Application number: CN201811632726.1A
Authority: CN
Inventors: 杨楚虎; 张琼
Original assignee: Hangzhou Aorui Gene Technology Co ltd
Current assignee: Hangzhou Aorui Gene Technology Co ltd
Priority date: 2018-10-10
Filing date: 2018-12-29
Publication date: 2022-07-08
Anticipated expiration: 2038-12-29
Also published as: CN110760579A; CN110760580A; CN109182526A; CN110760579B; CN110791564A; CN110760580B

Abstract

本发明提供一种早期诊断主体癌症的设备和方法,其中该设备包括：用于读取或者存储驱动因子的数据模块，其中，所述的驱动因子的数据信息是通过测试样本中的驱动因子而获得的；用于读取或者存储权重数据的模块，所述的权重数据是通过统计学的方法分析公共数据库的数据而获得的；计算模块，该计算模块让所述的权重数据结合所述的驱动因子进行统计学权重计算，从而获得主体是否为癌症的结果。利用该设备和方法可以早期进行癌症的诊断。

Description

早期癌症的分析方法和设备

本申请主张中国申请，申请号：201811177972.2；申请日2018年10月10日的优先权，其全部的内容作为本发明的一部分。

技术领域

本发明涉及癌症辅助诊断领域，特别是一种用于早期癌症辅助诊断的方法和设备,更为特别的，涉及从样本中获取与癌症可能关联的驱动因子的数据来进行早期癌症的诊断方法和设备。

背景技术

癌症是一种恶性的肿瘤,一般是人或者哺乳动物受到外界环境或内在的生物学变化而产生的一种疾病。例如，肝癌是恶性度非常高的肿瘤，一旦转移基本没有有效的治疗方案，存活率很低。肝癌如果诊断在早期，还可以接受手术或者肝移植的时候，五年存活率可以达到70％。如果已经转移的话，五年存活率只有5％左右。无论什么样类型的癌症，早期诊断对病人的生存至关重要，可以采取早期治疗手段而显著提高病人的生存时间,甚至可以治愈某些癌症。

例如，对于肝癌，常规的肝癌的诊断主要是通过甲胎蛋白(AFP)进行筛查。对于高风险人群再通过超声，核磁等影像学手段进一步检查。发现可疑病灶时确诊的手段是肝穿刺活检。但是，超声的灵敏度有限，而且不能确诊。常规的肝穿刺活检有很大的侵入性，而且有引起肿瘤扩散的风险。此外，由于肿瘤有普遍的肿瘤内的异质性，很多时候肝穿刺活检并不能显示肿瘤的全貌。

虽然影像学检查和穿刺活检是一种癌症检测的手段，但是市场更需要一种使用液体活检来完成癌症的早期诊断的非侵入性手段。液体活检主要依赖灵敏的技术来检测血液里的游离的DNA(ccfDNAs)中的肿瘤特有的DNA(循环肿瘤DNA,circulating tumor DNA，ctDNA)。因为释放到血液里的肿瘤DNA的量跟肿瘤的大小和肿瘤的临床分期密切相关，而早期的肿瘤释放到血液里的DNA很少，所以用液体活检通过对循环肿瘤DNA来诊断早期肿瘤面临很大的挑战。这主要是由于循环DNA含量低，使用现有扩增和测序的方式进行文库建立和测序，容易产生假阳性或者假阴性，从而让检测不准确。

目前用血液的ccfDNA检测肿瘤的有两大类策略：第一是针对一些特定序列；第二是全基因组。针对特定序列的方法包括甲基化位点，突变位点，等等。这些方法的局限之一是不能对特定序列的选择进行优化。全基因组的策略主要是通过全基因组测序来检测拷贝数，甲基化，或者突变。由于测序价格较高，大部分的甲基化位点或突变位点都是针对特定序列。而文献报道的这类位点一般都不是针对早期肿瘤的筛查。因而这些位点对筛查早期肿瘤的性能是没有确定的临床和科研依据的。相比之下，全基因组测序可以获得尽可能多的肿瘤相关信息，但是由于价格的局限，只能受限于低深度的测序，因而进一步增加了肿瘤早筛的挑战。另外，即使采用不受测序深度影响的方式进行全基因组测序，仍然缺乏有效的计算的方法来进行早期癌症检测的数据分析。因而，要实现癌症早期诊断以达到早期治疗的目的，就需要全新的实验技术及数据分析方法。

发明内容

不管是针对特定序列还是全基因组，现有的研究主要集中在中晚期癌症。在多数情况下，此类研究结果也没有经过独立验证以证明其准确性和有效性。我们针对以上的一个或者多个问题，利用全基因组的测序分析，开发了独特的实验技术以及基于机器学习的统计模型算法，来有效的捕获低深度全基因组测序里包含的微量的癌症DNA的信息，进而提高对早期癌症筛查的准确性。同时，我们的方法使用了早期癌症病人样本进行了严格的独立验证来证明其优异的诊断性能。

因此，本发明的目的在于针对现有诊断技术的不足，提供一种全新的用于早期癌症辅助诊断的试剂盒及其检测方法以及使用该方法的设备。

本发明的第一方面，是提供一种用于扩增样本中游离核酸的(例如DNA)的试剂和包括该试剂的试剂盒。该试剂包括能够与样本里游离DNA的两端进行连接的接头序列。在一些方式中，所述的接头序列包括互补的颈状序列；在一些方式中，所述的接头序列包括一段可以形成环状接头的序列；在一些方式中，在环状接头上包括酶切位点；在一些优选的方式中，酶切位点位于环状序列的中心位置。这些酶切位点可以是序列，该序列可以被酶切割开，或者其他能够被酶断开的位点。

在一些方式中，所述的互补的颈状序列为GAT CGG AAG AGC，和与之互补的序列GCT CTT CCG ATC；在一些方式中，所述的环状结构的序列为如下中的一段或者几段：AGACGT TTG ACC TCC GGT C dU A CAG TCG TAC CCT ATA CGA C；CA CGT CTG AAC TCC AGT CdU A CAC TCT TTC CCT ACA CGA C；ATA CGT ATG AGC TCC TGT C dU A CAT TCA TTC CCTACA CGA C；ATA CGT CTG ATC TCC AGT C dU A CAA TCC TTC CCT AGA CGA C。在一些方式中，接头序列包括颈状序列和环状序列。

在另外的一些优选的方式中，该试剂还包括让接头序列进行断开的试剂。在一些方式中，所述的断开试剂为酶试剂。在进行接头序列设计的时候，可以增加一些被酶切割的位点，这样当接头序列与游离DNA末端连接后，让酶来断开接头序列，从而让接头序列分别连接在游离DNA序列的两端。在另外的一些方式中，断开的接头序列为互补的序列。在一些方式中，所述的酶为USER酶。

在一些优选的方式中，所述的接头序列为SEQ NO:1，SEQ NO:4，SEQ NO:7，SEQ NO:10，所述的序列。所述的接头序列为5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGT CdU A CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’。在一些方式中，接头序列为图11中所列举的1-4号接头序列和其对应的引物。

在一些方式中，所述的试剂还可以包括与接头序列5’端互补的第一引物序列以及与接头序列3’端互补的第二引物序列。在一些方式中，所述的引物包括与接头序列的颈状序列互补的序列。在一些方式中，所述的引物包括与接头序列互补的序列，所述的接头序列为酶切断开的序列。

在一些方式中，所述的第一引物序列或者第二引物序列包括用于测序的测序序列。这些测序序列被用来做后期进行测序所识别的序列。在一些方式中，所述的测序序列为P7或者P5的序列。

在一些方式中，所述的第一引物还可以包括标签序列。在一些方式中，所述的引物的序列为：

第一引物的序列为：5’-GT GACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’；

第二引物的序列为：5’-G ATC TAC ACT CTT TCC CTA CAC GAC GCT CTT CCG ATCT-3’(划线部分为P5测序的序列)。

或者，第一引物的序列：5’-CAA GCA GAA GAC GGC ATA CGA GATNNNNNN GAC TGGAGT TCA GAC GTG TGC TCT TCC GAT CT-3’，其中NNNNNN可以是自己设计的6个核苷酸的标签(划线部分为P7测序的序列)；

第二引物的序列：5’AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCC CTACAC GAC GCT CTT CCG ATC T-3’(划线部分为P5测序的序列)。

在一些优选的方式中，该试剂还包括让游离DNA进行末端磷酸化的试剂。在一些方式中，还可以包括一些能够修复游离DNA末端的试剂或者和让5‘端进行磷酸化的试剂。在一些方式中，还包括一些在修复的游离DNA的5’端增加PloyA的试剂。在一些方式中，进行末端处理的试剂包括DNA聚合酶，多聚核苷酸激酶，连接酶缓冲液，dNTP,ATP，粘合剂中的一种或者一种。在一些方式中，所述的末端处理包括；0.003-0.007U/ul的T4DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP，2.5％的粘合剂。在另外一些方式中，所述的试剂包括用于核酸扩增的试剂，例如聚合酶、缓冲体系、以及金属离子等。这里所述的扩增可以是任何方式的扩增，例如常用的PCR扩增，等温扩增，以及其它任何方式的核酸扩增。

本发明的第二方面，是提供一种扩增样本里游离DNA方法，该方法包括：

将接头序列连接到样本中的游离DNA的两端，让接头序列断开从而产生互补的单链，通过与接头序列互补的一对引物进行游离DNA的扩增。

在一些优选的方式中，接头序列包括为环状结构的序列。这里的序列可以是一部分序列是互补的，而另一部分序列是不互补的。互补的序列形成颈状结构，而不互补的序列就形成环状结构。在一些方式中，接头序列包括酶切位点，用酶把接头序列的酶切位点切开。在一些方式中，酶切位点位于环状序列上。在一些方式中，酶切位点位于环状序列的中间位置。在一些优选的方式中，用磁珠法进行长度的选择，去掉长度不符合要求的片段。具体操作为：将磁珠和切开接头的序列的片段混合在一起，然后离心，通过调节磁珠和片段的比例来选择100-600bp长度的片段，这些片段在离心之后附着于磁珠，而过长或者过短的片段游离存在于上清液中。离心之后通过洗脱液将附着于磁珠的片段脱离下来。当然，也可以采用磁珠法来选择其它感兴趣的片段。

在一些方式中，所述的接头序列为SEQ NO:1所述的序列，所述的一对引物为SEQNO:2和SEQ NO:3所示的序列。在一些方式中，所述的引物为SEQ NO:5和SEQ NO:6所述的序列；或者，所述的引物为SEQ NO:8和SEQ NO:9所述的序列；或者，所述的引物为SEQ NO:11和SEQ NO:12所述的序列。

在一些方式中，在进行游离DNA与接头序列连接前，需要从样本中提取游离DNA。

在一些方式中，所述的扩增方法为PCR扩增。扩增后对扩增产物进行清洗纯化。在一些方式中，用磁珠进行清洗纯化。

在一些方式中，将经过核酸扩增过的产物进行序列的测定。

在一些方式中，经过序列测定的核酸被分成不同长度的区域，在每一个区域内，来计算拷贝数的大小。

在一些优选的方式中，游离核酸被扩增前需要从样本里分离出来。在一些优选的方式中，所述的样本为血液样本。在一些方式中，所述的样本为血浆样本。在一些方式中，所述的样本为白细胞和单核细胞。在一些方式中，采用磁珠从血浆中分析游离核酸，例如DNA或者RNA。

本发明的第三方面，是提供一种预测或者检测癌症发生、发展的方法，该方法包括对癌症驱动因子进行权重定义，然后结合全基因组测序数据得出的驱动因子的数据和驱动因子的权重来检测癌症，从而可以早期检测癌症的发生或者发生的可能性，也可以是发生的概率。这里的驱动因子是泛指那些可以与癌症的发生、发展相关联的一些生物物质或者生物指标。可以是这些生物物质本身，也可以是生物物质数量多少，或者变化，或者其变化的程度以及活性的高低。总之，这些驱动因子与癌症的发生、发展有直接的或者间接的关联。这些驱动因子的出现，数量的变化，或者活性或者其它的变化，会和癌症的发生、发展直接或间接相关联。这种关联可以是正向关联。例如驱动因子的增多或者活性增强，就预示癌症的发生可能性增加，因而可以预测癌症的发生或者发展的概率。当然，也可以通过检测驱动因子或者给不同的驱动因子给予权重，来检验癌症治疗的效果。例如对于某些药物对癌症的治疗的检测，可以用驱动因子数据结合驱动因子的权重来监测癌症的治疗效果。

在一些方式中，所述的驱动因子中的一个或者多个是通过对特定样品的物质进行测试或者分析得到的。在一些方式中，所述的样本为血浆样本。在一些方式中，所述的样本中的物质为游离核酸(例如ccfDNA)。在一些方式中，游离核酸可以是RNA或者DNA。在一些方式中，对样本中所有的游离核酸进行测序，从而获得全基因组的数据，这些数据可以包括多个驱动因子的变化，例如拷贝数的变化，甲基化的变化，或者其它的变化。在一些方式中，对这些所有游离核酸在测序前进行核酸的扩增。在一些方式中，利用测序仪器对游离核酸进行测序。对游离核酸进行全基因组的扩增、测序是检测或者获得样本中驱动因子数据的一种方式，并不排除在其它样本中检测获得驱动因子的数据，也不排除用其它方式获得样本中的驱动因子的数据，例如是单基因的扩增，单个标记物质的分析。这些方法都是本发明所述的范围之内。

在一些优选的方式中，对这些与癌症关联的驱动因子进行权重分析，从而确定这些驱动因子对影响癌症的发生、发展的快慢，或者进程快慢的紧密程度，或者影响程度。在一些方式中，这些驱动因子对癌症的发生或者发展的影响程度或者权重的数据(权重的大小)是通过对现有数据库进行分析计算而获得的。在一些方式中，给驱动因子的权重是对已经存在的数据库进行统计分析而建立的。在一些方式中，这样的数据库可以是癌症数据库以及与癌症相关联的其它任何数据库。在一些方式中，对这些样本中的驱动因子的权重分析是采用统计学方法获得。在一些方式中，是通过建立模型来对驱动因子进行权重分析。在另一些方式中，是通过建立数学模型来进行样本中驱动因子的权重进行分析。

在一些方式中，利用已存在的数据库来分析或者计算一个驱动因子或者多个驱动因子的权重数据。在另外的方法中，利用已存在的数据库来分析多个驱动因子的权重数据。

在一些方式中，通过对样本中的多个驱动因子进行检测，然后对多个驱动因子进行权重的分析。在一些方式中，对多个驱动因子的权重数据来自于现有存在的数据库中多个驱动因子的权重分析而获得的。在一些方式中，所述的多个驱动因子包括样本中的驱动因子，当然，也可以是不包括样本中的驱动因子。换句话说，数据库中的多个驱动因子可以是样本中的驱动因子；样本中的驱动因子也可以是数据库中的多个驱动因子的一个子集；或者数据库中的多个驱动因子与样本中的驱动因子是不相同的：可以是个数不同，也可以是种类不同。

在一些方式中，所述的对现有数据库进行单个或者多个驱动因子的权重分析是通过统计方法来实现的。例如在对肝癌数据库进行分析的时候，建立贝叶斯非参数统计模型来分析或量化每个驱动因子的权重。

在一些方式中，通过对于肝癌的数据分析来量化每一个基因的权重。这里的驱动因子的权重是指这些驱动因子与癌症发生、发展或者进程的关联紧密程度，例如权重越大，表示该驱动因子就与癌症的发生、发展的关系越紧密。换句话说，当某一些驱动因子的权重数据大，则表示该驱动因子就具有大的潜力来影响肿瘤或者癌症的发生。

在一些方式中，对样本中的驱动因子所测试的数据进行统计分析，然后利用公众数据分析到的驱动因子的权重，之后再利用统计分析方法重新对驱动因子进行分析，从而获得结果。

在一些方式中，例如对于肝癌的预测，样本中的驱动因子为游离DNA的全基因的拷贝数的量化，而全基因组中的每个基因的权重是通过对The Cancer Genome Atlas(TCGA)数据库的统计分析得到的。之后，再把每个基因的权重结合全基因的拷贝数进行分析，从而获得预测的结果。

在一些方式中，建立有权重的随机森林的机器学习模型，从而对全基因的权重和基因的拷贝数进行权重分析，从而获得预测或者检测的结果。

在一些实施方法中，获得随机森林学习模型，该模型为为

B是随机森林中权重二叉数的个数，f(x)是第b个权重二叉数对一个样本输入矩阵x的预测结果；

的范围在0到1之间，其大小代表具有肝癌的可能性；若

大于预先设定的阈值，则判断为肝癌。

在一些优选的方式中，还包括对全基因组的拷贝数进行负荷计算，然后结合全基因组的权重和基因拷贝数的权重分析，从而获得预测的结果。

在一些方式中，所谓的驱动因子为驱动基因。即计算驱动基因的权重数据。

在一些方式中，所述的驱动基因的权重是通过贝叶斯非参统计模型每个基因是驱动基因的潜力进行量化而获得的数据。在一些方式中，对不同癌症的公共数据库进行分析，从而建立贝叶斯非参统计模型进而量化每个基因的在不同癌症中的权重。这里的癌症数据库包括肝癌、肺癌、结肠癌、直肠癌，乳腺癌、前列腺癌，胰腺癌等等不同的数据库。通过对这些数据库进行分析从而计算出每一个基因在各个癌症中是驱动基因潜力的大小，即权重。

具体的讲，在一些方式中，驱动因子的权重可以通过如下的方法进行计算：建立有权重的随机森林机器学习模型的方法:生成随机森林的输入数据矩阵:列代表每个区域的测序深度，行代表每个样本；或者行代表每个区域的测序深度，列代表每个样本。

在一些方式中，在建立具有权重的二叉树，而驱动基因的潜能作为权重来影响二叉树的建立。在一些方式中，建立二叉树的分割变量。该分割变量至少由两个因素确定：第一因素是指的从样本里获得的驱动因子的数据，例如来自样本的全基因组测序数据。另外一个因素(也就是我们所说的权重)不是从我们自己样本所测的基因测序数据来的，而是挖掘外部大数据来的。这个外部大数据不是特指一个数据，而是统称。也就是说很多的外部数据都可以来抽取有用的信息来作为权重。

在一些方式中，第一因素样本里驱动因子的数据本身可以用来对癌症或者非癌症分割(区分是否是癌症还是不是癌症，例如对于肝癌，用来区分是肝癌或者肝炎的区分)。在另一个方式中，第二因素是某一长度基因组(例如1MBP或者其它任意长度区域)区域内里含有驱动基因的潜能。如果第一因素与第二因素整合或者结合分析的结果最大，则该特征变量可被用作二叉树的分割变量。

在一些方式中，所述的特征变量是通过建立常规随机森林里的一个二叉树来确定的。而二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定的，用以将肿瘤和非肿瘤分开。用来分开或者分割肿瘤样本和非肿瘤样本的特征变量称为分割变量。

判断基因是驱动基因的权重来自于某一种癌症数据库里(例如肝癌的TCGA数据库)的多组学数据的整合，而驱动基因的潜能则作为权重来影响二叉树的建立。

在一些方式中，驱动基因作为权重的具体体现为：

计算根据权重校正后的Gini指标，即Gini__校正(D,A)＝Gini(D,A)*penalty(A)，其中D是训练集里癌和非癌样本的标记数据，A是一个候选分割变量；

其中p₁,p₂是非癌症和癌的比例，满足

其中D是训练集里所有的样本，D₁和D₂是用A作为变量变量将D分割到两个亚组，D1是A变量小于某个阈值的样本，D2是A变量大于此阈值的样本。|D₁|,|D₂|和|D|是对应样本数。

penalty(A)是对候选分割变量的惩罚，驱动基因权重越大惩罚越小，校正后的Gini(D,A)越小，候选分割变量被选上的可能性越大。

在一些方式中，所述的基因组拷贝数是每一个某一基因组长度区域内的通过测序深度加和来计算的，即每一个某一长度区域的测序深度的加和的数据大小代表该区域的拷贝数。在一些方式中，所述的某一基因组长度的区域为1Mbp,0.5Mbp，0.1Mbp，1.5Mbp或者其它任何长度的区域。

在一些方式中，这些区域为互不重合的区域。在一些方式中，这些区域或者每一区域都通过方法对GC含量和或者“可比对性(mappability)文件进行校正。在一些方式中，通过回归模型进行校正。在一些具体的方法中，校正GC含量、基因组mappability文件的模型的公式为：

x_i是GC含量，

是核平滑后的对应于x_i的reads数，常数

其中

是所有GC含量里的reads平均数。

在一些方式中，还可以进一步进行基因组拷贝数负荷的计算，从而结合每一个基因的权重数据和拷贝数来进行肝癌的预测或者分析。

在一些方式中，用统计算法计算全基因组的拷贝数，然后计算全基因组的拷贝数负荷，用拷贝数负荷来诊断肝癌。具体步骤如下：

先校正比对在每个1000bp区域(当然，也可以是其它任意长度的测序深度，例如0.5Mbp，0.1Mbp，1.5Mbp，2.0Mbp，3Mbp等任何长度的)的测序深度，然后用隐马尔科夫模型平滑相邻区域的校正后的测序深度，这样将整个基因组分成连续的大片段，而每个大片段都有相对的拷贝数的变化。把这些有拷贝数变化的大片段的长度乘以他们各自的相对的拷贝数，然后把这些数值加和，作为这个基因组的拷贝数的负荷。用大样本的乙肝病人循环DNA样本的测序数据来建立拷贝数的分布：如果低于这个分布的99％的分位数记为零，负荷为零的判断为乙肝；高于零的数值代表具有肝癌的可能性，数越高肝癌的可能性越大。

在一些方式中，对于来自样本中的驱动因子的分析或者测试可以是任何对应该驱动因子量化的分析。例如涉及到基因拷贝数的时候，就进行基因拷贝数的分析；如果涉及到其它指标的时候，例如生物标记物质的时候，就采用对应的其它方法进行分析和测试。

对于驱动因子为基因水平的时候，可以通过扩增、测序来进行分析；当涉及到蛋白水平的时候，可以采用蛋白对应的方法来进行分析，例如氨基酸的测序，或者肽链的测序；当涉及到一些微量元素的时候，就采用微量元素对应的方法来进行分析。在一些优选的方式中，在检测某一种特定的癌症的时候，可以选取样本中的一种或者多种驱动因子来进行检测或者量化。当然，在评估这些驱动因子的权重的时候，也是可以选择不同的数据库来进行权重的分析。

在一些方式中，如果涉及到基因水平的驱动因子，可以通过基因测序来分析，获得测序的数据。在测序后计算全基因组的中的每一个基因的拷贝数，或者每一个片段长度区域内的拷贝数。在一些优选的方式中，所述的基因为样本的游离核酸，对所有游离核酸进行测序。

本发明提供一种预测或者检测癌症发生、发展的设备，该设备包括测试样本中与癌症发生、发展的关联的驱动因子，对驱动因子进行权重的分析，然后获得结果来预测或者检测癌症的发生或者发展。此外，本发明提供一种预测或者检测癌症发生、发展的设备，该设备包括获取样本中与癌症发生、发展关联的驱动因子的数据，然后对驱动因子进行权重分析，从而获得结果来预测或者检测癌症发生的可能性。这里的驱动因子的数据是通过一些另外的设备或者方法测试获得的。例如，当涉及到基因水平的驱动因子的时候，，可以通过扩增的方法和测序仪器进行测序而获得基因的信息。可以理解，这些基因测序的数据可以被本发明的设备用来检测癌症的发生。当驱动因子是蛋白水平的时候，可以通过对蛋白的含量、氨基酸序列测定而获得。任何驱动因子都可以通过现有的方法进行测定。当然，这样的检测癌症发生或者发展的设备也可以包括测试驱动因子的功能模块。

本发明可以早期预测癌症的发生或者发展的可能性，也就是概率。这里的驱动因子是指那些可以与癌症的发生、发展相关联的一些生物物质或者生物指标，或者标记物质多少，或者变化及变化的程度。总之，这些驱动因子与癌症的发生、发展有直接的或者间接的关联，有了这些驱动因子的出现、或者驱动因子的数量的变化，就会直接或间接和癌症的发生、发展或者消失相关联。这种关联可以是正向关联，例如驱动因子的增多，就预示这癌症的可能性增加，这样可以预测癌症的发生或者发展。当然，也是可以通过设备通过检测驱动因子或者给不同的驱动因子给予权重，来检验癌症治疗的效果。

有益效果

本发明一方面来自样本中的与癌症相关的驱动因子进行分析，特别的，当驱动因子为基因水平的时候，对游离DNA建立测序文库，进行全基因组测序，然后进行分析。在另外一个方面，本发明建立了对驱动因子进行权重分析，通过统计学的方法计算驱动因子的权重，使癌症预测结果更为准确。特别的，利用本发明的分析方法或者利用该方法的设备，通过对样本中游离核酸进行全基因测序，然后对每一个基因进行权重分析，再采用统计的方法来计算全基因的权重分析，从而获得一个早期的癌症的检测或者预测结果。该结果具有很高的准确性。另外，利用本发明的方法，可以有效的分析或者预测肝癌的发生或者发展，更为具体的讲，通过分析血液中循环DNA的序列，对每个基因进行权重分析，再通过统计方法来准确地预测或者检测早期肝癌的发生的可能性。

附图说明

图1是本发明的以肝癌为例来说明检测方法的一种实施例的流程图。

图2是使用安捷伦TapeStation分析，使用本方法建库前的ccfDNA和建库后的文库的分布对比。其中，图2A是从样本分离出来的游离DNA的片段序列长度的分布图，图2B-图2F是采用本发明的不同接头序列和对应的引物对游离DNA片段扩增后的不同片段长度的分布图；其中低峰(25bp)和高峰(1500bp)的部分为标准参照物的数据。

图3是三个有代表性的病人的全基因组的拷贝数轮廓图。

图4是本发明的权重随机森林的算法示意图。

图5是本发明的权重随机森林的算法在训练集上交叉验证的ROC曲线和对应的AUC(曲线下面积)。

图6是本发明训练集上训练出来的模型在两个独立验证集上的独立验证的ROC曲线和对应的AUC(曲线下面积)。

图7是本发明在独立验证集里基于拷贝数的液体活检跟常规甲胎蛋白(Alpha-Fetoprotein,AFP)的互补性的展示图。

图8为本发明的一般原理说明示意图。

图9为本发明以游离核酸为例进行示范性说明本发明的一般原理示意图。

图10为本发明的颈环状结构接头设计的范例。

图11为本发明的具体实施方式中的实验中所使用的接头和引物序列。

图12为本发明的另一个具体实施例子中所使用的接头和引物序列(去掉分子标签和测序引物的引物序列)

详细说明

本发明对一些技术术语进行定义说明，除非特别说明，否则按照最大范围的解释。

检测或者测试

这里的检测或者测试是指通过一些技术手段来获得样本里的驱动因子的数量、变化等数据。这些检测或者测试的结果可以以数据的形式存在。当然，这些数据可以存储在一些介质中作为结果输出，也可以作为以后分析的基础数据。这里的检测或者测试的方法是任何方法，凡是能够得到样本里驱动因子的数量和变化都是可以的，例如采用核酸扩增或者测序的方式，蛋白分析的方法等等。

与癌症关联的驱动因子

驱动因子是与人体健康状态相关联的一些生物物质.在所有驱动因子中，包括与癌症关联的驱动因子和不与癌症关联的因子。所谓与癌症关联的驱动因子是与癌症的发生、发展以及治疗反应，预后等相关联的物质。这些物质的存在，出现，增加(数量的增加或者活性的增加)，或者消失，减少(数量的减少或者活性的减少)，或者活性程度高低的变化，与癌症的发生、发展变化有直接的或者间接的关系。癌症驱动因子可以是生物体受到外界或者生物体内在的系统的影响，在一定时间内的变化而导致癌症的发生的生物物质。这类生物物质一般是存在于生物体内，或者生物体内的体液中。所谓的体液是指任何样本，例如血液、唾液、尿液、汗液、骨髓等。与癌症不相关的驱动因子是和与癌症相关的驱动因子相对的，一般是这些因子的出现或者消失与癌症的发生、发展不具有直接的关联性，有时候，不会直接或者间接导致癌症的发生。例如在后面叙述的游离核酸，游离DNA中包括驱动因子，其中有些因子与癌症相关，有些因子却和癌症不相关。而本发明正是从样本中分析出与癌症相关的因子，特别是与早期癌症发生的驱动因子，采用本发明的统计学方法来进行计算，从而可以分析或者检测来自主体的样本中是否具有癌症。后面会进行详细的介绍。

与癌症关联的驱动因子可以是基因水平，蛋白水平上的变化。基因水平的变化可以体现在基因位点的突变、基因转录水平的变化，拷贝数的变化，甲基化的变化等等。所谓基因的变化可能导致蛋白的变化，也可能不导致蛋白的变化。所谓基因的变化也可以称为核酸水平的变化。在生物体内，受到各个因素的影响，最终体现在基因水平的变化，从而可能导致蛋白水平的变化。这些变化积累到一定的程度，就引起肿瘤或者癌症的出现。肿瘤中有良性和恶性之分。这些区分仅仅是变化的程度不同而已，相对正常的组织，都有可能出现了变化或者异常。这里的每一个变化都是可以称为一个驱动因子。如果某些驱动因子的变化引起癌症的出现、发展或者消失，则称之为癌症驱动因子。癌症驱动因子可以是一个或者多个。例如当癌症驱动是基因的时候，可以是某一个特定基因的变化，也可以是多个基因的集合的变化。每一变化可以称为一个驱动因子。例如某个与癌症关联的基因的序列的改变，每一个改变都可以称之为驱动因子。或者该基因的一个或者多个位点的突变，这些都可以表示为一个或者多个驱动因子的出现或者变化。当然，除了数量的变化，也可以是不同程度上的变化，例如基因的变化，蛋白水平的变化，某些标记物质的变化等等。每一个变化都是一个驱动因子的变化，每一驱动因子的变化都与癌症或者肿瘤关联。相反，还存在与癌症不关联的驱动因子，这些驱动因子是否存在与癌症的发生或者发展都没有关联性。这里的癌症驱动因子可以是任何样本中的与癌症关联的任何驱动因子，例如核酸水平、蛋白水平、微量元素水平、某些化学物质水平，微生物水平等等。这里的样本是任何样本，例如唾液、血液、汗液、尿液、粪便、组织液体、细胞液等等样本。在一些方式中，驱动因子来源于血液样本，例如血液样本中的游离核酸物质。当然，来自游离核酸的信息数据可以是多个驱动因子的结合，也可以是其中一个驱动因子，例如核酸的拷贝数、突变位点的变化、突变数，甲基化，等等或者它们的组合。

样本中的游离核酸和循环肿瘤核酸

在一些方面，癌症驱动因子可以是来自样本中的全基因组学的变化。对于这样的变化，我们可以通过对肿瘤样本的全基因组测序，与对应的正常样本的全基因组测序结果进行比较而获得全基因的变化，进而通过变化的种类或者程度来进行癌症的预测。

在一些方式中，对这些来自样本中驱动因子的全基因组的测序是对血浆中的游离核酸的测序。所谓血液中的游离核酸(circulating cell-free nucleic acid)，或者游离DNA(ccfDNAs)或者ccfRNA，是指循环血中游离于细胞外的部分降解了的机体内源性DNA或者RNA。游离DNA实际上是多个片段的集合，每一个片段的长度并不相同。通常，游离核酸片段中包括肿瘤游离核酸片段，如果是正常的样本(非病例的)，肿瘤核酸也可能有，但是这些肿瘤核酸的片段的量还不足以引起疾病，例如癌症的发生或者发展。极端的一个例子就是游离核酸中不包括肿瘤片段则表示健康的样本，没有癌症发生的可能性或者可能性极低；相反，包括有肿瘤片段就是病例样本，至少有发生癌症的几率。不仅仅是由于肿瘤片段的数量的多少问题，肿瘤片段变化的位置和频率也与癌症的发生具有相关性。例如，肿瘤片段数量多，表示癌症的发生风险增大，或者肿瘤片段少，但是突变频率增高，或者突变位置的特异性而让癌症发生的风险增大。我们可以通过癌症相关的驱动因子的检测，来检测早期癌症的存在。

在一些方式中，对血液中游离核酸进行测序，从而获得几乎所有游离核酸片段的序列信息。这里的所谓血液中的游离核酸是指95％游离核酸的测序，或者99％或者更高含量，95％或者更高，92％或者更高，90％或者更高，89％或者更高，88％或者更高，87％或者更高，85％或者更高，80％或者更高，78％或者更高，75％或者更高，72％或者更高，70％或者更高,68％或者更高,65％或者更高,60％或者更高,55％或者更高，50％或者更高，20％或者更高，10％或者更高，5％或者更高的游离核酸进行测序分析，获得游离核酸的基因序列信息。这些序列信息包括DNA、RNA的碱基排列顺序，也可以包括某些基因的拷贝数的变化等等。对于游离核酸的几乎所有片段，这些片段包括有长，有短的序列片段，这些片段中包括肿瘤核酸片段进行测序分析。在一些方式中，对于游离DNA的扩增或者测序，从序列长度上讲，希望大量扩增这些不同长度的区域的某些长度区域的片段。例如，在游离DNA中，存在着0-3000bp，不同长度的核酸片段，当对于某些疾病，例如非癌症，仅仅关注这些片段中某一范围长度的片段，例如50-1500bp。对于癌症的发生，希望大量扩增50-700bp之间的片段，或者，希望大量扩增80-500bp之间的片段；希望大量扩增120-300bp之间的片段；希望大量扩增100-200bp之间的片段；希望大量扩增160-170bp之间的片段。当然，大量扩增这些区域的片段并不表示这些区域的核酸片段都含有与癌症有关的驱动基因。这些区域可能含有的机会或者几率高，或者相对于其它片段，这些区域包含相对数量高的与癌症相关的驱动基因，或者这些片段区域内含有与早期癌症相关的驱动基因。对于某些病例样本来讲，正是因为这些与癌症相关的基因的数量少，含量低，早期进行检测，采用一般的方法检测出来的数据并不准确，会出现很多假阳性或者假阴性的结果。所以，一方面本发明基于测序和扩增方面，进行样本里驱动因子(特别是驱动基因)提取，扩增，测序方法和试剂做了改进，或者更为精准的扩增；相对独立的另一方面，采用人工智能方法进行大数据深度学习，以弥补扩增或者测序方面的不足，避免它们的缺点。从微量的游离DNA的测序数据中通过计算能够发现早期癌症的驱动因子，从而可以更为准确及时地检测主体的早期癌症的发生。这两个方面可以相互独立，也可以相互影响的，后面会详细阐述。

所以，通过血液样本游离核酸的测序就可以实现可能肿瘤序列的测序。当然，如果是非严格意义上病例样本，也会存在游离核酸，但是却几乎不含有循环肿瘤核酸。本发明所谓的病例样本，是指血液样本中含有游离核酸，游离核酸中也包括肿瘤游离核酸，无论这种游离核酸在血液样本中的含量多少，也无论是肿瘤游离核酸所占有的比例如何，但是至少是0.001％或者更低，0.01％或者更低，0.1％或者更低，0.2％或者更低，或者其它比例，都应该称之为病例样本。可能的病例样本与非病例样本是一个相对的概念，在这里都可以统称之为样本，例如血液样本，仍然可以对血液样本中的游离DNA进行测序分析。当然，在测序分析前可以对游离DNA进行提取、扩增、或者其它方式的处理，这在后面会详细的讲解。通过对游离DNA进行扩增、测序获得的数据可以用来进一步分析或者处理，最终获得早期的癌症预测的结果。对于样本中，比如血液样本中的游离DNA的任何方式的从样本中分析、任何方式的前处理，任何方式的纯化，任何方式的扩增、都可以最终被用来进行测序分析。任何测序分析的方法和设备都可以被用在本发明的游离DNA的测序和分析。在一些方式中，对于游离DNA的扩增后，采用测序仪器对扩增后的产物进行高通量的测序。在一些方式中，使用的测序仪器为Illumina的HiSeq2500,3000,4000，X10或者NovaSeq。当然其它非Illumina的测序设备也可以用在本发明的游离DNA扩增产物的测序中。

接头序列与游离核酸

在一些方式中，在对游离DNA进行提取纯化过程后，采用接头序列对所有的游离DNA连接上接头序列。这里的所有的游离DNA片段连接接头序列，并非是指100％的游离DNA片段，如果是100％的游离DNA连接上接头序列更好，但是非100％的游离DNA也是可以的，例如，99％或者更高的游离DNA连接上接头序列，95％或者更高的游离DNA连接上接头序列，92％或者更高的游离DNA连接上接头序列，90％或者更高的游离DNA连接上接头序列，89％或者更高的游离DNA连接上接头序列，85％或者更高的游离DNA连接上接头序列，80％或者更高的游离DNA连接上接头序列，79％或者更高的游离DNA连接上接头序列，75％或者更高的游离DNA连接上接头序列，70％或者更高的游离DNA连接上接头序列，69％或者更高的游离DNA连接上接头序列，65％或者更高的游离DNA连接上接头序列，62％或者更高的游离DNA连接上接头序列，60％或者更高的游离DNA连接上接头序列，55％或者更高的游离DNA连接上接头序列，45％或者更高的游离DNA连接上接头序列，或者其它任何比例的游离DNA片段连接上接头序列。在一些优选的方式中，接头序列是预先设计的序列，当游离DNA片段连接上接头序列后，可以根据接头序列设计引物，从而能够容易实现所有游离DNA片段的扩增。扩增产物方便后续的测序分析。当然，在游离核酸中，正常的游离核酸占据绝大多数，仅仅有少量的非正常核酸存在，这些非正常的核酸带有主体疾病的信息或者早期疾病的信息。特别的，部分非正常核酸是带有癌症的早期信息，这个时候癌症可能没有任何表观的症状，通过普通设备也很难检测出，或者在体内没有一些具体可靠的指标能够检测到。接头序列的目的是对样本中几乎所有游离核酸可以连接，后续才能比较有效的进行扩增和测序。所以，接头序列的设计和引物是重要的。

在一些方式中，所述的接头序列包括具有互补序列的颈状序列。在一些方式中，包括非互补的序列形成的环状的结构。在一些方式中，在接头序列的环状序列上包括酶切位点序列，优选的，酶切位点位于环状序列的中间位置。在一些方式中，所述的酶切位点为dU，对应的酶是USER酶。在一些方式中，所用到的接头序列为5’-P-GAT CGG AAG AGC ACA CGTCTG AAC TCC AGT C dU A CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’所示的序列。

在一些方式中，可以使用本发明提供的图11或者图12中具体的接头序列和对应的引物。在一些方式中，所述的接头需要包括环结构，还包括颈状结构。具体讲，一般颈状结构由5端和3端的序列配对而形成，而中间的序列为环状序列。例如图11或者图12中的1号序列中，下划线的地方配对形成颈状结构，而中间的序列形成环状结构。颈状结构的两端与样本中的核酸DNA片段的两端连接。

在另一些方式中，除了接头序列外，还可以包括一些常用试剂，例如游离DNA末端处理试剂和/或接头反应试剂。在一些方式中，末端处理试剂包括，例如游离DNA的末端修复，5’端磷酸化处理，加上一些尾端，例如加上PloyA等。在一些方式中，末端处理试剂包括一些DNA聚合酶、多核苷酸激酶，和连接酶，以及一些辅助试剂，例如粘接试剂，例如PEG等。在一些方式中，DNA聚合酶可以选自T4DNA聚合酶、TaqDNA聚合酶，连接酶可以是任何酶，优选的是T4连接酶。在一些方式中，这些试剂的含量可以任意选择。在一些方式中，末端处理试剂包括0.003-0.007U/ul的T4DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP，2.5％的粘合剂。在一些方式中，接头反应试剂包括连接酶和一些必要的缓冲体系，这些试剂的作用下，让接头序列连接在游离DNA片段上。在一些方式中，还包括一些具有切割功能的酶，能够切割接头序列上的一些酶切序列。例如USER酶。在一些方式中，连接试剂为0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的接头序列，例如环状序列。

在一些方式中，还包括一些磁珠，在连接序列被酶切后，利用磁珠进行长度选择，去掉那些长度不符合要求的片段。在一些优选的方式中，利用磁珠对扩增后的产物进行纯化。

PCR扩增体系按照体积份数组成有：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。

引物序列

在本发明的一些方式中，还包括引物序列，这些引物序列可以部分与接头序列互补，从而进行后面的扩增延长，从而扩增游离DNA序列。为了方便扩增产物进行测序，可以在引物序列上还包括一些用于测序的序列，这样可以让测序仪设备识别测序序列，从而可以进行后续扩增产物的序列顺序的测定。所以，一般是一对引物对，每一个引物包括与接头序列互补的序列来结合接头序列。在一些方式中，所述的引物对中包括不同的测序序列。在一些方式中，其中一条引物包括标签物质，例如标签序列。在一些方式中，在一条引物的5’端连接有测序序列，引物的3’端包括与接头序列的5’端的序列互补的序列。对应的，另一条引物的3’端包括与接头序列3’端互补的序列。

在一些方式中，当接头序列为5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGTC dU A CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’所示的序列的时候，所采用的引物序列为引物1序列：5’GAC TGG AGT TCA GAC GTG TGC TCT TCC GAT CT-3’，引物2序列：5’C ACT CTT TCC CTA CAC GAC GCT CTT CCG ATC T-3’。

在一些方式中，所述的引物1序列：5’CAA GCA GAA GAC GGC ATA CGA GAT GACTGG AGT TCA GAC GTG TGC TCT TCC GAT CT-3’，引物2序列：5’AAT GAT ACG GCG ACC ACCGAG ATC TAC ACT CTT TCC CTA CAC GAC GCT CTT CCG ATC T-3’。

在一些方式中，所述的引物序列为引物1序列：5’CAA GCA GAA GAC GGC ATA CGAGAT NNNNNN GAC TGG AGT TCA GAC GTG TGC TCT TCC GAT CT-3’，其中NNNNNN可以是自己设计的6个核苷酸的标签；引物2序列：5’AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTTTCC CTA CAC GAC GCT CTT CCG ATC T-3’。具体的引物序列可以是图11或者图12中所列举的序列。

核酸的扩增

在一些方式中，还可以包括能够进行扩增的试剂，例如可以是包括一些PCR扩增试剂。这些试剂以及一些条件可以让引物延长连接序列，从而复制出游离DNA序列。当采用PCR进行扩增的时候，所述的PCR体系包括如下试剂：15-25份游离DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。当然还可以采用其让核酸扩增的方法对游离DNA进行扩增，例如等温扩增方法，例如中国专利200880105424.7中所引用的方法都可以来进行扩增，这些专利所描述的方法作为本发明的一些具体实施方式来实现，全部作为本发明的一部分。

从本发明所选择的环状接头和对应的引物来看，都可以完成游离核酸的有效的扩增，从图2可以看出，图2A是从样本中分离出的游离DNA的分析图，其中，该游离DNA主要的长度片段分布在75-300bp，峰值在160-170bp左右。长度在25bp和1000bp以上的峰值是标准品。75-300bp范围的片段是本发明针对的目的区域，希望尽可能的进行有效的扩增，从而从其中分析出一些特征数据。而在我们使用的具体例如图11中的1-4号的接头和对应的引物，可以有效获得样本中75-300bp内的片段的大量扩增，则说明它们可以进行有效的成功，例如图2B-2E都可以获得有效的扩增，而对于图2F来讲，利用图11中的5号接头序列和引物，则对75-300bp范围的片段没有实际的扩增效果。则说明该接头序列的扩增效果并不是很理想。则说明，接头序列和引物的设计和选择是本发明一个重要的因素，不然就不能完成有效的扩增，则直接影响后面的测序工作。正如本发明的实验结果一样(图2)，不同的接头序列和不同的引物，扩增的效果不同。并不表示本发明的引物仅仅限制为本发明所列举的具体引物序列，可以是与接头序列有效结合的引物序列都可以作为本发明的引物，这是本领域的一般技术根据本发明公开的接头序列后可以任意进行引物设计软件进行设计筛选的。

测序

当驱动因子是基因水平的时候，可以对经过扩增后的基因或者不经过扩增后的基因进行测序获得对应基因的测序信息数据。至于如何进行测序则是可以利用现有任何测序的方法以及利用该方法的设备进行测序。当然，如果驱动因子不是基因水平，而是蛋白水平的时候，则采用可以对蛋白进行测试分析的方法或者设备来完成从而获得蛋白的信息数据。这些驱动因子来自生物体，优选的来自生物体的体液样本，体液样本包括血液、尿液、唾液、汗腺、骨髓液、粪便、或者组织提取液。这些测序或者分析获得驱动因子的，会有分析结果的数据，这些数据可以是含量的多少、拷贝数的数量、变异的数量、变异位点的变化数据，或者其它任何相对的数量、活性或者标记物质的变化等等。一般测序能够得到测序的数据,例如基因核苷酸排列得顺序,拷贝的数据,同时经过进一步分析，可以获得变异的数据。变异的数据包括变异的位置和个数等等数据。所以，样本中的驱动因子的分析或者测试可以是任何已知的方法进行从而或者驱动因子的数据。当然，这些驱动因子中可能含有与癌症关联的驱动因子也可以不含有与癌症关联的驱动因子。特别的，与癌症早期相关的驱动因子并不容易检测，就算测试出来，其含量或者活性很低。这就需要进行再次数据分析，从而才可以准确地进行早期癌症的检测。当然，这里样本中的与癌症相关的驱动因子可以是一个或者一类，或者是几个或者几类驱动因子的测试数据。

在发明的一些方式中，为了能够对核酸或者扩增后的核酸进行测序，则可以在引物上链接有用于测序的序列。该序列是因为不同测序仪器而使用的，这样通过扩增，在扩增产物上链接有测序的序列，方便通过测序设备进行扩增产物的序列的测定。在一些方式中，引物上还包括标签或者标记物质，这些标记物质的作用就是显示扩增产物的数量或者位置的变化，起到一个容易识别的作用。当然，测序序列和标签物质都是优选的实施方式之一，并不是必要的条件。

试剂盒

在一些方面，本发明提供可以扩增样本中游离DNA的试剂盒，包括用来连接在游离DNA片段上的接头序列和/或者与接头序列部分互补的引物序列。在试剂盒中还可以包括游离DNA末端处理试剂、连接试剂、以及扩增必要的试剂。在试剂盒中还包括磁珠，再连接序列被酶切后，利用磁珠进行长度选择，去掉那些长度不符合要求的片段。在一些优选的方式中，利用磁珠对扩增的后的产物进行清洗纯化。

前述在连接序列和引物序列以及扩增等内容中讲到的试剂可以作为试剂盒的一部分试剂。在此不再赘述。当然，该试剂盒还包括从样本中分析游离DNA的试剂，例如一些离心管，磁珠等。在一些方式中，利用磁珠从血浆中分离游离DNA。

以上所有能够提取样本里游离核酸、扩增游离核酸、纯化或者筛选不同长度的试剂(磁珠)中的一种或者几种都是试剂盒的一部分，当然，必要的接头序列和引物是必须的。

驱动因子的权重数据

本发明小组惊讶的发现，当对癌症进行早期检测或者预测的时候，对于样本中的与癌症关联的一个或者多个驱动因子给出一个量化数据，可以进行癌症的早期诊断或者预测。这种量化的数据是对公共数据库统计分析获得的。样本中的驱动因子不一定就是和癌症关联的驱动因子，但是公共数据库里的驱动因子一般都是与癌症关联的驱动因子。这样，当样本里含有与癌症关联的驱动因子的时候，哪怕很微量的驱动因子，可以用统计学方法来给予样本中的驱动因子一些权重数据来表示这些驱动因子与癌症的发生的关联性程度，从而可以更准确的预测癌症或者诊断癌症，特别是早期癌症的检测。

这里的“早期”是一种相对的概念，是对于癌症已经发生或者中期或者晚期的相对的词语。所谓的早期可以指身体出现一些变化，这些变化不容易通过现有设备或者方法进行有效的检测出，但是实际上这些变化预示着癌症的发生或者已经发生。这里的变化一般是一些微量或者微小的不容易察觉的变化。例如，与癌症关联的某些因子已经在生物体存在，由于数量相对少或者变化的程度低，通过现有设备或者方法都不容易有效分析出，从而造成漏检结果，因而难以实现早期癌症的有效检测。而本发明则可以进行早期癌症的检测或者预测或者诊断。这种检测或者诊断的方法或者利用该方法的设备是建立在对驱动因子分析的基础上，通过统计学方法里分析这些驱动因子的权重，采用统计学方法来分析样本中的驱动因子对于癌症的发生或者发展的影响或者潜力的大小，从而进行早期癌症的检测。这里驱动因子的权重数据是从现有已知的公共数据库里经过统计方法分析获得的。通过分析，可以知道这些样本里驱动因子的出现或者出现的数量是否与癌症的发生有关联或者关联是否紧密。下面会详细阐述如何进行分析。

统计分析方法中一个方式就是建立模型，例如数学模型，统计学模型来整体综合考虑，从而进行癌症的早期检测或者预测或者诊断。当然，也可以建立自我学习能力的权重数学模型。除此之外，任何统计学方法都可以被用到本发明的方法中来进行样本中的驱动因子的权重分析。这些通过统计学方法都可以通过分析公共数据库里的与癌症关联的驱动因子的数据而获得权重的数据，从而结合样本里的驱动因子来分析计算样本里驱动因子与癌症关联的权重数据。在一些方式中，对样本中多个驱动因子进行测试或者分析，通过统计学方法来计算这些驱动因子与癌症关联的程度或者具有影响癌症发生的潜在能力的大小，也可以认为来计算这些驱动因子在影响癌症的发生中的权重的大小。在这里，样本中的驱动因子与公共数据里的因子是可以相同的，也可以不相同，可以是同类的，也可以是不同类的。在另外一些方式中，对样本中多个驱动因子进行测试或者分析或者测试或分析的结果，然后通过统计学方法来分析公共数据里所有与癌症驱动因子的权重，然后来检测癌症的发生。在本实施例子中，样本中的多个驱动因子是公共数据库里所有与癌症驱动因子的子集，即数据库里的因子包括样本中所测试的驱动因子。在另外一些方式中，样本中的驱动因子可以是多个不同的驱动因子的集合，或者多个驱动因子的相同的一个指标。例如多个生物物质的含量多少，或者活性的多少，其中含量或者活性是指是一个相同的指标。当然也可以以上各种因子的组合。例如多个驱动因子不仅包括生物物质的个数的集合，也包括具体每一生物物质的具体个数。如果驱动因子是基因水平，可以是全基因中变异的个数，突变位置的改变的个数，或者全基因的拷贝数等。所以，可以理解，对于公共数据库里利用统计学方法来分析样本中所使用的因子并不一定与样本中的驱动因子相同。例如，当测试样本中某个特定基因的变异或者拷贝数的时候，而给予该特定基因的权重的数据可以是通过统计学分析公众数据里多个基因、多个基因的变异，多个基因的拷贝数等来给予样本中的特定基因的一个权重，从而评估样本中特定基因与癌症发生的关联紧密程度的一个数据。再例如，当测试样本中所有基因的拷贝数的时候，通过统计学分析公众数据里所有基因与癌症关联程度的权重，从而结合权重数据和拷贝数来进行癌症的早期诊断。

在一些方式中，可以结合从其他公共数据库计算出的样本中驱动因子的权重，并且采用统计方法来建立这些驱动因子与癌症发生的关联程度的模型，从而检测或者预测肿瘤或者癌症发生或者发生的概率。而这些统计学的权重数据则来自对于公共数据库的分析，分析的方法可以包括一些常用的统计学方法来分析，例如建立数学模型来进行驱动因子的权重分析。

在一些方式中，所谓的驱动因子是基于基因的水平来分析的。在一些方式中，是针对样本中的核酸水平进行分析的。在一些方式中，是基于血液样本中的游离核酸的数据的。在一些方式中，是游离核酸的全基因组数据的。这里全基因组的数据不仅仅是可以是游离核酸的拷贝数，还可以是游离核酸的变异或者突变或者甲基化数据，或者也可以是全基因组核酸序列的对应的编码蛋白的氨基酸序列信息，例如序列的排序、修饰等信息，或者以上信息的组合或者单个信息。除了游离核酸的信息外，与癌症关联的还有些其驱动因子，例如化学物质的摄入、受环境环境因素影响的因子，例如射线因子，紫外线照射，辐射照射等等因子都可以是本发明的与癌症关联的驱动因子。本发明小组意外的发现，这样的方法以及采用这样的方法的设备可以早期检测或者预测癌症的的发生，从而与实际的结果相符程度更高，关联程度更高，具有更高的准确性，减少了误判，提高了准确性。这可能是因为，虽然样本中与癌症关联的驱动因子很多，但是这些每一个驱动因子与癌症的关联程度并是不一样的，即这些驱动因子并不是具有相同的能力来影响癌症的发生或者不发生，而是在癌症驱动因子中，有些起着重要的作用，有些起着次要作用，有些甚至可能没有作用或者很小。这样对癌症驱动因子的作用进行统计学意义上的分析，从而找出那些与癌症关联程度的高的驱动因子的集合，当与癌症关联的因子的集合的数量或者某些信息增加到一定的水平(阈值cut-off)，则可以认为具有癌症的发生，这样可以显著提高早期癌症的诊断。这样，如果样本中含有高于某种水平(阈值)的驱动因子的量化(权重分析过的)，则预示着癌症的发生的可能性很大或者已经发生了癌症，相反则很小或者不会。

这与传统的单个因子分析具有显著的优势，单个因子分析往往集中在单个因子本身上的变化，例如某些特定已知生物物质的数量的变化或者数量的多少来进行单因素的分析，这可能是，当特定物质存在的时候，表示癌症已经明显出现了，有些甚至发展了中期或者晚期了。另外，当某些特定物质虽然存在但不一定就确定癌症的发生，则会造成很多检测结果的假阳性结果，从而造成误判的结果。例如，当采用血液样本中游离核酸进行分析的时候，通常需要提取游离游离核酸，然后进行测序或者扩增。由于循环游离核酸中不仅包括正常的游离核酸，还包括循环游离肿瘤核酸的。特别在早期癌症的阶段，肿瘤循环游离核酸的含量本身就很少，虽然通过扩增，但是相对正常的游离核酸来讲，他们所占的比例也是非常低的。通过这些异常的数据或者异常的来变化(数据少或者变化很小)进行早期癌症的诊断，是一件很不容易的事情，因为这种变化常常很难捕获或者很难发现。有些甚至发现，也很难与癌症的发生进行直接关联。

可以理解，这里的游离核酸的提取，分离纯化以及扩增，并不一定是按照本发明的方法进行的过程才可以用来分析。本发明的对游离核酸的扩增仅仅是一个优选的方案，相反，其它任何能够实现样本中游离核酸的测序或者扩增的方法所获得的游离核酸的序列信息有可以作为本发明的分析的数据源。当使用设备的时候，这些序列信息可以存贮在设备的存储设备中并用来读取和进行分析。当然，这样的设备也可以包括读取这些序列信息的读取功能模块，来读取序列信息并进行后续的分析。

而本发明正是从该问题出发，在对游离核酸进行全基因组测序获得测序信息的时候，给全基因的每个基因给予权重数据分析，从总体上来诊断早期癌症的发生。这种权重的数据是通过外在的已有的数据库进行统计分析的结果。而本发明则认为，例如，当对血液样本中的游离DNA进行分析的时候，虽然对血液样本中的游离核酸进行了测序分析并且发现出现了很多肿瘤核酸的突变或者变化(癌症驱动因子的出现或者变化)，仍然需要对这些变化的位点或者变化进行一个统计学的权重分析，给这些本身的癌症驱动因子的变化进行权重数据分析，从而判断每一个癌症驱动因子与疾病的关联的程度，进而进行早期疾病的诊断，特别是早期的肿瘤的预测。在一些方式中，量化游离核酸的拷贝数，然后对癌症的所有基因做权重统计分析，建立数据模型，然后结合每一个基因的权重和拷贝数并通过统计方法来预测癌症的发生，例如肝癌的发生概率问题或者诊断肝癌。这里的权重分析是对公共数据库里的所有基因采用统计学方法进行权重分析。这里的公共数据库主要是一些癌症的数据，例如肝癌、肺癌、乳腺癌、结肠癌、直肠癌、前列腺癌，胰腺癌等等公共数据库。

这样的方法特别是在低深度测序的情况下，可以通过不同的算法和数据处理方式来克服低深度测序带来的不利影响。这样既可以节约成本，也不影响预测的结果,达到早期预测的目的。当然，对于那些测序为高深度的情况下，仍然适用。侧序深度仅仅表示侧序的准确或者精度而言，但并不能进行早期癌症的检测。正如前面所述，循环游离核酸里的游离肿瘤核酸含量很微量，非常难于准确的检测，从而也给检测结果与早期癌症的检测带来困难。

利用这样的样本来预测癌症发生的概率或者用来诊断癌症，并不是直接的疾病诊断结果。为了确认这样的结果，还可能应该进行其它方面的检查或者化验来进行确认。这种概率的高低或者检测结果有些可能与实际癌症的发生相符合，仅仅表示具有高度的概率问题，而不一定就确认就是癌症患者。仅仅是对中间数据的处理的结果，是一种预测风险概率的高低问题。

所以，对于样本中驱动因子的权重分析的数据通过对公共数据库进行统计学方法进行分析获得，用来进行早期的癌症的检测和诊断。实际上，现有公共数据中与癌症关联的驱动因子的权重可以获得统计学意义上的数据，而样本中的驱动因子是随着不同的样本不同而不同的，这样就可以根据不同的样本的驱动因子的权重的分析，采用统计学方法来预测或者检测癌症的发生的可能性。例如某些样本来自生物体，可以通过样本驱动因子的分析，可以预测癌症发生的概率。当预测某种特定癌症的时候，就从该特定癌症或者肿瘤数据库中进行部分或者每一个癌症驱动因子的权重分析，从而获得与癌症关联的驱动因子的潜力的大小，则也可以称之为影响肿瘤或者癌症的权重的大小。从而采用统计学方法获得与癌症驱动因子的权重数据，例如获得驱动因子的权重模型。这里的权重模型可能因为不同的肿瘤而具有不同的最合适的模型。而且，不同的癌症，具有不同的驱动因子。当然，有些驱动因子可能是所有癌症的驱动因子，有些因子可能与特定的癌症具有关联性。凡是与癌症关联的因子都称之为癌症驱动因子。所以，当驱动因子是基因水平的时候，则称之为癌症驱动基因。对于公共数据库里癌症的驱动基因的权重分析也是可以多个因素的统计学方法分析。例如该基因相关联的突变，拷贝数，该基因的蛋白表达，甲基化，或者各种其它蛋白修饰等因数来综合分析某一个或者某些基因与癌症发生的关联性程度或者权重大小。当然也可以是多个因素的综合分析，也可以是单一因素的分析，或者部分因素的分析来对驱动基因与癌症的影响程度之间的关联性程度或者权重大小。在这里多个因素也可以称之为公共数据库里具有的多个癌症的驱动因子。所以，给样本里的驱动因子进行权重分析数据也可以是来自公开的数据库里的癌症驱动因子的权重数据。

在一些方式中，对于血液中的游离核酸进行测序分析或者游离核酸的测序信息，然后对于测序而获得的每一个基因的变化进行统计学意义上的权重分析，然后采用统计方法来分析每一个基因与癌症的关联程度，然后采用统计方法预测癌症发生的可能性。测序信息可以包括循环基因的序列的变化，也可以包括某些特定基因的序列的变化。当然，游离核酸的测序也可以包括与癌症关联的变化的一个或者多个基因的变化(与癌症关联的驱动基因)，也包括与癌症不相关的基因的变化。在这里，与癌症关联的基因的变化或者每一个变化称为驱动基因的变化，所以，当是样本中的游离核酸进行测序的时候，所测序体现出来的变化中，与癌症相关的驱动因子可以是多个驱动基因的集合，也可以是一个驱动基因的变化。

在一些方式中，每一个与癌症发生相关的驱动因子。例如，与癌症关联的驱动基因的权重来自对于公共现有数据的统计分析而获得的。然后对样本中的驱动因子进行统计学上的权重分析。在一些方式中，样本中可以包括一个或者多个驱动因子，这些对应的驱动因子的权重的数据来自公共信息数据库的统计学意义上的分析。而这些样本中的驱动因子的权重数据则具有不同的分析方法。例如可以对公共数据里的与样本对应的驱动因子的权重分析，也可以是对公共数据库里每一驱动因子进行权重分析，也可以是对公共数据库里与样本中不同的其它驱动因子的权重分析，让这些权重数据与样本中的驱动因子关联，表示样本中的驱动因子与癌症发生的关联的程度或者影响癌症的重要程度进行划分。这些划分或者技术不是简单的计算，而是采用统计学的方法进行。

在一些方式中，样本中包括多个驱动因子，而对这些驱动因子的统计学权重是对公共数据中多个驱动因子(多个因素)的权重分析的结果。其中样本中的驱动因子是公共数据库中进行权重分析的多个驱动因子的子集。例如，当对样本游离基因进行侧测序而获得测序信息，这些信息包括与癌症关联的驱动基因的变化，包括序列的变化或者/和拷贝数的变化，也包括与癌症不相关的基因的变化，例如序列的变化或者/和拷贝数的变化。而这些驱动基因(样本中与癌症关联的基因或者不予癌症关联的基因)的权重则是来自公共数据里，每一个基因是癌症驱动基因的权重分析，即采用统计方法分析公共数据库里每一个基因是驱动癌症发生的潜力的大小。所谓潜力的大小是指每一个基因与癌症发生中起到的作用的大小，作用大小也可以称之为权重的大小，这个权重是统计学意义上的。从这个意义上讲，样本中的与癌症驱动关联的驱动基因和来自数据库中每一个基因与癌症发生的权重是被包含的关系，即样本中与癌症关联的驱动基因是来自公共数据库里的每一个基因的子集，而是用公共数据里的每一个基因的权重数据(与癌症发生关联的大小)来进行样本中与癌症关联的驱动基因的统计学意义上的权重计算，从而预测早期的癌症发生的几率。而对数据库里每一个基因的权重分析并不是考虑一种因素，可能是多种因数的统计分析，例如该基因的突变，拷贝数，编码蛋白的修饰、或者过程中的其它任何因素都是可以做一某一基因权重分析的考虑因素。

对于公共数据库中与癌症驱动因子的权重分析，实际上就是考察每一个驱动因子对癌症的发生、发展的影响力，从而量化每个驱动因子的影响潜力：当驱动因子是基因的时候，通过统计学分析每个基因对癌症发生的影响力的大小；当驱动因子是蛋白的时候，通过统计数学分析每一个氨基酸或者蛋白片段对癌症影响力的大小；当驱动因子是某些外界因素的时候，通过统计数分析每一个外界因素对癌症发生或者发展影响力大小的。例如当驱动因子是辐射的时候，可以采用统计数分析符合因子对癌症发生或者发展的影响力。可以容易理解，驱动因子直接的量化是来自样本的，而该驱动因子的权重则来自公共数据库的对该驱动因子权重的分析，来说明该驱动因子对癌症的发生、发展的影响力，这种影响力是具有量化的数据。这样，来自样本的驱动因子的量化可能很高，但是对癌症影响力却很小，甚至没有；相反，有些来自样本的驱动因子的量化不高或者极少，但是对癌症的影响力却很大或者极其显著，则可以早期预测癌症的发生的概率。这种的分析和预测并不是简单的加减乘除的方法，而是采用统计学分析方法。这里的量化可以是简单的数据上的计算，例如拷贝的多少，也可以是含量的变化，比如某些生物物质的浓度的高低等。这可能与癌症发生的复杂因素有关，有些并不是单个因素就能影响癌症的发生，当然这里不排除单个因素的影响。

在一些方式中，可以选择来自样本的多个驱动因子进行多种驱动因子的权重分析，从而预测癌症的发生概率。例如可以采用全基因片段的拷贝数作为一个驱动因子来计算每一个基因的权重。当然也可以采用样本中某些特定基因的拷贝数、突变位置的变化、突变位点的个数等等来计算他们在每个样本里的量化，然后从其他公共数据计算他们的权重，从而采用统计方法把样本测的数据和驱动因子整合在一起来预测癌症发生的概率。例如可以通过测序来分析血液样本中游离DNA的拷贝数，然后计算每一个基因后者部分基因的权重，进而利用权重数据和拷贝数，采用统计方法预测癌症发生的概率问题。

在一些方式中，在驱动因子权重计算的时候，可以仅仅考虑公共数据里对应驱动因子，也可以考虑其它公共数据的其它因素(这里的因素也可以称之为癌症关联的驱动因子)。例如采用本样本基因拷贝数，同时在读公共数据里计算基因权重的时候，不仅需要考虑拷贝数，还考虑基因的突变、甲基化，蛋白表达，基因表达，转率、蛋白修饰、或者其他任何因素，例如外界环境因素，核辐射、紫外照射、药物的服用、饮食习惯、肥胖程度、或者其他的因素，例如年龄、性别、微量元素的含量等其他因素来量化该基因的权重数据。可以选择的，当选择来自样本的蛋白表达的时候，同时在分析公共数据里计算该蛋白的权重的时候，不仅需要考虑基因的拷贝数，还考虑基因的突变、甲基化，基因表达，转率、蛋白修饰、或者其他任何因素，例如外界环境因素，例如核辐射、紫外照射、药物的服用、饮食习惯、肥胖程度、或者其他的因素，例如年龄、性别、微量元素的含量等其他因素来量化该基因的权重数据。可以理解，当选择来自样本的甲基化的水平的时候，同时在读公共数据里计算基因权重的时候，也可以仅仅计算甲基化水平对癌症的影响力的数据。也就是说，来自样本某一个驱动基因的权重可以用公共数据库里多个驱动因子来计算它的权重。当然，来自样本某几个或者多个驱动基因的权重可以用公共数据库里多个驱动因子来计算它的权重。可选择的，来自样本某几个驱动基因的权重可以用公共数据库里一个驱动因子来计算它的权重。

统计学方法计算权重的方法包括很多中方法，例如包括贝叶斯非参数统计模型整合多组学数据来量化每个基因是癌症驱动基因潜力的大小，还可以用单维数据来简化计算过程，比如只用突变数据。从更广的意义来讲，权重可以来自于任何外部数据，方法也很多，这样我们的模型能有效的利用任何形式的数据。比如说可以从肿瘤全基因组测序的非编码序列提取基因调控的权重，从其他相关肿瘤的ccfDNA的数据提前的权重，等等，都可以来衡量权重。

例如，针对肝癌的早期预测，建立贝叶斯非参统计模型来量化每个基因是驱动基因的潜力。使用的数据库是公共数据库(The Cancer Genome Atlas,TCGA)里的肝癌多组学数据(拷贝数，突变，甲基化，蛋白表达，基因表达，等等)。TCGA多组学数据对驱动基因的量化作为权重，让权重高的驱动基因起到更大的作用，来捕获早期肿瘤里的微弱的但是稳定的重要的信号。TCGA是国际合作的最大的肿瘤的基因组学变异的项目，涵盖几十种肿瘤，包括肝癌。肝癌有上千列病人，每个病人的肿瘤组织分别测了全外显子序列(目的是检测突变)，甲基化的数据(Illumina 450K的芯片，主要测CpG岛的甲基化)，基因表达普(Affymatrix的芯片)，拷贝数的变异(Illumina的芯片)，蛋白表达(芯片)。

在一些优选的方式中，开发了有权重的随机森林的机器学习模型来更好的捕获早期癌症的微弱但是稳定的重要信号来达到针对癌症的诊断精确度。

以肝癌为例进行详细的说明：具体的步骤和原理如下(见图4)。图4A)是生成随机森林的输入数据矩阵。列代表每个区域是校正过的测序深度，行是每个样本。图4B)是常规随机森林里的一个二叉树的建立。这个二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，这个特征变量可以最好的把肿瘤和乙肝病人分开。图4C)是有权重的二叉树的建立。

建立有权重的随机森林的机器学习模型捕获早期肝癌的信号；具体的步骤包括如下如下：

生成随机森林的输入数据矩阵，列是特征变量，代表每个区域是校正过的测序深度，行是每个样本；建立常规随机森林里的一个二叉树，所述二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，所述特征变量将肿瘤和乙肝病人分开。用来分割肿瘤和非肿瘤样本的特征变量称为分割变量；

建立有权重的二叉树，分割变量的确定是两个因素决定的，一个是特征变量的数据本身对乙肝和肝癌的分割的准确度，另一个是特征变量对应的1Mbp区域(这里的区域可以任意选择，优选的是和拷贝数的区域长度相同，当然也可以不对应或者其它区域的长度)里含有驱动基因的潜能；若这两个因素的结合分析的结果最大，则该特征变量被选为二叉树的分割变量；判断基因是驱动基因的权重来自于TCGA多组学的整合，驱动基因的潜能作为权重来影响二叉树的建立。

驱动基因作为权重的具体体现为：

计算根据权重校正后的Gini指标，即Gini__校正(D,A)＝Gini(D,A)*penalty(A)，其中D是训练集里肝癌和非肝癌的标记数据，A是一个候选分割变量。其中，Gini(D,A)是根据肝癌和非肝癌的标记数据来衡量候选分割变量A对区分肝癌和非肝癌的效果，数值越小表明区分的准确度越高。对于D来说，

其中p₁,p₂是乙肝和肝癌的比例，满足

penalty(A)是对候选分割变量的惩罚，其值大小与驱动基因具有权重关系，驱动基因权重越大惩罚越小，校正后的Gini(D,A)也越小，这个候选分割变量被选上的可能性也越大，体现了驱动基因的作用。

肝癌数据可以通过以上方法建立基因的权重，当然可以对其它癌症建立类似的权重数据，当然也可以通过其它统计学方法建立其它驱动因子的权重学习模型。

在一些方式中，样本中包括单一的驱动因子，例如某一个特定基因的拷贝数，而给特定基因的权重则来自对公共数据库该特定基因的权重统计分析而获得的结果。当然也可以是某些特定核酸的拷贝数，例如游离核酸的全基因拷贝数。计算拷贝数的方法具有多种方法，可以采用利用测序深度来计算拷贝数，例如把基因组分成不用长度的区域，这些区域互不重合，然后用测序的深度来表示这个区域的拷贝数。

在一些优选的方式中，当采用驱动因子为基因的拷贝数的时候，当获得测序测序结果后，可以对测序获得的信息进行校正，利用校正后的测序深度来计算某个区域的拷贝数。在一些方式中，校正的对象就是校正GC含量，以及对基因组的“可比对性(mappability)文件进行校正。

其校正GC含量的原理为(mappability的矫正原理相同)：GC含量对测序深度的影响大体是钟形的，GC含量在居中的区域往往有更多的reads，而高于或低于这个值的区域呈递减的趋势。这样，我们可以先算出基因组上每100碱基对的GC含量出来，然后把对于每个GC含量(0-100％)对应的reads数提取出来，这样我们得到101个数，每个数代表在每个GC含量的实际测到的reads。用X代表0-100的GC含量，Y(X)代表对应的reads数。校正的目标是让不同的GC含量都有相同的reads数，这样就消除了GC含量的影响。我们可以先用核平滑的方法来降低Y(X)的浮动，然后再校正。我们用的是高斯核，

其中x*是我们当前关心的GC含量，x_i是其他的GC含量，b控制周围GC对当前GC这个含量的影响。

在本试剂盒中我们用b＝10。核平滑后结果是

其中我们把高于95％和低于5％的GC含量的区域去除，因为这些区域很少，去掉后增加稳定性。对每个GC含量校正后reads数是核平滑后的结果乘以一个对应于GC含量x*的常数，即

常数

其中

是所有GC含量里的reads平均数。

以上这个模型的优点是可以有效的消除GC含量及mappability对比对到基因组的测序深度的影响。如果不消除的话GC含量和mappability会成为真正的拷贝数对应的测序深度的混杂因素，增加假阳性和假阴性。我们模型具有自适应性的优点，对这些混杂因素的去除是数据驱动，可以自动处理不同形式的混杂因素。

校正可以消除基因组的序列特性(GC含量，mappability等等)对比对的影响。因为拷贝数是用比对到基因组的测序深度来测度的，而比对到某个特点位点的reads的数目是受到基因组特性和实验条件的影响，开发的算法的目的是消除这些因素的影响。这样的话基因组不同的区域具有可比性，不同试验条件(温度，扩增的循环数，起始DNA的含量，等等)也有可比性。这样消除了其它因素的影响，这是测序深度来计算拷贝数的。可以理解，校正并不是必要条件，仅仅是一个优选的方案。

肝癌的早期预测方法

在一些方式中，对于与癌症关联的驱动因子的权重分析的数据库可以是任何与该癌症相关的数据库，例如是肝癌的时候，则选择TCGA中肝癌相关的数据库进行分析。而权重分析的方法可以是常用的统计学方法，统计学方法通常就是建立模型来量化每一个驱动因子的驱动潜力。例如当采用血液游离DNA进行分析的时候，由于样本中的游离DNA含量低，而且如果是早期肿瘤的样本，肿瘤循环DNA的含量更少，则需要早期预测某些癌症的发生概率的时候，需要进行一些改进的方法，才能更加准确。这种改进的方法不仅包括对于游离DNA的精确提取，也包括对游离DNA的准确扩增或者准测序，对于测序结果进行准确有效的分析，来获得准确的拷贝数，同时采用有效的分析方法进行准确的预测分析，最终才可以获得早期的结果。虽然，整个过程具有多个因素的影响，但是对任何一个环节的改进，都会让结果更为准确。

针对早期肝癌来设计的训练集来有针对性的提高对早期肝癌的诊断准确性。根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型训练集上做模型。每个1M区域的权重是这个区域里所有基因权重的总和。本发明自主开发实现了权重随机森林的算法，核心是加入了有权重的二叉树的算法，有针对性的提高早期肝癌的预测准确度。在建立随机森林模型对过程中，我们目标是建立B＝1000个随机有权重的二叉树，每个b＝1,…B二叉树到建立是根据随机抽取到80％的训练样本和80％的特征变量。当对一个样本特征值是x的新样本进行预测时，随机森林中每个权重二叉树对新样本进行预测，用f(x)来表示第b个权重二叉树对本样本的预测结果，f(x)＝0或1来表示是预测成乙肝或肝癌。

最终得到的模型为

B是随机森林中权重二叉数的个数，f_b(x)是第b个权重二叉数对一个样本特征值x的预测结果；

的范围在0到1之间，代表具有肝癌的可能性；若

大于预先设定的阈值，则判断为肝癌。需要说明的是：阈值是根据诊断的要求设定的值，从而达到灵敏度和特异性。

在一些方式中，当进行肝癌的早期预测的时候，可以挖掘TCGA数据库中的肝癌多组学数据，建立贝叶斯非参数统计模型来量化每一个基因是肝癌驱动基因的潜力的大小或者权重的大小，从而建立有权重的数据模型。在一些方式中，当对样本中游离DNA的拷贝数进行分析后，把在公共数据库里学到的每个基因是肝癌驱动基因的权重的大小与拷贝数极性统计数分析，例如模型分析，从而获得早期的肝癌的预测结果。采用以上计算方法的设备也是可以具体完成肝癌的检测和诊断。

拷贝数负荷

在一些优选的方式中，当采用拷贝数和权重预测癌症的发生概率的时候，还可以采用拷贝数负荷来诊断癌症。例如用拷贝数负荷来诊断肝癌。具体步骤如下。

在一些优选的方式中，当采用驱动因子为基因的拷贝数的时候，当获得测序测序结果后，可以对测序获得的信息进行校正，利用校正后的测序深度来计算某个区域的拷贝数。在一些方式中，校正的对象就是校正GC含量，和或者基因组可比对性(mappability)文件进行校正，具体校正方法参见前面的描述。校正区域的长度可以和拷贝数的计算区域长度相同，例如1Mbp区域内进行校正。先校正比对后在每个1000bp区域的测序深度，然后用隐马尔科夫模型来平滑相邻的区域的校正后的测序深度，这样整个基因组分成连续的片段，每个大片段有个相对的拷贝数的变化。把这些有拷贝数变化的大片段的长度乘以这些大片段各自的相对的拷贝数，然后把这些数值加和，作为这个基因组的拷贝数的负荷。对于肝癌的模型，例如针对用大样本的乙肝来建立拷贝数的分布，如果低于这个分布的99％的分位数记为零。负荷为零的判断为乙肝，高于这个数的数值代表为肝癌的可能性，数越高是肝癌的可能性越大。

分析设备

通过前述介绍的方法，可以进行有效的早期癌症的检测或者预测，这些任何方法都可以通过设备来自动或者半自动完成。通过设备完成可以自动计算完成也可以是半自动的完成，或者通过设备来完成部分的方法步骤。可以理解为，当获得样本中驱动因子的测试数据后，可以把数据导入到分析设备中，分析设备中预先写入了方法和分析的步骤，然后对驱动因子进行自动的分析，从而获得早期的癌症检测结果。在一些方式中，设备包括读取样本中驱动因子数据的模块，可以自动获得驱动因子的数据信息。在一些方式中，设备包括能够分析公共数据库来获取样本中驱动因子的权重的模块或者功能，从而当样本中驱动因子数据被设备读取的时候，可以自动进行样本中驱动因子的权重的分析，进而直接获得癌症的检测结果。实际上，在这里，来自样本驱动因子的数据和来自公共数据里的驱动因子的权重的数据都可以在一个设备里同时完成，也可以是在一个系统里的不同设备来完成。例如，当对血液样本里游离基因进行测序获得全基因组的测序分析，然后获得全基因组的拷贝数。而设备包括有全基因组的每个片段或者基因的权重的数据，这些全基因组权重的数据是通过设备自动在数据库里通过统计的方法计算而来的。这些全基因组权重是指与癌症发生关联紧密程度的数据，也可以称之为全基因组影响癌症发生的权重的数据。这样，在设备里，让全基因组的拷贝数和全基因组的权重数据通过统计学方法进行自动计算而获得早期癌症的检测结果。可以容易理解，在样本中任何驱动因子的检测或者测试获得的数据都可以通过设备来自动分析完成这些驱动因子是否与癌症发生有关联的检测，从而进行早期的癌症检测。

具体实施方式

具体实施方式仅仅是以举例的方式来说明本发明是如何实现的，而不能作为本发明的限定。在那些不违背本发明精髓下任何改变、改进都是本发明所保护的范围，具体体现在本发明的权利要求中现在通过本发明的试剂盒和分析方法来阐述本发明是如何实现的，仅仅用肝癌为例子来进行说明，这样的分析方法和游离DNA的扩增方法可以是相互关联的，也是可以独立各自存在的。即游离DNA的扩数增和测序是可以单独存在，通过其扩增和测序，可以获得测序的信息，用于测序的信息中包括基因的变异，突变，拷贝数，还包括其它任何的可能的的数据，例如正常游离DNA的数据。只是，当对于分析某种特定的癌症的时候，可以只是选取其中一部分数据来作为分析的，当然，也可以选择全部的数据作为后续分析。具体通过下面的实施例子来进行说明。

实施例子1：肝癌游离DNA的扩增试剂盒

用于早期肝癌辅助诊断的试剂盒，包括如下试剂：ccfDNA末端处理体系；环状接头反应体系，0.06-0.15U/ul USER酶；PCR扩增体系；磁珠。ccfDNA：循环游离DNA(circulatingcell-free DNA)。

ccfDNA末端处理体系组成为：，0.003-0.007U/ul的T4DNA聚合酶，0.1-0.3U/ul的T4多聚核苷酸激酶，0.0015-0.0035U/ul的TaqDNA聚合酶，1x T4DNA连接酶缓冲液，0.2-0.6mM dNTP,0.1-0.3mM ATP，2.5％的PEG4000粘合剂。

环状接头反应体系组成为：0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的环状接头，所述环状接头序列：5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGTC dU A CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’。

PCR扩增体系按照体积份数组成为：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。上述各成分均购买自Thermo Fisher(赛默飞)。使用试剂盒进行扩增或者测序的方法为如下过程：

第一部分：分离ccfDNA

1.取8-10毫升全血到Streck取血管。

2.离心分离血浆和白细胞(1600g离心10分钟，取出血浆上清液，然后2000g离心10分钟)。

3.使用QIAamp Circulating Nucleic Acid DNA Extraction Kit(购买于凯杰公司)从血浆中分离ccfDNA。分离步骤按照试剂盒的手册进行。

第二部分：全基因组测序文库构建的具体步骤：

1.ccfDNA进行末端处理，包括末端修复，5’末端磷酸化，加上polyA尾端；

总反应体系一共30ul，包括20ul的ccfDNA(第一部分分析得到的)和10ul的酶和缓冲液。酶和缓冲液组成成分如下：0.005U/ul的T4DNA聚合酶，0.2U/ul的T4多聚核苷酸激酶，0.0025U/ul的Taq DNA聚合酶，1x T4连接酶缓冲液，0.4mM dNTP,0.2mM ATP，2.5％的PEG4000(粘合剂)。37度15分钟，72度30分钟，4度保存。上述各成分均购买自赛默飞，除了PEG粘合剂(购买自Sigma-Aldrich)。

2.片段两端加上环状接头(loop-Adaptor)将环状接头中间用USER酶(NewEngland Biolabs)切开，产生两个互补的单链。用磁珠法进行长度选择，去掉长度不符合要求的片段。具体操作为：将磁珠和切开接头的序列的片段混合在一起，然后离心，通过调节磁珠和片段的比例来选择100-600bp长度的片段，这些片段在离心之后附着于磁珠，而过长或者过短的片段游离存在于上清液中。离心之后通过洗脱液将附着于磁珠的片段脱离下来。上述各成分均购买自赛默飞。磁珠购买自Beckman Agencourt。

环状接头反应体系组成有：0.1-0.3U/ul的T4连接酶，1xT4连接酶缓冲液，和0.7-1.2uM的环状接头；环状接头序列：5’-P-GAT CGG AAG AGC ACA CGT CTG AAC TCC AGT CdU A CAC TCT TTC CCT ACA CGA CGC TCT TCC GAT CT-3’。上述各成分均购买自赛默飞。

作为一种优选，总反应体系一共45ul,包括30ul的刚完成的末端处理反应液和10ul的连接反应液。最终反应体系中包括最终浓度0.2U/ul的T4连接酶，1xT4连接酶缓冲液，和1.0uM的环状接头。20度2小时。在反应液中加入最终浓度为0.1U/ul的USER酶。37度30分钟，4度保存。上述各成分均购买自赛默飞。

4.PCR扩增；

PCR扩增体系按照体积份数组成有：15-25份DNA片段，3-8份的引物1和引物2，20-30份的PCR反应master mix；

Master mix包括：2x PCR多聚酶和2x的PCR反应缓冲液。

引物1的3’端与环状接头的5’端互补，5’端是用于Illumina测序的P7引物，中间是标签；

引物2的3’端与环状接头的3’端互补，5’端是用于Illumina测序的P5引物。

作为一种优选，总反应体系一共50ul，包括20ul的长度符合要求的DNA片段，5ul的引物1和引物2，以及25ul的PCR反应master mix。Master mix里面包括2x高保真PCR多聚酶和2x的PCR反应缓冲液。

引物1序列：5’CAA GCA GAA GAC GGC ATA CGA GAT NNNNNN GAC TGG AGT TCAGAC GTG TGC TCT TCC GAT CT-3’，其中NNNNNN可以是自己设计的6个核苷酸的标签；

引物2序列：5’AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCC CTA CACGAC GCT CTT CCG ATC T-3’。上述各成分均购买自赛默飞。

5.扩增后的产物的两端是Illumina测序仪需要的P7和P5引物，用磁珠法进行清洗纯化。具体操作为：将磁珠和切开接头的序列的片段混合在一起，然后离心，通过调节磁珠和片段的比例来选择100-600bp长度的片段，这些片段在离心之后附着于磁珠，而过长或者过短的片段游离存在于上清液中。离心之后通过洗脱液将附着于磁珠的片段脱离下来。上述各成分均购买自赛默飞。磁珠购买自Beckman Agencourt。文库构建完毕后，使用Illumina的HiSeq2500,3000,4000,X10,或者NovaSeq进行高通量测序。

如图2A和2B所示，使用安捷伦TapeStation分析，建库之前的ccfDNA的分布，和用我们的方法建库之后的库的分布。建库之前ccfDNA的长度峰值在大约170bp左右，建库过程连接上环状接头，USER酶切开，然后再在两端加上扩增引物，最终的测序文库长度在大约310bp左右，说明我们建库方法成功。

采用相同的方法，仅仅是接头序列和引物的不同(图11)中的几组接头序列和引物序列，按照前述的方法进行建库，发现有些可以成功建立，有些则不能成功。例如图2B，2C，2D，2E所分别对应接头序列和引物序列的1-4号都可以，而第5组接头序列和引物建库的效率很低，体现在图2F库的量远远低于其他(图2B,2C,2D,2E)。

这就说明，对于游离核酸的有效扩增是需要特定的接头序列和引物能够完成的，并不是任何接头序列和引物都可以完成的。

完成了扩增和测序后获得的测序信息可以被用来进行后续的计算和分析，通过统计学方法来检测癌症是否发生。

第三部分:数据分析的算法的步骤和原理

1.原始测序数据的比对到人的参考基因组上。

实际上就是样本里的测序的信息与标准品进行比对，来确定测序的信息与人参考基因组进行比对，从而确认测序的信息所对应标准的具体位置。这个是所有二代测序都要做的，目的是看测到的reads是来源于基因组的哪里，也就是说把测到的reads经过与参考基因组的比对来确定具体的位置。比对的方法有很多，现在最常用的是BWA的软件。

2.对比对到参考基因组的序列做校正来消除基因组的序列特性(GC含量，mappability等等)对比对的影响。

因为拷贝数是用比对到参考基因组的测序深度来测度的，而比对到某个特点位点的读取(reads)的数目是受到基因组特性和实验条件的影响，本发明开发的算法的目的是消除这些因素的影响，这样的话基因组不同的区域有可比性，不同实验条件(温度，扩增的循环数，起始DNA的含量，等等)也有可比性。

校正GC含量mappability的原理为：GC含量对测序的影响大体是钟形的，GC含量在居中的区域往往有更多的reads，而高于或低于这个值的区域呈递减的趋势。所以，我们先算出基因组上每100碱基对的GC含量，然后把对于每个GC含量(0-100％)对应的reads数提取出来，这样我们得到101个数，每个数代表在每个GC含量的实际测到的reads。用X代表0-100的GC含量，Y(X)代表对应的reads数。校正的目标是让不同的GC含量都有相同的reads数，这样就消除了GC含量的影响。我们先用核平滑的方法来降低Y(X)的浮动，然后再校正。我们用的是高斯核，

其中x*是我们当前关心的GC含量，x_i是其他的GC含量，b控制周围GC对当前GC这个含量的影响。在本试剂盒中我们用b＝10。核平滑后结果是

常数

其中

是所有GC含量里的reads平均数。

这个模型的优点是可以有效的消除GC含量及mappability对比对到参考基因组的测序深度的影响。如果不消除这些影响的话那么GC含量和mappability会成为真正的拷贝数对应的测序深度的混杂因素，增加假阳性和假阴性。我们模型具有自适应性的优点，对这些混杂因素的去除是数据驱动，可以自动处理不同形式的混杂因素。

3.把基因组分成1Mbp的不重合的区域，在每个区域里把校正后的测序深度加和来代表这个区域的拷贝数的量化。

比对后参考基因组的每个位点都可以算出每个位点有多少个reads覆盖，对应于每个位点的覆盖的reads的数目是这个位点的测序深度。校正后深度决定于拷贝数的变化，如果没有拷贝数变化的话每个点跟全基因组的平均是一样的。如果有缺失的话对应的位点测序深度会低，相反，如果有重复的话对应的位点的深度会高。

诊断统计模型

4.自主开发了针对肝癌早期诊断的统计和机器学习模型，用肝癌病人和匹配的乙肝病人的样本来训练机器学习的模型，并使用不同来源的肝癌和乙肝病人的样本来做独立的验证，达到准确的稳定的早期肝癌诊断的性能。

模型的建立分成如下几个部分：

4.1深度挖掘公共数据库(The Cancer Genome Atlas,TCGA)里的肝癌多组学数据(拷贝数，突变，甲基化，蛋白表达，基因表达)，建立贝叶斯非参统计模型来量化每个基因是驱动基因的潜力(量化每个基因对于影响癌症发生的作用的大小，即权重的大小)。TCGA多组学数据对驱动基因的量化作为权重，让重要的驱动基因起到更大的作用，来捕获早期肿瘤里的微弱的但是稳定的重要的信号。TCGA是国际合作的最大的肿瘤的基因组学变异的项目，涵盖几十种肿瘤，包括肝癌。肝癌有上千列病人，每个病人的肿瘤组织分别测了全外显子序列(目的是检测突变)，甲基化的数据(Illumina 450K的芯片，主要测CpG岛的甲基化)，基因表达普(Affymatrix的芯片)，拷贝数的变异(Illumina的芯片)，蛋白表达(芯片)。

4.2开发了有权重的随机森林的机器学习模型来更好的捕获早期肝癌的微弱但是稳定的重要信号来达到针对肝癌的诊断精确度。具体的步骤和原理如下(见图4)。图4A)是生成随机森林的输入数据矩阵。列代表每个区域是校正过的测序深度，行是每个样本。图4B)是常规随机森林里的一个二叉树的建立。这个二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，这个特征变量可以最好的把肿瘤和乙肝病人分开。图4C)是有权重的二叉树的建立过程示意图。

4.3建立有权重的随机森林的机器学习模型捕获早期肝癌的信号的方法具体；

具体的步骤如下：

生成随机森林的输入数据矩阵，列是特征变量，代表每个区域是校正过的测序深度，行是每个样本；

建立常规随机森林里的一个二叉树，所述二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，所述特征变量将肿瘤和乙肝病人分开。用来分割肿瘤和非肿瘤样本的特征变量称为分割变量；

建立有权重的二叉树，分割变量的确定是两个因素决定的，一个是特征变量的数据本身对乙肝和肝癌的分割的准确度(来自样本的测序信息，例如基因的拷贝数)，另一个是特征变量对应的1Mbp区域里含有驱动基因的潜能(公共数据库里分析的数据)；若这两个因素的加和结果最大，则该特征变量被选为二叉树的分割变量；判断基因是驱动基因的权重来自于TCGA多组学的整合，驱动基因的潜能作为权重来影响二叉树的建立。

驱动基因作为权重的具体体现为：

计算根据权重校正后的Gini指标，即Gini__校正(D,A)＝Gini(D,A)*penalty(A)，其中D是训练集里肝癌和非肝癌的标记数据，A是一个候选分割变量。

Gini(D,A)是根据肝癌和非肝癌的标记数据来衡量候选分割变量A对区分肝癌和非肝癌的效果，数值越小表明区分的准确度越高。

对于D来说，

其中p₁,p₂是乙肝和肝癌的比例，满足

penalty(A)是对候选分割变量的惩罚，其值大小与驱动基因的权重有关系，驱动基因权重越大惩罚越小，校正后的Gini(D,A)也越小，这个候选分割变量被选上的可能性也越大，体现了驱动基因的作用。

4.4针对早期肝癌来设计的训练集来有针对性的提高对早期肝癌的诊断准确性。

根据TCGA公共数据库里的数据学到了的驱动基因和拷贝数作为权重，再把权重用在权重随机森林的模型里的训练集上做模型。每个1M区域的权重是这个区域里所有以基因权重的总和。我们自主开发实现了权重随机森林的算法，核心是加入了有权重的二叉树的算法，有针对性的提高早期肝癌的预测准确度。在建立随机森林模型对过程中，我们目标是建立B＝1000个随机有权重的二叉树，每个b＝1,…B二叉树的到建立是根据随机抽取到80％的训练样本和80％的特征变量。当对一个样本特征值是x的新样本进行预测时，随机森林中每个权重二叉树都对新样本进行预测，用f(x)来表示第b个权重二叉树对本样本的预测结果，f(x)＝0或1来表示是预测成乙肝或肝癌。最终得到的肝癌的模型为

B是随机森林中权重二叉数的个数，f_b(x)是第b个权重二叉数对这个一个样本特征值是个x的样本的预测结果；

的范围在0到1之间，代表具有肝癌的可能性；若

大于预先设定的阈值，则判断为肝癌。需要说明的是：阈值是根据诊断的要求设定的值，从而达到灵敏度和特异性。本发明中，阈值为0.5。可以理解的是，0-1之间任何的数字都可以作为阈值来使用，这可以根据具体情况来进行选择。

第四部分：为了检验本发明方法是否准确，我们进行了验证准确性的实验。

具体方法如下：

我们用一个发现队列来建立模型以及验证其准确性，用另外两个独立的验证队列来进一步量化本发明的准确性。发现队列共有209个样本，两个独立验证队列分别有78和105个样本。具体样本的特征及肝癌分期见表1。

表1:病人样本的特征描述

在信号检测理论中，接收者操作特征曲线(receiver operating characteristiccurve，或者叫ROC曲线)是一种坐标图式的分析工具，用于(1)选择最佳的信号侦测模型、舍弃次佳的模型。通常很多的机器学习工具都封装了模型指标的计算，当然也包括AUC(areaunder the curve)值。可以看出，使用scikit-learn工具提供的roc_auc_score函数计算AUC值相当简单，只需要提供样本的实际标签和预测值这两个变量即可。总的来说，AUC值就是一个用来评价二分类模型优劣的常用指标，AUC值越高通常表明模型的效果越好。

如表1所示，独立验证集来自于不同的人群和医院，主要是早期肝癌的病人。需要说明的是我们第二个独立验证集绝大部分是一期肝癌病人，因为我们的侧重点是针对一期的肝癌。从以上表可以看出，发现队列有209人，肝癌合计人数有108人，其中一期的有46人，二期的有29人，三期的有25人，四期的有8人，各自占整个癌症的比例为42.6％；26.9％，23.1％和7.4％。

在发现队列数据集上我们用随机取的三分之二的数据来训练，另外三分之一的数据来做交叉验证，将具体数据绘制成曲线，如图5所示，对于所有的肝癌病人，我们得到了0.894的AUC(ROC曲线下面积)。我们特意的分开看了一期和二到四期的肝癌病人，在二到四期肝癌上模型达到0.934的AUC,而在一期肝癌病人也可以达到0.842的AUC。这也充分说明本发明的方法是有效的，可以与实际的情况非常吻合。

在我们采用独立验证的数据进行具体的验证，对于独立验证1，我们得到了0.898的AUC，对于独立验证2的数据，我们得到0.788的AUC。而在实际具体数字上，对于独立验证1，通过我们的方法，正确识别一期肝癌的病人的人数是19，对于独立验证2，正确识别一期肝癌的病人人数是38，这也说明本发明的方法的准确性，这样的方法可以有效的早期检测肝癌。很早的肝癌我们的分析方法也有相当高的准确性。我们还在完全独立的两个样本集上(见表1)来验证这个模型的准确性。将具体数据绘制成曲线，如图6所示，在第一个独立验证集上模型达到0.898的AUC,在第二个独立验证集上达到0.788的AUC。

如图7所示，展示在独立验证集里基于拷贝数的液体活检跟常规AFP的互补性，临床上根据AFP的指标来定义阳性和阴性，AFP<25ng/ml为阴性(左图)，AFP≥25ng/ml为阳性(右图)。三个柱形图分别表示：HBV的人数，一期肝癌，二期到四期的肝癌病人。有阴影的部分是用拷贝数的模型预测的结果可以帮助纠正的部分。可以看出拷贝数可以有效的诊断一期肝癌。

所以，本检测方法包括三大部分；分别是：

第一部分是从病人的血液里提取游离在血浆里的DNA(circulating cell-freeDNA,ccfDNA)。

第二部分是建立测序文库进行ccfDNA的全基因组测序。

第三部分是全基因组数据处理和建立统计和机器学习模型来检测病人ccfDNA的拷贝数的异常从而达到肝癌的早期诊断。

这三个部分结合作为整体可以有效的提高液体活检对肝癌早期诊断的准确性。

全基因组的设计方案是考虑到肿瘤来源的DNA(ctDNA)的拷贝数的普遍性，用全基因组可以最大限度的覆盖ctDNA拷贝数的变化。建立肝癌独特的统计和机器学习模型是为了有针对性的提高肝癌的诊断准确性，因为不同肿瘤之间有非常大的差异性。由于我们的重点是早期肝癌，而我们发现早期肝癌的样本里富集了肝癌特有的驱动基因，我们的模型设计是针对肝癌而定制的，目的是捕获早期肝癌里面的微弱的但是稳定的重要信号来尽可能的提高诊断准确性。

但是需要说明的是，以上三个部分并不是都一定按照本发明的具体实施方式进行，例如在进行第三部分是全基因组数据处理和建立统计和机器学习模型来检测病人ccfDNA的拷贝数的异常的步骤中，对于全基因的测序的信息数据可以是其它现有已知的测序方法而获得，我们通过现有测序的方法获得的数据同样利用本发明的分析方法，也获得准确的结果。这说明本发明的分析检测方法的准确性。可以这样理解，本发明的游离DNA的分离、扩增和测序仅仅是一个优选的方案，并不排除其它任何的方案。例如，其它任何方式的DNA的分离，其它任何方式的接头序列，其它任何方式的引物设计，其它任何方式的扩增，其它任何方式的测序分析的数据都可以用本发明的分析方法和设备进行分析进行早期的癌症诊断。

同时，本实施仅仅是采用举例的方式来说明肝癌的早期诊断过程。但是，这并不表示本发的精髓仅仅针对肝癌的。可以理解，对于游离核酸的测序，实际上是全基因组的测序。而这种测序仅仅是为了后续分析提供了基础数据，然后在加上本发明独创的分析方法和授权，可以识别早期癌症的特征信号或者信息，最终获得有效的诊断结果。这样类似的方法或者分析都可以用于其它癌症的早期诊断。可以选择其他测序的方法或者的数据来进行后续分析，进行癌症的早期检测或者预测。而本发明的精髓就是把与癌症关联的微弱生理信息进行独创的分析方法，能够进行早期癌症的检测，克服通过传统的方法不能早期进行诊断的缺陷。对于癌症的早期检测具有较强的意义。

在一些方式中，本发明也包括如下的技术方案在内，这样的技术方案也属于本发明的具体实施方式的一部分。

1.一种早期癌症的检测方法，该方法包括：

获取样本中驱动因子的数据；

获得驱动因子的权重的数据；

让驱动因子的数据结合驱动因子的权重的数据进行统计学分析计算，从而获得癌症检测结果。

2.根据权利要求1所述的方法,所述的驱动因子包括,基因拷贝数、基因突变位点的数据、基因突变个数的数据、基因甲基化的数据或蛋白修饰的数据。

3.根据权利要求1所述的方法，其中，所述的驱动因子包括驱动基因。

4.根据权利要求3所述的方法，其中，所述的驱动基因包括游离核酸。

5.根据权利要求4所述的方法，其中，所述的游离核酸包括游离的循环DNA。

6.根据权利要求5所述的方法，其中，所述的数据包括游离循环DNA的全基因组的测序数据。

7.根据权利要求6所述的方法，其中，所述的测序数据包括拷贝数、突变位点的数据、突变个数的数据、甲基化的数据。

8.根据权利要求2所述的方法，其中，所述的全基因所编码的蛋白的数据包括氨基酸顺序的数据，蛋白修饰个数的数据、修饰位置的数据。

9.根据权利要求1所述的方法，其中，所述的驱动因子的权重的数据是通过采用统计学的方法从公共数据库挖掘数据进行计算而获得的。

10.根据权利要求1或者9所述的方法，其中，所述的统计学的方法包括建立数据模型的方式。

11.根据权利要求1所述的方法，其中，所述的样本为血液样本，所述的驱动因子为血液样本中游离循环DNA的测序数据。

12.根据权利要求1所述的方法，其中，所述的计算模块还包括让所述的计算结果与阈值进行比较，如果计算的结果大于阈值，则设备输出为是癌症；如果计算结果小于阈值，则设备输出为非癌症

13.根据权利要求1所述的方法，其中，样本中的驱动因子是数据库中驱动因子的子集。

14.根据权利要求1所述的方法，其中，样本中的驱动因子与数据库里的驱动因子是不相同的或者相同的。

15.根据权利要求1所述的方法，其中，所述的样本包括血液样本，所述的驱动因子为游离核酸的拷贝数、突变数、突变位点的个数、甲基化修饰中的一个或者多个。

16.根据权利要求15所述的方法，其中，所述的拷贝数的数据为全基因组测序所获得的。

17.根据权利要求1所述的方法，其中，所述的权重数据包括全基因组中每一个基因的权重数据。

18.根据权利要求10所述的方法，其中所述的计算模块包括通过所述的权重数学模型对所述的样本中的基因倍拷贝数进行权重计算。

19.根据权利要求18所述的方法，其中，所述的拷贝数为每一个某一长度区域的测序深度的加和的数据大小代表该区域的拷贝数。

20.根据权利要求1所述的设方法，其中，所述的权重数据包括通过数据库中多个驱动因子统计方法计算而获得的，从而获得这些数据库中每个驱动因子与癌症发生的权重的大小的数据。

21.根据权利要求20所述的方法，其中，所述的数据库中的驱动因子包括基因的拷贝数，基因的突变、基因的甲基化、基因表达、蛋白修饰、核辐射、紫外照射、药物的服用、饮食习惯、肥胖程度、年龄、性别、微量元素中的一个或者多个。

22.根据权利要求1所述的方法，其中，所述的统计学计算包括通过建立数学模型进行计算。23.根据权利要求1所述的方法，其中所述的结合包括利用统计学模型让样本中的驱动因子的数据和权重数据进行结合

24.一种早期诊断主体癌症的设备，该设备包括：

用于读取或者存储驱动因子的数据模块，其中，所述的驱动因子的数据信息是通过测试样本中的驱动因子而获得的；

用于读取或者存储权重数据的模块，所述的权重数据是通过统计学的方法分析公共数据库的数据而获得的；

计算模块，该计算模块让所述的权重数据结合所述的驱动因子进行统计学权重计算，从而获得主体是否为癌症的结果。

25.根据权利要求24所述的设备，其中，所述的驱动因子包括与癌症关联的驱动因子。

26.根据权利要求24所述的设备，其中，所述的驱动因子包括一种或者多种驱动因子。

27.根据权利要求24所述的设备，其中，所述的计算模块还包括让所述的计算结果与阈值进行比较，如果计算的结果大于阈值，则设备输出为是癌症；如果计算结果小于阈值，则设备输出为非癌症。

28.根据权利要求24所述的设备，其中，所述的公共数据库里包括一个或者多个与癌症发生关联的驱动因子，采用统计学的方法分析数据里的与癌症关联的驱动因子的权重，从而获得权重数据。

29.根据权利要求28所述的设备，其中，样本中的驱动因子是数据库中驱动因子的子集。

30.根据权利要求26所述的设备，其中，样本中的驱动因子与数据库里的驱动因子是不相同的或者相同的。

31.根据权利要求24所述的设备，其中，所述的样本包括血液样本，所述的驱动因子为游离核酸的拷贝数、突变数、突变位点的个数、甲基化修饰中的一个或者多个。

32.根据权利要求24所述的设备，其中，所述的拷贝数的数据为全基因组测序所获得的。

33.根据权利要求26所述的设备，其中，所述的权重数据包括全基因组中每一个基因的权重数据。

34.根据权利要求33所述的设备，其中，所述的设备包括存储带有权重数据的数学模型的存储模块，所述的计算模块包括通过所述的权重数学模型对所述的样本中的基因倍拷贝数进行权重计算。

35.根据权利要求34所述的设备，其中，所述的拷贝数为每一个某一长度区域的测序深度的加和的数据大小代表该区域的拷贝数。

36.根据权利要求24所述的设备，其中，所述的权重数据包括通过数据库中多个驱动因子统计方法计算而获得的，从而获得这些数据库中每个驱动因子与癌症发生的权重的大小的数据。

37.根据权利要求36所述的设备，其中，所述的数据库中的驱动因子包括基因的拷贝数，基因的突变、基因的甲基化、基因表达、蛋白修饰、核辐射、紫外照射、药物的服用、饮食习惯、肥胖程度、年龄、性别、微量元素中的一个或者多个。

38.根据权利要求24所述的设备，其中，所述的统计学计算包括通过建立数学模型进行计算。

39.根据权利要求24所述的设备，其中所述的结合包括利用统计学模型让样本中的驱动因子的数据和权重数据进行结合。

40.根据权利要求24所述的设备，其中，所述的样本血液样本，所述的驱动因子为游离核酸。41.根据权利要求40所述的设备，其中，所述的游离核酸为游离DNA。

42.根据权利要求41所述的设备，其中，所述驱动因子的数据包括游离DNA的全基因组的测序数据。

43.根据权利要求33所述的设备，其中，所述的权重数据为全基因组学中每一个基因与癌症的发生权重的数据。

1.一种早期诊断肝癌的设备，该设备包括：

用于读取或者存储来自主体的血液样本中游离核酸全基因组的拷贝数据的模块；

用于读取或者存储与肝癌发生的全基因组权重数据的模块；

计算模块，该计算模块让所述的权重数据结合所述的拷贝数进行统计学权重计算，从而获得所述的主体是否是肝癌的结果。

2.根据权利要求1所述的设备，其中，所述的游离核酸为游离DNA。

3.根据权利要求1所述的设备，其中，所述的全基因组权重数据是通过统计学方法分析肝癌公共数据库而计算获得的。

4.根据权利要求2所述的设备，其中，所述的游离核酸为游离DNA被扩增后进行基因测序获得测试数据。

5.根据权利要求1所述的设备，其中，该设备包括存贮含有权重信息的数学模型的模块，所述的计算模块通过权重数学模型来计算。

6.根据权利要求5所述的设备，其中，所述的权重数学模型为随机森林学习模型，该模型为

其中，B是随机森林中权重二叉数的个数，f(x)是第b个权重二叉数对一个样本输入矩阵x的预测结果；

的范围在0到1之间，其大小代表具有肝癌的可能性；若

大于预先设定的阈值，则判断为肝癌，若果若

小于于预先设定的阈值，则判断为非肝癌。

7.根据权利要求6所述的设备，其中，所述的建立有权重的随机森林机器学习模型的方法包括：

生成随机森林的输入数据矩阵，其中，列代表每个区域的测序深度，行代表每个样本，或者，行代表每个区域的测序深度，列代表每个样本。

8.根据权利要求7所述的设备，其中，所述的建立有权重的随机森林机器学习模型的方法还包括：建立有权重的二叉树，其中，驱动基因的潜能作为权重来影响二叉树的建立。

9.根据权利要求7所述的设备，其中，所述的建立有权重的随机森林机器学习模型的方法还包括：建立二叉树的分割变量，其中该分割变量至少由第一和第二因素确定，其中第一因素是来自样本的测序数据的拷贝数；第二因素就是来自公共数据库计算分析二获得的全基因组的权重数据。

10.根据权利要求9所述的设备，其中，第一因素是数据本身对于肝癌或者非肝癌癌症分割的准确度；第二因素是对应的驱动肝癌基因的潜能的权重数据，如果第一因素与第二因素结合分析的结果最大，则该特征变量作为二叉树的分割变量。

11.根据权利要求10所述的设备，所述的特征变量是通过建立常规随机森林里的一个二叉树来确定的，其中二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定，该特征变量可以将肿瘤和非肿瘤分开。

12.根据权利要求10所述的设备，所述的驱动基因作为权重的具体公式为：

其中p₁,p₂是非癌症和癌的比例，满足

其中D是训练集里所有的样本，D₁和D₂是用A作为变量变量将D分割到两个亚组，D1是A变量小于某个阈值的样本，D2是A变量大于此阈值的样本；|D₁|,|D₂|和|D|是对应样本数；penalty(A)是对候选分割变量的惩罚，驱动基因权重越大惩罚越小，校正后的Gini(D,A)越小，候选分割变量被选上的可能性越大。

13.根据权利要求1所述的设备，其中，全基因权重数据是通过贝叶斯非参统计模型量14.化每个基因是驱动肝癌基因的潜力大小而获得的数据。

15.根据权利要求1所述的设备，其中，还包括对全基因组的拷贝数进行负荷计算，然后结合全基因组的权重和基因拷贝数的权重分析，从而获得检测结果。

16.根据权利要求1所述的设备，其中，所述的基因组拷贝数是每一个某一基因长度区域内的通过测序深度加和来计算的。

17.根据权利要求15所述的设备，其中，所述的某一基因长度的区域为1Mbp,0.5Mbp，0.1Mbp，1.5Mbp或者其它任何长度的区域。

18.根据权利要求16所述的设备，其中，这些区域为互不重合的区域。

19.根据权利要求16所述的设备，其中，这些某一基因长度的区域中的每一区域都对GC含量和/或者可比对性(mappability)文件进行校正。

20.根据权利要求19所述的设备，其中，通过回归模型进行校正。

21.根据权利要求19所述的设备，其中，校正GC含量、基因组mappability文件的模型的公式为：

x_i是GC含量，

是核平滑后的对应于x_i的reads数，常数

其中

是所有GC含量里的reads平均数。

22.根据权利要求1所述的设备，其中，所述的结合是利用模型来自动计算的。

1.一种用于扩增样本中游离核酸的试剂,其中,该试剂包括：能够与样本里游离核酸的两端进行连接的接头序列，其中所述的接头序列包括互补的颈状序列和不互补的环状序列。

2.根据权利要求1所述的试剂，其中，在接头序列上包括酶切位点，所述的酶切位点位于环状序列上。

3.根据权利要求2所述的试剂，其中，酶切位点位于环状序列的中心位置。

4.根据权利要求1所述的试剂，所述的互补的颈状序列为GAT CGG AAG AGC，和与之互补的序列GCT CTT CCG ATC。

5.根据权利要求4所述的试剂，所述的形成环状结构的序列为如下中的一段或者几段：

AGA CGT TTG ACC TCC GGT C ACAG TCG TAC CCT ATA CGA C；

CA CGT CTG AAC TCC AGT C A CAC TCT TTC CCT ACA CGAC；

ATA CGT ATG AGC TCC TGT C A CAT TCA TTC CCT ACA CGA C；

ATA CGT CTG ATC TCC AGT C ACAA TCC TTC CCT AGACGA C。

6.根据权利要求1或者4所述的试剂，所述的形成环状结构的序列为如下中的一段或者几段：AGA CGT TTG ACC TCC GGT C dU A CAG TCG TAC CCT ATA CGA C；

CA CGT CTG AAC TCC AGT C dU ACAC TCT TTC CCT ACA CGA C；

ATA CGT ATG AGC TCC TGT C dU A CAT TCA TTC CCT ACA CGA C；

ATA CGT CTG ATC TCC AGT C dU A CAA TCC TTC CCT AGA CGA C，其中dU代表酶切位点。

7.根据权利要求1所述的试剂，该试剂还包括让接头序列进行断开的试剂。

8.根据权利要求1所述的试剂，所述的断开的试剂为酶试剂。

9.根据权利要求1所述的试剂，酶为USER酶。

10.根据权利要求1所述的试剂，所述的接头序列为SEQ NO:1，SEQ NO:4，SEQ NO:7，SEQ NO:10；所示的序列。

11.根据权利要求1所述的试剂，所述的试剂还包括引物序列，所述的引物序列包括能够与接头序列互补的序列。

12.根据权利要求1所述的试剂，所述的引物包括与接头序列的颈状序列互补的序列。

13.根据权利要求1所述的试剂，所述的引物序列包括颈状序列。

14.根据权利要求1所述的试剂，所述的引物序列包括一对引物，其中每一对引物序列包括与颈状序列中的一条互补序列。

15.根据权利要求14所述的试剂，所述的一对引物序列中的一条包括与GAT CGGAAG AGC互补的序列和，另一条包括与序列GCT CTT CCG ATC互补的序列。

16.根据权利要求15所述的试剂，所述的一条引物序列包括GCT CTT CCG ATC序列，另一条包括GAT CGG AAG AGC所示的序列。

17.根据权利要求11所述的试剂，其中所述的序列选自如下的引物对所示的序列：SEQ NO:2和SEQ NO:3；SEQ NO:5和SEQ NO:6；SEQ NO:8和SEQ NO:9；或者，SEQ NO:11和SEQNO:12；SEQ NO:16和SEQ NO:17；SEQ NO:18和SEQ NO:19；SEQ NO:20和SEQ NO:21；SEQ NO:22和SEQ NO:23中的一对或者几对。

18.根据权利要求11所述的试剂，所述的引物序列包括用于测序的序列。

19.根据权利要求18所述的试剂，所述的测序序列为P7或者P5的序列。

20.根据权利要求11所述的试剂，所述的引物序列还包括标签序列。

21.根据权利要求11所述的试剂，所述的试剂中还包括磁珠。

22.根据权利要求1所述的试剂，所述的样本为血液样本。

23.一种用于处理样本中游离核酸的试剂盒，所述的试剂盒里包括权利要求1-21之一所述的试剂。

24.一种扩增血液样本里游离DNA方法，该方法包括：

将接头序列连接到样本中的游离DNA的两端，让接头序列断开从而产生互补的单链，让与接头序列互补的一对引物进行游离DNA的扩增。

25.根据权利要求24所述的方法，其中，所述的接头序列包括互补的颈状序列和不互补的环状序列，让环状序列的中间位置断开。

26.根据权利要求25所述的方法，其中，环状序列的中间包括酶切位点，用酶来断开所述的环状序列。

27.根据权利要求24所述的方法，其中，在用结构序列连接样本中的游离DNA前，从血液样本里分离出游离DNA。

28.根据权利要求24所述的方法，其中，所述的接头序列为SEQ NO:1，SEQ NO:4，SEQ NO:7，SEQ NO:10所示的序列。

29.根据权利要求24所述的方法，其中，所述的引物序列选自如下的引物对所示的序列：SEQ NO:2和SEQ NO:3；SEQ NO:5和SEQ NO:6；SEQ NO:8和SEQ NO:9；或者，SEQ NO:11和SEQ NO:12；SEQ NO:16和SEQ NO:17；SEQ NO:18和SEQ NO:19；SEQ NO:20和SEQ NO:21；SEQ NO:22和SEQ NO:23中的一对或者几对。

30.根据权利要求24所述的方法，其中，扩增完后，采用磁珠对扩增产物进行纯化和长度选择。

31.根据权利要求24所述的方法，其中，扩增完后，对核酸进行测序分析。

32.根据权利要求31所述的方法，经过序列测定的核酸被分成不同长度的区域，在每一个区域内，来计算拷贝数。

33.根据权利要求27所述的方法，所述的分离方法包括：从血浆样本中分离出游离核酸，所述的游离核酸包括DNA或者RNA。

本发明说明书中提到的所有专利和出版物都表示这些是本领域的公开技术，本发明可以使用。这里所引用的所有专利和出版物都被同样列在参考文献中，跟每一个出版物具体的单独被参考引用一样。这里所述的本发明可以在缺乏任何一种元素或多种元素，一种限制或多种限制的情况下实现，这里这种限制没有特别说明。例如这里每一个实例中术语“包含”，“实质由……组成”和“由……组成”可以用两者之一的其余2个术语代替。这里的所谓的“一个”仅仅表示“一”的意思，而不排除仅仅只是包括一个，也可以表示包括2个以上。这里采用的术语和表达方式所为描述方式，而不受其限制，这里也没有任何意图来指明此书描述的这些术语和解释排除了任何等同的特征，但是可以知道，可以在本发明和权利要求的范围内做任何合适的改变或修改。可以理解，本发明所描述的实施例子都是一些优选的实施例子和特点，任何本领域的一般技术人员都可以根据本发明描述的精髓下做一些更改和变化，这些更改和变化也被认为属于本发明的范围和独立权利要求以及附属权利要求所限制的范围内。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

序列表

<110> 杭州翱锐生物科技有限公司

<120> 早期癌症的分析方法和设备

<130> 18-100070-00011742

<141> 2018-12-29

<150> 2018111779722

<151> 2018-10-10

<160> 23

<170> SIPOSequenceListing 1.0

<210> 1

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gatcggaaga gcagacgttt gacctccggt cacagtcgta ccctatacga cgctcttccg 60

atct 64

<210> 2

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

caagcagaag acggcatacg agatnnnnnn gtgaccggag gtcaaacgtc tgctcttccg 60

atct 64

<210> 3

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aatgatacgg cgaccaccga gatctacagt cgtaccctat acgacgctct tccgatct 58

<210> 4

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gatcggaaga gcacacgtct gaactccagt cacactcttt ccctacacga cgctcttccg 60

atct 64

<210> 5

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 6

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 7

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gatcggaaga gcatacgtat gagctcctgt cacattcatt ccctacacga cgctcttccg 60

atct 64

<210> 8

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

caagcagaag acggcatacg agatnnnnnn gtgacaggag ctcatacgta tgctcttccg 60

atct 64

<210> 9

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

aatgatacgg cgaccaccga gatctacatt cattccctac acgacgctct tccgatct 58

<210> 10

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

gatcggaaga gcatacgtct gatctccagt cacaatcctt ccctagacga cgctcttccg 60

atct 64

<210> 11

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

caagcagaag acggcatacg agatnnnnnn gtgactggag atcagacgta tgctcttccg 60

atct 64

<210> 12

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

aatgatacgg cgaccaccga gatctacaat ccttccctag acgacgctct tccgatct 58

<210> 13

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gatcggaaga gcatacgtat gagctcctgt cccattcatt cgctacatga cgctcttccg 60

atct 64

<210> 14

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

caagcagaag acggcatacg agatnnnnnn gtgacaggag ctcatacgta tgctcttccg 60

atct 64

<210> 15

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

aatgatacgg cgaccaccga gatctacatt cattcgctac atgacgctct tccgatct 58

<210> 16

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

gtgaccggag gtcaaacgtc tgctcttccg atct 34

<210> 17

<211> 37

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

atctacagtc gtaccctata cgacgctctt ccgatct 37

<210> 18

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

gtgactggag ttcagacgtg tgctcttccg atct 34

<210> 19

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

gatctacact ctttccctac acgacgctct tccgatct 38

<210> 20

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

gtgacaggag ctcatacgta tgctcttccg atct 34

<210> 21

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gatctacatt cattccctac acgacgctct tccgatct 38

<210> 22

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

gtgactggag atcagacgta tgctcttccg atct 34

<210> 23

<211> 38

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gatctacaat ccttccctag acgacgctct tccgatct 38

Claims

1.一种早期诊断主体癌症的设备，该设备包括：

用于读取或者存储驱动因子的数据模块，其中，所述的驱动因子的数据信息是通过测试血液样本中游离核酸的全基因组测序而获得的拷贝数，同时对于测序深度进行校准，然后用隐马尔科夫模型来平滑相邻区域进行校正获得校正后的测序深度,利用校正后的测序深度来计算一区域的拷贝数负荷，所述的计算是将拷贝数变化的大片段的长度乘以这些大片段各自的相对的拷贝数，然后把这些数值加和，作为这个基因组的所述的拷贝数负荷；

用于读取或者存储权重数据的模块，所述的权重数据是通过统计学的方法分析公共数据库的数据而获得的，其中，所述的权重数据包括与癌症关联的驱动因子的权重，所述的驱动因子为基因的拷贝数、基因的突变、甲基化、蛋白表达、基因表达、转录和蛋白修饰的权重数据；

计算模块，该计算模块将所述的权重数据结合所述的拷贝数负荷进行统计学计算，从而获得主体是否为癌症的结果；

其中所述的权重数据的统计方法为随机森林的机器学习模型，所述的学习模型包括如下步骤：生成随机森林的输入数据矩阵，列是特征变量，代表每个区域是校正过的测序深度，行是每个样本；建立常规随机森林里的一个二叉树，所述二叉树的每一个分叉是根据一个输入矩阵的一个特征变量来确定；

所述的测序深度的校准对象就是校正GC含量，以及对基因组的可比对性文件进行校正；

其中，驱动因子作为权重的具体计算过程为：

计算根据权重校正后的Gini指标，即Gini_校正(D, A)＝Gini(D,A)*penalty(A)，其中D是训练集里癌和非癌样本的标记数据，A是一个候选分割变量；

其中p₁，p₂是非癌症和癌的比例，满足

其中D是训练集里所有的样本，D₁和D₂是用A作为变量将D分割到两个亚组，D1是A变量小于阈值的样本，D2是A变量大于此阈值的样本；|D₁|，|D₂|和|D|是对应样本数；penalty(A)是对候选分割变量的惩罚，驱动基因权重越大惩罚越小，校正后的Gini(D,A)越小，候选分割变量被选上的可能性越大；

其中，所述的癌症为肝癌。

2.根据权利要求1所述的设备，其中，样本中的驱动因子是数据库中驱动因子的子集。

3.根据权利要求1所述的设备，其中，所述的设备包括存储带有权重数据的数学模型的存储模块，所述的计算模块包括通过所述的权重数学模型对所述的样本中的基因拷贝负荷进行权重计算。

4.根据权利要求1所述的设备，其中，所述的权重数据包括通过数据库中多个驱动因子统计方法计算而获得的，从而获得这些数据库中每个驱动因子与癌症发生的权重的大小的数据。

5.根据权利要求1所述的设备，其中所述的结合包括利用统计学模型让样本中的驱动因子的数据和权重数据进行结合。

6.根据权利要求1所述的设备，其中，所述的权重数据为全基因组学中每一个基因与癌症的发生权重的数据。