CN112086129A

CN112086129A - 预测肿瘤组织cfDNA的方法及系统

Info

Publication number: CN112086129A
Application number: CN202011009109.3A
Authority: CN
Inventors: 陈海新; 吴玲清; 黄毅; 易鑫; 杨玲
Original assignee: Shenzhen Guiinga Medical Laboratory
Current assignee: Shenzhen Guiinga Medical Laboratory
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-15
Anticipated expiration: 2040-09-23
Also published as: CN112086129B

Abstract

一种预测肿瘤组织cfDNA的方法及系统，该方法包括：待测样本特征提取步骤，包括提取待测样本的cfDNA测序数据的末端特征和Kmer频数特征；预测步骤，包括通过模型，对所述待测样本的cfDNA测序数据的末端特征和Kmer频数特征进行分析，根据分析结果，预测所述待测样本是否为健康样本或肿瘤样本。通过提取末端特征和Kmer频数特征，构建模型，显著提高肿瘤组织cfDNA预测的特异性和灵敏度。

Description

预测肿瘤组织cfDNA的方法及系统

技术领域

本发明涉及生物医学技术领域，具体涉及一种预测肿瘤组织cfDNA的方法及系统。

背景技术

近年来，液体活检技术在临床方面得到广泛的应用，特别是在辅助肿瘤患者诊断、治疗和术后监控等方面。相比于传统的术中取样，液体活检通过抽血获得样品。血浆中存在游离的核酸分子(即cfDNA)。健康人中，人体各组织细胞自然凋亡，细胞核内DNA分子被一系列消化处理后，变成碎片化核酸分子被释放到血浆等体液中。当组织发生肿瘤时，大量的特异组织肿瘤细胞的碎片化核酸分子被释放到血浆中。

最近，癌症液体活检领域又产生了一项新的重大突破。无创产前检测(NIPT)的奠基人，香港中文大学的卢煜明教授研究组证实：游离DNA(cfDNA)末端分析技术，能大大提高以体细胞突变检测为基础的液体活检的灵敏度，且有望成为一种经济有效的新型癌症检测手段，该研究分析了肝癌、肝移植和肝炎患者群组的血浆样本，发现可通过追踪cfDNA偏好末端坐标来寻找血液ctDNA的癌症信号，利用特异性cfDNA末端坐标追踪癌症信号(PNASPNAS，2018，doi/10.1073/pnas.1814616115)。研究者们通过对肝细胞癌、肝移植和肝炎患者血浆样本的分析，表明DNA片段的末端坐标可以作为癌症的标志物，这有望提高液体活检的成本效益。利用一组肝移植病例的血浆样本，首先鉴定出了近10000个与肝脏相关的偏好末端坐标位点，首次证明了在某些基因组坐标下，来自肝脏的cfDNA分子比非肝来源分子更倾向于出现偏好末端。之后，分析了一组肝癌患者的测序数据，并将其与慢性乙肝患者的样本进行比较，发现了肿瘤特异性的血浆DNA的末端坐标，其中，在HCC和慢性HBV感染患者中鉴定了980万和1380万个偏好末端坐标位点。研究人员表示，这些具有癌症特异性末端坐标的循环DNA分子的丰度也与患者的肿瘤DNA部分密切相关。同时，整个基因组中有数百万个与肿瘤相关的血浆DNA末端坐标，这表明它们比体细胞突变更容易检测到。这种基于末端坐标的方法可能为寻找血液中的癌症迹象提供了一种更便宜的方法。因此，将体细胞突变检测与肿瘤相关DNA的末端坐标相结合有望大大提高液体活检的敏感性。分析还发现，这些具有癌症特异性末端坐标的cfDNA分子丰度也与患者的肿瘤DNA组成密切相关，即使在那些仅进行浅层测序的样本也是如此。这表明，体细胞突变和肿瘤相关偏好末端丰度可作为ctDNA的一个可识别特征。而与基于基因突变的检测方法相比，片段末端检测或许能够提供一种更廉价的癌症信号寻找方法。

但现有技术存在着复杂的生物信息学预测片段偏好末端坐标，不同个体、不同测序平台都会对鉴定结果造成影响，且鉴定得到的具有差异的偏好末端坐标位点数目繁多，很难区分真正具有贡献的特征等缺点，对技术的实际应用带来障碍。

发明内容

本发明提供预测cfDNA组织来源的方法和系统。

根据第一方面，一种实施例中提供一种预测肿瘤组织cfDNA的方法，包括以下步骤：

待测样本特征提取步骤，包括提取待测样本的cfDNA测序数据的末端特征和Kmer频数特征；

预测步骤，包括通过模型，对所述待测样本的cfDNA测序数据的末端特征和Kmer频数特征进行分析，根据分析结果，预测所述待测样本是否为健康样本或肿瘤样本。

根据第二方面，一种实施例中提供一种预测肿瘤组织cfDNA的系统，包括：

待测样本特征提取装置，用于提取待测样本的cfDNA测序数据的末端特征和Kmer频数特征；

预测装置，用于通过模型，对所述待测样本的cfDNA测序数据的末端特征和Kmer频数特征进行分析，根据分析结果，预测所述待测样本是否为健康样本或肿瘤样本。

根据第三方面，一种实施例中提供预测肿瘤组织cfDNA的装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如第一方面所述的方法。

依据上述实施例的预测肿瘤组织cfDNA的方法和系统，通过提取末端特征和Kmer频数特征，构建模型，显著提高肿瘤组织cfDNA预测的特异性和灵敏度。

附图说明

图1显示为一实施例中基于二代测序仪确定cfDNA组织来源和所属样本健康状况的系统的流程示意图；

图2显示为一实施例中涵盖了健康人和八大癌种(肺癌、非小细胞肺癌、卵巢癌、乳腺癌、前列腺癌、食管癌、结直肠、肝癌)的670例cfDNA的样品构建的健康状况评估分类器ROC曲线图；

图3显示为一实施例中50个待测cfDNA样本健康状况评估分类器检测分类值分布箱形图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

本文中，除非另有说明，cfDNA(circulating free DNA)又称循环核酸，是指循环血或其他体液中游离于细胞外的部分降解了的机体内源性DNA。

本文中，除非另有说明，ctDNA(circulating tumor DNA)是指来自于肿瘤的cfDNA，通常是原发肿瘤或者是转移形成的新肿瘤上的细胞破裂后掉落下来，进入外周血循环系统或其他体液的DNA片段。

本文中，Kmer是指长度为K的短序列。如长度为L的序列，从起始端开始，每次移动一个碱基，则可得到(L-K+1)个Kmer。

本文中，Kmer频数：如长度为L的序列，那么，该序列将产生(L-K+1)个Kmer，进而可获得每种Kmer出现的频数。

细胞内的染色质状态并不是完全一致。染色质开放区域表现为核小体连接松散，利于转座酶和其他细胞功能调节因子的结合并行使功能。不同细胞群体由于需要执行的功能不一致，所以不同细胞群体的染色质开放区域也不一致。肿瘤细胞发生突变后，细胞功能发生改变，相比于正常细胞，染色质开放区域也发生改变。现有技术一般通过在染色质开放区域连接特异性标记，捕获该区域的DNA片段并进行测序，从而得到全基因组尺度的染色质开放区域。实验步骤较多，成本高且极易增加人为误差和机器误差。

cfDNA是细胞凋亡后，DNA被消化酶降解并释放到血液等体液中。染色质开放区域由于缺乏核小体的保护，更易于被消化为小片段，从而导致在测序数据中，染色质开放区域的插入片段小且深度低。测序数据的Kmer频数特征能高效预测全基因组的染色质开放区域。

在一实施例中，通过分析计算不同癌种群体和健康人群体的cfDNA的染色质开放区域特征，从而用于个体的健康状况评估以及组织来源预测。

根据第一方面，一种实施例中提供预测肿瘤组织cfDNA的方法，该方法包括以下步骤：

在一实施例中，分析待测样本cfDNA测序数据中末端特征和Kmer频数特征与训练模型中肿瘤样本的特征更一致(机器学习得出的概率值超过模型的阈值)还是跟健康人更一致(机器学习得出的概率值低于模型的阈值)，进而预测所述待测样本为健康样本或肿瘤样本。

在一实施例中，本发明可以用于心血管、糖尿病等老年疾病的鉴别。也可用于癌症患者器官移植后的肿瘤组织cfDNA预测及健康状况评估。例如，分析心血管、糖尿病等老年疾病患者的cfDNA测序数据的特征，建立模型，将预测结果作为对受试者进行健康评估的中间参考结果。又例如，对癌症患者器官移植后，对受试者血液中的cfDNA进行分析，将分析结果作为评估受试者的健康状况的参考结果。

需要说明的是，cfDNA测序数据是离体样本的cfDNA数据，因此，不是以有生命的人体或动物体为对象；并且，预测步骤中，预测得到的待测样本的健康类型以及待测样本中cfDNA的组织来源只是中间结果，供后续的疾病诊断参考，属于中间参考信息，不是最终的诊断结果，在实际应用中，在利用本发明的方法预测待测样本中cfDNA的组织来源之后，还需要结合受试者当前的主观感受症状、既往病史、家族遗传史等信息，才能得出最后的诊断结果或健康状况。同理，预测步骤所预测的健康状况信息也仅仅是中间参考结果，单纯根据该预测结果是不能得到专利法意义上的诊断结果的。因此，本发明的技术方案不属于疾病的诊断方法，更不属于疾病的治疗方法。并且，本发明还可用于科研中相关疾病候选新药的筛选等其他非诊断、非治疗目的。

在一实施例中，所述模型选自分类模型、聚类模型、回归模型中的至少一种。

在一实施例中，所述分类模型为健康状况分类模型；

在一实施例中，预测步骤中，将提取待测样本的cfDNA测序数据的末端特征和Kmer频数特征输入健康状况分类模型，获得目标模型，进行样本分类预测，具体是设定预设值，根据目标模型中各评价指标对应的指标值与预设值的大小关系，判定目标模型是否符合预设条件，进而获得待测样本的分类预测结果。

在一实施例中，各评价指标对应的指标值具体是指读长末端A、T、C、G四种碱基频数，读长末端指定Kmer组合序列频数和整条读段指定Kmer组合序列频数所包含的数据先分别除以各自的频数总数转化为频率值，再分别进行样本间均一化，均一化后的数值作为机器学习输入，计算得到对应的指标值，并判断指标值与预设值的大小关系，获得待测样本的分类预测结果。

在一实施例中，预测步骤中，如果指标值＜预设值，则判定目标模型不符合预设条件，预测所述待测样本为健康样本，反之，则判定目标模型符合预设条件，预测所述待测样本为肿瘤样本；或者，如果指标值＞预设值，则判定目标模型不符合预设条件，预测所述待测样本为健康样本，反之，则判定目标模型符合预设条件，预测所述待测样本为肿瘤样本。

在一实施例中，预测步骤中，如果所述待测样本的预测结果为肿瘤样本，则预测所述待测样本中cfDNA的组织来源，输出可能的病变器官参考信息。

在一实施例中，在一实施例中，如果为健康状况异常，使用各癌种数据构建的训练模块提供的多分类模型，根据分类结果输出可能的病变器官参考信息。

在一实施例中，根据分类结果给出最有可能的两个病变器官参考报告。一般组织溯源会给出Top1和Top2两种病变器官的可能，如果只给出1个，则灵敏度不够，可能会漏检；如果给出超过2个，则特异性不足。

在一实施例中，预测步骤中，还包括根据分类结果预测待检样本所属生物体的健康状况，如果预测待测样本为肿瘤样本，则肿瘤样本所述生物体为癌症患者。

在一实施例中，预测步骤中，包括使用泛癌种和健康生物体数据构建的二分类模型进行健康状况预测。

在一实施例中，所述末端特征包括读长末端碱基频数。

在一实施例中，所述读长末端碱基频数为所有读长两侧末端的A、T、C、G四种碱基的频数。

在一实施例中，所述读长末端碱基频数为所有读长两侧末端5-10bp的A、T、C、G四种碱基的频数。示例但限制性的，具体可以是所有读长两侧末端5bp、6bp、7bp、8bp、9bp或10bp的A、T、C、G四种碱基的频数。例如，读长末端碱基频数是所有读长两侧末端6bp的A、T、C、G四种碱基的频数时，具体为6*4*2＝48维。

在一实施例中，所述Kmer频数特征包含整条读段9-15bp的组合序列频数特征和/或读长两端4-6bp的组合序列频数特征。所述Kmer频数特征可以包含整条读段9bp、10bp、11bp、12bp、13bp、14bp或15bp的组合序列频数特征，和/或，读长两端4bp、5bp、6bp的组合序列频数特征。

在一实施例中，所述Kmer频数特征包含整条读段11bp的组合序列频数和/或读长两端4bp的组合序列频数。读长两端4bp的组合序列频数特征具体为4^4＝256维。

在一实施例中，构建所述分类模型的方法包括：提取已知的健康样本和已知癌种的肿瘤样本的cfDNA测序数据的末端特征和Kmer频数特征，根据所述末端特征和Kmer频数特征构建分类模型。

在一实施例中，分类模型构建步骤中，先根据样本种类的不同，将肿瘤样本分为不同癌种群体，健康样本作为健康群体，将同一群体内的样本随机分成k组，分别计算读长末端碱基频数和整条读段的组合序列频数m bp和/或读长两端n bp的组合序列频数，分别进行群体间差异碱基频数和Kmer分析，拟合负二项式广义对数线性模型，设置P值，获取显著差异Kmer，取并集整合所有差异Kmer，作为不同癌种间具有区分度的Kmer频数特征。

在一实施例中，k为自然数，且3≤k≤5。

在一实施例中，m为自然数，且9≤m≤15。

在一实施例中，n为自然数，且4≤n≤6。

在一实施例中，所述读长末端碱基频数为所有读长两侧末端5-10bp的A、T、C、G四种碱基的频数。

在一实施例中，所述显著差异Kmer是指P值<0.05或P值<0.01的Kmer。也可以根据需要设定其他P值。

在一实施例中，健康状况分类模型构建步骤中，对已知的健康样本和已知癌种的肿瘤样本的cfDNA测序数据的末端特征和Kmer频数特征数据进行数据预处理，获得有效建模数据，再进行聚类，获得有效初始特征数据，再通过机器学习算法对有效特征数据进行模型训练，构建分类模型。

在一实施例中，健康状况分类模型构建步骤中，包括对提取的特征集进行变量筛选和/或复杂度调整，并可通过所有单一或组合机器学习算法构建分类模型。

在一实施例中，所述机器学习算法包括但不限于K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络、AdaBoost中的至少一种。

在一实施例中，分类模型构建步骤中，提取健康样本和肿瘤样本的cfDNA测序数据的末端特征和Kmer频数特征之前，先进行质控。

在一实施例中，质控指标选自比对率、碱基质量值大于20的百分比Q20、碱基质量值大于30的百分比Q30、插入片段长度、GC含量中的至少一种。需要说明的是，上述质控指标仅仅是示例性说明，还可以包括其他质控指标。

在一实施例中，质控指标选自比对率、碱基质量值大于20的百分比Q20、碱基质量值大于30的百分比Q30、插入片段长度、GC含量中的全部。

在一实施例中，质控时，从健康样本、肿瘤样本中筛选比对率>90％、Q20>90％、Q30>85％、插入片段长度为168±20bp、GC含量<0.7的样本，作为质控合格的样本，再从所述质控合格的样本中提取末端特征和Kmer频数特征，进行归一化并进行机器学习建模，得到所述分类模型。需要说明的是，此处各阈值仅仅是示例性说明，阈值的设定不受限制，本领域技术人员可以根据需要调整阈值。

在一实施例中，碱基质量值(Quality Score或Q_-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的Phred碱基质量值公式为：Q_-score＝-10×log₁₀ P，公式中，P为碱基识别出错的概率。

在一实施例中，GC含量是指：在DNA的4种碱基中，鸟嘌呤和胞嘧啶所占的比率。

在一实施例中，抽取每个样本的全部或部分读长，比对到人类基因组，计算比对率，然后进行质控。

在一实施例中，随机抽取每个待测样本的读长数据量可根据实际需求更改，通常是用全部数据去做比对。

在一实施例中，随机抽取每个待测样本的10⁶bp读长，可节约时间和资源。

在一实施例中，比对率是指测序所产生的reads在参考基因组比对所占的比例。

在一实施例中，健康状况分类模型构建步骤中，将质控、末端特征和Kmer频数特征提取、训练并测试后的模型和脚本使用系统容器封装，并部署到测序仪的计算系统中。

在一实施例中，预测步骤中，包括使用泛癌种和健康生物体的cfDNA测序数据构建的二分类模型预测待测样本是否为健康样本或肿瘤样本。

在一实施例中，健康样本、肿瘤样本、待测样本独立地取自不同的个体。

在一实施例中，健康样本、肿瘤样本、待测样本为体液样本。

在一实施例中，各样本的cfDNA测序数据为cfDNA全基因组测序数据。

在一实施例中，各样本的cfDNA测序数据量为6Gbase-30 Gbase(Gbase是指碱基数)。此为低深度测序策略。测序深度约为2-3×，6-9Gbase，现有的甲基化富集方法对样本的测序深度高达约30×，数据量高达约90Gbase。

在一实施例中，cfDNA测序数据来源于生物体的样本，生物体也可称为个体，可以包括但不限于人体、动物体等等，动物体包括但不限于大鼠。

在一实施例中，健康样本、肿瘤样本、待测样本独立地取自不同的生物体。示例但非限制性的，例如，如果针对的对象是人，那么，每个人为一个个体，从健康人的体液中取健康样本，从肿瘤患者的体液中取肿瘤样本，从受试者的体液中取待测样本，受试者通常是指患病状况未知的个体，也可以是患病状况已知的个体。在一实施例中，采用本发明对患病状况已知的个体进行cfDNA检测，可用于筛选相关疾病的候选新药。

健康人是指未患有癌症的个体。

健康群体有其末端分布特征偏好性，通过群体分析，分类对比构建模型，可以找到最具显著性差异的末端分布特征。

在一实施例中，健康样本可以是取自健康人的体液样本，如取自患者的血液、尿液、胸腔积液等等。健康样本通常可以是从健康人的血浆中提取的cfDNA。

在一实施例中，肿瘤样本可以是取自肿瘤患者的体液样本，示例但非限制性的，如取自患者的血液、尿液、胸腔积液等等。

在一实施例中，肿瘤样本可以取自确诊的特异肿瘤患者的体液。

在一实施例中，待测样本可以指取自受检个体的样本，具体可以是受检个体的体液样本，如血液、尿液、胸腔积液等等。待测样本所属个体的健康状况可以是已知的，也可以是未知的。

在一实施例中，cfDNA测序数据是指对各样本的cfDNA进行测序所获得的数据，测序方法通常为第二代测序。

在一实施例中，第二代测序又称“下一代测序”、NGS，相比于传统的基于桑格尔(Sanger)和毛细电泳法的方法具有增加的通量，例如能够一次产生数十万相对较小序列读段。二代测序技术的一些实例包括但不限于合成测序、连接测序以及杂交测序。在一实施例中，二代测序的基本原理如下：将dNTP的3'-OH以叠氮基团RTG(Reversible TerminatingGroup,可逆末端基团)进行修饰；将4种碱基分别与不同的荧光分子连接；DNA合成时，RTG能起到类似于ddNTP的作用终止反应；每次合成反应终止并读取信号之后，洗脱RTG和荧光分子，进行下一轮循环(参见网址：https://www.jianshu.com/p/c9ade91acced)。在一实施例中，二代测序包括但不限于Illumina循环SBS法、华大DNA纳米球扩增技术等等，二代测序平台包括但不限于Geneseq 2000测序平台、MGISEQ-T7测序平台、Illumina测序平台等等。

在一实施例中，健康样本、肿瘤样本、待测样本的cfDNA测序数据一般首先比对到参考基因组上，用于质控。在一实施例中，获取的是健康样本、肿瘤样本、待测样本的基因组测序数据比对到参考基因组的比对文件。在一实施例中，参考基因组包括但不限于GRCH37、b37、hs37d5(b37+decoy)、hg19、GRCH38(hg38)等等。在一实施例中，hg19可以下载自UCSC(http://genome.ucsc.edu/)，GRCH38可以下载自NCBI(https://www.ncbi.nlm.nih.gov/)。在一实施例中，如果样本是取自人体，则将测序数据比对到人类参考基因组上，如果样本是取自动物体，则将测序数据比对到对应动物物种的参考基因组上。

根据第二方面，一种实施例中提供预测肿瘤组织cfDNA的系统，包括：

存储器，用于存储程序；

在一实施例中，提供预测肿瘤组织cfDNA的系统，包括以下模块：(1)训练模块；(2)数据模块；(3)质控模块；(4)报告模块。

在一实施例中，训练模块的功能包括：获得健康人、确诊的特异肿瘤患者的cfDNA的全基因组测序数据；提取末端碱基频数特征和末端碱基kmer特征；使用机器学习算法分别对两个特征集进行变量筛选和复杂度调整；再将两个数据集归一化处理后整合作为训练集，通过机器学习的方法构建模型；将测试后的模型和脚本使用系统容器封装，并部署到测序仪的计算系统中。

在一实施例中，数据模块的功能包括：样本实验建库和上机测序处理；对测序数据使用测序仪自带的拆分软件对测序数据按照样品的条码(barcode)进行拆分。

在一实施例中，质控模块的功能包括：对样品的数据进行质量过滤，并抽取1M条reads比对到人的参考基因组上。得到质控指标：比对率、Q20、Q30、插入片段长度中位数、GC含量(比对率>90％、Q20>90％、Q30>85％、插入片段长度中位数168±20bp、GC含量<0.7)；并根据质控阈值判断是否运行报告模块。

在一实施例中，报告模块的功能包括：用于将质量过滤后的数据，使用嵌入到测序仪计算系统的模块，提取样品的末端碱基频数特征和末端碱基kmer特征，并进行组织来源分析评估和样本健康状态的分析评估，给出评估报告；如果健康状态为异常，给出可能的病变器官参考。

在一实施例中，相对于现有溯源方法中涉及的片段选择、甲基化富集，本发明简化了cfDNA检测及分析流程，在测序前无需对cfDNA进行任何预处理，如片段选择、甲基化富集等，有效降低溯源成本。

在一实施例中，运用本方法所检测到的cfDNA在全基因组上的末端特征，组合了末端碱基频数信息和末端Kmer特征两大维度信息，比体细胞突变更容易检测到，分析结果的特异性和灵敏度高(灵敏度92.9％，特异性93.2％，AUC＝98％)。

在一实施例中，本方法结合机器学习算法，自动筛选贡献度多、区分度高的特征值，避免了从数目庞大的偏好末端坐标位点中人工筛选差异位点的繁杂步骤，也减少了批次效应，可实现对所检测cfDNA组织来源和所属样本健康状况的评估。

在一实施例中，测序后通过随机抽样实现快速质控，末端特征直接以读长为输入，无需与参考基因组进行比对，分析模块嵌入测序仪计算系统，测序后自动启动质控、分析和报告模块，无需人工操作，所需计算资源少，每个样品单核CPU仅需45min，耗时短。

目前，大多数cfDNA的临床辅助应用都是基于测序仪和计算机集群的。测序仪获得cfDNA样品的核酸测序数据，计算机集群具有强大的计算能力用于测序数据的质控、比对、突变检测等分析。测序仪和集群平台之间的数据传输增加了时间成本和风险成本。在一实施例中，本发明将分析模块嵌入测序仪计算系统，方便应用在医检部门，无额外样品运输和数据传输的资源消耗。

在一实施例中，本发明的测序策略采用低深度全基因组测序的方法，成本低，普及广大受众，有效提升可及性。

在一实施例中，本发明的主要机理如下：细胞核内的DNA分子在大部分时间都是高度压缩的状态，缠绕着核小体出于保护的状态。当细胞需要行使基因转录或者调控时，特定的DNA分子区间需要解螺旋后，核小体解除绑定后使得特定DNA分子区间得以暴露。不同的组织细胞，DNA分子的区间暴露偏好性不同，因此细胞凋亡DNA分子碎片化的偏好性不同，直接导致cfDNA的末端具有偏好性。另外，不同消化酶的消化印记也都会保留cfDNA的末端上。因此，血浆游离核酸分子的末端特征能呈现其组织来源的偏好性，另外也能呈现健康人和患者的末端特征的偏好性。

在一实施例中，相对于现有的肿瘤筛查模型，本发明主要具有以下优势中的至少一种：

(1)本发明的cfDNA无需比对参考基因组，而现有方法中需要比对到参考基因组。

(2)本发明直接比较肿瘤患者cfDNA和健康人所有读长，而现有技术只关注ctDNA的末端特征，本发明通过研究所有读长，除了可以找到肿瘤细胞释放的ctDNA的末端特征，还可以关注到其它区别于正常人异常凋亡细胞如免疫细胞等释放的DNA的特征，本发明为除了肿瘤以外其他疾病的鉴定提供了基础。

(3)本发明具体研究的指标是读长两侧末端5-10bp的四种碱基的频数以及读长两端4-6bp的组合序列频数特征，而现有技术只研究3'端的特征，而且仅提及用了序列，并不涉及具体内容，含义比较模糊。

(4)本发明实施例的训练集样本数多，而且还通过分癌种模型实现组织溯源，现有技术无法实现溯源。

以下实施例的具体操作步骤参见图1。

实施例1基于健康人和八大癌种的cfDNA样本测序数据构建健康状况评估分类模型

样本收集：北京吉因加医学检验实验室收集了670例cfDNA的样品(表1)，其中涵盖了健康人和八大癌种(肺癌、卵巢癌、肝癌、胃癌、膀胱癌、乳腺癌、肠癌、胰腺癌)。各个样品均为从每个人的外周血分离血浆中提取的cfDNA。样本采集前均签署知情同意书和经过伦理审核。

表1 cfDNA来源信息

文库构建：对所有的cfDNA样本构建全基因组文库，无需打断，文库的片段大小主要集中在160-170bp左右。

二代测序：采用Geneseq2000测序平台对上述文库进行PE100测序，每个样本测序数据量为9Gbase。

数据质控：

1、采用BWA软件将下机数据与人类参考基因组(版本GRCh37)比对，根据比对率评估样品的污染率，将比对率≤90％的样品过滤。保留满足质控阈值(Q20>90％、Q30>85％、插入片段长度中位数为168±20bp、GC含量<0.7)的样本共500个，其中健康样本的共147个，癌症患者样本353个。

2、将不同群体内的个体，随机分成三组；9个群体，共3*9＝27组数据。

3、通过Jellyfish软件计算27组数据的末端碱基频数矩阵和Kmer频数矩阵，其中末端碱基频数矩阵是指所有读长两侧末端6bp的四种碱基的频数矩阵，Kmer频数包含整条读段的Kmer特征和末端Kmer特征，整条读段的Kmer特征矩阵是所有reads 11bp的组合序列频数矩阵，末端Kmer特征是所有reads两端4bp的组合序列频数矩阵。

4、去掉27组数据中的低频Kmer(所有组中，频次小于3的Kmer)。

5、每个群体三个重复，癌种群体分别和健康群体使用R包edgeR进行群体间差异碱基频数和Kmer分析。拟合负二项式广义对数线性模型，设置P值阈值为0.05，获取显著差异碱基和Kmer。

6、取并集整合所有差异碱基和Kmer。提取末端碱基频数和Kmer频数特征，归一化处理并进行机器学习建模。

特征采集后，使用R包“glmnet”进行LASSO特征选择，选择出100个主要贡献的特征集作为后续模型训练和预测的特征集。对所有样品的特征矩阵进行zscore归一化处理。最后分别使用Xgboost和SVM(支持向量机)进行二分类和多分类模型构建。

二分类模型：样品标记为正常组和癌症组，使用Xgboost算法模型。应用R包绘制500例cfDNA样品构建的健康状况评估分类器ROC曲线图，模型在阈值为0.7时，灵敏度为92.9％，特异性为93.2％，AUC＝98％(参见图2)。

多分类模型：癌症样品分别标记为八大癌种(肺癌、卵巢癌、肝癌、胃癌、膀胱癌、乳腺癌、肠癌、胰腺癌)，使用SVM算法模型。

构建好的模型使用系统容器封装，并部署到测序仪的计算系统中，作为训练模块，用于报告模块分析。

实施例2待检测cfDNA样本测序数据评估健康状况和组织来源

1、数据模块

具体步骤参见图1，对待检测的50个cfDNA样本进行全基因组文库建库后，使用Geneseq2000测序平台对上述文库进行PE100测序，每个样本的测序数据量为9G。根据文库信息，进行数据拆分。样品拆分后，数据存储于测序仪的磁盘空间，用于后续质控模块和报告模块。

2、质控模块

为了防止样品采集过程污染或人为过错造成的报告错误，运行系统质控模块。系统容器中质控模块的功能包括：

1)随机抽取每个样品的10⁶bp读长，应用BWA软件比对到人类基因组；

2)计算比对率；

3)对待测样本进行质控，如果待测样本的比对率>90％，Q20>90％，Q30>85％，插入片段为168±20bp，GC<0.7；则质控合格，进入后续报告模块。

3、报告模块

质控模块合格后，运行系统报告模块，系统容器功能包括：

1)提取末端的碱基频数信息和Kmer频数特征，Kmer频数特征包含整条读段的Kmer特征和末端Kmer特征，整条读段的Kmer特征是所有reads 11bp的组合序列频数，末端Kmer特征是所有reads两端4bp的组合序列频数；

2)使用训练模块提供的模型，运行Xgboost预测程序，根据预测打分给出该样品的健康状况报告，报告结果如图3所示，50个样本预测分值具体参表2，表2中的临床信息为准确的样本信息，统计结果见表3，结合各样本病理信息可知，癌症患者样本(即肿瘤样本)共31个，健康样本19个，模型预测≥阈值0.7的样本为癌症患者样本，即肿瘤样本，或称阳性样本，共28+2＝30个(其中有2个样本的预测结果为假阳性)，模型预测＜阈值0.7的样本为健康样本，即阴性样本，共17+3＝20个(其中有3个样本的预测结果为假阴性)，可得出数据集中，cfDNA组织来源预测模型灵敏性(灵敏性是指正确地预测为阳性的样本数占实际阳性样本数的百分率)高达28÷31＝90.32％，特异性(特异性是指将实际无病者正确地判断为阴性的百分率)为17÷19＝89.47％。

表2

表3 cfDNA组织来源预测模型性能结果统计表

3)预测得到30个肿瘤样本，其中2个是假阳性样本，不再进行组织来源预测，取剩余的28个临床信息同样为肿瘤样本的预测样本，使用训练模块提供的多分类模型，运行SVM多分类，并根据预测结果给出最有可能的两个病变部位参考报告(参见表4)，统计结果见表5。

表4

样本编号	临床信息	模型预测Top1	模型预测Top2
				189003646BPD	肠	肠	卵巢
189004809BPD	肠	肠	卵巢
				189010048BPD	肠	肠	肺
189006947BPD	肠	卵巢	肠
				189009603BPD	肠	卵巢	肠
179004452BPD	肺	肺	肠
				179004785B1PD	肺	肺	卵巢
179006279B1PD	肺	肺	卵巢
				190011013BPD	肺	肺	卵巢
190014257BPD	肺	卵巢	胃
				180000584BPD	肝	肝	肺
180004994BPD	肝	肝	卵巢
				180014900BPD	肝	肝	肺
180014867BPD	肝	卵巢	肠
				170015538BPD	肝	乳腺	肝
189004328BPD	卵巢	肺	卵巢
				189000312BPD	卵巢	卵巢	肠
189007626BPD	卵巢	卵巢	肝
				189010625BPD	卵巢	卵巢	肠
189011042BPD	卵巢	卵巢	肠
				189011452BPD	卵巢	卵巢	肝
199000446BPD	卵巢	卵巢	肝
				199002805BPD	卵巢	卵巢	肺
190010288BPD	乳腺	肺	乳腺
				190018255BPD	乳腺	肺	胃
190002810BPD	乳腺	乳腺	肝
				190015006BPD	乳腺	乳腺	胃
190003957BPD	胃	胃	肺

表5病变器官预测性能表

从表5可知，结合各样本病理信息，病变器官预测模型对不同癌种的性能不同，对胃癌前两位预测准确率高达100％，对卵巢癌前两位预测准确率也高达100％，对肠癌、肺癌、肝癌的预测准确率高达80％，乳腺癌次之，为75％。上述数据表面，本实施例对肿瘤组织cfDNA的来源预测准确率高。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种预测肿瘤组织cfDNA的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述模型选自分类模型、聚类模型、回归模型中的至少一种；

任选地，所述分类模型为健康状况分类模型；

任选地，预测步骤中，将提取待测样本的cfDNA测序数据的末端特征和Kmer频数特征输入健康状况分类模型，获得目标模型，进行样本分类预测，具体是设定预设值，根据目标模型中各评价指标对应的指标值与预设值的大小关系，判定目标模型是否符合预设条件，进而获得待测样本的分类预测结果；

任选地，预测步骤中，各评价指标对应的指标值具体是指读长末端A、T、C、G四种碱基频数，读长末端指定Kmer组合序列频数和整条读段指定Kmer组合序列频数所包含的数据先分别除以各自的频数总数转化为频率值，再分别进行样本间均一化，均一化后的数值作为机器学习输入，计算得到对应的指标值，并判断指标值与预设值的大小关系，获得待测样本的分类预测结果；

任选地，预测步骤中，如果指标值＜预设值，则判定目标模型不符合预设条件，预测所述待测样本为健康样本，反之，则判定目标模型符合预设条件，预测所述待测样本为肿瘤样本；或者，如果指标值＞预设值，则判定目标模型不符合预设条件，预测所述待测样本为健康样本，反之，则判定目标模型符合预设条件，预测所述待测样本为肿瘤样本。

3.如权利要求1所述的方法，其特征在于，预测步骤中，如果所述待测样本的预测结果为肿瘤样本，则预测所述待测样本中cfDNA的组织来源，输出可能的病变器官参考信息；

任选地，如果所述待测样本的预测结果为肿瘤样本，则使用各癌种的肿瘤样本的cfDNA测序数据构建的训练模块提供的多分类模型，根据分类结果输出可能的病变器官参考信息；

任选地，根据分类结果输出最有可能的两个病变器官参考报告。

4.如权利要求1所述的方法，其特征在于，所述末端特征包括读长末端碱基频数；

任选地，所述读长末端碱基频数为所有读长两侧末端的A、T、C、G四种碱基的频数；

任选地，所述读长末端碱基频数为所有读长两侧末端5-10bp的A、T、C、G四种碱基的频数；

任选地，所述Kmer频数特征包含整条读段9-15bp的组合序列频数特征和/或读长两端4-6bp的组合序列频数特征；

任选地，所述Kmer频数特征包含整条读段11bp的组合序列频数和/或读长两端4bp的组合序列频数。

5.如权利要求1所述的方法，其特征在于，所述模型为健康状况分类模型，构建健康状况分类模型的方法包括：提取已知的健康样本和已知癌种的肿瘤样本的cfDNA测序数据的末端特征和Kmer频数特征，根据所述末端特征和Kmer频数特征构建分类模型。

6.如权利要求5所述的方法，健康状况分类模型构建步骤中，先根据样本种类的不同，将肿瘤样本分为不同癌种群体，健康样本作为健康群体，将同一群体内的样本随机分成k组，分别计算读长末端碱基频数和整条读段m bp的组合序列频数和/或读长末端n bp组合序列频数，分别进行群体间差异碱基频数和Kmer分析，拟合负二项式广义对数线性模型，设置P值，获取显著差异Kmer，取并集整合所有差异Kmer，作为不同癌种间具有区分度的Kmer频数特征；

任选地，k为自然数，且3≤k≤5；

任选地，m为自然数，且9≤m≤15；

任选地，n为自然数，且4≤n≤6；

任选地，所述显著差异Kmer是指P值<0.05或P值<0.01的Kmer。

7.如权利要求5所述的方法，其特征在于，健康状况分类模型构建步骤中，对已知的健康样本和已知癌种的肿瘤样本的cfDNA测序数据的末端特征和Kmer频数特征数据进行数据预处理，获得有效建模数据，再进行聚类，获得有效初始特征数据，再通过机器学习算法对有效特征数据进行模型训练，构建分类模型；

任选地，健康状况分类模型构建步骤中，包括对提取的特征集进行变量筛选和/或复杂度调整，并通过所有单一或组合机器学习算法构建分类模型；

任选地，所述机器学习算法选自K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络、AdaBoost中的至少一种；

任选地，健康状况分类模型构建步骤中，提取健康样本和肿瘤样本的cfDNA测序数据的末端特征和kmer频数特征之前，先进行质控；

任选地，质控指标选自比对率、碱基质量值大于20的百分比Q20、碱基质量值大于30的百分比Q30、插入片段长度、GC含量中的至少一种；

任选地，健康状况分类模型构建步骤中，将质控、末端特征和Kmer频数特征提取、训练并测试后的模型和脚本使用系统容器封装，并部署到测序仪的计算系统中；

任选地，预测步骤中，包括使用泛癌种和健康生物体的cfDNA测序数据构建的健康状况二分类模型预测待测样本是否为健康样本或肿瘤样本；

任选地，健康样本、肿瘤样本、待测样本独立地取自不同的个体；

任选地，健康样本、肿瘤样本、待测样本为体液样本；

任选地，各样本的cfDNA测序数据为cfDNA全基因组测序数据；

任选地，各样本的cfDNA测序数据量为6Gbase-30 Gbase。

8.一种预测肿瘤组织cfDNA的系统，其特征在于，包括：

9.一种预测肿瘤组织cfDNA的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1至7任意一项所述的方法。