CN112599197A

CN112599197A - 一种基于血浆dna片段分析评估患癌风险的方法和装置

Info

Publication number: CN112599197A
Application number: CN202011541207.1A
Authority: CN
Inventors: 管彦芳; 李敏; 王科; 刘涛; 易玉婷; 戴平平; 易鑫; 杨玲
Original assignee: Beijing Jiyinjia Medical Laboratory Co ltd
Current assignee: Beijing Jiyinjia Medical Laboratory Co ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-02
Anticipated expiration: 2040-12-23
Also published as: CN112599197B

Abstract

本申请公开了一种基于血浆DNA片段分析评估患癌风险的方法和装置。本申请方法从bam文件中提取offtarget DNA片段，计算其区间内bin的短片段数与长片段数比值，由此计算Z‑score，以染色体臂为单位计算每臂Z‑score之和，作为微观片段特征；对offtarget DNA片段区间bam文件进行下采样，从中提取DNA片段长度分布特征，作为宏观片段特征；根据微观和宏观片段特征，采用血浆DNA片段模式辅助评估患癌风险模型预测待测对象患癌风险。本申请方法综合利用血浆DNA片段微观和宏观片段特征进行患癌风险评估；能有效解决低深度WGS和WES的ctDNA含量低的问题，避免测序数据浪费。

Description

一种基于血浆DNA片段分析评估患癌风险的方法和装置

技术领域

本申请涉及患癌风险评估技术领域，特别是涉及一种基于血浆DNA片段分析评估患癌风险的方法和装置。

背景技术

早期发现是减少癌患者死亡的关键。当患者出现可疑的肿块或症状时，医生做的第一件事可能是进行组织活检-收集细胞进行仔细检查。然而，这个过程多半是侵入性的、危险的、疼痛的。于是，研究人员开始寻找替代或补充的方案。因此，液体活检(liquidbiopsy)应运而生。其中基于cfDNA(circulating free DNA)的液体活检技术被越来越多的应用于肿瘤的早期筛查、治疗监测、预后评估等多个方面。一般认为cfDNA起源于坏死或凋亡的细胞，坏死的细胞被巨噬细胞等吞噬，然后释放经过消化的DNA到血液中形成循环游离DNA。在实体瘤中，肿瘤组织快速生长，因养分供应不足等原因导致细胞死亡，释放DNA到患者的外周血中，这些源于肿瘤细胞的cfDNA被称为ctDNA，它们可以作为是否患癌的标志。

肝癌是一类高发性恶性肿瘤，在国家癌症中心2019发布的全国癌症统计数据中，肝癌的发病率位居第四，死亡率则位于第二位，而患者的五年生存率仅有14.1％。高发病率和死亡率的关键原因在于缺乏有效的早期筛查标志物。传统诊断方法中，血清甲胎蛋白(Alpha-fetoprotein，AFP)和肝脏超声检查是早期筛查肝癌的主要手段，但是相关研究表明约80％的小肝癌患者(即早期肝癌患者)的AFP水平没有显著升高，说明AFP作为筛查标志物具有一定的局限性，不适于早期肝癌的检测；而对于早期肝癌的超声检查，其灵敏度仅有47％；通过超声联合AFP蛋白标志物检出的灵敏度为63％，虽然这种联合检测可提高灵敏度，也降低了特异性，因此，在早期肝癌患者的诊断中，急需高度灵敏和特异性的检测手段。

胰腺癌是一种发病隐匿、进展迅速、预后极差的消化系统恶性肿瘤。全球每年有超过20万人死于胰腺癌，总体发病率和死亡率逐年上升，预计在2030年将成为第二大肿瘤杀手。手术切除是目前唯一可能治愈的方法，但大部分患者就诊时因疾病较晚而失去手术时机，晚期患者的5年生存率只有2～5％，而早期患者术后5年生存率可高达80％。以血清蛋白标记物(CA199)联合影像学(B超或CT)为基础的筛查体系，敏感性和特异性不足，是导致胰腺癌早诊率低的重要原因。有研究结果显示，采用CT、MRI、超声内镜等方法筛查胰腺癌高危人群，阳性率仅为1.56％，且成本大、效率低，而超声内镜等有创检查也造成患者的心理、生理损伤，因此，亟需研发更高效、准确、无创的筛查技术手段。

卵巢癌，即卵巢恶性肿瘤，是女性生殖器官常见的恶性肿瘤之一。卵巢的位置比较特殊，因为它身在盆腔，所以卵巢长肿瘤的时候它一般早期是没有明显症状的，晚期会出现一些消化道相关的症状，比如食欲不好，腹胀，腹痛，恶心，乏力。但是大部分就是因为到消化道门诊去看病，发现盆腔有个包块才怀疑到卵巢癌，另外有些女性她可能会出现一些月经的改变。所以卵巢癌的早期诊断是比较困难的，大多数诊断的时候往往都已经是晚期，所以对一些有家族史的病人不能依靠症状来提示卵巢癌然后才去就诊。

众所周知，细胞中基因组DNA以核小体的形式包装成为染色质，能很好的保护DNA。研究发现，核小体的稳定性与细胞的生命活动息息相关，核小体损伤可能导致肿瘤发生。研究人员在《PLOS Genetics》上发表文章，称ctDNA片段比来源于正常细胞的片段要短，这可能与肿瘤细胞核小体的稳定性变弱有关。

2018年Mouliere等人提出了通过低深度的血浆全基因组测序(WGS测序)和全外显子测序(WES测序)，融合片段分布模式和片段拷贝数的绝对中位差来识别健康人和癌症患者。具体的，Mouliere等人提出了通过0.4×低深度的血浆WGS测序和WES测序，融合片段分布模式和片段拷贝数的绝对中位差来识别健康人和癌症患者；其没有针对具体的癌种，将多癌种粗粒度划分为高入血和低入血癌种，对比分析多癌种的片段模式，然后人工统计分析进行特征选择，计算片段拷贝数的绝对中位差t-MAD，进而通过机器学习方法学习分类模型来识别健康人和癌症患者。该研究入组了65例健康人和284例癌症患者，对比分析了低入血和高入血癌症的片段分布特征，进一步证明了ctDNA片段模式和cfDNA片段模式的差异。该研究通过逻辑回归和随机森林机器学习方法得出高入血癌种分类效果AUC值为0.989，低入血癌种分类效果AUC值为0.891。2018年Stephen Cristiano等人提出DELFI方法用于诊断患癌风险并预测患癌组织，该方法使用9×的WGS测序数据，对GC调整后计算长短片段的覆盖特性，然后融合线粒体拷贝数变异，通过机器学习方法来区分健康人和病人，该方法的特异性是73％。

Mouliere等人提出的方法存在低深度WGS和WES的ctDNA含量低的问题，并且该研究入组多种癌症患者，其训练的模型对特定癌种筛查不够灵敏。DELFI方法只在微观染色体层面分析片段模式，特异性较差。

发明内容

本申请的目的是提供一种新的基于血浆DNA片段分析评估患癌风险的方法和装置。

为了实现上述目的，本申请采用了以下技术方案：

本申请的一方面公开了一种基于血浆DNA片段分析评估患癌风险的方法，该方法包括以下步骤，

微观片段特征计算步骤，包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的of ftarget DNA片段；(a3)对off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb(如1号染色体的短臂的基因座区间[6 000 000,10 999 999])的bin，统计bam文件中每个bin含有的长片段和短片段的数量，设置短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score之和，获得22对常染色体39个臂的Z-score值；其中，芯片捕获区间是癌症热点突变位点所在基因区间，芯片的捕获区间信息包括calling SNV、CNV和SV等的检测信息；本申请中，由于cfDNA的长度集中在100-220bp，峰值是167bp，与一个核小体的DNA长度类似，因此取150bp作为一个分界线，将长度为100-150bp设置为短片段，151-220bp设置为长片段；基于相同的发明构思，对于不同长度范围的cfDNA，长片段和短片段的具体设置可以进行调整，在此不作具体限定；

宏观片段分布特征计算步骤，包括(b1)对微观片段特征计算步骤根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；可以理解，如果reads数不满足下采样要求则不能进行后续分析；

患癌风险评估步骤，包括根据微观片段特征计算步骤获得的39个臂的Z-score值，以及宏观片段分布特征计算步骤获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险；

其中，血浆DNA片段模式辅助评估患癌风险模型由健康人和癌症病人的血浆DNA的微观片段特征和宏观片段分布特征经过机器学习pipeline进行训练，并通过交叉验证学习超参数，同时学习模型参数获得；其中，交叉验证学习超参数，本申请的一种实现方式中，具体是，一次交叉验证的过程是将数据等分为5份，每次使用其中4份做模型训练，1份作为验证，循环5次得到每一份数据f1z值，然后通过网格搜索法变换不同的参数，进行多次交叉验证过程，得到最好的f1值和较优的超参数；学习模型参数，本申请的一种实现方式中，具体是指，模型参数通过梯度下降法，迭代200次得到较优的f1值和参数值；微观片段特征为微观片段特征计算步骤获得的39个臂的Z-score值；宏观片段分布特征为宏观片段分布特征计算步骤获得的DNA片段长度分布特征，并且，在进行宏观片段分布特征计算步骤时，仅仅采用reads数满足下采样要求的健康人样本和癌症病人样本。

需要说明的是，本申请的患癌风险评估方法，综合血浆DNA片段的微观片段特征，即39个臂的Z-score值，以及血浆DNA片段的宏观片段分布特征，即DNA片段长度分布特征；利用采用健康人和癌症病人的微观片段特征和宏观片段分布特征经过模型训练获得的血浆DNA片段模式辅助评估患癌风险模型，对于待测对象进行患癌风险评估；可以有效解决低深度WGS和WES的ctDNA含量低的问题，在芯片区间DNA片段calling SNV、CNV、SV区分健康人和癌症病人的同时，利用非芯片区间DNA片段分析微观和宏观DNA片段模式特征来辅助区分健康人和癌症病人。本申请的方法使用不同癌症患者的术前血提取特征分别来训练模型，针对特定癌种进行风险预测，是一个针对特定癌种的辅助筛查手段，本申请的方法可以有效避免测序数据浪费。本申请的一种实现方式中，采用本申请的患癌风险评估方法对肝癌和健康人样本进行分类，特异性为98％，敏感性为79％。

本申请的一种实现方式中，微观片段特征计算步骤根据ratio计算Z-score具体包括，使用局部加权线性回归算法LOWESS对每条染色体多个bin的ratio列表进行校正，得到ratio2列表；然后根据ratio2列表计算其均值以及标准差，根据公式一计算获得Z-score；

公式一

公式一中，x为ratio2，

为指定染色体臂的ratio2的均值，δ为指定染色体臂的ratio2的标准差。

本申请的一种实现方式中，39个臂的Z-score值具体包括1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q的Z-score值。

本申请的一种实现方式中，宏观片段分布特征计算步骤和血浆DNA片段模式辅助评估患癌风险模型中，下采样要求为reads数大于3000000；并且，统一将reads数下采样到3000000条，获得下采样后的bam文件用于后续分析。

本申请的一种实现方式中，提取长度在[95bp，420bp]区间的DNA片段进行片段长度分布特征分析，并将其作为宏观片段分布特征。

本申请的一种实现方式中，机器学习pipeline包括MaxMin归一化、PCA降维和多层感知机mlp模型训练。

可以理解，本申请基于血浆DNA片段分析评估患癌风险的方法，其关键在于创造性的将微观片段特征和宏观片段分布特征结合起来评估患癌风险。而本申请的方法之所以能够实现，主要是本申请预先构建了健康人和癌症病人的微观片段特征和宏观片段分布特征的模型，即血浆DNA片段模式辅助评估患癌风险模型；根据该模型，只需要获得待测对象的微观片段特征和宏观片段分布特征，即可准确、有效的分析待测对象的患癌风险。

因此，本申请的另一方面还公开了一种构建血浆DNA片段模式辅助评估患癌风险模型的方法，其包括以下步骤：

微观片段特征计算步骤，包括(a1)获取健康人和癌症病人的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的off target DNA片段；(a3)对off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score之和，获得所有样本的22对常染色体39个臂的Z-score值；

宏观片段分布特征计算步骤，包括(b1)对微观片段特征计算步骤根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件，如果reads数不满足下采样要求，则放弃该样本；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；

模型训练步骤，包括用于获取健康人和癌症病人分别采用微观片段特征计算步骤获得的39个臂的Z-score值，以及健康人和癌症病人分别采用宏观片段分布特征计算步骤获得的DNA片段长度分布特征；根据获取的健康人和癌症病人的39个臂的Z-score值和DNA片段长度分布特征，经过机器学习pipeline进行训练，并通过交叉验证学习超参数，同时学习模型参数获得本申请的血浆DNA片段模式辅助评估患癌风险模型。

其中，交叉验证学习超参数，本申请的一种实现方式中，具体是，一次交叉验证的过程是将数据等分为5份，每次使用其中4份做模型训练，1份作为验证，循环5次得到每一份数据f1z值，然后通过网格搜索法变换不同的参数，进行多次交叉验证过程，得到最好的f1值和较优的超参数；学习模型参数，本申请的一种实现方式中，具体是指，模型参数通过梯度下降法，迭代200次得到较优的f1值和参数值。

可以理解，本申请的模型构建方法中，所采用的步骤与本申请基于血浆DNA片段分析评估患癌风险的方法基本相同；只不过针对的对象是确定的健康人和癌症病人。因此，本申请模型构建方法中各步骤的细节特征，与本申请基于血浆DNA片段分析评估患癌风险的方法基本相同；例如，模型构建方法中根据ratio计算Z-score具体包括，使用局部加权线性回归算法LOWESS对ratio进行校正，得到ratio2，然后根据ratio2值计算均值以及标准差，根据公式一计算获得Z-score；又例如，模型构建方法中也是下采样要求为reads数大于3000000，并且，统一将reads数下采样到3000000条，获得下采样后的bam文件用于后续分析，但是，放弃reads数不满足下采样要求的样本；又例如，模型构建方法中也是提取长度在[95bp，420bp]区间的DNA片段进行片段长度分布特征分析，并将其作为宏观片段分布特征；又例如，模型构建方法中机器学习pipeline也包括MaxMin归一化、PCA降维和多层感知机mlp模型训练；其它详见本申请基于血浆DNA片段分析评估患癌风险的方法，在此不累述。

本申请的再一方面还公开了一种基于血浆DNA片段分析评估患癌风险的装置，该装置包括微观片段特征计算模块、宏观片段分布特征计算模块、模型训练模块和患癌风险评估模块；

微观片段特征计算模块，包括用于(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的off target DNA片段；(a3)对off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对offtarget DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score，获得22对常染色体39个臂的Z-score值；

宏观片段分布特征计算模块，包括用于(b1)对微观片段特征计算模块根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；

模型训练模块，包括用于获取健康人和癌症病人分别采用微观片段特征计算模块获得的39个臂的Z-score值，以及健康人和癌症病人分别采用宏观片段分布特征计算模块获得的DNA片段长度分布特征；根据获取的健康人和癌症病人的39个臂的Z-score值和DNA片段长度分布特征，经过机器学习pipeline进行训练，并通过交叉验证学习超参数，同时学习模型参数获得血浆DNA片段模式辅助评估患癌风险模型；

患癌风险评估模块，包括用于根据微观片段特征计算模块获得的39个臂的Z-score值，以及宏观片段分布特征计算模块获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险。

需要说明的是，本申请基于血浆DNA片段分析评估患癌风险的装置，实际上就是通过各模块分别实现本申请基于血浆DNA片段分析评估患癌风险的方法中的各步骤；因此，个模块的具体限定可以参考本申请基于血浆DNA片段分析评估患癌风险的方法，在此不累述。不过，在模型训练模块中获取健康人和癌症病人的DNA片段长度分布特征时，仅仅获取offtarget DNA片段区域的bam文件的reads数满足下采样要求的样本的DNA片段长度分布特征；例如，下采样要求为reads数大于3000000条。

可以理解，本申请基于血浆DNA片段分析评估患癌风险的装置中，模型训练模块只需要在首次使用时运行；例如首次对某个具体的癌症进行风险评估时，只需要采用该癌症足够多数量的病人以及健康人的相应特征进行训练即可；在获得针对该具体癌症的血浆DNA片段模式辅助评估患癌风险模型后，后续针对具体病患的检测和分析时则不需要每次都运行模型训练模块。当然，如果更换了另一种癌症，则需要重新采用该另一种癌症足够多数量的病人以及健康人的相应特征重新进行训练，获得特别针对该另一种癌症的血浆DNA片段模式辅助评估患癌风险模型，用于该另一种癌症的风险评估。

本申请的再一面公开了一种基于血浆DNA片段分析评估患癌风险的装置，该装置包括存储器和处理器；其中，存储器，包括用于存储程序；处理器，包括用于通过执行该存储器存储的程序以实现本申请基于血浆DNA片段分析评估患癌风险的方法。

本申请的再一面公开了一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现本申请基于血浆DNA片段分析评估患癌风险的方法。

由于采用以上技术方案，本申请的有益效果在于：

本申请基于血浆DNA片段分析评估患癌风险的方法和装置，综合利用血浆DNA片段的微观片段特征和宏观片段分布特征，采用血浆DNA片段模式辅助评估患癌风险模型，对待测对象进行患癌风险评估；能有效解决低深度WGS和WES的ctDNA含量低的问题。采用本申请的方法和装置，针对特定癌种进行风险预测，可以有效避免测序数据浪费。

附图说明

图1是本申请实施例基于血浆DNA片段分析评估患癌风险的方法的流程框图；

图2是本申请实施例中基于血浆DNA片段分析评估患癌风险的装置的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

现有的患癌风险预测方法主要是Mouliere等人的方法以及DELFI方法。Mouliere等人的方法无法解决低深度WGS和WES的ctDNA含量低的问题，DELFI方法只分析了微观染色体层面的片段模式，特异性较差。因此，本申请创造性的提出，宏观和微观全面分析血液中的DNA片段模式，早筛模型可能会有更好的敏感性和特异性。

基于以上研究和认识，本申请研发了一种基于血浆DNA片段分析评估患癌风险的方法，如图1所示，包括微观片段特征计算步骤11、宏观片段分布特征计算步骤12和患癌风险评估步骤13。

其中，微观片段特征计算步骤11，包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的off target DNA片段；(a3)对所述off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb(如1号染色体的短臂的基因座区间[6 000 000,10 999 999])的bin，统计bam文件中每个bin含有的长片段和短片段的数量，短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score之和，获得22对常染色体39个臂的Z-score值。

本申请的一种实现方式中具体使用局部加权线性回归算法LOWESS对ratio进行校正，得到ratio2；然后根据ratio2值计算均值以及标准差，根据公式一计算获得Z-score；最终获得了1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q，总计39个臂的Z-score值。1p表示1号染色体的长臂，1q表示1号染色体的短臂，其余以此类推。

宏观片段分布特征计算步骤12，包括(b1)对微观片段特征计算步骤根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征。

本申请的一种实现方式中，具体的下采样要求为reads数大于3000000；并且，统一将reads数下采样到3000000条，获得下采样后的bam文件用于后续分析。本申请提取DNA片段长度分布特征，发现片段长度在[95,420]区间富集，于是截取长度在[95,420]区间的片段分布特征。

患癌风险评估步骤13，包括根据微观片段特征计算步骤获得的39个臂的Z-score值，以及宏观片段分布特征计算步骤获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险。

本申请的血浆DNA片段模式辅助评估患癌风险模型由健康人和癌症病人的血浆DNA的微观片段特征和宏观片段分布特征经过机器学习pipeline进行训练，并通过交叉验证学习超参数，然后学习模型参数获得。其中，微观片段特征为微观片段特征计算步骤11获得的健康人和癌症病人的39个臂的Z-score值；宏观片段分布特征为宏观片段分布特征计算步骤12获得的健康人和癌症病人的DNA片段长度分布特征，并且，在进行宏观片段分布特征计算步骤时，仅仅采用reads数满足下采样要求的样本，即reads数大于3000000。其中，机器学习pipeline包括MaxMin归一化、PCA降维和多层感知机mlp模型训练。

本申请的方法，综合利用血浆DNA片段的微观片段特征和宏观片段分布特征，采用血浆DNA片段模式辅助评估患癌风险模型，对待测对象进行患癌风险评估，能有效解决低深度WGS和WES的ctDNA含量低的问题，针对特定癌种进行风险预测，可以有效避免测序数据浪费。

本领域技术人员可以理解，上述方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述方法中全部或部分功能。

因此，基于本申请的方法，本申请提出了一种基于血浆DNA片段分析评估患癌风险的装置，如图2所示，包括微观片段特征计算模块21、宏观片段分布特征计算模块22、模型训练模块23和患癌风险评估模块24。

其中，微观片段特征计算模块21，包括用于(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的off target DNA片段；(a3)对off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score之和，获得22对常染色体39个臂的Z-score值。

宏观片段分布特征计算模块22，包括用于(b1)对微观片段特征计算模块21根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征。

模型训练模块23，包括用于获取健康人和癌症病人分别采用微观片段特征计算模块21获得的39个臂的Z-score值，以及健康人和癌症病人分别采用宏观片段分布特征计算模块22获得的DNA片段长度分布特征；根据获取的健康人和癌症病人的39个臂的Z-score值和DNA片段长度分布特征，经过机器学习pipeline进行训练，并通过交叉验证学习超参数，同时学习模型参数获得血浆DNA片段模式辅助评估患癌风险模型。

患癌风险评估模块24，包括用于根据微观片段特征计算模块21获得的待测对象的39个臂的Z-score值，以及宏观片段分布特征计算模块22获得的待测对象的DNA片段长度分布特征，应用模型训练模块23获得的血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险。

本申请的装置，利用各模块相互协调作用，能够实现基于血浆DNA片段分析评估患癌风险，特别是通过本申请装置的各模块能够实现本申请基于血浆DNA片段分析评估患癌风险的方法中的相应的各个步骤，从而实现自动化的准确预测患癌风险。

本申请的另一实现方式中还提供了一种基于血浆DNA片段分析评估患癌风险的装置，该装置包括存储器和处理器；存储器，包括用于存储程序；处理器，包括用于通过执行存储器存储的程序以实现以下方法：微观片段特征计算步骤，包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的off target DNA片段；(a3)对off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmostcoordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score，获得22对常染色体39个臂的Z-score值；宏观片段分布特征计算步骤，包括(b1)对微观片段特征计算步骤根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；患癌风险评估步骤，包括根据微观片段特征计算步骤获得的39个臂的Z-score值，以及宏观片段分布特征计算步骤获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险。

本申请另一种实现方式中还提供一种计算机可读存储介质，该存储介质中包括程序，该程序能够被处理器执行以实现如下方法：微观片段特征计算步骤，包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从bam文件中提取芯片的off target DNA片段；(a3)对off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmostcoordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，短片段的长度为100-150bp，长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score，获得22对常染色体39个臂的Z-score值；宏观片段分布特征计算步骤，包括(b1)对微观片段特征计算步骤根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；患癌风险评估步骤，包括根据微观片段特征计算步骤获得的39个臂的Z-score值，以及宏观片段分布特征计算步骤获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险。

本申请的术语及其缩写含义如下：

bam文件，是基因比对信息存储文件，是测序数据与人参考基因组Hg19的比对信息存储文件。

off target DNA片段，是指不在芯片捕获区间的DNA片段，通过分析off target区间片段对全基因组的覆盖情况，可以作为低深度全基因组。

bin，是指基因座的一个个区间，以5Mb为单位。

下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例

本例首先进行血浆DNA片段模式辅助评估患癌风险模型构建，然后采用构建的模型对具体的癌症进行风险评估。具体如下：

血浆DNA片段模式辅助评估患癌风险模型构建方法包括：

1.输入训练样本集的测序使用芯片的捕获区间，和其测序下机数据经过预处理后的bam文件；

2.从bam文件提取芯片off target DNA片段；

3.对off target DNA片段根据质量进行筛选，然后计算微观片段特征；

4.判断非捕获区间的bam文件的DNA片段数是否满足下采样要求，不满足则不能纳入训练样本集，满足则进行下采样，统一将reads数下采样到3000000条；其中，下采样要求为reads数大于3000000；

5.从下采样后bam文件计算宏观片段分布特征；

公式二

x_i是第i个特征，x是样本的特征列表。

6.将截取后特征输入机器学习pipeline进行交叉验证学习超参数和模型参数；其中，pipeline包括MaxMin归一化，该归一化方法可以将数据的值压缩到0到1之间，公式如公式二，本例采用python的sklearn中preprocessing模块的MinMaxScaler函数，PCA主成分分析，是一种降维方式，使用几个综合因子来代表原来众多的特征，本例采用python的sklearn中decomposition模块的PCA函数；多层感知机mlp模型训练，mlp也叫人工神经网络，本例采用的全连接神经网络包括输入层，一个隐藏层和一个输出层，隐藏层的节点数为100，隐藏层的激活函数为relu，权重优化求解器为adam，其在相对较大的数据集(包含数千个训练样本或更多)方面在训练时间和验证分数方面都能很好地工作，学习的最大迭代次数是200，本例采用python的sklearn中neural_network模块的MLPClassifier函数。

7.输出pipeline和训练好的mlp模型。

其中，微观片段特征技术方法包括：

(1)使用samtools以leftmost coordinates方式对off target DNA片段的bam文件排序然后建立索引；

(2)使用窗口大小为5Mb的bin，统计bam文件中长短片段数量。定义短片段的碱基数量在100至150之间，长片段的碱基数量在151至220之间，ratio为短片段和长片段的比：

(3)使用局部加权线性回归算法LOWESS对长短片断数据进行校正，得到ratio2；

(4)每个样本根据其ratio2值计算均值以及标准差，根据公式一计算得到Z-score：

公式一

公式一中，x为ratio2，

为指定染色体臂的ratio2的均值，δ为指定染色体臂的ratio2的标准差；

(5)每条染色体分为长臂(p)和短臂(q)，以染色体臂为单位计算每条染色体臂的Z-score之和，共得到39个Z-score值，1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q。

宏观片段分布特征技术方法包括：

1.判断非捕获区间的bam文件的DNA片段数是否满足下采样要求，reads数大于3000000，不满足则不能纳入训练样本集，满足则进行下采样；

2.从下采样后bam文件提取DNA片段长度分布特征，截取长度在[95,420]区间的片段分布特征作为宏观片段分布特征。

试验1肝癌的血浆DNA片段模式辅助评估患癌风险模型及风险评估

本试验对肝炎肝硬化患者人群实施肝癌早期筛查。首先根据前述模型构建方法，提取健康人血浆和肝癌病人术前血浆，本例具体采用了280例健康人和51病人进行模型构建，健康人的来自公司内部员工和医生，没有被确诊得过癌症的人。病人是医院获取的早期癌症患者。微观片段特征和宏观片段分布特征输入机器学习pipeline进行训练，通过交叉验证学习超参数，然后学习模型参数得到训练好的模型；即本试验的用于肝癌风险评估的血浆DNA片段模式辅助评估患癌风险模型。

采用本试验构建的用于肝癌风险评估的血浆DNA片段模式辅助评估患癌风险模型，对51病例的肝炎肝硬化等患者进行肝癌风险评估。

具体风险评估的方法包括：

根据前述微观片段特征技术方法和宏观片段分布特征技术方法，获得待测对象的39个臂的Z-score值，以及[95bp，420bp]区间的DNA片段的宏观片段分布特征，采用本试验构建的用于肝癌风险评估的血浆DNA片段模式辅助评估患癌风险模型，对病患进行风险评估，结果如表1所示。

表1肝炎肝硬化患者肝癌风险评估结果

本试验对51病例的肝炎肝硬化的患者进行风险评估的结果显示，肝癌和健康人样本分类，特异性为98％，敏感性为79％。本试验的模型和风险评估方法，可以帮助医生发现早期肝癌患者，更早进行药物干预，预防癌症更加恶化，提高肝癌患者的生存率。

试验2卵巢癌血浆DNA片段模式辅助评估患癌风险模型及风险评估

本试验对食欲不好，腹胀，腹痛，恶心，乏力，怀疑患卵巢癌患者人群实施卵巢癌早期筛查。首先根据前述模型构建方法，提取健康人血浆和卵巢癌病人术前血浆本例具体采用了280例健康人和8例病人进行模型构建，健康人的来自公司内部员工和医生，没有被确诊得过癌症的人。病人是医院获取的早期癌症患者。的微观片段特征和宏观片段分布特征输入机器学习pipeline进行训练，通过交叉验证学习超参数，然后学习模型参数得到训练好的模型；即本试验的用于卵巢癌风险评估的血浆DNA片段模式辅助评估患癌风险模型。

采用本试验构建的用于卵巢癌风险评估的血浆DNA片段模式辅助评估患癌风险模型，对8例的卵巢癌疑似患者进行风险评估。

具体风险评估的方法包括：

根据前述微观片段特征技术方法和宏观片段分布特征技术方法，获得待测对象的39个臂的Z-score值，以及[95bp，420bp]区间的DNA片段的宏观片段分布特征，采用本试验构建的用于卵巢癌风险评估的血浆DNA片段模式辅助评估患癌风险模型，对疑似病患进行风险评估，结果如表2所示。

表2疑似患者卵巢癌风险评估结果

本试验对8病例的疑似患者进行风险评估的结果显示，卵巢癌和健康人样本分类，特异性为0.974％，敏感性为0.875％。本试验的模型和风险评估方法，可以帮助医生发现早期卵巢癌患者，更早进行药物干预，预防癌症更加恶化，提高卵巢癌患者的生存率。

试验3胰腺癌血浆DNA片段模式辅助评估患癌风险模型及风险评估

本试验对梗阻性慢性胰腺炎等患者人群实施胰腺癌早期筛查。首先根据前述模型构建方法，提取健康人血浆和胰腺癌病人术前血浆，健康人的来自公司内部员工和医生，没有被确诊得过癌症的人。病人是医院获取的早期癌症患者的微观片段特征和宏观片段分布特征输入机器学习pipeline进行训练，通过交叉验证学习超参数，然后学习模型参数得到训练好的模型；即本试验的用于胰腺癌风险评估的血浆DNA片段模式辅助评估患癌风险模型。

采用本试验构建的用于胰腺癌风险评估的血浆DNA片段模式辅助评估患癌风险模型，对11病例的梗阻性慢性胰腺炎患者进行风险评估。

具体风险评估的方法包括：

根据前述微观片段特征技术方法和宏观片段分布特征技术方法，获得待测对象的39个臂的Z-score值，以及[95bp，420bp]区间的DNA片段的宏观片段分布特征，采用本试验构建的用于胰腺癌风险评估的血浆DNA片段模式辅助评估患癌风险模型，对梗阻性慢性胰腺炎患者进行风险评估，结果如表3所示。

表3梗阻性慢性胰腺炎患者胰腺癌风险评估结果

本试验对11病例的梗阻性慢性胰腺炎患者进行风险评估的结果显示，胰腺癌和健康人样本分类，特异性为98.5％，敏感性为50％。本试验的模型和风险评估方法，可以帮助医生发现早期胰腺炎患者，更早进行药物干预，预防癌症更加恶化。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种基于血浆DNA片段分析评估患癌风险的方法，其特征在于：包括以下步骤，

微观片段特征计算步骤，包括(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从所述bam文件中提取芯片的off target DNA片段；(a3)对所述off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对off targetDNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，所述短片段的长度为100-150bp，所述长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score，获得22对常染色体39个臂的Z-score值；

宏观片段分布特征计算步骤，包括(b1)对所述微观片段特征计算步骤根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；

患癌风险评估步骤，包括根据所述微观片段特征计算步骤获得的39个臂的Z-score值，以及所述宏观片段分布特征计算步骤获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险；

所述血浆DNA片段模式辅助评估患癌风险模型由健康人和癌症病人的血浆DNA的微观片段特征和宏观片段分布特征经过机器学习pipeline进行训练，并通过交叉验证学习超参数，同时学习模型参数获得；所述微观片段特征为所述微观片段特征计算步骤获得的39个臂的Z-score值；所述宏观片段分布特征为所述宏观片段分布特征计算步骤获得的DNA片段长度分布特征，并且，在进行所述宏观片段分布特征计算步骤时，仅仅采用所述reads数满足下采样要求的健康人样本和癌症病人样本。

2.根据权利要求1所述的方法，其特征在于：所述微观片段特征计算步骤中，根据ratio计算Z-score具体包括，使用局部加权线性回归算法LOWESS对每条染色体多个bin的ratio列表进行校正，得到ratio2列表；然后根据ratio2列表计算其均值以及标准差，根据公式一计算获得Z-score；

公式一

公式一中，x为ratio2，

优选的，所述39个臂的Z-score值具体包括1p、1q、2p、2q、3p、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、11p、11q、12p、12q、13q、14q、15q、16p、16q、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q的Z-score值。

3.根据权利要求1所述的方法，其特征在于：所述宏观片段分布特征计算步骤和所述血浆DNA片段模式辅助评估患癌风险模型中，下采样要求为reads数大于3000000；并且，统一将reads数下采样到3000000条，获得下采样后的bam文件用于后续分析；

优选的，提取长度在[95bp，420bp]区间的DNA片段进行片段长度分布特征分析，并将其作为宏观片段分布特征。

4.根据权利要求1-3任一项所述的方法，其特征在于：所述机器学习pipeline包括MaxMin归一化、PCA降维和多层感知机mlp模型训练。

5.一种基于血浆DNA片段分析评估患癌风险的装置，其特征在于：包括微观片段特征计算模块、宏观片段分布特征计算模块、模型训练模块和患癌风险评估模块；

所述微观片段特征计算模块，包括用于(a1)获取待测对象的血浆DNA测序使用芯片的捕获区间信息，及其测序下机数据经过低质量reads过滤和与参考基因组比对后的bam文件，将其视为低深度WGS数据，分析其片段特征，以此评估患癌风险；(a2)从所述bam文件中提取芯片的off target DNA片段；(a3)对所述off target DNA片段根据质量进行筛选，保留mapping质量值大于或等于20的片段；(a4)使用samtools以leftmost coordinates方式对off target DNA片段的bam文件排序然后建立索引；(a5)使用窗口大小为5Mb的bin，统计bam文件中每个bin含有的长片段和短片段的数量，所述短片段的长度为100-150bp，所述长片段的长度为151-220bp，计算每个bin中短片段数量与长片段数量的比值ratio，根据ratio计算Z-score；(a6)每条染色体分为长臂p和短臂q，以染色体臂为单位计算每条染色体臂的Z-score，获得22对常染色体39个臂的Z-score值；

所述宏观片段分布特征计算模块，包括用于(b1)对所述微观片段特征计算模块根据质量进行筛选获得的off target DNA片段区域内的reads数进行统计，如果reads数满足下采样要求，则对其进行下采样获得用于后续分析的bam文件；(b2)从步骤(b1)获得的bam文件中提取DNA片段长度分布特征，作为宏观片段分布特征；

所述模型训练模块，包括用于获取健康人和癌症病人分别采用所述微观片段特征计算模块获得的39个臂的Z-score值，以及健康人和癌症病人分别采用所述宏观片段分布特征计算模块获得的DNA片段长度分布特征；根据获取的健康人和癌症病人的39个臂的Z-score值和DNA片段长度分布特征，经过机器学习pipeline进行训练，并通过交叉验证学习超参数，同时学习模型参数获得血浆DNA片段模式辅助评估患癌风险模型；

所述患癌风险评估模块，包括用于根据所述微观片段特征计算模块获得的39个臂的Z-score值，以及所述宏观片段分布特征计算模块获得的DNA片段长度分布特征，应用血浆DNA片段模式辅助评估患癌风险模型来预测待测对象的患癌风险。

6.根据权利要求5所述的装置，其特征在于：所述微观片段特征计算模块中，根据ratio计算Z-score具体包括，使用局部加权线性回归算法LOWESS对每条染色体多个bin的ratio列表进行校正，得到ratio2列表；然后根据ratio2列表计算其均值以及标准差，根据公式一计算获得Z-score；

公式一

公式一中，x为ratio2，

7.根据权利要求5所述的装置，其特征在于：所述宏观片段分布特征计算模块中，下采样要求为reads数大于3000000；并且，统一将reads数下采样到3000000条，获得下采样后的bam文件用于后续分析；

优选的，提取长度在[95bp，420bp]区间的DNA片段进行片段长度分布特征分析，并将其作为宏观片段分布特征；

优选的，所述模型训练模块中，获取健康人和癌症病人的DNA片段长度分布特征时，仅仅获取off target DNA片段区域的bam文件的reads数满足下采样要求的样本的DNA片段长度分布特征。

8.根据权利要求5-7任一项所述的装置，其特征在于：所述机器学习pipeline包括MaxMin归一化、PCA降维和多层感知机mlp模型训练。

9.一种基于血浆DNA片段分析评估患癌风险的装置，其特征在于：所述装置包括存储器和处理器；

所述存储器，包括用于存储程序；

所述处理器，包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于：所述存储介质中包括程序，所述程序能够被处理器执行以实现权利要求1-4任一项所述的方法。