CN113421608A

CN113421608A - 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质

Info

Publication number: CN113421608A
Application number: CN202110753791.5A
Authority: CN
Inventors: 刘睿; 包华; 吴雪; 吴舒雨; 魏玉林; 包海荣; 邵阳; 杨珊珊; 朱柳青; 崔月利; 刘璟文
Original assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co Ltd
Current assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co Ltd
Priority date: 2021-07-03
Filing date: 2021-07-03
Publication date: 2021-09-21
Anticipated expiration: 2041-07-03
Also published as: CN113421608B

Abstract

本发明涉及肝癌早筛模型的构建方法、检测装置以及计算机可读取介质。对170例对照人群和192例肝癌患者的WGS cfDNA读段长度进行统计，发现在总片段(40‑300bp)，短片段(40‑80bp)和超长片段(200‑300bp)的数量在两组间存在差异；同时以染色体长短臂统计不同长度片段的数量，在两组间也存在显著差异。本发明首次基于血浆cfDNA高通量低深度测序提供了DNA片段大小片单分布和末端序列占比与肝癌关系的诊断模型，该模型不仅能够诊断早期肝癌还能够区分肝硬化，具有无创检测，通量低，检测特异性和敏感性高的有点。

Description

肝癌早筛模型的构建方法、检测装置以及计算机可读取介质

技术领域

本发明涉及一种肝癌(Hepatocellular Carcinoma,HCC)早筛，属于分子生物医学技术领域。

背景技术

肝癌是指发生于肝脏的恶性肿瘤，全世界每年新发肝癌患者约六十万，发病率居全球第五，死亡率居第二。肝癌起病隐匿，肝炎-癌转换进程长，而且早期无明显症状、体征，大部分患者确诊时已是中晚期，早期诊断率低。我国中晚期肝癌患者生存期不足2年，然而通过早期干预，肝癌的五年生存率可达到90％。

肝癌仍缺乏有效的筛查手段，传统早筛手段的检测性能和可及性制约了临床筛查的有效实施。目前肝癌筛查方式主要包括血液学AFP(甲胎蛋白)检测和影像学检查。AFP联合超声的筛查方法对病人依从性要求较高，可及性远远无法达到临床要求，同时对早期肝癌的诊断灵敏度不足，制约了目前临床筛查方法的有效实施；影像学检测仍存在一定的局限性，也无法满足筛查的需求，因此我国迫切需要开发一种适用于广泛人群的有效、经济、实用的筛查手段。

发明内容

本发明提供了一种对血浆样本cfDNA进行WGS测序，通过对高通量测序结果进行肝癌健康人差异DNA片段高分辨率长度分布(high resolution fragmentation sizedistribution)分析，构建模型，实现了对肝癌无创精准诊断的目的。

一种肝癌早筛标模型的构建方法，包括如下步骤：

步骤1，对阳性组和对照组的样本进行cfDNA的提取并测序，获得读段数据；

步骤2，将读段数据结果比对至参考基因组；

步骤3，获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量，作为初始特征值；

步骤4，筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值，作为模型特征向量；

步骤5，将阳性组和对照组的样本的模型特征向量输入模型，并以患肝癌概率作为模型输出值，对模型进行训练，获得早筛模型。

步骤3中，包括：

步骤3-1，将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量；

步骤3-2，分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量；

步骤3-3，将步骤3-1和3-2中获得的数据共同作为初始特征值。

所述的短读段是指长度40-80bp，所述的超长读段数量是200-300bp；全部读段是指长度在40-300bp范围。

所述的步骤3-1中窗口的大小范围是2-7Mb。

所述的步骤3-2中不同长度梯度区间是指在40-300bp范围内以8-12bp步长递增而得到的不同长度梯度范围。

所述的读段数量经过了标准化处理。

一种肝癌早筛标模型的构建装置，包括：

测序模块，用于对阳性组和对照组的样本进行cfDNA的提取并测序，获得读段数据；

对比模块，用于将读段数据结果比对至参考基因组；

特征值获取模块，用于获得在参考基因组上的不同窗口范围内的不同长度区间内的读段的数量，作为初始特征值；

筛选模块，用于筛选出初始特征值中在阳性组和对照组的样本之间存在显著性差异的特征值，作为模型特征向量；

模型构建模块，用于将阳性组和对照组的样本的模型特征向量输入模型，并以患肝癌概率作为模型输出值，对模型进行训练，获得早筛模型。

所述的特征值获取模块中包括：

第一读段数量统计模块，用于将参考基因组划分为多个窗口，并分别获得在每个窗口范围内的全部读段数量、短读段数量和超长读段数量；

第二读段数量统计模块，用于分别以各个染色体上的长臂和短臂作为区域范围，并获得在每个范围内的不同长度梯度区间中的读段数量；

合并模块，用于将第一读段数量统计模块和第二读段数量统计模块中获得的数据共同作为初始特征值。

一种计算机可读取介质，所述可读取介质包括存储的程序，在所述程序运行时控制所述可读取介质所在设备执行所述的肝癌早筛标模型的构建方法。

有益效果

(1)肝癌早期ctDNA浓度高于其他癌种，肝细胞癌(HCC)患者血ctDNA含量远高于健康人和普通肝病患者，并且这种差别从极早期就可以显现出来，即使是没有实体肿瘤或是肿瘤非常小的患者，血液中ctDNA的含量也显著高于普通水平，非常适合采用基于ctDNA检测的液体活检技术。根据目前肝癌早筛临床研究数据来看，液体活检肝癌早筛产品的敏感性和特异性均超过90％，具有很高的临床价值。

(2)对170例对照人群和192例肝癌患者的WGS cfDNA读段长度进行统计，发现在总片段(40-300bp)，短片段(40-80bp)和超长片段(200-300bp)的数量在两组间存在差异；同时以染色体长短臂统计不同长度片段的数量，在两组间也存在显著差异。

(3)本发明首次基于血浆cfDNA高通量低深度测序提供了DNA片段大小片单分布和末端序列占比与肝癌关系的诊断模型，该模型不仅能够诊断早期肝癌还能够区分肝硬化，具有无创检测，通量低，检测特异性和敏感性高的有点。

附图说明

图1是模型构建过程示意图；

图2是肝癌患者与对照组DNA片段不同长度下的统计；

图3是肝癌患者与对照组DNA片段120bp以下的统计；

图4是肝癌患者与对照组间前50 5Mb窗口DNA全部读段占比分布特征的差异热图；

图5是肝癌患者与对照组间前50 5Mb窗口DNA短读段占比分布特征的差异热图；

图6是肝癌患者与对照组间前50 5Mb窗口DNA超长读段占比分布特征的差异热图；

图7是肝癌患者与对照组间前50染色体臂窗口间不同长度读段占比特征的差异热图；

图8是在验证集和测试集上的分类器的预测结果图；

图9是在验证集上的分类器的预测结果图；

图10是在测试集上的分类器的预测结果图；

图11是在验证集和测试集上的AUC曲线；

图12是在验证集上的AUC曲线；

图13是在测试集上的AUC曲线；

图14是肝癌-非肝癌组不同单一DNA片段统计方法下的AUC曲线；

图15是肝癌-非肝癌组不同组合DNA片段统计方法下的AUC曲线；

图16是肝癌-肝硬化组不同单一DNA片段统计方法下的AUC曲线；

图17是肝癌-肝硬化组不同组合DNA片段统计方法下的AUC曲线；

具体实施方式

本发明中的计算方法详述如下：

本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没有特别的限定，可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序技术获得cfDNA的碱基信息。

本发明中的模型构建过程采用的数据集情况如下：

血浆cfDNA样本的提取和测序方法

采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本，及时离心分离血浆(2小时内)，转运至实验室后，血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后，进行WGS～2乘测序。在获得了下机数据之后，将数据比对至人类参考基因组上，获得相应的读段的碱基数据信息。

数据处理

本发明中的标志数据，主要是利用高分辨率DNA片段大小分布(high resolutionfragmentation size distribution)进行机器学习建立预测模型，从而区分非肝癌患者(健康人，肝硬化患者)与肝癌患者。

对于DNA片段大小分布，其反映的是cfDNA读段的长度大小的分布特征。通过对比190例肝癌患者和170例对照人群的cfDNA读段的长度，发现40-80bp和200-300bp间的片段数量在两组间存在差异，可以作为区分特征。

cfDNA读段长度数据是通过如下方法获取得到的：在比对好的bam当中，记录了每一条读段的质量，长度和比对位置信息，人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California,Santa Cruz,UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度，切割成572个窗口，分别统计每一个窗口中的全部读段数量(40-300bp)，短读段数量(40-80bp)和超长读段数量(200-300bp)。根据所有窗口中各种读段数量统计结果，分别对每种读段数量进行标准化换算，即标准化值＝(原始值–平均值)/标准差。由此得到了572组不同长度的读段数量的数集。

同时，为获得高分辨率读段结果，以人类参考基因组各染色体长短臂41个区域作为窗口，如下所示：

chr1_p	chr4_q	chr8_p	chr11_q	chr16_q	chr20_p
						chr1_q	chr5_p	chr8_q	chr12_p	chr17_p	chr20_q
chr2_p	chr5_q	chr9_p	chr12_q	chr17_q	chr21_q
						chr2_q	chr6_p	chr9_q	chr13_q	chr18_p	chr22_q
chr3_p	chr6_q	chr10_p	chr14_q	chr18_q	chrX_p
						chr3_q	chr7_p	chr10_q	chr15_q	chr19_p	chrX_q
chr4_p	chr7_q	chr11_p	chr16_p	chr19_q

将40-300bp的片段，以10bp递增，划分27个长度梯度(例，chr1的1q臂上40-49bp，50-59bp……)，对每个长度梯度在各长短臂窗口内片段数量进行统计，并进行标准化换算，从而获得高分辨率DNA片段大小分布结果共计2823个特征结果(2823＝572个全部读段标准化结果+572个短读段标准化结果+572个超长独段标准化结果+41*27个长度梯度标准化结果)。

在获得192例肝癌患者和170例对照人群的高分辨率DNA数据信息后，将高分辨率DNA片段大小分布统计结果作为输入值(每个样本的输入向量中包含有2823个读段占比数值构成的特征值)，通过深度网络学习模型法判断待测样本与正常样本进行分类；深度学习基于多层前馈人工神经网络，该神经网络使用反向传播进行了随机梯度下降的训练。该网络可以包含大量隐藏层，这些隐藏层由具有双曲正切，矫正和最大功率激活功能的神经元组成。诸如自适应学习率，速率退火，动量训练，辍学，L1或L2正则化，检查点和网格搜索等高级功能可实现较高的预测准确性。在学习训练的时候，每个计算节点都使用多线程(异步)在其本地数据上训练全局模型参数的副本，并通过网络上的模型平均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型，也称为深层神经网络(DNN)或多层感知器(MLP)，是深层神经网络的最常见类型，也是本专利用来进行深度学习的类型。

经过训练后，深度网络学习模型将2823高分辨率DNA大小分布信息的区分贡献值进行排序，共筛选出926种两组间差异显著的特征(全部读段数量分布208，短读段数量分布244个，超长读段数量分布177个，染色体臂读段分布297个)。将每种分布前50的特征进行差异化分析，如heatmap所示，两组在每种分布的50种特征明显不同；

染色体臂上的具有显著性区别的特征如下表所示，其中chr代表染色体编号，p/q分别代表短/长臂，范围值代表碱基数量区间。

染色体/长短臂	碱基数	染色体/长短臂	碱基数
				chr19_q	210-219	chr7_p	220-229
chr19_p	200-209	chr8_q	170-179
				chr18_p	170-179	chr7_q	290-299
chr19_p	170-179	chr17_p	200-209
				chr1_p	160-169	chr1_q	290-299
chrX_q	140-149	chr2_q	170-179
				chrX_q	130-139	chr17_q	290-299
chr20_p	170-179	chr22_q	160-169
				chr18_p	180-189	chr1_q	230-239
chr1_p	80-89	chr8_p	210-219
				chr12_q	140-149	chr20_p	210-219
chr16_q	220-229	chr12_q	240-249
				chr10_q	230-239	chr1_q	260-269
chr3_p	230-239	chr8_q	140-149
				chr9_q	160-169	chr15_q	220-229
chr17_q	220-229	chr16_q	290-299
				chr18_p	190-199	chr22_q	140-149
chr12_p	290-299	chr19_p	160-169
				chr7_p	290-299	chr4_q	230-239
chr1_p	170-179	chr1_q	270-279
				chr11_q	280-289	chr12_p	210-219
chr20_q	210-219	chr9_q	220-229
				chr11_p	290-299	chr12_q	230-239
chr16_q	210-219	chr5_p	210-219
				chr1_p	240-249	chr18_p	200-209

同时，在染色体臂读段分布的热图中可见，部分特征在肝癌患者与肝硬化患者间有明显差异。

以上模型得到的结果如下表所示：

在不同的模型输入向量的情况下，模型预测性能如下所示：

全部读段，短读段，超长读段和染色体臂读段分布分别单独训练均能一定程度区分非癌患者与癌症患者，联合使用作为高分辨率DNA片段大小分布结果进行训练预测效果最佳，AUC最高可达0.995。同时，联合输入向量对于区分肝癌患者与肝硬化患者的区分效果也更好，AUC最高可达0.985。