CN113355421B

CN113355421B - 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质

Info

Publication number: CN113355421B
Application number: CN202110753782.6A
Authority: CN
Inventors: 刘睿; 包华; 吴雪; 吴舒雨; 徐秀秀; 杨鹏; 王沙; 邵阳; 杨珊珊; 朱柳青; 崔月利; 刘璟文
Original assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co ltd
Current assignee: Nanjing Shihe Medical Devices Co ltd; Nanjing Shihe Gene Biotechnology Co ltd
Priority date: 2021-07-03
Filing date: 2021-07-03
Publication date: 2023-02-28
Anticipated expiration: 2041-07-03
Also published as: CN113355421A

Abstract

本发明涉及肺癌早筛标志物、检测方法、检测装置以及计算机可读取介质，本发明提对血浆样本cfDNA进行WGS低深度测序，通过对高通量测序结果进行肺癌健康人差异DNA片段末端断点处序列8mer(Motif end8mer)分析，构建模型，实现了对肺癌无创精准诊断的目的。

Description

肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质

技术领域

本发明涉及一种肺癌(Non-small-cell Lung Carcinoma，NSCLC)早筛，属于分子生物医学技术领域。

背景技术

肺癌是我国发病率最高的恶性肿瘤，非小细胞肺癌是肺癌中最常见类型，约占所有肺癌患者中的80％～85％。目前，尽管已经联合影像学、血清学、基因组学、蛋白质组学等手段对可疑肺癌进行筛查，但仍存在漏诊、误诊等问题。肺癌早期症状较为隐匿，没有典型症状，到了中晚期大多数患者会出现咳嗽，这是肿瘤压迫支气管造成的，患者的咳嗽一般不太容易缓解。如果不对其干预，肿瘤就会无限制生长，患者的症状也会逐渐加重。以非小细胞肺癌为例，早期肺癌中，很大一部分人群并无临床表现，仅发生影像学改变或脱落细胞学中查到癌细胞。因此，对无症状肺癌高危人群的早筛工作尤为重要。目前早期肺癌的诊断灵敏度不足未达到临床要求，制约了筛查方法的有效实施；影像学检测仍存在一定的局限性，也无法满足筛查的需求，因此我国迫切需要开发一种适用于广泛人群的有效、经济、实用的筛查手段。

发明内容

本发明提供了一种对血浆样本cfDNA进行WGS低深度测序，通过对高通量测序结果进行肺癌健康人差异DNA片段末端断点处序列8mer(Motifend8mer)分析，构建模型，实现了对肺癌无创精准诊断的目的。

本发明的第一个目的，提供了：

肺癌早筛标志物，是由参考基因组上的(2m+1)个连续的碱基片段所构成，所述的连续的碱基片段的中间位置是由cfDNA的5’端断点处比对至参考基因组上而确定得到的。

在一个实施方式中，m是2-5之间的任意整数。

在一个实施方式中，所述碱基片段的种类在10-500个之间。

在一个实施方式中，所述的碱基片段的种类在20-200个之间。

在一个实施方式中，所述的碱基片段的种类在30-100个之间。

在一个实施方式中，所述的的碱基片断的核苷酸序列如SEQ ID NO.1-50所示。

本发明的第二个目的，提供了：

一种肺癌早筛模型的构建方法，包括如下步骤：

步骤1，对阳性组和对照组的样本分别提取cfDNA并进行测序，获得读段数据；

步骤2，将得到的读段数据比对至参考基因组，得到读段的5’端在参考基因组上的位置；

步骤3，获得所述的位置处的上下游各m个bp碱基的序列数据，作为碱基片段集合；

步骤4，挑选出碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段；

步骤5，以步骤4中得到的碱基片段、以及各个碱基片段在全部片段中的所占比例作为分类器模型的输入值，以患有肺癌的概率作为输出值，并采用阳性组和对照组的样本数据对模型进行训练后，得到早筛模型。

所述的m是2-5之间的任意整数。

所述的步骤4中，步骤包括：统计出每种碱基片段的数量在全部碱基片段数量中的所占比例，并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。

所述的步骤5中，采用深度学习网络作为分类器。

本发明的第三个目的，提供了：

一种肺癌早筛模型构建装置，包括：

测序模块，用于对阳性组和对照组的样本分别提取cfDNA并进行测序，获得读段数据；

比对模块，用于将得到的读段数据比对至参考基因组，得到读段的5’端在参考基因组上的位置；

碱基片段获取模块，用于获得所述的位置处的上下游各m个bp碱基的序列数据，作为碱基片段集合；

碱基片段筛选模块，用于挑选出碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段；

分类模块，用于以碱基片段筛选模块得到的碱基片段、以及各个碱基片段在全部片段中的所占比例作为分类器模型的输入值，以患有肺癌的概率作为输出值，并采用阳性组和对照组的样本数据对模型进行训练后，得到早筛模型。

所述的碱基片段筛选模块用于统计出每种碱基片段的数量在全部碱基片段数量中的所占比例，并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。

本发明的第四个目的，提供了：

一种肺癌早筛装置，包括：

测序模块，用于对提取得到的cfDNA进行测序，获得读段数据；

数据占比获取模块，用于根据得到的碱基片段集合中的核苷酸序列如SEQIDNO.1-50所示碱基片段在全部碱基片断中的占比数据；

判定模块，用于从数据占比获取模块中所得到的待测样本数据与对照样本数据进行对比，如果存在显著性差异，则判定待测样本为阳性样本，如果不存在显著性差异，则判定待测样本为阴性。

本发明的第四个目的，提供了：

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的肺癌早筛模型的构建方法。

有益效果

本发明首次基于血浆cfDNA高通量低深度测序提供了DNA片段末端断点处序列占比与肺癌关系的诊断模型，该模型不具有无创检测，通量低，检测特异性和敏感性高的有点。

附图说明

图1是模型构建过程示意图；

图2是DNA片段末端断点处序列统计示意图；

图3是肺癌与健康人前50片段末端断点处序列占比差异热图；

图4是在验证集和测试集上的分类器的预测结果图；

图5是在验证集上的分类器的预测结果图；

图6是在测试集上的分类器的预测结果图；

图7是在Motif Breakpoint 8mer在不同数据集上的AUC曲线；

图8是在验证集和测试集上不同末端断点处序列长度的AUC曲线；

图9是在验证集上不同末端断点处序列长度的AUC曲线

具体实施方式

肺癌早期ctDNA片段末端序列受肿瘤微环境影响，特定序列更容易发生断裂，与健康人cfDNA片段末端序列存在显著差异，非常适合采用基于ctDNA检测的液体活检技术。根据目前肺癌早筛临床研究数据来看，液体活检肺癌早筛产品的敏感性和特异性均超过90％，具有很高的临床价值。

本发明中的计算方法详述如下：

本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没有特别的限定，可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序技术获得cfDNA的碱基信息。

本发明中的模型构建过程采用的数据集情况如下：

血浆cfDNA样本的提取和测序方法

采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本，及时离心分离血浆(2小时内)，转运至实验室后，血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后，进行WGS～2乘测序。在获得了下机数据之后，将数据比对至人类参考基因组上，获得相应的读段的碱基数据信息。

数据处理

本发明中的标志数据，主要是利用DNA片段5‘端断点处序列读段占比(motifbreakpoint 8mer)进行机器学习建立预测模型，从而区分健康人与肺癌患者。

人类参考基因组是DNA双螺旋结构，依靠碱基互补配对氢离键链接；在正常衰老和癌症进展过程中，细胞周围环境的酸碱度发生变化，从而破坏了碱基互补氢键，发生断裂；由于断裂处的碱基序列不同，包含不同断点处序列的信息的序列占比也会不同。收集方法：比对后的bam中，记录了每一条读段的基本信息和比对到的位置，确认每一条读段的5‘端所在人类参考基因组序列坐标的左右各4bp序列，统计每种断点处序列(共计4**8＝65536种)的读段数量，从而计算出65536种断点处序列读段占比，例AAAAAAAA读段占比＝AAAAAAAA读段数量/所有断点处序列读段总数。

通过收集150肺癌患者和115健康人的DNA片段5‘端断点序列读段数量占比信息后，以DNA片段5‘末端断点处序列占比作为输入值，通过深度网络学习模型法判断待测样本与正常样本进行分类；深度学习基于多层前馈人工神经网络，该神经网络使用反向传播进行了随机梯度下降的训练。该网络可以包含大量隐藏层，这些隐藏层由具有双曲正切，矫正和最大功率激活功能的神经元组成。诸如自适应学习率，速率退火，动量训练，辍学，L1或L2正则化，检查点和网格搜索等高级功能可实现较高的预测准确性。在学习训练的时候，每个计算节点都使用多线程(异步)在其本地数据上训练全局模型参数的副本，并通过网络上的模型平均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型，也称为深层神经网络(DNN)或多层感知器(MLP)，是深层神经网络的最常见类型，也是本专利用来进行深度学习的类型。

在得到的65536种断点处所对应的碱基片段后，在每个样本中，每类片段都对应其的占比，在不同的样本组(NSCLC和HP组)中，一些片段的占比数值会具有显著性的区别；经过训练后，深度网络学习模型根据学习结果，将65536种断点处序列的区分贡献值(差异显著性)进行排序，共筛选出835种两组间差异显著的断点处序列。将排前50的断点处序列进行差异化分析，采用了深度学习网络作为分类器，以50条片段以及它们的占比作为输入值，以患病概率作为输出值，构建并训练分类模型；

具体的50条片段的序列和贡献值如下所示：

如heatmap所示，两组在这50种断点处序列占比明显不同；同时，本发明对采用在断点位置处2bp、3bp、4bp的邻近序列作为kmer序列进行了模型性能测试，结果如下：

	AUC
		4-mer	0.979
6-mer	0.976
		8-mer	0.985

可以看出，采用断点处4bp序列的占比作为输入值时，优于2bp和3bp条件下的结果。对验证样本进行测试，结果如下：

通过以上的模型的构建过程，得到了能够较好地对肺癌早期筛查的判定模型。

SEQUENCE LISTING

<110> 南京世和基因生物技术股份有限公司

南京世和医疗器械有限公司

<120> 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质

<130> 无

<160> 50

<170> PatentIn version 3.5

<210> 1

<211> 8

<212> DNA

<213> 人工序列

<400> 1

tagggacg 8

<210> 2

<211> 8

<212> DNA

<213> 人工序列

<400> 2

ggacgcca 8

<210> 3

<211> 8

<212> DNA

<213> 人工序列

<400> 3

gagcacac 8

<210> 4

<211> 8

<212> DNA

<213> 人工序列

<400> 4

tagcgacg 8

<210> 5

<211> 8

<212> DNA

<213> 人工序列

<400> 5

tagggtga 8

<210> 6

<211> 8

<212> DNA

<213> 人工序列

<400> 6

gatcgtgt 8

<210> 7

<211> 8

<212> DNA

<213> 人工序列

<400> 7

aggcgtgc 8

<210> 8

<211> 8

<212> DNA

<213> 人工序列

<400> 8

tacgtacg 8

<210> 9

<211> 8

<212> DNA

<213> 人工序列

<400> 9

aaggacct 8

<210> 10

<211> 8

<212> DNA

<213> 人工序列

<400> 10

gaggggag 8

<210> 11

<211> 8

<212> DNA

<213> 人工序列

<400> 11

cgtaacgg 8

<210> 12

<211> 8

<212> DNA

<213> 人工序列

<400> 12

tattccgc 8

<210> 13

<211> 8

<212> DNA

<213> 人工序列

<400> 13

aggcggat 8

<210> 14

<211> 8

<212> DNA

<213> 人工序列

<400> 14

cgaaagtg 8

<210> 15

<211> 8

<212> DNA

<213> 人工序列

<400> 15

aagctgtg 8

<210> 16

<211> 8

<212> DNA

<213> 人工序列

<400> 16

gtttccca 8

<210> 17

<211> 8

<212> DNA

<213> 人工序列

<400> 17

gcatccgc 8

<210> 18

<211> 8

<212> DNA

<213> 人工序列

<400> 18

gttcattt 8

<210> 19

<211> 8

<212> DNA

<213> 人工序列

<400> 19

gtttcagt 8

<210> 20

<211> 8

<212> DNA

<213> 人工序列

<400> 20

cagcgaag 8

<210> 21

<211> 8

<212> DNA

<213> 人工序列

<400> 21

gcacaccg 8

<210> 22

<211> 8

<212> DNA

<213> 人工序列

<400> 22

ttttccgc 8

<210> 23

<211> 8

<212> DNA

<213> 人工序列

<400> 23

tatcaaag 8

<210> 24

<211> 8

<212> DNA

<213> 人工序列

<400> 24

cagctatc 8

<210> 25

<211> 8

<212> DNA

<213> 人工序列

<400> 25

tccgacgg 8

<210> 26

<211> 8

<212> DNA

<213> 人工序列

<400> 26

tgaaaaca 8

<210> 27

<211> 8

<212> DNA

<213> 人工序列

<400> 27

gtgcattt 8

<210> 28

<211> 8

<212> DNA

<213> 人工序列

<400> 28

cgcccgaa 8

<210> 29

<211> 8

<212> DNA

<213> 人工序列

<400> 29

tggcgact 8

<210> 30

<211> 8

<212> DNA

<213> 人工序列

<400> 30

cacaaata 8

<210> 31

<211> 8

<212> DNA

<213> 人工序列

<400> 31

aagcgttt 8

<210> 32

<211> 8

<212> DNA

<213> 人工序列

<400> 32

accgtaaa 8

<210> 33

<211> 8

<212> DNA

<213> 人工序列

<400> 33

cgtggtac 8

<210> 34

<211> 8

<212> DNA

<213> 人工序列

<400> 34

gtttagca 8

<210> 35

<211> 8

<212> DNA

<213> 人工序列

<400> 35

ttgcacaa 8

<210> 36

<211> 8

<212> DNA

<213> 人工序列

<400> 36

gtccgtaa 8

<210> 37

<211> 8

<212> DNA

<213> 人工序列

<400> 37

gaacatcg 8

<210> 38

<211> 8

<212> DNA

<213> 人工序列

<400> 38

gttcaagt 8

<210> 39

<211> 8

<212> DNA

<213> 人工序列

<400> 39

cgacgtcg 8

<210> 40

<211> 8

<212> DNA

<213> 人工序列

<400> 40

atcgtgtc 8

<210> 41

<211> 8

<212> DNA

<213> 人工序列

<400> 41

acggggtg 8

<210> 42

<211> 8

<212> DNA

<213> 人工序列

<400> 42

ctaaagtc 8

<210> 43

<211> 8

<212> DNA

<213> 人工序列

<400> 43

tatcatcg 8

<210> 44

<211> 8

<212> DNA

<213> 人工序列

<400> 44

aatcacag 8

<210> 45

<211> 8

<212> DNA

<213> 人工序列

<400> 45

ctttgtat 8

<210> 46

<211> 8

<212> DNA

<213> 人工序列

<400> 46

gttacgga 8

<210> 47

<211> 8

<212> DNA

<213> 人工序列

<400> 47

tagcaaaa 8

<210> 48

<211> 8

<212> DNA

<213> 人工序列

<400> 48

atgtatcc 8

<210> 49

<211> 8

<212> DNA

<213> 人工序列

<400> 49

aagcggag 8

<210> 50

<211> 8

<212> DNA

<213> 人工序列

<400> 50

gacgagtt 8

Claims

1.一种肺癌早筛模型的构建方法，其特征在于，包括如下步骤：

步骤3，获得所述的位置处的上下游各4个bp碱基的序列数据，作为碱基片段集合；

步骤4，挑选出所述的碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段，所述的具有显著性差异的碱基片段的核苷酸序列如SEQ ID NO.1-50所示；

步骤5，以步骤4中得到的具有显著性差异的碱基片段以及各个碱基片段在全部片段中的所占比例作为分类器的输入值，以患有肺癌的概率作为输出值，并采用阳性组和对照组的样本数据对分类器进行训练后，得到早筛模型。

2.根据权利要求1所述的肺癌早筛模型的构建方法，其特征在于，所述的步骤4中步骤包括：统计出每种碱基片段的数量在全部碱基片段数量中的所占比例，并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。

3.根据权利要求1所述的肺癌早筛模型的构建方法，其特征在于，所述的步骤5中采用深度学习网络作为分类器。

4.一种肺癌早筛模型构建装置，其特征在于，包括：

碱基片段获取模块，用于获得所述的位置处的上下游各4个bp碱基的序列数据，作为碱基片段集合；

碱基片段筛选模块，用于挑选出所述的碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段，所述的具有显著性差异的碱基片段的核苷酸序列如SEQ IDNO.1-50所示；

分类模块，用于将碱基片段筛选模块得到的有显著性差异的碱基片段以及各个碱基片段在全部片段中的所占比例作为分类器的输入值，以患有肺癌的概率作为输出值，并采用阳性组和对照组的样本数据对模型进行训练后，得到早筛模型。

5.根据权利要求4所述的肺癌早筛模型构建装置，其特征在于，所述的碱基片段筛选模块用于统计出每种碱基片段的数量在全部碱基片段数量中的所占比例，并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。

6.一种存储介质，所述存储介质包括存储的程序，其特征在于，在所述程序运行时控制所述存储介质所在设备执行权利要求1所述的肺癌早筛模型的构建方法。