CN113355421A - 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 - Google Patents

肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 Download PDF

Info

Publication number
CN113355421A
CN113355421A CN202110753782.6A CN202110753782A CN113355421A CN 113355421 A CN113355421 A CN 113355421A CN 202110753782 A CN202110753782 A CN 202110753782A CN 113355421 A CN113355421 A CN 113355421A
Authority
CN
China
Prior art keywords
base
lung cancer
fragments
data
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110753782.6A
Other languages
English (en)
Other versions
CN113355421B (zh
Inventor
刘睿
包华
吴雪
吴舒雨
徐秀秀
杨鹏
王沙
邵阳
杨珊珊
朱柳青
崔月利
刘璟文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co Ltd
Original Assignee
Nanjing Shihe Medical Devices Co ltd
Nanjing Shihe Gene Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shihe Medical Devices Co ltd, Nanjing Shihe Gene Biotechnology Co Ltd filed Critical Nanjing Shihe Medical Devices Co ltd
Priority to CN202110753782.6A priority Critical patent/CN113355421B/zh
Publication of CN113355421A publication Critical patent/CN113355421A/zh
Application granted granted Critical
Publication of CN113355421B publication Critical patent/CN113355421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及肺癌早筛标志物、检测方法、检测装置以及计算机可读取介质,本发明提对血浆样本cfDNA进行WGS低深度测序,通过对高通量测序结果进行肺癌健康人差异DNA片段末端断点处序列8mer(Motif end8mer)分析,构建模型,实现了对肺癌无创精准诊断的目的。

Description

肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取 介质
技术领域
本发明涉及一种肺癌(Non-small-cell Lung Carcinoma,NSCLC)早筛,属于分子生物医学技术领域。
背景技术
肺癌是我国发病率最高的恶性肿瘤,非小细胞肺癌是肺癌中最常见类型,约占所有肺癌患者中的80%~85%。目前,尽管已经联合影像学、血清学、基因组学、蛋白质组学等手段对可疑肺癌进行筛查,但仍存在漏诊、误诊等问题。肺癌早期症状较为隐匿,没有典型症状,到了中晚期大多数患者会出现咳嗽,这是肿瘤压迫支气管造成的,患者的咳嗽一般不太容易缓解。如果不对其干预,肿瘤就会无限制生长,患者的症状也会逐渐加重。以非小细胞肺癌为例,早期肺癌中,很大一部分人群并无临床表现,仅发生影像学改变或脱落细胞学中查到癌细胞。因此,对无症状肺癌高危人群的早筛工作尤为重要。目前早期肺癌的诊断灵敏度不足未达到临床要求,制约了筛查方法的有效实施;影像学检测仍存在一定的局限性,也无法满足筛查的需求,因此我国迫切需要开发一种适用于广泛人群的有效、经济、实用的筛查手段。
发明内容
本发明提供了一种对血浆样本cfDNA进行WGS低深度测序,通过对高通量测序结果进行肺癌健康人差异DNA片段末端断点处序列8mer(Motifend8mer)分析,构建模型,实现了对肺癌无创精准诊断的目的。
本发明的第一个目的,提供了:
肺癌早筛标志物,是由参考基因组上的(2m+1)个连续的碱基片段所构成,所述的连续的碱基片段的中间位置是由cfDNA的5’端断点处比对至参考基因组上而确定得到的。
在一个实施方式中,m是2-5之间的任意整数。
在一个实施方式中,所述碱基片段的种类在10-500个之间。
在一个实施方式中,所述的碱基片段的种类在20-200个之间。
在一个实施方式中,所述的碱基片段的种类在30-100个之间。
在一个实施方式中,所述的的碱基片断的核苷酸序列如SEQ ID NO.1-50所示。
本发明的第二个目的,提供了:
一种肺癌早筛模型的构建方法,包括如下步骤:
步骤1,对阳性组和对照组的样本分别提取cfDNA并进行测序,获得读段数据;
步骤2,将得到的读段数据比对至参考基因组,得到读段的5’端在参考基因组上的位置;
步骤3,获得所述的位置处的上下游各m个bp碱基的序列数据,作为碱基片段集合;
步骤4,挑选出碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段;
步骤5,以步骤4中得到的碱基片段、以及各个碱基片段在全部片段中的所占比例作为分类器模型的输入值,以患有肺癌的概率作为输出值,并采用阳性组和对照组的样本数据对模型进行训练后,得到早筛模型。
所述的m是2-5之间的任意整数。
所述的步骤4中,步骤包括:统计出每种碱基片段的数量在全部碱基片段数量中的所占比例,并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。
所述的步骤5中,采用深度学习网络作为分类器。
本发明的第三个目的,提供了:
一种肺癌早筛模型构建装置,包括:
测序模块,用于对阳性组和对照组的样本分别提取cfDNA并进行测序,获得读段数据;
比对模块,用于将得到的读段数据比对至参考基因组,得到读段的5’端在参考基因组上的位置;
碱基片段获取模块,用于获得所述的位置处的上下游各m个bp碱基的序列数据,作为碱基片段集合;
碱基片段筛选模块,用于挑选出碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段;
分类模块,用于以碱基片段筛选模块得到的碱基片段、以及各个碱基片段在全部片段中的所占比例作为分类器模型的输入值,以患有肺癌的概率作为输出值,并采用阳性组和对照组的样本数据对模型进行训练后,得到早筛模型。
所述的碱基片段筛选模块用于统计出每种碱基片段的数量在全部碱基片段数量中的所占比例,并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。
本发明的第四个目的,提供了:
一种肺癌早筛装置,包括:
测序模块,用于对提取得到的cfDNA进行测序,获得读段数据;
比对模块,用于将得到的读段数据比对至参考基因组,得到读段的5’端在参考基因组上的位置;
碱基片段获取模块,用于获得所述的位置处的上下游各m个bp碱基的序列数据,作为碱基片段集合;
数据占比获取模块,用于根据得到的碱基片段集合中的核苷酸序列如SEQIDNO.1-50所示碱基片段在全部碱基片断中的占比数据;
判定模块,用于从数据占比获取模块中所得到的待测样本数据与对照样本数据进行对比,如果存在显著性差异,则判定待测样本为阳性样本,如果不存在显著性差异,则判定待测样本为阴性。
本发明的第四个目的,提供了:
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的肺癌早筛模型的构建方法。
有益效果
本发明首次基于血浆cfDNA高通量低深度测序提供了DNA片段末端断点处序列占比与肺癌关系的诊断模型,该模型不具有无创检测,通量低,检测特异性和敏感性高的有点。
附图说明
图1是模型构建过程示意图;
图2是DNA片段末端断点处序列统计示意图;
图3是肺癌与健康人前50片段末端断点处序列占比差异热图;
图4是在验证集和测试集上的分类器的预测结果图;
图5是在验证集上的分类器的预测结果图;
图6是在测试集上的分类器的预测结果图;
图7是在Motif Breakpoint 8mer在不同数据集上的AUC曲线;
图8是在验证集和测试集上不同末端断点处序列长度的AUC曲线;
图9是在验证集上不同末端断点处序列长度的AUC曲线
具体实施方式
肺癌早期ctDNA片段末端序列受肿瘤微环境影响,特定序列更容易发生断裂,与健康人cfDNA片段末端序列存在显著差异,非常适合采用基于ctDNA检测的液体活检技术。根据目前肺癌早筛临床研究数据来看,液体活检肺癌早筛产品的敏感性和特异性均超过90%,具有很高的临床价值。
本发明中的计算方法详述如下:
本发明首先需要进行从血液样品中对cfDNA的提取、建库、测序等步骤。这里的提取、建库方法没有特别的限定,可以从现有技术中的提取方法中进行调整。这里的测序过程中可以采用现有技术中的测序技术获得cfDNA的碱基信息。
本发明中的模型构建过程采用的数据集情况如下:
Figure RE-GDA0003205546810000041
血浆cfDNA样本的提取和测序方法
采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本,及时离心分离血浆(2小时内),转运至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后,进行WGS~2乘测序。在获得了下机数据之后,将数据比对至人类参考基因组上,获得相应的读段的碱基数据信息。
数据处理
本发明中的标志数据,主要是利用DNA片段5‘端断点处序列读段占比(motifbreakpoint 8mer)进行机器学习建立预测模型,从而区分健康人与肺癌患者。
人类参考基因组是DNA双螺旋结构,依靠碱基互补配对氢离键链接;在正常衰老和癌症进展过程中,细胞周围环境的酸碱度发生变化,从而破坏了碱基互补氢键,发生断裂;由于断裂处的碱基序列不同,包含不同断点处序列的信息的序列占比也会不同。收集方法:比对后的bam中,记录了每一条读段的基本信息和比对到的位置,确认每一条读段的5‘端所在人类参考基因组序列坐标的左右各4bp序列,统计每种断点处序列(共计4**8=65536种)的读段数量,从而计算出65536种断点处序列读段占比,例AAAAAAAA读段占比= AAAAAAAA读段数量/所有断点处序列读段总数。
通过收集150肺癌患者和115健康人的DNA片段5‘端断点序列读段数量占比信息后,以DNA片段5‘末端断点处序列占比作为输入值,通过深度网络学习模型法判断待测样本与正常样本进行分类;深度学习基于多层前馈人工神经网络,该神经网络使用反向传播进行了随机梯度下降的训练。该网络可以包含大量隐藏层,这些隐藏层由具有双曲正切,矫正和最大功率激活功能的神经元组成。诸如自适应学习率,速率退火,动量训练,辍学,L1或L2正则化,检查点和网格搜索等高级功能可实现较高的预测准确性。在学习训练的时候,每个计算节点都使用多线程(异步)在其本地数据上训练全局模型参数的副本,并通过网络上的模型平均来定期为全局模型做出贡献。前馈人工神经网络(ANN)模型,也称为深层神经网络(DNN)或多层感知器(MLP),是深层神经网络的最常见类型,也是本专利用来进行深度学习的类型。
在得到的65536种断点处所对应的碱基片段后,在每个样本中,每类片段都对应其的占比,在不同的样本组(NSCLC和HP组)中,一些片段的占比数值会具有显著性的区别;经过训练后,深度网络学习模型根据学习结果,将65536种断点处序列的区分贡献值(差异显著性)进行排序,共筛选出835种两组间差异显著的断点处序列。将排前50的断点处序列进行差异化分析,采用了深度学习网络作为分类器,以50条片段以及它们的占比作为输入值,以患病概率作为输出值,构建并训练分类模型;
具体的50条片段的序列和贡献值如下所示:
Figure RE-GDA0003205546810000051
Figure RE-GDA0003205546810000061
如heatmap所示,两组在这50种断点处序列占比明显不同;同时,本发明对采用在断点位置处2bp、3bp、4bp的邻近序列作为kmer序列进行了模型性能测试,结果如下:
AUC
4-mer 0.979
6-mer 0.976
8-mer 0.985
可以看出,采用断点处4bp序列的占比作为输入值时,优于2bp和3bp条件下的结果。对验证样本进行测试,结果如下:
Figure RE-GDA0003205546810000062
Figure RE-GDA0003205546810000071
通过以上的模型的构建过程,得到了能够较好地对肺癌早期筛查的判定模型。
SEQUENCE LISTING
<110> 南京世和基因生物技术股份有限公司
南京世和医疗器械有限公司
<120> 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
<130> 无
<160> 50
<170> PatentIn version 3.5
<210> 1
<211> 8
<212> DNA
<213> 人工序列
<400> 1
tagggacg 8
<210> 2
<211> 8
<212> DNA
<213> 人工序列
<400> 2
ggacgcca 8
<210> 3
<211> 8
<212> DNA
<213> 人工序列
<400> 3
gagcacac 8
<210> 4
<211> 8
<212> DNA
<213> 人工序列
<400> 4
tagcgacg 8
<210> 5
<211> 8
<212> DNA
<213> 人工序列
<400> 5
tagggtga 8
<210> 6
<211> 8
<212> DNA
<213> 人工序列
<400> 6
gatcgtgt 8
<210> 7
<211> 8
<212> DNA
<213> 人工序列
<400> 7
aggcgtgc 8
<210> 8
<211> 8
<212> DNA
<213> 人工序列
<400> 8
tacgtacg 8
<210> 9
<211> 8
<212> DNA
<213> 人工序列
<400> 9
aaggacct 8
<210> 10
<211> 8
<212> DNA
<213> 人工序列
<400> 10
gaggggag 8
<210> 11
<211> 8
<212> DNA
<213> 人工序列
<400> 11
cgtaacgg 8
<210> 12
<211> 8
<212> DNA
<213> 人工序列
<400> 12
tattccgc 8
<210> 13
<211> 8
<212> DNA
<213> 人工序列
<400> 13
aggcggat 8
<210> 14
<211> 8
<212> DNA
<213> 人工序列
<400> 14
cgaaagtg 8
<210> 15
<211> 8
<212> DNA
<213> 人工序列
<400> 15
aagctgtg 8
<210> 16
<211> 8
<212> DNA
<213> 人工序列
<400> 16
gtttccca 8
<210> 17
<211> 8
<212> DNA
<213> 人工序列
<400> 17
gcatccgc 8
<210> 18
<211> 8
<212> DNA
<213> 人工序列
<400> 18
gttcattt 8
<210> 19
<211> 8
<212> DNA
<213> 人工序列
<400> 19
gtttcagt 8
<210> 20
<211> 8
<212> DNA
<213> 人工序列
<400> 20
cagcgaag 8
<210> 21
<211> 8
<212> DNA
<213> 人工序列
<400> 21
gcacaccg 8
<210> 22
<211> 8
<212> DNA
<213> 人工序列
<400> 22
ttttccgc 8
<210> 23
<211> 8
<212> DNA
<213> 人工序列
<400> 23
tatcaaag 8
<210> 24
<211> 8
<212> DNA
<213> 人工序列
<400> 24
cagctatc 8
<210> 25
<211> 8
<212> DNA
<213> 人工序列
<400> 25
tccgacgg 8
<210> 26
<211> 8
<212> DNA
<213> 人工序列
<400> 26
tgaaaaca 8
<210> 27
<211> 8
<212> DNA
<213> 人工序列
<400> 27
gtgcattt 8
<210> 28
<211> 8
<212> DNA
<213> 人工序列
<400> 28
cgcccgaa 8
<210> 29
<211> 8
<212> DNA
<213> 人工序列
<400> 29
tggcgact 8
<210> 30
<211> 8
<212> DNA
<213> 人工序列
<400> 30
cacaaata 8
<210> 31
<211> 8
<212> DNA
<213> 人工序列
<400> 31
aagcgttt 8
<210> 32
<211> 8
<212> DNA
<213> 人工序列
<400> 32
accgtaaa 8
<210> 33
<211> 8
<212> DNA
<213> 人工序列
<400> 33
cgtggtac 8
<210> 34
<211> 8
<212> DNA
<213> 人工序列
<400> 34
gtttagca 8
<210> 35
<211> 8
<212> DNA
<213> 人工序列
<400> 35
ttgcacaa 8
<210> 36
<211> 8
<212> DNA
<213> 人工序列
<400> 36
gtccgtaa 8
<210> 37
<211> 8
<212> DNA
<213> 人工序列
<400> 37
gaacatcg 8
<210> 38
<211> 8
<212> DNA
<213> 人工序列
<400> 38
gttcaagt 8
<210> 39
<211> 8
<212> DNA
<213> 人工序列
<400> 39
cgacgtcg 8
<210> 40
<211> 8
<212> DNA
<213> 人工序列
<400> 40
atcgtgtc 8
<210> 41
<211> 8
<212> DNA
<213> 人工序列
<400> 41
acggggtg 8
<210> 42
<211> 8
<212> DNA
<213> 人工序列
<400> 42
ctaaagtc 8
<210> 43
<211> 8
<212> DNA
<213> 人工序列
<400> 43
tatcatcg 8
<210> 44
<211> 8
<212> DNA
<213> 人工序列
<400> 44
aatcacag 8
<210> 45
<211> 8
<212> DNA
<213> 人工序列
<400> 45
ctttgtat 8
<210> 46
<211> 8
<212> DNA
<213> 人工序列
<400> 46
gttacgga 8
<210> 47
<211> 8
<212> DNA
<213> 人工序列
<400> 47
tagcaaaa 8
<210> 48
<211> 8
<212> DNA
<213> 人工序列
<400> 48
atgtatcc 8
<210> 49
<211> 8
<212> DNA
<213> 人工序列
<400> 49
aagcggag 8
<210> 50
<211> 8
<212> DNA
<213> 人工序列
<400> 50
gacgagtt 8

Claims (10)

1.肺癌早筛标志物,其特征在于,是由参考基因组上的(2m+1)个连续的碱基片段所构成,所述的连续的碱基片段的中间位置是由cfDNA的5’端断点处比对至参考基因组上而确定得到的。
2.根据权利要求1所述的肺癌早筛标志物,其特征在于,m是2-5之间的任意整数;所述碱基片段的种类在10-500个之间,优选20-200个,更优选30-200个。
3.根据权利要求1所述的肺癌早筛标志物,其特征在于,所述的的碱基片断的核苷酸序列如SEQIDNO.1-50所示。
4.一种肺癌早筛模型的构建方法,其特征在于,包括如下步骤:
步骤1,对阳性组和对照组的样本分别提取cfDNA并进行测序,获得读段数据;
步骤2,将得到的读段数据比对至参考基因组,得到读段的5’端在参考基因组上的位置;
步骤3,获得所述的位置处的上下游各m个bp碱基的序列数据,作为碱基片段集合;
步骤4,挑选出碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段;
步骤5,以步骤4中得到的碱基片段、以及各个碱基片段在全部片段中的所占比例作为分类器模型的输入值,以患有肺癌的概率作为输出值,并采用阳性组和对照组的样本数据对模型进行训练后,得到早筛模型。
5.根据权利要求4所述的肺癌早筛模型的构建方法,其特征在于,所述的m是2-5之间的任意整数。
6.根据权利要求4所述的肺癌早筛模型的构建方法,其特征在于,所述的步骤4中,步骤包括:统计出每种碱基片段的数量在全部碱基片段数量中的所占比例,并得到阳性组和对照组中在比例上具有显著性差异的碱基片段;所述的步骤5中,采用深度学习网络作为分类器。
7.一种肺癌早筛模型构建装置,其特征在于,包括:
测序模块,用于对阳性组和对照组的样本分别提取cfDNA并进行测序,获得读段数据;
比对模块,用于将得到的读段数据比对至参考基因组,得到读段的5’端在参考基因组上的位置;
碱基片段获取模块,用于获得所述的位置处的上下游各m个bp碱基的序列数据,作为碱基片段集合;
碱基片段筛选模块,用于挑选出碱基片段集合中对阳性组和对照组的肺癌诊断具有显著性差异的碱基片段;
分类模块,用于以碱基片段筛选模块得到的碱基片段、以及各个碱基片段在全部片段中的所占比例作为分类器模型的输入值,以患有肺癌的概率作为输出值,并采用阳性组和对照组的样本数据对模型进行训练后,得到早筛模型。
8.根据权利要求7所述的肺癌早筛模型构建装置,其特征在于,所述的碱基片段筛选模块用于统计出每种碱基片段的数量在全部碱基片段数量中的所占比例,并得到阳性组和对照组中在比例上具有显著性差异的碱基片段。
9.一种肺癌早筛装置,其特征在于,包括:
测序模块,用于对提取得到的cfDNA进行测序,获得读段数据;
比对模块,用于将得到的读段数据比对至参考基因组,得到读段的5’端在参考基因组上的位置;
碱基片段获取模块,用于获得所述的位置处的上下游各m个bp碱基的序列数据,作为碱基片段集合;
数据占比获取模块,用于根据得到的碱基片段集合中的核苷酸序列如SEQIDNO.1-50所示碱基片段在全部碱基片断中的占比数据;
判定模块,用于从数据占比获取模块中所得到的待测样本数据与对照样本数据进行对比,如果存在显著性差异,则判定待测样本为阳性样本,如果不存在显著性差异,则判定待测样本为阴性。
10.一种存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1所述的肺癌早筛模型的构建方法。
CN202110753782.6A 2021-07-03 2021-07-03 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 Active CN113355421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110753782.6A CN113355421B (zh) 2021-07-03 2021-07-03 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110753782.6A CN113355421B (zh) 2021-07-03 2021-07-03 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质

Publications (2)

Publication Number Publication Date
CN113355421A true CN113355421A (zh) 2021-09-07
CN113355421B CN113355421B (zh) 2023-02-28

Family

ID=77538061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110753782.6A Active CN113355421B (zh) 2021-07-03 2021-07-03 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质

Country Status (1)

Country Link
CN (1) CN113355421B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113913333A (zh) * 2021-10-20 2022-01-11 南京世和基因生物技术股份有限公司 一种肺癌诊断标志物及用途
CN114898802A (zh) * 2022-07-14 2022-08-12 臻和(北京)生物科技有限公司 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置
CN115595372A (zh) * 2022-12-16 2023-01-13 南京世和基因生物技术股份有限公司(Cn) 一种血浆游离dna来源的甲基化检测方法、肺癌诊断标志物以及试剂盒

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
CN109852714A (zh) * 2019-03-07 2019-06-07 南京世和基因生物技术有限公司 一种肠癌早期诊断和腺瘤诊断标志物及用途
WO2019232435A1 (en) * 2018-06-01 2019-12-05 Grail, Inc. Convolutional neural network systems and methods for data classification
CN111243673A (zh) * 2019-12-25 2020-06-05 北京橡鑫生物科技有限公司 肿瘤筛查模型、其构建方法和装置
US20210174958A1 (en) * 2018-04-13 2021-06-10 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay development and testing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
US20210174958A1 (en) * 2018-04-13 2021-06-10 Freenome Holdings, Inc. Machine learning implementation for multi-analyte assay development and testing
WO2019232435A1 (en) * 2018-06-01 2019-12-05 Grail, Inc. Convolutional neural network systems and methods for data classification
CN109852714A (zh) * 2019-03-07 2019-06-07 南京世和基因生物技术有限公司 一种肠癌早期诊断和腺瘤诊断标志物及用途
CN111243673A (zh) * 2019-12-25 2020-06-05 北京橡鑫生物科技有限公司 肿瘤筛查模型、其构建方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. C. LIU 等: "Sensitive and specific multi-cancer detection and localization using methylation signatures in cell-free DNA", 《ANNALS OF ONCOLOGY》 *
孙源 等: "血浆游离DNA测定在肺癌诊断中的临床意义", 《全科医学临床与教育》 *
杜洁等: "血浆游离DNA在非小细胞肺癌诊断中的价值", 《中华肺部疾病杂志(电子版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113913333A (zh) * 2021-10-20 2022-01-11 南京世和基因生物技术股份有限公司 一种肺癌诊断标志物及用途
CN113913333B (zh) * 2021-10-20 2022-09-02 南京世和基因生物技术股份有限公司 一种肺癌诊断标志物及用途
CN114898802A (zh) * 2022-07-14 2022-08-12 臻和(北京)生物科技有限公司 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置
CN115595372A (zh) * 2022-12-16 2023-01-13 南京世和基因生物技术股份有限公司(Cn) 一种血浆游离dna来源的甲基化检测方法、肺癌诊断标志物以及试剂盒

Also Published As

Publication number Publication date
CN113355421B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN113355421B (zh) 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质
CN104603283B (zh) 确定异常状态相关生物标志物的方法及系统
CN113421608B (zh) 肝癌早筛模型的构建方法、检测装置以及计算机可读取介质
CN111564177B (zh) 基于dna甲基化的早期非小细胞肺癌复发模型构建方法
CN109801680A (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN109706065A (zh) 肿瘤新生抗原负荷检测装置及存储介质
CN111276252B (zh) 一种肿瘤良恶性鉴别模型的构建方法及装置
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN108256292A (zh) 一种拷贝数变异检测装置
CN115295074B (zh) 基因标志物在恶性肺结节筛查中的应用、筛查模型的构建方法和检测装置
CN111676291B (zh) 一种用于肺癌患病风险评估的miRNA标志物
CN113234829B (zh) 结肠癌预后评估基因集及其构建方法
CN113903398A (zh) 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质
CN111180013B (zh) 检测血液病融合基因的装置
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN113380396A (zh) 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用
CN115537467A (zh) 基于深度神经网络的卵巢癌生存预后预测分子模型的建立方法及其应用
CN115424666A (zh) 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统
CN111584064A (zh) 一种结、直肠癌转移预测系统及其使用方法
Khwaja et al. A deep autoencoder system for differentiation of cancer types based on DNA methylation state
CN112330596A (zh) 一种基于机器学习算法的用于预测crc转移的影像组学(ra)模型
CN110428897B (zh) 基于snp致病因素与疾病关联关系的疾病诊断信息处理方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
KR20190137012A (ko) 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법
CN114045337A (zh) 基于肠道微生物的胆管癌非侵入性标志物筛选、分析方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant