CN112599251A - 疾病筛查模型的构建方法、疾病筛查模型及筛查装置 - Google Patents

疾病筛查模型的构建方法、疾病筛查模型及筛查装置 Download PDF

Info

Publication number
CN112599251A
CN112599251A CN202110228795.1A CN202110228795A CN112599251A CN 112599251 A CN112599251 A CN 112599251A CN 202110228795 A CN202110228795 A CN 202110228795A CN 112599251 A CN112599251 A CN 112599251A
Authority
CN
China
Prior art keywords
reads
proportion
total
sequencing data
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110228795.1A
Other languages
English (en)
Other versions
CN112599251B (zh
Inventor
曹善柏
周涛
张萌萌
郭璟
楼峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiangxin Medical Technology Co ltd
Tianjin Xiangxin Biotechnology Co ltd
Beijing Xiangxin Biotechnology Co ltd
Original Assignee
Beijing Xiangxin Medical Technology Co ltd
Tianjin Xiangxin Biotechnology Co ltd
Beijing Xiangxin Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiangxin Medical Technology Co ltd, Tianjin Xiangxin Biotechnology Co ltd, Beijing Xiangxin Biotechnology Co ltd filed Critical Beijing Xiangxin Medical Technology Co ltd
Priority to CN202110228795.1A priority Critical patent/CN112599251B/zh
Publication of CN112599251A publication Critical patent/CN112599251A/zh
Application granted granted Critical
Publication of CN112599251B publication Critical patent/CN112599251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提供了一种疾病筛查模型的构建方法、疾病筛查模型及筛查装置。该模型的构建方法包括:从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;利用多个待检特征进行机器学习,从而构建得到疾病筛查模型。通过获取多个阳性样本和多个阴性样本的测序数据,并根据两组测序数据的特征差异,从中选择出与疾病关联性较强的多个特征作为表征两组不同疾病状态的待检特征进行机器学习建模,从而获得不同疾病的筛查模型,该模型提高了筛查的准确性。

Description

疾病筛查模型的构建方法、疾病筛查模型及筛查装置
技术领域
本发明涉及基于测序数据的筛查模型构建领域,具体而言,涉及一种疾病筛查模型的构建方法、疾病筛查模型及筛查装置。
背景技术
目前关于很多疾病(包括癌症等)的高通量测序数据的处理方法,主要集中在常见热点基因突变情况的检测、通过增加检测基因数量及检测深度等方法来提高检测的准确性。这些方法是从增加处理数据的基因数量或深度的角度来提高数据处理结果的准确性的。
目前,对于在无法增加或不增加基因数量或测序深度的情况下,如何使处理结果准确性提高,目前尚无有效的解决方案。
发明内容
本发明的主要目的在于提供一种疾病筛查模型的构建方法、疾病筛查模型及筛查装置,以解决现有技术中难以在不增加基因数量或测序深度的情况下难以提高处理结果准确性的问题。
为实现上述目标,根据本申请的一个方面,提供了一种疾病筛查模型的构建方法,该构建方法包括:从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;利用多个待检特征进行机器学习,从而构建得到疾病筛查模型。
进一步地,从两组测序数据中筛选出满足预测条件的多个待检特征包括:统计两组测序数据中各样本的候选特征;对各候选特征分别绘制ROC曲线;筛选出AUC≥预设值的候选特征,作为待检特征;其中,各样本的候选特征选自如下特征中的多个:1)文库浓度;2)CNV;3)异常比对reads;4)插入片段大小;5)末端碱基;优选地,预设值≥0.7;优选地,测序数据的测序深度为0.1×~1×。
进一步地,2)CNV包括CNV个数及CNV总长度;优选地,3)异常比对reads包括:soft-clip reads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及第一比例与第二比例之和;优选地,4)插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;优选地,5)末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。
进一步地,待检特征选自如下多种:a.文库浓度;b. 插入片段大于100000bp的reads占总reads数的比例;c. CNV个数;d. CNV总长度;e. 不同插入片段长度范围的reads数占总reads数的比例的熵;f.支持reads末端1bp的reads数各占总reads数的比例;g. 支持reads末端1bp的reads数各占总reads数的比例的熵;h.支持reads末端2bp的reads数各占总reads数的比例;i. 支持reads末端2bp的reads数各占总reads数的比例的熵;优选地,不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。
根据本申请的第二个方面,提供了一种疾病筛查模型的构建装置,该构建装置包括:筛选模块,用于从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;模型构建模块,用于利用多个待检特征进行机器学习,从而构建得到测序数据的筛查模型。
进一步地,筛选模块包括:统计模块,用于统计两组测序数据中各样本的候选特征;曲线绘制模块,用于对各候选特征分别绘制ROC曲线;特征模块,用于筛选出AUC≥预设值的候选特征,作为待检特征;其中,各样本的候选特征选自如下特征中的多个:1)文库浓度;2)CNV;3)异常比对reads;4)插入片段大小;5)末端碱基;优选地,预设值≥0.7;优选地,测序数据的测序深度为0.1×~1×。
进一步地,2)CNV包括CNV个数及CNV总长度;优选地,3)异常比对reads包括:soft-clip reads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及第一比例与第二比例之和;优选地,4)插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;优选地,5)末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。
进一步地,待检特征选自如下多种:a.文库浓度;b. 插入片段大于100000bp的reads占总reads数的比例;c. CNV个数;d. CNV总长度;e. 不同插入片段长度范围的reads数占总reads数的比例的熵;f.支持reads末端1bp的reads数各占总reads数的比例;g. 支持reads末端1bp的reads数各占总reads数的比例的熵;h.支持reads末端2bp的reads数各占总reads数的比例;i. 支持reads末端2bp的reads数各占总reads数的比例的熵;优选地,不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。
根据本申请的第三个方面,提供了一种疾病筛查模型,该疾病筛查模型采用上述任一种疾病筛查模型的构建方法构建而成。
根据本申请的第四个方面,提供了一种疾病筛查装置,该疾病筛查装置包括上述任一种疾病筛查模型。
根据本申请的第五个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种疾病筛查模型的构建方法。
根据本申请的第六个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种疾病筛查模型的构建方法。
应用本发明的技术方案,通过根据目标疾病的不同,获取多个阳性样本和多个阴性样本的测序数据,并根据两组不同疾病状态的样本的测序数据的特征差异,从中选择出与疾病关联性较强的多个特征作为表征两组不同疾病状态的标志,进而利用这些标志(即待检特征)作为机器学习的特征数据进行建模,从而获得不同疾病的筛查模型。
在优选实施例中,通过将多个数据特征结合,包含了文库浓度、CNV、异常reads及插入片段长度等多方面信息,利用机器学习的方法构建(早期)筛查模型,提高了(癌症等)疾病的(早期)筛查的准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本申请实施例2中的非小细胞癌筛查模型的构建方法的流程示意图;
图2至图5分别示出了本申请实施例2中各候选特征的ROC曲线;
图6示出了本申请实施例2中利用筛选的多个待检特征构建的筛查模型对筛查结果的ROC曲线。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
cfDNA: Circulating free DNA or Cell free DNA,循环游离DNA或者细胞游离DNA,指释放到血浆中的降解的DNA片段。
sWGS: shallow whole genome sequence ,低深度全基因组测序,一般指平均测序深度在测序深度为0.1×~1×。
NSCLC:非小细胞肺癌。
Shannon entropy:信息熵(香农熵)反映了一个系统的有序化程度,一个系统越有序,信息熵就越低,反之就越高。
CNV:本申请中将碱基长度大于10M,拷贝数比例大于1.1或小于0.9的CNV,认为是大片段CNV,即本申请中的CNV。
soft-clip reads:是只指reads比对到参考基因组的一种形式。一条reads的一部分比对到了基因组的某个位置,reads的另一部分比对到了参考基因组的另外一个位置,也就是同一条reads的不同部分比对到了参考基因组的不同部分,这种reads称为soft-clipreads。
如背景技术所提到的,现有的疾病(如癌症)的测序数据在处理时,均是通过增加所处理的候选基因的数量或者测序深度来提高处理结果的准确性,而对于在不增加处理基因的数量或不增加测序深度的情况下却难以提高准确性,为改善这一状况,本申请尝试从一个新的角度来提高测序数据处理结果的准确性。具体见下面各实施例的详细描述。
实施例1
本实施例提供了一种疾病筛查模型的构建方法,该构建方法包括如下步骤:
S101,从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;
S103,利用多个待检特征进行机器学习,从而构建得到疾病筛查模型。
该实施例中的疾病筛查模型的构建方法,通过根据目标疾病的不同,获取多个阳性样本和多个阴性样本的测序数据,并根据两组不同疾病状态的样本的测序数据的特征差异,从中选择出与疾病关联性较强的多个特征作为表征两组不同疾病状态的标志,进而利用这些标志(即待检特征)作为机器学习的特征数据进行建模,从而获得不同疾病的筛查模型。
具体地,上述疾病包括各种能够通过高通量测序数据来辅助检查的任何疾病。比如,各种癌症:肺癌、胃癌、非小细胞癌等。上述阴性样本指的是与患有相应疾病的个体相对应的健康个体。此处的疾病并不局限于人或动物所患的各种可能的疾病,也包括植物或微生物的某种病理状态。
需要说明的是,上述测序数据可以是各种不同深度下的测序数据,包括低深度的全基因组测序数据,或者深度相对较高的测序数据。测序深度较高,是利用增加测序深度来实现模型筛查准确性的,而采用低深度的全基因组测序数据进行模型构建来提高检测准确性,则不依赖于基因数量增多或测序深度增加。
上述待检特征,根据具体测序数据的来源不同(比如不同癌种),具体特征筛选的过程可能也有所不同,相应地,所筛选到的待测特征也可能有所不同。
在一种优选的实施例中,从两组测序数据中筛选出满足预测条件的多个待检特征包括:S111,统计两组测序数据中各样本的候选特征;S112,对各候选特征分别绘制ROC曲线;S113,筛选出AUC≥预设值的候选特征,作为待检特征;其中,各样本的候选特征选自如下特征中的多个:1)文库浓度;2)CNV;3)异常比对reads;4)插入片段大小;5)末端碱基;优选地,预设值≥0.7;优选地,测序数据的测序深度为0.1×~1×。
通过上述实施例筛选出与预测结果关联性比较高的特征作为待检特征,进而作为机器学习的特征数据进行模型构建,从而使所构建模型的预测结果准确性较高。上述预设值越高,筛选的特征与预测结果之间的关联性就越高。筛选待检特征所用的测序数据为低深度全基因组测序数据时,该模型预测结构准确性高的优势相对更明显。
上述各待检特征中,根据实际需要可以进一步划分为更细节的特征,从而筛选出更细节的特征数据。在一种优选的实施例中,2)CNV包括CNV个数及CNV总长度;优选地,3)异常比对reads包括:soft-clip reads(软截断reads)占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及第一比例与第二比例之和;优选地,4)插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;优选地,5)末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。
通过对上述更细节的特征进行筛选,有利于筛选到与预测结果相关性更准确的特征,从而利于构建出准确性更高的预测模型。
不同来源的测序数据均可采用上述筛选方法,或者参照上述筛选方法筛选出相关性比较高的特征来进行机器学习,从而构建模型。在一种优选的实施例中,待检特征选自如下多种:a.文库浓度;b. 插入片段大于100000bp的reads占总reads数的比例;c. CNV个数;d. CNV总长度;e. 不同插入片段长度范围的reads数占总reads数的比例的熵;f.支持reads末端1bp的reads数各占总reads数的比例;g. 支持reads末端1bp的reads数各占总reads数的比例的熵;h.支持reads末端2bp的reads数各占总reads数的比例;i. 支持reads末端2bp的reads数各占总reads数的比例的熵。该优选实施例适合用于构建多种疾病的筛查模型,更适合用于构建来源于非小细胞癌样本的筛查模型。
为了更进一步提高所筛选的待检特征的准确度,在一种优选的实施例中,上述不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140 bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。按照10bp长度范围来筛选不同插入片段长度范围对筛查模型筛查结果准确性的影响,从而便于利用更相关的长度范围的插入片段来进行模型构建。通用地,利用这些更相关的插入片段长度进行模型构建,得到的模型的筛查准确性也更高。
此处需要说明的是,本申请主要通过筛选与所处理的测序数据高度相关的特征数据来进行机器学习,从而构建得到筛查模型。具体的机器学习的方法可以是现有的方法(比如随机森林),也可以是在现有机器学习方法基础上改进的方法。
实施例2
目标:以非小细胞癌为例,通过处理后的数据特征,进行模型训练,然后使用测试集验证模型准确性。
步骤:如图1所示,
步骤A.:收集38个健康人样本,14个癌症样本,分别建立训练集(包括31例健康人样本,10例癌症样本)和测试集(包括7例健康人样本,4例癌症样本)。
步骤B:对各样本建库浓度进行处理,获得样本建库浓度文件,第一列为样本名,第二列为浓度。
步骤C:统计每个样本的CNV个数以及CNV总长度,文件第一列为样本名,第二列为大片段CNV个数,第三列为CNV总长度。
步骤D:读取样本bam文件,统计soft-clip reads占所有reads比例,插入片段长度大于100000bp的reads比例,以及这两种异常reads总的比例。
步骤E:分别统计不同插入片段长度范围的reads数占所有reads比例,以及该范围内reads所占比例的熵 (shannonEntropy)。 插入片段长度:90-100、100-110、110-120、120-130、130-140、140-150、150-160、160-170、170-180、330-390 bp。
步骤F:统计样本reads末端1-5个bp长度(即分别为1bp、2bp、3bp、4bp或5bp)的碱基组合类型,计算支持各碱基组合类型的reads数占总reads数比例,最终得到1bp、2bp、3bp、4bp或5bp长度下支持碱基组合reads比例的熵(5个)。
步骤G: 对以上各个数据特征绘制ROC曲线,过滤AUC<0.7的特征。
经过过滤,最终保留如下特征:文库浓度;插入片段长度大于100000bp的reads比例;CNV 个数、CNV总长度、如下插入片段长度范围内reads所占比例的熵(90-100、100-110、110-120、120-130、130-140、140-150、150-160、160-170、170-180、330-390 bp)、支持末端1bp的reads数占总reads数比例及该比例的熵、支持末端2bp的reads数占总reads数比例及该比例的熵共16种特征,ROC曲线见图2至图5。
使用随机森林模型对以上特征进行训练,使用测试集进行验证,ROC曲线见图6(AUC=92.9%)。从图6可以看出,该筛查模型的预测准确性在80%以上。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
对应于上述方式,本申请还分别提供了一种建立检测微卫星不稳定的基线的装置、一种建立检测微卫星不稳定的模型的装置以及一种检测微卫星不稳定的装置,这些装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例3
在本实施例中,提供了一种疾病筛查模型的构建装置,该构建装置包括:筛选模块和模型构建模块,其中,
筛选模块,用于从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;
模型构建模块,用于利用多个待检特征进行机器学习,从而构建得到测序数据的筛查模型。
上述疾病筛查装置,根据目标疾病的不同,利用筛选模块对多个阳性样本和多个阴性样本的测序数据的特征差异,选择出与疾病关联性较强的多个特征作为表征两组不同疾病状态的标志,进而通过模型构建模块利用这些标志(即待检特征)作为机器学习的特征数据进行建模,从而获得不同疾病的筛查模型。
具体地,上述疾病包括各种能够通过高通量测序数据来辅助检查的任何疾病。比如,各种癌症:肺癌、胃癌、非小细胞癌等。上述阴性样本指的是与患有相应疾病的个体相对应的健康个体。此处的疾病并不局限于人或动物所患的各种可能的疾病,也包括植物或微生物的某种病理状态。
需要说明的是,上述测序数据可以是各种不同深度下的测序数据,包括低深度的全基因组测序数据,或者深度相对较高的测序数据。测序深度较高,是利用增加测序深度来实现模型筛查准确性的,而采用低深度的全基因组测序数据进行模型构建来提高检测准确性,则不依赖于基因数量增多或测序深度增加。
上述待检特征,根据具体测序数据的来源不同(比如不同癌种),具体特征筛选的过程可能也有所不同,相应地,所筛选到的待测特征也可能有所不同。
根据不同的筛选模块所筛选到的待检特征可能存在一些差异,但只要具有多个待检特征即可采用机器学习的方法进行模型构建,具体的机器学习模块可以采用已知的,或者对其进行改进的模块。
在一种优选的实施例中,上述筛选模块包括:统计模块,用于统计两组测序数据中各样本的候选特征;曲线绘制模块,用于对各候选特征分别绘制ROC曲线;特征模块,用于筛选出AUC≥预设值的候选特征,作为待检特征;其中,各样本的候选特征选自如下特征中的多个:1)文库浓度;2)CNV;3)异常比对reads;4)插入片段大小;5)末端碱基;优选地,预设值≥0.7;优选地,测序数据的测序深度为0.1×~1×。
在一种优选的实施例中, 2)CNV包括CNV个数及CNV总长度;优选地,3)异常比对reads包括:soft-clip reads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及第一比例与第二比例之和;优选地,4)插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;优选地,5)末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。
在一种优选的实施例中,待检特征选自如下多种:a.文库浓度;b. 插入片段大于100000bp的reads占总reads数的比例;c. CNV个数;d. CNV总长度;e. 不同插入片段长度范围的reads数占总reads数的比例的熵;f.支持reads末端1bp的reads数各占总reads数的比例;g. 支持reads末端1bp的reads数各占总reads数的比例的熵;h.支持reads末端2bp的reads数各占总reads数的比例;i. 支持reads末端2bp的reads数各占总reads数的比例的熵。
在一种优选的实施例中,不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140 bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。
实施例4
本实施例中还提供了一种疾病筛查模型,该疾病筛查模型采用上述任一种构建方法构建而成。
实施例5
本实施例中提供了一种疾病筛查装置,该疾病筛查装置包括上述任一种疾病筛查模型。
此外,本实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种疾病筛查模型的构建方法。
本实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种疾病筛查模型的构建方法。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本发明通过纳入文库浓度,大片段CNV个数、长度、soft-clipped reads比例、read-paired reads比例、abnormal reads比例、不同插入片段长度比例之和以及不同长度插入片段熵等特征,通过健康样本与非小细胞肺癌肿瘤样本建立训练集与测试集,通过机器学习的方法,建立癌症早筛模型,对非小细胞肺癌进行早期筛查。
相对于其他检测方案,本申请的模型和装置将多个数据特征结合,包含了文库浓度、CNV、异常reads及插入片段长度等多方面信息,增加癌症早筛的准确性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种疾病筛查模型的构建方法,其特征在于,所述构建方法包括:
从两组测序数据中筛选出满足预测条件的多个待检特征,所述两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;
利用多个所述待检特征进行机器学习,从而构建得到所述疾病筛查模型;
从两组测序数据中筛选出满足预测条件的多个待检特征包括:
统计所述两组测序数据中各样本的候选特征;
对各所述候选特征分别绘制ROC曲线;
筛选出AUC≥预设值的所述候选特征,作为所述待检特征;
其中,各样本的所述候选特征选自如下特征:
1)文库浓度;
2)CNV;
3)异常比对reads;
4)插入片段大小;
5)末端碱基。
2.根据权利要求1所述的构建方法,其特征在于,所述预设值≥0.7。
3.根据权利要求1所述的构建方法,其特征在于,所述测序数据的测序深度为0.1×~1×。
4.根据权利要求1所述的构建方法,其特征在于, 2)所述CNV包括CNV个数及CNV总长度;
3)所述异常比对reads包括:soft-clip reads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及所述第一比例与所述第二比例之和;
4)所述插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;
5)所述末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。
5.根据权利要求4所述的构建方法,其特征在于,所述待检特征选自如下多种:
a.文库浓度;
b. 插入片段大于100000bp的reads占总reads数的比例;
c. CNV个数;
d. CNV总长度;
e. 不同插入片段长度范围的reads数占总reads数的比例的熵;
f.支持reads末端1bp的reads数各占总reads数的比例;
g. 支持reads末端1bp的reads数各占总reads数的比例的熵;
h.支持reads末端2bp的reads数各占总reads数的比例;
i. 支持reads末端2bp的reads数各占总reads数的比例的熵。
6.根据权利要求5所述的构建方法,其特征在于,所述不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140 bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。
7.一种疾病筛查模型的构建装置,其特征在于,所述构建装置包括:
筛选模块,用于从两组测序数据中筛选出满足预测条件的多个待检特征,所述两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;
模型构建模块,用于利用多个所述待检特征进行机器学习,从而构建得到所述测序数据的筛查模型;
所述筛选模块包括:
统计模块,用于统计所述两组测序数据中各样本的候选特征;
曲线绘制模块,用于对各所述候选特征分别绘制ROC曲线;
特征模块,用于筛选出AUC≥预设值的所述候选特征,作为所述待检特征;
其中,各样本的所述候选特征选自如下特征中的多个:
1)文库浓度;
2)CNV;
3)异常比对reads;
4)插入片段大小;
5)末端碱基。
8.根据权利要求7所述的构建装置,其特征在于,所述预设值≥0.7。
9.根据权利要求7所述的构建装置,其特征在于,所述测序数据的测序深度为0.1×~1×。
10.根据权利要求7所述的构建装置,其特征在于, 2)所述CNV包括CNV个数及CNV总长度;
3)所述异常比对reads包括:soft-clip reads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及所述第一比例与所述第二比例之和;
4)所述插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;
5)所述末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。
11.根据权利要求10所述的构建装置,其特征在于,所述待检特征选自如下多种:
a.文库浓度;
b. 插入片段大于100000bp的reads占总reads数的比例;
c. CNV个数;
d. CNV总长度;
e. 不同插入片段长度范围的reads数占总reads数的比例的熵;
f.支持reads末端1bp的reads数各占总reads数的比例;
g. 支持reads末端1bp的reads数各占总reads数的比例的熵;
h.支持reads末端2bp的reads数各占总reads数的比例;
i. 支持reads末端2bp的reads数各占总reads数的比例的熵。
12.根据权利要求11所述的构建装置,其特征在于,所述不同插入片段长度范围包括90-100 bp、100-110 bp、110-120 bp、120-130 bp、130-140 bp、140-150 bp、150-160 bp、160-170 bp、170-180bp及330-390bp。
13.一种疾病筛查模型,其特征在于,所述疾病筛查模型采用权利要求1至6中任一项所述的疾病筛查模型的构建方法构建而成。
14.一种疾病筛查装置,其特征在于,所述疾病筛查装置包括权利要求13所述的疾病筛查模型。
15.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的疾病筛查模型的构建方法。
16.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的疾病筛查模型的构建方法。
CN202110228795.1A 2021-03-01 2021-03-01 疾病筛查模型的构建方法、疾病筛查模型及筛查装置 Active CN112599251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110228795.1A CN112599251B (zh) 2021-03-01 2021-03-01 疾病筛查模型的构建方法、疾病筛查模型及筛查装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110228795.1A CN112599251B (zh) 2021-03-01 2021-03-01 疾病筛查模型的构建方法、疾病筛查模型及筛查装置

Publications (2)

Publication Number Publication Date
CN112599251A true CN112599251A (zh) 2021-04-02
CN112599251B CN112599251B (zh) 2022-02-18

Family

ID=75207679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228795.1A Active CN112599251B (zh) 2021-03-01 2021-03-01 疾病筛查模型的构建方法、疾病筛查模型及筛查装置

Country Status (1)

Country Link
CN (1) CN112599251B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847285A (zh) * 2018-05-09 2018-11-20 吉林大学 基于机器学习的孕前期及孕中期唐氏综合征筛查方法
CN109943636A (zh) * 2019-04-11 2019-06-28 上海宝藤生物医药科技股份有限公司 一种结直肠癌微生物标志物及其应用
CN111524594A (zh) * 2020-06-12 2020-08-11 山东大学 目标人群血液系统恶性肿瘤筛查系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847285A (zh) * 2018-05-09 2018-11-20 吉林大学 基于机器学习的孕前期及孕中期唐氏综合征筛查方法
CN109943636A (zh) * 2019-04-11 2019-06-28 上海宝藤生物医药科技股份有限公司 一种结直肠癌微生物标志物及其应用
CN111524594A (zh) * 2020-06-12 2020-08-11 山东大学 目标人群血液系统恶性肿瘤筛查系统

Also Published As

Publication number Publication date
CN112599251B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
Lähnemann et al. Eleven grand challenges in single-cell data science
Oh et al. Comparison of accuracy of whole-exome sequencing with formalin-fixed paraffin-embedded and fresh frozen tissue samples
US20210257050A1 (en) Systems and methods for using neural networks for germline and somatic variant calling
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
CN109767810B (zh) 高通量测序数据分析方法及装置
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
Calus et al. Efficient genomic prediction based on whole-genome sequence data using split-and-merge Bayesian variable selection
CN106909806A (zh) 定点检测变异的方法和装置
CN107133493B (zh) 基因组序列的组装方法、结构变异探测方法和相应的系统
Galan et al. CHESS enables quantitative comparison of chromatin contact data and automatic feature extraction
JP6066924B2 (ja) Dna配列のデータ解析法
CN111312334B (zh) 一种影响细胞间通讯的受体-配体系统分析方法
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN108292327A (zh) 下一代测序中检测拷贝数变异的方法
CN110299185A (zh) 一种基于新一代测序数据的插入变异检测方法及系统
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN111180013B (zh) 检测血液病融合基因的装置
CN112289376A (zh) 一种检测体细胞突变的方法及装置
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN112599251B (zh) 疾病筛查模型的构建方法、疾病筛查模型及筛查装置
WO2023124779A1 (zh) 基于三代测序数据检测点突变的分析方法和装置
US20210139977A1 (en) Method for identifying RNA isoforms in transcriptome using Nanopore RNA reads
KR101841265B1 (ko) Nmf를 이용한 표적 염기 서열 해독에서의 바이어스 제거 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant