CN110819700A - 一种构建肺部小结节计算机辅助检测模型的方法 - Google Patents

一种构建肺部小结节计算机辅助检测模型的方法 Download PDF

Info

Publication number
CN110819700A
CN110819700A CN201810911216.1A CN201810911216A CN110819700A CN 110819700 A CN110819700 A CN 110819700A CN 201810911216 A CN201810911216 A CN 201810911216A CN 110819700 A CN110819700 A CN 110819700A
Authority
CN
China
Prior art keywords
subject
variation
gene
prediction set
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810911216.1A
Other languages
English (en)
Inventor
刘小军
尹潼
陶涛
张玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jielihao Medical Technology Co.,Ltd.
Original Assignee
Hangzhou M Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou M Gene Technology Co Ltd filed Critical Hangzhou M Gene Technology Co Ltd
Priority to CN201810911216.1A priority Critical patent/CN110819700A/zh
Publication of CN110819700A publication Critical patent/CN110819700A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种构建肺部小结节计算机辅助检测模型的方法,包括:获取受试者支气管上皮细胞,提取RNA;根据RNA构建双链cDNA文库并进行测序;将测序结果与参考基因组进行比对,选择受试者的差异显著基因和差异显著变异;将差异显著基因和差异显著变异组合成的向量及肺部小结节良恶性作为样本数据;将受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值;对预测集中受试者的临床数据和CT影像数据非量纲化,结合非量纲化后数据综合值及模型输出值推导Roc拟合曲线并计算下面积,调整协方差和惩罚因子为下面积最大值对应的值,得到肺部小结节计算机辅助检测模型。

Description

一种构建肺部小结节计算机辅助检测模型的方法
技术领域
本发明涉及计算机技术领域。更具体地,涉及一种构建肺部小结节计算机辅助检测模型的方法。
背景技术
肺部小结节被定义为肺内直径≤2cm的类圆形或不规则形病灶,影像学表现为密度增高的阴影,可单发或多发,边界清晰或不清晰。人体肺部所患有的大多数疾病都会导致结节的形成,肺部结节情况又主要包括良性病变与恶性病变两种。其中,良性病变主要包括错构瘤、血管瘤、炎性假瘤以及结核球等,而恶性病变则主要是指细支气管肺泡癌、肺腺癌等原发性肺癌病症或机体其他部位恶性肿瘤的转移现象。相关临床研究表明,80%~90%比例的结节病变以CT扫描属于良性病变,随着时间的推移,部分良性结节会转化为恶性,最终威胁人体的生命安全。研究发现,直径>1cm的肺部小结节恶性概率高达50%~60%。因此肺部恶性小结节的早诊断、早治疗对预后具有重要意义。常规的诊断方法,如纤支镜检查、EBUS、TBNA、经皮肺穿刺及痰脱落细胞学检查等对肺部恶性小结节诊断假阴性率较高。部分患者需通过手术的方式获取病理组织进行良恶性鉴别,诊断率较高,但创伤较大。目前临床上发现结节的诊断策略,大多是医师对筛查者的临床特征(如病程、临床症状、既往肿瘤史及家族史、烟草摄入等情况)、影像学特点及实验室检验等因素进行综合考量后,作出良恶性的初步判断,并依此决定后续的干预措施。因此干预是否及时、合理,与医生个人的临床经验、诊断水平密切相关。在各地医疗发展水平仍存在明显差异的现状下,如何寻找一个相对客观的评价标准具有更重要的意义。
研究表明,恶性肺部结节的生成的同时,呼吸道上皮细胞也会产生损伤存在不同程度的杂合性丢失(Loss of heterozygosity,LOH),即上皮细胞基因组中原有生物学效应的基因组出现了丢失,在转录过程中不起作用,不能翻译成相应的蛋白质起生物学效应。通过对曾吸烟者和现吸烟者的基因组进一步研究,发现恶性结节携带的一些基因损伤同时也存在于这些病人的非癌变呼吸道上皮细胞中。进一步研究表明,LOH不仅存在于有恶性结节一侧的支气管中,在不携带恶性结节的另一侧的支气管中也发现了LOH。基因缺失或异常扩增的最终影响体现在基因转录翻译过程中,转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。随着技术进步,RNA-seq技术成为转录组分析的首选,通过逆转录的cDNA文库进行从头拼接,形成全基因组范围内的转录谱,可用于检测基因表达的丰度。
成千上万个基因表达和最终结节是否发生恶性突变的结果,并非存在简单的线性关系。以机器学习方法从已经积累的数据和知识出发,大规模的自动联配序列,找出背后的生物学功能学联系,正适合于处理这种数据量大、含有噪声并且缺乏统一理论的领域。同时,病人的性别、既病史、遗传性以及CT影像资料,在临床中都是进行良恶性的重要依据。
因此,需要提供一种结合RNA表达谱、临床数据和CT影响数据构建肺部小结节计算机辅助检测模型的方法。
发明内容
本发明的目的在于提供一种结合RNA表达谱、临床数据和CT影响数据构建肺部小结节计算机辅助检测模型的方法。
为达到上述目的,本发明采用如下技术方案:
一种构建肺部小结节计算机辅助检测模型的方法,包括:
获取受试者支气管上皮细胞,提取受试者上皮细胞RNA;
根据受试者上皮细胞RNA构建双链cDNA文库并进行测序;
将测序结果与参考基因组进行比对,根据比对结果选择受试者的差异显著基因和差异显著变异;
将受试者的差异显著基因和差异显著变异组合成的向量及表征肺部小结节良恶性的(0,1)值作为样本数据;
将受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值;
获取预测集中受试者的临床数据和CT影像数据,并分别将所述临床数据和CT影像数据非量纲化为(0,1)值,结合非量纲化后的临床数据和CT影像数据的综合值及预测集的模型输出值推导Roc拟合曲线并计算Roc拟合曲线下面积Auc,调整协方差和惩罚因子为下面积Auc最大值对应的协方差和惩罚因子取值,将协方差和惩罚因子调整后的所述采用径向基核函数的支持向量机模型作为肺部小结节计算机辅助检测模型。
优选地,所述对每一受试者上皮细胞RNA构建双链cDNA文库并进行测序包括:
检测受试者上皮细胞RNA的纯度、浓度和完整性是否合格;
对于检测合格的受试者上皮细胞RNA,去除RNA中的rRNA,将mRNA随机打断成片段,合成双链cDNA并纯化,对纯化后的双链cDNA进行末端修复和接头连接,最后进行PCR扩增以构建双链cDNA文库并进行测序。
优选地,所述根据比对结果选择差异显著基因包括:
根据比对结果计算受试者的各基因的RPKM值;
构建受试者群体不同基因表达量的RPKM矩阵,RPKM矩阵的第一列为基因名及相关信息,RPKM矩阵中从第二列起各列分别为各受试者对应基因的RPKM值,
对于RPKM矩阵的每一行,根据肺部小结节良恶性分组进行T检验,以得到不同基因表达量的P值向量;
根据P值向量的大小选出差异显著的基因。
优选地,所述根据比对结果选择差异显著变异包括:
根据比对结果进行基于SNP Calling的变异检测,得到受试者的变异信息;
构建受试者群体的变异信息矩阵,变异信息矩阵中每一列为一个受试者变异信息,变异信息矩阵中每一行代表一个特定的变异;
对于变异信息矩阵的每一行,根据肺部小结节良恶性分组进行卡方检验,以得到不同变异的P值向量,
根据P值向量大小选出差异显著的变异。
优选地,所述根据比对结果进行基于SNP Calling的变异检测,得到受试者的变异信息包括:
根据比对结果进行基于SNP Calling的变异检测,得到VCF格式的记录基因突变的变异信息,VCF格式的记录基因突变的变异信息包括以#开头的注释信息和包括多列变异信息的突变信息。
优选地,该方法还包括:
增加受试者个数,更新受试者的样本数据;
将更新后的受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于所述采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值。
优选地,所述受试者的临床数据包括年龄、性别、吸烟状态、咳嗽情况、呼吸状况、咯血情况、发热情况、过敏史和三代内肺癌史,所述受试者的CT影像数据包括结节肺内位置、整体分布、数量、病变质地、边缘是否规则、有无毛边和结节大小。
本发明的有益效果如下:
本发明所述技术方案建立的构建肺部小结节计算机辅助检测模型的检测率大于90%,错误率不高于5%,检测正确率高且检测与调整消耗的计算资源小,适应性好,易于实现。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出一种构建肺部小结节计算机辅助检测模型的方法的流程图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
本实施例提供的构建肺部小结节计算机辅助检测模型的方法,以机器学习方法对疑似肺部来性结节的病人的支气管上皮细胞RNAseq数据进行分析,结合临床信息和影像学,以建立起区分恶性/非恶性小结节的模型。
如图1所示,本实施例提供的构建肺部小结节计算机辅助检测模型的方法包括:
获取受试者支气管上皮细胞,提取受试者上皮细胞RNA;
根据受试者上皮细胞RNA构建双链cDNA文库并进行测序;
将测序结果与参考基因组进行比对,根据比对结果选择受试者的差异显著基因和差异显著变异;
将受试者的差异显著基因和差异显著变异组合成的向量及表征肺部小结节良恶性的(0,1)值作为样本数据,其中,0代表肺部小结节为良性,1代表肺部小结节为恶性;
将受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值;
获取预测集中受试者的临床数据和CT影像数据,并分别将所述临床数据和CT影像数据非量纲化为(0,1)值,结合非量纲化后的临床数据和CT影像数据的综合值及预测集的模型输出值推导Roc拟合曲线并计算Roc拟合曲线下面积Auc,调整协方差和惩罚因子为下面积Auc最大值对应的协方差和惩罚因子取值,将协方差和惩罚因子调整后的所述采用径向基核函数的支持向量机模型作为肺部小结节计算机辅助检测模型。
在本实施例的一些可选的实现方式中,对每一受试者上皮细胞RNA构建双链cDNA文库并进行测序包括:
检测受试者上皮细胞RNA的纯度、浓度和完整性是否合格;
对于检测合格的受试者上皮细胞RNA,去除RNA中的rRNA,将mRNA随机打断成片段,合成双链cDNA并纯化,对纯化后的双链cDNA进行末端修复和接头连接,进行片段大小选择,最后进行PCR扩增以构建双链cDNA文库并进行测序。
本实施例中利用计算机操作时,双链cDNA文库构建完成后,对双链cDNA文库的插入片段大小和浓度进行定量;库检合格后,上机测序,得到Fastq格式的双端测序结果RawData。对RawData文件,去除在构建文库中加入的接头和Index,以及去除低测序质量的测序结果数据,得到Fastq格式的CleanData。之后,对于“将测序结果与参考基因组进行比对”,对单个受试者的CleanData,通过比对软件比对到参考基因组上,获得的比对结果。其中,参考基因组是一个业内标准的个人基因组的序列文件,包括hg19/GRCh37、hg38/GRCh38、炎黄基因组等。
在本实施例的一些可选的实现方式中,根据比对结果选择差异显著基因包括:
根据比对结果计算受试者的各基因的RPKM值;
构建受试者群体不同基因表达量的RPKM矩阵,RPKM矩阵的第一列为基因名及相关信息,RPKM矩阵中从第二列起各列分别为各受试者对应基因的RPKM值,
对于RPKM矩阵的每一行,根据肺部小结节良恶性分组进行T检验,以得到不同基因表达量的P值向量;
根据P值向量的大小选出差异显著的基因。
在本实施例的一些可选的实现方式中,根据比对结果选择差异显著变异包括:
根据比对结果进行基于SNP Calling的变异检测,得到受试者的变异信息;
构建受试者群体的变异信息矩阵,变异信息矩阵中每一列为一个受试者变异信息,变异信息矩阵中每一行代表一个特定的变异,
对于变异信息矩阵的每一行,根据是否肺部小结节良恶性分组进行卡方检验,以得到不同变异的P值向量,
根据P值向量大小选出差异显著的变异。
其中,RPKM(Reads Per Kilobase per Million):一个基因的RPKM反映了该基因的相对表达量,数值越高基因表达量越大。RPKM是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位),其公式为:
Figure BDA0001761876870000061
其中,total exon reads/mapped reads(millions)为所有read数中map到相应基因的百分数。
在本实施例的一些可选的实现方式中,根据比对结果进行基于SNP Calling的变异检测,得到受试者的变异信息包括:
根据比对结果进行基于SNP Calling的变异检测,得到VCF格式的记录基因突变的变异信息,VCF格式的记录基因突变的变异信息包括以#开头的注释信息和包括多列变异信息的突变信息。
本实施例中,SNP Calling是指检测染色体上上不同位点变异SNP的过程,变异的解释例如比如1号染色体上10255号位置标准是A,实际测出是G,这就是一个变异。VCF格式在生物信息学中特指一种记录基因突变的,用于表示突变信息的文本格式;可以用来表示生物学意义上的单核酸多态性(single nucleotide Polymorphism,SNP)、基因缺失/插入(insertions/deletions,indel)、拷贝数变化(copy number variants and structuralvariants,CNV)等。VCF格式分为两大部分,一部分是以#开头,是对该文件的来源、生成时间等进行说明的注释信息;另一部分是突变信息,是VCF文件的主要组成部分,每行为一个变异的具体信息,通常有数十列。进行SNP Calling过程利用的软件有GATK、Altalas、Samtools、Freebayes等多种选择。
本实施例中,采用径向基核函数的支持向量机模型把样本数据通过非线性方法映射到高维特征空间中,在空间中寻找最优平面。支持向量机模型的决策函数为
Figure BDA0001761876870000071
其中为α*与Xi对应的分量,b*表示离超平面最近的正函数和离超平面最近的负函数距离相等的值。由于本实施例中用到高维映射,因此本实施例采用径向基核函数(Radial basis function,RBF)作为支持向量机模型的核函数,径向基核函数的定义为k(x,xi)=exp(-||x-xi||2/2σ2)。使用径向基核函数有如下优点:1.所映射的空间是无限维,因此所有样本数据都可以被映射为可区分;2.运算速度快,有专门的运算库进行计算;3.正态分布,符合真实测序分布。径向基核函数中有两个关键参数,即协方差σ和惩罚因子C,协方差σ决定了特征子空间的复杂程度,惩罚因子C的作用是调节支持向量机模型置信区间和经验风险的比例,选择合适的关键参数非常重要。
在本实施例的一些可选的实现方式中,预测集的比例为受试者的样本数据的10%~50%。
在本实施例的一些可选的实现方式中,该方法还包括:
增加受试者个数,更新受试者的样本数据;
将更新后的受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于所述采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值。
本实施例中,受试者的临床数据包括年龄、性别、吸烟状态、咳嗽情况、呼吸状况、咯血情况、发热情况、过敏史和三代内肺癌史等,受试者的CT影像数据包括结节肺内位置、整体分布、数量、病变质地、边缘是否规则、有无毛边和结节大小等。非量纲化为(0,1)值时,对于不同的数据可依据实际情况设定不同的转化标准,总体而言,可对应表征肺部小结节良恶性的(0,1)值,将良好状况转化为0,将不良状况转化为1。
本实施例涉及的术语和概念的解释如下:
转录组:一个细胞在一个时间点,某一生理条件下,细胞内所有转录产物的集合,包括信使RNA(RNA为核糖核酸,Ribonucleic Acid)、核糖体RNA、转运RNA及非编码RNA;其中信使RNA(mRNA)是本实施例采用的对象。
RNA-Seq:用基于第二代测序技术对转录组RNA进行测序。在实际操作中,由于mRNA不稳定容易分解,所以一般要逆转录成稳定的cDNA进行测序(不过最新的SMS方法可能直接对RNA测序)。相对基因芯片,RNA-Seq不需要对已知基因合成探针,能够发现稀有突变等。
SNP:核苷酸多态性(single nucleotide polymorphism,SNP),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。
基因表达谱:是一种在分子生物学领域,借助cDNA、表达序列标签(EST)或寡核苷酸芯片来测定细胞基因表达情况(包括特定基因是否表达、表达丰度、不同组织、不同发育阶段以及不同生理状态下的表达差异)的方法。
简单说就是不同基因表达量的区别。
RPKM(Reads Per Kilobase per Million)和FPKM(Fragments Per Kilobase perMillion):RPKM和FPKM的原理是相似的,区别在于FPKM对应的是DNA片段,比如在一个Illumina的pair-end(双尾)RNA-seq中,一对(两个)reads对应是一个DNA片段。有了RPKM(FPKM)概念,就能比较:同一个样本中两个基因的相对表达量;或者不同样本中同一个基因的相对表达量。当每个RNA都除以自身长度(以1000碱基为单位)时,就可以比较同一个样本中不同基因的相对表达量。相似地,引入“每一百万reads”的原因是,不同的样本可能测序的深度不一样,深度越深,对应的reads数量就越多。如果结果除以各自库的数量那么就能很好地衡量两个不同样本中同一个基因的相对表达量。
支持向量机SVM(Support Vector Machine):其是一种新的基于可以训练的机器学习上的建模方法。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。通过对许多小样本的学习,获得最佳的核心参数及函数。SVM的主要思想可以概括为两点:它即可应用于线性可分的样本,也可应用于线性不可分的样本。对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。最大的优点,能处理“上千维”的数据量,如在本实施例中涉及到的几千种基因表达量变化和突变。最后,会得到一个含有最重要的“特征值”的变量集,包括基因图谱变化,携带的基因突变等。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
还需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (7)

1.一种构建肺部小结节计算机辅助检测模型的方法,其特征在于,包括:
获取受试者支气管上皮细胞,提取受试者上皮细胞RNA;
根据受试者上皮细胞RNA构建双链cDNA文库并进行测序;
将测序结果与参考基因组进行比对,根据比对结果选择受试者的差异显著基因和差异显著变异;
将受试者的差异显著基因和差异显著变异组合成的向量及表征肺部小结节良恶性的(0,1)值作为样本数据;
将受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值;
获取预测集中受试者的临床数据和CT影像数据,并分别将所述临床数据和CT影像数据非量纲化为(0,1)值,结合非量纲化后的临床数据和CT影像数据的综合值及预测集的模型输出值推导Roc拟合曲线并计算Roc拟合曲线下面积Auc,调整协方差和惩罚因子为下面积Auc最大值对应的协方差和惩罚因子取值,将协方差和惩罚因子调整后的所述采用径向基核函数的支持向量机模型作为肺部小结节计算机辅助检测模型。
2.根据权利要求1所述的方法,其特征在于,所述对每一受试者上皮细胞RNA构建双链cDNA文库并进行测序包括:
检测受试者上皮细胞RNA的纯度、浓度和完整性是否合格;
对于检测合格的受试者上皮细胞RNA,去除RNA中的rRNA,将mRNA随机打断成片段,合成双链cDNA并纯化,对纯化后的双链cDNA进行末端修复和接头连接,最后进行PCR扩增以构建双链cDNA文库并进行测序。
3.根据权利要求1所述的方法,其特征在于,所述根据比对结果选择差异显著基因包括:
根据比对结果计算受试者的各基因的RPKM值;
构建受试者群体不同基因表达量的RPKM矩阵,RPKM矩阵的第一列为基因名及相关信息,RPKM矩阵中从第二列起各列分别为各受试者对应基因的RPKM值,
对于RPKM矩阵的每一行,根据肺部小结节良恶性分组进行T检验,以得到不同基因表达量的P值向量;
根据P值向量的大小选出差异显著的基因。
4.根据权利要求1所述的方法,其特征在于,所述根据比对结果选择差异显著变异包括:
根据比对结果进行基于SNP Calling的变异检测,得到受试者的变异信息;
构建受试者群体的变异信息矩阵,变异信息矩阵中每一列为一个受试者变异信息,变异信息矩阵中每一行代表一个特定的变异;
对于变异信息矩阵的每一行,根据肺部小结节良恶性分组进行卡方检验,以得到不同变异的P值向量,
根据P值向量大小选出差异显著的变异。
5.根据权利要求4所述的方法,其特征在于,所述根据比对结果进行基于SNP Calling的变异检测,得到受试者的变异信息包括:
根据比对结果进行基于SNP Calling的变异检测,得到VCF格式的记录基因突变的变异信息,VCF格式的记录基因突变的变异信息包括以#开头的注释信息和包括多列变异信息的突变信息。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:
增加受试者个数,更新受试者的样本数据;
将更新后的受试者的样本数据随机划分为训练集和预测集,对训练集和预测集基于所述采用径向基核函数的支持向量机模型进行多次训练,得到预测集的模型输出值。
7.根据权利要求1所述的方法,其特征在于,所述受试者的临床数据包括年龄、性别、吸烟状态、咳嗽情况、呼吸状况、咯血情况、发热情况、过敏史和三代内肺癌史,所述受试者的CT影像数据包括结节肺内位置、整体分布、数量、病变质地、边缘是否规则、有无毛边和结节大小。
CN201810911216.1A 2018-08-10 2018-08-10 一种构建肺部小结节计算机辅助检测模型的方法 Pending CN110819700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810911216.1A CN110819700A (zh) 2018-08-10 2018-08-10 一种构建肺部小结节计算机辅助检测模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810911216.1A CN110819700A (zh) 2018-08-10 2018-08-10 一种构建肺部小结节计算机辅助检测模型的方法

Publications (1)

Publication Number Publication Date
CN110819700A true CN110819700A (zh) 2020-02-21

Family

ID=69541435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810911216.1A Pending CN110819700A (zh) 2018-08-10 2018-08-10 一种构建肺部小结节计算机辅助检测模型的方法

Country Status (1)

Country Link
CN (1) CN110819700A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833330A (zh) * 2020-07-14 2020-10-27 中国医学科学院生物医学工程研究所 基于影像与机器嗅觉融合的肺癌智能检测方法及系统
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017173428A1 (en) * 2016-04-01 2017-10-05 20/20 Genesystems Inc. Methods and compositions for aiding in distinguishing between benign and maligannt radiographically apparent pulmonry nodules
US20170335396A1 (en) * 2014-11-05 2017-11-23 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
US20180068083A1 (en) * 2014-12-08 2018-03-08 20/20 Gene Systems, Inc. Methods and machine learning systems for predicting the likelihood or risk of having cancer
CN108346466A (zh) * 2018-01-22 2018-07-31 杭州米天基因科技有限公司 一种利用支持向量机构建肺癌计算机辅助检测模型的方法
CN108949979A (zh) * 2018-07-11 2018-12-07 深圳市海普洛斯生物科技有限公司 一种通过血液样本判断肺结节良恶性的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170335396A1 (en) * 2014-11-05 2017-11-23 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
US20180068083A1 (en) * 2014-12-08 2018-03-08 20/20 Gene Systems, Inc. Methods and machine learning systems for predicting the likelihood or risk of having cancer
WO2017173428A1 (en) * 2016-04-01 2017-10-05 20/20 Genesystems Inc. Methods and compositions for aiding in distinguishing between benign and maligannt radiographically apparent pulmonry nodules
US20190131016A1 (en) * 2016-04-01 2019-05-02 20/20 Genesystems Inc. Methods and compositions for aiding in distinguishing between benign and maligannt radiographically apparent pulmonary nodules
CN108346466A (zh) * 2018-01-22 2018-07-31 杭州米天基因科技有限公司 一种利用支持向量机构建肺癌计算机辅助检测模型的方法
CN108949979A (zh) * 2018-07-11 2018-12-07 深圳市海普洛斯生物科技有限公司 一种通过血液样本判断肺结节良恶性的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833330A (zh) * 2020-07-14 2020-10-27 中国医学科学院生物医学工程研究所 基于影像与机器嗅觉融合的肺癌智能检测方法及系统
CN111899882A (zh) * 2020-08-07 2020-11-06 北京科技大学 一种预测癌症的方法及系统
CN111899882B (zh) * 2020-08-07 2021-06-18 北京科技大学 一种预测癌症的方法及系统

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
KR102357959B1 (ko) 암 검출을 위한 혈장 dna의 크기 및 수 비정상의 이용 방법
US20210098078A1 (en) Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay
CN107771221B (zh) 用于癌症筛查和胎儿分析的突变检测
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
US20210065847A1 (en) Systems and methods for determining consensus base calls in nucleic acid sequencing
CN103201744B (zh) 用于估算全基因组拷贝数变异的方法
CN113366122B (zh) 游离dna末端特征
CN113257350A (zh) 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置
KR102029393B1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
CN115702457A (zh) 使用自动编码器确定癌症状态的系统和方法
CN112927755B (zh) 一种鉴定cfDNA变异来源的方法和系统
CN108346466A (zh) 一种利用支持向量机构建肺癌计算机辅助检测模型的方法
CN110819700A (zh) 一种构建肺部小结节计算机辅助检测模型的方法
US20220101135A1 (en) Systems and methods for using a convolutional neural network to detect contamination
US12073921B2 (en) System for increasing the accuracy of non invasive prenatal diagnostics and liquid biopsy by observed loci bias correction at single base resolution
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
KR102225231B1 (ko) 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치
CN113257354B (zh) 基于高通量实验数据挖掘进行关键rna功能挖掘的方法
WO2024007971A1 (en) Analysis of microbial fragments in plasma
US20240312564A1 (en) White blood cell contamination detection
Bhattacharya et al. Transformation of expression intensities across generations of Affymetrix microarrays using sequence matching and regression modeling
Zhang et al. Predicting locus-specific DNA methylation levels in cancer and paracancer tissues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220104

Address after: 200433 16th Floor, 127 Guodao Road, Yangpu District, Shanghai (Centralized Registration Place)

Applicant after: Shanghai Langyu Medical Technology Co.,Ltd.

Address before: 310052 Tianhe Gaoke 5-1201, No. 688, Bin'an Road, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU MITIAN GENE TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231113

Address after: 311100, Room 401, Building 6, Xixitang Business Center, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province -2 South

Applicant after: Hangzhou Jielihao Medical Technology Co.,Ltd.

Address before: 200433 16th Floor, 127 Guodao Road, Yangpu District, Shanghai (Centralized Registration Place)

Applicant before: Shanghai Langyu Medical Technology Co.,Ltd.

TA01 Transfer of patent application right